Está en la página 1de 114

Medidas de Asociacin para variables cualitativas

Pablo A. Salgado estadisticaymetodologia@gmail.com cursoestadistica@caicyt.gov.ar

Cualquier prueba estadstica implica un modelo y un nivel

de medicin; la prueba as es vlida en ciertas condiciones que especifican el modelo y el nivel de medicin.
A veces se puede verificar si las condiciones de un modelo

estadstico particular se han cumplido, pero es ms frecuente que tengamos que suponerlo solamente.
De este modo, las condiciones del modelo estadstico de

una prueba son llamadas las suposiciones de la prueba.


Todas las decisiones logradas mediante el uso de cualquier

prueba estadstica deberan comprobar si el modelo usado fue correcto y el nivel de medicin fue satisfecho.

Es obvio que a medida que las suposiciones que

definen un modelo en particular sean ms escasas, o ms vagas, necesitaremos de menos limitaciones para llegar a una decisin lograda por la prueba estadstica asociada al modelo. Sin embargo, las pruebas ms poderosas son las apoyadas por suposiciones ms fuertes o amplias. Cuando los datos de la investigacin pueden ser analizados adecuadamente por una prueba paramtrica, sta ser el medio ms poderoso para rechazar una Ho falsa. Sin embargo, estas pruebas implican requisitos de aplicacin:

1. Las observaciones deben ser independientes entre s. La

seleccin de un caso cualquiera de la poblacin no debe afectar a las posibilidades de incluir cualquier otro, y la puntuacin que se asigne a un caso cualquiera no debe influir en la puntuacin que se asigne a cualquier otro. 2. Las observaciones deben hacerse en poblaciones distribuidas normalmente. 3. Estas poblaciones deben tener la misma varianza ( o en casos especiales deben tener una proporcin de varianzas conocida). 4. Las variables correspondientes debern haberse medido por lo menos en una escala de intervalo, de manera que sea posible usar las operaciones de aritmtica.

Cuando las variables que se quieren comparar o probar

asociacin entre las mismas (lo contrario a independencia), son cualitativas nominales u ordinales, la forma de compararlas es a travs de las frecuencias observadas en cada categora de la variable. Para ello se construyen tablas de doble entrada o tablas de contingencia, en las cuales se exponen las frecuencias combinadas de las categoras presentes en las dos variables a comparar. En este apunte se muestran modelos para ensayar hiptesis cuando se trabaja con datos frecuenciales o si bien la variable es continua, los datos se han agrupado en categoras con sus frecuencias respectivas, discretizando a una magnitud de tipo continuo.

Cualquiera sea el caso, se pueden hacer los supuestos de que las

muestras fueron extradas de cierta poblacin, donde las frecuencias obtenidas representan las proporciones verdaderas de la frecuencia total en la poblacin. Con los modelos tericos, como la Binomial, Poisson, Gauss, etc. se pueden obtener las frecuencias esperadas. Entonces el problema es comparar las frecuencias observadas contra las frecuencias esperadas predichas por la teora usada. Como la coincidencia entre ambas nunca es total, el problema se reduce a poder determinar si las diferencias observadas entre ellas se deben al azar y la teora es correcta, o de lo contrario se debe rechazar el supuesto realizado. A continuacin se presentan los casos bidimensionales con los llamados test de bondad de ajuste y tests de independencia, en las denominadas Tablas de Contingencia.

Clculo para medir Asociacin entre variables en el SPSS


Pablo A. Salgado estadisticaymetodologia@gmail.com cursoestadistica@caicyt.gov.ar

1. Para calcular asociacin entre variables

prcticamente todos los clculos estadsticos esta concentrado en:


Analizar / Estadstica Descriptiva / Tabla de Contingencia.

2. Para calcular la asociacin entre variables

ordinales, numricas (cuantitativas y puntajes) el clculo est en:


Analizar / Correlaciones / Bivariadas.

1. En el caso que se necesite comprobar ajuste de

una variable observada a una variable terica (Test de Bondad de Ajuste):

Analizar / Pruebas no paramtricas / K-S de 1 muestra. Es la prueba de Bondad de Ajuste de Kolmogorov Smirmov. Analizar / Estadstica Descriptiva / Explorar / Grficos / Grficos con prueba de normalidad.

2. Tambin para probar Distribucin Normal:

Tablas de Contingencia y Medidas de Asociacin


Pablo A. Salgado estadisticaymetodologia@gmail.com cursoestadistica@caicyt.gov.ar

11

Calcular Asociacin entre Variables

Tabla de contingencia: Estadsticos


Generalmente se ubica en las filas la V.I.

12

Generalmente se ubica en las columnas la V.D. Para estratificar Muestra las opciones de estadsticos

Tipo de frecuencias para mostrar en las celdas

Calcular Asociacin entre Variables


Test de Independencia Asociacin entre dos variables cuantitativas

13

Asociacin entre dos variables ordinales Grado de acuerdo en las mediciones Riesgo Relativo y Odds Ratio

Anlisis Bivariado
Tablas de Contingencia Chi Cuadrado
Pablo A. Salgado estadisticaymetodologia@gmail.com cursoestadistica@caicyt.gov.ar

Para las tablas con dos filas y dos columnas, seleccione

15

Chi-cuadrado para calcular el chi-cuadrado de Pearson, el chi-cuadrado de la razn de verosimilitud, la prueba exacta de Fisher y el chi-cuadrado corregido de Yates (correccin por continuidad). Fisher cuando una tabla (que no resulte de perder columnas o filas en una tabla mayor) presente una casilla con una frecuencia esperada menor de 5.

Para las tablas 2 2, se calcula la prueba exacta de

Para las restantes tablas 2 2 se calcula el chi-cuadrado

con correcciones de Yates.

16

Para las tablas con cualquier nmero de filas y

columnas, seleccione Chi-cuadrado para calcular el chi-cuadrado de Pearson y el chicuadrado de la razn de verosimilitud.
Cuando ambas variables de tabla son

cuantitativas, Chi-cuadrado da como resultado la prueba de asociacin lineal por lineal.

17

Ejemplo de tabla de 2 filas x 2 columnas


Tabla de contingencia 2 x 2 (1 grado de libertad) Variable dependiente Si Variable independiente Presencia Ausencia Frecuencia % por fila Frecuencia % por fila Frecuencia % por fila 28 5,3% 7 1,6% 35 3,6% No 500 94,7% 438 98,4% 938 96,4% Total 528 1,0 445 1,0 973 1,0

Total

Compara frecuencias observadas con las esperadas, es general para todas las tablas de M filas x N columnas, Especfico para las tablas de 2 filas x 2 columnas (Correcciones de Yates) Para tablas de M filas x N columnas
Pruebas de chi-cuadrado

18

Valor Chi-cuadrado de Pearson Correccin por continuidad b Razn de verosimilitudes Estadstico exacto de Fisher Asociacin lineal por lineal N de casos vlidos 9,678 973 9,688 a 8,643 10,504

gl 1 1 1 1

Sig. asinttica (bilateral) 0,002 0,003 0,001

Sig. exacta (bilateral)

Sig. exacta (unilateral)

0,002 0,002

0,001

a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 16,01. b. Calculado slo para una tabla de 2x2. Cuando la F. esperada en una celda es < 5

19

Medidas simtricas
Valor Phi Nominal por nominal V de Cramer Coeficiente de contingencia N de casos vlidos ,100 ,100 ,099 973 Sig. aproximada ,002 ,002 ,002

Medidas de Asociacin

Pablo A. Salgado estadisticaymetodologia@gmail.com

cursoestadistica@caicyt.gov.ar

VARIABLES CON NIEVEL DE MEDICION

21

NOMINAL

Para los datos nominales (sin orden intrnseco), puede seleccionar:


Coeficiente Phi y V de Cramer Coeficiente de contingencia Lambda (lambdas simtricas y asimtricas y tau de

Kruskal y Goodman)

Coeficiente de incertidumbre.

22

Phi y V de Cramer: El coeficiente Phi es una medida del

grado de asociacin entre dos variables dicotmicas (2x2) basada en el estadstico Chi-cuadrado, que toma valores entre 0 y 1. Valores prximos a 0 indicarn no asociacin entre las variables y valores prximos a 1, fuerte asociacin. La V de Cramer es equivalente al Phi para tablas mayores de 2 x 2, tiene la misma interpretacin. Coeficiente de contingencia: Medida de asociacin basada en chi-cuadrado. El valor siempre est comprendido entre 0 y 1. El valor 0 indica que no hay asociacin entre la fila y la columna. Los valores cercanos a 1 indican que hay gran relacin entre las variables.

Lambda: Medida de asociacin que refleja la reduccin

23

proporcional en el error cuando se utilizan los valores de la variable independiente para pronosticar los valores de la variable dependiente. Un valor igual a 1 significa que la variable independiente pronostica perfectamente la variable dependiente. Un valor igual a 0 significa que la variable independiente no ayuda a pronosticar la variable dependiente. Coeficiente de incertidumbre: Medida de asociacin que indica la reduccin proporcional del error cuando los valores de una variable se emplean para pronosticar valores de la otra variable. Por ejemplo, un valor de 0.83 indica que el conocimiento de una variable reduce en un 83% el error al pronosticar los valores de la otra variable. SPSS calcula tanto la versin simtrica como la asimtrica del coeficiente de incertidumbre.

VARIABLES CON NIEVEL DE MEDICION

24

ORDINAL

Para las tablas en las que tanto las filas como las columnas contienen valores ordenados (las dos variables tiene un nivel de medicin ordinal), seleccione:
Tau-b de Kendall Tau-c de Kendall Gamma D de Somers.

Tau-b de Kendall. Medida no paramtrica de la correlacin

25

para variables ordinales o de rangos que tiene en consideracin los empates. El signo del coeficiente indica la direccin de la relacin y su valor absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican relaciones ms fuertes. Los valores posibles van de -1 a 1, slo se puede obtener a partir de tablas cuadradas. Tau-c de Kendall. Medida no paramtrica de asociacin para variables ordinales que ignora los empates. El signo del coeficiente indica la direccin de la relacin y su valor absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican relaciones ms fuertes. Los valores posibles van de -1 a 1.

Gamma. Medida de asociacin simtrica entre dos variables

26

ordinales cuyo valor siempre est comprendido entre -1 y 1. Los valores prximos a 1, en valor absoluto, indican una fuerte relacin entre las dos variables. Los valores prximos a cero indican que hay poca o ninguna relacin entre las dos variables.

d de Somers. Medida de asociacin entre dos variables

ordinales que toma un valor comprendido entre -1 y 1. Los valores prximos a 1, en valor absoluto, indican una fuerte relacin entre las dos variables. Los valores prximos a cero indican que hay poca o ninguna relacin entre las dos variables.

Nominal por intervalo: Cuando una variable es categrica y la

27

otra es cuantitativa, seleccione Eta. La variable categrica debe codificarse numricamente. entre 0 y 1. El valor 0 indica que no hay asociacin entre las variables de fila y de columna. Los valores cercanos a 1 indican que hay gran relacin entre las variables. Eta resulta apropiada para una variable dependiente medida en una escala de intervalo (por ejemplo, ingresos) y una variable independiente con un nmero limitado de categoras (por ejemplo, gnero). Se calculan dos valores de eta: uno trata la variable de las filas como una variable de intervalo; el otro trata la variable de las columnas como una variable de intervalo.

Eta: Medida de asociacin cuyo valor siempre est comprendido

28

Correlaciones:
Para las tablas en las que tanto las columnas como las filas contienen valores numericos:
El coeficiente de correlacin de Pearson mide el grado de asociacin

lineal entre dos variables medidas en escala de intervalo o de razn, tomando valores entre -1 y 1.
El coeficiente de correlacin de Spearman mide a partir de la

asignacin de rangos a los valores ordenados (no paramtrico). Se aplica cuando cada valor en s no es tan importante como su situacin respecto a los restantes. En este sentido es una medida que tambin puede ser adecuada en el caso de variables en escala ordinal. Por lo dems, sus valores se interpretan exactamente igual que los del coeficiente de correlacin de Pearson.

Coeficiente Kappa:
Kappa de Cohen mide el acuerdo entre las

29

evaluaciones de dos jueces cuando ambos estn valorando el mismo objeto. Un valor igual a 1 indica un acuerdo perfecto. Un valor igual a 0 indica que el acuerdo no es mejor que el que se obtendra por azar. Kappa slo est disponible para las tablas cuadradas (tablas en las que ambas variables tienen el mismo nmero de categoras).

Riesgo: Pata tablas 2x2, una medida del grado de asociacin entre la presencia de

30

un factor y la ocurrencia de un evento. Si el intervalo de confianza para el estadstico incluye un valor de 1, no se podr asumir que el factor est asociado con el evento. Cuando la ocurrencia del factor es rara, se puede utilizar la razn de las ventajas (odds ratio) como estimacin del riesgo relativo.

McNemar: Prueba no paramtrica para dos variables dicotmicas relacionadas.

Contrasta los cambios en las respuestas utilizando la distribucin de chi-cuadrado. Es til para detectar cambios en las respuestas debidas a la intervencin experimental en los diseos del tipo "antes-despus". Para las tablas cuadradas de mayor orden se informa de la prueba de simetra de McNemar-Bowker. Mantel-Haenszel pueden utilizarse para contrastar la independencia entre una variable de factor dicotmica y una variable de respuesta dicotmica, condicionadapor los patrones en las covariables, los cuales vienen definidos por la variable o variables de las capas (variables de control). Tenga en cuenta que mientras que otros estadsticos se calculan capa por capa, los estadsticos de Cochran y Mantel-Haenszel se calculan una sola vez para todas las capas.

Estadsticos de Cochran y de Mantel-Haenszel: Los estadsticos de Cochran y

Tablas de contingencia: Mostrar en las casillas

31

Para ayudarle a detectar las tramas en los datos que contribuyen a una

32

prueba de chi-cuadrado significativa, el procedimiento Tablas de contingencia muestra las frecuencias esperadas y tres tipos de residuos (desviaciones) que miden la diferencia entre las frecuencias observadas y las esperadas. Cada casilla de la tabla puede contener cualquier combinacin de recuentos, porcentajes y residuos seleccionados. Recuentos. El nmero de casos realmente observados y el nmero de casos esperados si las variables de fila y columna son independientes entre s. Porcentajes. Los porcentajes se pueden sumar a travs de las filas o a lo largo de las columnas. Tambin se encuentran disponibles los porcentajes del nmero total de casos representados en la tabla (una capa). Residuos. Los residuos brutos no tipificados presentan la diferencia entre los valores observados y los esperados. Tambin se encuentran disponibles los residuos tipificados y tipificados corregidos.

Residuos
No tipificados. La diferencia entre un valor observado y el valor

33

pronosticado por el modelo. El valor pronosticado es el nmero de casos que se esperaran en la casilla si no hubiera relacin entre las dos variables. Un residuo positivo indica que hay ms casos en la casilla de los que habra en ella si las variables de fila y columna fueran independientes. Tipificados. El residuo dividido por una estimacin de su error tpico. Los residuos tipificados, que son conocidos tambin como los residuos de Pearson o residuos estandarizados, tienen una media de 0 y una desviacin tpica de 1. Tipificados corregidos. El residuo de una casilla (valor observado menos valor pronosticado) dividido por una estimacin de su error tpico. El residuo tipificado resultante viene expresado en unidades de desviacin tpica, por encima o por debajo de la media.

Tablas de Contingencia
En las ciencias sociales, del comportamiento y de la salud es

34

muy comn encontrarse con variables categricas. El sexo, la categora laboral, tipo de tratamiento aplicado, presencia o ausencia de sntomas; son ejemplos de este tipo de variables. Son variables que por su nivel de medicin (nominal u ordinal) generalmente se trabaja con la frecuencia de aparicin de las distintas categoras que componen la variable. Cuando se quiere observar la relacin entre dos variables categricas los datos se organizan en tablas de doble entrada o de contingencia.

Ejemplo de Tabla de Contingencia


Archivo: Datos de empleados fin.sav

Pablo A. Salgado estadisticaymetodologia@gmail.com

cursoestadistica@caicyt.gov.ar

36

Ho: hay independencia entre el genero del empleado y el salario. Para ello previamente agrupamos en dos variables el salario: salargr: 4 categoras de salario salargr1: 3 categoras de salario

ANALIZAR -> ESTADSTICOS DESCRIPTIVOS -> TABLAS DE CONTINGENCIA

Procedimiento

37

Cuadro de dilogo
FILAS: Genero del empleado COLUMNAS: Salario Agrupado en 4 categora ESTADSTICOS

En el Cuadro de dilogo tildar

Chi CUADRADO NOMINAL: Coeficiente de Contingencia; Phi y V de Cramer En el Cuadro de dilogo tildar Frecuencias Obserada, Frecuencias esperadas Porcentajes: filas Residuos No tipificados; residuos tipificados corregidos.

CASILLAS

CONTINUAR ACEPTAR

38

39

Salida del SPSS: Prueba de independencia


Se interpreta igual que el chi cuadrado y se usa en modelos log lineales Chi cuadrado calculado
Pruebas de chi-cuadrado Valor 153,394 a 170,138 143,784 474 gl 2 2 1 Sig. asinttica (bilateral) ,000 ,000 ,000

40

Chi-cuadrado de Pearson Razn de verosimilitudes Asociacin lineal por lineal N de casos vlidos

a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 32,35.

Es importante que no haya celdas con frecuencias esperadas menores de 5.

p-valor: es tan pequea que aparecen ceros Por lo que se expresa como p<0,001 Por lo que rechazo Ho y acepto Ha p valor

Medidas de asociacin entre variables


Es para tablas de 2x2
Medidas simtricas Valor ,570 ,570 ,495 474 Sig. aproximada ,000 ,000 ,000 Nominal por nominal Phi V de Cramer Coeficiente de contingencia

41

N de casos vlidos a. Asumiendo la hiptesis alternativa.

b. Empleando el error tpico asinttico basado en la hiptesis nula.

La asociacin con V de Cramer es de 0,57 y segn C. Conting. es de 0,495 Para variables con este nivel de medicin es una asociacin media a alta

Probabilidad: es tan pequea que aparecen ceros Por lo que se expresa como p<0,001 Por lo que rechazo Ho y acepto Ha

Ya probamos que son dependientes y tiene un grado medio a alto de asociacin qu podemos decir entonces?
Para ello nos se realiza el anlisis usando los %

42

por fila o columnas (probabilidades condicionales) y los residuos que como vimos es cuanto se alejan los valores (frecuencias) esperados de los observados y en que direccin.

43

Obsrvese que en la tabla anterior una variable es cualitativa

nominal dicotmica y la otra variable es cuantitativa continua que fue agrupada en 3 categoras, quedando expresada como una variable cualitativa ordinal.
Una forma de comparar estas dos variables podra haber sido

utilizando el promedio del salario y comparar (test de student) si el salario (variable dependiente) esta influenciado por el gnero (variable independiente o factor). En este caso si se probara la hiptesis (Ha), podramos afirmar si el salario es diferente (menor, mayor o igual) dependiendo del gnero del empleado.

44

Al agrupar la variable salario se puede estudiar:


1. 2.

La independencia entre las dos variables. El grado de asociacin que existe entre las dos.

Por lo que permite plantear diferentes hiptesis para las

variables estudiadas. En el caso de comparar dos variables cualitativas ordinales tambin se puede estudiar si la asociacin encontrada es directa o inversa entre las dos variables. Una forma de poder observar si hay relacin entre las variables sera comparando lo que denominamos las probabilidades condicionales (% por filas o % columnas), no obteniendo una significacin estadstica pero si una idea si hay o no asociacin.

Tabla de contingencia: Gnero del empleado por Salario Actual Expresado en % por filas (gnero del empleador)

45

Esto es probabilidad condicional por gnero: Dado que es hombre: cul es la probabilidad que su salario sea .? Dado que es mujer: cul es la probabilidad que su salario sea .? Observen que si el salario y el genero fueran independientes no habra diferencias en los % del Total y los % para cada gnero. Esto es as?

Salario Agrupado % por filas Hombre Mujer Hasta $25.000


7,4% 57,4% 30,2%

$25.000 a $ 50.000
67,4% 39,8% 54,9%

Ms $50.000
25,2% 2,8% 15,0%

Total

Gnero del empleado Total

100,0% (258) 100,0% (216) 100,0% (474)

Tabla de contingencia: Gnero del empleado por Salario Actual

46

Frecuencias Observadas Gnero del empleado Total Frecuencia Esperadas para la independencia Gnero del empleado Total Hombre Mujer Hombre Mujer

Salario Agrupado Hasta $25.000 19 124 143 Hasta $25.000


77,8 65,2

$25.000 a $ 50.000 174 86 260

Ms $50.000 65 6 71 Ms $50.000
38,6 32,4

Total 258 216 474 Total 258 216 474

Salario Agrupado $25.000 a $ 50.000


141,5 118,5

143

260

71

Resultados: Tabla de contingencia con distintos formatos de celda


Tabla de contingencia Gnero del empleado * Salario Agrupado en 4 categora Salario Agrupado en 4 categora Hasta $50.000 $25.000 $25.000 -$ 50.000 -$ 75.000 Mas $50.000 19 174 48 17 77,8 141,5 29,4 9,3 7,4% -58,8 -11,8 124 65,2 57,4% 58,8 11,8 143 143,0 30,2% 67,4% 32,5 6,0 86 118,5 39,8% -32,5 -6,0 260 260,0 54,9% 18,6% 18,6 5,4 6 24,6 2,8% -18,6 -5,4 54 54,0 11,4% 6,6% 7,7 3,8 0 7,7 ,0% -7,7 -3,8 17 17,0 3,6%

47

Gnero del empleado

Hombre

Mujer

Total

Recuento Frecuencia esperada % de Gnero del empleado Residuo Residuos corregidos Recuento Frecuencia esperada % de Gnero del empleado Residuo Residuos corregidos Recuento Frecuencia esperada % de Gnero del empleado

Total 258 258,0 100,0%

216 216,0 100,0%

474 474,0 100,0%

Prueba de Bondad de Ajuste


En este caso se presentan las pruebas estadsticas no

48

paramtricas que pueden usarse para probar una hiptesis que requiere solamente una muestra.
Las pruebas indicarn si la muestra en particular proviene de

una poblacin especfica.


En el caso tpico con una muestra tomada al azar probamos la

hiptesis, de que su extraccin viene de una poblacin con la distribucin especificada.

Prueba de Bondad de Ajuste


Se utiliza para probar si la distribucin de una variable

49

experimental se aproxima a una determinada funcin de distribucin terica esperada.


Se basa en comparar las Frecuencias Observadas versus las

Frecuencias Tericas para la distribucin seleccionada (binomial, normal, etc.).


Luego se usar un estadstico y un nivel de significacin para

definir si las diferencias son al azar.

50

Desarrollo de la prueba estadstica


Planteamiento de hiptesis: H0: La variable en estudio se ajusta a determinada distribucin terica (Uniforme, Exponencial, Normal, Poisson, Binomial). Ha: La variable en estudio tiene un comportamiento aleatorio que no se ajusta a determinada distribucin terica.

51

Pruebas de Kolgomorov-Smirnov (K-S) y Chi-cuadrado (X2)


Prueba de K-S:
Es aplicable solamente a variables aleatorias continuas. Comparar la grfica de la distribucin emprica acumulada con la

correspondiente grfica de la funcin de densidad acumulada de la distribucin terica propuesta. la distribucin terica se ajusta a los datos.

Si hay un acercamiento entre las grficas existe una probabilidad de que

Prueba X 2:
Aplicable a variables contnuas y variables discretas. Compara las funciones de densidad de probabilidad.

Prueba para una distribucin binomial


Supongamos que se desea comprobar que la

52

proporcin de mujeres y hombres que trabajan en la empresa es igual (base: Datos de empleados fin.sav). que trabaje una mujeres en la empresa es del 50%.

Por lo tanto podemos expresar que la probabilidad de

Ho: pmujeres = 0,5 Ha: pmujeres 0,5

53

La prueba de la binomial es una prueba de

bondad de ajuste, que se utiliza para contrastar la hiptesis nula de que la muestra procede de una poblacin en la que las proporciones de individuos que presentan los valores x1, y x2, son iguales a pe (esperada) y a qe= (1 pe), respectivamente:

H0: p = pe y q = qe

Procedimiento
ANALIZAR -> PRUEBAS NO PARAMTRICAS -> BINOMIAL CONTRASTAR VARIABLES:

54

Gnero del empleado

CONTRASTAR PROPORCIN: 0,50 ACEPTAR

Sintaxis

NPAR TEST /BINOMIAL (.50)= sexo1 /MISSING ANALYSIS.

55

56

Salida del SPSS: Prueba de Bondad de ajuste


Prueba binomial Categora Hombre Mujer N 258 216 474 Proporcin observada ,54 ,46 1,00 Prop. de prueba ,50 Sig. asintt. (bilateral) ,060a Gnero del empleado Grupo 1 Grupo 2 Total

57

a. Basado en la aproximacin Z.

p valor

p-valor: es mayor que 0,05 por lo que se acepta Ho

Por lo que puedo afirmar la proporcin de mujeres

y hombres que trabajan en una empresa es igual.

Prueba de Bondad de ajuste Chi cuadrado


Se desea comprobar que el porcentaje de empleados en cada categora

58

laboral que tiene esta empresa es la recomendada segn los estndares internacionales. Segn estos el porcentaje tendra que ser el siguiente:

Administrativo: 80% Seguridad: 7% Directivos: 13%

Comprobar que la distribucin de los empleados en cada una de las

categoras laborales es la recomendada (base: Datos de empleados fin.sav).

Ho: Frecuencias Observ.= Frec. Esperadas Ho: Frecuencias Observ. Frec. Esperadas

Procedimiento
ANALIZAR -> PRUEBAS NO PARAMTRICAS -> Chi cuadrado CONTRASTAR VARIABLES:

59

Categora laboral

VALORES ESPERADOS: Tildar Valores y luego Aadir: 80, 7 y 13 ACEPTAR

Sintaxis

NPAR TEST /CHISQUARE=catlab /EXPECTED=80 7 13 /MISSING ANALYSIS.

60

61

62

Resultados de pruebas no paramtricas: prueba de chi cuadrado


Categora laboral Administrativo Seguridad Directivo Total N observado 363 27 84 474 N esperado 379,2 33,2 61,6 Residual -16,2 -6,2 22,4
Estadsticos de contraste Categora laboral Chi-cuadrado gl Sig. asintt.
a

63

9,971 2 ,007

Frecuencias Observadas

Frecuencias Tericas

Diferencia Obs.-Esp.

p valor

En este caso rechazamos Ho y acemptamos Ha. Lo que indica

que las proporciones recomendadas no son la que tiene esta empresa. Hay demasiados directivos (22,5) y pocos administrativos (-16,2)

Prueba de Bondad de ajuste para una distribucin Normal


Archivo: genero salario.sav
Pablo A. Salgado estadisticaymetodologia@gmail.com cursoestadistica@caicyt.gov.ar

Exploracin de datos:
Para evaluar la normalidad de la distribucin se utiliza

65

los estadsticos de Kolmogorov-Smirnov (K-S) o Shapiro-Wilk (S-W).


Ambos permiten contrastar la Hiptesis Nula de que

los datos muestrales proceden de poblaciones normales.


El estadstico de S-W es robusto cuando la muestra

tiene un N menor o igual a 50.

66

Para SPSS
ANALIZAR -> PRUEBAS NO PARAMETRICAS -> K-S de una muestra CONTRASTAR VARIABLES: Salario actual DISTRIBUCION DE CONTRASTE: Normal
OPCIONES: Descriptivos, Cuartiles CONTINUAR

ACEPTAR

67

Salida del SPSS


Prueba de Kolmogorov-Smirnov para una muestra N Parmetros normales a,b Salario actual 474 $34,419.57 $17,075.661 ,208 ,208 -,143 4,525 ,000

Media Desviacin tpica Absoluta Positiva Negativa

Diferencias ms extremas Z de Kolmogorov-Smirnov Sig. asintt. (bilateral)

a. La distribucin de contraste es la Normal. b. Se han calculado a partir de los datos.

Probabilidad de aceptar Ho

68

Dado que p<0,001 se rechaza la hiptesis de igualdad y se

acepta la hiptesis alternativa.

Lo que indica que las diferencias encontradas entre la

distribucin observada y la distribucin normal son estadsticamente significativas

SINTAXIS
NPAR TESTS /K-S(NORMAL)= salario /MISSING ANALYSIS.

OTRA FORMA DE CALCULAR NORMALIDAD


Usando la opcin Explorar

Pablo A. Salgado estadisticaymetodologia@gmail.com

cursoestadistica@caicyt.gov.ar

Exploracin de datos:
ANALIZAR -> ESTADSTICOS DESCRIPTIVOS ->EXPLORAR DEPENDIENTES: Salario Actual MOSTRAR: GRAFICOS GRAFICOS: DIAGRAMA DE CAJA: NIVEL DE FACTORES JUNTOS CONTINUAR ESTADISTICOS: DESCRIPTIVOS, VALORES ATIPICOS, PERCENTILES CONTINUAR GRAFICOS: DESMARCAR: TALLO Y HOJA MARCAR: HISTOGRAMA, GRAFICOS CON PRUEBA DE NORMALIDAD CONTINUAR ACEPTAR

70

Sintaxis
EXAMINE VARIABLES= salario /PLOT BOXPLOT HISTOGRAM NPPLOT /COMPARE GROUP /PERCENTILES(5,10,25,50,75,90,95) HAVERAGE /STATISTICS DESCRIPTIVES EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

71

Salida del SPSS


Descriptivos Salario actual Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis Estadstico $34,419.57 $32,878.40 $35,960.73 $32,455.19 $28,875.00 291578214,453 $17,075.661 $15,750 $135,000 $119,250 $13,163 2,125 5,378 Error tp. $784.311 Lmite inferior Lmite superior

72

,112 ,224

73
Percentiles Percentiles 50 $28,875.00 $28,875.00

5 Promedio ponderado(definicin 1) Bisagras de Tukey Salario actual Salario actual $19,200.00

10 $21,000.00

25 $24,000.00 $24,000.00

75 $37,162.50 $37,050.00

90 $59,700.00

95 $70,218.75

Valores extremos Nmero del caso 29 32 18 343 446 378 338 411 224 90 Valor $135,000 $110,625 $103,750 $103,500 $100,000 $15,750 $15,900 $16,200 $16,200 $16,200

Salario actual

Mayores

Menores

1 2 3 4 5 1 2 3 4 5

74

Pruebas de normalidad Kolmogorov-Smirnov Estadstico gl Sig. ,208 474 ,000


a

Salario actual

Shapiro-Wilk Estadstico gl ,771 474

Sig. ,000

a. Correccin de la significacin de Lilliefors

75

76

77

Otro ejemplo: VARIABLES CUALITATIVAS NOMINALES

Pablo A. Salgado psalgado@estadisticaaplicada.com.ar

cursoestadistica@caicyt.gov.ar

PRUEBA CHI-CUADRADO Y TABLAS DE CONTINGENCIA


ARCHIVO: Test de independencia y chi cuadrado.sav
Pablo A. Salgado estadisticaymetodologia@gmail.com cursoestadistica@caicyt.gov.ar

80

Se desea analizar si el efecto de tres tratamientos

dermatolgicos para el acn, A, B y C, depende del tipo de presentacin, siendo crema, comprimido, polvo y lquido los cuatro posibles tipos de cada uno de ellos.
Para ello, se divide aleatoriamente un conjunto de

300 pacientes con acn en 12 grupos con 25 pacientes cada uno, y a cada grupo se le aplica un tratamiento con una presentacin.

81

Despus de un perodo de observacin, se mide el

nmero de resultados favorables en cada grupo (de entre las 25 observaciones en un grupo, el nmero de ocasiones en las que ha remitido el acn).
Para determinar si la probabilidad de obtener un

resultado favorable con un tratamiento es independiente de cul sea la presentacin, se aplicarn la prueba Chi-cuadrado de Pearson y la Razn de Verosimilitud Chi-cuadrado.

82

Tabla de contingencia Tratamiento dermatolgico * Presentacin del tratamiento

Frecuencia
Tratamiento dermatolgico Total A B C

Crema 17 6 23 46

Presentacin del tratamiento Comprimido Polvo 4 19 22 20 21 6 47 45

Lquido 25 15 12 52

Total 65 63 62 190

Prueba Chi-cuadrado de Pearson Se utiliza para contrastar la hiptesis nula:

Ho: Las variables X e Y son independientes Ha: Las variables X eY no son independientes

83

ANALIZAR -> ESTADSTICOS DESCRIPTIVOS -> TABLA DE CONTINGENCIA En el Cuadro de dilogo FILAS: Tratamiento dermatolgico COLUMNAS: Presentacin del tratamiento CASILLAS:

En el Cuadro de dilogo

FRECUENCIAS: OBSERVADAS, ESPERADAS RESIDUOS: NO TIPIFICADOS, TIPIFICADOS En el Cuadro de dilogo

CONTINUAR ESTADISTICOS:

Chi CUADRADO

CONTINUAR ACEPTAR

84

Salida del SPSS


Tabla de contingencia Tratamiento dermatolgico * Presentacin del tratamiento Presentacin del tratamiento Comprimido Polvo 4 19 16,1 15,4 -12,1 3,6 -3,0 ,9 22 20 15,6 14,9 6,4 5,1 1,6 1,3 21 6 15,3 14,7 5,7 -8,7 1,4 -2,3 47 45 47,0 45,0 Tratamiento dermatolgico A Recuento Frecuencia esperada Residuo Residuos tipificados Recuento Frecuencia esperada Residuo Residuos tipificados Recuento Frecuencia esperada Residuo Residuos tipificados Recuento Frecuencia esperada Crema 17 15,7 1,3 ,3 6 15,3 -9,3 -2,4 23 15,0 8,0 2,1 46 46,0 Lquido 25 17,8 7,2 1,7 15 17,2 -2,2 -,5 12 17,0 -5,0 -1,2 52 52,0 Total 65 65,0

63 63,0

62 62,0

Total

190 190,0

85

Pruebas de chi-cuadrado Valor 36,151 a 41,793 11,518 190 gl 6 6 1 Sig. asinttica (bilateral) ,000 ,000 ,001

Chi-cuadrado de Pearson Razn de verosimilitud Asociacin lineal por lineal N de casos vlidos

a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 14,68.
La razn de verosimilitud es una alternativa al chi-cuadrado para contrastar la Ho entre

variables. Mientras que el el estadstico Chi cuadrado se basa en las diferencias entre FO y FE, la razn de verosimilitud se basa en el cociente entre ellas. En los dos casos rechazo la Ho por lo que se observa relacin entre las variables. Se puede afirmar que el xito del tratamiento dermatolgico est relacionado con el tipo de presentacin.

Dado que las variables estudiadas no son independientes se puede

86

analizar a las casillas para elegir para cada tratamiento dermatolgico que tipo de presentacin conviene elegir.
Tabla de contingencia Tratamiento dermatolgico * Presentacin del tratamiento Presentacin del tratamiento Comprimido Polvo 19 4 -4,3 1,3 22 20 2,3 1,8 21 6 2,0 -3,2 47 45

Tratamiento dermatolgico

A B C

Total

Recuento Residuos corregidos Recuento Residuos corregidos Recuento Residuos corregidos Recuento

Crema 17 ,5 6 -3,3 23 2,9 46

Lquido 25 2,5 15 -,8 12 -1,7 52

Total 65 63 62 190

Resultado favorable, o sea que es significativamente mayor que si fueran independiente Resultado desfavorable, es significativamente menor que si fueran independiente

Recordar que para poder hacer este anlisis debera dar significativo el test de independencia rechazando Ho. Si no se rechaza Ho y hay independencia entre las variables, implicara que para cualquier tratamiento dermatolgico puedo usar cualquier presentacin.

Reglas para tablas con gl > 1 (mayor a 2x2):


1. Puede usarse si menos del 20% de las casillas tienen

87

frecuencias esperadas < 5 y si no hay casillas < 1.

2. Cuando N est entre 20 y 40, puede usarse en el

caso de que todas las frecuencias esperadas sean de 5 o ms. incrementar sus valores mediante la combinacin de celdas, es decir, combinando clasificaciones y reduciendo el nmero de categoras por variable o aumentando en N de la muestra.

3. Cuando no cumplen estos requisitos, se pueden

88

En el caso de tablas 2 x 2 (las dos variables dicotmicas o

dicotomizadas mediante un punto de corte), el p-valor asociado al estadstico Chi-cuadrado de Pearson puede ser poco preciso.
En el caso de que el nmero total de observaciones en la

muestra sea grande, una alternativa al estadstico Chicuadrado de Pearson, que incorpora una correccin por continuidad y, por tanto, un p-valor ms preciso, es la correccin de Yates.

89

Alternativamente, la prueba de la probabilidad exacta

de Fisher, permite calcular la probabilidad exacta de observar un conjunto particular de frecuencias en una tabla 2 x 2.
Es una tcnica no paramtrica sumamente til para

analizar datos discretos (nominales u ordinales) cuando las dos muestras son pequeas o la frecuencia esperada en alguna de las celdas es menor de 5.

Reglas para tablas de 2 X 2:


1. Cuando N>40 se usa X2 corregido por

90

continuidad.
2. Cuando N est entre 20 y 40, puede usarse en el

caso de que todas las frecuencias esperadas sean de 5 o ms, sino se usa la Prueba exacta de Fisher.
3. Cuando N<20, se usa la Prueba exacta de Fisher

en todos los casos.

MEDIDAS DE ASOCIACION PARA DOS VARIABLES DICOTOMICAS


ARCHIVO: Exposicion UV.sav

92

Se quiere saber las consecuencias de estar

expuestos a altas dosis de radiacin ultravioleta y su relacin con la aparicin de cncer en general.
Para ello se trabaja con dos grupos de animales

de laboratorio para lo cual un grupo es expuesto a UV y otro grupo no es expuesto. Luego de un perodo de tiempo determinado se observan los resultados.

93

Resultados Obtenidos
Tabla de contingencia Exposicin UV * Desarrollo de Cance Recuento Desarrollo de Cancer No Si 17 2 13 6 15 23 Total 19 19 38

Exposicin UV Total

Si No

El diseo experimental es longitudinal (tiempo) y es el

seguimiento de una cohorte de animales; unos expuestos y otros no expuesto, por lo que es experimental. Para saber si la Exposicin a UV es un factor de riesgo con respecto al desarrollo de cncer se calcular el Riesgo Relativo y para saber cual es la fuerza de asociacin el Phi.

94

ANALIZAR -> ESTADSTICOS DESCRIPTIVOS -> TABLAS

DE CONTINGENCIA Cuadro de dilogo


FILAS: Exposicin UV COLUMNAS: Desarrollo de cncer Chi CUADRADO NOMINAL: PHI Y V DE CRAMER RIESGO

ESTADSTICOS En el Cuadro de dilogo


Casillas: % por filas CONTINUAR ACEPTAR

95

La H0 que se desea contrastar es que las variables son

independientes o, lo que es equivalente, que la exposicin a UV no es un factor que afecta la incidencia de cncer.
La Ha que sera nuestra hiptesis de trabajo, es que la

exposicin a los UV afecta en una mayor incidencia de cncer.


Tener en cuenta que se habla de incidencia ya que es un

diseo experimental longitudinal, se sigue una cohorte en el tiempo. Si fuera un diseo trasversal tendramos que comparar las prevalencias en los dos grupos y se calculara el Odds Ratio.

96

Tabla de Resultados
Sintaxis: CROSSTABS /TABLES=tratamie BY cancer /FORMAT= AVALUE TABLES /STATISTIC=CHISQ PHI RISK /CELLS= COUNT ROW /COUNT ROUND CELL .

Hagan esta cuenta: 89,5 / 31,6= ?

Tabla de contingencia Exposicin UV * Desarrollo de Cancer Desarrollo de Cancer Si No 17 2 89,5% 10,5% 6 13 31,6% 68,4% 23 15 60,5% 39,5%

Total 19 100,0% 19 100,0% 38 100,0%

Exposicin UV

Si No

Total

Recuento % de Exposicin UV Recuento % de Exposicin UV Recuento % de Exposicin UV

97

Resultados estadsticos
Pruebas de chi-cuadrado Valor 13,328 b 11,014 14,497 gl 1 1 1 Sig. asinttica (bilateral) ,000 ,001 ,000 ,001 12,977 38 1 ,000 ,000 Sig. exacta (bilateral) Sig. exacta (unilateral) Chi-cuadrado de Pearson Correccin por a continuidad Razn de verosimilitudes Estadstico exacto de Fisher Asociacin lineal por lineal N de casos vlidos

a. Calculado slo para una tabla de 2x2. b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 7,50.

Resultados Estadsticos
Pruebas de chi-cuadrado Valor 10,088 b 7,971 10,844 gl 1 1 1 Sig. asinttica (bilateral) ,001 ,005 ,001 ,004 9,791 34 1 ,002 ,002 Sig. exacta (bilateral) Sig. exacta (unilateral)

98

Chi-cuadrado de Pearson Correccin por a continuidad Razn de verosimilitud Estadstico exacto de Fisher Asociacin lineal por lineal N de casos vlidos

a. Calculado slo para una tabla de 2x2. b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 6,50.

99

La correccin por continuidad de Yates, consiste en restar

0,5 puntos al valor absoluto de las diferencias entre las Frecuencias observadas y las F. esperadas (antes de elevarlas al cuadrado). Aunque algunos autores sugieren que, con muestras pequeas, esta funcin de probabilidad se parezca ms a las probabilidades de la distribucin chi cuadrado.
El test excto de Fisher ofrece, basndose en la distribucin

hipergeomtrica y en la hiptesis de independencia, es apropiada para tablas de 2x2 cuando las muestras son menores de 20 o alguna de las casillas la frecuencia esperada es menor de 5.

100

La correccin de Yates, al tratarse simplemente de una

correccin por continuidad, se interpreta exactamente igual que el estadstico Chi-cuadrado de Pearson. Dado que las diferencias entre lo observado en la muestra y lo esperado bajo la hiptesis nula son estadsticamente significativas, se puede aceptar que, dependiendo del tratamiento aplicado, la probabilidad de que la infeccin desaparezca es distinta.

El resultado de la prueba de la probabilidad exacta de

Fisher (Sig. exacta (bilateral) = 0,001) nos llevara a la misma conclusin.

Para medir el grado y en qu consiste la

101

dependencia entre las variables utilizaremos, en lo que sigue, dos medidas de asociacin adecuadas para el caso de que las variables objeto de anlisis sean dicotmicas:

El coeficiente Phi. El Riesgo relativo.

102

Medidas simtricas Valor ,592 ,592 38 Sig. aproximada ,000 ,000

Nominal por nominal N de casos vlidos

Phi V de Cramer

a. Asumiendo la hiptesis alternativa. b. Empleando el error tpico asinttico basado en la hiptesis nula.

Estimacin de riesgo Intervalo de confianza al 95% Superior Inferior 3,182 1,436 ,040 106,585 5,590 ,591

Valor Razn de las ventajas para Exposicin UV (Si / No) Para la cohorte Desarrollo de Cancer = Si Para la cohorte Desarrollo de Cancer = No N de casos vlidos 18,417 2,833 ,154 38

103

Es decir que la exposicin al UV es un factor de riesgo

en con respecto a la incidencia de cncer.


La asociacin es fuerte Phi = 0,592 Los animales expuestos a UV tienen casi 3 veces

mayor posibilidades o chance de tener cncer que los animales no expuestos.


Tambin hay que observar que sucede con el intervalo

de confianza, que no incluya al 1

Medidas de Concordancia Coeficiente Kappa


ARCHIVO: kappa.sav

Pablo A. Salgado estadisticaymetodologia@gmail.com

cursoestadistica@caicyt.gov.ar

105

Coeficiente Kappa
Proporciona una medida del grado de acuerdo existente entre

dos observadores o jueces al evaluar una serie de sujetos o objetos.


Mide el grado de acuerdo entre los valores de las dos

variables, tomando valores en el intervalo [-1,1]. Valores de Kappa prximos a 1 indicarn total acuerdo; valores prximos a -1, total desacuerdo, y valores prximos a 0, independencia, en el sentido indicado, entre los dos aspectos evaluados.

Ejemplo:
Supongamos que se desea comparar los efectos

106

secundarios de dos tratamientos anticonceptivos orales A y B.

Para ello, se somete a un conjunto de mujeres al

tratamiento A durante tres meses y se observan los efectos secundarios. remitido el efecto del primer tratamiento, se somete a cada mujer al tratamiento B durante otros tres meses.

Despus de un perodo de tiempo en el que haya

Para comprobar si los efectos secundarios con uno

107

u otro tratamiento son los mismos se aplicar el ndice Kappa.

Kappa es una medida apropiada cuando se

comparan los valores de dos variables en escala nominal, tales que sus posibles valores son los mismos. establecida por el cruce de los valores de las dos variables deber ser cuadrada.

En consecuencia, la tabla de contingencia

Si denominamos ANTICONA y ANTICONB a

108

las variables Efectos secundarios del tratamiento anticonceptivo A y Efectos secundarios del tratamiento anticonceptivo B, respectivamente, los valores que presentan ambas variables en el conjunto de mujeres observadas son: No hay, Leves, Moderados y Severos.

El objetivo que se persigue es medir el grado de

109

coincidencia entre los valores de las variables ANTICONA y ANTICONB.


Es decir, no se trata de determinar si los dos

tratamientos producen los distintos grados de severidad de los efectos secundarios en la misma proporcin, sino de comprobar si ambos producen efectos secundarios de igual grado de severidad en cada mujer.

110

Clculo en SPSS
ANALIZAR -> ESTADSTICOS DESCRIPTIVOS -> TABLAS DE

CONTINGENCIA En el Cuadro de dilogo FILAS:

Efectos secundarios con anticonceptivo A

COLUMNAS: Efectos secundarios con anticonceptivo B ESTADSTICOS En el Cuadro de dilogo KAPPA CONTINUAR ACEPTAR

111
Tabla de contingencia Efectos secundarios con anticonceptivo A * Efectos secundarios con anticonceptivo B Recuento Efectos secundarios con anticonceptivo B Moderados Severos No hay Leves 0 0 80 3 1 35 8 0 2 14 4 0 1 8 0 0 81 40 23 12 Total 83 44 20 9 156

Efectos secundarios con anticonceptivo A

No hay Leves Moderados Severos

Total

Medidas simtricas Valor ,806 156 Error tp. a asint. ,040 T aproximada 15,113
b

Medida de acuerdo N de casos vlidos

Kappa

Sig. aproximada ,000

a. Asumiendo la hiptesis alternativa. b. Empleando el error tpico asinttico basado en la hiptesis nula.

112

El valor de Kappa, igual a 0,806, indica que existe un

alto grado de acuerdo entre los valores de las dos variables. Efectivamente, en la tabla de contingencia la frecuencia observada se acumula en la diagonal principal, lo que indica que, en general, sobre cada mujer los efectos secundarios de los dos tratamientos se producen con el mismo grado de severidad.

Ejemplo: kappa diagnstico.sav


Se desea comparar el grado de acuerdo existente entre dos expertos al

113

evaluar 200 pacientes con neurosis segn los tipos de neurosis padecida. con los mismos elementos.

Se supone que ambos profesionales clasifican en forma independiente y Calcular el acuerdo entre los profesionales
Tabla de contingencia Psicologo 1 * Psicologo 2 Recuento Fbico 20 7 1 2 30 Psicologo 2 Histrico Obsesivo 8 6 36 14 8 43 6 4 58 67 Depresivo 1 4 7 33 45 Total 35 61 59 45 200

Psicologo 1

Fbico Histrico Obsesivo Depresivo

Total

114

Resultados
Medidas simtricas Valor ,538 200 Error tp. a asint. ,046 T aproximada 12,921
b

Medida de acuerdo N de casos vlidos

Kappa

Sig. aproximada ,000

a. Asumiendo la hiptesis alternativa. b. Empleando el error tpico asinttico basado en la hiptesis nula.

El acuerdo entre los profesionales es significativo ms alto que el debido

por el azar.

Tambin hay que tener en cuenta si el nivel de acuerdo alcanzado es

suficiente para que los dos expertos evalen a los pacientes en forma separada ya que la medida de acuerdo es apenas superior al 50%.

También podría gustarte