Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA APLICADA
Contenido
TEMA .................................................................................................................................................. 2
CONCEPTOS BASICOS ................................................................................................................... 2
TEMA: ................................................................................................................................................. 9
LAS VARIABLES ................................................................................................................................ 9
TEMA: ............................................................................................................................................... 17
TABLAS ESTADISTICAS: LA DISTRIBUCION DE FRECUENCIAS .............................................. 17
TEMA: ............................................................................................................................................... 32
MEDIDAS DE TENDENCIA CENTRAL........................................................................................... 32
TEMA: ............................................................................................................................................... 37
MEDIDAS DE LOCALIZACIÓN ..................................................................................................... 37
TEMA: ............................................................................................................................................... 44
MEDIDAS DE DISPERSIÓN ............................................................................................................ 44
TEMA: ............................................................................................................................................... 54
LA DISTRIBUCION NORMAL ........................................................................................................ 54
TEMA: .............................................................................................................................................. 66
INFERENCIA ESTADISTICA Y PRUEBAS DE HIPOTESIS ................................................. 66
TEMA: .............................................................................................................................................. 85
PRUEBAS DE NORMALIDAD .................................................................................................... 85
TEMA: .............................................................................................................................................. 97
PRUEBAS PARAMETRICAS: LA t-STUDENT ........................................................................ 97
TEMA: ............................................................................................................................................ 119
PRUEBAS PARAMETRICAS: EL ANALISIS DE VARIANZA ............................................ 119
TEMA: ............................................................................................................................................ 128
PRUEBAS NO PARAMETRICAS ............................................................................................. 128
TEMA: ............................................................................................................................................ 152
ESTADISTICA APLICADA
TEMA
CONCEPTOS BASICOS
Introducción
Estadística y Epidemiologia
Población y Muestra
ESTADISTICA
DESCRIPTIVA INFEREENCIAL
Medidas de Dispersion
1
Por ejemplo: Una buena fuente para investigaciones las constituyen las bases de datos del Instituto Nacional
de Estadística, la Información proporcionada por el Sistema Nacional de Información en Salud, las encuestas
generadas por los institutos de investigaciónón, etc.
Vicente Waldo Aguirre Tarquino 6
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
2
A efectos de asegurar la tabulación de datos, se debe aplicar herramientas que permitan identificar y
corregir errores, por ejemplo la tabulación por doble ciego.
3
Las tablas y gráficos deben tener: Titulo (incluye la/s variable/s, lugar, año), Subtitulo que referencia la
unidad de medida de la variable o su escala, el detalle de datos estadísticos con la debida referencia (Ej, en
caso de cuadro títulos de columnas y filas, en caso de graficos referencias a los signos o colores), fuente y
elaboración, notas que expliquen las abreviaturas y símbolos utilizados.
Vicente Waldo Aguirre Tarquino 7
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
Dispersión
Telaraña
Diagrama de tallos y hojas
Diagrama de cajas
o Tablas estadísticas
Frecuencias absolutas y relativas
Cuadros de distribución de frecuencias
Polígono de frecuencias
TEMA:
LAS VARIABLES
Definición.
Tipos de variables:
- Cuantitativas o cualitativas
o Cuantitativas: atributo que puede medirse, a su vez
son:
Discreta (No existe un valor intermedio)
Continua
4
Pueden encontrarse en un estado constante y no cambiar, pero deja de ser variable. Ejemplo: Las
características de las mujeres que sufren violencia intrafamiliar pueden ser: Edad, estado civil, número de
hijos, escolaridad. Pudiendo cambiar todas estas características pero no la constante, que es el hecho de ser
“mujer”.
5
La hipótesis es la respuesta tentativa a la pregunta de investigación (pueden ser varias), las mismas están
planteadas en forma de proposición, y se apoyan en el conocimiento aportado por el marco teórico, se
verifican en la investigación, pudiendo ser aceptadas o rechazadas las proposiciones
6
No confundir la investigación cualitativa y cuantitativa con las variables cuantitativas y
cualitativas.
Ejemplo.
Pregunta de Investigación
Hipótesis:
Variables:
DEFINICIÓN DE LA VARIABLE
Nota. No incluye
aquellos recursos Rentas por
derivados de la acciones
venta de activos
que son parte del
patrimonio ni
proveniente de
préstamos. 7
7
En algunos casos la nota puede ser innecesaria en razón de que la definición no considera estos aspectos.
Vicente Waldo Aguirre Tarquino 13
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
DEFINICIÓN DE LA VARIABLE
VARIABLE:
DEFINICIÓN DE LA VARIABLE
TEMA:
- Resumen la información.
- Parte de Datos Brutos, pues estos no se encuentran
clasificados (utilizando frecuencias).
- Cuando las tablas se acompañan de frecuencias reciben
el nombre de TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS
Ejemplo:
Variable Edad
Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Xi 18 19 21 22 23 23 24 20 18 18 21 22 22 23 23
Ni 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Xi 24 20 19 19 21 22 22 23 23 24 19 19 23 23 18
Ejercicio
Ejercicio
Edad fi Fi hi Hi
18 4 4 0,13 0,13
19 5 9 0,17 0,30
20 2 11 0,07 0,37
21 3 14 0,10 0,47
22 5 19 0,17 0,63
23 8 27 0,27 0,90
24 3 30 0,10 1,00
Total 30 1,00
Algunas Formulas
hi=fi / N
f1 + f2 + f3 + f4 + fk = N
f
i 1
i N
h
i 1
i 1
Número de intervalos8
k n
K=1+3.322 (log10 n)
Ci = Re / k
Ci =Li- Li-1
Marca de clase
8
En este libro se propone dos maneras, pero existen varias, incluso se pueden elaborar histogramas
agrupando las variables por conveniencia Ej. Población por grupos etarios importantes para salud.
Vicente Waldo Aguirre Tarquino 20
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
L i-1 L i
x
2
Ejemplo:
320 158 198 183 210 263 270 197 234 200 258 268 230 231 300 240 211 269 190 279
175 205 259 261 150 350 199 251 218 240 110 120 238 206 260 115 160 288 253 261
Resultado Manual
Marca de
Li-1 Li
Clase Xi Fi
Note que el Limite Superior (Li), no contiene al valor Li, solo hasta
valores menores, es decir el primer intervalo va de 110 hasta
valores menores a 150 y el segundo de 150 hasta valores menores
a 190 y así sucesivamente.
18
16
14
12
10
0
110-150 150-190 190-230 230-270 270-310 310-350
18
16
14
12
10
0
130 170 210 250 290 330
Ejercicio:
En SPSS
Luego calcular:
C=Re / k = 40
Resultado SPSS
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Histograma
En SPSS se debe ir a:
AgrupSAlud
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
TEMA:
Media Aritmética
x i
x1 x 2 .... x n
x 1
n n
x i
x1 x 2 .... x n
x 1
N N
x f i i
x1 f1 x 2 f 2 .... x n f n
x 1
n n
x f i i
x1 f1 x 2 f 2 .... x n f n
x 1
N N
Me=(N+1)/2
1, 3, 9, 14, 16, 15
x 2
i
C 1
N
C>X>G>H
320 158 198 183 210 263 270 197 234 200
175 205 259 261 150 350 199 251 218 240
258 268 230 231 300 240 211 269 190 279
110 120 238 206 260 115 160 288 253 261
Ejercicio. Analice como cambian los resultados si, le informan que
por error de typeo el primer dato de gasto en salud (320) es 3200.
3.200 158 198 183 210 263 270 197 234 200 258 268 230 231 300 240 211 269 190 279
175 205 259 261 150 350 199 251 218 240 110 120 238 206 260 115 160 288 253 261
TEMA:
MEDIDAS DE LOCALIZACIÓN
Fractiles o cuantilas
Cuartiles
Ej.
En SPSS
Analizar / Estadísticos Descriptivos / Frecuencias /Estadisticos
- Cuartiles
Statistics
VAR00001
N Valid 40
Missing 0
Percentiles 25 197,2500
50 232,5000
75 261,0000
VAR00001
Cumulative
Frequency Percent Valid Percent Percent
Deciles
En SPSS
Analizar / Estadísticos Descriptivos / Frecuencias /Estadisticos
- Deciles
Statistics
VAR00001
N Valid 40
Missing 0
Percentiles 10 150,8000
20 184,4000
25 197,2500
30 199,3000
40 210,4000
50 232,5000
60 246,6000
70 259,7000
75 261,0000
80 267,0000
90 287,1000
9
Entre 206 y 238 existesn 8 datos que corresponde al 18%, ver percentiles
10
Entre 206 y 238 existesn 8 datos que corresponde al 18%, ver percentiles
Vicente Waldo Aguirre Tarquino 40
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
En SPSS
Analizar / Estadísticos Descriptivos / Frecuencias /Estadisticos
- Percentiles
o Añadir
o
Statistics
VAR00001
N Valid 40
Missing 0
Percentiles 36 205,7600
54 238,2800
En este ejemplo además se observa que entre los valores 205.76 y 238,28 se encuentra un
18% de los datos (54% - 36%)
VAR00001
Cumulative
Frequency Percent Valid Percent Percent
Ejemplo:
11
Entre 206 y 238 existen 8 datos que corresponde al 18%, ver percentiles
12
Entre 206 y 238 existen 8 datos que corresponde al 18%, ver percentiles
Vicente Waldo Aguirre Tarquino 43
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
TEMA:
MEDIDAS DE DISPERSIÓN
Rango o recorrido
RM=Q3-Q1
RM=C75-C25
RM=261-197.25=63.75
RM(80%)=C90-C10
RM(80%)=C95-C5
Desviación Media
Donde:
DM : Desviación media
Xi : valores de la variable X
X : media aritmética
n : tamaño de la muestra
También simplemente ds
Ejemplo
Varianza
x x
2
2
i
s
n 1
x x
2
s 2
i
(Xi-
Xi Xi - Media /Xi-Media/ Media)^2
Note que los resultados asumen que los datos son poblacionales,
en caso de datos muestrales el denominador deber ser n – 1
Moda 71.00
Desv. típ. 9.69536
Varianza 94.000
Suma 708.00
Estadística en Excel
Media 88.5
Error típico 3.4278273
Mediana 89.5
Moda #N/A
Desviación estándar 9.695359715
Varianza de la muestra 94
Curtosis 0.011770032
Coeficiente de asimetría -0.702244253
Rango 29
Mínimo 71
Máximo 100
Suma 708
Cuenta 8
Statistics
VAR00001
N Valid 40
Missing 0
Mean 225,7000
Std. Error of Mean 8,50718
Median 232,5000
Mode 240,00a
Std. Deviation 53,80411
Variance 2894,882
Range 240,00
Minimum 110,00
Maximum 350,00
Coeficiente de Variación
De 11 a 20% es aceptable
13
El resultado puede ser multiplicado por 100 a objeto de que este expresado en porcentaje
Vicente Waldo Aguirre Tarquino 52
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
TEMA:
LA DISTRIBUCION NORMAL
Fuente: Wikipedia
Curtosis
En SPSS
Estadísticos descriptivos
Error Error
Estadístic Estadístic Estadístic Estadístic Estadístic Estadístic típic Estadístic típic
o o o o o o o o o
Índice 111 ,73 7,36 2,9356 1,29622 1,067 ,229 1,645 ,455
cardíac
o (l/m2)
N válido 111
(según
lista)
Tipificación de variables z
xi x
z
S
En SPSS
Transformar/Calcular variable
Estadísticos descriptivos
Asumiendo que la distribución de frecuencias siguen una distribución normal, es posible es posible
estimar la cantidad de datos (en porcentaje), que se encuentran sobre la curva normal, a partir de
las puntuaciones Z, esto por ejemplo puede ser útil, al leer un artículo académico en el que se tienen
datos de la media y la desviación estándar y se sabe que la distribución es normal, pero no se tiene
mayor información.
Por ejemplo, asumiendo que Ud., no tiene acceso a la base de datos del estudio anterior y solo
conoce los resultados del mismo: media 2,9356 l/m2 y desviación estándar 1,29622 y sabe que los
valores normales del índice cardiaco están entre 2,6 l/m2 y 3,4 l/m2, , calcule que porcentaje de
sujetos investigados se encuentra por encima de 3,4 l/m2.
3,4 2,9356
z 0,35827
1,29622
Este valor debe ser buscado en las tablas de distribución normal (en la columna puntuaciones Z).
Redondeando el punto buscado seria 0,36; el cual tiene tres opciones de área buscada, la que nos
interesa es la que corresponde a la columna B, la cual indica el área que se encuentra entre el punto
Z y los valores superiores a este punto es decir 0,3632 (36,32%) de los sujetos tienes valores
superiores a 3,4 l/m2.
A efectos de verificar lo señalado, se puede consultar la base y contar la cantidad de sujetos que se
encuentran por encima de este valor de 3,4 l/m2, y verificar si este porcentaje coincide, Realizando
el conteo se tiene que 33 sujetos se encuentran por encima de este dato, ordenando los datos se
tiene los siguientes:
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
IC 3,42 3,52 3,53 3,54 3,66 3,67 3,7 3,73 3,8 3,81 3,82 3,88 3,9 3,94 3,97 4
n 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
IC 4,01 4,01 4,08 4,11 4,35 4,37 4,52 4,54 4,58 4,82 5,23 5,84 5,9 6,26 6,77 7,01 7,36
Lo cual representa un 30% de la muestra (33 / 111), valor que se aleja de lo calculado, lo que verifica
que la distribución tiene asimetría positiva y nos hace presumir que la variable analizada no sigue
una distribución normal (esto se podrá verificar más adelante).
TEMA:
El intervalo de confianza14
14
En base a Hernandez Sampiere et al.
Vicente Waldo Aguirre Tarquino 66
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
Media=2,8 horas
Error Estandar de la Media= 0,2345
(Desviación estándar de la distribución Muestral de la media).
Casos
Descriptivos
Mediana 29,00
Varianza 97,350
Mínimo 15
Máximo 49
Rango 34
Amplitud intercuartil 17
Ejercicio
Median 15,0217
Variance ,287
Minimum 13,41
Maximum 16,50
Range 3,08
Mediana 2,6983
Varianza 1,680
Mínimo ,73
Máximo 7,36
Rango 6,63
La prueba de Hipótesis15
HIPÓTESIS DESCRIPTIVAS.-
Ejemplo:
PREGUNTA DE INVESTIGACION:
¿Cuál es el promedio de hijos/as que tienen las mujeres del municipio
de Esperanza?
HIPOTESIS CORRELACIONALES.-
Expresan una relación entre dos variables, estas relaciones pueden ser
inversas o directas.
15
En base a Hernandez Sampieri et. al.
Vicente Waldo Aguirre Tarquino 73
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
Ejemplo:
Hi: “La pobreza está relacionada con los niveles de educación que
alcanzan las personas”.
Ejemplo:
Ejemplo:
Ejemplo:
Fuente: www.ugr.es/~rruizb/cognosfera/sala_de_estudio/estadistica/esquematest.doc
16
Ibid.
Vicente Waldo Aguirre Tarquino 77
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
Ho verdadera H0 falsa
Significancia estadística
Fuente:
http://www.bbc.com/mundo/noticias/2014/06/140526_falacias_margarina_
divorcio_finde_dv
Consumo Margarina Divorcios
NEMO TECNICA
Ho: =
Ha: Diferencia
TEMA:
PRUEBAS DE NORMALIDAD
Kolmogorov-Smirnov
Es recomendable su uso para muestras mayores a 30, el test otorga un menor peso
a las observaciones extremas (outliers), compara los datos observados con la
distribución normal teórica y mide la distancia máxima entre ambas curvas, el test
prueba la siguiente hipótesis
Índice cardíaco
(l/m2)
N 111
Parámetros normalesa,b Media 2,9356
Desviación típica 1,29622
Diferencias más extremas Absoluta ,089
Positiva ,089
Negativa -,065
Z de Kolmogorov-Smirnov ,939
Sig. asintót. (bilateral) ,341
Ejemplo
Edad de Mujeres mayores a 14 años, en la encuesta EDSA
¿Cuántos años
cumplidos tiene
usted?
N 11832
Parámetros normalesa,b Media 29,85
Desviación típica 9,854
Diferencias más extremas Absoluta ,083
Positiva ,083
Negativa -,066
Z de Kolmogorov-Smirnov 9,075
Sig. asintót. (bilateral) ,000
4) Kolmogorov-Smirnov (Lilliefors)
Contrasta la hipótesis de que una muestra (grande n>50) procede de una población
normal.
Esta prueba es una modificación de la prueba de Kolmogorov-Smirnov y contrasta
la normalidad cuando las medias y las varianzas no son conocidas, sino que son
estimadas a partir de los datos.
Ln ( ZX i ) ZX
LZX
ZX
Estadísticos
lnIC
N Válidos 111
Perdidos 0
Media ,9815
Mediana ,9926
Moda -,31a
Desv. típ. ,44799
a. Existen varias modas. Se
mostrará el menor de los valores.
Resultados:
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
Para ZIC
El valor critico es 0.05, como es el estadígrafo asociado al valor de de probabilidad (p) es MENOR
(0.030) se rechaza la hipótesis nula, por lo tanto se concluye que la muestra no procede de una
distribución normal
2,00 -1 . 66
17,00 -1 . 00001111222222233
15,00 -0 . 555556666888899
29,00 -0 . 00001111111222222233334444444
19,00 0 . 0000112222223333444
16,00 0 . 5556666777788889
6,00 1 . 012224
1,00 1 . 7
2,00 2 . 22
4,00 Extremes (>=2,6)
Para ZlnIC
H0: ZlnIC = Distribución Normal
El valor critico es 0.05, como es el estadígrafo asociado al valor de probabilidad (p) es MAYOR (,200)
se acepta la hipótesis nula, consecuentemente se concluye que la muestra procede de una
distribución normal
Donde esperamos que los valores estén sobre la línea (fundamentalmente en el rango -1,1), para
inferir que la distribución tiende a una normal.
8,00 -0 . 55678889
24,00 -0 . 000000011122222223334444
23,00 0 . 00000001111222233444444
23,00 0 . 55556667777777888899999
6,00 1 . 011123
4,00 1 . 5779
3,00 2 . 012
5) Shapiro-Wilk
Prueba de Shapiro-Wilk: Contrasta la hipótesis de que una muestra (pequeña
n<5017) procede de una población normal.
17
Alguna literatura recomienda su aplicación para valores menores a 30.
Vicente Waldo Aguirre Tarquino 96
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
TEMA:
Una vez que se ha verificado que las muestras provienen de una distribución normal
entonces podemos llevar a cabo pruebas paramétricas, entre ellas una de las
pruebas más utilizadas corresponde a la t-Student18, la cual puede ser aplicada de
acuerdo a lo siguiente:
Prueba t Objetivo
18
El presente documento no trabaja con docimas de hipótesis que asumen que la varianza
poblacional S2 (también denominada σ2) es conocida, pues en la práctica este hecho es muy difícil,
pues en la generalidad trabajamos con una muestra.
Paramétrica
CUANTITATIVA
Esta prueba permite probar la media muestral contra un valor hipotético, por ejemplo
si la media que estamos utilizando puede ser comparada con la media de un valor
que se conoce a partir de otro estudio.
0
_
Ho: x =
0
_
H1: x
Recuerde que:
Sería la media aritmética poblacional que por intervalos de confianza pueda
_
_
x
t 0
s
n
Donde:
Ej. Probar la hipótesis que la hemoglobina proviene de una muestra en que la media
es igual a 15.
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
En SPSS ir a
Valor Hipotetico 15
Valor en tablas
t con (70-1 grados de libertad)
con 95% de confianza
Nota.- Los grados de libertad hacen referencia a la forma que toma la curva normal según el
tamaño de la muestra, cuando existen infinitos grados de libertad, la curva de la t-student coincide
con la curva normal.
Continua…..
Al ser el valor absoluto de -0.072 menor que una t de 1.667 que sería el valor
localizado en la tabla t-student para 70-1 grados de libertad con un nivel de
confianza del 95% (de significación del 5%), no se puede rechazar Ho.
La significación en la tabla adjunta esta probada con para t – student de una cola.
Es importante aclarar con el nivel de confianza del 95 %, nos dice que de cada 100
muestras de tamaño 70 que tomemos, en la población objeto de estudio, en al
menos 95 de ellas obtendremos el mismo resultado.
La prueba asume que las características de los sujetos en las variables de interés
para el estudio son iguales antes y después de la prueba, con excepción de la
variable que se espera sea afectada por la intervención.
G O1 X O2
Donde19:
G: Representa al conjunto de sujetos que participaran de la prueba
O1: Representa los resultados de la variable investigada antes de que sea
afectada por el estímulo o la intervención.
O2: Representa los resultados de la variable investigada después de que es
afectada por el estímulo o la intervención.
X: Representa el estímulo o la intervención.
En el caso de experimentos, lo ideal es que los sujetos, se seleccionen al azar.
H1: La media de la variable investigada antes de que sea afectada por el estímulo
tiene diferencia con la media de la misma variable de forma posterior al estudio,
por lo que las muestras proceden de una población con medias iguales.
Ho: x = y
H1: x y
Ho: La muestra procede de una población en la que las medias de X e Y son
iguales.
H1: La muestra no procede de una población en la que las medias de X e Y son
iguales.
19
En base a la nomenclatura y símbolos utilizados por Hernandez Sampieri y colaboradores.
Vicente Waldo Aguirre Tarquino 106
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
En el SPSS:
Usaremos el archivo
Clase 4_muestras relacionadas.sav
Ir a
Analizar / Comparar Medias / Prueba T para dos muestras relacionadas
- Relacionar las variables: HBI – HBF
Error típ. de la
Media N Desviación típ. media
N Correlación Sig.
Diferencias relacionadas
95% Intervalo de
t
(x x ) i j
n ( x x ) ( ( x x )
i j
2
i j
2
n 1
O también:
t
(d )
n d ( d )
2 2
n 1
Una vez obtenido el calculado, el mismo debe ser contrastado con el t de tablas par
n- 1 grados de libertad, con el valor de tablas se corta a la curva que representa la
distribución t, si el t calculado cae en la zona de aceptación, se acepta la Ho, caso
contrario se la rechaza:
Puede Ser
G1 X O1
G2 - O2
Ó también
G1 O1 X O2
G2 O3 - O4
Datos
G: Grupo
O Prueba (puede ser Pre o Post)
X estimulo
La Prueba de Hipótesis es:
Ho: 1= 2
H1: 12
Procedimiento20.
20
Recuerde que antes de iniciar con el procedimiento se debe verificar que cada uno de los grupos sigue una
distribución normal
Vicente Waldo Aguirre Tarquino 110
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
Ho: La varianza de las subpoblaciones (A y B) son iguales
H1: La varianza de las subpoblaciones (A y B) son diferentes
Ejemplo:
Para ello se divide el conjunto de datos en dos, unos que tienen ulcera y otros que
no. Para ellos se aplicara la prueba T-student a dos muestras independientes.
En SPSS:
Ulcera Casos
Pruebas de normalidad
Disminución de d
Si ,102 28 ,200* ,977 28 ,768
hemoglobina (gr/100 ml) i No ,088 42 ,200* ,983 42 ,789
m
El test de Shapiro Wilk, arroja una significancia mayor a 0.05, por lo tanto la
distribución de cada uno de los subgrupos es normal.
Estadísticos de grupo
Disminución de d
Si 28 1,0110 ,09990 ,01888
hemoglobina (gr/100 ml) i No 42 -,0111 ,12317 ,01900
m
PROCEDIMIENTO MANUAL
21
En caso de que no exista igualdad de varianzas el estadístico t y su nivel de significancia que se debe
considerar debe corresponder a la segunda fila denominada “No se han asumido varianzas iguales”
Vicente Waldo Aguirre Tarquino 115
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
En caso de que las varianzas sean iguales y estas se dividan, el resultado debería
ser uno, si las varianzas son muy similares el resultado también se encontrara
cercano a uno, por lo que se debe verificar que:
S MG
FMax
S MP
Ejemplo de distribución F
x A xB
t
( x A ) 2 ( xB ) 2
xA
2 2
x
nA nB nA nB
B
n n 2 n n
A B A B
x A xB
t
(S A )2 (S B )2
nA nB
5° Contrastar los valores t obtenidos con el estadístico de tablas para los grados de
libertad correspondientes, los cuales se calculan de la siguiente manera:
TEMA:
22
Cuando no se puede aplicar ANOVA (por no cumplir las condiciones), se puede usar Kruskal-Wallis para
muestra independientes y la prueba de Friedman para muestras apareadas (ambas pruebas no paramétricas).
Vicente Waldo Aguirre Tarquino 119
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
Para métrica
CUANTITATIVA
Una muestra
2 grupos contra una valor 3 ó mas Grupos
hipotetico
Muestra
ANOVA
Independiente
Muestra
Dependiente
Es una prueba estadística, que sirve para comparar varios grupos de una variable
cuantitativa, puede ser considerada una generalización a más muestras (3 o más)
de la PRUEBA T PARA DOS MUESTRAS INDEPENDIENTES.
23
De similar manera que los objetivos del resto del módulo, no profundizaremos en las cuestiones
particulares del análisis, el estudiante podrá profundizar estos temas en la amplia bibliografía disponible al
respecto. El documento presentara los aspectos elementales del análisis.
Vicente Waldo Aguirre Tarquino 120
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
Ejemplo24.
Supongamos un estudio que se realiza en paciente con ulcera péptica y se
analiza el tiempo de reaparición de la ulcera (REPARIC) en función al tiempo de
respuesta al tratamiento (RESPUEST). Para determinar si el tiempo de
reaparición de los síntomas es el mismo independientemente de cuál haya sido
el tiempo de respuesta al tratamiento se realiza el análisis de varianza de un solo
factor.
En SPSS
24
En base a la base de datos de Magdalena Ferran
Vicente Waldo Aguirre Tarquino 121
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
ANOVA
Tiempo de reaparición
Suma de Media
cuadrados gl cuadrática F Sig.
- Gráficos:
o Diagrama de caja (ninguno)
o Descriptivos (ninguno)
o En Dispersión seleccionamos varios métodos
Estimación de Potencia
Transformados Raiz Cuadrada
Transformados Logaritmo Natural
Otros
ESTIMACIÓN DE POTENCIA
Ahora procedemos a transformar las variables (Es decir calcular el logaritmo natural
de la variable con la cual estamos trabajando).
ANOVA
LREAPARIC
El estadístico que se acompaña F, nos dice que mientras más alejado este, mayor
diferencias entre medias habrá.
Por lo que no aceptamos que el tiempo de reaparición de los síntomas sea el mismo
en cada una de las cuatro muestras, sin embargo puede existir diferencias al interior
de los grupos.
Par ver esto puede utilizar el método de Tukey o Scheffe, otra alternativa es realizar
la prueba t para muestras independientes, pero esta no contempla la distribución de
la variable dependiente sobre los restantes grupos.
El de Tukey es más poderoso, sin embargo se tiene que mantener tamaños iguales,
por lo que es recomendable disminuir el tamaño de la muestra.
Como en nuestro caso los tamaños son diferentes usamos el método de Scheffe
En SPSS
- Post hoc
o Marcar el metodo Scheffe
o Definir el nivel de significancia
Multiple Comparisons
LREAPARIC
Scheffe
(I) Tiempo de respuesta (J) Tiempo de respuesta Mean 95% Confidence Interval
Difference (I- Std. Lower Upper
J) Error Sig. Bound Bound
2 Semanas 4 Semanas ,37230* ,03623 ,000 ,2704 ,4742
dimension3 6 Semanas ,61124* ,03962 ,000 ,4999 ,7226
8 Semanas ,97268* ,05647 ,000 ,8140 1,1314
4 Semanas 2 Semanas -,37230* ,03623 ,000 -,4742 -,2704
dimension3 6 Semanas ,23895* ,04054 ,000 ,1250 ,3529
8 Semanas ,60038* ,05712 ,000 ,4398 ,7609
dimension2
6 Semanas 2 Semanas -,61124* ,03962 ,000 -,7226 -,4999
dimension3 4 Semanas -,23895* ,04054 ,000 -,3529 -,1250
8 Semanas ,36143* ,05932 ,000 ,1947 ,5282
8 Semanas 2 Semanas -,97268* ,05647 ,000 -1,1314 -,8140
dimension3 4 Semanas -,60038* ,05712 ,000 -,7609 -,4398
6 Semanas -,36143* ,05932 ,000 -,5282 -,1947
*. The mean difference is significant at the 0.05 level.
Por lo que se verifica que existe diferencias entre todos los grupos analizados, o
en aquellos casos que aparezca el asterisco (*) en el cual se menciona la
diferencia para el nivel elegido.
TEMA:
PRUEBAS NO PARAMETRICAS
Las pruebas no paramétricas o de distribución libre, son utilizados para variables categóricas o datos
que no tienen una distribución normal, respecto estas pruebas la literatura sugiere que son menos
potentes que las paramétricas y tienen más posibilidades de cometer el error tipo II o error Beta25,
por lo que para aumentar su potencia se tiende a incrementar el tamaño de la muestra.
25
Por ejemplo, la U de Mann-Whitney tiene una potencia relativa del 95% con respecto a la prueba
paramétrica t de Student lo que significa que con una muestra de 100 sujetos, se consigue la misma
potencia con la U de Mann-Whitney que con 95 sujetos para la t de Student.
(www.ugr.es/~rruizb/cognosfera/sala_de_estudio/estadistica/esquematest.doc)
26
Al igual que varios de los ejemplos utilizados hasta ahora utilizaremos la base de datos con ejemplos en el
area de salud de Magdalena Ferrán
Vicente Waldo Aguirre Tarquino 128
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
No Paramétrica
Una muestra
2 grupos contra una valor 3 ó mas Grupos
hipotetico
Muestra
Independiente
Muestra
Dependiente
Es muy utilizada sobre todo en aquellos ejemplos entendidos como éxitos o fracasos.
27
Las pruebas analizadas son conocidas también como pruebas de bondad de ajuste, las dos analizadas
corresponden a la bondad de ajuste para muestras no paramétricas, en el caso de las parametricas tenemos
a la de K-S y K-S con corrección Llifiefors,
Vicente Waldo Aguirre Tarquino 129
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
Es una prueba de bondad de ajuste que se utiliza para contrastar la hipótesis nula de que la muestra
procede de una población en la que la proporciones de individuos que presentan los valores x1 y x2,
son iguales a pe y a qe = 1 + pe respectivamente, recuerde 1 = pe + qe
Ho: p = pe y q = qe
H1 p pe
Si el valor p asociado al estadístico de contraste es menor que alfa, se rechaza la hipótesis nula al
nivel de significación de alfa (p menor a 0.05).
Ejemplo 1
Si uno tuviera que partir la muestra en grupos iguales tendría una cantidad esperada n * pe = 79 *
0.5 = 39.5, lo que se contrasta con la cantidad de datos en el grupo 1 (41)
En SPSS
Binomial Test
Categoría N Proporción Prop. de Sig. asintót.
observada prueba (bilateral)
Total 79 1,00
a. Based on Z Approximation.
Dado que el valor 0.822 es mayor que 0.05 no se puede rechazar la hipotesis nula, es decir la
proporción de pacientes tratados con el fármaco es igual a la proporción de pacientes tratados con
el placebo, dicho de otra manera, la diferencia entre lo observado en la muestra y lo esperado no
es estadísticamente significativa.
Ejemplo 2
Se desea valorar un tratamiento en 100 pacientes de los cuales 80 son fumadores y 20 no son
fumadores, al finalizar el estudio existió una mortalidad experimental y solo quedaron 79 pacientes
de los cuales 53 son fumadores y 26 no fumadores, por lo que se desea contrastar la prueba de que
los pacientes que quedan mantiene la proporción de la población original.
Prueba binomial
Grupo 2 No 26 ,3
Total 79 1,0
a. La hipótesis alternativa establece que la proporción de casos del primer grupo sea < .8.
b. Basado en la aproximación Z.
Como el valor p 0.005 es menor que 0.05 rechazamos la hipótesis nula y se concluye que la
muestra no es representativa de la población objeto de estudio.
La Chi Cuadrada para una muestra es frecuentemente utilizada para comparar las frecuencias
observadas con frecuencias teóricas (Ej. Lo que hubiera sucedido), en algunos capítulos adelante el
lector podrá apreciar que esta prueba se generaliza en el caso de se tenga una tabla de contingencia
mediante el cual se disponga el cruce de dos variables (tabla de contingencia de doble entrada).
Ejemplo 3
Ho: La muestra procede de una población en la que proporción esperada de pacientes tratados
con el fármaco A, con el fármaco B y con el placebo es la misma.
H1: La muestra procede de una población en la que proporción esperada de pacientes tratados
con el fármaco A, con el fármaco B y con el placebo es diferente.
En SPSS
Fármaco recetado
Estadísticos de contraste
Fármaco
recetado
Chi-cuadrado ,369a
gl 2
Sig. asintót. ,832
El valor p de 0.832 es mayor que 0.05, por lo que no se puede rechazar la hipotesis nula, dado que
las diferencias entre lo observado en la muestra y lo esperado bajo la hipotesis nula son
estadisticamente significativas, se puede aceptar que la proporción de pacientes tratados con el
fármaco A, B y placebo es la misma, por lo tanto que la muestra es representativa de la población.
Ejemplo 4
Además de separar en muestras iguales, se puede asignar una proporción diferente a cada uno de
los subgrupos que tiene la muestra por ejemplo:
P2 = p(INFARTO = 1) = 2/6
P3 = p(INFARTO = 1) = 1/6
P4 = p(INFARTO = 1) = 1/6
Note que la suma de las proporciones tiene que dar 1 o sea 100%
De la misma manera que en la prueba anterior se desea compara que las proporciones que
mantiene la muestra son los que originalmente tenia la población.
En SPSS
Notese que se añadió valores 2, 2, 1 , 1; los cuales corresponderán al orden de las variables
categóricas: Anterior = 1, Inferior =2, Lateral =3 y Posterior = 4.
Estadísticos de contraste
Localización del
infarto de
miocardio
Chi-cuadrado ,252a
gl 3
Sig. asintót. ,969
Al igual que en el caso anterior siendo que el valor p 0.969 es mayor que 0.05 se acepta la
hipótesis nula, por lo tanto la muestra es representativa de la población.
Num. De
Prueba Variables Objetivo
grupos
McNemar 2 Cualitativas: 2 Determinar si la diferencia entre las
valores (nominal) distribuciones de frecuencias de los
valores de las dos variables es
estadísticamente significativa.
Prueba de Wilcoxon
Para variables cuantitativas continuas que no siguen una distribución normal o con valores
discretos, también se aplica para variables categóricas al menos ordinales.
Ej . Libro pg 289
Rangos
Rango Suma de
N promedio rangos
Empates 0c
Total 7
Estadísticos de contrasteb
Despues –
Antes
Z -1,859a
Sig. asintót. (bilateral) ,063
Ejemplo 5
G O1 X O2
La muestra procede de una población en la que la probabilidad de que X sea mayor que Y es igual
a la misma de que sea menor.
Ho: m+ = m-
La magnitud de las diferencias positivas y negativas entre los valores de las variables X e Y es la
misma.
En SPSS
28
Ejemplo 5.4 en Ferran
Vicente Waldo Aguirre Tarquino 139
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
INTERPRETACIÓN INTERPRETACIÓN
Como el valor p, 0.021 es menor que 0.05 se Como el valor 0.230 es mayor que 0.05 se
rechaza la Hipotesis Nula, por lo que el acepta la Hipótesis Nula, por lo que la
colesterol ha disminuido. magnitud de colesterol antes y después es el
29 Sujetos refuerzan esta idea. mismo.
Esto puede ser explicado por que los sujetos
que aumentaron su nivel de colesterol
tuvieron una magnitud mayor (comieron el
doble por ejemplo) que los que disminuyeron.
En la generalidad de los estudios ambos estudios arrojan los mismos resultados, pero en nuestro
caso no.
Total 903
Suma positiv os 356,0
Suma negativ os 547,0
Prueba de McNemar
Es una variante de la prueba Chi Cuadrada, se utiliza para comparar una misma variable cualitativa
(categorica) en una población relacionada, por ejemplo medir el efecto de una intervención (pre
experimental o experimental) en dos momentos al mismo grupo29; antes de la intervención y
después de la intervención.
O también:
Ho: Los cambios en ambos sentidos son iguales, por lo que la intervención no origino cambios
H1: Los cambios en ambos sentidos son diferentes, por lo que la intervención origino cambios
29
Si la variable se mide en más de dos momentos Ej. G 01 x 02 x 03 se debe usar la Q de Cochran
30
En caso de que el valor presente en alguna de las celdas sea menor que 10 se debe realizar la corrección
yates, siendo que la interpretación es la misma:
Correcion de Yates = (((b-c)-1)2 ) / (b + c)
Vicente Waldo Aguirre Tarquino 143
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
(b c) 2
2
bc
La Chi cuadrado de Mc Nemar calculada se contrasta con la de tablas para un grado de libertad31
para un valor alfa de 0.05 (p < 0.05), por lo que se contrastara siempre con 3.841, cuando el valor
calculado sea mayor que el de tablas se rechaza Ho. Asimismo en los paquetes estadísticos recuerde
si el p < 0.05 se rechazara la Ho.
31
Los grados de libertad para la Chi cuadrado es = (número de filas – 1 ) * (número de columnas – 1)
Vicente Waldo Aguirre Tarquino 144
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
En SPSS
Aprobado No Aprobado
Aprobado 80 100
dimension0
No Aprobado 180 30
Estadísticos de contrasteb
Antes
Educacion y
Despues
Educacion
N 390
Chi-cuadradoa 22,289
Sig. asintót. ,000
Num. De Variable
Prueba Objetivo
grupos dependiente
Mann- 2 En escala al Determinar si la diferencia entre el
Whitney menos ordinal número de veces en que el valor de la
variable en un grupo es mayor que en el
otro y el número de veces en que es
menor es estadísticamente significativa.
Cuando la variable medida es cuantitativa (incluso continua pero que no sigue una distribución
normal) o es ordinal discreta se puede utilizar la prueba U de Mann Whitney32, en este caso la
hipótesis está dada por (Villa Romero):
Ho: Dx = Dy
H1: Dx Dy
Ejemplo
Ejemplo
Se desea analizar el efecto del fármaco A (se añade al tratamiento habitual-ordinal), con el
tratamiento habitual de pacientes con Fracción de Eyección del Ventriculo Izquierdo (FEVI)
deprimida en grado severo, para lo cual se aplicara las tres pruebas citadas. Al final de seis meses
se compara el FEVI entre los dos grupos de pacientes (con tratamiento habitual y tratamiento
novedoso).
G1 X1 O1
G2 X2 O2
32
La prueba, en variables continuas que no siguen una distribución normal, resulta una alternativa a la
comparación de dos promedios independientes realizada con la t de student
Vicente Waldo Aguirre Tarquino 148
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
En SPSS
Mann-Whitney Test
Ranks
Total 23
Test Statisticsb
Mann-Whitney U 60,000
Wilcoxon W 138,000
Z -,370
Asymp. Sig. (2-tailed) ,712
Exact Sig. [2*(1-tailed Sig.)] ,740a
Tratamiento aplicado N
Test Statisticsa
Positive ,273
Negative -,106
Kolmogorov-Smirnov Z ,653
Asymp. Sig. (2-tailed) ,787
Wald-Wolfowitz Test
Frequencies
Tratamiento aplicado N
m
Total 23
Test Statisticsb,c
FEVI al final del periodo de Exact Number of Runs 11a -,418 ,335
observación
En este ultimo caso, si el número de empates (ties encountered) es grande, el resultado seria
difícilmente interpretable por lo que se debería optar por otra prueba.
Con las tres pruebas se verifica que el valor estadístico de contraste es mayor que 0.05 por lo que
se acepta la hipótesis nula, por lo tanto el fármaco no aporta mejores resultados.
TEMA:
Permite la comparación entre dos variables categorizadas entre poblaciones con observaciones no
relacionadas (independientes), es utilizada para valorar la dependencia (asociación) o
independencia entre dos grupos de variables categóricas que pueden ser nominales u ordinales.
Prueba Descripción
Chi -cuadrado Determinar si las diferencias entre las frecuencias observadas en la tabla
de Pearson de contingencia correspondiente al cruce de los valores de las dos
variables y las frecuencias esperadas, supuestos que las variables son
independientes, son estadísticamente significativas. (Se involucra a dos
variables)
Fuente: En Base a Magdalena Ferran
Contrasta la hipótesis nula de independencia entre dos variables con más de dos categorías. No
mide la fuerza de la asociación, donde:
Si el valor p asociado al estadístico de contraste es menor que alfa, se rechaza la hipótesis nula al
nivel de significancia alfa
Recuerde que las frecuencias esperadas de las celdas de la tabla de contingencia deben ser mayores
que 5, en una tabla de 2x2 solo se puede permitir una celda menor a 5, siempre y cuando sea mayor
que 0, es decir el 75% de las celdas (3 celdas de 4) deben ser mayores que 5, esta proporción debe
mantenerse para tablas mayores que 2x2, siempre y cuando los valores sean mayores que 0., en
caso contrario y cuando los valores de la celda están entre 3 y 5 se recomienda usar la corrección
de Yates34, cuando los valores están entre 0 y 2 se debe usar la prueba exacta de Fisher35
33
La Ho en alguna literatura también puede ser: Las variables en filas y columnas no están asociadas. Esto
debido a que la tabla de contingencia expone los datos ordenados en filas y columnas.
34
Ó corrección por continuidad, reduce el valor de la Chi cuadrado.
35
Para variables docotomicas en muestras pequeñas
Vicente Waldo Aguirre Tarquino 152
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
Procedimiento
Caracteristica Y
1 2 …. J Totales
1 fo11 fo12 fo1… fo1j Total Fila 1
Caracteristica 2 fo21 fo22 fo2… fo2j Total Fila 2
X …. fo...1 fo…2 fo…… fo…j Total Fila …
i foi1 foi1 foi… foij Total Fila i
Total Total Total Total Total
Totales Columna 1 Columna 2 Columna … Columna j n
Caracteristica Y
1 2 …. j Totales
fe11= fe12= fe1…= fe1j= Total Fila
(Tot.Fila1xTot.Colum1) (Tot.Fila1xTot.Colum2) (Tot.Fila1xTot.Colum…) (Tot.Fila1xTot.Columj) Esperada
1 N N N N 1
fe21= fe22= fe2…= fe2j= Total Fila
(Tot.Fila2xTot.Colum1) (Tot.Fila2xTot.Colum2) (Tot.Fila2xTot.Colum…) (Tot.Fila2xTot.Columj) Esperada
2 N N N N 2
Caracteristica
Total Fila
X Esperada
fe..1= fe…1= fe…= fe…j=
Tot.Fila..,xTot.Colum1) (Tot.Fila..,xTot.Colum2) (Tot.Fila..,xTot.Colum…) (Tot.Fila..,xTot.Columj) …
…. N N N N
fei1= fei1= fei…= feij= Total Fila
(Tot.FilaixTot.Colum1) (Tot.FilaixTot.Colum2) (Tot.FilaixTot.Colum…) (Tot.FilaixTot.Columj) Esperada
i N n N n i
Total
Total Columna Total Columna Total Columna Total Columna n
Totales Esperada 1 Esperada 2 Esperada … Esperada j
3. Construir una nueva tabla que incluya el valor de la Chi cuadrado para cada casilla
Caracteristica Y
1 2 …. j
( fo11 fe11 ) 2
( fo12 fe12 ) 2
( fo1 j fe1 j ) 2
112 122 12j
1 fe11 fe12 … fe1 j
( fo21 fe21 ) 2 ( fo21 fe21 ) 2 ( fo2 j fe2 j ) 2
Caracteristica 212 212 22 j
2 fe21 fe21 … fe2 j
X
…. …. … … …
( foi1 fei1 ) 2
( foi 2 fei 2 ) 2
( foij feij ) 2
i21 i22 ij2
I fei1 fei 2 … feij
Calculada
2
tablas
2
Aceptar Ho
Ejemplo
Verifique si existe relación entre tres tipos de tratamiento contra el acné (Tratamiento A, B y C) y
la percepción del tratamiento que declaran los pacientes (siente mejoras con el tratamiento -M,
no siente mejoras con el tratamiento - I), para el siguiente grupo de pacientes entre 15 y 17 años.
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
TRATAMIENTO
PERCEPCION
PERCEPCION
PERCEPCION
PERCEPCION
PERCEPCION
PERCEPCION
PERCEPCION
SUJETO
SUJETO
SUJETO
SUJETO
SUJETO
SUJETO
SUJETO
1 A M 11 A M 21 A I 31 B M 41 B I 51 C M 61 C M
2 A M 12 A M 22 A I 32 B M 42 B I 52 C M 62 C M
3 A M 13 A M 23 A I 33 B M 43 B I 53 C M 63 C I
4 A M 14 A M 24 A I 34 B M 44 B I 54 C M 64 C I
5 A M 15 A I 25 A I 35 B I 45 B I 55 C M 65 C I
6 A M 16 A I 26 A I 36 B I 46 B I 56 C M 66 C I
7 A M 17 A I 27 B M 37 B I 47 B I 57 C M 67 C I
8 A M 18 A I 28 B M 38 B I 48 B I 58 C M 68 C I
9 A M 19 A I 29 B M 39 B I 49 B I 59 C M 69 C I
10 A M 20 A I 30 B M 40 B I 50 B I 60 C M 70 C I
Tabla de contingencia
TRATAMENTO * PERCEPCION
Valores Observados
PERCEPCION
M I Total
TRATAMENTO A 14 12 26
B 8 16 24
C 12 8 20
Total 34 36 70
Tabla de contingencia
TRATAMENTO * PERCEPCION
Valores Esperados
PERCEPCION
M I Total
B 11,66 12,34 24
C 9,71 10,29 20
Total 34 36 70
3. Construir una nueva tabla que incluya el valor de la Chi cuadrado para cada casilla
Tabla de contingencia
TRATAMENTO * PERCEPCION
Componentes Chi Cuadrado
PERCEPCION
M I Total
( foij feij ) 2
2
Calculada 0,290 2,231 1,046 3,567
i j feij
gl ( filas 1) x ( columnas 1) ( 3 1) x ( 2 1) 2
Calculada
2
tablas
2
Aceptar Ho
En SPSS
Analizar / Estadísticos Descriptivos / Tablas de Contingencia
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
En nuestro ejemplo el cociente de la razón de verosimilitud es 0,164 es decir mayor que 0.05 por lo
que también se acepta la hipótesis nula.
En el caso de que ambos estadísticos sean contradictorios, se debe optar por el más conservador,
es decir el que presente el menor valor p.
Ejemplo 7
Analizar si el efecto del tratamiento dermatológico (A, B, C) para el acné (TRATAMIENTO) depende
del tipo de presentación (PRESENTA).
B Count 6 22 20 15 63
C Count 23 21 6 12 62
Chi-Square Tests
a. 0 cells (,0%) have expected count less than 5. The minimum expected
count is 14,68.
Como el valor p, Sig. Asintótica bilateral es 0.000 es menor que 0.05 se rechaza la hipótesis nula,
no se puede aceptar que la probabilidad de obtener un resultado favorable con un tratamiento es
independiente de cual sea la presentación.
En nuestro ejemplo el cociente de la razón de verosimilitud es 0.000 es decir menor que 0.05 por
lo que también se rechazara la hipótesis nula.
En el caso de que ambos estadísticos sean contradictorios, se debe optar por el más conservador,
es decir el que presente el menor valor p.
TEMA:
Medida de Escala de
Observaciones
Asociación medida
Correlación intervalo Son medidas del grado de asociación lineal entre
de Pearson (continuo con las dos variables.
distribución Los coeficientes de correlación de Pearson y de
normal) Spearman toman valores comprendidos entre -1
y 1, que indican máximo grado de asociación
lineal negativa y positiva, respectivamente.
Correlación intervalo (u La correlación de Sperman es la correlación de
de Spearman ordinal) Pearson entre los rangos asignados a los valores
ordenados.
La medida de asociación lineal de Mantel-
Haenszel se define como el cuadrado del
coeficiente de correlación de Pearson
multiplicado por (N-1), siendo N el tamaño
muestral.
Fuente: En base a Magdalena Ferran
Prueba de Hipótesis
Ho: rxy = 0
Ho: rsxy = 0
Covarianza
Una medida alternativa para analizar si existe asociación es la covarianza la cual se constituye
también en un insumo para el cálculo del coeficiente de correlación y posteriormente para las
regresiones.
covarianza es un valor que indica el grado de variación conjunta de dos variables aleatorias
respecto a sus medias. Es el dato básico para determinar si existe una dependencia entre ambas
variables y además es el dato necesario para estimar otros parámetros básicos, como el
coeficiente de correlación lineal o la recta de regresión.
Cuando los valores altos de una de las variables suelen mayoritariamente corresponderse con los
valores altos de la otra, y lo mismo se verifica para los pequeños valores de una con los de la otra,
se corrobora que tienden a mostrar similar comportamiento lo que se refleja en un valor positivo
de la covarianza1
Por el contrario, cuando a los mayores valores de una variable suelen corresponder en general los
menores de la otra, expresando un comportamiento opuesto, la covarianza es negativa.
Xi X Yi Y
n
S xy i 1
Xi X Yi Y
n
Sxy i 1
n
n
x y i i
Sxy i 1
X ·Y
n
Interpretación:
Propiedades
2. Problemas en la interpretación:
Vicente Waldo Aguirre Tarquino 163
APUNTES DE ESTADISTICA APLICADA – VERSION EN BORRADOR
n XiYi Xi Yi
rxy
n Xi 2 Xi n Yi 2 Yi
2 2
rxy
x yi
i·
n·Sx·Sy
Sxy
rxy
Sx·Sy
DIRECTAS.- Cuando una variable sube, también sube la otra variable. Ejemplo: La
relación entre el grado de educación X y el estado de Salud den General Y.
X - Y
X - Y
6 d 2
rs xy 1
n(n 1)(n 1)
definida con un índice de asociación lineal como R. Mientras que el sentido se refiere al
tipo de relación lineal: positiva (directa), negativa (inversa) o nula (no hay relación).
Una relación de tipo lineal entre las variables no implica relación de tipo causal (X no tiene por
qué causar a Y, aunque estén relacionadas linealmente).
Procedimiento
En el SPSS
TEMA:
Medida de Escala de
Tabla Observaciones
asociación medida
Phi Coeficiente 2x2rxc nominales Son medidas basadas en el estadístico Ji- cuadrado.
de nominales Toman valores comprendidos entre 0 y 1, que
contingencia indican mínimo y máximo grado de asociación,
respectivamente.
V de Cramer Rxc nominales Phi presenta el inconveniente de que puede
alcanzar valores superiores a 1 en tablas r x c; el
coeficiente de contingencia depende de una cota
superior y la V de Cramer tiende a subestimar la
asociación. Además, pueden tomar el mismo valor
en muestras con tamaños muy diferentes.
Son útiles para comparar grados de asociación
entre pares de variables observadas sobre un
mismo conjunto de individuos.
Riesgo Relativo 2x2 nominales Toma valores positivos. Si las variables son
independientes su valor será próximo a 1.
Compara los dos grupos establecidos por los
valores de una de las variables en términos de la
frecuencia con que presentan cada uno de los
valores de la otra.
Admite la posibilidad de distinguir entre grupo de
control y experimental.
Medida de Escala de
Tabla Observaciones
asociación medida
Lambda Rxc nominales Toman valores comprendidos
entre 0 y 1, que indican
mínimo y máximo grado de
asociación, respectivamente.
Coeficiente Rxc nominales Disponen de versión
de asimétrica.
incertidumbre Lambda es fácil de interpretar
en términos de la proporción
en que se reduce el error en la
predicción del valor de una
variable a partir de los valores
de la otra, sin embargo, puede
tomar el mínimo valor en
tablas con asociación.
El coeficiente de
incertidumbre únicamente
toma el valor cero en tablas
con no asociación; sin
embargo, su valor es mas
difícil de interpretar que el de
Lambda.
Medida de Escala de
Observaciones
Asociación medida
Eta V.D.: intervalo Los valores de la variable independiente
V.I.: nominal establecen grupos en la población.
Toma valores entre 0 y 1.
Cuanto mas próximo a 1 sea su valor mas
diferenciados estarán los grupos en términos de
las puntuaciones de la variable dependiente
(mayor será la dependencia de las puntuaciones
respecto de los grupos).