Está en la página 1de 75

1

Curso bianual de Ginecologa.


Sociedad de Ginecologa y Obstetricia
de Misiones.
Posadas 2008
Bioestadstica
Bioq. Mara de Lujn Calcagno
Facultad de Farmacia y Bioqumica
UBA
marilu@mybfyb.ffyb.uba.ar
2
ESTADSTICA
(BIOESTADSTICA)
2) ESTADSTICA
DESCRIPTIVA
(ANLISIS EXPLORATORIO)

3) INFERENCIA
ESTADSTICA


1) DISEO
DE LA
INVESTIGACIN

3
VARIABLE
OBSERVADA X

OBJETIVO:
OBTENER CONCLUSIONES BIOLGICAS PARA
UNA POBLACIN A PARTIR DE DATOS DE UNA
MUESTRA

POBLACIN DE
INDIVIDUOS
POBLACIN DE
OBSERVACIONES
MUESTRA DE
INDIVIDUOS
(tamao n)
UNIDAD
EXPERIMENTA
L
MUESTRA DE
OBSERVACIONES
(n datos)
OBSERVACIN
INDIVIDUAL
Esquema: Dra. Delia Garrido
VARIABLE
OBSERVADA X
VARIABLE
OBSERVADA X
4
VARIABLES

ALEATORIAS
CUALITATIVAS
(CATEGRICAS)
CUANTITATIVAS
(NUMRICAS)
NOMINALES
ORDINALES
DISCRETAS
CONTINUAS
5
NOMINALES: Registran la presencia de un atributo. Mutuamente
excluyentes y exhaustivas.
1) Dicotmicas: Sexo, Grupo (Normales vs. SOP).
2) Ms de dos categoras: Grupo sanguneo (O, A, B, AB); No fumador-ex
fumador-fumador.
ORDINALES: Reflejan un orden natural entre las categoras.
Estadio de cncer de mama: I, II, III, IV (II no es el doble de grave que I)
DISCRETAS: Slo toman valores en un conjunto finito o infinito
numerable; surgen de conteos.
Nmero de ndulos; nmero de partos (4 partos es el doble de 2 partos);
nmero de hemates en 1 ml.
CONTINUAS: Pueden tomar infinitos valores en un rango, no se pueden
numerar; suelen surgir de mediciones o clculos.
Peso; altura; nivel de una hormona en sangre.
Ejemplos:
6

OBJETIVO:
OBTENER CONCLUSIONES BIOLGICAS PARA
UNA POBLACIN A PARTIR DE DATOS DE UNA
MUESTRA

POBLACIN DE
OBSERVACIONES
v.a. X
MUESTRA DE
OBSERVACIONES
(tamao n)
ESTADSTICOS DE LA MUESTRA:

Media muestral

Varianza muestral
Desviacin estndar muestral
Mediana de la muestra
Proporcin de un atributo en la muestra

= X
2 2

= S
S

= M

= P
PARMETROS DE LA POBLACIN:
Esperanza o media de X =
Varianza de X =
Desviacin estndar de X = o =
Mediana poblacional = u
Proporcin de un atributo = t
2

^ Lase: estimador de
7
VARIABLE
OBSERVADA

OBJETIVO:
OBTENER CONCLUSIONES BIOLGICAS PARA
UNA POBLACIN A PARTIR DE DATOS DE UNA
MUESTRA

POBLACIN
DE
INDIVIDUOS
POBLACIN DE
OBSERVACIONES
MUESTRA DE
INDIVIDUOS
UNIDAD
EXPERIMENTA
L
MUESTRA DE
OBSERVACIONES
OBSERVACIN
INDIVIDUAL
VARIABLE
OBSERVADA
VARIABLE
OBSERVADA

INFERENCIA
ESTADSTICA
CONCLUSIN BIOLGICA
ESTADSTICA DESCRIPTIVA
8
Algunos estadsticos muestrales:
Media muestral
(medida de tendencia central):

n i
i
i
x
n

x
=
1 =
1
= =
0
2
4
6
8
10
12
5 , 6 = x
6 , 3 = x
0
2
4
6
8
10
12
5 , 6 = x
6 , 3 = x
FSH 1 FSH 2
FSH 3 FSH 4
1- Para variables numricas:
Muestras de tamao n = 8
Medias: 6,5 3,6 6,5 3,6
FSH 2
2,3
2,5
2,8
3,4
3,6
4,5
4,8
4,8
FSH 1
4,8
5,4
6,3
6,7
6,8
6,9
7,6
7,8
FSH 3
1
2,1
4,3
6,7
7,6
8,4
10,5
11,2
FSH 4
0,2
1
1,8
2,3
2,5
4,8
7,2
9,2
9
Varianza muestral:
( ) =
2 2
n = i
1 = i
i
2
x x
1 n
1

= s
_
_
Desviacin estndar:
2
= = s

s
VAR (FSH 1) = 1,05

VAR (FSH 2) = 1,04

VAR (FSH 3) = 13,91

VAR (FSH 4) = 10,03
DS (FSH 1) = 1,02

DS (FSH 2) = 1,02

DS (FSH 3) = 3,73

DS (FSH 4) = 3,17
Medidas de dispersin:
Coeficiente de variacin:
x
s
CV =
Coeficiente de variacin %:
100 = *
x
s
% CV
10
Mediana muestral:
(otra medida de tendencia central)
Se ordenan los n datos de menor a mayor y la mediana es el valor central
(si n es impar), o el promedio de los dos valores centrales (si n es par).
75 6 =
2
8 6 + 7 6
= = ,
, ,

m Mediana
FSH 1 4,8 5,4 6,3 6,7 6,8 6,9 7,6 7,8
Rango o recorrido:
(otra medida de dispersin)
Rango = X
Mx
X
mn

Informamos:
Media (DS)
o (cuando corresponde, segn la distribucin de la variable):
Mediana (Mnimo; Mximo)
o bien (X
mn
; X
mx
)
11
Proporcin de un atributo:
n
f
muestra la de Tamao
suceso al favorables Casos

p relativa Frecuencia = = = =
2- Para variables categricas:
Frecuencia absoluta = f = es la cantidad de veces que ocurre el
suceso de inters al efectuar n veces el experimento. O bien, es la
cantidad de casos favorables al suceso de inters cuando se observa
una muestra de tamao n.
Algunos estadsticos muestrales:
12
0,21
3,94
7,66
11,38
15,11
F
S
H

(
m
U
I
/
m
L
)

Box Plot variable FSH en mujeres normales
Mediana
Media
Cuantil 0,25 =
25% percentilo
Cuantil 0,75 = 75%
percentilo
Mximo
Mnimo
Grfico de Cajas y Bigotes para variables numricas continuas:
Cuantil 0,05
Cuantil 0,95
13
-1,31
7,01
15,34
23,67
32,00
F
S
H

(
m
U
I
/
m
L
)
Box plot variable FSH en mujeres con SOP
14
Normal SOP
Grupo
-1,31
7,01
15,34
23,67
32,00
F
S
H
-
B
I
O
A
R
S
6,39
4,58
6,39
4,58
FSH en mujeres normales y con SOP
15
0,04 1,74 3,43 5,12 6,81 8,51 10,20 11,89 13,58 15,28
FSH (mUI/mL)
0,00
0,07
0,13
0,20
0,26
F
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
FSH en mujeres normales
HISTOGRAMA
Este hueco
no aparece
en el box plot
X
Y
16
0,04 1,74 3,43 5,12 6,81 8,51 10,20 11,89 13,58 15,28
FSH (mUI/mL)
0,00
0,07
0,13
0,20
0,26
f
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
FSH en mujeres normales
Ajuste: Normal (6,69, 8,73)
X
Y
17
-1,71 2,21 6,12 10,03 13,94 17,86 21,77 25,68 29,59 33,51
FSH (mUI/mL)
0,00
0,13
0,26
0,39
0,52
f
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
FSH en mujeres con SOP
Ajuste: Normal (5,35, 18,75)
X
Y
18
N (;
2
)
2
)

X-
(
2
1
2
e
2
1
= ) X ( f
-
Parmetros poblacionales
(un ejemplo):
3 = = ) X ( DS
9 = = ) X ( Var
6 = = ) X ( E
2
El rea bajo la curva
es igual a 1. La
curva es simtrica
respecto de X =
X
Y
19
N (;2)
Las probabilidades se calculan como reas bajo la curva.
El rea bajo la curva es igual a 1.
La curva es simtrica respecto de X =
Entre o se encuentran aproximadamente el 68% de las observaciones.
Entre 2o se encuentran aproximadamente el 95% de las observaciones.
Entre 3o se encuentra aproximadamente el 97,5% de las observaciones.
- o + o
- 2o + 2o
- 3o
+ 3o

20
-6 -4 -1 1 4 6 8 11 13 16 18
FSH (mUI/mL)
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
( )
2
; N X

n

; N X
2

(
)
X
: Media de muestras
de tamao n
(n=9 en este caso).
X
Y
21

Y N (; ), entonces

( ) 1 ; 0 N
n

X
= Z
-

X
n

2
Variable aleatoria Normal Estandarizada:

Si X N (; ), entonces

2
( ) 1 ; 0 N

X
= Z
-

Y, adems, cualquiera sea la distribucin de X, si n es
suficientemente grande,
) ; (
n
N X
2
o
~
Teorema Central del Lmite
22
Pero:
_
-6 -5 -3 -2 -1 0 1 2 3 5 6
Variable T
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
Distribucin T de Student
n-1 = 9-1 = 8
grados de
libertad
Si X N (; ),y media de muestras de tamao
n, entonces
2
X
1 n
T
n
S
X
= T

-
_

23
Muchas veces, si la desviacin estndar S es muy grande, vemos que
informan el error estndar de la media. NO ES CORRECTO, pues el
estimador de la precisin con la que se mide la variable X es la desviacin
estndar de X (Recordemos que ) S

=

N (; ), entonces

( ) 1 ; 0 N
n

X
= Z
-

X
n

2
Vimos que:
n

ESM =
n
S
M S E =

Error estndar de la Media: es la desviacin estndar de la media


24
Estimacin por Intervalos de Confianza
Con los estimadores puntuales de los parmetros slo sabemos que, si la muestra
fue bien tomada, estamos cerca del parmetro. Cun cerca, o con qu precisin
fue hecha la estimacin, lo informan los intervalos de confianza. Son de la
forma:
C (L.Inf< Parmetro desconocido < L.Sup) = 1-o
1-o se fija, en general, en 0,95 (o 95%)
Ejemplo: En una muestra de 9 mujeres normales, la media de FSH fue de 6,69
UI/mL y la desviacin estndar fue de 2,95 UI/mL. Queremos construir un
intervalo de confianza del 95% de confianza. La frmula es, en este caso:
n s * t x
8 ; 975 , 0
9 95 , 2 * 306 , 2 69 , 6
C (4,42 < < 8,96) = 0,95
6,69 2,27
25
0 10 20 30 40 50 60 70 80 90 100
Intervalos
-0,06
0,94
1,95
2,95
3,96
4,97
5,97
6,98
7,98
8,99
9,99
11,00
M
e
d
i
a
Intervalos de confianza para la media
Cobertura: 95,00%
26
Inferencia estadstica: Prueba de hiptesis
Ahora se quieren poner a prueba hiptesis respectivas a los parmetros desconocidos de
la poblacin. Por ejemplo, se puede suponer que la muestra que dio una media de 6,69
pertenece a una poblacin que tiene esperanza = 6? (Hiptesis nula); o la poblacin de
la cual proviene esa muestra tiene una esperanza mayor que 6? (Hiptesis alternativa)
Estas hiptesis las escribimos as:
6 > : H
6 = : H
1
0
FSH (mUI/mL)
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d

x

0
=6
) 6 = ( X
0
H
0
En esta situacin I, es muy probable que la
muestra pertenezca a esta poblacin
En esta situacin II, es muy improbable
que la muestra pertenezca a esta poblacin
FSH (mUI/mL)
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d

0
= 6
) 6 = ( X
0
H
0
x
Suponiendo que conocemos o y que es igual a 3:
Situacin I:
Situacin II:
0 1
0 0
H
H
>
=
:
:
En general:
27
FSH (mUI/mL)
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
rea a la derecha
de = muy grande
x
Situacin 1:
Aqu, si rechazo H
0
, tengo una
probabilidad de equivocarme
demasiado grande, porque hay
una gran probabilidad de que la
muestra pertenezca a esta
poblacin. Me conviene
rechazar H
0
con una
probabilidad tan grande de
equivocarme? NO!
Situacin 2:
Aqu, si rechazo H
0
, la
probabilidad de equivocarme es
prcticamente cero porque hay
una probabilidad casi nula de que
la muestra pertenezca a esta
poblacin. Me conviene rechazar
H
0
con una probabilidad tan
pequea de equivocarme? S!
) 6 = ( X
0
H
0
FSH (mUI/mL)
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
) 6 = ( X
0
H
0
rea a la derecha
de ~ 0
x
28
FSH (mUI/mL)
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
crtico
X
05 , 0 = ) crtico Valor X ( P
o = Nivel de significacin del
test
Entonces?; cul es el lmite?; a partir de qu valor de media rechazo H
0
o no me
animo a rechazar H
0
?

Ese valor es el que deja en la zona de rechazo un rea de a lo sumo 0,05, o 5%
(en problemas biolgicos)
El nivel de significacin o es una declaracin de principios que se hace, en un
paper, en la seccin Materiales y mtodos (Mtodos estadsticos): se
considerar significativa una probabilidad de error menor que el 5%
Zona de rechazo Zona de aceptacin
29
En nuestro ejemplo, la probabilidad P de equivocarnos al afirmar
que la esperanza de la poblacin es mayor que 6, vale 0,2451; y es
mayor que 0,05. Por lo tanto, no podemos rechazar la hiptesis de
que nuestra muestra pertenece a una poblacin de esperanza = 6.
sta es la P de los papers
2,40 3,01 3,63 4,24 4,86 5,47 6,09 6,70 7,31 7,93 8,54 9,16 9,7710,3911,00
FSH (mUI/mL)
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
_
Normal(6;1): P(X>6,69)=0,2451
69 6 = , muestra la de x
P = 0,2451
30

*Si se conoce o :
de N(; o
2
/n) a N (0;1)


*Si no se conoce o :
de N(; o
2
/n) a T
n-1


El estadstico de prueba es el termmetro que detecta cundo la
hiptesis nula no es vlida.
) ; ( N
n
X
E 1 0


=
0
_

1
0

=
n
T
n
S
X
E
_
-
(Diapositiva 21)
(Diapositiva 22)
Sin embargo, para simplificar, y para poder calcular las probabilidades,
los estadsticos muestrales, como la media, en este caso, se
estandarizan y se convierten en el ESTADSTICO DE PRUEBA. Es
decir: la diferencia entre el estimador del parmetro y el Estadstico
de prueba es slo un cambio de escala.
Por ejemplo:
31
As, la P tambin es el rea de la zona de rechazo calculada a partir
del Estadstico de prueba E.
2,40 3,01 3,63 4,24 4,86 5,47 6,09 6,70 7,31 7,93 8,54 9,16 9,7710,3911,00
FSH (mUI/mL)
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
_
Normal(6;1): P(X>6,69)=0,2451
69 , 6 = muestra la de x
P = 0,2451
69 0 =
9 3
6 69 6
= ,
/
,
E Donde
_
1 =
9
3
-5,0 -4,3 -3,6 -2,9 -2,1 -1,4 -0,7 0,0 0,7 1,4 2,1 2,9 3,6 4,3 5,0
Variable
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
Normal(0,1): p(Z > 0,69)=0,2451
P = 0,2451
Est. de prueba E = 0,69
Z
32
-5,00 -4,17 -3,33-2,50 -1,67 -0,83 0,00 0,83 1,67 2,50 3,33 4,17 5,00
Variable
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
Normal(0,1):rea en la cola izquierda = 0,0500
Test de cola izquierda:
0 1
0 0
< : H
= : H
Test de dos colas:
0 1
0 0
: H
= : H
-5,00 -4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 5,00
Variable Z
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
Normal(0,1): rea en las colas = 0,0500
33
Realidad
H
0
verdadera H
0
falsa

D
e
c
i
s
i

n



Acepto H
0



Acierto

Error de tipo II
| = Prob. de
cometerlo (no se
conoce)



Rechazo H
0


Error de tipo I
o = Prob. de cometerlo
(Nivel de significacin:
lo fija el
experimentador)

Acierto:
Potencia del test
1-| = Probabilidad de
ocurrencia


Esquema de las decisiones en un test de hiptesis:
34
Entonces, resumamos las definiciones de los errores y
aciertos:
Probabilidad de cometer error de tipo I (o): La probabilidad de
rechazar H
0
siendo verdadera. Es el nivel de significacin del test. Es la
probabilidad de error que el investigador fija antes de analizar los
resultados. Es el mximo error que est dispuesto a cometer en la
decisin.
Probabilidad de cometer error de tipo II (|): La probabilidad de
aceptar H
0
siendo falsa. No se puede calcular, a menos que se fije una
alternativa.
Potencia (t = 1-|): La probabilidad de rechazar H
0
siendo falsa. Es la
capacidad de un test de detectar diferencias verdaderas.
La P de los papers es:
* La probabilidad exacta de equivocarse al rechazar H
0
.
* El nivel justo de significacin.
* El rea de la zona de rechazo calculada exactamente a partir del
estadstico de prueba (se calcula despus de que se tomaron los datos).
35
Variable
0,00
0,10
0,20
0,30
0,40
D
e
n
s
i
d
a
d
crtico
X

0

1

En un test de cola derecha, donde H
0
: =
0
y H
1
: >
0
, supongamos
una alternativa
1

0
H bajo X
1
H bajo X
Potencia = 1-|
Nivel de significacin = o
Error de tipo II = |
Zona de rechazo
Zona de aceptacin
36
Relacin entre Intervalo de confianza y Test de Hiptesis
Volviendo a nuestro ejemplo:
C (4,42 < < 8,96) = 0,95
Si ahora planteamos las hiptesis:
6 : H
6 = : H
1
0
Vemos que el intervalo de confianza del 95% contiene al valor 6. Por lo
tanto, se podra decir que tenemos una confianza del 95% de que el
verdadero valor de pueda ser 6. Entonces, no nos atrevemos a
rechazar la hiptesis = 6.

Si, por el contrario, el valor 6 no perteneciera al intervalo, tendramos
que rechazar la hiptesis de que = 6, y la probabilidad de error de
esa afirmacin sera del 5% (o = 0,05).

Este razonamiento vale para cualquier intervalo de confianza
37
Cmo se organizan las bases de datos:
Un nmero de identificacin correlativo
ayuda a ordenar la base

Cada fila es un caso o paciente o
registro

Cada columna (o campo) es una variable

Las variables categricas pueden ir en
letras o nmeros, segn el software
38
Test de Shapiro-Wilks para normalidad de una variable continua:
H
0
: La variable sigue una distribucin normal
H
1
: La variable no sigue una distribucin normal
Para decidir que la variable sigue razonablemente una distribucin
normal, la P debe ser mayor que 0,20
39
Normal SOP
Grupo
-1,31
7,01
15,34
23,67
32,00
F
S
H
-
B
I
O
A
R
S
6,39
4,58
6,39
4,58
FSH en mujeres normales y con SOP
Dos muestras:
40
Para analizar dos muestras independientes, automticamente se piensa en el test
de Student:
41
p(Var Hom) en la salida del programa de la diapositiva anterior es la P del test de
homogeneidad de varianzas de Fisher, cuyas hiptesis son:
2
2
2
1 1
2
2
2
1 0
: H
= : H
Los supuestos del test de Student para muestras independientes son:
*Independencia de las variables
*Normalidad de ambas variables
*Homogeneidad de varianzas
Lo ideal es no rechazar H
0
para que se cumpla la hiptesis de homogeneidad de
varianzas (pero no a cualquier precio). Entonces, la P debera ser como mnimo mayor
que 0,10 para no rechazar la hiptesis de homogeneidad de varianzas.
Luego de inactivar el outlier
42
En el ejemplo sospechbamos que las mujeres con SOP pueden tener valores de
FSH menores que las normales. Automticamente pensamos en el test de
Student para muestras independientes. Pero OJO!
Encontramos dos problemas graves:
1* Se vio (test de Shapiro-Wilks para normales y SOP) que, para el grupo de
mujeres normales, la variable sigue una distribucin razonablemente Normal o
Gaussiana. Pero para el grupo SOP, no.

2* La P de la prueba de varianzas homogneas era 0,0339, menor que 0,05,
debido a la presencia de fuertes outliers. Luego de inactivar el outlier, la P
resulta mayor que 0,10. Es decir que la heterogeneidad de varianzas se deba al
outlier.
Entonces, si queremos comparar los grupos y verificar que en el grupo SOP los
valores de FSH son menores que en las mujeres normales, qu mtodo
aplicamos? Si usamos un test que compara medias, seguramente
sobrevaluaremos los valores de FSH en las mujeres con SOP.
43
Para estos casos, cuando ni aun con una transformacin de los datos se logra la
distribucin normal, se desarrollaron los:
MTODOS NO PARAMTRICOS
Ventajas:
* No exigen que las variables tengan distribucin alguna. A lo sumo,
algunos piden distribuciones simtricas.
* Se pueden aplicar cuando hay pocos datos.
* Son robustos respecto a outliers.
Desventajas:
* Tienen menos potencia que los tests no paramtricos.
* No utilizan toda la informacin de la variable; slo se basan en el rango
de los datos.
* Hay pocos tests no paramtricos desarrollados.
44
Test de Wilcoxon-Mann Whitney:
Si bien es un test de menor potencia que los paramtricos, aqu detect una
diferencia que no detect el test de Student porque no se cumplan las suposiciones
para el test de Student.
Esos datos outliers del grupo SOP desplazaron la media hacia valores mayores, que
solaparon la diferencia.
Media (1)
6,69
Media (2)
5,35
45
Anlisis de la varianza (ANOVA)
Es el procedimiento estadstico que se utiliza cuando se desean
comparar I medias de variables aleatorias que siguen distribucin
normal. Si I=2, el Anova es equivalente al test de Student.
Las hiptesis que se contrastan son:

H
0
:
1
=
2
= =
I

H
1
: no todas las
i
son iguales
Causas o fuentes de variacin:
Grupo o tratamiento diferente
(Variacin controlada)
Diferencias individuales, errores
de medicin de la variable, efecto
del medio ambiente, etc.
(Variacin no controlada y/o no
controlable)
46
Y..
_
Y
1.

_
Y
2.

_
Y
3.

_
Variacin Entre grupos (CM
E
) >> Variacin Dentro de grupos (CM
D
)
Veamos las fuentes de variacin en las dos situaciones:
Y
1.

_
Y
2.

_
Y
3.

_
Y..
_
II) H
0
es verdadera:
Variacin Entre grupos (CM
E
) ~ Variacin Dentro de grupos (CM
D
)
I) H
0
es falsa (el caso ms extremo: todas las medias diferentes):
47
La particularidad del ANOVA es que utiliza un cociente de varianzas
(Varianza entre grupos dividido la varianza dentro de los grupos)



para contrastar igualdad de medias. Si la variacin entre las I medias
de grupos o tratamientos es mayor que la variacin entre
observaciones dentro de los tratamientos (donde la nica causa de
variacin es un error aleatorio no controlable pues pertenecen a un
mismo grupo), entonces se rechazar la hiptesis nula de igualdad de
las medias poblacionales.
) ( ; ) 1 ( I n I
DENTRO
ENTRE
F
CM
CM
prueba de o Estadstic

=
~
48
Por qu no usar un test de Student para cada par de comparaciones
cuando queremos comparar I medias?
Recordemos el nivel de significacin de un test, que es el error que se
comete al rechazar la hiptesis nula de igualdad.
Si aplicamos un test de Student por cada par de medias, y en cada
rechazo cometemos error de tipo I, al rechazar varias hiptesis el
error puede llegar a ser muy grande.
Pero, y si se rechaza la hiptesis nula?, cmo s cules son las
medias que difieren?
Para eso se desarrollaron los tests a posteriori del ANOVA, que s
comparan las medias de a pares, pero que usan un estimador de la
varianza combinado entre todos los datos y no slo de un par de
tratamientos, como ocurrira con un test de Student para cada par de
medias.
49
Variables categricas: Tablas de contingencia
H
0
: Las variables que definen filas y columnas de la tabla son independientes
H
1
: Las variables que definen las filas y columnas de la tabla no son independientes
n
columna de Total * fila de Total
= celda cada de esperada Frecuencia
El valor tan pequeo de la P permite
afirmar que la prevalencia de
hipertensin dentro de las fumadoras
(33,0%) es significativamente diferente
de la prevalencia dentro de las no
fumadoras (22,8%)
50
La P del test de Chi-cuadrado de Pearson, o del test de Mxima Verosimilitud
(MV), o del test exacto de Fisher (diapositiva anterior) es muy pequea,
mucho menor que 0,05. Por lo tanto, podemos concluir, con muy baja
probabilidad de error, que el hecho de fumar y la hipertensin no son
independientes, o, en otras palabras, que la proporcin de hipertensas es
significativamente diferente (mayor) en mujeres fumadoras (33,0%) que en no
fumadoras (22,8%).
El test de Chi cuadrado tiene dos supuestos:
* No debe haber ninguna frecuencia esperada (esperada bajo la suposicin de
independencia) menor que 1.
* No debe haber ms del 20% de celdas con frecuencias esperadas (ver Tabla
de frecuencias esperadas) menores que 5.
Si alguno de estos requerimientos no se cumple, hay que usar el test exacto de
Irwin-Fisher.
51
Tambin puede interesar establecer cunta ms oportunidad de ser
hipertensa tiene una mujer que fuma con respecto a una que no fuma.
A este ndice se lo llama ODDS RATIO (OR), o cociente de odds.
El ODDS es el cociente entre la probabilidad de tener el evento dividida
por la probabilidad de no tenerlo (para un mismo grupo, por ejemplo, las
fumadoras):
El ODDS para las no fumadoras:
327
161
488
327
488
161
) (
) (
= = =
hipertensa ser no P
hipertensa ser P
Odds
fum
642
190
832
642
832
190
) (
) (
= = =
hipertensa ser no P
hipertensa ser P
Odds
fum no
52
El ODDS RATIO (OR) para las fumadoras con respecto a las no fumadoras:
66 , 1
190 * 327
642 * 161
642
190
327
161
) (
) (
= = = =
fumadoras no ODDS
fumadoras ODDS
OR
Interpretacin: En esta muestra, una mujer que es fumadora tiene 1,66 veces
(el 66% ms) la oportunidad de ser hipertensa que una mujer que no es
fumadora.
Como este OR es un estimador del valor verdadero en la poblacin, se puede
encontrar el intervalo de confianza del 95% cuyos lmites contienen, con esa
confianza, al verdadero valor del parmetro.
En este ejemplo:
C (1,30 < OR poblacional < 2,13) = 0,95
El intervalo de confianza no incluye al valor 1; por lo tanto, se puede afirmar,
con un nivel de significacin del 5%, que el OR poblacional es diferente de 1.
Por qu importa el 1? Porque si vale 1 los Odds para los dos grupos son
iguales.
53
No f umadoras Fumadoras
0,00
8,38
16,75
25,13
33,51
P
o
r
c
e
n
t
a
j
e
Hipertensin en fumadoras
Hipertensin en fumadoras
0
5
10
15
20
25
30
35
No fumadoras Fumadoras
P
o
r
c
e
n
t
a
j
e
Grficos de barras para variables categricas
InfoStat
Excel
54
FUMADORAS
NO FUMADORAS
Hipertensas (33%)
Hipertensas (23%)
No hipertensas (67%)
No hipertensas (77%)
Grficos de sectores o torta para variables categricas
55
Problemas de Correlacin:
1 2 3 4 5 6 7 8 9
16
14
12
10
8
6
4
2
0
irmads
grupo=0
i
r
m
a
b
a
Coeficiente de correlacin de Pearson r = 0,8074; P<0,0001
Coeficiente de correlacin por rangos de Spearman
r
s
= 0,7911; P<0,0001
Hiptesis nula H
0
: = 0
Hiptesis alternativa H
1
: = 0
56
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
0 5 10 15 20
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
0 5 10 15 20
0
5
10
15
20
25
30
35
0 5 10 15 20
0
5
10
15
20
25
30
35
0 5 10 15 20
r Pearson = 1
r Pearson = 0,68
r Pearson =-1
r Pearson =-0,67
r Spearman = 1
r Spearman = 0,67
r Spearman =-1
r Spearman =- 0,65
57
0
2
4
6
8
10
12
0 5 10 15 20 25 30 35
r Pearson = 0,62
0
2
4
6
8
10
12
0 10 20 30 40 50 60
r Pearson =- 0,62
0
2
4
6
8
10
12
0 5 10 15 20 25
r Pearson =-0,07
r Spearman = 0,62
r Spearman =-0,58
r Spearman =-0,04
0
10
20
30
40
50
60
0 2 4 6 8 10 12 14
r Pearson = 0,87
r Spearman = 1
58
Problemas de Concordancia:
Se utilizan cuando se quiere saber si dos mtodos concuerdan, si miden
lo mismo, si son intercambiables
59
Grficos de Bland y Altman
en mujeres normales
El 0 pertenece al intervalo construido
con las diferencias: los dos mtodos
son concordantes.

El 1 pertenece al intervalo construido
con los cocientes (ratios): los dos
mtodos son concordantes.
0 2 4 6 8 10 12 14
2,4
2,2
2,0
1,8
1,6
1,4
1,2
1,0
0,8
0,6
0,4
AVERAGE of irmaba and irmads
grupo=0
R
A
T
I
O

o
f

i
r
m
a
b
a

a
n
d

i
r
m
a
d
s
Mean
1,48
-1.96 SD
0,73
+1.96 SD
2,23
0 2 4 6 8 10 12 14
7
6
5
4
3
2
1
0
-1
-2
AVERAGE of irmaba and irmads
grupo=0
i
r
m
a
b
a

-

i
r
m
a
d
s
Mean
2,1
-1.96 SD
-1,5
+1.96 SD
5,8
60
Grficos de Bland y Altman
en mujeres con SOP
El 0 pertenece al intervalo construido
con las diferencias: los dos mtodos
son concordantes.

El 1 pertenece al intervalo construido
con los cocientes (ratios): los dos
mtodos son concordantes.
0 5 10 15 20 25 30
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
AVERAGE of irmaba and irmads
grupo=1
R
A
T
I
O

o
f

i
r
m
a
b
a

a
n
d

i
r
m
a
d
s
Mean
1,53
-1.96 SD
0,47
+1.96 SD
2,59
0 5 10 15 20 25 30
20
15
10
5
0
-5
AVERAGE of irmaba and irmads
grupo=1
i
r
m
a
b
a

-

i
r
m
a
d
s
Mean
1,8
-1.96 SD
-3,1
+1.96 SD
6,7
61
Prueba versus Grupo
Grupo
0

Normales
1

SOP
Prueba Normal
a b a+b
Prueba Patolgica
c d c+d
a + c b + d n
)% *
d b
d
( 100
+
Sensibilidad =
Es la proporcin de
verdaderos positivos
)% *
c a
a
( 100
+
Especificidad =
Es la proporcin de
verdaderos negativos
Sensibilidad y especificidad en Pruebas diagnsticas:
62
irmaba
0 20 40 60 80 100
100
80
60
40
20
0
100-Specificity
S
e
n
s
i
t
i
v
i
t
y
Curvas ROC (Receiver Operating Characteristics):
Punto de corte = 5,85
Sensibilidad = 73,6%
Especificidad = 64,3%
63
Curvas ROC (Continuacin):
El intervalo de
confianza no
contiene al 0,5
P < 0,05
Cuanto ms se
aparta de 0,5
el rea, mejor
capacidad de
discriminacin
entre los dos
grupos tiene la
prueba
diagnstica.
64
El punto de corte que rinde el
mejor compromiso entre
Sensibilidad (73,58%)
y Especificidad (64,29%)
Curvas ROC (Continuacin):
65
Esquema de mtodos estadsticos para comparacin de grupos:
Una muestra para contrastar un parmetro:
a) Variables numricas:
Paramtricos:
Test de Gauss para una media (H
0
: =
0
)
(la muestra debe tener distribucin normal y la varianza de la poblacin
debe ser conocida, o un n muy grande para poder usar la Normal)
Test de Student para una media (H
0
: =
0
)
(la variable debe tener distribucin normal)

No paramtricos:
Test del signo (es un test para la mediana) (H
0
: u= u
0
)
(cuando la variable no sigue una distribucin normal)
Test de rangos signados de Wilcoxon (H
0
: u= u
0
)
(se necesita que la variable tenga distribucin simtrica)
Nota: cuantos menos supuestos o requerimientos tiene un test, menor es su
potencia
66
Una muestra para contrastar un parmetro:
b) Variables categricas:
Test de Gauss para una proporcin (H
0
: t= t
0
)
El nmero esperado de xitos n*t
0
y de fracasos n*(1-t
0
) debe ser mayor
que 5 (n suficientemente grande).
Test exacto para una proporcin (Test Binomial) (H
0
: t= t
0
)
(No tiene restricciones)

Esquema de mtodos estadsticos para comparacin de grupos (cont):
67
Dos muestras INDEPENDIENTES para comparar dos parmetros:
Variables numricas:
Paramtricos:
Test de Student para diferencia de medias (H
0
:
1
=
2
)
(las variables deben ser independientes, tener ambas distribucin
normal y tener varianzas homogneas. Es el de mayor potencia cuando se
cumplen los supuestos)
Test de Fisher de homogeneidad de varianzas (H
0
: o
1
2
= o
2
2
)
(permite corroborar razonablemente la suposicin de homogeneidad de
varianzas, necesaria para el test de Student anterior; en este caso,
conviene que la P sea mayor que 0,10)
No paramtricos:
Test de Wilcoxon-Mann Whitney (H
0
: u
1
= u
2
)
(Ambas muestras provienen de poblaciones con la misma distribucin (box-
plots de ambas muestras revelan distribuciones muy parecidas))
Prueba de la mediana (H
0
: u
1
= u
2
)
(Cuando los box-plots de ambas muestras revelan distribuciones muy
diferentes. Tiene menor potencia que el test de Mann-Whitney)
Esquema de mtodos estadsticos para comparacin de grupos (cont):
68
Dos variables categricas:
Test de Gauss para diferencia de proporciones (H
0
: t
1
= t
2
)
(Las muestras deben ser aleatorias, independientes, y la cantidad esperada
de xitos y fracasos deben ser mayores que 5)

Mtodos para variables categricas arregladas en tablas de contingencia
(H
0
: las variables que definen filas y columnas de la tabla son independientes)
Test de Chi-cuadrado
(No debe haber ninguna casilla con frecuencia esperada menor que 1 ni ms
del 20% de las casillas con frecuencia esperada menor que 5)
Test G de mxima verosimilitud:
Es equivalente al test de Chi-cuadrado. Permite particionar cuando alguna
variable tiene ms de dos categoras.
Test exacto de Fisher o de Irwin-Fisher:
Calcula la P exacta de error al afirmar que hay dependencia entre las variables
que definen filas y columnas. No tiene restricciones para su uso.

69
Esquema de mtodos estadsticos para comparacin de grupos (cont):
Dos muestras DEPENDIENTES o APAREADAS para comparar dos
parmetros:
Variables numricas:
Paramtricos:
Test de Student para muestras apareadas (H
0
:
1
=
2
; o bien
1
-
2
= 0; o
bien
d
= 0)
(las variables deben ser dependientes (en el mismo individuo o en individuos
apareados), su diferencia debe tener distribucin normal. Es el de mayor
potencia si se cumplen los supuestos)
No paramtricos:
Prueba de Wilcoxon para muestras apareadas (H
0
: u
1
= u
2
; o bien u
1
- u
2
= 0; o
bien u
d
= 0)
(La variable diferencia no sigue una distribucin normal pero el box-plot
revela una distribucin simtrica)
Test del signo (H
0
: u
1
= u
2
; o bien u
1
- u
2
= 0; o bien u
d
= 0)
(No se requiere ni normalidad ni simetra; tiene menor potencia que la
prueba de Wilcoxon)
70
Esquema de mtodos estadsticos para comparacin de grupos (cont):
Ms de dos muestras INDEPENDIENTES para comparar I medias o
tratamientos:
Variables numricas:
Paramtricos:
Anlisis de la varianza de un criterio o factor (ANOVA) (H
0
:
1
=
2
= =
I
)
(los grupos deben ser independientes, todas las variables deben ser normales
y las varianzas deben ser homogneas; I mayor o igual que 2)
Test del F mximo para homogeneidad de varianzas (H
0
:
1
2
=
2
2
= =
I
2
)
Test de Levene para homogeneidad de varianzas (H
0
:
1
2
=
2
2
= =
I
2
)
Test de Bartlett para homogeneidad de varianzas (H
0
:
1
2
=
2
2
= =
I
2
)
No paramtricos:
Test de Kruskal-Wallis (H
0
: u
1
= u
2
= = u
I
)
(cuando no se cumplen los supuestos del ANOVA, ni aun luego de alguna
transformacin)
71
Esquema de mtodos estadsticos para comparacin de grupos (cont):
Ms de dos muestras DEPENDIENTES para comparar I medias o
tratamientos:
Variables numricas:
Paramtricos:
Anlisis de la varianza de un criterio o factor con medidas repetidas
(ANOVA) (H
0
:
1
=
2
= =
I
)
(las mediciones que se efectan en el mismo individuo no son independientes,
pero hay independencia entre los individuos; las variabes deben ser
normales; I mayor o igual que 2; si I=2 es equivalente al test de Student
para muestras apareadas)

No paramtricos:
Test de Friedman (H
0
: u
1
= u
2
= = u
I
)
(cuando no se cumplen los supuestos del ANOVA)
72
SOFTWARE:
Software gratis (free):

http://freestatistics.altervista.org/stat.php
(Instat, Epi Info, entre muchos otros)

www.medcalc.be
(MedCalc, slo 25 sesiones gratis)
Software con excelente relacin costo-beneficio
(se puede usar en versin demo):

www.infostat.com.ar
(InfoStat, desarrollado por la Universidad
Nacional de Crdoba, Facultad de Agronoma)
73
BIBLIOGRAFA:

LOS QUE TIENEN CASI DE TODO:

Garrido, D., Sarchi, M. I., Elementos de Bioestadstica. Facultad de Farmacia y
Bioqumica. U.B.A. 1988.

Dawson, Beth, Trapp, Robert, Bioestadstica mdica. Editorial El Manual
Moderno. Mxico. Cuarta Edicin. 2005.

Sokal, R. R., Rohlf, F. J., Biometra. Principios y mtodos estadsticos en la
investigacin biolgica. H. Blume Ediciones. 1979.

Pagano, M., Gauvreau,K. Fundamentos de Bioestadstica. Thomson Learning.
Mxico. 2001.

Box, G., Hunter, W., Hunter, J. Estadstica para investigadores. Introduccin al
diseo de experimentos, anlisis de datos y construccin de modelos. Editorial
Revert, S.A. Barcelona. 1993.

Macchi, Ricardo. Introduccin a la Estadstica en Ciencias de la Salud. Editoral
Mdica Panamericana. 1ra. ed., 2da. reimpres. Buenos Aires. 2005.
74
BIBLIOGRAFA (continuacin):

Kuehl, Robert. Diseo de experimentos. Thomson Learning. Mxico. 2003

Garca, R. O., Inferencia estadstica y diseo de experimentos. Eudeba. 2004.

SOBRE TEMAS ESPECFICOS:

Agresti, Alan. Categorical Data Analysis. John Wiley & Sons, Inc. New York.
1990.

Lee, Elisa. Statistical Methods for Survival Data Analysis. John Wiley & Sons,
Inc. New York. 1992.

Winer, B. J., Brown, D. R., Michels, K. M., Statistical principles in experimental
design. Editorial McGraw-Hill Book Company. 1991. (La Biblia del ANOVA)

Csar Prez Lpez. Muestreo estadstico. Conceptos y problemas resueltos.
Pearson Educacin S.A. Prentice Hall. Madrid. 2005.

Montgomery, D.; Peck, E.; Vining, G. Introduccin al anlisis de regresin lineal.
Compaa Editorial Continental. Mxico. 2005.
75
Muchas gracias!