Está en la página 1de 28

1

Biometra

Anlisis de datos categricos
2
Introduccin
Muchos estudios resultan en datos que son categricos
o cualitativos antes que cuantitativos y que admiten
ms de dos resultados posibles:
Pacientes clasificados segn evolucin (mejora, sin cambios,
empeora)
Individuos clasificados segn estadio (larva, pupa, imago)
Votantes clasificados segn intencin de voto

Estos datos tienen las caractersticas de un
experimento multinomial
3
Ejemplo: grupos sanguneos
La distribucin en Buenos Aires de los grupos
sanguneos es de un 35%, 10%, 6% y un 49% para
los grupos A, B, AB y O respectivamente.
Se desea saber si la distribucin de los grupos
sanguneos en la provincia de Formosa difiere de la de
Buenos Aires


4
El experimento multinomial
El experimento consiste de n ensayos idnticos
El resultado de cada repeticin es una de k categoras
La probabilidad de que el resultado sea una determinada
categora i se denomina p
i
y permanece constante de
ensayo en ensayo
La suma de las k probabilidades, p
1
+ p
2
+.. + p
k
= 1
Los ensayos son independientes

5
El experimento binomial
Es un caso especial del experimento multinomial con
k = 2
Las 2 categoras se denominan xito y fracaso
p
1
y p
2
son p y q
Nosotros hacemos inferencia sobre p (y q=1-p)
En un experimento multinomial hacemos inferencia
sobre todas las probabilidades, p
1
, p
2
, , p
k

6
Pruebas de bondad de ajuste
Se mide una nica variable categrica, por lo
tanto cada elemento de la poblacin se asigna a una y
slo una de varias categoras k
Para cada categora se posee un valor preconcebido
o supuesto o histrico de p
i
y usamos informacin
muestral para determinar si dichos valores son
correctos

7
Para determinar saber si la distribucin de los grupos
sanguneos en Formosa difiere de la de Buenos Aires se
extrajo una muestra aleatoria de 200 formoseos y se
les determin el grupo sanguneo.
Los resultados fueron:



En este caso, la poblacin es multinomial: cada
formoseo se clasifica segn su grupo sanguneo en 4
categoras (k= 4)
Grupo A Grupo B Grupo AB Grupo 0
61 15 6 118
frecuencias
observadas FO
8
Dado que se cuenta solo con una muestra y se desea inferir
sobre toda la poblacin, la pregunta se resuelve mediante
una prueba de hiptesis
Las hiptesis puestas a prueba son:

Ho: Las proporciones de cada grupo sanguneo en Formosa
no difieren de las de Buenos Aires;
p
1
=0.35, p
2
= 0.10, p
3
=0.06, p4=0.49
H1: Las proporciones s difieren; al menos una p
i
cambia

Cmo se resuelve?
Se contrastan frecuencias observadas FO
i
en la muestra
con las frecuencias que se esperara observar FE
i
si las
proporciones no cambiasen (es decir si Ho fuera verdadera)
La distribucin difiere?
9
Se calculan las frecuencias esperadas:









Las diferencias son lo suficientemente grandes como
para afirmar que las preferencias en la poblacin han
cambiado? (o = 0.05)

i i
np E =
Grupo A Grupo B Grupo AB Grupo 0 TOTAL
FO
i
61 15 6 118 200
P
i
0.35 0.10 0.06 0.49 1
FE
i
10
Estadstico chi-cuadrado
Para cuantificar las diferencias en un nico nmero se utiliza el
estadstico





Cuando Ho es verdadera, las diferencias entre FO
i
y FE
i
sern
pequeas, pero cuando Ho es falsa, sern grandes
Para determinar si la discrepancia entre FO y FE es lo
suficientemente grande, se utiliza la distribucin chi-cuadrado
con cierta cantidad de grados de libertad
Sin embargo este estadstico tiene una distribucin que se
aproxima a la chi-cuadrado


( )


=
i
i i
muestral
FE
FE FO
2
2
_
11
Grados de libertad
Varan segn la aplicacin
Se comienza con el nmero de categoras o celdas k
Se le resta un GL por cada restriccin sobre las
probabilidades (siempre se perder un GL ya que p
1
+ p
2
+
+p
k
= 1)
Se pierde un GL por cada parmetro que se debe estimar
para calcular FE
i
Es decir
FE las calcular para estimados parmetros de cantidad m
categoras de cantidad k siendo
=
=
m k GL = 1
GL= k-1-m
12
En el ejemplo:
Conclusin:
Grupo
A
Grupo
B
Grupo
AB
Grupo 0 TOTAL
FO
i
61 15 6 118 200
FE
i
70 20 12 98 200
( )


=
i
i i
muestral
FE
FE FO
2
2
_
13
Comentarios
Para que las conclusiones sean vlidas:
La muestra debe ser aleatoria y su tamao n debe ser >50
Las observaciones deben ser independientes
Las FE
i
deben ser > 0. Y se admite solo un 20% de casillas
con FE
i
< 5. Si esto no se cumple, puede solucionarse
agrupando categoras.
La distribucin del estadstico es aproximada, pero si el
tamao de la muestra es grande (FE > 10) la
aproximacin es muy buena




14
Comentarios
A diferencia de las pruebas anteriores, la Ho indica que
existe buen ajuste a un modelo o a ciertas proporciones
supuestas:

Ho: el modelo es correcto, hay buen ajuste a las proporciones
supuestas
H1: el modelo no es correcto, hay mal ajuste





15
Otras aplicaciones
Las pruebas de bondad de ajuste pueden utilizarse para
determinar si una variable ajusta a una determinada
distribucin de probabilidades, como por ejemplo:
Normal
Binomial
Poisson
En estos casos se deben estimar algunos parmetros a partir
de la muestra:
Normal: el promedio y el desvo estndar o
Binomial: la probabilidad de xito p
Poisson: la cantidad esperada de eventos en un continuo

16
Tablas de contingencia
El investigador mide dos variables cualitativas, de manera
tal que los eventos son clasificados segn dos criterios:
Personas clasificadas segn intencin de voto y nivel
socioeconmico
Pacientes clasificados segn presencia de daltonismo y gnero
Individuos clasificados segn estadio (larva, pupa, imago) y
segn respuesta al tratamiento (sobreviven o no sobreviven)

Los datos son resumidos en tablas de doble entrada (o de
contingencia), donde en cada cruce se indican las
frecuencias
17
Ejemplo: la prevalencia de leptospirosis en
poblacin canina depende de los hbitos?
La leptospirosis es una enfermedad infecciosa que afecta a diversos
animales. El hombre puede ser husped accidental.
Se desea analizar la relacin entre los hbitos de salida de los
perros y la prevalencia de leptospirosis
Se eligen al azar 278 perros en hogares de Florencio Varela y se
clasifican segn:
No sale 1 salida
diaria
Ms de 1
salida diaria
TOTAL
Positivo 12 47 99 158
Negativo 21 35 64 120
TOTAL 33 82 163 278
18
La tabla de doble entrada
posee F filas y C columnas (FxC)

Se estudia la relacin entre las dos variables: es un
mtodo de clasificacin dependiente del otro?
O dicho de otra manera: la distribucin de los casos
en las categoras de una variable dependen o cambian
segn la categora de la otra variable que est siendo
observada? Si la respuesta es no, entonces las
variables son independientes

158 99 47 12 Positivo
163
64
Ms de 1
salida diaria
120 35 21 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
158 99 47 12 Positivo
163
64
Ms de 1
salida diaria
120 35 21 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
19
la presencia de leptospirosis en perros en hogares
depende de los hbitos de salida?

Las hiptesis puestas a prueba son:
Ho:
H1:

Cmo se resuelve?
Se contrastan frecuencias observadas en la muestra
con las frecuencias que se esperara observar si Ho
fuese verdadera
Prueba de independencia
20
Se calculan las frecuencias esperadas:
salidas) no y P(positivo ntes independie son sucesos los Si
salidas) no P
positivo P
=
=
=
(
) (
= salidas) no y positivo FE(
frecuencias
observadas FO
frecuencias
esperadas FE
158 99 47 12 Positivo
163
64
Ms de 1
salida diaria
120 35 21 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
158 99 47 12 Positivo
163
64
Ms de 1
salida diaria
120 35 21 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
i i
np E =
158 92,64 46,60 18,76 Positivo
163
70,36
Ms de 1
salida diaria
120 35,40 14,24 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
158 92,64 46,60 18,76 Positivo
163
70,36
Ms de 1
salida diaria
120 35,40 14,24 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
21
Estadstico chi-cuadrado
Para cuantificar las diferencias en un nico nmero se utiliza el
mismo estadstico que en el ejemplo anterior





Cuando Ho es verdadera, las diferencias entre O
i
y E
i
sern
pequeas, pero cuando Ho es falsa, sern grandes
Para determinar si la discrepancia entre O y E es lo
suficientemente grande, se utiliza la distribucin chi-cuadrado
con GL = (F-1)(C-1)
Cuando la distribucin del estadstico es aproximada, si el
tamao de la muestra no es muy grande (5<FE<10) y la tabla
es de 2x2 se puede aplicar la correccin de Yates

( )


=
i
i i
muestral
FE
FE FO
2
2
_
22
En el ejemplo:
FO FE
( )
=

i
i i
muestral
FE
FE FO
2
2
_
Conclusin:
0 5 10 15 20
X2
0,00
0,05
0,10
0,15
0,20
f
u
n
c
i

n

d
e

d
e
n
s
i
d
a
d
= 6,66
158 99 47 12 Positivo
163
64
Ms de 1
salida diaria
120 35 21 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
158 99 47 12 Positivo
163
64
Ms de 1
salida diaria
120 35 21 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
158 92,64 46,60 18,76 Positivo
163
70,36
Ms de 1
salida diaria
120 35,40 14,24 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
158 92,64 46,60 18,76 Positivo
163
70,36
Ms de 1
salida diaria
120 35,40 14,24 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
23
En Infostat:
Estadsticas >
Datos categorizados>
Tablas de contingencia
Existe otro estadstico que se utiliza en estas
pruebas, con la misma distribucin de
probabilidades, denominado G de mxima
verosimilitud
24
Explorando los resultados
cuando la prueba dio significativa
Se puede estimar la prevalencia general de
leptospirosis canina
Se puede estimar la prevalencia segn hbitos
Se puede estimar riesgo relativo
25
Comentarios
Si existiesen diferencias, podran explorarse los datos
para concluir acerca de la naturaleza de las mismas

Al igual que en el caso anterior, para que las
conclusiones sean vlidas existen ciertos supuestos
que deben cumplirse:
La muestra debe ser aleatoria y su tamao n debe ser >50
Las observaciones deben ser independientes
Las FE
i
deben ser > 0. Y se admite solo un 20% de casillas con
FE
i
< 5. Si esto no se cumple, puede solucionarse agrupando
categoras.

Cuando la tabla es de 2 x 2, la prueba es equivalente
a la prueba Z para diferencia de dos proporciones
bilateral

26
Otras aplicaciones
En las tablas de doble entrada se observan generalmente dos
situaciones:
Que ninguno de los totales est predeterminado
Que uno de los totales est fijado de antemano






En el primer caso, se trata de una prueba de independencia
Ho: la variable X es independiente de la variable Y
Es posible estimar proporciones usando los marginales

En el segundo, de una prueba de homogeneidad
Ho: las i categoras (totales fijos) son homogneas con respecto a
o bien la k proporciones son iguales (p
1
= p
2
= = p
k
)
No tiene sentido estimar proporciones con respecto a los marginales, ya que
no varan libremente

158 99 47 12 Positivo
163
64
Ms de 1
salida diaria
120 35 21 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
158 99 47 12 Positivo
163
64
Ms de 1
salida diaria
120 35 21 Negativo
TOTAL 278 82 33
TOTAL 1 salida
diaria
No sale
27
Independencia u homogeneidad?
Para determinar si la prevalencia del parasitismo por
tordo en nidos de calandrias vara segn la ubicacin
de los nidos se seleccionaron 40 nidos de calandria en
ambientes urbanos y 50 en suburbanos y se
determin la presencia de huevos de tordo
Ho:

En una encuesta preelectoral, se tom una muestra
de 500 individuos que fueron clasificados segn su
intencin de voto y su nivel educativo
Ho:

28
Prueba exacta de Fisher
Se utiliza cuando:
los tamaos de muestra son pequeos (n<50) o FE<5
La tabla es de 2 x 2
Se basa en la distribucin hipergeomtrica
Permite establecer con exactitud el correspondiente
P-valor, y no de manera aproximada como es el caso
cuando se recurre a la distribucin _
2
.