Está en la página 1de 65

Estadstica Descriptiva:

3. Anlisis Bivariado
Ricardo anculef Alegra Universidad Tcnica Federico Santa Mara

Estadstica Descriptiva
Objetivo
Obtener informacin desde una muestra, que permita entender o formular hiptesis acerca del fenmeno que se estudia. Tipos de Anlisis:
Describir cmo se comporta una variable Describir cmo una variable (digamos explicativa) afecta el comportamiento de a otra (digamos dependiente) Describir cmo interaccionan varias variables

Estadstica Descriptiva
Objetivo
Obtener informacin desde una muestra, que permita entender o formular hiptesis acerca del fenmeno que se estudia. Tipos de Anlisis:
Anlisis Univariado Anlisis Bivariado Anlisis Multivariado

Estadstica Descriptiva
Ejemplos de Anlisis Bivariado

Estadstica Descriptiva
Ejemplos de Anlisis Bivariado
Hipotesis Preliminar que Gua el Anlisis: La probabilidad de muerte del feto en un embarazo se ve influenciada (aumenta) con el nivel de estrs de la madre. Posible experimento. 1. Tomamos una muestra de casos clnicos. 2. Separamos la muestra en dos grupos: (A) madres con estrs y (B) madres sin estrs. 3.Medimos la frecuencia de muertes en cada grupo 4.Comparamos ambas frecuencias.

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Lo anterior es un ejemplo de Anlisis Estratificado: Se divide una muestra de acuerdo al valor de una variable que llamaremos variable estratificadora X. Se estudia el comportamiento de otra variable de inters Y en cada subgrupo o estrato. Se da cuenta de cmo cambia el comportamiento de Y al cambiar de estrato X.

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
El anlisis estratificado pretende mostrar cmo cambia una variable (Y) cuando cambia otra (X). En el estudio con las embarazadas: Estratificadora (X): Presencia o ausencia de estrs. Dependiente (Y): Presencia o no de muerte fetal. Se determina cmo cambia el promedio de Y (tasa de muerte) cuando cambiamos de estrato.

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Qu tal si la hiptesis fuera?: La probabilidad de muerte fetal depende del nmero de sueo de la madre en el perodo de gestacin. Cmo estratificamos la muestra? El problema es que la variable explicativa (X=horas de sueo) es ahora continua.

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Idea: Si la variable explicativa es continua, definir categoras de valores posibles y separar la muestra de acuerdo a ellas. Cmo determinar las categoras?: juicio o conocimiento previo: estrato econmico, partido poltico, niveles normales/anormales. criterio estadstico: como el utilizado construir histogramas (organizar por clases).

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Ejemplo: En la muestra se registraron las siguientes horas de sueo promedio durante los ltimos 6 meses de gestacin: 8.0, 8.5, 11.0, 6.5, 7.2, 6.2, 10.0, 10.5, 9.2, 9.5, 6.0, 7.2, 6.9, 6.4, 12.5, 10.8 con k = 3 R = 12.5 6.0 = 6.5 1 A = (R + 1) / 3 = 2.5 2
3 Grup o Lmites 5.5 - 8.0 8.0 - 10.5 10.5 13.0 Marc a 6.75 9.25 11.7 5

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Una vez que ya hemos estratificado con algn criterio:

E2

E1

qu medimos?

Em

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Una vez que ya hemos estratificado con algn criterio: qu medimos?: frecuencias. Cuntas observaciones caen en cada estrato?: frecuencias absolutas (n1 , n2 , , nm) relativas (p1 , p2 , , pm ) Estas ltimas dan el peso del estrato en la muestra total

p1 p2 pm

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Una vez que ya hemos estratificado con algn criterio: qu medimos?: tendencia. Cul es la tendencia en cada estrato?: media, mediana, etc.

X1
X2

Xm

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Una vez que ya hemos estratificado con algn criterio: qu medimos?: dispersin. Cul es la dispersin en cada estrato?: varianza, IQR

V1 V2

Vm

Estadstica Descriptiva
Anlisis de Muestras Estratificadas

Una vez que ya hemos estratificado y analizado el comportamiento de la variables por estrato, es til presentar las estadsticas de manera grfica, e.g. box-plots.

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Box-plots por cada estrato

E1

E2

E3

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Una forma de medir el efecto de la variable presuntamente explicativa (X) sobre la explicada (Y) es el Anlisis de Varianza. Idea: si la presunta variable estratificadora X explica bien la otra variable Y, sta ltima no debiera ser muy variable con X constante en comparacin con el cambio observado al cambiar X

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Anlisis de Varianza: Varianza Intra-Estratos: dentro de los grupos.m

Ponderamos por h=1 el peso del estrato!!! Varianza no explicada por la


variable estratificadora

phVh

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Anlisis de Varianza: Varianza Inter-Estratos: entre los grupos. Varianza explicada por la variable estratificadora

p (Y
h=1 h

Y)

media total o promedio ponderado de las medias por grupo. m

media de cada grupo inducido por la variable explicativa X

Y = phYn
h=1

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Anlisis de Varianza: Varianza Inter-Estratos: entre los grupos. Varianza explicada por la variable estratificadora

p (Y
h=1 h

Y)

Ponderamos por el peso del estrato!!!

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Anlisis de Varianza: Varianza Muestral Total:

1 2 VT = (Yi Y ) n I
m h=1

Varianza Muestral Sin Estratificar

VT = phVh + ph(Yh Y)2


h=1

V T =V intra+ V inter

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Anlisis de Varianza: Cuociente de Varianza Explicada: VT / Vinter Medida de la calidad de la variable estratificadora X como variable explicativa para Y Para todo lo anterior necesitamos que Y sea continua, pero X puede ser continua o discreta, numrica o cualitativa.

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Ejemplo de Anlisis de Varianza:

Consideremos la siguiente hiptesis de estudio: Caminar ayuda a mantener un ndice de grasa corporal adecuado.

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Ejemplo de Anlisis de Varianza: Para validar la hiptesis se tom una muestra de 16 hombres, encuestndolos acerca del nmero de horas caminadas a la semana y midiendo su % de grasa corporal. La muestra es la siguiente:

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Ejemplo de Anlisis de Varianza:
horas (H) % grasa (G) 4 1.5 5 1 4.2 6 2.5 7 18.9 24.8 17.5 26.2 18.2 18.4 21.4 17.4 horas (H) % grasa (G) 2 6.5 0.5 0.9 3 5 4 3.5 22.5 18.0 27.2 25.5 20.8 21.8 22.6 21.0

G = 21 .3875 VT = 9.7898

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Ejemplo de Anlisis de Varianza:
Decidimos estratificar la muestra de acuerdo al nmero de horas caminadas, considerano 3 clases para el conjunto de valores de esta variable: clase Lmites frecuencia R = (7-0.5) = 6.5 A = (R + 1)/3 = 2.5 1 (0, 2.5] 0.3750 2 3 (2.5, 5] (5, 7.5] 0.4375 0.1875

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Ejemplo de Anlisis de Varianza:
Estratificamos por cada clase de valores para la variable horas caminadas generandose 3 Estrato 3 submuestras Estrato 2 Estrato 1
1.5 1 2.5 2 0.5 0.9 24.8 26.2 21.4 22.5 27.2 25.5 4 5 4.2 3 5 4 3.5 18.9 17.5 18.2 20.8 21.8 22.6 21.0 6 7 6.5 18.4 17.4 18.0

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Ejemplo de Anlisis de Varianza:
Medimos las medias y las varianzas por estrato: clase lmites frecuenc media varianz ia a 1 2 3 (0, 2.5] 0.3750 (2.5, 5] 0.4375 (5, 7.5] 0.1875 24.60 20.11 17.93 4.1367 3.1784 0.1689

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Ejemplo de Anlisis de Varianza:
Calculamos las varianzas intra e inter

Vintra = 0.375 4.1367 + 0.4375 3.1784 + 0.1875 0.1689 Vintra = 2.9735


clase lmites frecuenc media varianza ia 1 2 3 (0, 2.5] 0.3750 (2.5, 5] 0.4375 (5, 7.5] 0.1875 24.60 20.11 17.93 4.1367 3.1784 0.1689

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Ejemplo de Anlisis de Varianza:
Calculamos las varianzas intra e inter

Vinter = 0.375 (24.60 - G) + 0.4375 (20.11 - G) + 0.1875 (17.93 - G) Vinter = 6.8255


clase lmites frecuenc media varianza ia 1 2 3 (0, 2.5] 0.3750 (2.5, 5] 0.4375 (5, 7.5] 0.1875 24.60 20.11 17.93 4.1367 3.1784 0.1689

G = 21 .3875

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Ejemplo de Anlisis de Varianza:
Corroboramos la descomposicin propuesta:

Vintra = 2.9735
Vinter = 6.8255

VT = 9.7898 = Vintra+ Vinter

% de varianza explicada (fraccin del cambio en el ndice de grasa que explica o predice el nmero de horas caminadas) Hay una Vinter/ VT = 0.6966 ( 70 %) relacin bien significativa

Estadstica Descriptiva
Anlisis de Muestras Estratificadas

Es valida la relacin entre las varianzas cuando estas se calculan normalizando la suma de cuadrados por n-1 en vez de n?

Estadstica Descriptiva
Anlisis de Muestras Estratificadas

Cuando entremos en Estadstica

Inferencial justificaremos porqu es ms til y correcto comparar las sumas 2 de cuadrados Suma sobre las observacione S = (Y Y )
T

Sintra = (Yi Yk )
k=1 iEk 2

del estrato k
2

Sinter = nk (Yk Y )
k=1

Suma sobre los estratos

Nmero de observaciones en el estrato k

Estadstica Descriptiva
Anlisis de Muestras Estratificadas

ANOVA (Anlisis de Varianza)


Comparamos la variabilidad intra versus la interS inter Estadstico F de Fisher (m: nmero de clases) F = m 1

Sintra n- m

De acuerdo al valor de F podemos aseverar que la variable estratificadora induce cambios en la otra variable con una significancia estadstica

Anlisis de Contingencia o Correspondencia


Dadas dos variables X, Y dividir los posibles valores de X en k grupos y los posibles valores de Y en s grupos. Determinar luego las frecuencias conjuntas de cada par formado por uno de los grupos de X y uno de los grupos para Y: con qu frecuencia las observaciones caen en un grupo X y un grupo Y simultneamente.

Anlisis de Contingencia o Correspondencia


Y: Bs X: A1 A2 Ar Grupos de valores para X B1 B2 Grupos de valores para Y

Anlisis de Contingencia o Correspondencia


Frecuencia con que en la muestra aparecen observaciones que caen en la categora i de acuerdo al valor de X y en la categora j de acuerdo al valor de Y B1 B2 ..... Bj ..... Bs A1 A2 Ai Ar n11 n21 ni1 nr1 n12 n22 ni2 nr2 ..... ..... n1j n2j nij nrj ..... ..... n1s n2s nis nrs

..... .....

..... .....

Anlisis de Contingencia o Correspondencia


Frecuencias Marginales: Cuando interesa la frecuencia de una de las variables independiente de lo que pase con la otra hablamos de Frecuencia Marginal de la variable X Y

Anlisis de Contingencia o Correspondencia


Frecuencias Marginales por Clases de X B1 A1 A2 Ai Ar n11 n21 ni1 nr1 B2 n12 n22 ni2 nr2 ..... ..... ..... Bj n1j n2j nij nrj ..... ..... ..... Bs n1s n2s nis nrs Total n1 n2 ni

..... .....

..... .....

nr

Anlisis de Contingencia o Correspondencia


Frecuencias Marginales por Clases de Y B1 A1 A2 Ai Ar Total n11 n21 ni1 nr1 n
1

B2 n12 n22 ni2 nr2 n


2

..... ..... .....

Bj n1j n2j nij nrj n


j

..... ..... .....

Bs n1s n2s nis nrs n n


s

Total n1 n2 ni

..... ..... .....

..... ..... .....

nr n

_ =n

Anlisis de Contingencia o Correspondencia


Frecuencias Marginales:

ni = n j =

n
j= 1

ij

Frecuencia Absoluta de la clase Ai; i = 1, ,2, ... ,r

i= 1

Frecuencias Independientes de la clases Bj a la r que estn asociadas: suma declase los valores Frecuencia Absoluta de la Bj; j=de 1, nij la fila i-sima

,2, ... ,s

Frecuencias Independiente de las clases Ai a la que estn asociadas: suma de los valores de la columna j-sima

Anlisis de Contingencia o Correspondencia


nij Tabla de Contingenciafcon ij = n Frecuencias Relativas
B1 A1 A2 Ai Ar Total f11 f21 fi1 fr1 f
1

B2 f12 f22 fi2 fr2 f


2

..... ..... .....

Bj f1j f2j fij frj f


j

..... ..... .....

Bs f1s f2s fis frs f


s

Total f1 f2 fi

..... ..... .....

..... ..... .....

fr f

Anlisis de Contingencia o Correspondencia


Frecuencias Relativas Marginales:
Anlogo al caso de frecuencias absolutas.
s

f i = fj =

f
j= 1 r i= 1

ij

Frecuencia Relativa de la clase Ai; i = 1, ,2, ... ,r


suma de los valores de la fila i-sima de la tabla de frecuencias relativas conjuntas

ij

Frecuencia Relativa de la clase Bj; j= 1, ,2, ... ,s


suma de los valores de la columna j-sima de la
tabla de frecuencias relativas conjuntas

Anlisis de Contingencia o Correspondencia


Frecuencias Condicionales: Las frecuencias condicionales de una clase Ai (asociada a X) dado un grupo Bj (asociado a Y) corresponden a la proporcin de casos de Bj en que se observa Ai n f

fi / j =

ij

n j

ij

f j

Anlisis de Contingencia o Correspondencia


Frecuencias Condicionales: Las frecuencias condicionales de una clase Bj (asociada a Y) dado un grupo Ai (asociado a X) corresponden a la proporcin de casos de Ai en que se observa Bj

fj / i =

nij

ni

fij

fi

Anlisis de Contingencia o Correspondencia


Ejemplo
Se tiene la siguiente sospecha: El consumo de sal sube la presin arterial. Para ello se toma una muestra de pacientes a quienes se les hace un seguimiento, midiendo ambas variables X: cucharas de sal consumidas en la semana Y: presin arterial media en la semana Despus de un anlisis se decide dividir la variable X en 3 intervalos: bajo, medio, alto. Anlogamente, la variable Y se divide en tres intervalos que asociamos a: baja, normal, alta.

Anlisis de Contingencia o Correspondencia


Ejemplo
Despus de un anlisis se decide dividir la variable X en 3 intervalos: bajo, medio, alto. Anlogamente, la variable Y se divide en tres intervalos que asociamos a: baja, normal, alta. Las frecuencias conjuntas en la muestra son las Y: presin arterial sgtes:
Baja 8 5 1 Normal Alta 8 15 5 4 5 20 Bajo

o C: X

l aS

Medio Alto

Anlisis de Contingencia o Correspondencia


Ejemplo
Las frecuencias conjuntas en la muestra son las sgtes:
Y: presin arterial
Baja Bajo 8 5 1 Normal Alta 8 15 5 4 5 20

om us no C: X

l aS

Medio Alto

Anlisis de Contingencia o Correspondencia


Ejemplo
Las frecuencias marginales son las sgtes:
Y: presin arterial
Baja Bajo 8 5 1 14 Normal Alta 8 15 5 28 4 5 20 29 20 25 26 71

m us no C: X

l aS

Medio Alto

Anlisis de Contingencia o Correspondencia


Ejemplo
Las frecuencias relativas son las sgtes:
Y: presin arterial
Baja Bajo 8/71 5/71 1/71 14/71 Normal Alta 8/71 15/71 5/71 28/71 4/71 5/71 20/71 29/71 20/71 25/71 26/71 1

m us no C: X

l aS

Medio Alto

Anlisis de Contingencia o Correspondencia


Ejemplo
Condicionando a la variable X (consumo de sal) Las frecuencias condicionales son las sgtes:
Y: presin arterial
Baja Bajo 8/20 5/25 1/26 Normal Alta 8/20 15/25 5/26 4/20 5/25 20/26 1 1 1

m us no C: X

l aS

Medio Alto

Anlisis de Contingencia o Correspondencia


Ejemplo
Condicionando a la variable X (consumo de sal)

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

Observamos un claro cambio de la distribucin de la presin de acuerdo al consumo de sal

X: Bajo X: Medio

X: Alto

Anlisis de Contingencia o Correspondencia


Frecuencias Condicionales: Proporcionan una forma de medir la influencia de la variable X sobre la variable Y (o viceversa) Notar que las frecuencias se normalizan por un nmero ms reducido de casos, que corresponden a los casos en que se observa el condicionante.

Anlisis de Contingencia o Correspondencia


Independencia: Diremos que X es independiente de Y si las frecuencias condicionales de X a las diferentes clases de Y son todas iguales; es decir, no dependen de la clase condicionante

fi / 1 = fi / 2 = = fi / s i

Anlisis de Contingencia o Correspondencia


Independencia: Diremos que Y es independiente de X si las frecuencias condicionales de Y a las diferentes clases de X son todas iguales; es decir, no dependen de la clase condicionante

fj / 1 = fj / 2 = = fj / r j

Anlisis de Contingencia o Correspondencia


Observacin 1: Si X es independiente de Y

fi / 1 = fi / 2 = = fi / s = fi
fi / j = fi i, j

Similarmente, si Y es fj / i = de fj X i, j independiente

Demostracin?

Anlisis de Contingencia o Correspondencia


Demostracin:

fi = fi1 + fi2 + + fis


fi = fi / j (f1 + f2 + + f s) fi = fi / j

fi / j =

nij n j

fij f j

fi = fi / 1 f1 + fi / 2 f2 + + fi / s f s

Anlisis de Contingencia o Correspondencia


Observacin 2: Si X es independiente de Y

fij = fi f j
fij

Demostracin

fi / j =

nij

n j

f j

fij = fi / j f j = fi f j

i, j

Anlisis de Contingencia o Correspondencia


Observacin 3: Si X es independiente de Y entonces Y es independiente de X Demostracin

fj / i =

fij

fi

fij

fij

= f j

i, j

f j

Anlisis de Contingencia o Correspondencia


Informacin Mutua Si aceptamos la tabla de contingencia como una distribucin aproximada podemos computar la informacin mutua de X e Y

fij I(X,Y) = fij log f f I ,J i j

Anlisis de Contingencia o Correspondencia


Informacin Mutua Si X es independiente de Y, I=0 Si X = Y, I es equivalente a la entropa de X

fij I(X,Y) = fij log f f I ,J i j

Anlisis de Contingencia o Correspondencia


Distancia entre las condicionales Una forma intuitiva de cuantificar el cambio que induce una variable en la otra es medir las distancias entre las condicionales considerandolas vectores

d(fi / 1 , fi / 2) = fi / 1 fi / 2

Anlisis de Contingencia o Correspondencia


Al igual que antes es til analizar la relacin entre las variables de manera grfica. Se presentan las frecuencias de una variable (digamos Y), por cada clase de la otra (X) Tambin es posible mostrar las frecuencias condicionales en vez de las frecuencias relativas

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Histogramas por clase
Clase 1 (Y)
Frecuencias Relativas

0,5 0,4 0,3 0,2 0,1 0

Clase 2 (Y) Clase 3 (Y)

X: Clase 1

X: Clase 2

X: Clase 3

X: Clase 4

Estadstica Descriptiva
Anlisis de Muestras Estratificadas
Histogramas por clase (apilados)
0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

Clase 1 (Y) Clase 2 (Y) Clase 3 (Y)

X: Clase 1

X: Clase 2

X: Clase 3

X: Clase 4

También podría gustarte