Está en la página 1de 11

Datos Bivariantes - Tablas de doble entrada

Tenemos una muestra de n individuos en los que obser-


Análisis descriptivo de datos vamos dos variables X e Y :
(x1 , y1 ), (x2 , y2 ), . . . , (xn, yn).

Datos Bivariantes Agrupamos las n observaciones en k categorı́as o clases


a x1 , x2 , . . . , xn, y en p categorı́as a y1 , y2 , . . . , yn:
1. Tablas de doble entrada.
X ∼ c1 , c 2 , . . . , c k .
Distribución conjunta.
Y ∼ d1 , d2 , . . . , dk .
Distribuciones marginales.
Distribuciones condicionadas. Agrupamos los datos en una tabla con k × p casillas, k
filas y p columnas.
2. Representaciones gráficas.
Frecuencia absoluta conjunta:
Histograma tridimensional.
nij = número de observaciones en la clase ci × dj ,
Diagrama de dispersión.
donde
Diagramas de cajas múltiples. ci × dj = {(x, y) : x ∈ ci, y ∈ dj } ,
para i = 1, 2, . . . , k y j = 1, 2, . . . , p.
3. Covarianza y Correlación.
Frecuencia relativa conjunta:
4. Regresión.
nij
fij = ,
n

para i = 1, 2, . . . , k y j = 1, 2, . . . , p.
1 2
Distribución conjunta de X e Y
Distribución conjunta de X e Y
Y
Y
X d1 … dp
X d1 … dp
c1 n 11 … n 1p n 1.
c1 n 11 … n 1p
M M O M M
M M O M ck n k1 … n kp n k.
ck n k1 … n kp
n .1 … n .p n

donde
Distribución conjunta de X e Y
k

n• j = ni j
Y
i=1
X d1 … dp
p

c1 f 11 … f 1p ni • = ni j
j=1
M M O M
y se cumple que
ck f k1 … f kp
k
 p

n = n• • = ni • = n• j
i=1 j=1

3 4
Distribución conjunta de X e Y
Distribución marginal de X

Y Y
X d1 … d p X d1 L d p

c1 f 11 … f 1p c1 n L n1p
f 1.
11
n 1 .
M M O M M M M O M M
ck f k1 … f kp ck n L nkp
f k. k1
nk .
f .1 … f .p 1 n . L
n . n
1 p

donde
Distribución marginal de X
k

f• j = fi j X X
i=1
c1 c1
p
 n1 . f1 .
fi • = fi j M M
j=1
M M
ck
y se cumple que
ck
nk . fk .
k
 p
 1
1= fi • = f• j n
i=1 j=1

5 6
Distribución marginal de Y
Distribución condicionada de X dado que Y = dp

Y X| Y = dp

X d1 … dp Y
X d 1 L d p
c1 n 11 … n 1p n 1. c 1 n 11 L n 1 p n .
1
M M O M M
M M O M M
ck n k1 … n kp n k. ck n k1 L n kp n .
k

n .1 … n .p n L
n .1 n .p n

Distribución marginal de Y Distribución condicionada de X| Y = dp

Y X X
d 1 … d p c1 n 1p c1 n 1p / n .p
n .1 … n .p n M M M M
ck n kp ck
Y n kp/ n .p
d 1 … d p
n.p 1

f .1 … f .p 1
Notemos que ahora n• p juega el papel de n

7 8
Distribución condicionada de Y dado que X = ck Ejemplo 1: Se hace una encuesta sobre la preferencia de
Y| X = ck marca de gaseosa en 24 personas:
Y
d 1 d 2 d 3 d 4
X d 1 L d p
c 1 2 5 2 3 12
(hombre)
c n L n
1 11 1p
n 1 . c 2
(mujer)
5 3 4 0 12
M M O M M
7 8 6 3 24
ck n L n
k1 kp
n k .
L
n . 1 n . p
n
Obtener las distribuciones marginales y condicionada de
Y |X, donde X denota el sexo, e Y la marca de gaseosa
Distribución condicionada de Y| X = ck que prefiere d1 , d2 , d3 ó d4 .

Y V2
d1 d2 d3 d4 Total
d 1 L dp V1 c1 Recuento 2 5 2 3 12
% de V1 16,7% 41,7% 16,7% 25,0% 100,0%
n k1 L n kp
n k . % de V2 28,6% 62,5% 33,3% 100,0% 50,0%
% del total 8,3% 20,8% 8,3% 12,5% 50,0%
c2 Recuento 5 3 4 12
Y
% de V1 41,7% 25,0% 33,3% 100,0%
d1 L d p % de V2 71,4% 37,5% 66,7% 50,0%
% del total 20,8% 12,5% 16,7% 50,0%
L
n k1 /nk . n kp/ n .
k
1 Total Recuento
% de V1
7
29,2%
8
33,3%
6
25,0%
3
12,5%
24
100,0%
% de V2 100,0% 100,0% 100,0% 100,0% 100,0%
% del total 29,2% 33,3% 25,0% 12,5% 100,0%
Notemos que ahora nk • juega el papel de n

9 10
Datos Bivariantes - Representaciones gráficas
Histogramas tridimensionales:
Datos Bivariantes - Representaciones gráficas
Ejemplo 2. Tipo de fertilizante, altura inicial y final.

Diagrama de barras:

5,5

5,0

4,5

4,0

3,5 Proyección en el plano XY :


V2
3,0

8
d1
2,5
d2
Recuento

6
2,0 d3

4
1,5 d4
c1 c2

2
V1

0
60 70 80 90 100

11 12
Datos Bivariantes - Representaciones gráficas
Datos Bivariantes - Representaciones gráficas

Diagrama de dispersión:
Diagrama de cajas:

Ejemplo 3: Esperanza de vida en hombres y mujeres en


40 paı́ses. 90

80

80

70
70
Esperanza de vida en hombres

60
60

50 50

40
40 N= 40 40

40 50 60 70 80 HOMBRES MUJERES

Esperanza de vida en mujeres

13 14
Datos Bivariantes - Covarianza y correlación
Datos Bivariantes - Coeficiente de correlación
Covarianza muestral se define como:

1 1
n n
11 8

cov(x, y) = (xi − x̄)(yi − ȳ) = xiyi − x̄ȳ. 10

n i=1 n i=1 9
r = 0.9 6
r = - 0.9

8 4

7 2

Coeficiente de correlación de Pearson se define como: 6


0
5

cov(x, y) 4 -2

r = r(x, y) = . -2 0 2 4 6 8 -2 0 2 4 6 8

sx sy
8 16

 
14
n n 7 r = 0.08
donde s2X = 1
n
(xi − x̄)2 y s2Y = 1
n
(yi − ȳ)2 . 6
12

10
i=1 i=1 5
8
4
6

Propiedades del coeficiente de correlación: 3 4 r = - 0.05


2 2
-2 0 2 4 6 8 -2 0 2 4 6 8

Es adimensional.

r(x, y) = r(y, x).


Observación: Notemos en el cuarto gráfico, que el co-
eficiente de correlación es aproximadamente cero, sin
−1 ≤ r ≤ 1
embargo es evidente la relación entre X e Y .
Si |r| ≈ 1, hay relación lineal “perfecta”.
Incorrelación lineal  Independencia
Si r ≈ 0, no hay relación lineal.

15 16
Datos Bivariantes - Regresión Lineal Datos Bivariantes - Regresión Lineal

Dada una muestra (x1 , y1 ), (x2 , y2 ), . . . , (xn, yn) de tamaño


Ejemplo 3: Esperanza de vida en hombres y mujeres en
n, definimos la recta de regresión de Y sobre X como 40 paı́ses.
la recta y = b0 + b1 x que minimiza el error cuadrático
Coeficientesa
medio o varianza residual:
1 n 2 = 1
n
2. Coeficient
E.C.M. = sr = (y i −b 0 −b 1 x i ) r i es
n i=1 n i=1 Coeficientes no estandariz
estandarizados ados
Los coeficientes de la recta de regresión son: Modelo B Error típ. Beta t Sig.
1 (Constante) 8,314 1,458 5,703 ,000
b1 = cov(x,y)
s2
b0 = ȳ − b1x̄. MUJERES ,807 ,021 ,987 38,180 ,000
x a. Variable dependiente: HOMBRES

Interpretación gráfica:

14 Gráfico de dispersión
80

12

70
10 (x , y )
i i

e
i
8

60
(x , y )
i i
6

50

HOMBRES
4

2
0 2 4 6 8 10 12 40
40 50 60 70 80

17 18
Interpretación

• Si ∆xi = 1, entonces ∆yi = b. Es decir, a un incremen-


to de una unidad de la variable explicativa corresponde Interpretación
un incremento de b unidades de la variable respuesta.
• Si la variable explicativa aumenta una desviación tı́pi-
ca, es decir, ∆xi = Sx , entonces ∆yi = rSy . Por lo tan- • A la hora de interpretar la recta de mı́nimos cuadrados
to, a un incremento de la variable explicativa igual a su hay que tener cuidado con:
desviación tı́pica, corresponde un incremento en prome-
dio de la variable respuesta igual a una proporción r de 1. Las predicciones no se deben extrapolar a magni-
su desviación tı́pica. tudes de la variable explicativa para las que no se
tienen datos.
• A un incremento de una desviación tı́pica en x, corre-
sponde un incremento de menos de una desviación tı́pica
en y, este es el origen del término “regresión”. 2. Las recta de regresión no es robusta en general, por
tanto, hay que tener cuidado con los datos atı́picos.

Ejemplo 3: Esperanza de vida en hombres y mujeres en 3. La relación entre las variables debe ser lineal, si no
40 paı́ses. lo es, hay que transformar previamente las variables.
• Por cada año que aumenta la esperanza de vida de las
mujeres, la de los hombres aumenta en b = 0, 809 años. 4. La recta de regresión de x sobre y, d0 + d1 y, no se
obtiene de forma inmediata a partir de b0 y b1 . Las
• Por cada desviación tı́pica de aumento en la esperanza fórmulas son:
de vida de las mujeres, la de los hombres aumenta en
0,987 desviaciones tı́picas. d0 = x̄ − d1 ȳ
sx
• Si la esperanza de vida de las mujeres de un paı́s d1 = r
sy
es de 60 años, es esperable que la de los hombres sea
aproximadamente:
VIDA-H ≈ 8, 255 + 0, 809 × 60 = 56, 795.

19 20
Datos de Anscombe - Un ejemplo para la reflexión

Estos cuatro conjuntos de datos tienen la misma recta


de regresión y el mismo coeficiente de correlación.
11 10

10 9

9 8

8 7

7 6

6 5

5 4
Y1

Y2

4 3
2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16

X1 X2

14 14

12 12

10 10

8 8

6 6
Y3

Y4

4 4
2 4 6 8 10 12 14 16 6 8 10 12 14 16 18 20

X3 X4

21

También podría gustarte