Conjunta 2

Datos Bivariantes - Tablas de doble entrada
Tenemos una muestra de n individuos en los que obser-

Análisis descriptivo de datos vamos dos variables X e Y :
(x1 , y1 ), (x2 , y2 ), . . . , (xn, yn).
Datos Bivariantes Agrupamos las n observaciones en k categorı́as o clases

a x1 , x2 , . . . , xn, y en p categorı́as a y1 , y2 , . . . , yn:
1. Tablas de doble entrada.
X ∼ c1 , c 2 , . . . , c k .
Distribución conjunta.
Y ∼ d1 , d2 , . . . , dk .
Distribuciones marginales.
Distribuciones condicionadas. Agrupamos los datos en una tabla con k × p casillas, k
filas y p columnas.
2. Representaciones gráficas.
Frecuencia absoluta conjunta:
Histograma tridimensional.
nij = número de observaciones en la clase ci × dj ,
Diagrama de dispersión.
donde
Diagramas de cajas múltiples. ci × dj = {(x, y) : x ∈ ci, y ∈ dj } ,
para i = 1, 2, . . . , k y j = 1, 2, . . . , p.
3. Covarianza y Correlación.
Frecuencia relativa conjunta:
4. Regresión.
nij
fij = ,
n
para i = 1, 2, . . . , k y j = 1, 2, . . . , p.
1 2
Distribución conjunta de X e Y
Y
Y
X d1 … dp
X d1 … dp
c1 n 11 … n 1p n 1.
c1 n 11 … n 1p
M M O M M
M M O M ck n k1 … n kp n k.
ck n k1 … n kp
n .1 … n .p n
donde
k

n• j = ni j
Y
i=1
X d1 … dp
p

c1 f 11 … f 1p ni • = ni j
j=1
M M O M
y se cumple que
ck f k1 … f kp
k
p

n = n• • = ni • = n• j
i=1 j=1
3 4
Distribución marginal de X
Y Y
X d1 … d p X d1 L d p
c1 f 11 … f 1p c1 n L n1p
f 1.
11
n 1 .
M M O M M M M O M M
ck f k1 … f kp ck n L nkp
f k. k1
nk .
f .1 … f .p 1 n . L
n . n
1 p
donde
Distribución marginal de X
k

f• j = fi j X X
i=1
c1 c1
p
n1 . f1 .
fi • = fi j M M
j=1
M M
ck
y se cumple que
ck
nk . fk .
k
p
1
1= fi • = f• j n
i=1 j=1
5 6
Distribución marginal de Y
Distribución condicionada de X dado que Y = dp
Y X| Y = dp
X d1 … dp Y
X d 1 L d p
c1 n 11 … n 1p n 1. c 1 n 11 L n 1 p n .
1
M M O M M
M M O M M
ck n k1 … n kp n k. ck n k1 L n kp n .
k
n .1 … n .p n L
n .1 n .p n
Distribución marginal de Y Distribución condicionada de X| Y = dp
Y X X
d 1 … d p c1 n 1p c1 n 1p / n .p
n .1 … n .p n M M M M
ck n kp ck
Y n kp/ n .p
d 1 … d p
n.p 1
f .1 … f .p 1
Notemos que ahora n• p juega el papel de n
7 8
Distribución condicionada de Y dado que X = ck Ejemplo 1: Se hace una encuesta sobre la preferencia de
Y| X = ck marca de gaseosa en 24 personas:
Y
d 1 d 2 d 3 d 4
X d 1 L d p
c 1 2 5 2 3 12
(hombre)
c n L n
1 11 1p
n 1 . c 2
(mujer)
5 3 4 0 12
M M O M M
7 8 6 3 24
ck n L n
k1 kp
n k .
L
n . 1 n . p
n
Obtener las distribuciones marginales y condicionada de
Y |X, donde X denota el sexo, e Y la marca de gaseosa
Distribución condicionada de Y| X = ck que prefiere d1 , d2 , d3 ó d4 .
Y V2
d1 d2 d3 d4 Total
d 1 L dp V1 c1 Recuento 2 5 2 3 12
% de V1 16,7% 41,7% 16,7% 25,0% 100,0%
n k1 L n kp
n k . % de V2 28,6% 62,5% 33,3% 100,0% 50,0%
% del total 8,3% 20,8% 8,3% 12,5% 50,0%
c2 Recuento 5 3 4 12
Y
% de V1 41,7% 25,0% 33,3% 100,0%
d1 L d p % de V2 71,4% 37,5% 66,7% 50,0%
% del total 20,8% 12,5% 16,7% 50,0%
L
n k1 /nk . n kp/ n .
k
1 Total Recuento
% de V1
7
29,2%
8
33,3%
6
25,0%
3
12,5%
24
100,0%
% de V2 100,0% 100,0% 100,0% 100,0% 100,0%
% del total 29,2% 33,3% 25,0% 12,5% 100,0%
Notemos que ahora nk • juega el papel de n
9 10
Datos Bivariantes - Representaciones gráficas
Histogramas tridimensionales:
Ejemplo 2. Tipo de fertilizante, altura inicial y final.
Diagrama de barras:
5,5
5,0
4,5
4,0
3,5 Proyección en el plano XY :

V2
3,0
8
d1
2,5
d2
Recuento
6
2,0 d3
4
1,5 d4
c1 c2
2
V1
0
60 70 80 90 100
11 12
Diagrama de dispersión:
Diagrama de cajas:
Ejemplo 3: Esperanza de vida en hombres y mujeres en

40 paı́ses. 90
80
80
70
70
Esperanza de vida en hombres
60
60
50 50
40
40 N= 40 40
40 50 60 70 80 HOMBRES MUJERES
Esperanza de vida en mujeres
13 14
Datos Bivariantes - Covarianza y correlación
Datos Bivariantes - Coeficiente de correlación
Covarianza muestral se define como:
1 1
n n
11 8
cov(x, y) = (xi − x̄)(yi − ȳ) = xiyi − x̄ȳ. 10
n i=1 n i=1 9
r = 0.9 6
r = - 0.9
8 4
7 2
Coeficiente de correlación de Pearson se define como: 6

0
5
cov(x, y) 4 -2
r = r(x, y) = . -2 0 2 4 6 8 -2 0 2 4 6 8
sx sy
8 16

14
n n 7 r = 0.08
donde s2X = 1
n
(xi − x̄)2 y s2Y = 1
n
(yi − ȳ)2 . 6
12
10
i=1 i=1 5
8
4
6
Propiedades del coeficiente de correlación: 3 4 r = - 0.05

2 2
-2 0 2 4 6 8 -2 0 2 4 6 8
Es adimensional.
r(x, y) = r(y, x).

Observación: Notemos en el cuarto gráfico, que el co-
eficiente de correlación es aproximadamente cero, sin
−1 ≤ r ≤ 1
embargo es evidente la relación entre X e Y .
Si |r| ≈ 1, hay relación lineal “perfecta”.
Incorrelación lineal Independencia
Si r ≈ 0, no hay relación lineal.
15 16
Datos Bivariantes - Regresión Lineal Datos Bivariantes - Regresión Lineal
Dada una muestra (x1 , y1 ), (x2 , y2 ), . . . , (xn, yn) de tamaño

Ejemplo 3: Esperanza de vida en hombres y mujeres en
n, definimos la recta de regresión de Y sobre X como 40 paı́ses.
la recta y = b0 + b1 x que minimiza el error cuadrático
Coeficientesa
medio o varianza residual:
1 n 2 = 1
n
2. Coeficient
E.C.M. = sr = (y i −b 0 −b 1 x i ) r i es
n i=1 n i=1 Coeficientes no estandariz
estandarizados ados
Los coeficientes de la recta de regresión son: Modelo B Error típ. Beta t Sig.
1 (Constante) 8,314 1,458 5,703 ,000
b1 = cov(x,y)
s2
b0 = ȳ − b1x̄. MUJERES ,807 ,021 ,987 38,180 ,000
x a. Variable dependiente: HOMBRES
Interpretación gráfica:
14 Gráfico de dispersión
80
12
70
10 (x , y )
i i
e
i
8
60
(x , y )
i i
6
50
HOMBRES
4
2
0 2 4 6 8 10 12 40
40 50 60 70 80
17 18
Interpretación
• Si ∆xi = 1, entonces ∆yi = b. Es decir, a un incremen-

to de una unidad de la variable explicativa corresponde Interpretación
un incremento de b unidades de la variable respuesta.
• Si la variable explicativa aumenta una desviación tı́pi-
ca, es decir, ∆xi = Sx , entonces ∆yi = rSy . Por lo tan- • A la hora de interpretar la recta de mı́nimos cuadrados
to, a un incremento de la variable explicativa igual a su hay que tener cuidado con:
desviación tı́pica, corresponde un incremento en prome-
dio de la variable respuesta igual a una proporción r de 1. Las predicciones no se deben extrapolar a magni-
su desviación tı́pica. tudes de la variable explicativa para las que no se
tienen datos.
• A un incremento de una desviación tı́pica en x, corre-
sponde un incremento de menos de una desviación tı́pica
en y, este es el origen del término “regresión”. 2. Las recta de regresión no es robusta en general, por
tanto, hay que tener cuidado con los datos atı́picos.
Ejemplo 3: Esperanza de vida en hombres y mujeres en 3. La relación entre las variables debe ser lineal, si no
40 paı́ses. lo es, hay que transformar previamente las variables.
• Por cada año que aumenta la esperanza de vida de las
mujeres, la de los hombres aumenta en b = 0, 809 años. 4. La recta de regresión de x sobre y, d0 + d1 y, no se
obtiene de forma inmediata a partir de b0 y b1 . Las
• Por cada desviación tı́pica de aumento en la esperanza fórmulas son:
de vida de las mujeres, la de los hombres aumenta en
0,987 desviaciones tı́picas. d0 = x̄ − d1 ȳ
sx
• Si la esperanza de vida de las mujeres de un paı́s d1 = r
sy
es de 60 años, es esperable que la de los hombres sea
aproximadamente:
VIDA-H ≈ 8, 255 + 0, 809 × 60 = 56, 795.
19 20
Datos de Anscombe - Un ejemplo para la reflexión
Estos cuatro conjuntos de datos tienen la misma recta

de regresión y el mismo coeficiente de correlación.
11 10
10 9
9 8
8 7
7 6
6 5
5 4
Y1
Y2
4 3
2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16
X1 X2
14 14
12 12
10 10
8 8
6 6
Y3
Y4
4 4
2 4 6 8 10 12 14 16 6 8 10 12 14 16 18 20
X3 X4
21

Conjunta 2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Conjunta 2

Cargado por

Copyright:

Formatos disponibles

Datos Bivariantes - Tablas de doble entrada

Tenemos una muestra de n individuos en los que obser-

Datos Bivariantes Agrupamos las n observaciones en k categorı́as o clases

Distribución marginal de Y Distribución condicionada de X| Y = dp

3,5 Proyección en el plano XY :

Ejemplo 3: Esperanza de vida en hombres y mujeres en

Esperanza de vida en mujeres

cov(x, y) = (xi − x̄)(yi − ȳ) = xiyi − x̄ȳ. 10

Coeﬁciente de correlación de Pearson se deﬁne como: 6

Propiedades del coeﬁciente de correlación: 3 4 r = - 0.05

r(x, y) = r(y, x).

Dada una muestra (x1 , y1 ), (x2 , y2 ), . . . , (xn, yn) de tamaño

• Si ∆xi = 1, entonces ∆yi = b. Es decir, a un incremen-

Estos cuatro conjuntos de datos tienen la misma recta

También podría gustarte