Clase #8 - Estadística Bivariable

ESTADISTICA
BIVARIABLE
JUAN MORLANS ESCALANTE
ESTADISTICA BIVARIABLE
•En este punto vamos a tratar

diferentes formas de describir la
relación entre dos variables cuando
estas son numéricas.
2
Estudio conjunto de dos variables
• A la derecha tenemos una posible manera de recoger los
datos obtenido observando dos variables en varios
individuos de una muestra.
Altura Peso
en cm. en Kg.
• En cada fila tenemos los datos de un individuo
162 61
• Cada columna representa los valores que toma una variable 154 60
sobre los mismos. 180 78
158 62
• Las individuos no se muestran en ningún orden particular.
171 66
169 60
• Dichas observaciones pueden ser representadas en un 166 54
diagrama de dispersión (‘scatterplot’). En ellos, cada
individuos es un punto cuyas coordenadas son los valores de 176 84
las variables. 163 68
... ...
• Nuestro objetivo será intentar reconocer a partir del mismo

si hay relación entre las variables, de qué tipo, y si es posible
predecir el valor de una de ellas en función de la otra.
Diagramas de dispersión o nube de puntos
Tenemos las alturas y los pesos de 30 individuos representados en

un diagrama de dispersión.
100
90
Pesa 76 kg.
80
70
Mide 187 cm.

60
Pesa 50 kg.
50
40 Mide 161 cm.
30
140 150 160 170 180 190 200
Relación entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en

un diagrama de dispersión.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Predicción de una variable en función de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,

el peso aumenta en una unidad por cada unidad de altura.
100
90
80
70
10 kg.
60
50
40 10 cm.
30
140 150 160 170 180 190 200
Relación directa e inversa
330 100
280 Incorrelación 90 Fuerte relación

80 directa.
80
230 70 Cierta relación
70
180 60 inversa
60
50
130 50
40
80 3040
2030
30
10 140 150 160 170 180 190 200
140 150 160 170 180 190 200
0
Para valores de X por encima de la 140 150 160 170 180 190 200
•Para los valores de X mayores que la
media tenemos valores de Y por
media le corresponden valores de Y
encima y por debajo en
mayores también.
proporciones similares.
Incorrelación.
•Para los valores de X menores que la
media le corresponden valores de Y
menores también.
Covarianza de dos variables X e Y
• La covarianza entre dos variables, Sxy, nos indica si la

posible relación entre dos variables es directa o inversa.
• Directa: Sxy >0
• Inversa: Sxy <0 1
• Incorreladas: Sxy =0 S xy   ( xi  x )( yi  y )
n i
• El signo de la covarianza nos dice si el aspecto de la
nube de puntos es creciente o no, pero no nos dice nada
sobre el grado de relación entre las variables.
Coef. de correlación lineal de Pearson
• La coeficiente de correlación lineal de Pearson de
dos variables, r, nos indica si los puntos tienen una
tendencia a disponerse alineadamente (excluyendo
rectas horizontales y verticales).
S xy
r
SxS y
• tiene el mismo signo que Sxy por tanto de su signo

obtenemos el que la posible relación sea directa o
inversa.
• r es útil para determinar si hay relación lineall entre

dos variables, pero no servirá para otro tipo de
relaciones (cuadrática, logarítmica,...)
Propiedades de r
• Es adimensional
• Sólo toma valores en [-1,1]
• Las variables son incorreladas  r=0
• Relación lineal perfecta entre dos variables  r=+1 o r=-1
• Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.
• Siempre que no existan observaciones anómalas.
Relació
n Relació
inversa n
perfecta Variables
directa
incorrelad
casi
as
perfecta
-1 0 +1
Entrenando el ojo: correlaciones positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo: correlaciones negativas
80
90
70
80
70 60
60 50
50
40
40
30 30
20 20
10 r=-0,5 r=-0,7
10
0
0
140 150 160 170 180 190 200
140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Preguntas frecuentes
• ¿Si r=0 eso quiere decir que no las variables son independientes?
• En la práctica, casi siempre sí, pero no tiene
por qué ser cierto en todos los casos.
• Lo contrario si es cierto: Independencia
implica incorrelación.
• Me ha salido r=1’2 ¿la relación es “superlineal”[sic]?

• ¿Superqué? Eso es un error de cálculo. Siempre debe tomar un
valor entre -1 y +1.
• ¿A partir de qué valores se considera que hay “buena relación lineal”?

• Imposible dar un valor concreto (mirad los gráficos anteriores).
Para este curso digamos que si |r|>0,7 hay buena relación lineal y
que si |r|>0,4 hay cierta relación (por decir algo... la cosa es un
poco más complicada… observaciones atípicas, homogeneidad de
varianzas...)
Regresión
•El análisis de regresión sirve para predecir una

medida en función de otra medida (o varias).
• Y = Variable dependiente
• predicha
• explicada
• X = Variable independiente
• predictora
• explicativa
• ¿Es posible descubrir una relación?
• Y = f(X) + error
• f es una función de un tipo determinado
• el error es aleatorio, pequeño, y no depende de X
Regresión
• El ejemplo del estudio de la altura en grupos familiares de

Pearson es del tipo que desarrollaremos en el resto del
tema.
• Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
• Si el padre mide 200cm ¿cuánto mide el hijo?

• Se espera (predice) 85 + 0,5x200=185 cm.
• Alto, pero no tanto como el padre. Regresa a la media.
• Si el padre mide 120cm ¿cuánto mide el hijo?

• Se espera (predice) 85 + 0,5x120=145 cm.
• Bajo, pero no tanto como el padre. Regresa a la media.
• Es decir, nos interesaremos por modelos de regresión lineal

simple.
Modelo de regresión lineal simple
• En el modelo de regresión lineal simple, dado dos variables

• Y (dependiente)
• X (independiente, explicativa, predictora)
• buscamos encontrar una función de X muy simple (lineal)

que nos permita aproximar Y mediante
• Ŷ = b0 + b1X
• b0 (ordenada en el origen, constante)
• b1 (pendiente de la recta)
• Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo

de regresión. A la cantidad
• e=Y-Ŷ se le denomina residuo o error residual.
¿Cómo medir la bondad de una regresión?
Interpretación de la variabilidad en Y
En primer lugar olvidemos que Y

existe la variable X. Veamos cuál
es la variabilidad en el eje Y.
La franja sombreada indica la

zona donde varían los valores de
Y.
Proyección sobre el eje Y = olvidar

X
Interpretación del residuo
Fijémonos ahora en los errores de
predicción (líneas verticales). Los Y
proyectamos sobre el eje Y.
Se observa que los errores de
predicción, residuos, están menos
dispersos que la variable Y original.
Cuanto menos dispersos sean los

residuos,
mejor será la bondad del ajuste.
Bondad de un ajuste
Resumiendo: Y
• La dispersión del error residual será

una fracción de la dispersión original de
Y
•Cuanto menor sea 2

S
la dispersión del
R  1
2 e
S e2  SY2
error residual 2
Y S
mejor será el ajuste de regresión.
Eso hace que definamos como medida de

bondad de un ajuste de regresión,
o coeficiente de determinación a:
Resumen sobre bondad de un ajuste
• La bondad de un ajuste de un modelo de regresión se mide usando el

coeficiente de determinación R2
• R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]

• Para el alumno astuto: ¿por qué?
• Cuando un ajuste es bueno, R2 será cercano a uno.

• ¿por qué?
• Cuando un ajuste es malo R2 será cercano a cero.

• ¿por qué?
• A R2 también se le denomina porcentaje de variabilidad explicado por el

modelo de regresión.
• ¿por qué? Difícil.
• R2 puede ser pesado de calcular en modelos de regresión general, pero en el

modelo lineal simple, la expresión es de lo más sencilla: R2=r2
Otros modelos de regresión
• Se pueden considerar otros tipos ¿recta o parábola?
de modelos, en función del
aspecto que presente el diagrama
de dispersión (regresión no lineal)
• Incluso se puede considerar el

que una variable dependa de
varias (regresión múltiple). 140 150 160 170 180 190 200
¿recta o cúbica?
140 150 160 170 180 190 200
22
EJEMPLO DE REGRESION
PARA VARIABLES
ALEATORIAS
LEY DE Cu TOTAL Y LEY Cu
SOLUBLE
MINA C° NEGRO
Muestra Este Norte Cota CuT CuS Au CuT CuS
14270 373842 7102569 1100 1.50 1.32 1.50 1.32
14271 373841 7102572 1100 0.99 0.85 0.99 0.85
14272 373838 7102575 1100 1.35 1.34 1.35 1.34
14273 373825 7102537 1100 1.70 1.46 1.70 1.46
14274 373803 7102526 1090 0.62 0.21 0.62 0.21
14275 373797 7102520 1090 0.99 0.66 0.99 0.66
14276 373755 7102512 1080 0.54 0.34 0.54 0.34
14277 373770 7102530 1060 2.00 1.90 2.00 1.90
14278 373687 7102422 1060 1.91 1.72 1.91 1.72
14279 373630 7102303 1030 0.47 0.21 0.47 0.21
14281 373717 7102337 1040 0.85 0.41 0.85 0.41
14282 373715 7102336 1040 1.37 1.18 1.37 1.18
14283 373713 7102335 1040 3.24 2.86 3.24 2.86
14284 373775 7102376 1060 1.63 1.26 1.63 1.26
14285 373791 7102378 1060 0.93 0.74 0.93 0.74
14286 373805 7102384 1060 1.53 1.50 1.53 1.50
14287 373770 7102442 1080 0.59 0.23 0.59 0.23
14288 373778 7102450 1080 0.59 0.19 0.59 0.19
14291 374006 7102695 1130 0.41 0.21 0.41 0.21
14292 374002 7102695 1130 1.46 1.24 1.46 1.24
14294 374007 7102731 1130 1.68 1.44 1.68 1.44
14295 374006 7102734 1130 0.83 0.48 0.83 0.48
14296 374007 7102737 1130 1.18 0.95 1.18 0.95
14297 374008 7102740 1130 0.70 0.41 0.70 0.41
14298 374009 7102742 1130 1.61 1.37 1.61 1.37
14299 374010 7102746 1130 0.61 0.28 0.61 0.28
14300 374009 7102749 1130 0.54 0.23 0.54 0.23
14301 374003 7102752 1130 1.15 0.89 1.15 0.89
14302 374003 7102781 1120 0.68 0.47 0.68 0.47

MATRIZ DE COEFICIENTES DE CORRELACION
Este Norte Cota CuT CuS
Este 1
Norte 0.9525565 1
Cota 0.95080273 0.9686082 1
CuT -0.2227601 -0.24622444 -0.28239232 1
CuS -0.20737821 -0.22305325 -0.26424771 0.98690451 1

LEY Cu SOLUBLE
LEY Cu TOTAL
LEY Cu SOLUBLE
LEY Cu TOTAL
LEY Cu SOLUBLE
LEY Cu TOTAL
LEY Cu TOTAL
LEY Cu SOLUBLE
LEY Cu TOTAL
LEY Cu TOTAL
LEY Cu SOLUBLE
LEY Cu TOTAL
LEY Cu SOLUBLE
LEY Cu TOTAL
RESULTADOS DE LA BONDAD DEL AJUSTE
TIPO DE AJUSTE GRADO COEFICIENTE DE DETERMINACION
EXPONENCIAL 0.8144
LINEAL 0.974
LOGARITMICO 0.912
POLINOMICO 2 0.9792
3 0.9801
4 0.9812
5 0.9844
POTENCIAL 0.9426
GRACIAS POR SU ATENCIÓN

Clase #8 - Estadística Bivariable

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase #8 - Estadística Bivariable

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA

•En este punto vamos a tratar

• Nuestro objetivo será intentar reconocer a partir del mismo

Tenemos las alturas y los pesos de 30 individuos representados en

Mide 187 cm.

Tenemos las alturas y los pesos de 30 individuos representados en

Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,

280 Incorrelación 90 Fuerte relación

• La covarianza entre dos variables, Sxy, nos indica si la

• tiene el mismo signo que Sxy por tanto de su signo

• r es útil para determinar si hay relación lineall entre

• Me ha salido r=1’2 ¿la relación es “superlineal”[sic]?

• ¿A partir de qué valores se considera que hay “buena relación lineal”?

•El análisis de regresión sirve para predecir una

• El ejemplo del estudio de la altura en grupos familiares de

• Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

• Si el padre mide 200cm ¿cuánto mide el hijo?

• Si el padre mide 120cm ¿cuánto mide el hijo?

• Es decir, nos interesaremos por modelos de regresión lineal

• En el modelo de regresión lineal simple, dado dos variables

• buscamos encontrar una función de X muy simple (lineal)

• Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo

En primer lugar olvidemos que Y

La franja sombreada indica la

Proyección sobre el eje Y = olvidar

Cuanto menos dispersos sean los

• La dispersión del error residual será

•Cuanto menor sea 2

mejor será el ajuste de regresión.

Eso hace que definamos como medida de

• La bondad de un ajuste de un modelo de regresión se mide usando el

• R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]

• Cuando un ajuste es bueno, R2 será cercano a uno.

• Cuando un ajuste es malo R2 será cercano a cero.

• A R2 también se le denomina porcentaje de variabilidad explicado por el

• R2 puede ser pesado de calcular en modelos de regresión general, pero en el

• Incluso se puede considerar el

140 150 160 170 180 190 200

14270 373842 7102569 1100 1.50 1.32 1.50 1.32

14271 373841 7102572 1100 0.99 0.85 0.99 0.85

14272 373838 7102575 1100 1.35 1.34 1.35 1.34

14273 373825 7102537 1100 1.70 1.46 1.70 1.46

14274 373803 7102526 1090 0.62 0.21 0.62 0.21

14275 373797 7102520 1090 0.99 0.66 0.99 0.66

14276 373755 7102512 1080 0.54 0.34 0.54 0.34

14277 373770 7102530 1060 2.00 1.90 2.00 1.90

14278 373687 7102422 1060 1.91 1.72 1.91 1.72

14279 373630 7102303 1030 0.47 0.21 0.47 0.21

14281 373717 7102337 1040 0.85 0.41 0.85 0.41

14282 373715 7102336 1040 1.37 1.18 1.37 1.18

14283 373713 7102335 1040 3.24 2.86 3.24 2.86

14284 373775 7102376 1060 1.63 1.26 1.63 1.26

14285 373791 7102378 1060 0.93 0.74 0.93 0.74

14286 373805 7102384 1060 1.53 1.50 1.53 1.50

14287 373770 7102442 1080 0.59 0.23 0.59 0.23

14288 373778 7102450 1080 0.59 0.19 0.59 0.19

14291 374006 7102695 1130 0.41 0.21 0.41 0.21

14292 374002 7102695 1130 1.46 1.24 1.46 1.24

14294 374007 7102731 1130 1.68 1.44 1.68 1.44

14295 374006 7102734 1130 0.83 0.48 0.83 0.48

14296 374007 7102737 1130 1.18 0.95 1.18 0.95

14297 374008 7102740 1130 0.70 0.41 0.70 0.41

14298 374009 7102742 1130 1.61 1.37 1.61 1.37