Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Normal Bivariada PDF
Normal Bivariada PDF
Nuevos elementos
La Normal bivariante
(modelo de probabilidad)
1
Distribución Normal Bivariante
(parámetros m1, m2, s1, s2, r)
m1= E(X) m2 = E(Y) s12 = Var(X) s22 = Var(Y) r = Coef. Correlación (X,Y)
2
Distribución Normal Bivariante
(simulación de datos)
rho=0, sigma1=sigma2 rho=0, sigma1)1, sigma2=3
10
2
m1= m2 = 0
5
m1= m2 = 0
1
s1 = s2 = 1 s1 = 1 s 2 = 3
0
0
r =0
-1
r =0
-5
-2
-10
-3
-10 -5 0 5 10
-3 -2 -1 0 1 2 3
rho=0.8, sigma1=sigma2
rho=-0.8, sigma1=sigma2
m1= m2 = 0 m1= m2 = 0
5
5
s 1 = s2 = 1 s1 = s2 = 1
0
0
r = 0.8 r = - 0.8
-5
-5
-4 -2 0 2 4 -4 -2 0 2 4
3
Normal bivariante: Distribuciones condicionadas
Y/X=x es una N(b0+b1x , s)
E(Y/X=x)
x
Ejemplo de David W. Stockburger
(Modelo para X resultado de un test, Y errores de producción)
4
Las técnicas de Regresión lineal simple parten de
dos variables cuantitativas:
y = b0 + b1 x
Para ello dispondremos:
5
El origen:On the laws of inheritance in man
Karl Pearson
Biometrika 1903
Variables:
X altura del padre
Y altura del hijo
Datos:
n= 1078 parejas de padres e hijos
Media de los padres = 68 pulgadas
Media de los hijos = 69 pulgadas
vx = vy = 2.7
r =0.51
6
Modelo 1 (una variable aleatoria, fijado x)
s
7
¡La diferencia está en
cómo se tomarán los datos !
Modelo 1:
El experimentador fija los valores de las xi
y obtiene “al azar” los correspondientes yi
Modelo 2:
El experimentador obtiene “al azar” parejas de valores
(xi ,yi)
En ambos casos
Los datos son un conjunto de n parejas (xi ,yi)
8
Muestra aleatoria
i = 1,2,…,n
9
Ajuste de una recta a n pares de datos (xi,yi)
DATOS
10
Ajuste de una recta a n pares de datos (xi,yi)
Gráfico de puntos
¿tiene sentido
una relación lineal?
¿tiene sentido
alguna relación?
11
Ajuste de una recta a n pares de datos (xi,yi)
¿Cuál es la recta
que mejor predice
la altura en función
de la edad?
Mínimos cuadrados
Hacemos mínima la
suma de los
cuadrados de las
diferencias entre el
valor real de cada yi
con el valor que
predice la recta
12
Ajuste de una recta a n pares de datos (xi,yi)
Estimación de los coeficientes de la recta
Recta de regresión
estimada
13
Estimación de la varianza residual s2
(mide la dispersión de los puntos a la recta)
Los residuos del modelo son
Varianza residual
14
ESTIMACIÓN PUNTUAL DE LOS
PARÁMETROS DE LA REGRESIÓN
Estimación de r
15
ESTIMACIÓN POR INTERVALOS DE LOS
PARÁMETROS DE LA REGRESIÓN
(suponiendo Normalidad)
16
Análisis estadístico: requisitos previos
17
La importancia de los gráficos de puntos
(4 conjuntos de datos emparejados)
x1 y1 x2 y2 x3 y3 x4 y4
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.1 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.1 4 5.39 19 12.5
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89
18
Los 4 grupos de datos tienen exactamente los
mismos valores descriptivos siguientes:
Número de datos 11
r2 0.67
19
Pero los gráficos son:
x1 vs y1 x2 vs y2
12.0
10.0
10.0
8.0
8.0
6.0
y1
y2
6.0
4.0
4.0
2.0
2.0 5.5 9.0 12.5 16.0 2.0 5.5 9.0 12.5 16.0
x1 x2
x3 vs y3 x4 vs y4
14.0
14.0
11.5
11.5
9.0
9.0
y3
y4
6.5
6.5
4.0
4.0
2.0 5.5 9.0 12.5 16.0 6.0 9.5 13.0 16.5 20.0
x3 x4
20
Análisis de los residuos
12.0
10.0
8.0
y1
6.0
4.0
x2 vs y2
10.0
8.0
6.0
y2
4.0
2.0
22
x3 vs y3
14.0
11.5
9.0
y3
6.5
4.0
x4 vs y4
14.0
11.5
9.0
y4
6.5
4.0
23
Gráfico de los residuos ei
En ordenadas los
residuos ei sin tipificar
24
RESIDUOS – VALORES PRONOSTICADOS
¿se cumplen las hipótesis del modelo?
25
Ejemplo: tiempo, temperatura, CO2
(desde hace 159.000 años)
Los siguientes gráficos corresponden a datos obtenidos sobre la
evolución de la temperatura global y la concentración atmosférica
de CO2 en los últimos 159.000 años. Las variables son: miles de
años antes del presente, diferencia de temperatura respecto a la
actual y concentración de CO2 en la atmósfera.
26
evolución temperatura
4,00
2,00
temperatura relativa
0,00
-2,00
-4,00
-6,00
-8,00
-10,00
-180 -130 -80 -30
miles de años antes del presente
27
evolución CO2
400
350
CO2 (ppm)
300
250
200
150
100
-180 -130 -80 -30
miles de años antes del presente
28
¿qué efecto
tendrá este dato
relacion temperatura -CO2 sobre la recta de
regresión?
Es de 1995
400
350
300
CO2 (ppm)
250
200
150
100
-10,00 -8,00 -6,00 -4,00 -2,00 0,00 2,00 4,00
temperatura relativa
29
Residuos tipificados sobre la variable dependiente
dato
anómalo
30
TRANSFORMACIONES DE LOS DATOS
no linealidad
o
heterocedasticidad
31
Algunas funciones linealizables
Log
Doble Log
Inversa
Log + 1/x
32
Algunas gráficas
y=keb/x
y=kebx
33
La curva logística
C
yi =
1 e - - bX i
Nota: C es el valor máximo
posible de la variable Y
Cambio de variable:
yi
Ln = Z i
(C - y i )
Modelo lineal Z i = bX i
34
Ejemplo
Problemas de
Heterocedasticidad
35
Ejemplo
36
Ejemplo. Peso del cerebro en función del peso corporal para
62 especies de mamíferos
Hombre
37
Ejemplo 1. Longitud versus peso
En estudios sobre poblaciones de animales salvajes muchas veces
se obtiene información basada en fotografías aéreas. A través de
dicha información es posible conocer algunas características de los
animales. La longitud de un caimán es fácil de determinar con
fotografías aéreas, pero su peso es mucho más difícil de estimar.
Para establecer un modelo que estime el peso conocida la longitud
del cuerpo, se capturaron 25 caimanes en Florida, midiendo en cada
uno su longitud y su peso (Education Queensland, 1997). Los
resultados se muestran en la siguiente gráfica:
Caimanes (datos)
¿Qué función representa
700
mejor el peso (Y) en
600 función de la longitud (X)?
peso (libras)
500
400
300
Y = b 0 + b 1 X3
200
100 Y= kX b1
0
40 60 80 100 120 140 160
Y = keb1X
longitud (pulgadas)
38
Caimanes R2 = 0'97 Caimanes R2 = 0'94
700 7
600
Log (peso)
500 6
Peso
400
5
300
200 4
100
3
0
100000 1100000 2100000 3100000 4 4,2 4,4 4,6 4,8 5
Longitud al cubo Log (longitud)
39
Modelo Y = k X b1
Equivalente al ajuste lineal Log(Y) = b0 + b1Log(X)
40
Modelo Y = k X b1 : análisis de los residuos
0,6
0,4
Residuos
0,2
0
4 4,2 4,4 4,6 4,8 5
-0,2
-0,4
Log (longitud)
41
Modelo Y = k X b1 : análisis de los residuos (Normalidad)
42
Modelo Y = b0 + b1 X3 : análisis de los residuos
Residuos tipificados
43
CONTRASTES DE LA REGRESIÓN: t
Error típico
Con nivel de significación
rechazamos H0 si el cero no está
en el intervalo de confianza:
44
Ejemplo 2. Altura de ola en función de la velocidad del viento
45
Ejemplo 1. Caimanes con la transformación doble log
-
Intercepción -10,175 0,732 13,907 1,1E-12 -11,688 -8,661
o equivalentemente:
46
CONTRASTES DE LA REGRESIÓN: ANOVA
Descomposición de la variabilidad en regresión
47
TABLA ANOVA
p-valor
¿?
48
Coeficiente de determinación – R2
Valoración de cuánto se ajustan los puntos a la recta
R2 = SCE /SCT
R=
49
Coeficiente de determinación – R2
50
Comentarios:
51
Ejemplo 2. Altura de ola en función de la velocidad del viento
52
Ejemplo 1. Caimanes con la transformación doble log
b
Resumen del modelo
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrát ica F Sig.
1 Regresión 12, 132 1 12, 132 394,729 ,000a
Res idual ,707 23 ,031
Tot al 12, 838 24
a. Variables predict oras : (Const ante), LogLongitud
b. Variable dependiente: LogPes o
53
Ejemplo 3
Datos extraidos de: C. D. Keeling, T. P. Whorf & CO2 Research Groups (SIO); U.
California, La Jolla; en http://cdiac.ornl.gov/trends/co2/sio-mlo.htm
54
Año CO2
1960 316,91
CO2 en Mauna Loa (Hawaii)
1970 325,68
1980 338,69 380
1990 354,19 370
2000 369,47 360
CO2 en ppm
350
Estadísticas de la regresión
340
Coeficiente de correlación múltiple 0,9947 330
Observ aciones 5
ANÁLISIS DE VARIANZA
g. l. S. C. M. C. F F-crit
Regresión 1 1785,70 1785,70 279,23 0,0005
Residuos 3 19,19 6,40
Total 4 1804,88
55
Diagnóstico de las hipótesis del modelo
Si las hipótesis del modelo son ciertas, entonces los residuos
son aproximadamente
56
Ejemplo 2. Altura de ola en función de la velocidad del viento
57
Predicciones a partir del modelo ajustado
y0 = b0 + b1x0
58
Ejemplo: para una misma velocidad del viento x0 las olas
podrán tener distintas alturas: recordemos que hemos
aceptado una N(b0+b1x0 ,s)
59
Intervalos de confianza para la estimación y la predicción
60
Gráficamente: Bandas de confianza y de predicción
Bandas de
predicción
para Y
dado X=x
Bandas de
confianza
para
E(Y/X=x)
media
61
Ejemplo 2. Altura de ola en función de la velocidad del viento
62
Ejemplo 1. Caimanes con la transformación doble log
o equivalentemente:
¿Qué peso estimaríamos en media para los caimanes cuya longitud sea 100
pulgadas?
Respuesta: log (y100) = 4,958 luego y100 = 142,25 libras
¿Que incremento del peso estimamos que resultaría de un incremento del
1% en la longitud?
log (y1,01x) – log (yx) = log (y1,01x /yx) = 3,286 log (1,01) = 0,0327
luego y1,01x = yx e0,0327 = yx 1,0332 el peso se incrementaría en un 3,32%
63
Algunos abusos que se pueden cometer
en la regresión
Extrapolación
Generalización
Correlación ecológica
Causalidad
64
Extrapolación
Verdadera
relación
Ybuena
Ypredicción Recta de
regresión
estimada
xpredicción
65
Ejemplo. Evolución de la producción de petróleo
25000
millones de barriles
20000
15000
10000
5000
0
1860 1880 1900 1920 1940 1960 1980 2000
años
66
Generalización
Regresión con
todos los datos
67
Ejemplo. Datos del número de pie en función de la altura de
varios estudiantes de ambos sexos
68
Correlación ecológica
Regresión con
todos los datos
69
Causalidad
Población de burros
Presupuesto en educación
70
Metodología para el análisis de la regresión
71
Ejemplo 4.
Y = Incidencia de hielo (en meses por año) en las costas
de Islandia en función de X = temperatura media anual.
n = 57 años
72
Ajuste del modelo lineal
Estadí sticos descripti vos
Coefi cientesa
Coef icientes
Coef icientes no est andarizad Interv alo de conf ianza para
est andarizados os B al 95%
Lí mite
Modelo B Error t íp. Beta t Sig. Lí mite inf erior superior
1 (Constante) 6, 573 ,759 8, 661 ,000 5, 052 8, 094
temperatura -1,388 ,253 -, 595 -5,484 ,000 -1,895 -, 881
a. Variable dependiente: incidencia de hielo
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrát ica F Sig.
1 Regresión 67, 422 1 67, 422 30, 070 ,000a
Res idual 123,319 55 2, 242
Tot al 190,740 56
a. Variables predict oras : (Const ante), temperatura
b. Variable dependiente: incidencia de hielo
73
Normalidad
74
Dos gráficos de los residuos
4
Residuos
0
0,0 1,0 2,0 3,0 4,0 5,0
-2
-4
Mean annual temperature (°C)
¿Comentarios?
75
Otros modelos: transformaciones
Valores de R y F:
Lineal: R=0,595 F=30,07
Log: R= 0,609 F= 32,384
Exp: R= 0,514 F = 19,7
Inverso: R=0,586 F=28,7
Coefi cientes
Coef icientes
Coef icientes no est andarizad
est andarizados os
B Error t ípico Beta t Sig.
ln(t emperatura) -3,382 ,594 -, 609 -5,691 ,000
(Constante) 5, 993 ,635 9, 440 ,000
76
Predicciones
¿Qué incidencia de hielo esperamos de un año en que la temperatura
global sea de 1ºC?
77