Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Métodos no
Paramétricos
Modelo de regresión lineal simple
Problemas de causalidad
1. Especificación
4
Modelo de regresión lineal simple
2. Supuestos
En el caso en que nuestras observaciones sean una muestra aleatoria proveniente de
una población, estaremos interesados en realizar inferencias sobre la misma. A fin de
que estas inferencias sean “estadísticamente razonables”, se han de cumplir las
siguientes condiciones:
1. En la población, la relación entre las variables X e Y debe ser aproximadamente
lineal, esto es: y = β0 + β1x + µ, siendo µ la variable aleatoria que representa los
residuos (diferencias entre el valor estimado por el modelo y el verdadero valor
de Y ).
2. Los residuos se distribuyen según una Normal de media 0, es decir: µi ~ N(0, σ2)
3. Los residuos son independientes unos de otros.
4. Los residuos tienen varianza σ2 constante.
Afortunadamente, el modelo de regresión lineal es bastante “robusto”, lo que significa
que no es necesario que las condiciones anteriores se cumplan con exactitud (en
particular las tres últimas).
5
Modelo de regresión lineal simple
2. Supuestos
• La relación que existente entre X e Y es lineal,
Linealidad y = β0 + β1x
6
Modelo de regresión lineal simple
3. Estimadores de mínimos cuadrados
Gauss propuso en 1809 el método de mínimos cuadrados para
obtener los valores de 𝛽መ 0 y 𝛽መ 1 que mejor se ajustan a los datos:
𝑦ො i = 𝛽መ 0 + 𝛽መ 1xi
7
Modelo de regresión lineal simple
Recta de regresión
8
Modelo de regresión lineal simple
9
Modelo de regresión lineal simple
10
Modelo de regresión lineal simple
Ejemplo
Gastos en
Ventas
A continuación se presenta Año Publicidad
datos anuales de 1945 a Y X
1945 2637 1145
1960 de ventas y gastos en 1946 2177 1012
publicidad (ambos en miles 1947 1920 836
de US$) de la compañía 1948 1910 941
1949 1984 981
Lydia Pinkham. 1950 1787 974
1951 1689 766
Esta empresa era una 1952 1866 920
empresa que producía 1953 1896 964
extracto de hierbas en 1954 1684 811
1955 1633 789
solución alcohólica y cuyos 1956 1657 802
datos fueron públicos luego 1957 1569 770
de un litigio familiar. 1958 1390 639
1959 1387 644
Heyse & Wei lo publicaron en 1985 en el 1960 1289 564
Suma 28475 13558
Journal of Forecasting.
Promedio 1779,6875 847,375
11
Modelo de regresión lineal simple
Diagrama de dispersión
r= 93.6%
Año y Y Y xX X y2 x2 yx
1945 857,3125 297,6250 734984,7227 88580,6406 255157,6328
1946 397,3125 164,6250 157857,2227 27101,3906 65407,5703
1947 140,3125 -11,3750 19687,5977 129,3906 -1596,0547
1948 130,3125 93,6250 16981,3477 8765,6406 12200,5078
1949 204,3125 133,6250 41743,5977 17855,6406 27301,2578
1950 7,3125 126,6250 53,4727 16033,8906 925,9453
1951 -90,6875 -81,3750 8224,2227 6621,8906 7379,6953
1952 86,3125 72,6250 7449,8477 5274,3906 6268,4453
1953 116,3125 116,6250 13528,5977 13601,3906 13564,9453
1954 -95,6875 -36,3750 9156,0977 1323,1406 3480,6328
1955 -146,6875 -58,3750 21517,2227 3407,6406 8562,8828
1956 -122,6875 -45,3750 15052,2227 2058,8906 5566,9453
1957 -210,6875 -77,3750 44389,2227 5986,8906 16301,9453
1958 -389,6875 -208,3750 151856,3477 43420,1406 81201,1328
1959 -392,6875 -203,3750 154203,4727 41361,3906 79862,8203
1960 -490,6875 -283,3750 240774,2227 80301,3906 139048,5703
Suma 0,0000 0,0000 1637459,4375 361823,7500 720634,8750
13
Modelo de regresión lineal simple
Interpretación de resultados
15
Modelo de regresión lineal simple
Contraste de significación individual de los
parámetros
En el contraste de significación estadística se somete a hipótesis algún valor
desconocido de los parámetros ( j ) y se trata de verificar si el valor del
parámetro j calculado, ˆ j a partir de una muestra, se encuentra dentro de los
límites (de confianza) alrededor del valor sometido a hipótesis.
El test para Ho: β1 = 0 se conoce como test de independencia o de no
asociación ya que nos dice si las variables están asociadas o no. En el caso
de que la hipótesis nula resulte cierta, supone que la correspondiente variable
asociada a ese parámetro no tiene influencia, de forma individual,
(estadísticamente hablando), sobre la variable dependiente.
16
Modelo de regresión lineal simple
17
Modelo de regresión lineal simple
Bondad de ajuste de los datos al modelo de regresión
lineal simple
18
Modelo de regresión lineal simple
Bondad de ajuste de los datos al modelo de regresión
lineal simple
19
Modelo de regresión lineal simple
Bondad de ajuste de los datos al modelo de regresión
lineal simple
20
Modelo de regresión lineal simple
Bondad de ajuste de los datos al modelo de regresión
lineal simple
21
Modelo de regresión lineal simple
Bondad de ajuste de los datos al modelo de regresión
lineal simple
22
Modelo de regresión lineal simple
Bondad de ajuste de los datos al modelo de regresión
lineal simple
23
Modelo de regresión lineal simple
Gráfico de dispersión
24
Modelo de regresión lineal simple
25
Modelo de regresión lineal simple
Ejemplo: Altura de ola en función de la velocidad del viento
26
Modelo de regresión lineal simple
Bondad de ajuste de los datos al modelo de regresión
lineal simple
6. Análisis de Residuos
Como ya hemos comentado los residuos, “e”, son la estimación de los
verdaderos errores.
En regresión lineal la distribución de la variable formada por los residuos
debe ser Normal, esto es, los residuos observados y los esperados bajo
hipótesis de distribución normal deben ser parecidos.
Además, los residuos deben ser independientes.
En consecuencia, el análisis de los residuales nos va a permitir no solo
profundizar en la relación que se produce entre las dos variables, sino
también, ponderar la bondad de ajuste de la regresión obtenida.
Para contrastar la supuesta normalidad de los residuales podemos
recurrir, fundamentalmente, a la representación de dos gráficos:
27
Modelo de regresión lineal simple
Bondad de ajuste de los datos al modelo de regresión
lineal simple
6. Análisis de Residuos
(1) el gráfico de residuales tipificados
Este gráfico nos da idea de cómo se distribuyen los residuos en relación a
la distribución normal (que sería la que cabría esperar de los mismos). Si
ambas distribuciones son iguales (la distribución de los residuos es
normal) los puntos se sitúan sobre la diagonal del gráfico.
Por lo contrario, en la medida que aparecen dispersos y formando líneas
horizontales respecto a la diagonal, habrá más residuos y el ajuste no
será adecuado.
(2) el gráfico de probabilidad normal
Este gráfico compara gráficamente, al superponer la curva de distribución
normal, la función de distribuciones acumulada observadas en la muestra
con la función de distribución acumulada esperada bajo supuestos de
normalidad.
28
Modelo de regresión lineal simple
Bondad de ajuste de los datos al modelo de regresión
lineal simple
30
Modelo de regresión lineal simple
Ejemplo: Altura de ola en función de la velocidad del viento
Siempre hay una
diferencia entre el valor
real de la variable
respuesta y la estimación
a partir de la ecuación de
regresión: el residuo
31
Modelo de regresión lineal simple
Bondad de ajuste de los datos al modelo de regresión
lineal simple
6. Análisis de Residuos
(3) Por su parte el estadístico de Durbin-Watson,
mide el grado de autocorrelación entre el residuo correspondiente a cada
observación y el anterior (si los residuos son independientes, el valor
observado en una variable para un individuo no debe estar influenciado
en ningún sentido por los valores de esta variable observados en otro
individuo).
Si el valor del estadístico es próximo a 2 los residuos están
incorrelacionados; si se aproxima a 4, estarán negativamente
incorrelacionados; y si se aproximan a 0 estarán positivamente
incorrelacionados.
32
Modelo de regresión lineal simple