RegresionLinealMetodosPar RegresionLineal

Regresión Lineal y
Métodos no
Paramétricos
Modelo de regresión lineal simple
Problemas de causalidad
 El investigador suele tener razones teóricas o prácticas para creer que

determinada variable es causalmente dependiente de una o más
variables distintas.
 Si hay suficientes observaciones empíricas sobre estas variables, el
análisis de regresión es un método apropiado para describir la
estructura, fuerza y sentido exacto de esta asociación.
 El modelo permite diferenciar variables explicativas, independientes o
predictivas (métricas), variables a explicar o dependientes, y variables
control o intervinientes (métricas o transformadas en variables
categoriales).
 La distinción entre variables dependientes e independientes debe
efectuarse con arreglo a fundamentos teóricos, por conocimiento o
experiencia y estudios anteriores.
3
1. Especificación
El modelo de regresión lineal simple (MRLS) supone que,

yi = β0 + β1xi + ui
donde:
 yi representa el valor de la variable respuesta para la

observación i-ésima.
 xi representa el valor de la variable explicativa para la
observación i-ésima.
 ui representa el error para la observación i-ésima.
4
2. Supuestos
En el caso en que nuestras observaciones sean una muestra aleatoria proveniente de
una población, estaremos interesados en realizar inferencias sobre la misma. A fin de
que estas inferencias sean “estadísticamente razonables”, se han de cumplir las
siguientes condiciones:
1. En la población, la relación entre las variables X e Y debe ser aproximadamente
lineal, esto es: y = β0 + β1x + µ, siendo µ la variable aleatoria que representa los
residuos (diferencias entre el valor estimado por el modelo y el verdadero valor
de Y ).
2. Los residuos se distribuyen según una Normal de media 0, es decir: µi ~ N(0, σ2)
3. Los residuos son independientes unos de otros.
4. Los residuos tienen varianza σ2 constante.
Afortunadamente, el modelo de regresión lineal es bastante “robusto”, lo que significa
que no es necesario que las condiciones anteriores se cumplan con exactitud (en
particular las tres últimas).
5
2. Supuestos
• La relación que existente entre X e Y es lineal,
Linealidad y = β0 + β1x
• El valor promedio del error es cero,

Homogeneidad E[µi] = 0
• La varianza de los errores es constante,

Homocedasticidad Var [µi] = σ2
• Las observaciones son independientes,

Independencia E[µiµj] = 0
• Los errores siguen una distribución normal,

Normalidad µi ~ N(0, σ2)
6
3. Estimadores de mínimos cuadrados
Gauss propuso en 1809 el método de mínimos cuadrados para
obtener los valores de 𝛽መ 0 y 𝛽መ 1 que mejor se ajustan a los datos:
𝑦ො i = 𝛽መ 0 + 𝛽መ 1xi
El método consiste en minimizar la suma de los cuadrados de las

distancias verticales entre los datos y las estimaciones, es decir,
minimizar la suma de los residuos al cuadrado,
7
Recta de regresión
 Partimos de una muestra de sujetos extraídos de una población

en la que se han tomado valores de las variables X e Y.
 La situación más frecuente es que los puntos estén dispersos
en el plano definido por X e Y.
8
El resultado que se obtiene es:
9
Propiedades de la Recta de regresión mínimo cuadrática:
1. La media de las puntuaciones predichas es igual a la

media de Y
2. Los errores tienen media cero
3. La recta de mínimos cuadrados pasa por el punto: X , Y 
4. Los errores no correlacionan ni con la variable predictora
ni con las puntuaciones predichas
10
Ejemplo
Gastos en
Ventas
A continuación se presenta Año Publicidad
datos anuales de 1945 a Y X
1945 2637 1145
1960 de ventas y gastos en 1946 2177 1012
publicidad (ambos en miles 1947 1920 836
de US$) de la compañía 1948 1910 941
1949 1984 981
Lydia Pinkham. 1950 1787 974
1951 1689 766
Esta empresa era una 1952 1866 920
empresa que producía 1953 1896 964
extracto de hierbas en 1954 1684 811
1955 1633 789
solución alcohólica y cuyos 1956 1657 802
datos fueron públicos luego 1957 1569 770
de un litigio familiar. 1958 1390 639
1959 1387 644
Heyse & Wei lo publicaron en 1985 en el 1960 1289 564
Suma 28475 13558
Journal of Forecasting.
Promedio 1779,6875 847,375
11
Diagrama de dispersión
r= 93.6%
¿Podemos calcular una recta de regresión lineal?

Existe una relación lineal positiva entre las variables. Por lo tanto,
Y: Ventas
X: Gastos en publicidad
12
Cálculo de los valores de los parámetros

a. Cálculo de sumas de cuadrados y sumas de productos:
Año y  Y Y xX X y2 x2 yx
1945 857,3125 297,6250 734984,7227 88580,6406 255157,6328
1946 397,3125 164,6250 157857,2227 27101,3906 65407,5703
1947 140,3125 -11,3750 19687,5977 129,3906 -1596,0547
1948 130,3125 93,6250 16981,3477 8765,6406 12200,5078
1949 204,3125 133,6250 41743,5977 17855,6406 27301,2578
1950 7,3125 126,6250 53,4727 16033,8906 925,9453
1951 -90,6875 -81,3750 8224,2227 6621,8906 7379,6953
1952 86,3125 72,6250 7449,8477 5274,3906 6268,4453
1953 116,3125 116,6250 13528,5977 13601,3906 13564,9453
1954 -95,6875 -36,3750 9156,0977 1323,1406 3480,6328
1955 -146,6875 -58,3750 21517,2227 3407,6406 8562,8828
1956 -122,6875 -45,3750 15052,2227 2058,8906 5566,9453
1957 -210,6875 -77,3750 44389,2227 5986,8906 16301,9453
1958 -389,6875 -208,3750 151856,3477 43420,1406 81201,1328
1959 -392,6875 -203,3750 154203,4727 41361,3906 79862,8203
1960 -490,6875 -283,3750 240774,2227 80301,3906 139048,5703
Suma 0,0000 0,0000 1637459,4375 361823,7500 720634,8750
13
Cálculo de los valores de los parámetros
El primer contraste elemental es el signo del parámetro. Este deber

corresponder con el que cabe esperar a priori, dado el marco teórico
que existente sobre las relaciones entre estas variables.
14
Interpretación de resultados
15
Contraste de significación individual de los
parámetros
En el contraste de significación estadística se somete a hipótesis algún valor
desconocido de los parámetros ( j ) y se trata de verificar si el valor del
parámetro j calculado, ˆ j a partir de una muestra, se encuentra dentro de los
límites (de confianza) alrededor del valor sometido a hipótesis.
El test para Ho: β1 = 0 se conoce como test de independencia o de no
asociación ya que nos dice si las variables están asociadas o no. En el caso
de que la hipótesis nula resulte cierta, supone que la correspondiente variable
asociada a ese parámetro no tiene influencia, de forma individual,
(estadísticamente hablando), sobre la variable dependiente.
Hipótesis Nula Hipótesis Alternativa

H0 :  j  0 H1 :  j  0
16
Bondad de ajuste de los datos al modelo de regresión

lineal simple
Una vez calculado un modelo de regresión, cabe preguntarse
1. ¿Cómo se emplea un modelo de regresión?
2. ¿Qué fiabilidad ofrecen las previsiones de un modelo

de regresión?
17
lineal simple
Antes de poder aplicar el modelo de regresión lineal simple para

predecir los valores que alcanzará una determinada variable criterio,
debemos certificar que los datos a los que sometemos a dicho análisis
se ajustan al modelo de regresión lineal simple; o lo que es lo mismo,
debemos analizar el grado de asociación lineal entre la variable
dependiente y la independiente así como determinar la proporción de
variabilidad de la variable dependiente explicada por la independiente.
Los principales estadísticos y pruebas que nos permiten valora la

bondad de ajuste de los datos al modelo de regresión lineal simple son:
18
lineal simple
1. Coeficiente de Correlación Lineal Simple (r)
 Mide el grado de asociación lineal entre dos variables.

 Este estadístico oscila entre 1 (fuerte asociación lineal positiva: a
medida que aumenten los valores de una variable aumentarán los
de la otra) y
 –1 (fuerte asociación lineal negativa: a medida que aumenten los
valores de una variable disminuyen los de la otra).
19
lineal simple
2. Coeficiente de Correlación Múltiple al Cuadrado o

Coeficiente de Determinación (R Square “R2”)
 El coeficiente de determinación se define a partir del coeficiente

de correlación múltiple (R) y
 mide la proporción de variabilidad de la variable dependiente
explicada por la variable independiente introducida o por la recta
de regresión.
 Si el valor que resulta lo multiplicamos por 100, obtendremos el
porcentaje de variabilidad explicada.
20
lineal simple
3. Coeficiente de Determinación Ajustado (Adjusted R

Square)
 Pese a que R2 se viene utilizando como medida de ajuste al modelo,

presenta el inconveniente de que a medida que vamos incrementando el
número de variables que participan en el modelo (será el caso propio del
análisis multivariable) mayor es su valor de ahí que la R2 sobrestime el
verdadero R de la población.
 Por esta razón, algunos autores recomiendan utilizar el Coeficiente de
Determinación Ajustado pues éste no aumenta, necesariamente, a
medida que añadimos variables a la ecuación.
 Este estadístico queda ajustado por el número de observaciones y el
número de variables independientes incluidas en la ecuación.
21
lineal simple
4. Error Típico de Predicción

 El error típico de la predicción es la parte de la variable dependiente (Y)
que dejamos de explicar ya sea porque nos falte alguna variable por
introducir, o bien, porque las variables que hemos elegido no son más las
adecuadas.
 Su cálculo se establece a partir de la desviación típica de la variable
dependiente y el coeficiente de determinación ajustado.
22
lineal simple
5. Análisis de Varianza (ANOVA)

 La tabla de análisis de varianza que incluye en su salida el SPSS nos
permite valorar hasta qué punto es adecuado el modelo de regresión
lineal para estimar los valores de la variable dependiente.
 La tabla de análisis de varianza se basa en que la variabilidad total de la
muestra puede descomponerse entre la variabilidad explicada por la
regresión y la variabilidad residual.
 La tabla de ANOVA proporciona el estadístico F a partir del cual podemos
contrastar la H0 de que R2 es igual a 0, la pendiente de la recta de
regresión es igual a 0, o lo que es lo mismo, la hipótesis de que las dos
variables están incorrelacionadas.
 Si el p-valor asociado al estadístico F es menor que el nivel de
significación (normalmente 0.05), rechazaremos la hipótesis nula
planteada.
23
Ejemplo: Altura de ola en función de la velocidad del viento
Gráfico de dispersión
24
La tabla ANOVA se utiliza para hacer el contraste de la

regresión. La hipótesis a probar es:
H0: El modelo de regresión lineal SI es bueno para

explicar la respuesta
H1: El modelo de regresión lineal NO es bueno para
explicar la respuesta
25
26
lineal simple
6. Análisis de Residuos
 Como ya hemos comentado los residuos, “e”, son la estimación de los
verdaderos errores.
 En regresión lineal la distribución de la variable formada por los residuos
debe ser Normal, esto es, los residuos observados y los esperados bajo
hipótesis de distribución normal deben ser parecidos.
 Además, los residuos deben ser independientes.
 En consecuencia, el análisis de los residuales nos va a permitir no solo
profundizar en la relación que se produce entre las dos variables, sino
también, ponderar la bondad de ajuste de la regresión obtenida.
 Para contrastar la supuesta normalidad de los residuales podemos
recurrir, fundamentalmente, a la representación de dos gráficos:
27
lineal simple
(1) el gráfico de residuales tipificados
 Este gráfico nos da idea de cómo se distribuyen los residuos en relación a
la distribución normal (que sería la que cabría esperar de los mismos). Si
ambas distribuciones son iguales (la distribución de los residuos es
normal) los puntos se sitúan sobre la diagonal del gráfico.
 Por lo contrario, en la medida que aparecen dispersos y formando líneas
horizontales respecto a la diagonal, habrá más residuos y el ajuste no
será adecuado.
(2) el gráfico de probabilidad normal
 Este gráfico compara gráficamente, al superponer la curva de distribución
normal, la función de distribuciones acumulada observadas en la muestra
con la función de distribución acumulada esperada bajo supuestos de
normalidad.
28
lineal simple
Variables listadas en el SPSS

 DEPENDEN : variable dependiente.
 ZRESID: residuos tipificados.
 ZPRED: valores pronósticos tipificados; valores pronósticos divididos
por su desviación estándar (media de 0 y desviación 1).
 DRESID: residuos eliminados; es decir, al efectuar los pronósticos se
elimina de la ecuación el caso sobre el que se efectúa el pronóstico.
 ADJPRED: pronósticos ajustados; es decir, valores pronosticados sin
incluir el caso pronosticado.
 SDRESID: residuos estudentizados.
 SRESID: residuos estudentizados; divididos por su desviación
estándar y se distribuyen según la t de Student.
29
RESIDUOS – Valores pronosticados
30
Siempre hay una
diferencia entre el valor
real de la variable
respuesta y la estimación
a partir de la ecuación de
regresión: el residuo
31
lineal simple
(3) Por su parte el estadístico de Durbin-Watson,
 mide el grado de autocorrelación entre el residuo correspondiente a cada
observación y el anterior (si los residuos son independientes, el valor
observado en una variable para un individuo no debe estar influenciado
en ningún sentido por los valores de esta variable observados en otro
individuo).
 Si el valor del estadístico es próximo a 2 los residuos están
incorrelacionados; si se aproxima a 4, estarán negativamente
incorrelacionados; y si se aproximan a 0 estarán positivamente
incorrelacionados.
32
Práctica con SPSS (pacientes.sav)
Objetivo: Ajustar un modelo lineal que permita analizar la

relación entre la Tensión arterial sistólica y la edad, a
partir de una muestra de 69 pacientes.
1. Calcular el coeficiente de correlación y obtener el gráfico de
dispersión.
2. Definir la Variable dependiente y la Variable independiente.
3. Estimar la recta de regresión
4. ¿Presenta la muestra suficiente evidencia, a un nivel de
significación de 0,05, como para rechazar la hipótesis nula
sobre la pendiente (H0: pendiente de la recta es cero)?
33
COMUNICACIÓN PERMANENTE CON LA ESCUELA
Correo de la Escuela del INEI

enei@inei.gob.pe
Área de Campus Virtual

Campus.virtual@inei.gob.pe
Para poder atenderte mejor puedes contactarnos al 433-3127 anexo 102-103 o

escribirnos a: enei@inei.gob.pe
Pasaje Hernán Velarde 285 Lima (Altura cuadra 1 y 2 de la Av Arequipa)

RegresionLinealMetodosPar RegresionLineal

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

RegresionLinealMetodosPar RegresionLineal

Cargado por

Copyright:

Formatos disponibles

Regresión Lineal y

 El investigador suele tener razones teóricas o prácticas para creer que

El modelo de regresión lineal simple (MRLS) supone que,

 yi representa el valor de la variable respuesta para la

• El valor promedio del error es cero,

• La varianza de los errores es constante,

• Las observaciones son independientes,

• Los errores siguen una distribución normal,

El método consiste en minimizar la suma de los cuadrados de las

 Partimos de una muestra de sujetos extraídos de una población

El resultado que se obtiene es:

Propiedades de la Recta de regresión mínimo cuadrática:

1. La media de las puntuaciones predichas es igual a la

¿Podemos calcular una recta de regresión lineal?

Cálculo de los valores de los parámetros

Cálculo de los valores de los parámetros

El primer contraste elemental es el signo del parámetro. Este deber

Hipótesis Nula Hipótesis Alternativa

Bondad de ajuste de los datos al modelo de regresión

Una vez calculado un modelo de regresión, cabe preguntarse

1. ¿Cómo se emplea un modelo de regresión?

2. ¿Qué fiabilidad ofrecen las previsiones de un modelo

Antes de poder aplicar el modelo de regresión lineal simple para

Los principales estadísticos y pruebas que nos permiten valora la

1. Coeficiente de Correlación Lineal Simple (r)

 Mide el grado de asociación lineal entre dos variables.

2. Coeficiente de Correlación Múltiple al Cuadrado o

 El coeficiente de determinación se define a partir del coeficiente

3. Coeficiente de Determinación Ajustado (Adjusted R

 Pese a que R2 se viene utilizando como medida de ajuste al modelo,

4. Error Típico de Predicción

5. Análisis de Varianza (ANOVA)

Ejemplo: Altura de ola en función de la velocidad del viento

Ejemplo: Altura de ola en función de la velocidad del viento

La tabla ANOVA se utiliza para hacer el contraste de la

H0: El modelo de regresión lineal SI es bueno para

Variables listadas en el SPSS

RESIDUOS – Valores pronosticados

Práctica con SPSS (pacientes.sav)

Objetivo: Ajustar un modelo lineal que permita analizar la

Correo de la Escuela del INEI

Área de Campus Virtual

Para poder atenderte mejor puedes contactarnos al 433-3127 anexo 102-103 o

Pasaje Hernán Velarde 285 Lima (Altura cuadra 1 y 2 de la Av Arequipa)

También podría gustarte