Está en la página 1de 12

Evaluación V

MANZANERO MORENO DIEGO JESÚS


REGRESIÓN LINEAL SIMPLE

En muchos problemas existe una relación entre dos o más variables, y resulta de interés
estudiar
la naturaleza de esa relación. El análisis de regresión es la técnica estadística para el
modelado y
la investigación de la relación entre dos o más variables. Veamos un ejemplo.
Los resortes se usan en aplicaciones por su capacidad para alargarse (contraerse) bajo carga.
La
rigidez de un resorte se mide con la constante del resorte, que es la longitud del resorte que se
alargará por unidad de la fuerza o de la carga. Para asegurarse de que un resorte dado
funciona
adecuadamente es necesario calcular la constante de resorte con exactitud y precisión.
En este experimento hipotético un resorte se cuelga verticalmente con un extremo fijo, y los
pesos se cuelgan uno tras otro del otro extremo. Después de colgar cada peso se mide la
longitud
del resorte. Sean n
x , x ,..., x 1 2
los pesos, y sea i
l la longitud del resorte bajo la carga i
x.
La ley de Hooke establece que
ii
l x = β 0 + β1
donde β 0
representa la longitud del resorte cuando no tiene carga y β1
es la constante del
resorte.
Sea i
y la longitud medida del resorte bajo la carga i
x . Debido al error de medición i
y será
diferente de la longitud verdadera i
l . Se escribe como
iii
y=l+ε
donde i
ε es el error en la i-ésima medición. Al combinar ambas ecuaciones se obtiene
iii
y=β+βx+ε01
(10.1)
En la ecuación (10.1), i
y es la variable dependiente, i
x es la variable independiente, β 0
y β1
son los coeficientes de regresión, y i
ε se denomina error. A la ecuación (10.1) se la llama
modelo de regresión lineal simple.
La tabla siguiente presenta los resultados del experimento y la figura el diagrama de dispersión
de y contra x.
La idea es utilizar estos datos para estimar los coeficientes de regresión. Si no hubiese error en
la
medición, los puntos se encontrarían en una línea recta con pendiente β1
y ordenada al origen
β0
, y estas cantidades serían fáciles de determinar. La idea es entonces que los puntos están
dispersos de manera aleatoria alrededor de una recta que es la recta de regresión lineal
l x = β 0 + β1
.
En general podemos decir que al fijar el valor de x observamos el valor de la variable Y. Si bien
x
es fijo, el valor de Y está afectado por el error aleatorio ε . Por lo tanto ε determina las
propiedades de Y. Escribimos en general
Y=β+βx+ε01
donde x es, por ahora, una variable no aleatoria, ε es la v.a. del error y asumimos que
E(ε ) = 0 y
2 V (ε ) = σ
Entonces Y es una variable aleatoria tal que
E(Y x) E( x ) x E( ) x 0 1 0 1 β 0 β1 = β + β + ε = β + β + ε = +
()()()
2 V Y x = V β 0 + β1
x+ε=Vε=σ
En consecuencia, el modelo de regresión verdadero E(Y x) x = β 0 + β1
es una recta de valores
promedio.
Notar que lo anterior implica que existe una distribución de valores de Y para cada x, y que la
varianza de esta distribución es la misma para cada x. La siguiente figura ilustra esta situación
Notar que se utilizó una distribución normal para describir la variación aleatoria en ε . Por lo
tanto la distribución de Y también será normal. La varianza 2 σ determina la variabilidad en las
observaciones Y. por lo tanto, cuando 2 σ es pequeño, los valores observados de Y caen cerca
de
la línea, y cuando 2 σ es grande, los valores observados de Y pueden desviarse
considerablemente de la línea. Dado que 2 σ es constante, la variabilidad en Y para cualquier
valor de x es la misma.
Podemos utilizar la recta de regresión estimada para predecir la longitud del resorte bajo una
carga determinada, por ejemplo con una carga de 1.3 lb:
yˆ = .4 9997 − .0 2046 )3.1( = .5 27pulg.
Podemos también estimar la longitud del resorte bajo una carga de 1.4 lb:
yˆ = .4 9997 − .0 2046 )4.1( = .5 29pulg.
Notar que la longitud medida para una carga de 1.4 lb es 5.19 pulg., pero la estimación de
mínimos cuadrados de 5.29 pulg. Está basada en todos los datos y es más precisa (tiene
menor
incertidumbre). Mas adelante calcularemos la varianza de estos estimadores.
Observaciones:
1- Las estimaciones de mínimos cuadrados 1 β
ˆ
y0
ˆβ son valores de variables aleatorias y dicho
valor varía con las muestras. Los coeficientes de regresión β 0
y β1
son constantes desconocidas
que estimamos con 1 β
ˆ
y0
ˆβ .
2- Los residuos i
e no son lo mismo que los errores i
ε . Cada residuo es la diferencia i i i
e = y − yˆ
entre el valor observado y el valor ajustado, y se pueden calcular a partir de los datos. Los
errores
i
ε representan la diferencia entre los valores medidos i
y y los valores i
x β 0 + β1
. Como los
valores verdaderos de β 0
y β1
no se conocen entonces, los errores no se pueden calcular.
3- ¿Qué sucede si se quisiera estimar la longitud del resorte bajo una carga de 100 lb? La
estimación de mínimos cuadrados es pulg. yˆ = .4 9997 − .0 2046(100) = 25.46 pero esta
estimación
no es confiable, pues ninguno de los pesos en el conjunto de datos es tan grande. Es probable
que
el resorte se deformara, por lo que la ley de Hooke no valdría. Para muchas variables las
relaciones lineales valen dentro de cierto rango, pero no fuera de él. Si se quiere saber cómo
respondería el resorte a una carga de 100 lb se deben incluir pesos de 100 lb o mayores en el
conjunto de datos.
Por lo tanto no hay que extrapolar una recta ajustada fuera del rango de los datos. La relación
lineal puede no ser válida ahí.
La varianza de 0
ˆβ y 1 β
ˆ
se puede disminuir tomando valores i
x muy dispersos con respecto a
x pues de esta forma aumenta xx S
Para construir intervalos de confianza para los coeficientes de regresión o para construir
pruebas
de hipótesis con respecto a β 0
o β1
necesitamos asumir que los errores i
ε tienen distribución
normal. Entonces ~ ,0( )
2
εiNσ
Observación:
Si ) ~ ,0(
2
ε i N σ entonces, como i i i Y = β + β x + ε 0 1
, resulta que ) ~ ( ,
2
Yi N β 0 + β1
xi σ . Se
pueden calcular entonces los EMV de los parámetros y llegaríamos a que son los mismos que
los encontrados usando mínimos cuadrados. De modo que la función que cumple la
suposición de normalidad de los i
ε no es otra que la de justificar el uso del método de
mínimos cuadrados, que es el mas sencillo de calcular.
Un caso especial importante es cuando 0 : H0 β1 = contra 0 : H0 β1 ≠
Estas hipótesis están relacionadas con la significancia de la regresión.
Aceptar 0 : H0 β1 = es equivalente a concluir que no hay ninguna relación lineal entre x e Y.
Si 0 : H0 β1 = se rechaza implica que x tiene importancia al explicar la variabilidad en Y.
También puede significar que el modelo lineal es adecuado, o que aunque existe efecto lineal
pueden obtenerse mejores resultados agregando términos polinomiales de mayor grado en x.
Ejemplos:
1- El fabricante del resorte de los datos de la ley de Hooke afirma que la constante del resorte
β1
es al menos 0.23 pulg/lb. Se ha calculado que la constante del resorte es 2046 .0
ˆβ1 = pulg/lb. ¿Se
puede concluir que la afirmación del fabricante es falsa?
Solución:
Se requiere una prueba de hipótesis para contestar la pregunta. Las hipótesis serían
23 : .0 H0 β1 = contra 23 : .0 H0 β1 <
El estadístico de prueba es
Sxx Sxx
Calculamos el p-valor recordando que bajo 23 : .0 H0 β1 = , ~ 2-n T t :
p − valor = P(T < − .2 28)
Vemos en la tabla de la distribución Student que en la fila ν = 18 grados de lib
1- Notar que el ancho del intervalo de confianza para ( ) 0 E Y x depende del valor de 0
x . El
ancho del intervalo es mínimo cuando x = x 0
y crece a medida que x − x 0
aumenta.
2- Al repetir los cálculos anteriores para varios valores diferentes de 0
x pueden obtenerse
intervalos de confianza para cada valor correspondiente de ( ) 0 E Y x .
En la figura siguiente se presenta el diagrama de dispersión con la recta estimada y los
correspondientes intervalos de confianza de nivel 0.95 graficados con las líneas inferior y
superior referidos al ejemplo anterior. Se origina entonces una banda de confianza que
envuelve
a la recta estimada.

10.6 – Intervalos de predicción para futuras observaciones


Una aplicación importante de un modelo de regresión es la predicción de observaciones
nuevas o
futuras de Y, correspondientes a un nivel especificado de la variable x.
Si 0
x es el valor de x de interés, entonces una estimación puntual de la observación
0 0 1 0 0 Y = β + β x + ε es 0 0 1 0
ˆˆˆY=β+βx.
Para hallar un intervalo de predicción para 0 0 1 0 Y = β + β x de nivel 1 debemos construir un
−α
estadístico a partir de 0 0 1 0
ˆˆˆY=β+βx.
Primero notamos que si Y0
es una nueva observación, entonces Y0
es independiente de las
observaciones utilizadas para desarrollar el modelo de regresión.
Es decir el índice de ajuste estima la correlación entre X e Y
Si X es una variable aleatoria, entonces se observan pares independientes ( ) Xi Yi
, con i = 1,..., n
que cumplen el modelo
Yi Xi i = β + β + ε 0 1
Si asumimos que Xi
yi
ε son independientes y que las i
ε tienen todas la misma distribución
con ( ) = 0 E i
ε , entonces ( ) E Yi Xi = β 0 + β1Xi
Si además suponemos que ( )
2
ε i ~ N ,0 σ entonces se puede probar que los estimadores de
máxima verosimilitud para los parámetros β 0
Es decir son los mismos estimadores a los dados por el método de mínimos cuadrados en el
caso
de suponer que X es una variable matemática.
También se puede probar que bajo las suposiciones hechas (10.17) y (10.18) siguen siendo
válidas.
Las distribuciones de los estimadores dependen ahora de las distribuciones de las Xi
. Puede
probarse que siguen siendo insesgados, y que su distribución condicional en las Xi
es normal,
pero en general su distribución no será normal.
10.8 – Análisis de residuos
El ajuste de un modelo de regresión requiere varias suposiciones. La estimación de los
parámetros del modelo requiere la suposición de que los errores son variables aleatorias
independientes con media cero y varianza constante. Las pruebas de hipótesis y la estimación
de
intervalos requieren que los errores estén distribuidos de manera normal. Además se supone
que
el grado del modelo es correcto, es decir, si se ajusta un modelo de regresión lineal simple,
entonces se supone que el fenómeno en realidad se comporta de una manera lineal.
Se debe considerar la validez de estas suposiciones como dudosas y examinar cuán adecuado
es
el modelo que se propone. A continuación se estudian métodos que son útiles para este
propósito.
Los residuos de un modelo de regresión son i i i
e = y − yˆ i = 2,1 ,..., n . A menudo el análisis de
los residuos es útil para verificar la hipótesis de que los errores tienen una distribución que es
aproximadamente normal con varianza constante, y también para determinar la utilidad que
tiene
la adición de más términos al modelo.
Es posible estandarizar los residuos mediante el cálculo de
2 σˆ
i
e
i = 2,1 ,..., n .
También se puede probar que la varianza del i-ésimo residuo i
Y entonces podemos considerar al i-ésimo residuo estudentizado que se define co
y tiene desviación estándar unitaria.
Si los errores tienen una distribución normal, entonces aproximadamente el 95% de los
residuos
estandarizados deben caer en el intervalo (− )2 ;2 . Los residuos que se alejan mucho de este
intervalo pueden indicar la presencia de un valor atípico, es decir, una observación que no es
común con respecto a los demás datos.
A menudo es útil hacer una gráfica de residuos contra la variable independiente x. En este caso
la
gráfica tendría que ser una nube de puntos sin ningún patrón en el intervalo (− )2 ;2 ; pues
iii
e = y − yˆ sería lo que queda de i
y al quitarle la influencia de i
x . Si en la gráfica aparece
algún patrón quiere decir que no estamos quitando de las y toda la influencia de las x.
Patrones usuales para las gráficas de residuos suelen ser los de las siguientes figuras: en la
figura
a) se representa la situación ideal, una nube de puntos sin ningún patrón en el intervalo (− ;2 )2
.
Las figuras b) , c) y d) representan anomalías. Si los residuos aparecen como en b) o c) indican
que el modelo es inadecuado. La figura d) muestra residuos que indican que la varianza de las
observaciones varía con la magnitud de x. Comúnmente se utiliza una transformación de datos
sobre la respuesta y para eliminar este problema. Las transformaciones más utilizadas para
estabilizar la varianza son y , ln o (y)
y1.

…..
NTRODUCCIÓN

Calidad del ajuste en regresión lineal simpleEn la sección anterior estudiamos pruebas de
hipótesis para verificar que hay unarelación significativa entre X y Y; sin embargo, no hemos
visto si tal relaciónpermite hacer estimaciones con una precisión aceptable. or ejemplo, es
deinter!s saber qu! tanta de la variabilidad presente en Y fue e"plicada por elmodelo, adem#s si
se cumplen los supuestos de los residuos.Coeficiente de determinación $%&.'n primer criterio
para evaluar la calidad del ajuste es observar la forma en que elmodelo se ajustó a los datos.
En el caso de la regresión lineal simple esto sedistingue al observar si los puntos tienden a
ajustarse ra(onablemente bien a lal)nea recta *v!ase la figura +.-. ero otro criterio m#s
cuantitativo es el queproporciona el coeficiente de determinación, el cual est# definido porEs
claro que. En generalse interpreta como la proporción de lavariabilidad en los datos *Y- que es
e"plicada por el modelo. En el caso de losdatos dela resistencia de la pulpa tenemosor lo tanto,
podemos decir que /0 de la variación observada en la resistenciaes e"plicada por el modelo
*l)nea recta-, lo cual nos dice que la calidad del ajustees satisfactorio, y que por ello, la relación
entre X y Y es descrita adecuadamentepor una l)nea recta.1ota. El resultado arrojado por E"cel
o 2initab, incluye el an#lisis de varian(a parael modelo de regresión simple cuyo cuadro sint!tico
es el siguiente
La regresión lineal es un método útil para predecir una respuesta cuantitativa Y partiendo de
una sola variable predictora X, asumiendo que hay una relación aproximadamente lineal entre
X e Y. Matemáticamente, esta relación lineal se representa como donde β0 (ordenada en el
origen, valor esperado de Y cuando X=0 y β1 (pendiente, incremento medio de Y asociado con
el aumento de X en una unidad) son las dos constantes o parámetros desconocidos en el
modelo. Asumimos que el residuo o error ϵ (diferencia entre lo observado y estimado por el
modelo) es independiente de X.
ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN
La verdadera recta de regresión poblacional suele ser desconocida, pero teniendo acceso a
un conjunto de observaciones, podemos calcular un modelo aproximado, teniendo en cuenta
que distintos conjuntos de datos pueden tender a generar rectas de regresión ligeramente
distintas. Por tanto, en la práctica, β0 y β1 son desconocidos, por lo que para poder obtener
una predicción de la variable respuesta, tenemos que obtener una estimación de los mismos
utilizando los datos de entrenamiento:
El objetivo es obtener unos estimadores insesgados con los que el modelo lineal se ajuste
bien a los datos disponibles. Para esto, la estrategia más comúnmente utilizada se basa en
minimizar la suma de residuos al cuadrado (RSS), método conocido como mínimos cuadrados:
Los residuos no son más que la diferencia entre cada valor de la variable respuesta observada
y la predicha por el modelo. Algunos residuos serán positivos (para observaciones por encima
de la recta) y otros negativos (observaciones por debajo de la recta), siendo su promedio de 0.
La recta que se ajuste bien a los datos tendrá residuos pequeños.
Las ecuaciones que minimizan el RSS son:

Para estimar cómo de precisos son nuestros estimadores β0^ y β1^ y como, de media,
difieren del valor de los verdaderos valores de los parámetros β0 y β1, calculamos el error
estándar (SE) asociado con β0^ y β1^:
donde La varianza del error ϵ es en general desconocida, pero se puede estimar a partir de
los datos. Esta estimación es conocida como el error estándar residual (RSE), que no es más
que la raíz cuadrada de la media de la suma de los residuos al cuadrado:
RSE nos dará una estimación sobre la desviación promedio de cualquier punto respecto a la
verdadera recta de regresión, o lo que es lo mismo, estima la desviación estándar de ϵ. RSE se
divide entre los grados de libertad del modelo n – 2 (perdemos dos grados de libertad porque
estimamos dos parámetros) para hacer este estimador insesgado.
Intervalo de confianza (CI)
A partir del cálculo del error estándar,
podemos obtener los intervalos de confianza para cada uno de los estimadores. Un intervalo
TEST DE HIPÓTESIS
El error estándar también puede usarse para llevar a cabo un test de hipótesis sobre los
parámetros del modelo. El más común establece que

H0 : β1 = 0 (no existe relación entre X e Y)

Ha : β1 ≠ 0 (existe alguna relación entre X e Y)

Para comprobar la hipótesis nula, necesitamos determinar si β1^ se aleja lo suficientemente


de 0. La precisión con la que podemos determinar esto dependerá del SE(β1). Para ello
llevamos a cabo un t-test, calculando el estadístico t, el cual mide el número de desviaciones
estándar que el estimador β1^ y β1^ están del valor 0, y por último obtenemos el p-value:
Si el p-value es menor que el nivel de significancia establecido, podemos deducir que hay
una relación entre el predictor y la variable respuesta.
BONDAD DE AJUSTE DEL MODELO

En el caso de que la hipótesis nula sea rechazada, podemos cuantificar el grado con el que
el modelo se ajusta a los datos. La calidad de un ajuste de regresión lineal es normalmente
estimada usando dos valores relacionados: RSE y el estadístico o coeficiente de determinación
R2, como fracción de la varianza explicada.
Error estándar residual (RSE)

El RSE, comentado anteriormente, se considera como una medida absoluta de la falta de


ajuste del modelo a los datos, medido en las mismas unidades que Y. Cuanto más pequeño
sea el valor del RSE, mejor se ajusta el modelo a los datos. Podemos calcular el % de error
aproximado que el modelo comete en la predicción dividiendo el valor de RSE entre el valor
promedio de la variable respuesta:
Coeficiente de determinación R2
El coeficiente de determinación R2 constituye una alternativa al RSE. Toma un valor
correspondiente a la proporción de variabilidad en Y explicada por el modelo en relación a la
variabilidad total. Al corresponder a una proporción, tomará valores entre 0 y 1. Para calcular
esta proporción, utilizamos la fórmula
mide la varianza total inherente en la variable respuesta Y antes de ajustar el modelo lineal, a
diferencia del RSS que mide la variabilidad que queda inexplicada tras llevar a cabo la
regresión.
Cuanto más próximo sea a 1, mayor será la proporción de variabilidad en la variable
respuesta explicada por el modelo. Determinar si su valor es lo suficientemente bueno
dependerá de la aplicación en cuestión. Un valor bajo podría indicar que el modelo lineal no es
adecuado o podría deberse a errores residuales debido a variables no tenidas en cuenta.
A diferencia del RSE, R2 es independiente de la escala de medida de Y, es decir,
adimensional, por lo que presenta la ventaja de ser más fácil de interpretar.
También podríamos decir que R2 es una medida de la relación linear entre X e Y, al igual que
el coeficiente de correlación de Pearson (r), definida como
Únicamente en el caso de regresión lineal simple, se cumple que
CONDICIONES PARA LA REGRESIÓN LINEAL

1. Linealidad: la relación entre el predictor y la variable respuesta ha de ser lineal. ¿Cómo


comprobarlo? Diagrama de dispersión de los datos, graficar los residuos.

Distribución normal de los residuos: los residuos deben distribuirse de forma normal, en torno a
0. Esta condición podría no cumplirse en presencia de observaciones atípicas o outliers que no
siguen el patrón del conjunto de datos.
¿Cómo comprobarlo? Histograma de los datos, distribución de quantiles (normal Q-Q plot),
*test de hipótesis de normalidad
En la página [https://gallery.shinyapps.io/slr_diag/] se muestran ejemplos visuales intuitivos.

Variabilidad de los residuos constante (homocedasticidad): la variabilidad de los datos en torno


a la recta de regresión ha de ser aproximadamente constante, lo cual implica que la variabilidad
de los residuos debería ser constante también en torno a 0.
¿Cómo comprobarlo? Graficar los residuos, test de Breusch-Pagan

Independencia: las observaciones han de ser independientes unas de otras. Tener en cuenta
en el caso de mediciones temporales.
¿Cómo comprobarlo? Graficar los residuos y estudiar si siguen un patrón o tendencia.
EJEMPLO EN En este ejemplo trabajaremos con el set de datos trees, que contiene datos
sobre la circunferencia (en pulgadas), altura (en pies) y volumen (en pies cúbicos) del tronco de
árboles de cerezos. Intentaremos ajustar un modelo de regresión lineal simple para predecir el
volumen en función del diámetro.
Para estimar la línea de regresión poblacional a partir de la nube de puntos se utiliza el método
de los mínimos cuadrados ordinarios (MCO), que considera como recta que mejor se ajusta a
la que minimiza la suma de los cuadrados de los resíduos.
Si la recta de mejor ajuste es los errores o resíduos se definen como: y los estimadores por
MCO de la ordenada en el origen,, y de la pendiente,, son:
Para evaluar la bondad del ajuste se calcula el coeficiente de determinación R2 y, para medir la
dispersión de los puntos alrededor de la recta estimada, el error típico de la estimación Su.
Estas medidas se definen como:
Donde SCT o suma total de cuadrados es la variación total de Y en la muestra y SCR o suma
de cuadrados de la regresión es la parte de la variación total explicada por la recta ajustada.
Por lo tanto, R2 indica la proporción de variación total explicada mediante larelación lineal entre
X e Y, y toma valores entre 0 y 1. Un valor de R2 próximo a 1 indica que la recta ajustada es un
buen modelo para explicar el comportamiento de la variable Y, y por lo tanto existe relación
lineal entre X e Y. Por el contrario, un valor próximo a 0 indica que la recta ajustada no explica
la variación observada en Y.
Para establecer el intervalo de confianza para la pendiente de la recta de regresión, , y
contrastar si el valor de este parámetro es o no significativamente diferente a cero es necesario
calcular el error típico de b que se define como:
El estadístico de prueba del contraste es que presenta una distribución de probabilidad t de
Student con n-2 grados de libertad.
Para la obtención de la recta de regresión la secuencia es:

Analizar

Regresión

Lineal
Se abre el cuadro de diálogo Regresión lineal donde se seleccionan las variables Dependiente
e Independientes.
La opción Método permite elegir el método de estimación. Si se trata de una regresión lineal
simple (con una sola variable independiente) se conserva la definida por defecto (Introducir)
siendo el resto de opciones para modelos con más de una variable explicativa.
Cuando se desee realizar un ajuste lineal basado únicamente en los casos que pertenecen a
un subgrupo determinado por un valor o conjunto de valores de otra variable, ésta se deberá
indicar en Variable de selección del cuadro de diálogo Regresión lineal e introducir la Regla o
condición que debe verificar un caso para ser incluido en el análisis.
Opcionalmente se puede seleccionar la variable que recoge las etiquetas de los casos
indicándola en Etiquetas de caso.
El botón MCP hace referencia a la estimación por mínimos cuadrados ponderados.
Este cuadro de diálogo además permite ampliar el análisis de regresión activando las opciones
incluidas en Estadísticos, Gráficos y Opciones.
ESTADíSTICOS
El botón Estadísticos abre el cuadro de diálogo Regresión lineal: Estadísticos que por defecto
tiene activadas las opciones Estimaciones y Ajuste del modelo.
- La opción Estimaciones proporciona las estimaciones de los coeficientes de la recta ajustada
por el método de los mínimos cuadrados ordinarios y sus correspondientes errores típicos, así
como los coeficientes estandarizados (beta), los valores del estadístico t y el nivel de
significación crítico.
- La opción Ajuste del modelo muestra en el resumen delmodelo la bondad del ajuste o
coefiente de determinación y en elcuadro ANOVA la descomposición de la suma total de
cuadrados oinformación total observada.
Intervalos de confianza de los coeficientes de regresión que por defecto se calculan al 95\%.
- Matriz de covarianzas y de varianzas, y la matriz de correlaciones de los coeficientes del
modelo que se analiza en el contexto de la regresión múltiple.
- Cambio en R cuadrado. Cuantifica la variación del coeficiente de determinación que se
produce al añadir o eliminar alguna variable independiente en un modelo de regresión múltiple.
- Descriptivos incluye las medias y las desviaciones típicas de las variables seleccionadas y la
matriz de correlaciones.
- Diagnósticos por caso. Esta opción presenta dos alternativas para el análisis de los residuos:
- la obtención de Valores atípicos a más de (por defecto 3) desviaciones típicas. Identifica
aquellos casos para los cuales el valor estandarizado de los residuos difiere en (por defecto 3)
o más desviaciones típicas de su media. Para estos casos también presenta el valor
observado, el valor pronosticado y el residuo sin estandarizar. Incluye un cuadro de
estadísticos de los residuos con la media y desviación típica de los valores pronosticados y de
los residuos, tipificados y no tipificados, diferenciando entre los casos incluidos y los excluidos
del análisis. La identificación de casos atípicos es importante porque su presencia en la
muestra puede distorsionar los resultados de la regresión.
- la obtención de predicciones de Y para Todos los casos. Genera las predicciones de Y y sus
correspondientes residuos para todos los casos.
El resto de opciones hacen referencia al modelo de regresión lineal múltiple.
Este cuadro de diálogo permite seleccionar los gráficos a incluir en los resultados.
El recuadro superior presenta una serie de nuevas variables relacionadas con las predicciones
y los residuos. éstas pueden ser seleccionadas para definir los ejes X e Y de los diagramas de
dispersión que se quieren elaborar. Pulsando el botón Siguiente el programa va numerando los
diagramas que incluirá en los resultados.
El recuadro Gráficos de residuos tipificados presenta dos opciones: Histograma que muestra un
histograma de los residuos tipificados superponiéndole la distribución normal y Gráfico de prob.
normal que crea un gráfico P-P útil para comprobar la hipótesis de normalidad a partir de los
residuos tipificados. La comprobación de esta hipótesis es fundamental para la correcta
interpretación de las estimaciones por intervalo, tanto de los coeficientes de la recta como de
las predicciones.
OPCIONES
El botón Opciones abre el cuadro de diálogo Regresión Lineal: Opciones.
Permite desactivar Incluir constante en la ecuación que elimina el término independiente y
proporciona la recta de regresión que pasa por el origen de coordenadas. Por lo que se refiere
a los Valores perdidos, además de las dos posibilidades Excluir casos según lista, activada por
defecto, y Excluir casos según pareja, comentadas en el epígrafe 3.6, hay la posibilidad de
Reemplazar por la media, opción que sustituye los valores missing por la media de la variable
correspondiente.

También podría gustarte