Está en la página 1de 15

REGRESIÓN LINEAL MULTIPLE

1.- Explique la diferencia entre un modelo de regresión simple y un modelo de


regresión múltiple.

El caso más simple de regresión lineal ajusta a la ecuación de la recta los valores
de la variable independiente X1 a la variable dependiente Y, es decir:

Y = b0+b1X1,

Donde b0 es la ordenada en el origen y b1 es la pendiente de la recta. El ajuste a


esta ecuación (mediante mínimos cuadrados) se caracteriza por la obtención de b 0,
b1 y el coeficiente de correlación r.

La regresión lineal múltiple se basa en obtener una relación lineal entre un conjunto
de variables independientes X1,..,Xn con una variable dependiente Y, es decir:

Y = b0+b1X1+b2X2+b3X3+ ··· +bnXn.

El éxito de determinar una correlación lineal múltiple es que exista una correlación
lineal simple de cada variable independiente con la variable dependiente.

El estudio de la relación lineal simple y múltiple en R se realiza de la misma forma


y se recoge en el script_Regresion_Lineal.. Para ello se utiliza la función de
regresión lineal lm(). Dicha función está definida por una variable dependiente, y
una o varias variables independientes (si es una variable independientes estamos
trabajando con una regresión lineal simple; si son varias las variables entonces es
una regresión múltiple).
2.- ¿Por qué la matriz de correlación contiene 1 en la diagonal principal?

Estas variables independientes o explicativas están dispuestas ya en


una matriz de correlación, que es una tabla de doble entrada para A B y C, que
muestra una lista multivariable horizontalmente y la misma lista verticalmente y con
el correspondiente coeficiente de correlación llamado r o la relación entre cada
pareja en cada celda, expresada con un número que va desde 0 a 1. El modelo
mide y muestra la interdependencia en relaciones asociadas o entre cada pareja de
variables y todas al mismo tiempo.

3 ¿Qué es la multicolinealidad? ¿Cómo se puede prevenir?

Cuando hablamos de multicolinealidad nos referimos a la relación que guardan


entre sí las variables cuando creamos un modelo econométrico. Se suele considerar
un problema de grado debido a que su relación puede ser de mayor o menor grado.

A continuación veremos el comportamiento de dos activos financieros -petróleo


americano, color naranja, y europeo, color azul- a modo de ejemplo. Como vemos,
el recorrido es similar aunque existan diferencias entre ellos y podemos plantearnos
la existencia de multicolinealidad aunque esta no sea perfecta.

Existen una serie de métodos para corregir este problema. Es importante señalar
que si nuestro modelo es predictivo (no estructural) la multicolinealidad no se
consideraría un problema ya que la relación entre variables puede mantenerse en
el futuro. Las técnicas más utilizadas si queremos solucionar esto son:

 Imponer restricciones al modelo: restringir los parámetros de variables donde


existe colinealidad o bien restringir el modelo original.
 Componentes principales: obtener un conjunto de variables a partir de las
originales y sin caer en pérdida de información. Estas nuevas deben cumplir la
condición de ser ortogonales entre sí.
 Eliminar variables: el hecho de suprimir variables puede acabar con el problema,
pero cuidado, tenemos que tener en cuenta si el hecho de omitirlas puede ser un
problema más grave por su relevancia.
 Transformar variables: obtener primeras diferencias o retornos es un método
generalmente aplicado y no cae en algunas de las limitaciones de los métodos
anteriores. Igualmente debemos tener en cuenta que una variable puede estar
relacionada con otra de manera original y no en su transformación.

4.- ¿Cuáles son las características de una buena variable de predicción?

El modelo permite generar predicciones para el valor esperado o para un valor


individual de la variable dependiente (Y) asociado a un valor dado de la variable
independiente (X). En ambos casos la predicción puntual es la misma y se obtiene
sustituyendo en el modelo estimado el valor X0 para el cual se desea realizar la
predicción.

Para obtener el intervalo de confianza de los pronósticos y/o contrastar si puede


aceptarse un determinado valor de Y condicionado a un valor X0 es necesario
calcular el error estándar de la predicción, el cual dependerá del valor pronosticado:

 Predicción del valor esperado de Y para X=X0,

 Predicción del valor individual de Y para X=X0,


5.- ¿Cuáles son los supuestos del modelo de regresión múltiple?

1 Linealidad. Si no se tiene linealidad se dice que tenemos un error de


especificación. En el caso de que sean varias variables independientes, la opción
Analizar-Regresión Lineal-Gráficos-Generar todos los gráficos parciales nos da los
diagramas de dispersión parcial para cada variable independiente. En ellos se ha
eliminado el efecto proveniente de las otras variables y así la relación que muestran
es la relación neta entre las variables representadas.

2 Independencia de la variable aleatoria “residuos” (especialmente importante si


los datos se han obtenidos siguiendo una secuencia temporal). Independencia entre
los residuos mediante el estadístico de Durbin-Watson que toma valor 2 cuando los
residuos son completamente independientes (entre 1.5 y 2.5 se considera que
existe independencia), DW2 auto correlación negativa

3 Homocedasticidad o igualdad de varianzas de los residuos y los pronósticos.


Esta condición se estudia utilizando las variables: ZPRED=pronósticos tipificados y
ZRESID=residuos tipificados mediante:

• El estadístico de Levene (ver explorar)

• Un gráfico de dispersión.

Que se obtiene en Analizar-Regresión-Lineal-Gráficos. El supuesto de


homocedasticidad implica que la variación de los residuos sea uniforme en todo el
rango de valores de los pronósticos (gráfico sin pautas de asociación).

4 Normalidad de los residuos tipificados. Podemos contrastarla mediante:

• La prueba de Kolmogorff-Smirnov, con gráficos de normalidad de tipo Q-Q


(cuantiles) o P-P (proporciones) (ver explorar)

• Gráficamente en Analizar-Regresión-Lineal-Gráficos. La opción Histograma:


añade una curva N (0,1) Gráfico de Probabilidad Normal de tipo P-P: Representa
las proporciones acumuladas de la variable esperada respecto a las proporciones
acumuladas de la variable observada.
5 No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:
colinealidad perfecta si una de las variables independientes tiene una relación lineal
con otra/as independientes, colinealidad parcial si entre las variables
independientes existen altas correlaciones

6 ¿Qué mide un residual?

Es un método bien establecido no destructivo para la determinación de la tensión


residual en materiales poli cristalinos. La tensión, inducida por tratamiento térmico
o mecanizado, por ejemplo, puede acumularse durante la vida útil del material y
causar un error inesperado de un componente técnico en una construcción
mecánica. El control de la tensión residual, por lo tanto, es esencial para mejorar la
seguridad y durabilidad de un material.

Cuando consideramos el valor ajustado mediante el modelo de regresión lineal para


un valor fijo x:

yest = a + bx

Tenemos, en realidad, un estadístico. La varianza de este estadístico es conocida


como varianza residual, la cual resulta igual a:

(Sy)2 (1 − r2)

La raíz cuadrada de la varianza residual es conocida como el error típico.

La varianza residual coincide también con la suma de cuadrados de las diferencias


entre los valores de la variable dependiente observados y estimados por la recta,
dividiendo el resultado final por el tamaño de la muestra.
7.- ¿Qué mide el error estándar de la estimación en la regresión múltiple?

Es una medida de dispersión la estimación se hace más precisa conforme el grado


de dispersión alrededor del plano de regresión se hace más pequeño.

Para medirla se utiliza la fórmula:

Y: Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión

n: Número de datos

m: Número de variables independientes

Mide la tasa porcentual de los cambios de Y que pueden ser explicados por

, y simultáneamente.
8.- Una ecuación de regresión múltiple es ý = 4.72 + 13 X2 – 4.2 X3. Obtenga
una estimación puntual dado X2 = 40 y X3 = 20.

Una estimación es puntual cuando se usa un solo valor extraído de la muestra para
estimar el parámetro desconocido de la población. Al valor usado se le llama
estimador.

 La media de la población se puede estimar puntualmente mediante la media


de la muestra:

 La proporción de la población se puede estimar puntualmente mediante la


proporción de la muestra:

 La desviación típica de la población se puede estimar puntualmente mediante


la desviación típica de la muestra, aunque hay mejores estimadores:
9.- ¿Qué mide el coeficiente de determinación múltiple R2?

Es importante saber que el resultado del coeficiente de determinación oscila entre


0 y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la
variable que estamos intentando explicar. De forma inversa, cuanto más cerca de
cero, menos ajustado estará el modelo y, por tanto, menos fiable será.

En la expresión anterior tenemos una fracción. Así pues, vayamos por partes. En
primer lugar, analizaremos el numerador, es decir, la parte de arriba.

Para aquellos que no conozcan la expresión de la varianza, les recomiendo que


lean el artículo sobre la misma. Para aquellos que si la conozcan, podrán caer en la
cuenta de que es la expresión de la varianza, pero con dos diferencias
fundamentales.

La primera diferencia es que la Y lleva un circunflejo o, lo que los profesores llaman


de forma didáctica, “sombrerito”. Ese sombrerito lo que detalla es que esa Y es la
estimación de un modelo sobre lo que según las variables explicativas vale Y, pero
no es el valor real de Y, sino una estimación de Y.
10.- Explique la diferencia entre los modelos lineal, curvilíneo y no lineal.

La regresión lineal como su nombre lo dice a la hora de realizar un gráfico Y vs X


este responde a un modelo lineal en el mundo hay bastantes experiencias que
responden a este modelo, la regresión curvilínea es completamente diferente a la
lineal podemos obtener un experimento que corresponda ya sea a un modelo
potencial, exponencial, logarítmico, entre otros, casi siempre al obtener este tipo de
modelos se debe realizar la correcta regresión lineal

11.- ¿Por qué generalmente se incluye el análisis de correlación en el estudio


de las técnicas de regresión? ¿Pueden estudiarse por separado estos dos
temas?

Se propone llevar a cabo una descripción de los conocimientos previos que se


sugiere que los alumnos tengan al comenzar el tratamiento de estos contenidos, así
como de los posibles errores y dificultades que aparecen en la resolución de
problemas de regresión y correlación lineal.

La identificación de los puntos que presentan dificultad y de los errores detectados


en el proceso de enseñanza–aprendizaje (incluso después del mismo) son
preocupaciones básicas de la educación estadística. A partir de su conocimiento es
posible diseñar actividades didácticas útiles para el profesor, que sean adecuadas
para superar las dificultades y favorezcan la comprensión.

Formas de representación

Verbal: Descripción de una situación donde intervienen los conceptos estudiados.


Por ejemplo, la descripción de datos bi variados.

Gráfica: Empleo de dibujos o diagramas para representar conceptos o


procedimientos. En este caso, se utiliza el diagrama de dispersión y la gráfica de la
recta de regresión estimada.
Simbólica: Manejo de la simbología para expresar nociones o conceptos

estadísticos. Por ejemplo,

Tabular: Se utiliza para representar el conjunto de pares de valores numéricos de


datos bivariados.

12.- A partir de las siguientes ecuaciones identifique las regresiones simple,


lineal múltiple y curvilínea.

Curvilínea

a) Y = 2 + 3 X

Curvilínea

b) Y = 1000 – 5000 X

Lineal múltiple

c) Y = 10 + 2 X1 + 3 X2 + 4 X3

Regresiones simples

d) Y = 2 + 3 X + X2

13.- Suponga que una regresión múltiple produjo esta ecuación: ý = 51.21 +
6.88 X1 + 7.06 X2 – 3.71 X3. Cuál es el valor de b0 para esta ecuación?

51.21 es el valor de b0
14.- El error estándar de una estimación tiene n – (k + 1) grados de libertad.
¿Qué significa la K en esta expresión?

Este método presenta la ventaja de poder utilizarse para contrastar la influencia de


un subconjunto de k variables explicativas

15.- Suponga que una regresión múltiple produjo esta ecuación: ý = 51.21 +
6.88 X1 + 7.06 X2 – 3.71 X3. Cuál es el valor de b3 para esta ecuación?

3.71 X3 es el valor de b3

16.- Suponga que una regresión múltiple produjo esta ecuación: ý = 51.21 +
6.88 X1 + 7.06 X2 – 3.71 X3. Cuál es el valor de b1 para esta ecuación?

6.88 X1 es el valor de b1

13, 15, 16

β0 es el término independiente. Es el valor esperado de Y cuando X1, . . . , Xp son


cero

β1 mide el cambio en Y por cada cambio unitario en X1, manteniendo X2, X3, . . . ,
Xp constantes. I β2 mide el cambio en Y por cada cambio unitario en X2,
manteniendo X1, X3, . . . , Xp constantes.

βp mide el cambio en Y por cada cambio unitario en Xp , manteniendo X1, . . . ,


Xp−1 constantes
17.- Explique el modelo no lineal.

Se llama función lineal de una


variable, a una función de la forma

a0: ordenada en el origen (valor de


Y cuando X=0)

a1: pendiente (cambio de Y al


aumentar X en 1)

Es un modelo de regresión lineal entre dos variables

Es un modelo probabilístico, que también se puede escribir

A la variable Y se la denomina variable dependiente y a X independiente.

Modelo I de regresión lineal se asume que


i) X no es una variable aleatoria.

ii) para cada valor xi de X existe una


v.a. Y|xi cuya media está dada por
el modelo.

iii) todas las variables Y|xi son


normales, independientes y con
igual varianza.

18.- Explique en qué consiste la prueba t de regresión?

Para probar hipótesis acerca de la pendiente y la ordenada en el origen del modelo


de regresión, debe hacerse la suposición adicional de que término del error εi esta
normalmente distribuido. Por lo tanto, se supone que los errores εi son NID (0,σ2).
Después se pueden probar es suposiciones mediante el análisis de residuos.
Supongamos que el experimentador desea probar la hipótesis de que la pendiente
es igual a un cierto valor, por ejemplo β1,0. Las hipótesis apropiadas.

En donde se ha especificado la hipótesis alterna de dos extremos. Ahora bien,


como las εi son NID(0,σ2) se concluye que las yi son NID(β0 + β σ2). Por lo tanto,
es una combinación lineal de variables aleatorias independientes normalmente
distribuidas. En consecuencia, es N( σ2/Sxx). Además es independiente de MSE.
Entonces, como resultado de la suposición de normalidad, la estadística:
19.- Explique en qué consiste la prueba F de regresión?

El análisis de Varianza contrasta la hipótesis de igualdad de las Medias de más de


dos grupos, y tiene su fundamento en la relación entre la variación explicada por las
diferencias entre grupos y la variación individual.

Los valores del cuerpo central de la tabla representan las puntuaciones obtenidas
por el sujeto "i" en el grupo "j". Por ejemplo, X32=14 simboliza que el sujeto número
tres del grupo 2 ha obtenido una puntuación igual a 14.

Las puntuaciones de cada grupo son una muestra de la población de pacientes a


los que se administra cada tratamiento (los del grupo 1, de la población a la que se
administra el tratamiento 1, los del grupo 2, de la población a la que se administra
el tratamiento 2, etc.). Las Medias de las poblaciones se simbolizan m1, m2, m3,
etc. Queremos saber si estas Medias son semejantes o diferentes a la finalización
del tratamiento, porque eso significaría que los tratamientos afectan de manera
diferente a los pacientes.

Consideremos la siguiente situación: Queremos comparar la efectividad de cuatro


tratamientos de la depresión, para lo que aplicamos los tratamientos a cuatro grupos
de pacientes seleccionados aleatoriamente. A finales del tratamiento recogemos los
datos, que son:
20.- Qué significa cuando F calculada es mayor que F de tablas?

F diferente para cada combinación de tamaño de muestra y número de muestras.


Por tanto, existe una distribución F que se aplica cuando se toman cinco muestras
de seis observaciones cada una, al igual que una distribución F diferente para cinco
muestras de siete observaciones cada una. A propósito de esto, el número
distribuciones de muestreo diferentes es tan grande que sería poco práctico hacer
una extensa tabulación de distribuciones. Por tanto, como se hizo en el caso de la
distribución t, solamente se tabulan los valores que más comúnmente se utilizan.
En el caso de la distribución F, los valores críticos para los niveles 0,05 y 0,01
generalmente se proporcionan para determinadas combinaciones de tamaños de
muestra y número de muestras.

También podría gustarte