Está en la página 1de 29

1

CONTENIDO
INTRODUCCIÓN 4
1. REGRESIÓN LINEAL 5
1.1 Regresión Lineal Simple 6
1.2 Estimación de parámetros 7
1.3 Prueba de significancia 9
1.4 Medidas de adecuación al modelo 11
1.5 Estimación de intervalo de predicción 15
1.6 Regresión lineal múltiple 16
1.7 Estimación de parámetros 16
1.8 Prueba de significancia 19
1.9 Medidas de adecuación al modelo 20
1.10 Estimación de intervalo de predicción 23
CONCLUSIONES 25
REFERENCIAS 29

Ilustración 1. Gráfica de residuos vs la variable independiente (X). 11


Ilustración 2. Error estándar. 14
Ilustración 3. Intervalos de confianza. 14
Ilustración 4. Limite superior e inferior del intervalo de confianza. 14
Ilustración 5. Residuos de tres modelos. 15
Ilustración 6. Residuos de una regresión cualquiera. 16

Ecuación 1. Ecuación general correspondiente a un modelo de regresión lineal. 6


Ecuación 2. Desajuste de estimación de parámetros. 7
Ecuación 3. Derivadas de desajuste de estimación de parámetros. 8
Ecuación 4. Ecuaciones normales para regresión lineal. 8
2
Ecuación 5. Despeje estimación de Parámetros. 8
Ecuación 6. Despeje estimación de Parámetros. 8
Ecuación 7. Función lineal (Prueba de significancia). 9
Ecuación 8. Error cuadrado medio. 10
Ecuación 9. Prueba de Hipótesis. 10
Ecuación 10. Prueba F. 11
Ecuación 11. Falta de ajuste. 13
Ecuación 12. Modelos lineales múltiples. 16
Ecuación 13. Vector de estimación de los coeficientes. 18
Ecuación 14. Máxima verosimilitud (ML). 18
Ecuación 15. Hipótesis nula y la alternativa de la prueba. 19
Ecuación 16. Hipótesis prueba Wald. 20
Ecuación 17. Hipótesis Prueba F. 20
Ecuación 18. Coeficiente de determinación (R^2) 21
Ecuación 19. Coeficiente de determinación ajustado (R^a2). 21
Ecuación 20. Forma funcional. 21

Tabla 1. Modelo de regresión. 21

3
INTRODUCCIÓN
Dentro de la gran cantidad de variables que existen, dos son las
fundamentales. En primer lugar, la variable independiente es aquella que se
manipula y pone a prueba en una investigación para corroborar la veracidad o
falsedad de una hipótesis. Específicamente, una variable es una cualidad, aspecto
o característica que afecta a otra variable. Como el nombre lo indica, es una
variable cuyos valores no se modifican durante la investigación.

En segundo lugar, una variable dependiente es aquella cualidad o


característica que se ve afectada como consecuencia de la manipulación de la
variable independiente. Estas son, precisamente, las variables que se miden para
interpretar los datos de una investigación. Por lo tanto, un diseño experimental
siempre se aplica en una investigación cuantitativa. El objetivo de la aplicación de
un diseño experimental es extraer conclusiones sobre un problema de
investigación estudiado bajo un marco conceptual determinado.

Un modelo de regresión es un modelo que permite describir cómo influye


una variable 𝑋 sobre otra variable 𝑌.

John Nelder y Robert Wedderburn formularon modelos lineales


generalizados como una forma de unificar otros modelos estadísticos, como la
regresión lineal, la regresión logística y la regresión de Poisson.

De acuerdo con Paladino (2017), los modelos lineales son una de las
herramientas más importantes del análisis cuantitativo. Los utilizamos cuando
queremos predecir –o explicar– una variable dependiente a partir de una o más
variables independientes. El uso mismo de la terminología de variables
dependientes e independientes nos da una pista del abordaje: el ajuste de
modelos lineales busca encontrar una función –en el sentido matemático– que nos
permite expresar a una variable a partir de otras.

Por otra parte, Velásquez L. y Velásquez B. en 2018 declaran que


“Llamamos Modelos Lineales a aquellas situaciones que después de haber sido
analizadas Matemáticamente, se representan por medio de una función lineal, los

4
cuales son lineales en los parámetros desconocidos e incluyen un componente de
error. El componente de error es el que los convierte en Modelos Estadísticos.
Estos modelos son la base de la metodología que usualmente llamamos
Regresión Múltiple. Por esta razón el manejo de los Modelos Lineales es
indispensable para comprender y aplicar correctamente los Métodos Estadísticos.”
(p. 14)

La diferencia fundamental entre las regresiones lineal y no lineal, y la base


para los nombres de los análisis, son las formas funcionales aceptables del
modelo. Específicamente, la regresión lineal requiere parámetros lineales mientras
que la no lineal no. (Editor, 2019)

1. REGRESIÓN LINEAL
Algunos problemas básicos que suelen presentarse en la investigación
científica son los siguientes:

● Ordenación de la información. (Estadística descriptiva)


● Búsqueda de un modelo que explique el comportamiento de una variable.
(Probabilidad e inferencia)
● Análisis de la veracidad de una conjetura. (Inferencia)
● Estudio de la relación causal entre distintas variables. (Análisis de la
varianza, Diseño de Experimentos y Regresión)

La regresión lineal es una técnica de modelado estadístico que se emplea


para describir una variable de respuesta continua como una función de una o
varias variables predictoras. Puede ayudar a comprender y predecir el
comportamiento de sistemas complejos o a analizar datos experimentales,
financieros y biológicos.

Se denomina regresión lineal cuando la función es lineal, es decir, requiere


la determinación de dos parámetros: la pendiente y la ordenada en el origen de la
recta de regresión, 𝑦 = 𝑎𝑥 + 𝑏.

5
Las técnicas de regresión lineal permiten crear un modelo lineal. Este
modelo describe la relación entre una variable dependiente 𝑦 (también conocida
como la respuesta) como una función de una o varias variables independientes 𝑋𝑖

 (denominadas predictores). La ecuación general correspondiente a un modelo de


regresión lineal es:

Ecuación 1. Ecuación general correspondiente a un modelo de regresión lineal.

1.1 Regresión Lineal Simple

Llamaremos MODELO MATEMÁTICO a la función matemática que


proponemos como forma de relación entre la variable dependiente (Y) y la o las
variables independientes.

El modelo de regresión lineal simple permite explicar la relación entre dos


variables.

Para Velásquez L. y Velásquez B. (2018) “El objetivo es explicar el


comportamiento de una variable “y”, que denominaremos variable explicada
(dependiente, endógena o respuesta), a partir de otra variable “x”, que llamaremos
variable explicativa (independiente o exógena)”

Además, señalan que “Mediante la Regresión Lineal Simple, se busca


hallar la línea recta que mejor explica la relación entre una variable independiente
y una variable dependiente. Se trata de cuantificar cuánto varía la variable
respuesta con cada cambio en la variable independiente. Cuando sólo se incluye
en el modelo una variable independiente se habla de Regresión Lineal Simple. En
los modelos de Regresión Lineal Simple la variable dependiente será siempre
cuantitativa.” (p. 23)

6
1.2 Estimación de parámetros

Los parámetros, β0 y β1, del modelo se estiman por los estadísticos


muestrales b0 y b1, los cuales se calculan usando el método de mínimos
cuadrados. En la regresión lineal simple, la gráfica de la ecuación
de regresión se llama línea de regresión estimada, ŷ es el valor estimado de 𝑦
para un valor específico de 𝑥.

Szretter (2017) considera que los coeficientes del modelo se estiman a


^
partir de la muestra aleatoria de 𝑛 observaciones (𝑋𝑖, 𝑌𝑖) con 1 ≤ 𝑖 ≤ 𝑛. Llamando β
^ ^ ^
0 y β1 a los estimadores de β0 y β1. Los valores β0 y β1 corresponderán a la recta de
^ ^
ordenada al origen β0 y pendiente β1 que “mejor ajuste” a los datos (𝑋𝑖, 𝑌𝑖),. . .,

(𝑋𝑛, 𝑌𝑛) observados. Para encontrarlos, se deberá dar una noción de bondad de

ajuste de una recta cualquiera con ordenada al origen 𝑎 y pendiente 𝑏 a nuestros


datos. Tomando las distancias verticales entre los puntos observados (𝑋𝑖, 𝑌𝑖) y los

puntos que están sobre la recta 𝑦 = 𝑎 + 𝑏𝑥, que están dados por los pares
(𝑋𝑖, 𝑎 + 𝑏𝑋𝑖). La distancia entre ambos es 𝑌𝑖 − (𝑎 + 𝑏𝑋𝑖).Tomando como función

que mide el desajuste de la recta a los datos a

Ecuación 2. Desajuste de estimación de parámetros.

𝑛
(
𝑔(𝑎, 𝑏) = ∑ (𝑌𝑖 − 𝑎 + 𝑏𝑋𝑖 ) ,
𝑖=1
)2

Es decir, la suma de los cuadrados de las distancias entre cada


observación y el valor que la recta candidata 𝑦 = 𝑎 + 𝑏𝑥 propone para ajustar
dicha observación. Esta expresión puede pensarse como una función 𝑔 que
depende de 𝑎 y 𝑏, y que toma a los valores (𝑋𝑖, 𝑌𝑖),. . ., 𝑋𝑛, 𝑌𝑛 como números ( )
fijos. Cuánto más cerca esté la recta de ordenada al origen 𝑎 y pendiente 𝑏, menor
será el valor de 𝑔 evaluado en el par (𝑎, 𝑏). Los estimadores de mínimos
cuadrados de β0 y β1 serán los valores de 𝑎 y 𝑏 que minimicen la función 𝑔. Para

7
encontrarlos, derivamos esta función con respecto a 𝑎 y 𝑏 y luego buscamos los
^ ^
valores β0 y β1 que anulan sus derivadas. Sus derivadas son

Ecuación 3. Derivadas de desajuste de estimación de parámetros.

^ ^
Las igualamos a cero para encontrar β0 y β1, sus puntos críticos. Obtenemos

Ecuación 4. Ecuaciones normales para regresión lineal.

Las dos ecuaciones anteriores se denominan las ecuaciones normales para


regresión lineal. Despejamos de ellas las estimaciones de los parámetros que
resultan ser

Ecuación 5. Despeje estimación de Parámetros.

La pendiente estimada también se puede escribir de la siguiente forma

Ecuación 6. Despeje estimación de Parámetros.

8
Es decir, el cociente entre la covarianza muestral y la varianza muestral de
las 𝑋'𝑠. Por supuesto, un estudio de las segundas derivadas mostrará que este
^ ^
procedimiento, hace que el par β0 y β1 no sea sólo un punto crítico, sino también un
^ ^
mínimo. Afortunadamente, en la práctica, los cálculos para hallar a β0 y β1 son
realizados por un paquete estadístico. (p.38-40)

1.3 Prueba de significancia


Las pruebas de significación estadística sirven para comparar variables
entre distintas muestras. Si la distribución de la muestra es normal se aplican los
llamados tests paramétricos. Si la distribución no puede asumirse normal se
aplican las pruebas no paramétricas.

Cardona, González, Rivera y Cárdenas (2013) consideran que la ecuación de


regresión lineal simple indica que el valor medio esperado de 𝑦 es una función
lineal de 𝑥:

Ecuación 7. Función lineal (Prueba de significancia).

𝐸(𝑦) = α + β𝑥 (18)

Si β = 0, entonces 𝐸(𝑦) = 𝑎. En este caso el valor medio de 𝑦 no depende


del valor de 𝑥 y se concluye que no existe relación lineal entre las variables. En
forma análoga, si el valor de β no es igual a cero, se concluye que las dos
variables se relacionan. Así, para probar si hay alguna relación importante de
regresión debemos efectuar una prueba de hipótesis para determinar si el valor de
β es cero. Existen dos pruebas que se usan con más frecuencia y para ellas se
necesita un estimado de la varianza del error en el modelo de regresión. (p.

2
● Estimado de σ

La varianza de ϵ también representa la varianza de los valores de y


respecto a la línea de regresión. Así, la suma de los residuales al cuadrado, SSE,
es una medida de la variabilidad de las observaciones reales respecto a la línea
de regresión. Cada suma de cuadrados tiene asociado un número que llamamos

9
grados de libertad. Se ha demostrado que SSE tiene 𝑛 – 2 grados de libertad,
porque se deben estimar dos parámetros α y β.

2 2
El error cuadrado medio (𝑠 ) es el estimado de σ . Se calcula mediante la
ecuación:

Ecuación 8. Error cuadrado medio.

2 𝑆𝑆𝐸
𝑠 = 𝑛−2

Prueba T

En el modelo de regresión lineal, si las variables tienen una relación lineal,


debe suceder que β≠0. El objetivo de la prueba t es ver si se puede concluir que
β≠0. Se usan los datos de la muestra para probar las siguientes hipótesis:

Ecuación 9. Prueba de Hipótesis.

𝐻0 : β = 0

𝐻𝑎 : β ≠ 0

Si se rechaza 𝐻0 la conclusión será que β≠0 y que hay una relación

estadísticamente significativa entre las dos variables. En este caso, las


propiedades de la distribución de b, el estimador de β por mínimos cuadrados, son
la base de esta prueba de hipótesis.

● Prueba F

También se puede usar una prueba basada en la distribución F de probabilidades,


para probar si la regresión es significativa. Como solo hay una variable
independiente, la prueba F debe indicar la misma conclusión que la prueba t, pero
cuando hay más de una variable independiente solo se puede usar la prueba F.
(Miller, 2000)

Pasos de la prueba:

𝐻0 : β = 0
𝐻𝑎 : β ≠ 0

10
Ecuación 10. Prueba F.

𝑆𝑆𝑅
𝐹 = 2
𝑠

Rechazar 𝐻0 si 𝐹 > 𝐹α

En donde 𝐹α se basa en una distribución 𝐹 con un grado de libertad en el


numerador y 𝑛 − 2 grados de libertad en el denominador.

1.4 Medidas de adecuación al modelo


La regresión lineal calcula una ecuación que minimiza la distancia entre la
línea ajustada y todos los puntos de los datos. Técnicamente, la regresión de
mínimos cuadrados ordinarios (MCO) minimiza la suma de los residuos al
cuadrado. (Editor, 2019)

En general, un modelo se ajusta bien a los datos si las diferencias entre los
valores observados y los valores de predicción del modelo son pequeñas y no
presentan sesgo.

Antes de examinar las medidas estadísticas de bondad de ajuste, se


recomienda revisar las gráficas de residuos. Las gráficas de residuos pueden
revelar patrones no deseados de residuos que indican sesgo en los resultados de
una manera más efectiva que los números. Cuando las gráficas de residuos pasan
la revisión, se puede confiar en los resultados numéricos y verificar la bondad de
ajuste estadística.

● Análisis residual. (HORTA GONZALEZ, 2009)

Análisis de residuos.

^
𝑒1 = 𝑌𝑖 − 𝑌𝑖

En regresión se supone que los errores ε𝑖

o Son independientes
o Tienen una media igual a 0
o Tienen la misma varianza σ𝑒2

11
o Tienen una distribución Normal

El análisis de residuos nos permite determinar si estas suposiciones se cumplan,


ya que de lo contrario los resultados obtenidos podrían no ser válidos.

Gráficas para el análisis de residuos.

Ilustración 1. Gráfica de residuos vs la variable independiente (X).

Gráfica de probabilidad Normal


● Eje vertical- residuos o valores observados de Y (ordenados de menor a
mayor).
● Eje horizontal- “normal scores”
Para calcular los “normal scores” se divide el área bajo la curva Normal en
n partes de áreas iguales. Las coordenadas de la mediana de cada
intervalo en el eje horizontal son los “Normal scores”. El “Normal score” del
intervalo i corresponde al valor de Z que tiene un área de (2i-1) /(2n) a su
izquierda.
● Coordenadas (X, Y) del punto i –
(“Normal score” del intervalo i,𝑒𝑖(𝑜 𝑌𝑖 )luego ordenados),

Si los residuos (o las Y) tienen una distribución normal entonces los puntos de la
gráfica deben caer aproximadamente en una linea recta con intercepto 0 (o 𝑌)y

dependiente 𝑀𝑆𝐸 (desviación estándar del error).

FALTA DE AJUSTE  

12
La falta de ajuste o prueba de la “bondad de ajuste'' del modelo de
regresión se expresa mediante las siguientes tres hipótesis equivalentes:

(1) EL MODELO DE REGRESIÓN SIMPLE ES CORRECTO

EL MODELO DE REGRESIÓN SIMPLE NO ES CORRECTO

(2) NO HAY FALTA DE AJUSTE

HAY FALTA DE AJUSTE

(3)

¿Qué se requiere para la aplicación de esta prueba?

Los siguientes supuestos sobre la variable error se han cumplido:

La normalidad, independencia y homogeneidad de varianza

Se tiene duda de:

El ajuste a una línea recta

Existan:

Varias observaciones de la variable repuesta para al menos un valor de .

¿Cuál es la estadística de prueba para probar la hipótesis de falta de ajuste?

La estadística de prueba es

Ecuación 11. Falta de ajuste.

𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝑝𝑢𝑟𝑜 𝑆𝐶𝐸𝑟𝑟𝑜𝑟 𝑝𝑢𝑟𝑜|𝑚−2


𝐹= 𝐶𝑀𝐹𝑎𝑙𝑡𝑎 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒
= 𝑆𝐶𝐹𝑎𝑙𝑡𝑎 𝑑𝑒 𝑎𝑗𝑢𝑠𝑡𝑒|𝑛−𝑚

Donde:

13
media de las respuestas en el valor de

respuesta observada

valor estimado de la respuesta para el valor de

en el valor

Si el valor calculado de la estadística es:

1. Significante . Esto indica que el modelo aparentemente es


inadecuado. Entonces se debe intentar descubrir dónde y cómo ocurre esta.

2. No significante . Esto indica que aparentemente no existe


razón para dudar de la adecuación del modelo bajo esta prueba y tanto los
cuadrados medios de la falta de juste y el error puro pueden tomarse como

estimados de .

La falta de ajuste suele utilizarse en diseño experimental cuando los niveles


de factor de estudio son cuantitativos.

Nota:

Idealmente podemos encontrar que la prueba para falta de ajuste es no

significativa, y la hipótesis de significancia de la regresión es


rechazada. Desafortunadamente esto no garantiza que el modelo será
satisfactorio como ecuación de predicción.

14
1.5 Estimación de intervalo de predicción
La estimación por intervalos consiste en establecer el intervalo de valores
donde es más probable se encuentre el parámetro.

Guerrero (2017) señala que “en estadística, la probabilidad que asociamos


con una estimación de intervalo se conoce como el nivel de confianza. Esta
probabilidad nos indica que tanta confianza tenemos en que la estimación del
intervalo incluya al parámetro de la población. Una probabilidad más alta significa
más confianza. “

El intervalo de confianza es el alcance de la estimación que estamos


haciendo, pero a menudo hacemos el intervalo de confianza en términos de
errores estándar, para esto debemos calcular el error estándar de la media así:

Ilustración 2. Error estándar.

Con frecuencia expresaremos los intervalos de confianza de esta forma:

Ilustración 3. Intervalos de confianza.

En la que

Ilustración 4. Limite superior e inferior del intervalo de confianza.

15
1.6 Regresión lineal múltiple
Un modelo de regresión lineal múltiple es un modelo estadístico versátil
para evaluar las relaciones entre un destino continuo y los predictores. Los
predictores pueden ser campos continuos, categóricos o derivados, de modo que
las relaciones no lineales también estén soportadas.

Rodrigo (2016) estipula que “la regresión lineal múltiple permite generar un
modelo lineal en el que el valor de la variable dependiente o respuesta (𝑌) se
determina a partir de un conjunto de variables independientes llamadas
predictores (𝑋1,  𝑋2,  𝑋3…). Es una extensión de la regresión lineal simple, por lo
que es fundamental comprender esta última. Los modelos de regresión múltiple
pueden emplearse para predecir el valor de la variable dependiente o para evaluar
la influencia que tienen los predictores sobre ella (esto último se debe que analizar
con cautela para no malinterpretar causa-efecto).”

Los modelos lineales múltiples siguen la siguiente ecuación:

Ecuación 12. Modelos lineales múltiples.

● β0: es la ordenada en el origen, el valor de la variable


dependiente YY cuando todos los predictores son cero.

● β𝑖: es el efecto promedio que tiene el incremento en una unidad de la


variable predictora XiXi sobre la variable dependiente YY, manteniéndose
constantes el resto de variables. Se conocen como coeficientes parciales
de regresión.

● 𝑒𝑖: es el residuo o error, la diferencia entre el valor observado y el estimado

por el modelo.

1.7 Estimación de parámetros


De acuerdo a Montero (2016) para que los resultados de la regresión sean
“confiables” (confiable es una forma coloquial de referirse a: insesgados, es decir
16
que sus resultados sean parecidos a los reales; y óptimos, es decir que su
varianza sea mínima) es necesario que:

a) La relación entre las variables sea lineal. Ser lineal no significa que
forzosamente tenga que ser una línea recta sino también que pueda ser
lineal con alguna transformación.
b) Las perturbaciones (es decir los efectos provocados aleatoriamente o
por variables no incluidas en el modelo) deben ser: de media cero,
homocedásticas y no auto correlacionadas. Se suelen resumir estos
bajo la denominación de “esfericidad” de los residuos.

Por ejemplo, si los siguientes gráficos son los residuos de tres modelos el modelo
a no tiene residuos de media cero (aunque parece homocedásticos), los residuos
del modelo b son, además, heterocedásticos y ambos parecen muy
autocorrelacionados (un valor parece depender del valor anterior). Solo el modelo
“normal” tiene unos residuos centrados en 0 (E (u) = 0), no parecen abrirse o
cerrarse (son homocedásticos) y no tienen tendencia (no están
autocorrelacionados).

Ilustración 5. Residuos de tres modelos.

Aunque digan que una imagen vale más que mil palabras, en estadística esto no
siempre se cumple. El análisis gráfico casi nunca es tan explícito en la vida real.
En el caso de la base de Satisfacción si graficamos los residuos de una regresión
cualquiera... regress estasalud edad.

17
Ilustración 6. Residuos de una regresión cualquiera.

El resultado no es siempre igual a la teoría. No es evidente que no haya


tendencia, ni qué pueden implicar las distintas bandas. Aunque parece no se
puede afirmar rotundamente si hay o no esfericidad.

El software dice que tiene dos formas de estimación de una regresión lineal. Un
primero por mínimos cuadrados ordinarios (MCO), que consiste en resolver la
ecuación:

Ecuación 13. Vector de estimación de los coeficientes.


^ −1
𝑏 = (𝑋´𝑋) 𝑋´𝑦

^
Donde 𝑏 es el vector de estimación de los coeficientes, y es el vector de las
dependientes 𝑋 es la matriz de variables dependientes y 𝑋’ es la traspuesta de 𝑋

Y un segundo mediante máxima verosimilitud (ML). Que consiste en


maximizar la ecuación:

Ecuación 14. Máxima verosimilitud (ML).

ln 𝑙𝑛 𝐿 (𝑌) =−
𝑛
2 ( 2)
ln 𝑙𝑛 2π −
𝑛
2
2
ln 𝑙𝑛 (2σ −
(𝑌−𝑋β)´(𝑌−𝑋β)

2

Derivando respecto de β y de σ e igualando a 0. Ambos procedimientos


llevan a los mismos resultados (la práctica totalidad de las veces) pero hay
ocasiones en que, por repugnantes e inexpugnables problemas matemáticos, no
es posible resolver el sistema por MCO y debe resolverse por máxima
verosimilitud.

18
La ventaja de resolver por MCO es que obtenemos medidas de ajuste
2 ^2
confiables (𝑅 y 𝑅 ). Por ML no podemos obtener (en la mayoría de los casos) una
2
𝑅 pero podemos obtener otras medidas de ajuste como el Criterio de información
bayesiano (BIC) y el de Akaique (AIC) (en ambos casos cuanto más pequeños
mejor). (p.45)

1.8 Prueba de significancia


Prueba de significancia individual.
La primera prueba es la ya mencionada prueba de hipótesis para la
verificación de la significancia individual de los coeficientes cada uno por aparte.

Los parámetros β0, β1, β2, …. β𝑘 puede ser o no significativos dentro del

modelo. La prueba de la significancia individual para cada parámetro es una


prueba de hipótesis que se puede realizar mediante la prueba t-student o por el
método estadístico del valor -p.

La hipótesis nula y la alternativa de la prueba son:

Ecuación 15. Hipótesis nula y la alternativa de la prueba.

{𝐻0: β𝑗 = 0 𝐻1=β𝑗≠0

En el caso en que haya evidencia suficiente para rechazar la hipótesis nula,


el coeficiente β es significativo, en cuyo caso se interpreta. Este caso se presenta
cuando se tiene un |t| superior a un 𝑡 con α/2 grados de libertad, rechazando
entonces H0. De igual manera, si se contrasta el valor –p asociado al coeficiente y
se rencuentra que este es inferior al valor de significancia α, el resultado es el
mismo, rechazando la hipótesis nula. La significancia de los coeficientes depende
del nivel de confianza al que se haya rechazado la hipótesis: 90%, 95% o 99% (*,
**, ***). Es importante tener en cuenta el criterio estadístico según el cual se debe
rechazar la hipótesis al nivel de significancia más alto posible, y no rechazar al
nivel de significancia menor posible para poder concluir de una manera más
acertada.

Pruebas de significancia conjunta y global.


19
Es de suma importancia realizar también una prueba de significancia
conjunta de los β´s de nominada prueba Wald, que tiene por hipótesis las
siguientes:

Ecuación 16. Hipótesis prueba Wald.

𝐻0: β0 = β1 =... = β𝑘

𝐻1: 𝑁𝑜𝐻1

Con los mismos criterios estadísticos ya mencionados, se rechaza o no la


hipótesis nula concluyendo de esta manera sobre la significancia conjunta de
todos los coeficientes del modelo. Esta prueba de hipótesis permite verificar pues
que existe una significancia agregada entre todos los β ‘s. Otra prueba es la de
significancia global, la cual se denomina también prueba F que tiene como
hipótesis las siguientes:

Ecuación 17. Hipótesis Prueba F.

𝐻0: β1 =... = β𝑘

𝐻1: 𝑁𝑜𝐻0

Se utiliza en este caso el valor –p asociado al estadístico F arrojado por la


tabla ANOVA del modelo, permitiendo rechazar o no la hipótesis 𝐻𝑜 y concluir.

1.9 Medidas de adecuación al modelo


“La validación del modelo es parte importante del proceso de construcción
del modelo de regresión lineal múltiple. El que un modelo sea significativo no
necesariamente implica que sea bueno en términos de que explique la variación
de los datos. Por ello es importante tener medidas adicionales.” (Montero
Granados, 2016)

2
Coeficiente de determinación (𝑅 )

Ecuación 18. Coeficiente de determinación (R^2)

2 𝑆𝐶𝐸
𝑅 = 1∙ 𝑆𝐶𝑇

𝑎2
Coeficiente de determinación ajustado (𝑅 )

20
Ecuación 19. Coeficiente de determinación ajustado (R^a2).

𝑎2 𝐶𝑀𝐸
𝑅 = 1∙ 𝐶𝑀𝑇

NOTA:

Para hablar de un modelo que tiene un ajuste satisfactorio es necesario que


ambos coeficientes sean mayores a 0.70

´𝑦 = 0. 58 + 2. 7122𝑥1 + 2. 0497𝑥2

99. 97%
En el modelo de regresión lineal múltiple suponemos que más de una variable
tiene influencia o está correlacionada con el valor de una tercera variable. Por
ejemplo, en el peso de una persona pueden influir edad, género y estatura, en la
renta pueden influir trabajo, capital físico, conocimientos, etc. En el modelo de
regresión lineal múltiple esperamos que los sucesos tengan una forma funcional
como

Ecuación 20. Forma funcional.

𝑦𝑗 = 𝑏𝑜 + 𝑏1𝑥1𝑗 + 𝑏2𝑥2𝑗 + ⋯ + 𝑏𝑘𝑥𝑘𝑗 + 𝑢𝑗

donde y es la variable endógena, x las variables exógenas, u los residuos y b los


coeficientes estimados del efecto marginal entre cada x e y.

Tipos de variables

En regresión lineal múltiple sólo suele haber una variable endógena y


puede haber varias variables exógenas. Es decir, se individualiza el fenómeno
observado. También puede darse el caso de la existencia de varias variables
endógenas, pero su solución es difícil por lo que no es el caso general.

Dichas variables (tanto endógenas como exógenas) pueden adoptar dos


formas generales:

Continuas:

Las variables continuas son aquellas que llenan el espacio. Son números
reales y servirán incluso cuando su rango no sea desde − ∞ hasta + ∞. Suelen

21
ser variables cuantitativas (como el peso o la edad) pero también pueden ser
consideradas continuas variables cualitativas cuando pueden ordenarse y tienen
un número no bajo de elementos. Todas las variables de recuento siempre que su
rango sea alto podrían considerarse como continuas. Dentro de las variables
continuas tienen especial relevancia las conocidas como porcentajes.

Discretas:

Las variables discretas son aquellas que se mueven “a saltos”. Además de


las variables de recuento suelen ser factores cualitativos que indican alguna
característica del individuo. Si las características son sólo dos se suelen llamar
dicotómicas (género, bebedor…). Si son más de dos se suelen denominar
simplemente factor.

El tipo de variable es más importante si afecta a la variable endógena


(porque nos obligará a utilizar uno u otro modelo de regresión) pero no es tan
importante si 8 afecta a la variable exógena. No obstante, a las variables
exógenas factor y ordenadas también se les puede extraes más contenido
informativo si se las transforma en dummies. En el primer caso tenemos que para
cada tipo de variable hay un modelo de regresión completamente distinto:

Tabla 1. Modelo de regresión.

Tipo de Variable Modelo


Continua Lineal
Dicotómica Logit o probit
Recuenta Poison o Binomial
Factor ordenado Logit o probit Ordenada
Factor Logit o probit Multinomial
Porcentaje Regresión fraccional
Sin embargo, en el caso de las variables exógenas la distinta forma sólo
exigirá una distinta interpretación de forma que basta con saber cómo están
codificadas para interpretar los coeficientes estimados y demás parámetros.

22
1.10 Estimación de intervalo de predicción
La regresión lineal múltiple representa una extensión de la regresión lineal
simple en la que podemos incluir más de un predictor a la vez. En el caso de
contar con más de una variable predictora, podríamos pensar en que una opción
sería ajustar un modelo de regresión a cada uno por separado. Sin embargo, este
enfoque puede no llegar a resultar del todo satisfactorio, ya que cada ecuación de
regresión estaría ignorando las demás a la hora de estimar los coeficientes de
regresión. Además, si se diera que los predictores estuvieran correlacionados
entre sí ello podría llevar a estimaciones erróneas haciendo el ajuste por
separado. Por tanto, una ventaja de la regresión lineal múltiple es que evalúa el
efecto de cada predictor en presencia del resto, evitando el fenómeno de
confusión que puede aparecer cuando la asociación observada entre un predictor
y la variable respuesta se explica por otra variable (factor de confusión) de manera
total o parcial.

Por tanto, en una ecuación de regresión lineal múltiple, se asociará cada


predictor (X1, X2, ..., Xp) un coeficiente βp que cuantificará la asociación entre el
predictor en cuestión y la variable respuesta 𝑌 = β0 + β1 + β2𝑋2 + … + β𝑝𝑋𝑝 + ∈

Dónde: βj = efecto medio que tiene sobre Y el incremento en una unidad de


Xj, manteniendo fijos el resto de predictores.

β0 = ordenada en el origen, valor esperado de Y cuando todos los


predictores son cero.

ϵ = residuo o error del modelo, diferencia entre lo observado y lo estimado.

ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN

Al igual que en el caso de regresión lineal simple, los verdaderos


coeficientes β0, β1, ..., βp son desconocidos, por lo que han de ser también
estimados. Una vez estimados, podemos llevar a cabo las predicciones con la
fórmula.

^ ^ ^ ^ ^
𝑦 = β0 + β1𝑥1 + β2𝑥2 + … + β𝑝𝑥𝑝
23
Al igual también que en la regresión lineal simple, se sigue el método de
mínimos cuadrados para estimar estos coeficientes.

𝑛 𝑛
^ 2 2
(
𝑅𝑆𝑆 = ∑ 𝑦𝑖 − 𝑦𝑖
𝑖=1
) ( ^ ^ ^
= ∑ 𝑦𝑖 − β0 − β1𝑥𝑖1 − β2𝑥𝑖2 − … − β𝑝𝑥𝑖𝑝
𝑖=1
^
)
Precisión de los coeficientes de regresión.

La imprecisión en los coeficientes de regresión estimados se relaciona con


el error reducible (bias del modelo), a diferencia del error irreducible o aleatorio ϵ
en el modelo, que se relaciona con el grado de incertidumbre asociado a cuánto
difiere cada punto individual de la verdadera recta de regresión, o lo que es lo
mismo, la diferencia entre lo observado y estimado por el modelo.

Error estándar (SE).

El error estándar se utiliza para estimar cómo de precisos son nuestros


estimadores de los coeficientes, y como, de media, difieren del valor de los
verdaderos valores de los parámetros β0...βj.

Intervalo de confianza y de predicción

Mediante el cálculo del intervalo de confianza podemos obtener una


estimación de qué exactitud tienen nuestros estimadores de los coeficientes, o el
intervalo para el valor medio de Y dado un valor de X.

Por otra parte, el intervalo de predicción es una estimación del intervalo en


el cual se encontrarán futuras observaciones, con una determinada probabilidad,
dado lo que ya ha sido observado

^ *
𝑦(𝑥 )±𝑡 𝑎 𝑆𝐸 ^ *
1− 2 ,𝑛−2 𝑦(𝑥 )

El intervalo de predicción es siempre más amplio que el de confianza, ya


que incorporan a la vez el error de la estimación y el error irreducible ϵ.

CONCLUSIONES
Alumno: Jostin Manuel Chi Uc

24
Con respecto a este tema sobre la regresión lineal simple y la múltiple logre
entender o captar de mejor forma lo que vendría siendo lo básico y fundamental
en las regresiones ya que gracias a esta actividad realizada pudimos investigar
más a fondo sobre este tema y a la vez sobre los múltiples subtemas que este
término abarcando llenando así esas pequeñas dudas que teníamos antes de
empezar esta actividad. También se logró distinguir por decirlo así, ciertas
diferencias y similitudes entre ambos temas porque aunque tenían los mismos
subtemas, de antemano sabíamos que no tendrían igual contenido. Cabe
mencionar, que igual fue de mucha ayuda el haber realizado este trabajo por
equipo, recopilando así, diferentes puntos de vista y opiniones, corrigiéndonos en
todo momento.

Alumno: Jared Moises Nah Yam

Gracias a todos estas variables podemos comprender mejor la estadística,


ya sea en el área que se aplique, estas pueden ser utilizadas dependiendo de qué
se necesite o que se esté buscando, estas nos sirven para poder lograr encontrar
un resultado bastante práctico y certero en el cuál no presente “fallas” para que así
se pueda aplicar de manera perfecta, cada una de estas contienen distintas
fórmulas y maneras en las que se expresan o se aplican, ya que no siempre serán
las mismas ecuaciones ni fórmulas. De igual manera se tiene que usar las tablas
que pueden ser T de student o variables z para que así los resultados que
obtenemos sean confiables, cómo pudimos observar en las distintas variables que
fuimos mencionando en este trabajo, la mejor manera de poder saber ya sean
muestras poblacionales, el color de pelo, las notas de un examen, el sexo o la
estatura de una persona, etc. Estas se pueden lograr a medir gracias a estas.

De igual manera existe más información a la cuál ni fue profundizada pero es


bastante conveniente que se pueda saber más sobre ello para así llegar a
aplicarlos de manera correcta en lo que se necesite y para que no exista falla
alguna en el momento de aplicación.

Alumno: Eddie Emmanuel Gil Aguirre

25
La regresión lineal, analiza la relación de dos o más variables continuas, la
finalidad de una ecuación dela regresión es la de estimar los valores de una
variable con base en los valores conocidos de la otra. Su mismo modo, una
ecuación de regresión explica los valores de una variable en términos de otra. Es
decir, se puede saber una relación de causa y efecto entre dos o más variables

Cuando se habla de regresión lineal múltiple se refiere a una variable


dependiente ya sea dos o más variables independientes como se presentó
anteriormentemente, en uno de los problemas al analizar los datos nos dimos
cuenta que los puntos (datos del problema) están muy cerca de la tendencia lineal,
esto quiere decir, que si existe una relación entre estas variables, y más al analizar
el coeficiente de determinación nos comprueba que el análisis esta acertado.

Mientras que el modelo de Regresión Lineal Simple nos permite explicar “y”
en términos de “x”.Si tenemos: Y= B0 + B1X + U

Linealidad en las variables es cuando en beta esta elevada a un exponente


diferente a 1 y linealidad en los parámetros es cuando un cambio unitario en “x”
tiene el mismo efecto sobre "y" con independencia del valor inicial de “x”.

Alumno: Gregorio Lisandro Ciau Nahuat

Tras finalizar la investigación, se lograron identificar y analizar las


principales características de los subtemas de la regresión lineal simple e la
regresión lineal múltiple, como estas intervienen en el proceso del ámbito de la
ecología como se propone en nuestra ingeniería, pues como objetivo clave el
análisis de este tema, depende de anteriores aprendizajes de estadística, pues tal
análisis es el estimar o predecir la medida de promedio de las variables a estudiar.
Pues en la investigación, sus definiciones, sus métodos, formulas y cualquier
forma para el análisis de los datos a estudiar, pues al leer detenidamente cada
subtema de la investigación tienen una correlación pues entre los dos uno se
utiliza para la solución de una problemática con un resultado mientras que el otro
se requiere de varios resultados para su aplicación, el tema investigado ha
demostrado ser una de suma importancia durante el desarrollo académico y de

26
factor laboral a futuro, para finalizar se puede destacar que las diferentes técnicas
de la regresión se relacionan estadísticamente, por tanto esto se da entre dos o
más variables, por tal como se dicta en la investigación la regresión lineal se
asociación entre una variable dependiente y una variable independiente
manifestando los términos de la pendiente y la interacción de la línea que mejor
se ajusten a las variables de las problemáticas que se estudiara durante la
unidad.

Alumno: Juan Jose Canche Dzul

Tras la indagación del tema de regresión lineal simple y múltiple se


contextualizo en breve que existen diferencias para cada tipo de regresión, de
igual manera se analizó que el uso de la regresión es por algunas razones como;
predecir condiciones, tendencias o valores económicos futuros, ayuda a
determinar la relación entre dos o más variables o por la comprensibilidad de
cambios de una variable cuando cambia otra.

Por otra parte, se entendió que el análisis de regresión es un método


estadístico común utilizado en finanzas e inversiones como en otras ciencias o
áreas. Sin embargo, la regresión lineal es una de las técnicas más comunes para
el análisis de regresión, en cambio, la regresión múltiple es una clase de regresión
más amplia que incluye regresiones lineales y no lineales con múltiples variables
explicativas. Al indagar hemos comprendido lo básico para el uso e importancia de
las regresiones simples y múltiples

Alumna: Nelly Jaziel Garrido Chan


Gracias a realizar esta conclusión puedo concluir que:
● La regresión es una técnica estadística utilizada para simular la relación
existente entre dos o más variables. Por lo tanto se puede emplear para
construir un modelo que permita predecir el comportamiento de una
variable dada.
● El análisis de la regresión lineal se utiliza para predecir el valor de una
variable según el valor de otra. La variable que desea predecir se denomina

27
variable dependiente. La variable que está utilizando para predecir el valor
de la otra variable se denomina variable independiente.
● Este método es aplicable en muchas situaciones en las que se estudia la
relación entre dos o más variables o predecir un comportamiento, algunas
incluso sin relación con la tecnología. En caso de que no se pueda aplicar
un modelo de regresión a un estudio, se dice que no hay correlación entre
las variables estudiadas.
● Los modelos con un predictor se denominan regresión simple. Los modelos
con más de un predictor se conocen como regresión lineal múltiple.
● Las variables en un estudio de investigación constituyen todo aquello que
se mide, la información que se colecta o los datos que se recaban con la
finalidad de responder las preguntas de investigación, las cuales se
especifican en los objetivos.

28
REFERENCIAS
Cardona Madariaga, D. F., González Rodríguez, J. L., Rivera Lozano, M.,
Cárdenas Vallejo, E. (Noviembre de 2013). Inferencia estadística Módulo de
regresión lineal simple.

Editor, M. B. (18 de Abril de 2019). Minitab. Obtenido de Análisis de Regresión:


¿Cómo Puedo Interpretar el R-cuadrado y Evaluar la Bondad de Ajuste?:
https://blog.minitab.com/es/analisis-de-regresion-como-puedo-interpretar-el-
r-cuadrado-y-evaluar-la-bondad-de-ajuste

GUERRERO, A. S. (2017). Estadística Superior.

HORTA GONZALEZ, R. J. (Agosto de 2009). INSTITUTO TECNOLOGICO


SUPERIOR DE CALKINI.

Montero Granados, R. (2016). Modelos de regresión lineal múltiple. Universidad de


Granada., España .

Paladino, M. (4 de Abril de 2017). Modelo lineales con R.

Szretter Noste, M. E. (Agosto - Octubre de 2017). Apunte de Regresión Lineal.


Buenos Aires, Argentina.

VELÁSQUEZ LÓPEZ, O. Y. VELÁSQUEZ BONILLA, M. E. (DICIEMBRE de 2008).


“MODELOS LINEALES Y ALGUNAS APLICACIONES”. SAN MIGUEL, EL
SALVADOR, CENTROAMÉRICA.

29

También podría gustarte