Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CONTENIDO
INTRODUCCIÓN 4
1. REGRESIÓN LINEAL 5
1.1 Regresión Lineal Simple 6
1.2 Estimación de parámetros 7
1.3 Prueba de significancia 9
1.4 Medidas de adecuación al modelo 11
1.5 Estimación de intervalo de predicción 15
1.6 Regresión lineal múltiple 16
1.7 Estimación de parámetros 16
1.8 Prueba de significancia 19
1.9 Medidas de adecuación al modelo 20
1.10 Estimación de intervalo de predicción 23
CONCLUSIONES 25
REFERENCIAS 29
3
INTRODUCCIÓN
Dentro de la gran cantidad de variables que existen, dos son las
fundamentales. En primer lugar, la variable independiente es aquella que se
manipula y pone a prueba en una investigación para corroborar la veracidad o
falsedad de una hipótesis. Específicamente, una variable es una cualidad, aspecto
o característica que afecta a otra variable. Como el nombre lo indica, es una
variable cuyos valores no se modifican durante la investigación.
De acuerdo con Paladino (2017), los modelos lineales son una de las
herramientas más importantes del análisis cuantitativo. Los utilizamos cuando
queremos predecir –o explicar– una variable dependiente a partir de una o más
variables independientes. El uso mismo de la terminología de variables
dependientes e independientes nos da una pista del abordaje: el ajuste de
modelos lineales busca encontrar una función –en el sentido matemático– que nos
permite expresar a una variable a partir de otras.
4
cuales son lineales en los parámetros desconocidos e incluyen un componente de
error. El componente de error es el que los convierte en Modelos Estadísticos.
Estos modelos son la base de la metodología que usualmente llamamos
Regresión Múltiple. Por esta razón el manejo de los Modelos Lineales es
indispensable para comprender y aplicar correctamente los Métodos Estadísticos.”
(p. 14)
1. REGRESIÓN LINEAL
Algunos problemas básicos que suelen presentarse en la investigación
científica son los siguientes:
5
Las técnicas de regresión lineal permiten crear un modelo lineal. Este
modelo describe la relación entre una variable dependiente 𝑦 (también conocida
como la respuesta) como una función de una o varias variables independientes 𝑋𝑖
6
1.2 Estimación de parámetros
(𝑋𝑛, 𝑌𝑛) observados. Para encontrarlos, se deberá dar una noción de bondad de
puntos que están sobre la recta 𝑦 = 𝑎 + 𝑏𝑥, que están dados por los pares
(𝑋𝑖, 𝑎 + 𝑏𝑋𝑖). La distancia entre ambos es 𝑌𝑖 − (𝑎 + 𝑏𝑋𝑖).Tomando como función
𝑛
(
𝑔(𝑎, 𝑏) = ∑ (𝑌𝑖 − 𝑎 + 𝑏𝑋𝑖 ) ,
𝑖=1
)2
7
encontrarlos, derivamos esta función con respecto a 𝑎 y 𝑏 y luego buscamos los
^ ^
valores β0 y β1 que anulan sus derivadas. Sus derivadas son
^ ^
Las igualamos a cero para encontrar β0 y β1, sus puntos críticos. Obtenemos
8
Es decir, el cociente entre la covarianza muestral y la varianza muestral de
las 𝑋'𝑠. Por supuesto, un estudio de las segundas derivadas mostrará que este
^ ^
procedimiento, hace que el par β0 y β1 no sea sólo un punto crítico, sino también un
^ ^
mínimo. Afortunadamente, en la práctica, los cálculos para hallar a β0 y β1 son
realizados por un paquete estadístico. (p.38-40)
𝐸(𝑦) = α + β𝑥 (18)
2
● Estimado de σ
9
grados de libertad. Se ha demostrado que SSE tiene 𝑛 – 2 grados de libertad,
porque se deben estimar dos parámetros α y β.
2 2
El error cuadrado medio (𝑠 ) es el estimado de σ . Se calcula mediante la
ecuación:
2 𝑆𝑆𝐸
𝑠 = 𝑛−2
Prueba T
𝐻0 : β = 0
𝐻𝑎 : β ≠ 0
● Prueba F
Pasos de la prueba:
𝐻0 : β = 0
𝐻𝑎 : β ≠ 0
10
Ecuación 10. Prueba F.
𝑆𝑆𝑅
𝐹 = 2
𝑠
Rechazar 𝐻0 si 𝐹 > 𝐹α
En general, un modelo se ajusta bien a los datos si las diferencias entre los
valores observados y los valores de predicción del modelo son pequeñas y no
presentan sesgo.
Análisis de residuos.
^
𝑒1 = 𝑌𝑖 − 𝑌𝑖
o Son independientes
o Tienen una media igual a 0
o Tienen la misma varianza σ𝑒2
11
o Tienen una distribución Normal
Si los residuos (o las Y) tienen una distribución normal entonces los puntos de la
gráfica deben caer aproximadamente en una linea recta con intercepto 0 (o 𝑌)y
FALTA DE AJUSTE
12
La falta de ajuste o prueba de la “bondad de ajuste'' del modelo de
regresión se expresa mediante las siguientes tres hipótesis equivalentes:
(3)
Existan:
La estadística de prueba es
Donde:
13
media de las respuestas en el valor de
respuesta observada
en el valor
estimados de .
Nota:
14
1.5 Estimación de intervalo de predicción
La estimación por intervalos consiste en establecer el intervalo de valores
donde es más probable se encuentre el parámetro.
En la que
15
1.6 Regresión lineal múltiple
Un modelo de regresión lineal múltiple es un modelo estadístico versátil
para evaluar las relaciones entre un destino continuo y los predictores. Los
predictores pueden ser campos continuos, categóricos o derivados, de modo que
las relaciones no lineales también estén soportadas.
Rodrigo (2016) estipula que “la regresión lineal múltiple permite generar un
modelo lineal en el que el valor de la variable dependiente o respuesta (𝑌) se
determina a partir de un conjunto de variables independientes llamadas
predictores (𝑋1, 𝑋2, 𝑋3…). Es una extensión de la regresión lineal simple, por lo
que es fundamental comprender esta última. Los modelos de regresión múltiple
pueden emplearse para predecir el valor de la variable dependiente o para evaluar
la influencia que tienen los predictores sobre ella (esto último se debe que analizar
con cautela para no malinterpretar causa-efecto).”
por el modelo.
a) La relación entre las variables sea lineal. Ser lineal no significa que
forzosamente tenga que ser una línea recta sino también que pueda ser
lineal con alguna transformación.
b) Las perturbaciones (es decir los efectos provocados aleatoriamente o
por variables no incluidas en el modelo) deben ser: de media cero,
homocedásticas y no auto correlacionadas. Se suelen resumir estos
bajo la denominación de “esfericidad” de los residuos.
Por ejemplo, si los siguientes gráficos son los residuos de tres modelos el modelo
a no tiene residuos de media cero (aunque parece homocedásticos), los residuos
del modelo b son, además, heterocedásticos y ambos parecen muy
autocorrelacionados (un valor parece depender del valor anterior). Solo el modelo
“normal” tiene unos residuos centrados en 0 (E (u) = 0), no parecen abrirse o
cerrarse (son homocedásticos) y no tienen tendencia (no están
autocorrelacionados).
Aunque digan que una imagen vale más que mil palabras, en estadística esto no
siempre se cumple. El análisis gráfico casi nunca es tan explícito en la vida real.
En el caso de la base de Satisfacción si graficamos los residuos de una regresión
cualquiera... regress estasalud edad.
17
Ilustración 6. Residuos de una regresión cualquiera.
El software dice que tiene dos formas de estimación de una regresión lineal. Un
primero por mínimos cuadrados ordinarios (MCO), que consiste en resolver la
ecuación:
^
Donde 𝑏 es el vector de estimación de los coeficientes, y es el vector de las
dependientes 𝑋 es la matriz de variables dependientes y 𝑋’ es la traspuesta de 𝑋
ln 𝑙𝑛 𝐿 (𝑌) =−
𝑛
2 ( 2)
ln 𝑙𝑛 2π −
𝑛
2
2
ln 𝑙𝑛 (2σ −
(𝑌−𝑋β)´(𝑌−𝑋β)
2σ
2
18
La ventaja de resolver por MCO es que obtenemos medidas de ajuste
2 ^2
confiables (𝑅 y 𝑅 ). Por ML no podemos obtener (en la mayoría de los casos) una
2
𝑅 pero podemos obtener otras medidas de ajuste como el Criterio de información
bayesiano (BIC) y el de Akaique (AIC) (en ambos casos cuanto más pequeños
mejor). (p.45)
Los parámetros β0, β1, β2, …. β𝑘 puede ser o no significativos dentro del
{𝐻0: β𝑗 = 0 𝐻1=β𝑗≠0
𝐻0: β0 = β1 =... = β𝑘
𝐻1: 𝑁𝑜𝐻1
𝐻0: β1 =... = β𝑘
𝐻1: 𝑁𝑜𝐻0
2
Coeficiente de determinación (𝑅 )
2 𝑆𝐶𝐸
𝑅 = 1∙ 𝑆𝐶𝑇
𝑎2
Coeficiente de determinación ajustado (𝑅 )
20
Ecuación 19. Coeficiente de determinación ajustado (R^a2).
𝑎2 𝐶𝑀𝐸
𝑅 = 1∙ 𝐶𝑀𝑇
NOTA:
´𝑦 = 0. 58 + 2. 7122𝑥1 + 2. 0497𝑥2
99. 97%
En el modelo de regresión lineal múltiple suponemos que más de una variable
tiene influencia o está correlacionada con el valor de una tercera variable. Por
ejemplo, en el peso de una persona pueden influir edad, género y estatura, en la
renta pueden influir trabajo, capital físico, conocimientos, etc. En el modelo de
regresión lineal múltiple esperamos que los sucesos tengan una forma funcional
como
Tipos de variables
Continuas:
Las variables continuas son aquellas que llenan el espacio. Son números
reales y servirán incluso cuando su rango no sea desde − ∞ hasta + ∞. Suelen
21
ser variables cuantitativas (como el peso o la edad) pero también pueden ser
consideradas continuas variables cualitativas cuando pueden ordenarse y tienen
un número no bajo de elementos. Todas las variables de recuento siempre que su
rango sea alto podrían considerarse como continuas. Dentro de las variables
continuas tienen especial relevancia las conocidas como porcentajes.
Discretas:
22
1.10 Estimación de intervalo de predicción
La regresión lineal múltiple representa una extensión de la regresión lineal
simple en la que podemos incluir más de un predictor a la vez. En el caso de
contar con más de una variable predictora, podríamos pensar en que una opción
sería ajustar un modelo de regresión a cada uno por separado. Sin embargo, este
enfoque puede no llegar a resultar del todo satisfactorio, ya que cada ecuación de
regresión estaría ignorando las demás a la hora de estimar los coeficientes de
regresión. Además, si se diera que los predictores estuvieran correlacionados
entre sí ello podría llevar a estimaciones erróneas haciendo el ajuste por
separado. Por tanto, una ventaja de la regresión lineal múltiple es que evalúa el
efecto de cada predictor en presencia del resto, evitando el fenómeno de
confusión que puede aparecer cuando la asociación observada entre un predictor
y la variable respuesta se explica por otra variable (factor de confusión) de manera
total o parcial.
^ ^ ^ ^ ^
𝑦 = β0 + β1𝑥1 + β2𝑥2 + … + β𝑝𝑥𝑝
23
Al igual también que en la regresión lineal simple, se sigue el método de
mínimos cuadrados para estimar estos coeficientes.
𝑛 𝑛
^ 2 2
(
𝑅𝑆𝑆 = ∑ 𝑦𝑖 − 𝑦𝑖
𝑖=1
) ( ^ ^ ^
= ∑ 𝑦𝑖 − β0 − β1𝑥𝑖1 − β2𝑥𝑖2 − … − β𝑝𝑥𝑖𝑝
𝑖=1
^
)
Precisión de los coeficientes de regresión.
^ *
𝑦(𝑥 )±𝑡 𝑎 𝑆𝐸 ^ *
1− 2 ,𝑛−2 𝑦(𝑥 )
CONCLUSIONES
Alumno: Jostin Manuel Chi Uc
24
Con respecto a este tema sobre la regresión lineal simple y la múltiple logre
entender o captar de mejor forma lo que vendría siendo lo básico y fundamental
en las regresiones ya que gracias a esta actividad realizada pudimos investigar
más a fondo sobre este tema y a la vez sobre los múltiples subtemas que este
término abarcando llenando así esas pequeñas dudas que teníamos antes de
empezar esta actividad. También se logró distinguir por decirlo así, ciertas
diferencias y similitudes entre ambos temas porque aunque tenían los mismos
subtemas, de antemano sabíamos que no tendrían igual contenido. Cabe
mencionar, que igual fue de mucha ayuda el haber realizado este trabajo por
equipo, recopilando así, diferentes puntos de vista y opiniones, corrigiéndonos en
todo momento.
25
La regresión lineal, analiza la relación de dos o más variables continuas, la
finalidad de una ecuación dela regresión es la de estimar los valores de una
variable con base en los valores conocidos de la otra. Su mismo modo, una
ecuación de regresión explica los valores de una variable en términos de otra. Es
decir, se puede saber una relación de causa y efecto entre dos o más variables
Mientras que el modelo de Regresión Lineal Simple nos permite explicar “y”
en términos de “x”.Si tenemos: Y= B0 + B1X + U
26
factor laboral a futuro, para finalizar se puede destacar que las diferentes técnicas
de la regresión se relacionan estadísticamente, por tanto esto se da entre dos o
más variables, por tal como se dicta en la investigación la regresión lineal se
asociación entre una variable dependiente y una variable independiente
manifestando los términos de la pendiente y la interacción de la línea que mejor
se ajusten a las variables de las problemáticas que se estudiara durante la
unidad.
27
variable dependiente. La variable que está utilizando para predecir el valor
de la otra variable se denomina variable independiente.
● Este método es aplicable en muchas situaciones en las que se estudia la
relación entre dos o más variables o predecir un comportamiento, algunas
incluso sin relación con la tecnología. En caso de que no se pueda aplicar
un modelo de regresión a un estudio, se dice que no hay correlación entre
las variables estudiadas.
● Los modelos con un predictor se denominan regresión simple. Los modelos
con más de un predictor se conocen como regresión lineal múltiple.
● Las variables en un estudio de investigación constituyen todo aquello que
se mide, la información que se colecta o los datos que se recaban con la
finalidad de responder las preguntas de investigación, las cuales se
especifican en los objetivos.
●
28
REFERENCIAS
Cardona Madariaga, D. F., González Rodríguez, J. L., Rivera Lozano, M.,
Cárdenas Vallejo, E. (Noviembre de 2013). Inferencia estadística Módulo de
regresión lineal simple.
29