Parte III - Análisis Exploratorio Bivariado - Análisis de Regresión Lineal Simple (ARLS) PDF

ANALISIS
EXPLORATORIO
DE DATOS
BIVARIADOS
ANÁLISIS DE
REGRESION LINEAL
SIMPLE
Introducción
Condición previa para un ARLS
Sólo en aquellos casos en que se ha demostrado

que existe una correlación lineal entre dos
variables X e Y, cuya intensidad es moderada o
fuerte, entonces es posible dar un paso más y
construir un Análisis de Regresión Lineal Simple.
De manera entonces, que si se detecta una

correlación débil o nula (|r|<0,3) entre dos
variables numéricas, no debería procederse con el
análisis que se presentará a continuación, debido
a la escala o nula utilidad de los resultados que se
obtendrían en tal caso.
Si la correlación encontrada es de naturaleza

moderada o fuerte (|r|>0,3), entonces es posible
elaborar un modelo lineal (ecuación matemática
que ligue a X con Y) de manera que pueda
emplearse tal modelo tanto para explicar (en la
medida que sea posible) el desempeño o
comportamiento o variación de Y, a partir del
desempeño, comportamiento o variación de la
variable X, así como construir pronósticos sobre el
comportamiento futuro de Y.
Introducción
Ejemplo:
Supongamos que se dispone de datos relativos al
Ingreso Anual (expresados en miles de pesos) y
referentes al Gasto Anual en Turismo (en miles de
pesos) de un conjunto de familias.
Ingresos Mensuales (Miles de Gasto Anual en Turismo (Miles de
$) $)
188 100
230 120
276 135
340 140
290 130
132 70
150 85
252 115
310 140
Media Marginal 240,89 115,00
Desvío Est Marginal 67,82 23,69
Covarianza (Ingresos;
Gastos) 1556,67
Coeficiente de Correlac
Lineal 0,97
Se ha calculado el valor del Coeficiente de

Correlación Lineal de Pearson (0,97) y se
evidencia una relación lineal fuerte y positiva.
A partir de estos resultados se puede pensar en
construir un ARLS que modele la relación entre
ambas variables, analicemos hasta qué punto los
Ingresos Mensuales explican el Gasto Anual en
Turismo y si es posible predecir cuánto gastará
una familia cuyos ingresos anuales sean de 200
mil pesos.
Introducción
Objetivos de un ARLS
Un ARLS tiene tres objetivos principales:
1. Modelar “linealmente” la relación entre

las variables en estudio X e Y. Esto
implica encontrar una ecuación
matemática (modelo) que de cuanta de
la vinculación entre ellas.
Como se recordará una “ecuación lineal” tiene
la forma: Y = a X +b
2. Explicar, empleando el Modelo Lineal

construido, el comportamiento de la
variable Y, en términos del
comportamiento de la variable X.
3. Pronosticar o Predecir, empleando el

Modelo Lineal construido, un Valor
Medio para la variable Y, dado un
determinado valor asignado a la variable
X.
Introducción
Características de un ARLS
Las características sobresalientes de un ARLS son

las siguientes:
1. Las variables X e Y son numéricas,
discretas o continuas.
2. La variable X, que se denomina “variable
independiente o explicativa o regresora
o variable de entrada” está bajo control
del investigador, es decir toma los valores que
le son asignados. En consecuencia, no tiene
carácter aleatorio.
3. La variable Y, también llamada “variable
dependiente o variable explicada o
regresada o variable de respuesta”
asume valores libremente, es decir se trata de
una “variable aleatoria” que no está bajo el
control del experimentador.
4. Se asignan roles o funciones diferentes a cada
variable. Mientras que Y representa el
fenómeno que se desea explicar o entender, X
es el factor que se emplea para intentar
justificar o explicar el comportamiento de Y.
En síntesis, X intenta explicar a Y.
Introducción
5. El ARLS tiene el adjetivo de “Simple”

debido a que se toma en consideración una
sola variable de respuesta Y, y un solo
predictor X.
Cuando se involucran dos o más variables
explicativas para intentar justificar o entender
el comportamiento de Y, el Análisis se conoce
como de “Regresión Lineal Múltiple”.
6. La gran mayoría de los fenómenos que

se estudian, tienen el carácter
“multivariado”, esto es se necesitan varios
factores para explicar en una mejor medida el
comportamiento de Y.
Por esta razón, no esperamos que X sea capaz
de explicar en un 100% el comportamiento de
Y, sin embargo este modelo estadístico que es
el más sencillo que puede construirse, cuanto
mayor sea su capacidad explicativa, esto es
cuanto mayor sea el porcentaje de la
variabilidad de Y que se puede entender a
través de X, tanto mejor será su desempeño.
Introducción
7. El hecho que el fenómeno en estudio Y, esté

correlacionado no solo con un único factor
explicativo X, sino con varios de ellos,
digamos X1, X2, …, Xn, que trae como
consecuencia que la única variable explicativa
de este modelo simple sea incapaz de explicar
totalmente (el 100%), es la causa por la cual
los puntos de la “huella empírica” presentan
desviaciones respecto del comportamiento
perfecto. Estas desviaciones, como se verá, se
conocen como “desvíos o errores o
residuos”.
En consecuencia estas desviaciones no
constituyen un “error” en el sentido de una
equivocación sino más bien, un residuo del
comportamiento de Y, que no se pudo explicar
a través de la variable explicativa X.
Construcción del Modelo de Regresión
Lineal Simple
La cuestión que se plantea es la de representar la

Nube de Puntos o Huella Empírica del Diagrama de
Dispersión a través de una Línea Recta, llamada
MODELO DE REGRESION LINEAL SIMPLE (MRLS) o
RECTA DE REGRESION LINEAL SIMPLE (RRLS).
Hay una UNICA recta que MEJOR REPRESENTA A

LA NUBE DE PUNTOS. Esta es la RRLS que se
busca. La ecuación de la RRLS se puede escribir
como:
𝑌𝑖 = 𝑎 ∗ 𝑋𝑖 + 𝑏
donde:
𝒀𝒊 : son los “valores predichos para Y por el
MRLS.
Xi: son los valores asignados a la variable X.
a y b son los “parámetros del MRLS”.

Lineal Simple
Geométricamente:
a: es la pendiente de la Recta de Regresión Lineal

Simple, es decir la tangente del ángulo que forma la
recta con la horizontal.
b: es la “ordenada al origen de la Recta de

Regresión Lineal” es decir el punto sobre el eje
vertical donde la Recta se intersecta con el eje
vertical Y de las ordenadas en el Diagrama de
Dispersión.
Estadísticamente:
a: se interpreta como la variación

(incremento o reducción) de Y, ante un
cambio unitario en X.
b: representa el valor que asume Y, en

ausencia de la variable X.
Lineal Simple
A manera de ejemplo, para los datos de Ingresos

Mensuales (miles de $) y Gasto Anual en Turismo
(miles de $), la ecuación de la Recta de Regresión
Lineal es:
𝑮𝒕𝒐 𝑨𝒏𝒖𝒂𝒍 𝑻𝒖𝒓𝒊𝒔𝒎𝒐 = 𝟎, 𝟑𝟑𝟖𝟒 ∗ 𝑰𝒏𝒈 𝑴𝒆𝒏𝒔 + 𝟑𝟑, 𝟒𝟖𝟒
donde:
a=0,3384 significa que por cada mil pesos
adicionales de Ingresos Mensuales, el Gasto en
Turismo aumenta en 0,3384 ($ 338,4)
b=33,484 ($ 33.484) es el gasto base en Turismo sin

considerar los Ingresos Anuales.
Construcción del Modelo de
Regresión Lineal Simple
Cálculo de los Parámetros “a” y “b”

de la Recta de Regresión Lineal
Simple.
Concepto de “Residuo”
La RRLS buscada es la que mejor representa a la
nube de puntos del Diagrama de Dispersión.
Hemos señalado que los puntos de la nube, se

apartan del comportamiento perfecto (r=±1)
debido al efecto de otros factores que influyen
sobre la variable Y que no han sido incluidos en el
MRLS.
Esta diferencia entre el “Valor Observado de Y” y

el “Valor Pronosticado por el MRLS” se conoce
como “Error” o “Residuo”, para cada punto de la
Nube.
Consideremos el siguiente gráfico de Dispersión

en el cual se ha puesto la atención en un punto
cualquiera de la Huella Empírica.

Simple.
Entonces, el Residuo “ei” será:
𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖
Es decir la diferencia entre el “Valor Observado de

Y” y el “Valor Predicho por el MRLS”. Debe
observarse que cada residuo se
representará entonces por un segmento
vertical. Esta cantidad no se puede justificar o
entender a partir del MRLS, es decir a partir del
comportamiento de X.

Simple.
De esta forma, cada punto de la Nube tendrá su

propio “residuo” o desviación respecto de la RRLS.
Como es evidente, existen residuos positivos, para

aquellos puntos que están “sobre” la recta de
regresión y otros negativos para los puntos que se
encuentran por “debajo” de la RRLS.
Como es de esperarse se cumple, una vez más


Simple.
La Recta de Regresión Lineal Simple que

buscamos es aquella que logra reducir al máximo
los errores de estimación. Pero debe superarse el
inconveniente que la suma total de los residuos se
anula en todos los casos.
Esta situación se resuelve considerando el

siguiente resultado:
Principio de Mínimos Cuadrados:

La recta que logra el mejor ajuste de la
Nube de Puntos es aquella que MINIMIZA la
SUMA DE LOS CUADRADOS DE LOS
RESIDUOS de la nube de puntos.
Esto significa que debe minimizarse la cantidad

SCE: SUMA DE LOS CUADRADOS DE LOS
RESIDUOS O ERRORES
𝑛 𝑛
𝑆𝐶𝐸 = 𝑒𝑖 2 = 𝑦𝑖 − 𝑦𝑖 2

Simple.
𝑛 𝑛
𝑆𝐶𝐸 = 𝑒𝑖 2 = 𝑦𝑖 − 𝑦𝑖 2
𝑖=1 𝑖=1
𝑛
= 𝑦𝑖 − 𝑎 ∗ 𝑥𝑖 − 𝑏 2
𝑖=1
El problema se reduce entonces a encontrar los

valores de a y b que “minimicen” SCE.
Para encontrar este par de valores (que es único)

se aplican técnicas matemáticas avanzadas que
están fuera de los límites de este curso. Sin
embargo el resultado al que se llega es el
siguiente:
𝐶𝑜𝑣 𝑋; 𝑌
𝑎=
𝑉 𝑋
𝑏 =𝑌−𝑎∗𝑋
Lineal Simple
Cálculo de los Parámetros “a” y “b” de

la Recta de Regresión Lineal Simple.
Cuando los parámetros “a” y “b” de la RRLS se

calculan mediante estas fórmulas, se logra que la
cantidad SCE sea MINIMA, como se pretendía.
Con esto, conseguimos identificar “la recta que

mejor ajusta la Nube de Puntos del Diagrama de
Dispersión y esta recta es UNICA”. Esto es no hay
otra recta que logre reducir aún más la SCE.
En el ejemplo que se considera:
1.556,67
𝑎= =0,3384
67,822
𝑏 = 115,00 − 0,3384 ∗ 240,89 = 33,484
De manera que la RRLS será:
𝑮𝒕𝒐 𝑨𝒏𝒖𝒂𝒍 𝑻𝒖𝒓𝒊𝒔𝒎𝒐 = 𝟎, 𝟑𝟑𝟖𝟒 ∗ 𝑰𝒏𝒈 𝑴𝒆𝒏𝒔 + 𝟑𝟑, 𝟒𝟖𝟒

La Capacidad Explicativa del
Modelo.
Consideremos ahora el segundo objetivo del
ARLS, esto es emplear el modelo para explicar,
justificar o entender (al menos parcialmente) el
comportamiento de Y, a partir del comportamiento
de X.
Como ha sido expuesto, el MRLS será capaz de

explicar sólo parcialmente el comportamiento del
fenómeno que se estudia Y, debido a que no se
han incluido todos los factores que influencian las
variaciones de Y, sino sólo uno de esos factores
explicativos.
Esta porción o fracción del comportamiento de Y

que queda explicada por el MRLS, esto es por la
Recta de Regresión, se conoce como
CAPACIDAD EXPLICATIVA DEL MODELO O
BONDAD DEL AJUSTE.
La expresión “Bondad del Ajuste” hace referencia

al hecho que cuanto mayor sea la capacidad
explicativa del modelo, mejor será el grado de
ajuste o representación que logra la RRLS
respecto de la Nube de Puntos.
Modelo.
En función de construir una medida estadística
para la Capacidad Explicativa del MRLS o Bondad
del Ajuste, consideremos el siguiente gráfico:
Aquí se muestra un punto genérico (cualquiera)

de la nube de puntos, la RRLS y una línea
horizontal que representa la posición de la Media
Marginal de Y.
Un análisis idéntico al que se presentará a

continuación para este punto se podría realizar
para todos los demás puntos de la nube.
Modelo.
A partir del gráfico, podemos observar que la
distancia vertical entre el punto (xi ; yi) y la Media
Marginal de Y:
𝑌𝑖 − 𝑌
se puede expresar como la suma de dos
segmentos (verticales):
𝑌𝑖 − 𝑌 = 𝑌𝑖 − 𝑌𝑖 + 𝑌𝑖 − 𝑌
El primer término del segundo miembro

representa la distancia vertical desde el punto
hasta la recta de regresión y es la cantidad que
hemos denominado “residuo” o “error” y
representa la parte de la variación de Y que el
modelo es incapaz de justificar (porque se debe a
otros factores explicativos que no son X y que
influencias el comportamiento de Y).
El segundo término del segundo miembro

representa la distancia vertical desde la recta de
regresión hasta la media marginal de Y. Esta
cantidad queda justificada a través de la
pendiente de la RRLS, dado que al pasar de x a
Xi, se justifica el incremento desde la Media hasta
la RRLS.
Modelo.
Es posible demostrar (no lo haremos aquí) que esta
igualdad se conserva si se aplica a todos los puntos de
la huella empírica, elevando al cuadrado cada término
en cada miembro.
Esta nueva expresión se conoce como LA

PARTICION DE LA SUMA DE CUADRADOS:
2 2
𝑛
𝑖=1 𝑌𝑖 − 𝑌 2
= 𝑛
𝑖=1 𝑌𝑖 − 𝑌𝑖 + 𝑛
𝑖=1 𝑌𝑖 − 𝑌
La expresión del primer miembro de esta igualdad se

conoce como SUMA DE CUADRADOS TOTAL (SCT)
y representa la variabilidad total de Y que desea
explicarse (notar que se trata del numerador de la
Varianza Marginal de Y):
𝑆𝐶𝑇 = (𝑌𝑖 − 𝑌)2

𝑖=1
Modelo.
El primer término del segundo miembro de la igualdad
anterior se denomina SUMA DE CUADROS DE
RESIDUOS O ERRORES (SCE) y representa la parte
de variabilidad total de Y que el modelo (la RRLS) no
puede explicar. También se conoce como PARTE
INEXPLICADA DE LA VARIABILIDAD DE Y:
𝑛 𝑛
2 2
𝑆𝐶𝐸 = 𝑒𝑖 = 𝑌𝑖 − 𝑌𝑖
𝑖=1 𝑖=1
El segundo término del segundo miembro de la

Partición anterior se conoce como SUMA DE
CUADRADOS DE LA REGRESION (SCR) y
representa la parte de la variabilidad total de Y que
queda explicada o justificada por el Modelo (es decir
por la RRLS). También se llama PARTE EXPLICADA
DE LA VARIABILIDAD DE Y:
𝒏
𝟐
𝑺𝑪𝑹 = 𝒀𝑰 − 𝒀
𝑰=𝟏
Modelo.
De manera entonces que la Partición de la Suma de
Cuadrados puede expresarse como:
SCT = SCE + SCR
Si ahora procedemos a dividir toda la igualdad por

SCT resulta:
𝑆𝐶𝑇 𝑆𝐶𝐸 𝑆𝐶𝑅

= +
𝑆𝐶𝑇 𝑆𝐶𝑇 𝑆𝐶𝑇
O equivalentemente,
𝑆𝐶𝐸
1= + 𝑟2
𝑆𝐶𝑇
donde la fracción SCR/SCT=r² se conoce como

COEFICIENTE DE DETERMINACION DEL
MODELO y representa la parte o fracción de la
Variabilidad Total de Y que queda justificada por el
comportamiento de X. Esta cantidad también se
denomina CAPACIDAD EXPLICATIVA DEL
MODELO (expresada en %) o BONDAD DEL
AJUSTE DEL MRLS.
Modelo.
Debe notarse, a partir de la última igualdad que el
Coeficiente de Determinación r² también puede
expresarse como:
𝑆𝐶𝐸
𝑟 2
=1-
𝑆𝐶𝑇
Esta expresión puede interpretarse estableciendo que
el Coeficiente de Determinación r² es la diferencia
entre la variabilidad total (expresada en proporción
como la unidad) y la parte de la variabilidad total de Y
que queda inexplicada. Generalmente el resultado se
multiplica por 100, para quedar expresado en
porcentaje.
Relación entre el Coeficiente de

Determinación y el Coeficiente de
Correlación Lineal del Pearson
Ex-profeso se ha designado al Coeficiente de

Determinación como r², dado que es posible
demostrar que aritméticamente es igual al cuadrado
del Coeficiente de Correlación Lineal de Pearson:
r²=[r]²
Modelo.
Esta última expresión es realmente informativa, dado
que indica que aún antes de construir el ARLS, ya es
posible conocer cuál será su Capacidad Explicativa o
Bondad del Ajuste, elevando al cuadrado el
Coeficiente de Correlación Lineal de Pearson.
En el Ejemplo anterior:
r²=0,97²=0,9409=94,1%
Evidentemente también podríamos haber calculado r²

como SCR/SCT o bien como 1-SCE/SCT
Rango de Variación de r²
𝑆𝐶𝐸
A partir de la expresión: 𝑟 2 =1-
𝑆𝐶𝑇
Es posible obtener los límites entre los que puede

variar r²:
0 ≤ r² ≤ 1
ó
0% ≤ r² ≤ 100%
Modelo.
Debe notarse que si la correlación entre las
variables X e Y fuera perfecta, entonces r=±1 por
lo que r² = 1.
También puede razonarse de la siguiente forma: si

la correlación es perfecta entre ambas variables,
entonces X sería capaz de explicar el 100% del
comportamiento de Y, por lo que el MRLS
funcionaría perfectamente y toda la variabilidad
de Y quedaría completamente explicada por X,
razón por la cual SCE=0.
𝑆𝐶𝐸 0
De manera que 𝑟 2 =1- =1- = 1.
𝑆𝐶𝑇 𝑆𝐶𝑇
Así r² alcanzaría su máximo valor.

Modelo.
Si por el contrario, las variables X e Y fueran

“independientes”, entonces X no sería capaz de
explicar absolutamente nada del comportamiento
de Y, con lo cual toda la variabilidad de Y quedaría
inexplicada: SCT = SCE + 0 = SCE. En
consecuencia, tendremos que:
𝑆𝐶𝐸 𝑆𝐶𝑇
𝑟 2 =1- = 1- =1 −1=0
𝑆𝐶𝑇 𝑆𝐶𝑇
Con lo cual r² alcanzaría su mínimo valor 0

(cuando el modelo no tiene ninguna utilidad).
Modelo.
Entre estas dos situaciones extremas, pueden
presentarse una variedad de escenarios
intermedios en los que la variable X (el MRLS) es
capaz de justificar una parte o fracción de la
variabilidad de Y, por lo que el Modelo tendrá una
capacidad explicativa intermedia entre 0% y
100%.
Evidentemente, cuanto mayor sea el % de la

variabilidad total de Y que se puede entender a
través de la RRLS, más eficaz será el Modelo.
Modelo.
Fórmulas para obtener la Partición
de la Suma de Cuadrados y r²
Suma de Cuadrados Total:

𝒏
𝑺𝑪𝑻 = 𝒀𝒊 − 𝒀 𝟐
𝒊=𝟏
𝑺𝑪𝑻 = 𝒏 ∗ 𝑽 𝒀
𝑺𝑪𝑻 = 𝑺𝑪𝑬 + 𝑺𝑪𝑹
Suma de Cuadrados de Errores o

Residuos:
𝒏
𝟐
𝑺𝑪𝑬 = 𝒀𝒊 − 𝒀𝒊
𝒊=𝟏
𝑺𝑪𝑬 = 𝑺𝑪𝑻 ∗ 𝟏 − 𝒓𝟐
𝑺𝑪𝑬 = 𝑺𝑪𝑻 − 𝑺𝑪𝑹
Modelo.
Fórmulas para obtener la Partición
de la Suma de Cuadrados y r²
Suma de Cuadrados de la Regresión:

𝒏
𝟐
𝑺𝑪𝑹 = 𝒀𝒊 − 𝒀
𝒊=𝟏
𝑺𝑪𝑹 = 𝒓𝟐 ∗ 𝐒𝐂𝐓
𝑺𝑪𝑹 = 𝑺𝑪𝑻 − 𝑺𝑪𝑬
Coeficiente de Determinación:
𝟐 𝑺𝑪𝑹
𝒓 = 𝑺𝑪𝑻
𝟐
𝑺𝑪𝑬
𝒓 =𝟏−
𝑺𝑪𝑻
𝒓𝟐 = 𝒓 𝟐
Modelo.
Ejemplo:
Se disponen de datos acerca del Tiempo de

Capacitación (Horas) recibido por diez trabajadores
de una Empresa y la Cantidad de Errores Cometidos
en una práctica:
Tiempo de Capacitación (horas) N° Errores cometidos Tiempo*Errores

15 9 135
10 14 140
12 10 120
8 21 168
20 6 120
10 16 160
5 20 100
18 9 162
22 5 110
30 2 60
Sumas 150 112 1275
Medias Marginales 15 11,2 168 M(X)*M(Y)
Desvíos Est. Marginales 7,18 6,05 43,43 D(X)*D(Y)
Covarianza (Tiempo Cap; N° de

Errores) -40,50
r de Pearson -0,93
r =-40,50/43,43 = -0,93
por lo que se justifica construir un ARLS
Modelo.
Identificación del MRLS:
𝑪𝒐𝒗(𝑻𝒊𝒆𝒎𝒑𝒐 𝑪𝒂𝒑𝒂𝒄.;𝑵° 𝑬𝒓𝒓𝒐𝒓𝒆𝒔) −𝟒𝟎,𝟓𝟎

𝒂= = = − 𝟎, 𝟕𝟖𝟒𝟗
𝑽(𝑻𝒊𝒆𝒎𝒑𝒐 𝒅𝒆 𝑪𝒂𝒑𝒂𝒄𝒊𝒕𝒂𝒄𝒊ó𝒏) 𝟕,𝟏𝟖𝟐
𝒃 = 𝒀 − 𝒂 ∗ 𝑿 = 𝟏𝟏, 𝟐 − −𝟎, 𝟕𝟖 ∗ 𝟏𝟓, 𝟎 = 𝟐𝟐, 𝟗𝟕𝟑
La Ecuación de la RRLS es:
𝒀 = −𝟎, 𝟕𝟖𝟒𝟗 ∗ 𝑿 + 𝟐𝟐, 𝟗𝟕𝟑

Donde interpretamos que por cada hora de
capacitación adicional, el número de errores
cometidos decrece en 0,7849 mientras que para
quienes no han recibido ninguna capacitación, el
número de errores cometidos es de 23.
N° Errores cometidos
25
20
N° de Errores cometidos
15
10
y = -0,7849x + 22,973
0
0 5 10 15 20 25 30 35
-5
Tiempo de Capacitación (Horas)
Modelo.
Capacidad Explicativa del Modelo:
𝒓𝟐 = −𝟎, 𝟗𝟑 𝟐 =0,8649= 86,49%
Lo cual significa que el tiempo de Capacitación

explica un 86,49% de la cantidad de errores
cometidos.
Partición de la Suma de Cuadrados:
𝑺𝑪𝑻 = 𝒏 ∗ 𝑽 𝒀 = 10*(6,05)² =366,025

𝑺𝑪𝑹 = 𝒓𝟐 ∗ 𝐒𝐂𝐓 = 𝟎, 𝟖𝟔𝟒𝟗 ∗ 𝟑𝟔𝟔, 𝟎𝟐𝟓 = 𝟑𝟏𝟔, 𝟓𝟕𝟓
𝑺𝑪𝑬 = 𝑺𝑪𝑻 − 𝑺𝑪𝑹 = 𝟑𝟔𝟔, 𝟎𝟐𝟓 − 𝟑𝟏𝟔, 𝟓𝟕𝟓 = 𝟒𝟗, 𝟒𝟓𝟎
𝑺𝑪𝑻 = 𝑺𝑪𝑬 + 𝑺𝑪𝑹

366,025 = 49,450 + 316,575
Variabilidad Total del "N° de Errores Cometidos"

120,00%
100,00%
80,00%
Parte Explicada por el MRLS
60,00% 86,49% Parte Inexplicada por el MRLS
40,00%
20,00%
13,51%
0,00%
Pronósticos a partir del Modelo
Una vez identificado o construido el Modelo de
Regresión Lineal Simple, también es posible
emplearlo para predecir o pronosticar un Valor
Medio (el valor más probable) para Y, dado un valor
específico asignado a X.
Esto se logra simplemente reemplazando un valor

particular de X dentro de la RRLS y obteniendo un
valor medio para Y.
Ejemplo:
¿Cuál será el Número de Errores que cometa un
empleado que reciba 16 horas de capacitación?
𝒀 = −𝟎, 𝟕𝟖𝟒𝟗 ∗ 𝟏𝟔 + 𝟐𝟐,973 = 10,415
Es decir entre 10 y 11 errores.
Un detalle por demás importante en este aspecto

reside en que sólo puede asignarse a X, un valor
dentro de su rango de variación estudiado, es decir:
𝑥𝑚í𝑛 ≤ 𝑥𝑖 ≤ 𝑥𝑚á𝑥
Esto se debe a que hemos establecido que existe

una relación lineal moderada o fuerte que ha sido
modelada dentro de un cierto rango de valores de X
aunque desconocemos si ese comportamiento lineal
seguirá siendo válido fuera del rango estudiado.
Pronósticos a partir del Modelo
A manera de ejemplo, el siguiente Diagrama de
Dispersión muestra una Nube de Puntos que
evidencia una relación lineal fuerte dentro de un
cierto intervalo, más allá del cual comienza a
desdibujarse.
Si intentáramos elaborar pronósticos más allá de

estos límites, podríamos cometer graves
equivocaciones.

Parte III - Análisis Exploratorio Bivariado - Análisis de Regresión Lineal Simple (ARLS) PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Parte III - Análisis Exploratorio Bivariado - Análisis de Regresión Lineal Simple (ARLS) PDF

Cargado por

Copyright:

Formatos disponibles

ANALISIS

Sólo en aquellos casos en que se ha demostrado

De manera entonces, que si se detecta una

Si la correlación encontrada es de naturaleza

Se ha calculado el valor del Coeficiente de

Un ARLS tiene tres objetivos principales:

1. Modelar “linealmente” la relación entre

2. Explicar, empleando el Modelo Lineal

3. Pronosticar o Predecir, empleando el

Las características sobresalientes de un ARLS son

5. El ARLS tiene el adjetivo de “Simple”

6. La gran mayoría de los fenómenos que

7. El hecho que el fenómeno en estudio Y, esté

La cuestión que se plantea es la de representar la

Hay una UNICA recta que MEJOR REPRESENTA A

Xi: son los valores asignados a la variable X.

a y b son los “parámetros del MRLS”.

a: es la pendiente de la Recta de Regresión Lineal

b: es la “ordenada al origen de la Recta de

a: se interpreta como la variación

b: representa el valor que asume Y, en

A manera de ejemplo, para los datos de Ingresos

𝑮𝒕𝒐 𝑨𝒏𝒖𝒂𝒍 𝑻𝒖𝒓𝒊𝒔𝒎𝒐 = 𝟎, 𝟑𝟑𝟖𝟒 ∗ 𝑰𝒏𝒈 𝑴𝒆𝒏𝒔 + 𝟑𝟑, 𝟒𝟖𝟒

b=33,484 ($ 33.484) es el gasto base en Turismo sin

Cálculo de los Parámetros “a” y “b”

Hemos señalado que los puntos de la nube, se

Esta diferencia entre el “Valor Observado de Y” y

Consideremos el siguiente gráfico de Dispersión

Cálculo de los Parámetros “a” y “b”

Entonces, el Residuo “ei” será:

Es decir la diferencia entre el “Valor Observado de

Cálculo de los Parámetros “a” y “b”

De esta forma, cada punto de la Nube tendrá su

Como es evidente, existen residuos positivos, para

Como es de esperarse se cumple, una vez más

Cálculo de los Parámetros “a” y “b”

La Recta de Regresión Lineal Simple que

Esta situación se resuelve considerando el

Principio de Mínimos Cuadrados:

Esto significa que debe minimizarse la cantidad

Cálculo de los Parámetros “a” y “b”

El problema se reduce entonces a encontrar los

Para encontrar este par de valores (que es único)

Cálculo de los Parámetros “a” y “b” de

Cuando los parámetros “a” y “b” de la RRLS se

Con esto, conseguimos identificar “la recta que

En el ejemplo que se considera:

𝑏 = 115,00 − 0,3384 ∗ 240,89 = 33,484

De manera que la RRLS será:

𝑮𝒕𝒐 𝑨𝒏𝒖𝒂𝒍 𝑻𝒖𝒓𝒊𝒔𝒎𝒐 = 𝟎, 𝟑𝟑𝟖𝟒 ∗ 𝑰𝒏𝒈 𝑴𝒆𝒏𝒔 + 𝟑𝟑, 𝟒𝟖𝟒

Como ha sido expuesto, el MRLS será capaz de

Esta porción o fracción del comportamiento de Y

La expresión “Bondad del Ajuste” hace referencia

Aquí se muestra un punto genérico (cualquiera)

Un análisis idéntico al que se presentará a

El primer término del segundo miembro

El segundo término del segundo miembro

Esta nueva expresión se conoce como LA

La expresión del primer miembro de esta igualdad se

𝑆𝐶𝑇 = (𝑌𝑖 − 𝑌)2

El segundo término del segundo miembro de la

SCT = SCE + SCR