Está en la página 1de 34

ANALISIS

EXPLORATORIO
DE DATOS
BIVARIADOS

ANÁLISIS DE
REGRESION LINEAL
SIMPLE
Introducción
Condición previa para un ARLS

Sólo en aquellos casos en que se ha demostrado


que existe una correlación lineal entre dos
variables X e Y, cuya intensidad es moderada o
fuerte, entonces es posible dar un paso más y
construir un Análisis de Regresión Lineal Simple.

De manera entonces, que si se detecta una


correlación débil o nula (|r|<0,3) entre dos
variables numéricas, no debería procederse con el
análisis que se presentará a continuación, debido
a la escala o nula utilidad de los resultados que se
obtendrían en tal caso.

Si la correlación encontrada es de naturaleza


moderada o fuerte (|r|>0,3), entonces es posible
elaborar un modelo lineal (ecuación matemática
que ligue a X con Y) de manera que pueda
emplearse tal modelo tanto para explicar (en la
medida que sea posible) el desempeño o
comportamiento o variación de Y, a partir del
desempeño, comportamiento o variación de la
variable X, así como construir pronósticos sobre el
comportamiento futuro de Y.
Introducción
Ejemplo:
Supongamos que se dispone de datos relativos al
Ingreso Anual (expresados en miles de pesos) y
referentes al Gasto Anual en Turismo (en miles de
pesos) de un conjunto de familias.
Ingresos Mensuales (Miles de Gasto Anual en Turismo (Miles de
$) $)
188 100
230 120
276 135
340 140
290 130
132 70
150 85
252 115
310 140
Media Marginal 240,89 115,00
Desvío Est Marginal 67,82 23,69
Covarianza (Ingresos;
Gastos) 1556,67
Coeficiente de Correlac
Lineal 0,97

Se ha calculado el valor del Coeficiente de


Correlación Lineal de Pearson (0,97) y se
evidencia una relación lineal fuerte y positiva.
A partir de estos resultados se puede pensar en
construir un ARLS que modele la relación entre
ambas variables, analicemos hasta qué punto los
Ingresos Mensuales explican el Gasto Anual en
Turismo y si es posible predecir cuánto gastará
una familia cuyos ingresos anuales sean de 200
mil pesos.
Introducción

Objetivos de un ARLS

Un ARLS tiene tres objetivos principales:

1. Modelar “linealmente” la relación entre


las variables en estudio X e Y. Esto
implica encontrar una ecuación
matemática (modelo) que de cuanta de
la vinculación entre ellas.
Como se recordará una “ecuación lineal” tiene
la forma: Y = a X +b

2. Explicar, empleando el Modelo Lineal


construido, el comportamiento de la
variable Y, en términos del
comportamiento de la variable X.

3. Pronosticar o Predecir, empleando el


Modelo Lineal construido, un Valor
Medio para la variable Y, dado un
determinado valor asignado a la variable
X.
Introducción

Características de un ARLS

Las características sobresalientes de un ARLS son


las siguientes:
1. Las variables X e Y son numéricas,
discretas o continuas.
2. La variable X, que se denomina “variable
independiente o explicativa o regresora
o variable de entrada” está bajo control
del investigador, es decir toma los valores que
le son asignados. En consecuencia, no tiene
carácter aleatorio.
3. La variable Y, también llamada “variable
dependiente o variable explicada o
regresada o variable de respuesta”
asume valores libremente, es decir se trata de
una “variable aleatoria” que no está bajo el
control del experimentador.
4. Se asignan roles o funciones diferentes a cada
variable. Mientras que Y representa el
fenómeno que se desea explicar o entender, X
es el factor que se emplea para intentar
justificar o explicar el comportamiento de Y.
En síntesis, X intenta explicar a Y.
Introducción

Características de un ARLS

5. El ARLS tiene el adjetivo de “Simple”


debido a que se toma en consideración una
sola variable de respuesta Y, y un solo
predictor X.
Cuando se involucran dos o más variables
explicativas para intentar justificar o entender
el comportamiento de Y, el Análisis se conoce
como de “Regresión Lineal Múltiple”.

6. La gran mayoría de los fenómenos que


se estudian, tienen el carácter
“multivariado”, esto es se necesitan varios
factores para explicar en una mejor medida el
comportamiento de Y.
Por esta razón, no esperamos que X sea capaz
de explicar en un 100% el comportamiento de
Y, sin embargo este modelo estadístico que es
el más sencillo que puede construirse, cuanto
mayor sea su capacidad explicativa, esto es
cuanto mayor sea el porcentaje de la
variabilidad de Y que se puede entender a
través de X, tanto mejor será su desempeño.
Introducción

Características de un ARLS

7. El hecho que el fenómeno en estudio Y, esté


correlacionado no solo con un único factor
explicativo X, sino con varios de ellos,
digamos X1, X2, …, Xn, que trae como
consecuencia que la única variable explicativa
de este modelo simple sea incapaz de explicar
totalmente (el 100%), es la causa por la cual
los puntos de la “huella empírica” presentan
desviaciones respecto del comportamiento
perfecto. Estas desviaciones, como se verá, se
conocen como “desvíos o errores o
residuos”.
En consecuencia estas desviaciones no
constituyen un “error” en el sentido de una
equivocación sino más bien, un residuo del
comportamiento de Y, que no se pudo explicar
a través de la variable explicativa X.
Construcción del Modelo de Regresión
Lineal Simple

La cuestión que se plantea es la de representar la


Nube de Puntos o Huella Empírica del Diagrama de
Dispersión a través de una Línea Recta, llamada
MODELO DE REGRESION LINEAL SIMPLE (MRLS) o
RECTA DE REGRESION LINEAL SIMPLE (RRLS).

Hay una UNICA recta que MEJOR REPRESENTA A


LA NUBE DE PUNTOS. Esta es la RRLS que se
busca. La ecuación de la RRLS se puede escribir
como:

𝑌𝑖 = 𝑎 ∗ 𝑋𝑖 + 𝑏
donde:
𝒀𝒊 : son los “valores predichos para Y por el
MRLS.

Xi: son los valores asignados a la variable X.

a y b son los “parámetros del MRLS”.


Construcción del Modelo de Regresión
Lineal Simple

Geométricamente:

a: es la pendiente de la Recta de Regresión Lineal


Simple, es decir la tangente del ángulo que forma la
recta con la horizontal.

b: es la “ordenada al origen de la Recta de


Regresión Lineal” es decir el punto sobre el eje
vertical donde la Recta se intersecta con el eje
vertical Y de las ordenadas en el Diagrama de
Dispersión.

Estadísticamente:

a: se interpreta como la variación


(incremento o reducción) de Y, ante un
cambio unitario en X.

b: representa el valor que asume Y, en


ausencia de la variable X.
Construcción del Modelo de Regresión
Lineal Simple

A manera de ejemplo, para los datos de Ingresos


Mensuales (miles de $) y Gasto Anual en Turismo
(miles de $), la ecuación de la Recta de Regresión
Lineal es:

𝑮𝒕𝒐 𝑨𝒏𝒖𝒂𝒍 𝑻𝒖𝒓𝒊𝒔𝒎𝒐 = 𝟎, 𝟑𝟑𝟖𝟒 ∗ 𝑰𝒏𝒈 𝑴𝒆𝒏𝒔 + 𝟑𝟑, 𝟒𝟖𝟒

donde:
a=0,3384 significa que por cada mil pesos
adicionales de Ingresos Mensuales, el Gasto en
Turismo aumenta en 0,3384 ($ 338,4)

b=33,484 ($ 33.484) es el gasto base en Turismo sin


considerar los Ingresos Anuales.
Construcción del Modelo de
Regresión Lineal Simple

Cálculo de los Parámetros “a” y “b”


de la Recta de Regresión Lineal
Simple.

Concepto de “Residuo”
La RRLS buscada es la que mejor representa a la
nube de puntos del Diagrama de Dispersión.

Hemos señalado que los puntos de la nube, se


apartan del comportamiento perfecto (r=±1)
debido al efecto de otros factores que influyen
sobre la variable Y que no han sido incluidos en el
MRLS.

Esta diferencia entre el “Valor Observado de Y” y


el “Valor Pronosticado por el MRLS” se conoce
como “Error” o “Residuo”, para cada punto de la
Nube.

Consideremos el siguiente gráfico de Dispersión


en el cual se ha puesto la atención en un punto
cualquiera de la Huella Empírica.
Construcción del Modelo de
Regresión Lineal Simple

Cálculo de los Parámetros “a” y “b”


de la Recta de Regresión Lineal
Simple.

Entonces, el Residuo “ei” será:

𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖

Es decir la diferencia entre el “Valor Observado de


Y” y el “Valor Predicho por el MRLS”. Debe
observarse que cada residuo se
representará entonces por un segmento
vertical. Esta cantidad no se puede justificar o
entender a partir del MRLS, es decir a partir del
comportamiento de X.
Construcción del Modelo de
Regresión Lineal Simple

Cálculo de los Parámetros “a” y “b”


de la Recta de Regresión Lineal
Simple.

De esta forma, cada punto de la Nube tendrá su


propio “residuo” o desviación respecto de la RRLS.

Como es evidente, existen residuos positivos, para


aquellos puntos que están “sobre” la recta de
regresión y otros negativos para los puntos que se
encuentran por “debajo” de la RRLS.

Como es de esperarse se cumple, una vez más


Construcción del Modelo de
Regresión Lineal Simple

Cálculo de los Parámetros “a” y “b”


de la Recta de Regresión Lineal
Simple.

La Recta de Regresión Lineal Simple que


buscamos es aquella que logra reducir al máximo
los errores de estimación. Pero debe superarse el
inconveniente que la suma total de los residuos se
anula en todos los casos.

Esta situación se resuelve considerando el


siguiente resultado:

Principio de Mínimos Cuadrados:


La recta que logra el mejor ajuste de la
Nube de Puntos es aquella que MINIMIZA la
SUMA DE LOS CUADRADOS DE LOS
RESIDUOS de la nube de puntos.

Esto significa que debe minimizarse la cantidad


SCE: SUMA DE LOS CUADRADOS DE LOS
RESIDUOS O ERRORES
𝑛 𝑛

𝑆𝐶𝐸 = 𝑒𝑖 2 = 𝑦𝑖 − 𝑦𝑖 2
Construcción del Modelo de
Regresión Lineal Simple

Cálculo de los Parámetros “a” y “b”


de la Recta de Regresión Lineal
Simple.

𝑛 𝑛

𝑆𝐶𝐸 = 𝑒𝑖 2 = 𝑦𝑖 − 𝑦𝑖 2

𝑖=1 𝑖=1
𝑛

= 𝑦𝑖 − 𝑎 ∗ 𝑥𝑖 − 𝑏 2

𝑖=1

El problema se reduce entonces a encontrar los


valores de a y b que “minimicen” SCE.

Para encontrar este par de valores (que es único)


se aplican técnicas matemáticas avanzadas que
están fuera de los límites de este curso. Sin
embargo el resultado al que se llega es el
siguiente:
𝐶𝑜𝑣 𝑋; 𝑌
𝑎=
𝑉 𝑋

𝑏 =𝑌−𝑎∗𝑋
Construcción del Modelo de Regresión
Lineal Simple

Cálculo de los Parámetros “a” y “b” de


la Recta de Regresión Lineal Simple.

Cuando los parámetros “a” y “b” de la RRLS se


calculan mediante estas fórmulas, se logra que la
cantidad SCE sea MINIMA, como se pretendía.

Con esto, conseguimos identificar “la recta que


mejor ajusta la Nube de Puntos del Diagrama de
Dispersión y esta recta es UNICA”. Esto es no hay
otra recta que logre reducir aún más la SCE.

En el ejemplo que se considera:

1.556,67
𝑎= =0,3384
67,822

𝑏 = 115,00 − 0,3384 ∗ 240,89 = 33,484

De manera que la RRLS será:

𝑮𝒕𝒐 𝑨𝒏𝒖𝒂𝒍 𝑻𝒖𝒓𝒊𝒔𝒎𝒐 = 𝟎, 𝟑𝟑𝟖𝟒 ∗ 𝑰𝒏𝒈 𝑴𝒆𝒏𝒔 + 𝟑𝟑, 𝟒𝟖𝟒


La Capacidad Explicativa del
Modelo.
Consideremos ahora el segundo objetivo del
ARLS, esto es emplear el modelo para explicar,
justificar o entender (al menos parcialmente) el
comportamiento de Y, a partir del comportamiento
de X.

Como ha sido expuesto, el MRLS será capaz de


explicar sólo parcialmente el comportamiento del
fenómeno que se estudia Y, debido a que no se
han incluido todos los factores que influencian las
variaciones de Y, sino sólo uno de esos factores
explicativos.

Esta porción o fracción del comportamiento de Y


que queda explicada por el MRLS, esto es por la
Recta de Regresión, se conoce como
CAPACIDAD EXPLICATIVA DEL MODELO O
BONDAD DEL AJUSTE.

La expresión “Bondad del Ajuste” hace referencia


al hecho que cuanto mayor sea la capacidad
explicativa del modelo, mejor será el grado de
ajuste o representación que logra la RRLS
respecto de la Nube de Puntos.
La Capacidad Explicativa del
Modelo.
En función de construir una medida estadística
para la Capacidad Explicativa del MRLS o Bondad
del Ajuste, consideremos el siguiente gráfico:

Aquí se muestra un punto genérico (cualquiera)


de la nube de puntos, la RRLS y una línea
horizontal que representa la posición de la Media
Marginal de Y.

Un análisis idéntico al que se presentará a


continuación para este punto se podría realizar
para todos los demás puntos de la nube.
La Capacidad Explicativa del
Modelo.
A partir del gráfico, podemos observar que la
distancia vertical entre el punto (xi ; yi) y la Media
Marginal de Y:
𝑌𝑖 − 𝑌
se puede expresar como la suma de dos
segmentos (verticales):

𝑌𝑖 − 𝑌 = 𝑌𝑖 − 𝑌𝑖 + 𝑌𝑖 − 𝑌

El primer término del segundo miembro


representa la distancia vertical desde el punto
hasta la recta de regresión y es la cantidad que
hemos denominado “residuo” o “error” y
representa la parte de la variación de Y que el
modelo es incapaz de justificar (porque se debe a
otros factores explicativos que no son X y que
influencias el comportamiento de Y).

El segundo término del segundo miembro


representa la distancia vertical desde la recta de
regresión hasta la media marginal de Y. Esta
cantidad queda justificada a través de la
pendiente de la RRLS, dado que al pasar de x a
Xi, se justifica el incremento desde la Media hasta
la RRLS.
La Capacidad Explicativa del
Modelo.
Es posible demostrar (no lo haremos aquí) que esta
igualdad se conserva si se aplica a todos los puntos de
la huella empírica, elevando al cuadrado cada término
en cada miembro.

Esta nueva expresión se conoce como LA


PARTICION DE LA SUMA DE CUADRADOS:

2 2
𝑛
𝑖=1 𝑌𝑖 − 𝑌 2
= 𝑛
𝑖=1 𝑌𝑖 − 𝑌𝑖 + 𝑛
𝑖=1 𝑌𝑖 − 𝑌

La expresión del primer miembro de esta igualdad se


conoce como SUMA DE CUADRADOS TOTAL (SCT)
y representa la variabilidad total de Y que desea
explicarse (notar que se trata del numerador de la
Varianza Marginal de Y):

𝑆𝐶𝑇 = (𝑌𝑖 − 𝑌)2


𝑖=1
La Capacidad Explicativa del
Modelo.
El primer término del segundo miembro de la igualdad
anterior se denomina SUMA DE CUADROS DE
RESIDUOS O ERRORES (SCE) y representa la parte
de variabilidad total de Y que el modelo (la RRLS) no
puede explicar. También se conoce como PARTE
INEXPLICADA DE LA VARIABILIDAD DE Y:

𝑛 𝑛
2 2
𝑆𝐶𝐸 = 𝑒𝑖 = 𝑌𝑖 − 𝑌𝑖
𝑖=1 𝑖=1

El segundo término del segundo miembro de la


Partición anterior se conoce como SUMA DE
CUADRADOS DE LA REGRESION (SCR) y
representa la parte de la variabilidad total de Y que
queda explicada o justificada por el Modelo (es decir
por la RRLS). También se llama PARTE EXPLICADA
DE LA VARIABILIDAD DE Y:

𝒏
𝟐
𝑺𝑪𝑹 = 𝒀𝑰 − 𝒀
𝑰=𝟏
La Capacidad Explicativa del
Modelo.
De manera entonces que la Partición de la Suma de
Cuadrados puede expresarse como:

SCT = SCE + SCR

Si ahora procedemos a dividir toda la igualdad por


SCT resulta:

𝑆𝐶𝑇 𝑆𝐶𝐸 𝑆𝐶𝑅


= +
𝑆𝐶𝑇 𝑆𝐶𝑇 𝑆𝐶𝑇

O equivalentemente,

𝑆𝐶𝐸
1= + 𝑟2
𝑆𝐶𝑇

donde la fracción SCR/SCT=r² se conoce como


COEFICIENTE DE DETERMINACION DEL
MODELO y representa la parte o fracción de la
Variabilidad Total de Y que queda justificada por el
comportamiento de X. Esta cantidad también se
denomina CAPACIDAD EXPLICATIVA DEL
MODELO (expresada en %) o BONDAD DEL
AJUSTE DEL MRLS.
La Capacidad Explicativa del
Modelo.
Debe notarse, a partir de la última igualdad que el
Coeficiente de Determinación r² también puede
expresarse como:
𝑆𝐶𝐸
𝑟 2
=1-
𝑆𝐶𝑇
Esta expresión puede interpretarse estableciendo que
el Coeficiente de Determinación r² es la diferencia
entre la variabilidad total (expresada en proporción
como la unidad) y la parte de la variabilidad total de Y
que queda inexplicada. Generalmente el resultado se
multiplica por 100, para quedar expresado en
porcentaje.

Relación entre el Coeficiente de


Determinación y el Coeficiente de
Correlación Lineal del Pearson

Ex-profeso se ha designado al Coeficiente de


Determinación como r², dado que es posible
demostrar que aritméticamente es igual al cuadrado
del Coeficiente de Correlación Lineal de Pearson:

r²=[r]²
La Capacidad Explicativa del
Modelo.
Esta última expresión es realmente informativa, dado
que indica que aún antes de construir el ARLS, ya es
posible conocer cuál será su Capacidad Explicativa o
Bondad del Ajuste, elevando al cuadrado el
Coeficiente de Correlación Lineal de Pearson.

En el Ejemplo anterior:

r²=0,97²=0,9409=94,1%

Evidentemente también podríamos haber calculado r²


como SCR/SCT o bien como 1-SCE/SCT

Rango de Variación de r²

𝑆𝐶𝐸
A partir de la expresión: 𝑟 2 =1-
𝑆𝐶𝑇

Es posible obtener los límites entre los que puede


variar r²:
0 ≤ r² ≤ 1
ó
0% ≤ r² ≤ 100%
La Capacidad Explicativa del
Modelo.
Debe notarse que si la correlación entre las
variables X e Y fuera perfecta, entonces r=±1 por
lo que r² = 1.

También puede razonarse de la siguiente forma: si


la correlación es perfecta entre ambas variables,
entonces X sería capaz de explicar el 100% del
comportamiento de Y, por lo que el MRLS
funcionaría perfectamente y toda la variabilidad
de Y quedaría completamente explicada por X,
razón por la cual SCE=0.

𝑆𝐶𝐸 0
De manera que 𝑟 2 =1- =1- = 1.
𝑆𝐶𝑇 𝑆𝐶𝑇

Así r² alcanzaría su máximo valor.


La Capacidad Explicativa del
Modelo.

Si por el contrario, las variables X e Y fueran


“independientes”, entonces X no sería capaz de
explicar absolutamente nada del comportamiento
de Y, con lo cual toda la variabilidad de Y quedaría
inexplicada: SCT = SCE + 0 = SCE. En
consecuencia, tendremos que:

𝑆𝐶𝐸 𝑆𝐶𝑇
𝑟 2 =1- = 1- =1 −1=0
𝑆𝐶𝑇 𝑆𝐶𝑇

Con lo cual r² alcanzaría su mínimo valor 0


(cuando el modelo no tiene ninguna utilidad).
La Capacidad Explicativa del
Modelo.
Entre estas dos situaciones extremas, pueden
presentarse una variedad de escenarios
intermedios en los que la variable X (el MRLS) es
capaz de justificar una parte o fracción de la
variabilidad de Y, por lo que el Modelo tendrá una
capacidad explicativa intermedia entre 0% y
100%.

Evidentemente, cuanto mayor sea el % de la


variabilidad total de Y que se puede entender a
través de la RRLS, más eficaz será el Modelo.
La Capacidad Explicativa del
Modelo.
Fórmulas para obtener la Partición
de la Suma de Cuadrados y r²

Suma de Cuadrados Total:


𝒏

𝑺𝑪𝑻 = 𝒀𝒊 − 𝒀 𝟐

𝒊=𝟏
𝑺𝑪𝑻 = 𝒏 ∗ 𝑽 𝒀
𝑺𝑪𝑻 = 𝑺𝑪𝑬 + 𝑺𝑪𝑹

Suma de Cuadrados de Errores o


Residuos:
𝒏
𝟐
𝑺𝑪𝑬 = 𝒀𝒊 − 𝒀𝒊
𝒊=𝟏

𝑺𝑪𝑬 = 𝑺𝑪𝑻 ∗ 𝟏 − 𝒓𝟐
𝑺𝑪𝑬 = 𝑺𝑪𝑻 − 𝑺𝑪𝑹
La Capacidad Explicativa del
Modelo.
Fórmulas para obtener la Partición
de la Suma de Cuadrados y r²

Suma de Cuadrados de la Regresión:


𝒏
𝟐
𝑺𝑪𝑹 = 𝒀𝒊 − 𝒀
𝒊=𝟏
𝑺𝑪𝑹 = 𝒓𝟐 ∗ 𝐒𝐂𝐓
𝑺𝑪𝑹 = 𝑺𝑪𝑻 − 𝑺𝑪𝑬

Coeficiente de Determinación:
𝟐 𝑺𝑪𝑹
𝒓 = 𝑺𝑪𝑻

𝟐
𝑺𝑪𝑬
𝒓 =𝟏−
𝑺𝑪𝑻

𝒓𝟐 = 𝒓 𝟐
La Capacidad Explicativa del
Modelo.
Ejemplo:

Se disponen de datos acerca del Tiempo de


Capacitación (Horas) recibido por diez trabajadores
de una Empresa y la Cantidad de Errores Cometidos
en una práctica:

Tiempo de Capacitación (horas) N° Errores cometidos Tiempo*Errores


15 9 135
10 14 140
12 10 120
8 21 168
20 6 120
10 16 160
5 20 100
18 9 162
22 5 110
30 2 60
Sumas 150 112 1275
Medias Marginales 15 11,2 168 M(X)*M(Y)
Desvíos Est. Marginales 7,18 6,05 43,43 D(X)*D(Y)

Covarianza (Tiempo Cap; N° de


Errores) -40,50
r de Pearson -0,93

r =-40,50/43,43 = -0,93
por lo que se justifica construir un ARLS
La Capacidad Explicativa del
Modelo.
Identificación del MRLS:

𝑪𝒐𝒗(𝑻𝒊𝒆𝒎𝒑𝒐 𝑪𝒂𝒑𝒂𝒄.;𝑵° 𝑬𝒓𝒓𝒐𝒓𝒆𝒔) −𝟒𝟎,𝟓𝟎


𝒂= = = − 𝟎, 𝟕𝟖𝟒𝟗
𝑽(𝑻𝒊𝒆𝒎𝒑𝒐 𝒅𝒆 𝑪𝒂𝒑𝒂𝒄𝒊𝒕𝒂𝒄𝒊ó𝒏) 𝟕,𝟏𝟖𝟐

𝒃 = 𝒀 − 𝒂 ∗ 𝑿 = 𝟏𝟏, 𝟐 − −𝟎, 𝟕𝟖 ∗ 𝟏𝟓, 𝟎 = 𝟐𝟐, 𝟗𝟕𝟑

La Ecuación de la RRLS es:

𝒀 = −𝟎, 𝟕𝟖𝟒𝟗 ∗ 𝑿 + 𝟐𝟐, 𝟗𝟕𝟑


Donde interpretamos que por cada hora de
capacitación adicional, el número de errores
cometidos decrece en 0,7849 mientras que para
quienes no han recibido ninguna capacitación, el
número de errores cometidos es de 23.
N° Errores cometidos
25

20
N° de Errores cometidos

15

10
y = -0,7849x + 22,973

0
0 5 10 15 20 25 30 35

-5
Tiempo de Capacitación (Horas)
La Capacidad Explicativa del
Modelo.
Capacidad Explicativa del Modelo:

𝒓𝟐 = −𝟎, 𝟗𝟑 𝟐 =0,8649= 86,49%

Lo cual significa que el tiempo de Capacitación


explica un 86,49% de la cantidad de errores
cometidos.

Partición de la Suma de Cuadrados:

𝑺𝑪𝑻 = 𝒏 ∗ 𝑽 𝒀 = 10*(6,05)² =366,025


𝑺𝑪𝑹 = 𝒓𝟐 ∗ 𝐒𝐂𝐓 = 𝟎, 𝟖𝟔𝟒𝟗 ∗ 𝟑𝟔𝟔, 𝟎𝟐𝟓 = 𝟑𝟏𝟔, 𝟓𝟕𝟓
𝑺𝑪𝑬 = 𝑺𝑪𝑻 − 𝑺𝑪𝑹 = 𝟑𝟔𝟔, 𝟎𝟐𝟓 − 𝟑𝟏𝟔, 𝟓𝟕𝟓 = 𝟒𝟗, 𝟒𝟓𝟎

𝑺𝑪𝑻 = 𝑺𝑪𝑬 + 𝑺𝑪𝑹


366,025 = 49,450 + 316,575

Variabilidad Total del "N° de Errores Cometidos"


120,00%

100,00%

80,00%
Parte Explicada por el MRLS
60,00% 86,49% Parte Inexplicada por el MRLS
40,00%

20,00%
13,51%
0,00%
Pronósticos a partir del Modelo
Una vez identificado o construido el Modelo de
Regresión Lineal Simple, también es posible
emplearlo para predecir o pronosticar un Valor
Medio (el valor más probable) para Y, dado un valor
específico asignado a X.

Esto se logra simplemente reemplazando un valor


particular de X dentro de la RRLS y obteniendo un
valor medio para Y.

Ejemplo:
¿Cuál será el Número de Errores que cometa un
empleado que reciba 16 horas de capacitación?
𝒀 = −𝟎, 𝟕𝟖𝟒𝟗 ∗ 𝟏𝟔 + 𝟐𝟐,973 = 10,415
Es decir entre 10 y 11 errores.

Un detalle por demás importante en este aspecto


reside en que sólo puede asignarse a X, un valor
dentro de su rango de variación estudiado, es decir:

𝑥𝑚í𝑛 ≤ 𝑥𝑖 ≤ 𝑥𝑚á𝑥

Esto se debe a que hemos establecido que existe


una relación lineal moderada o fuerte que ha sido
modelada dentro de un cierto rango de valores de X
aunque desconocemos si ese comportamiento lineal
seguirá siendo válido fuera del rango estudiado.
Pronósticos a partir del Modelo
A manera de ejemplo, el siguiente Diagrama de
Dispersión muestra una Nube de Puntos que
evidencia una relación lineal fuerte dentro de un
cierto intervalo, más allá del cual comienza a
desdibujarse.

Si intentáramos elaborar pronósticos más allá de


estos límites, podríamos cometer graves
equivocaciones.

También podría gustarte