Está en la página 1de 26

Carrera: Analista Programador

ESTADÍSTICA INDUCTIVA

Módulo III

Optimizar la toma de decisiones

Unidad 6
Regresión y correlación de variables

Autor de contenidos: Prof. Lic. Marcelo Monferrato

Módulo
III

Unidad 5 Unidad 6

Inferencias Estadísticas Regresión y correlación de variables

Estadística Inductiva / Módulo III / Unidad 6 / Pág.1


Presentación

El análisis de correlación de variables nos permite analizar en forma conjunta


dos o más variables, para luego inferir resultados sobre una de ellas a partir de
la otra (y otras). Esto es algo con lo que estamos muy familiarizados cuando
leemos en los titulares de los periódicos algo como sigue:

“La ingesta de 2 g de canela durante 12 semanas reduce significativamente la


HbA1c, SBP y DBP, entre los pacientes con diabetes de tipo 2”

El titular anterior nos está indicando que hay una correlación de algún tipo entre:

- la cantidad de canela consumida


- el tiempo durante el cual se mantiene la ingesta
- los niveles de la hemoglobina glicosilada (HbA1) y otros parámetros de
salud

Este tipo de relaciones entre parámetros disímiles son naturales en nosotros, y


más habituales de lo que podemos pensar en primera instancia. Analicemos, a
modo de ejemplo, alguna situación en la que uno se ha visto desfavorecido, por
ejemplo, acabamos de salir de un examen y nos encontramos con la noticia de
que nos ha ido mal en el mismo. Inmediatamente comienza en nosotros un
proceso natural de, en primer lugar, análisis de las acciones llevadas a cabo,
horas de estudio, notas anteriores, fuentes consultadas, etc. Al mismo tiempo,
comenzamos a relevar a nuestro alrededor a quienes consideramos nuestros
pares frente a la misma situación (o sea, nuestros compañeros de examen), y
los indagamos sobre los mismos parámetros, con preguntas al estilo:

- ¿vos cuánto estudiaste?


- ¿hace mucho que venís preparando la materia?
- ¿estudiaste sólo?
- ¿te preparaste con alguien?
- ¿hiciste todos los ejercicios?

Estadística Inductiva / Módulo III / Unidad 6 / Pág.2


En resumen, estamos intentando encontrar una correlación entre lo que
consideramos parámetros habituales y pertinentes con respecto a la consigna
(rendir correctamente el examen) y su cuantificación (horas de estudio, cantidad
de ejercicios, etc.), para finalmente intentar establecer, aún sin un método
preestablecido, la relación entre todo lo anteriormente mencionado y el resultado
final. De esta manera, nuestras conclusiones suelen ser del siguiente tipo:

- Este examen hay que comenzar a prepararlo por lo menos tres semanas
antes
- Tengo que estudiar, como mínimo, cuatro horas por día
- Hay que hacer casi todos los ejercicios del práctico para pasar el escrito

Es así como, de manera natural, intentamos encontrar respuestas a nuestras


acciones y sus resultados de manera precisa y predictible. No nos sorprende
pensar, entonces, que a mayor experiencia, se corresponderán mejores y más
precisos pronósticos. Esto es materia recurrente en muchas profesiones en las
cuales, aún sin demasiados conocimientos matemáticos por parte del agente
estimador, la confección de presupuestos son un acto diario. Pensemos en un
pintor, un albañil, un carpintero, un tapicero, y cualquier trabajador que deba
realizar tanto presupuestos de costos como de tiempos.

Y como ejemplo final, pensemos en las relaciones establecidas con las que
contamos a diario para administrar nuestras finanzas hogareñas, como por
ejemplo la relación entre los viajes que realizo y el gasto mensual en
combustibles.

Llegamos a una primera conclusión entonces, que es que no nos es difícil


encontrar relaciones entre parámetros, sino que la dificultad radica más bien en
establecer cuál es el tipo de relación.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.3


1. Regresión Lineal

1.1 El diagrama de Dispersión

Vamos a comenzar realizando un análisis de correlación entre variables. Una


manera de hacerlo es mediante un sencillo diagrama de dispersión, en el cual
volcaremos los datos previamente reunidos mediante cálculos, encuestas, o bien
en forma experimental.

Para este ejemplo, tomaremos las medidas de diversas circunferencias y sus


diámetros, obtenidas mediante observación directa y posteriormente incluidas en
la siguiente tabla:

Nro de observación Diámetro Longitud en


(n) en cm (x) cm (y)
1 2.10 6.50
2 5.50 17.10
3 4.00 12.50
4 3.80 12.00
5 6.00 18.90
6 3.50 11.00
7 4.60 14.40
Tabla 6.1 – Datos sobre diámetros y longitudes de la circunferencia.

A continuación graficamos los pares de datos en un sistema de ejes, haciendo 𝑥


al diámetro e 𝑦 a la longitud de la circunferencia, ambas expresadas en
centímetros.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.4


20
18
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7

Importante:

La decisión sobre cuál de las variables es 𝑥 y cuál es 𝑦 se basa,


fundamentalmente, en determinar qué variable va a depender de la
otra, o sea qué variable utilizaremos para obtener datos sobre la otra.

En estadística, 𝑦 (la variable dependiente) es también llamada variable


de respuesta, y 𝑥 (la variable independiente) es llamada variable
predictora o variable explicativa.

El diagrama de dispersión nos brinda de inmediato información sobre si existe


relación entre ambas variables y de qué tipo es ésta. Veamos algunos ejemplos:

Estadística Inductiva / Módulo III / Unidad 6 / Pág.5


7
6
5
4 Existe correlación lineal positiva
3
2 𝑟≅1
1
0
0 1 2 3 4 5 6 7

7
6
5
4 Existe correlación no lineal
3
2
𝑟=0
1
0
0 1 2 3 4 5 6 7

7
6
5
4 Existe correlación lineal negativa
3
𝑟 ≅ −1
2
1
0
0 1 2 3 4 5 6 7

7
6
5
4 No existe correlación entre los
datos
3
2 𝑟=0
1
0
0 1 2 3 4 5 6 7

Estadística Inductiva / Módulo III / Unidad 6 / Pág.6


El valor r establecido para cada diagrama es el valor de correlación, que se
encuentra siempre entre los valores -1 a +1. Valores cercanos a estos extremos
indican alta correlación entre las variables analizadas. Valores cercanos al 0
indican baja o nula correlación.

1.2 La Recta de Regresión

Cuando la relación entre las dos variables queda representada por una línea
recta, se establece la denominada recta de regresión, que es aquella que se
ajustan de la mejor manera a los puntos del diagrama de dispersión. Para
nuestro caso, la recta de regresión quedaría graficada de la siguiente manera:

20
18
16
14
(4.21,13.2)
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7

En este diagrama, el punto rojo identificado con sus coordenadas establece el


centro de gravedad de la dispersión, que se obtiene hallando las medias
aritméticas de las variables.

Centro de gravedad: (x
̅ , y̅)

Calculamos para nuestro caso:

∑71 xi 2.1 + 5.5 + 4.0 + 3.8 + 6.0 + 3.5 + 4.6 29.5


x̅ = = = ≅ 4.21
7 7 7

Estadística Inductiva / Módulo III / Unidad 6 / Pág.7


∑71 yi 6.5 + 17.1 + 12.5 + 12.0 + 18.9 + 11.0 + 14.4 92.4
y̅ = = = = 13.2
7 7 7

Con lo cual, el punto buscado es (4.21,13.2)

Nota: La recta de regresión siempre pasa por el centro de gravedad (𝑥̅ , 𝑦̅).

1.3 El Método de Mínimos Cuadrados

Este método nos permite establecer una manera de encontrar la ecuación de la


recta de regresión establecida en el punto anterior, de tal manera que la misma
presente el mejor ajuste para todos los puntos del diagrama de dispersión y a la
vez minimice el error. Podríamos simplemente buscar aquella recta en la que los
errores sean los mínimos posibles, pero este procedimiento tiene el defecto de
que un gran error por exceso se equilibraría con muchos pequeños errores por
defecto, lo cual nos daría una recta que no sería la adecuada. De la misma
manera, si tratáramos con los errores absolutos, impidiendo de esta manera que
se anularan entre sí, estaríamos encontrando una recta más adecuada, pero que
aún no haría foco en la magnitud de los errores cometidos.

¿Cuál es, entonces, una manera apropiada de encontrar los puntos de la recta?

Bueno, una posible solución consiste en elevar al cuadrado los desvíos de las
ordenadas de los puntos a considerar en nuestra recta con respecto a los puntos
de las mediciones. De esta manera lograremos dos objetivos:

1. Amplificar la magnitud de los errores cometidos.


2. Hacer que todos los errores den positivo.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.8


Para ello, primero diferenciaremos las ordenadas de los puntos originales de las
de los puntos de la recta con la siguiente notación:

𝑦: son las ordenadas de los puntos originales


𝑦̂: son las ordenadas de los puntos de la recta

De esta manera, la obtención de los desvíos, para cada par de puntos, se


obtendrá calculando la diferencia y − ŷ y elevándola al cuadrado.

Entonces, hasta el momento tenemos:

- Un conjunto de puntos (𝑥, 𝑦) correspondientes a las muestras.


- Un diagrama de dispersión que se asemeja a una línea recta.
- Una estrategia para obtener los puntos de una recta que se ajuste de la
mejor manera a los puntos del diagrama.

Como lo que queremos es minimizar, entonces lo que debemos hacer es


encontrar una fórmula que vincule los datos con la pendiente y la ordenada al
origen de la recta deseada, de tal manera que podamos escribir su ecuación.
Esto se obtiene derivando la fórmula de los errores cuadráticos para
posteriormente despejar los elementos de la recta mencionada. No vamos a
realizar todo este desarrollo en este apunte y nos limitaremos a escribir las
fórmulas de dichos elementos. Así pues, tenemos:

- La ecuación de la recta de estimación de mejor ajuste

𝑦 = 𝑎 + 𝑏𝑥

Siendo b la pendiente, que se obtiene con la fórmula:

∑𝑛1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅
𝑏=
∑𝑛1 𝑥𝑖2 − 𝑛𝑥̅ 2

Estadística Inductiva / Módulo III / Unidad 6 / Pág.9


y a es la ordenada al origen, cuya fórmula es:

𝑎 = 𝑦̅ − 𝑏𝑥̅

Es importante aclarar que las fórmulas que anteceden pueden encontrarse


escritas de diversas formas en los textos sobre el tema, pero con todas ellas se
obtiene el mismo resultado.

A continuación vamos a tomar los datos de nuestro ejemplo (Tabla 6.1) y


calcularemos la pendiente y ordenada al origen con las fórmulas vistas. Para ello,
ampliaremos la tabla agregando las columnas que necesitamos para nuestros
cálculos y las sumas de cada columna.

Nro de observación Diámetro Longitud en


𝑥. 𝑦 𝑥2
(n) en cm (x) cm (y)
1 2.10 6.50 13.65 4.41
2 5.50 17.10 94.50 30.25
3 4.00 12.50 50.00 16.00
4 3.80 12.00 45.60 14.44
5 6.00 18.90 113.40 36.00
6 3.50 11.00 38.50 12.25
7 4.60 14.40 66.24 21.16
Totales 29.50 92.40 421.44 134.51

Las medias de cada variable ya las habíamos calculado, siendo:

𝑥̅ ≅ 4.21

𝑦̅ = 13.2

Estadística Inductiva / Módulo III / Unidad 6 / Pág.10


Calculemos ahora los parámetros de la recta:

∑𝑛1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅ 421.44 − 7. (4.21). (13.2) 32.04


𝑏= = = ≅ 3.1446999
∑𝑛1 𝑥𝑖2 − 𝑛𝑥̅ 2 134.51 − 7. (4.21)2 10.19

𝑎 = 𝑦̅ − 𝑏𝑥̅ = 13.2 − (3.144). (4.21) ≅ −0.052664

Por último mostramos la ecuación de la recta de regresión obtenida por este


método:

𝑦 = 𝑎 + 𝑏𝑥 = −0.05 + 3.144 𝑥

No es de extrañar que tenga pendiente 3.144 puesto que es la relación existente


entre el diámetro de una circunferencia y su longitud.

Nota:
La diferencia entre los valores mostrados en esta página y los que surgen
de los mismos cálculos obtenidos con una calculadora se debe a que se
han tomado muchos más decimales que los dos mostrados en este texto

Estadística Inductiva / Módulo III / Unidad 6 / Pág.11


Incorporaremos la recta obtenida a nuestra gráfica:

20
18
y = 3,14x - 0.05
16
14
(4.21,13.2)
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7

1.4 Error de la estimación

Para continuar nuestro análisis de la regresión, calcularemos a continuación qué


tan confiable es la ecuación hallada, lo cual haremos mediante el error estándar
de la estimación, que puede calcularse con la siguiente fórmula:

∑𝑛1(𝑦̂𝑖 −𝑦𝑖 )2
𝑆𝑒 = √
𝑛−2

Ahora bien, el uso de la anterior fórmula implica agregar nuevas columnas con
los valores obtenidos a través de la fórmula de la recta de estimación, para luego
realizar los cálculos. Existe también la posibilidad de utilizar un método
abreviado que simplifique nuestros cálculos, a saber:

∑𝑛1 𝑦𝑖 2 − 𝑎 ∑𝑛1 𝑦𝑖 − 𝑏 ∑𝑛1 𝑥𝑖 𝑦𝑖


𝑆𝑒 = √
𝑛−2

Estadística Inductiva / Módulo III / Unidad 6 / Pág.12


De esta manera, evitamos tener que incurrir en numerosos cálculos, puesto que
ya contamos en nuestra tabla con los utilizados por esta fórmula. De todas
maneras existe la desventaja de que estaremos utilizando datos obtenidos en el
paso anterior, que en el caso de estar equivocados, nos harán incurrir en nuevos
errores.

Calculemos para nuestro ejemplo de las circunferencias, ampliando una vez más
la tabla para incorporar el cálculo de y 2 :

Nro de Diámetro en Longitud en


𝑥. 𝑦 𝑥2 𝑦2
observación (n) cm (x) cm (y)
1 2.10 6.50 13.65 4.41 42.25
2 5.50 17.10 94.50 30.25 292.41
3 4.00 12.50 50.00 16.00 156.25
4 3.80 12.00 45.60 14.44 144.00
5 6.00 18.90 113.40 36.00 357.21
6 3.50 11.00 38.50 12.25 121.00
7 4.60 14.40 66.24 21.16 207.36
Totales 29.50 92.40 421.44 134.51 1320.48

∑𝑛1 𝑦𝑖 2 − 𝑎 ∑𝑛1 𝑦𝑖 − 𝑏 ∑𝑛1 𝑥𝑖 𝑦𝑖


𝑆𝑒 = √ =
𝑛−2

1320.48 − (−0.05)(92.40) − (3.14)(421.44)


=√ =
7−2

0.0438
=√ = √ 0.0876 = 0.093
5

Insistimos una vez más en utilizar una buena cantidad de decimales para estos
cálculos.

Para el estudiante:

Se propone, antes de seguir, que vuelque los datos del ejercicio en una hoja de
cálculo, y arme las columnas necesarias para calcular el error mediante la otra
fórmula y comprobar que se obtiene idéntico resultado

Estadística Inductiva / Módulo III / Unidad 6 / Pág.13


1.5 Interpretación del error estándar

Vamos a interpretar el error calculado en el punto anterior. En primer lugar


indicaremos que un valor de Se cercano a 0 indica que los puntos del diagrama
de dispersión se ajustan adecuadamente a la recta obtenida. Por el contrario, un
valor cercano a 1 nos informa que los puntos se hallan muy dispersos respecto
de la recta.

Pero además, si consideramos que los puntos tienen una distribución normal
respecto de la recta, el análisis de la distribución nos permite encontrar los
valores extremos de la recta para los cuales un amplio porcentaje de los mismos
quedan encerrados entre dichos valores. Por ejemplo:

- Un valor de ±1Se encierra el 68.2% de los puntos


- Un valor de ±2Se encierra el 95.4% de los puntos
- Un valor de ±3Se encierra el 99.6% de los puntos

Lo anterior, aplicado a la recta que hemos encontrado, se manifiesta de la


siguiente manera:

- Para ±1Se las rectas son y = 3.144 x − 0.05 ± 0.093


- Un valor de ±2Se las rectas son y = 3.144 x − 0.05 ± (2)(0.093)
- Un valor de ±3Se las rectas son y = 3.144 x − 0.05 ± (3)(0.093)

Como en nuestro caso el error es muy bajo, una pequeña variación en la altura
de la recta incluye un alto porcentaje de los puntos del diagrama.

1.6 Variación Explicada, No Explicada y Total

En esta sección mencionaremos algunos parámetros que forman parte del


análisis de la variabilidad en el análisis de regresión.

A la diferencia entre cada valor ŷi estimado mediante nuestra recta de regresión
y la media y̅ se lo denomina variación explicada de la variable de respuesta.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.14


Se la denomina de esta manera porque son variaciones que fueron consideradas
por la recta de regresión. En símbolos:

variación explicada de yi = ŷi − y̅

También encontramos diferencias entre los valores observados yi y los valores


calculados a través de la recta de regresión. Estas son las denominada
variaciones no explicadas, que se deben a factores no considerados por la recta
de regresión. En símbolos:

variación no explicada de yi = yi − ŷi

Finalmente, a la diferencia entre cada valor de yi obtenido para nuestro análisis y


la media se lo denomina variación total. En símbolos:

variación total de yi = yi − y̅

En la siguiente gráfica se muestran los tres tipos de variaciones aplicados a tres


puntos distintos.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.15


En la gráfica se aprecia claramente entre qué objetos se establece la diferencia
que figura en cada variación, de la siguiente manera:

La variación… es la diferencia entre…


no explicada el valor observado y la regresión
explicada el valor de regresión y la media
total el valor observado y la media

1.7 El Coeficiente de Determinación

Una duda que se desprende del análisis de regresión realizado es en qué medida
la variable independiente “explica” a la variable dependiente mediante la recta
de regresión.

Esto puede medirse mediante el coeficiente de determinación r 2 que muestra el


porcentaje de la variación de y que explica nuestro modelo.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.16


Se puede calcular con la siguiente fórmula:

𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑦 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛


𝑟2 = 1 −
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑦 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑑𝑒 𝑠𝑢 𝑚𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎

O sea,

∑𝑛1(𝑦𝑖 − 𝑦̂𝑖 )2
𝑟2 = 1 −
∑𝑛1(𝑦𝑖 − 𝑦̅)2

Calculemos este estimador para nuestro ejemplo y realicemos su análisis. Para


ello, se muestra a continuación la tabla con los valores originales y los que
necesitamos para realizar nuestros cálculos.

Nro de
Diámetro Longitud
observación
en cm (x) en cm (y)
̂
𝒚 ̂ 𝒊 )𝟐
(𝒚𝒊 − 𝒚 ̅ )𝟐
(𝒚𝒊 − 𝒚
(n)
1 2.10 6.50 6.55 0.00262 44.89
2 5.50 17.10 17.24 0.02050 15.21
3 4.00 12.50 12.52 0.00068 0.49
4 3.80 12.00 11.89 0.01056 1.44
5 6.00 18.90 18.81 0.00713 32.49
6 3.50 11.00 10.95 0.00213 4.84
7 4.60 14.40 14.41 0.00016 1.44
Totales 29.50 92.40 92.40 0.04381 100.8

∑𝑛1(𝑦𝑖 − 𝑦̂𝑖 )2 −7.105 x 10−15


𝑟2 = 1 − = 1 − ≅1
∑𝑛1(𝑦𝑖 − 𝑦̅)2 100.8

Como el valor de este resultado es prácticamente 1, entonces el modelo explica


el 100% de las variaciones de las variables de respuesta. Esto ocurre porque
todos los valores caen sobre la recta de regresión o son muy próximos a ella.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.17


Una vez más, como en casos anteriores, aportamos una fórmula alternativa para
encontrar el coeficiente de determinación, y que no implica realizar los cálculos
de las nuevas columnas. La fórmula para el método abreviado es:

𝑏 ∑𝑛1 𝑥𝑖 𝑦𝑖 + 𝑎 ∑𝑛1 𝑦𝑖 − 𝑛𝑦̅ 2


𝑅2 =
∑𝑛1 𝑦𝑖 2 − 𝑛𝑦̅ 2

Que para los valores de nuestro ejemplo quedaría como:

(3.144)(421.44) + (−0.05)(92.4) − (7)(13.2)2


𝑟2 = ≅1
1320.48 − (7)(13.2)2

Puesto en términos de las variaciones estudiadas en el punto anterior, podemos


decir que el coeficiente de determinación es la relación entre la variación
explicada y la variación total, lo cual nos brinda una nueva fórmula para su
cálculo, a saber:

∑𝑛1(𝑦̂𝑖 − 𝑦̅)2
𝑟2 =
∑𝑛1(𝑦𝑖 − 𝑦̅)2

1.8 El Coeficiente de Correlación

El coeficiente de correlación nos indica qué tan fuerte (o débil) es la relación


entre las variables analizadas, y su valor es la raíz cuadrada del coeficiente de
determinación, si bien puede calcularse independientemente de él. Su valor está
siempre comprendido entre -1 y 1, siendo su signo el que le corresponde a la
pendiente de la recta de regresión. Tenemos entonces que:

𝑟 = √𝑟 2

Estadística Inductiva / Módulo III / Unidad 6 / Pág.18


Y su interpretación

0.0 a 0.2 0.4 a 0.7 0.9 a 1.0


correlación correlación correlación
débil moderada muy fuerte

0.2 a 0.4 0.7 a 0.9


correlación correlación
leve significativa

Interpretación conjunta de ambos coeficientes

Si el coeficiente de determinación es 0.64 entonces el coeficiente de correlación


es de 0.80 y se interpreta de la siguiente manera:

“El 64% de la variación en la variable dependiente queda explicada por la recta


de regresión, y un 80% de los datos están relacionados entre sí”

Como la relación entre ambos coeficientes siempre será la misma


independientemente del tema tratado, las decisiones estratégicas basadas en
estos indicadores deberán estar más orientadas a lo abarcativo o a lo efectivo,
según demos mayor importancia al coeficiente de correlación o al de
determinación, respectivamente.

1.9 Introducción al Análisis de Regresión Múltiple

Los conceptos vistos en los puntos anteriores pueden ampliarse al caso en el que
los resultados obtenidos para la variable de respuesta dependa de más de una
variable independiente. En estos casos, al análisis lo denominamos de Regresión
Múltiple.

Los ejemplos de este tipo apuntan a describir el comportamiento de alguna


variable cuando se sospecha que son influenciadas por más de motivo, como por

Estadística Inductiva / Módulo III / Unidad 6 / Pág.19


ejemplo el rendimiento de un deportista por raza y procedencia, los costos de
publicidad cuando se combinan métodos gráficos y audiovisuales, la combinación
de diversas medicaciones o vitaminas en una dieta, los factores diversos que
desencadenan una enfermedad, la estructura salarial de una compañías y otros
por el estilo.

Para realizar el análisis de regresión múltiple se procede de manera similar a la


que hemos utilizado para la regresión simple, esto es:

- Hallamos una ecuación que se ajuste a la regresión múltiple


- Encontramos el error de la regresión
- Analizamos los coeficientes que nos permitan conocer la correlación entre
las variables

Comencemos entonces, por la ecuación para la regresión múltiple:

Así como la ecuación que define los valores estimados de la variable de


respuesta es 𝑦 = 𝑎 + 𝑏𝑥 cuando depende de una única variable independiente,
cuando depende de muchas será:

𝑦 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ + 𝑏𝑛 𝑥𝑛

donde 𝑥1 , 𝑥2 , 𝑥3 … son las variables predictoras y 𝑏1 , 𝑏2 , 𝑏3 …. sus pendientes


asociadas. Se trata de un modelo de regresión lineal múltiple con n regresores (o
variables predictoras)

Y así como en el caso de única dependencia la solución gráfica es una recta de


regresión, al agregar una variable predictora más, por ejemplo, se obtiene un
plano de regresión. Pero así y todo, el ajuste por mínimos cuadrados se realizará
de la misma manera, es decir, minimizando las sumas de los cuadrados de los
errores.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.20


Nota:

Cuando una regresión múltiple responde a una fórmula del tipo


𝑦 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ + 𝑏𝑛 𝑥𝑛 con n parámetros lineales estaremos en
presencia de un modelo de regresión lineal, independientemente del tipo de
superficie que genere la función.

1.10 Las Series Cronológicas

Uno de los aspectos más importantes en la administración de una empresa o


proyecto, es la predicción a mediano y largo plazo. De ello dependen una
enorme cantidad de recursos humanos, físicos, tecnológicos y financieros. Se
compra, se produce y se vende en función de las predicciones. Se inician o
cancelan proyectos de la misma manera. Y ni hablar de las inversiones.

Es, por lo tanto, de sumo interés para las organizaciones el contar con
herramientas predictivas de gran calidad, y para ello echaremos mano una vez
más a los recursos que nos brinda esta materia.

Para comenzar, es preciso contar con datos inherentes al comportamiento que


deseamos predecir. De esta manera podemos, por ejemplo, utilizar los datos
históricos de la empresa que estamos analizando o, si estos faltan, los datos de
situaciones similares en otras organizaciones. Estos datos son los que conforman
la serie cronológica que estudiaremos.

Definición:

Una serie de tiempo o serie cronológica es un conjunto de observaciones


sobre una variable que se ha medido a lo largo del tiempo en períodos sucesivos.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.21


1.11 Componentes de una serie cronológica

A menudo, para analizar una serie cronológica, se recurre al estudio de los


factores que definen su comportamiento. Por lo general, estos factores se
agrupan en cuatro componentes que analizaremos a continuación.

1. Componente de tendencia

Cuando una observación se realiza en forma periódica y regular a lo largo de un


período prolongado de tiempo, se podrá deducir de ella una tendencia de largo
plazo, logrando de esta manera inferir un comportamiento a corto y mediano
plazo, siempre y cuando no aparezcan en escena factores que desencadenen una
abrupta caída o incremento de la variable analizada.

Veamos un par de ejemplos gráfico de esta componente:

Ejemplo 1:
Se aprecia una tendencia lineal creciente

Estadística Inductiva / Módulo III / Unidad 6 / Pág.22


Ejemplo 2:
Tendencia no lineal, creciente y con período de estancamiento

2. Componente cíclica

Ocurre cuando en una serie cronológica algún tipo de medición se reitera en


ciclos, alternando su distribución por encima y por debajo de la línea de
tendencia general del proceso. Es, por ejemplo, lo que ocurre en algunas
economías en las que, cíclicamente, ocurren períodos de crisis.

Gráficamente, se manifiesta de la siguiente manera:

Estadística Inductiva / Módulo III / Unidad 6 / Pág.23


3. Componente estacional

Este tipo de componente manifiesta un alza en las medidas de un determinado


parámetro durante una época del año, semestre, mes, o lapso de tiempo
determinado. Ejemplos de esto son las ventas de helados, o las ventas de
algunos comercios que se encuentran en las inmediaciones de un estadio,
durante la temporada de un campeonato.

4. Componente irregular

Se trata de un comportamiento aislado en una serie cronológica analizada, y que


no se puede adjudicar a un componente estacional o cíclica. A menudo puede
justificarse este comportamiento si se analizan las variables en el período
afectado, y habitualmente no puede utilizarse para predecir comportamientos
futuros. Un ejemplo, podría ser el incremento notable en la venta de alcohol en
gel durante un brote de gripe A.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.24


1.12 Predicción en series cronológicas

Veremos, a modo de ejemplo, cómo se pueden utilizar los datos cuantitativos de


una serie cronológica en predicción. Para ello, utilizaremos un método que se
conoce como promedio móvil.

El método consiste en tomar los datos de una serie y promediarlos agrupando


los mismos. Por ejemplo, si estamos tomando datos mensuales de las ventas,
podemos promediar por bimestres, trimestres, etc. Vamos a ilustrar este
procedimiento considerando las ventas de un determinado artículo
semanalmente a lo largo de dos meses.

Los datos son:

Serie cronológica del volumen


semanal de ventas

Semana Total ($)

1 10.500

2 8.500

3 9.600

4 4.000

5 8.800

6 8.500

7 7.500

8 5.200

9 7.100

Estadística Inductiva / Módulo III / Unidad 6 / Pág.25


Para realizar los cálculos, agruparemos los promedios de a tres semanas a la
vez. Los cálculos serán:

10500 + 8500 + 9600


𝑠𝑒𝑚𝑎𝑛𝑎[1−3] = = 9533
3
8500 + 9600 + 4000
𝑠𝑒𝑚𝑎𝑛𝑎[2−4] = = 7367
3

…y así sucesivamente. Volcaremos estos datos en una tabla, junto con otros que
explicaremos a continuación.

Análisis de la serie cronológica del volumen semanal de ventas

Semana Total ($) Pronóstico del Error del Error cuadrático del
promedio móvil pronóstico pronóstico

1 10.500

2 8.500

3 9.600 9.533 -67 4.444

4 4.000 7.367 3.367 11.334.444

5 8.800 7.467 -1.333 1.777.777

6 8.500 7.100 -1.400 1.960.000

7 7.500 8.267 767 587777

8 5.200 7.067 1.867 3.484.444

9 7.100 6.600 -500 250.000

¿Cómo se utilizan estos valores?

Para comparar la exactitud del procedimiento anterior con respecto a otros, se


utiliza lo que se denomina “cuadrado medio debido al error” que es el promedio
de la última columna. En nuestro caso, el valor obtenido es 2.771.269, y ese es
el valor que se utiliza en la comparación con otros métodos.

Estadística Inductiva / Módulo III / Unidad 6 / Pág.26

También podría gustarte