Está en la página 1de 33

Versión semipresencial

Prof. Esgiorge Torrez


2 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Introducción
Los datos numéricos que están relacionados abundan en todas partes;
por ejemplo en los negocios, la economía, la medicina, la física, etcétera.
Con frecuencia, se tiene la necesidad de examinar las relaciones entre
diferentes
Variables.
Los siguientes ejemplos muestran situaciones en las que dos variables
se encuentran relacionadas:
1. La cantidad de anuncios de un producto determinado que se presenta en
los medios de comunicación está relacionada con sus ventas.
2. El número de artículos que no cumplen con las normas de calidad está
relacionado con el costo del producto.
3. El calentamiento de un cable en un circuito eléctrico está relacionado con
el voltaje aplicado a este y su tiempo de uso.
4. El rendimiento de un compuesto químico está afectado por la temperatura
y la presión.
5. El precio de licitación para un proyecto de construcción de carreteras
puede estar relacionado con su longitud y la cantidad de licitadores.

En los ejemplos anteriores se observa que es interesante investigar y


proponer un modelo que defina la relación entre las variables que están
analizándose, además de proporcionar una medida que dé a conocer el
grado de asociación entre éstas. El modelo puede ser usado en diferentes
procesos, por ejemplo, para predicción, control u optimización de la
producción o ventas del producto.
3 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

A continuación se muestran algunas definiciones de regresión lineal:

 La regresión lineal es una técnica de modelado estadístico que se


emplea para describir una variable de respuesta continua como una
función de una o varias variables predictoras. Puede ayudar a
comprender y predecir el comportamiento de sistemas complejos o a
analizar datos experimentales, financieros y biológicos.
 La regresión lineal es una técnica de análisis de datos que predice el
valor de datos desconocidos mediante el uso de otro valor de datos
relacionado y conocido. Modela matemáticamente la variable desconocida
o dependiente y la variable conocida o independiente como una ecuación
lineal. Por ejemplo, supongamos que tiene datos sobre sus gastos e
ingresos del año pasado. Las técnicas de regresión lineal analizan estos
datos y determinan que tus gastos son la mitad de tus ingresos. Luego
calculan un gasto futuro desconocido al reducir a la mitad un ingreso
conocido futuro.
 El análisis de regresión es una técnica estadística para investigar la
relación funcional entre dos o más variables, ajustando algún modelo
matemático.

Como se puede ver en el concepto de la Regresión Lineal se menciona


que se utilizan variables dependientes e independientes dentro de este
algoritmo, por lo que antes de continuar con la explicación de este algoritmo
es bueno que tengas claro de qué se trata este tipo de variables para que
puedas entender las siguientes explicaciones.

Las variables independientes o características, son variables que se


manipulan para determinar el valor de una variable dependiente.
4 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Simplemente, son las características que queremos usar para predecir algún
valor dado de y. Normalmente en Machine Learning vienen declarado como
X.

Por otra parte la variable dependiente u objetivo, depende de los valores


de la variable independiente. En pocas palabras, es la característica que
estamos tratando de predecir. Esto también se puede conocer comúnmente
como una variable de respuesta. En Machine Learning esta variable está
definida como y.

En un modelo de regresión, a la variable por predecir o por modelar, y,


la denominamos variable dependiente o de respuesta, y a las variables
que se utilizan para predecir o modelar a y las denominamos variables
independientes o predictoras y se denota x

Ejemplo de Variables
Se desea estudiar la relación existente entre el número de horas que estudia
un alumno y la nota obtenida en su examen final de lapso.
Aquí la variable independiente es
X = Número de horas de estudios.
La variable dependiente es:
Y = Nota obtenida en el examen final de lapso.

Diagrama de dispersión

El diagrama de dispersión es una representación gráfica de dos variables


cuantitativas que se analizan de manera simultánea, en general se denotan
por x y y. La característica de estos gráficos es que los datos se presentan
en forma de puntos, sin estar unidos por segmentos de recta. La escala del
5 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

eje X contiene el rango de los valores necesarios para la variable x; por su


parte, el eje Y también tiene una escala adecuada para los valores de y. Los
pares de datos se representan de manera gráfica en un sistema de dos
dimensiones. Los diagramas de dispersión se pueden trazar en Excel.

Una ventaja de los diagramas de dispersión es que permiten observar


la relación entre las dos variables de interés. Es decir, si la relación es o no
lineal o qué forma posible tiene.

A continuación se representan los diagramas de dispersión que


muestran algunos patrones de la relación entre x y y.
6 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Supuestos de la variable dependiente en el análisis de


regresión

El objetivo principal del análisis de regresión es predecir el valor de


una variable (dependiente Y) dado el valor de otra asociada (independiente
X).

El término análisis de regresión simple indica que los valores de la


variable dependiente se predicen sobre la base de los de una sola variable
independiente, mientras que el análisis de regresión múltiple se relaciona
con la predicción de los valores de la dependiente sobre la base de los
valores de dos o más variables independientes.

Supuestos generales de la variable dependiente en el


modelo de regresión lineal simple

1. La variable dependiente es una variable aleatoria. Esto implica que


aunque los valores de la variable independiente pueden ser designados, los
de la dependiente deben obtenerse por medio del proceso de muestreo.
7 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

2. Las variables independientes y dependientes están asociadas de manera


lineal.

3. Las varianzas de las distribuciones condicionales de la variable


dependiente, dados valores diferentes de la variable independiente, son
iguales (homocedasticidad).

4. La distribución condicional de la variable dependiente, dados valores


diferentes de la variable independiente, es normal.

Análisis de regresión lineal

Método de mínimos cuadrados

Modelo matemático de línea recta para describir las relaciones funcionales


entre las variables dependientes e independientes por medio de una
ecuación lineal, la ecuación está dada por:

y = a +bx

Donde
y = Valor pronosticado de la variable dependiente.
a = valor estimado de la ordenada al origen de la población
b = valor estimado de la pendiente de la recta poblacional.
X = Variable independiente
Para determinar los valores de a y b se aplica la siguiente formula:

Si b es positiva entonces
∑ ∑ ∑ la recta de la gráfica es
creciente.
∑ (∑ )
Si b es negativa entonces
la recta de la gráfica es
decreciente.
8 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

̅ ̅
Donde
𝑛
n = es el número de observaciones ∑ 𝑥𝑖 𝑦𝑖 𝑠𝑢𝑚𝑎𝑡𝑜𝑟𝑖𝑎 𝑑𝑒𝑙 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑜 𝑑𝑒 𝑥. 𝑦
𝑖
̅ El promedio de los valores de x
𝑛

̅ El promedio de los valores de y ∑ 𝑥𝑖 𝑠𝑢𝑚𝑎𝑡𝑜𝑟𝑖𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑥


𝑖

CORRELACIÓN LINEAL Y RECTA DE REGRESIÓN.

Cuando observamos una nube de puntos podemos apreciar si los puntos se


agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se
distribuyen alrededor de una recta. Si así ocurre diremos que hay correlación
lineal. La recta se denomina recta de regresión.

Cuando la recta es creciente la correlación es positiva o directa: al


aumentar una variable, la otra tiene también tendencia a aumentar, como
en en este ejemplo:
9 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Cuando la recta es decreciente la correlación es negativa o inversa:


al aumentar una variable, la otra tiene tendencia a disminuir.

Hablaremos de
correlación lineal fuerte:
cuando la nube se parezca
mucho a una recta y será
cada vez más débil (o menos
fuerte) cuando la nube vaya
desparramándose con
respecto a la recta.

Interpretación de la gráfica:

La recta y =1.75+0.25X representa la recta que nos ayuda a calcular el


pronóstico de cierta variable dependiente y.
10 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

La distancia que hay desde un punto que no está en recta hacia ella se llama
Desviación o error y está dado por la fórmula:

Este cálculo se llama desviación estándar de la regresión y mide el


error desde la variable dependiente Y hasta la recta de regresión.

Coeficientes de correlación para rectas de regresión (r):

Esta medida representa el grado o la fuerza de la regresión lineal. Se


identifica como r, el coeficiente de correlación puede ser cualquier número
entre -1 y 1, es decir -1< r < 1

Correlación positiva perfecta (al aumentar x aumenta y)

r = +1 : todos los datos se encuentran en la recta, es decir se ajustan a la


recta de predicción . (El positivo indica la dirección de la recta creciente)

Correlación positiva (al aumentar x aumenta y)


11 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

0<r<1: no todos los datos se encuentran en la recta de predicción, mientras


más cerca este del 1 se dice que hay una correlación fuerte y mientras más
cerca este del cero es una correlación débil.

No hay correlación:

r = 0: quiere decir que los datos se encuentran tan dispersos que no existe
una correlación.

Correlación negativa perfecta (al aumentar x disminuye y):

r =-1: todos los datos se encuentran en la recta, es decir se ajustan a la


recta de predicción. (El negativo indica la dirección de la recta decreciente)

Correlación negativa (al aumentar x disminuye y):

-1<r<0: no todos los datos se encuentran en la recta de predicción,


mientras más cerca este del -1 se dice que hay una correlación fuerte y
mientras más cerca este del 0 es una correlación débil.

Los puntos anteriores podemos describirlo de la siguiente manera


12 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

2
Coeficiente de determinación r

El coeficiente de determinación es el porcentaje de variación en la variable


dependiente Y que explica la ecuación de regresión.

Lo cual permite determinar la exactitud de predicción de la ecuación de


regresión y = a+bx mediante la variable x. se expresa en porcentaje (%)

Lo cual quiere decir que un porcentaje de los casos de Y se explican con la


ecuación de regresión.

2
Para obtener a r solo debemos elevar al cuadrado a
Coeficientes de correlación para rectas de regresión (r)

Ejemplo N° 1

Un gerente quiere saber si el volumen semanal de ventas en miles de


Bolívares de su empresa se puede ajustar a una línea recta con el número
de anuncios de publicidad para televisión.

En la siguiente tabla se muestra la información recolectada:

Observación Anuncios de publicidad (x) Volumen semanal de ventas


i en miles de Bolívares (y)
1 3 125
2 5 152
3 4 131
4 4 133
5 5 142
6 3 116
7 3 127
8 6 163
13 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Se pide:

a) Grafique la recta y determinar si existe una relación lineal.


b) Determinar el modelo matemático de línea recta (la ecuación y =
a+bx) para describir las relaciones funcionales entre las variables,
interprete los resultados ( de los valores a y b de la ecuación)
c) Obtenga el informe de análisis de datos arrojado por Excel e
interprete:
 Coeficientes de correlación para rectas de regresión (r)
 2
Coeficiente de determinación r
 Error típico (desviación estándar)
d) si se publican 7 anuncios ¿Cuál sería el volumen de ventas en miles de
Bolívares según el modelo encontrado?

Solución:

Parte a) Para la gráfica usaremos Excel

Paso 1: abra un archivo de Excel y copie la tabla de datos


14 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Paso 2 seleccione la columnas de la variable x e y haga click en


insertar grafico de dispersión

Obtendrá el siguiente resultado:


15 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Paso 3: haga clic sobre cualquier punto del gráfico y luego haga click
derecho y en las opciones seleccione agregar línea de tendencia:

Obtendrá el siguiente resultado:


16 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Como podemos observar en la Grafica hay una


17 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Interpretación: Como podemos observar hay una relación lineal positiva ya


que a medida que aumentan los valores de x también aumentan los valores
de y

Solución b) Determinar el modelo matemático de línea recta (la


ecuación y = a+bx) para describir las relaciones funcionales entre
las variables, interprete los resultados.

Para obtener la ecuación de la recta, primero haga doble clic sobre la recta
del gráfico y le aparecerá las siguientes opciones del lado derecho:

Debe seleccionar Presentar la ecuación del gráfico y presentar el valor R


cuadrado en el gráfico, realizando los pasos anteriores tenemos el siguiente
resultado:
18 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Luego puede seleccionar la ecuación y R cuadrado y ubicarla a la izquierda


19 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Así tenemos que la ecuación está dada por:

Y= a +bx

Y = 13.056x +82.268

a = 82.268 y b = 13.056

Interpretación:

Para la interpretación de los valores de la ecuación de regresión lineal,


tenemos que la ordenada al origen, y=82.269 es el valor esperado de y
cuando x = 0. Esto quiere decir que si no se publican anuncios se tendría
unas ventas por Bs.82269 (se multiplica por Mil porque el enunciado dice
que las ventas están expresadas en miles de Bolívares)

Por otro lado, De la ecuación de regresión, se puede observar que el


aumento de una unidad en x implica que el valor de y aumente en promedio
13.056 En términos prácticos, la ecuación de regresión sugiere que para
cada comercial de televisión que se contrate se puede esperar un promedio
de Bs. 13056 en ventas adicionales.

Esta información puede ser útil para planear el presupuesto de publicidad


para años subsecuentes.
20 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Solución c: Obtenga el informe de análisis de datos arrojado por


Excel. Para obtener el informe de análisis que genera Excel debemos activar
un componente de análisis de datos. De la siguiente manera:

Haga clic en archivos:

Luego seleccione opciones:


21 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Luego en la nueva ventana seleccione Componentes, herramientas para


análisis de datos luego el botón Ir:
22 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Luego en la nueva ventana


nos aparecen varias opciones
pero solo seleccionaremos
Herramientas para análisis

Ya pueden observar que en su barra de datos aparece una nueva opción:

Ahora para obtener el informe haga los siguientes pasos: Seleccione la


opción análisis de datos, luego en la nueva ventana seleccionas Regresión y
aceptar
23 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Luego aparecerá una nueva ventana:

Luego en el rango de Y hacemos clic en el botón de selección y


seleccionamos la columna de Y con encabezado incluido:
24 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Luego en el rango de X hacemos exactamente lo mismo pero tomamos la


columna de las x

Luego seleccionamos la opción rotulo:


25 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Luego en opciones de salida seleccionamos rango de salida y seleccionamos


el botón de selección:
26 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Luego seleccionamos una celda en la cual queremos que aparezca el


informe, en este ejemplo seleccionare la celda E18

Luego haga click en el botón aceptar y obtiene el informe:


27 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Ahora debemos interpretar los estadísticos de la regresión:

Coeficientes de correlación para rectas de regresión (r):

El valor de r nos permite determinar el tipo de correlación lineal que


tenemos:

r = 0.955566011

En primer lugar como r es un valor positivo decimos que es una correlación


positiva.

En segundo lugar como 0.955566011≈0.96 se acerca a 1 por lo tanto es una


correlación positiva fuerte.

2
Coeficiente de determinación r

r2=0.913106402, multiplicando por 100 (para expresarlo en %) tenemos


91.31% lo cual quiere decir que: el 91.31% de la variación del volumen
semanal de ventas en miles de Bolívares debido a los anuncios de
publicidad, se explica mediante la ecuación de regresión.

Error típico o desviación estándar de la regresión:

Error típico = 4.898500297 luego como la variable Y esta expresada en


miles de Bolivaras multiplicamos por 1000:
28 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

4.898500297*1000 = 4898.500297 ≈ Bs. 4898.50 lo cual quiere decir que


el error estándar de estimación es de Bs. 4898.50

Solución d: si se publican 7 anuncios ¿Cuál sería el volumen de


ventas en miles de Bolívares según el modelo encontrado?

Esto quiere decir que x = 7 y como la recta encontrada es:

Y = 13.056x +82.268 sustituimos el valor de x = 7

Y = 13.056*(7) +82.268 =91.392+82.268 = 173.66

Como esta expresado en miles de Bolívares multiplicamos 173.66 por 1000 y


tenemos 173660 lo cual quiere decir que si se publican 7 anuncios se puede
obtener un volumen de ventas de Bs. 143660

Ejemplo N° 2

Una aplicación importante del análisis de regresión a la contaduría es la


estimación de costos. Con datos sobre volumen de producción y costos y
empleando el método de mínimos cuadrados para obtener la ecuación de
regresión estimada que relacione volumen de producción y costos, los
contadores pueden estimar los costos correspondientes a un determinado
volumen de producción. Considere la siguiente muestra de datos sobre
volumen de producción y costos totales de una operación de fabricación.
29 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

a. Con estos datos obtenga la ecuación de regresión estimada para


pronosticar los costos totales dado un volumen de producción y realice la
gráfica, interprete los valores de a y b de la ecuación y =a +bx
b. Obtenga el informe de análisis de regresión en Excel y responda:

¿Cuál es el error típico y cuál es su significado?

¿Cuál es el coeficiente de correlación y su significado?

¿Cuál es el coeficiente de determinación? ¿Qué porcentaje de la variación


en los costos totales puede ser explicada por el volumen de producción?

e. ¿Cuál es el costo por unidad producida?

f. De acuerdo con el programa de producción de la empresa, el mes próximo


se deberán producir 500 unidades. ¿Cuál es el costo total estimado de esta
operación?

Solución a): Con estos datos obtenga la ecuación de regresión estimada


para pronosticar los costos totales dado un volumen de producción y realice
la gráfica, interprete los valores de a y b de la ecuación y =a +bx
30 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

La recta es y =7,6X+1246,7 tenemos a =1246,7 y b =7,6 tenemos una


regresión lineal creciente.

El costo esperado cuando x = 0 es $1246,7

En la ecuación de regresión, se puede observar que el aumento de una


unidad en x implica que el valor de y aumente en promedio 7,6 En términos
prácticos, la ecuación de regresión sugiere que para cada Unidad producida
se puede esperar un promedio de $7,6 en Costo de producción.

Solución b): Obtenga el informe de análisis de regresión en Excel y


responda:

¿Cuál es el error típico y cuál es su significado?

¿Cuál es el coeficiente de correlación y su significado?

¿Cuál es el coeficiente de determinación? ¿Qué porcentaje de la variación


en los costos totales puede ser explicada por el volumen de producción?

El informe es:
31 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

Ahora procedemos a responder las preguntas:

¿Cuál es el error típico y cuál es su significado?

Error típico o desviación estándar de la regresión:

Error típico = 241.52 lo cual quiere decir que el error estándar de estimación
es de $241.52
32 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

¿Cuál es el coeficiente de correlación y su significado?

Coeficientes de correlación para rectas de regresión (r):

El valor de r nos permite determinar el tipo de correlación lineal que


tenemos:

r = 0.979127101 En primer lugar como r es un valor positivo decimos que


es una correlación positiva. En segundo lugar como 0.979127101≈0.98 se
acerca a 1 por lo tanto es una correlación positiva fuerte.

¿Cuál es el coeficiente de determinación? ¿Qué porcentaje de la


variación en los costos totales puede ser explicada por el volumen de
producción?

2
Coeficiente de determinación r

r2=0,958689879, multiplicando por 100 (para expresarlo en %) tenemos


95.87% lo cual quiere decir que: el 95.87% de la variación de los costos de
producción en $ debido al volumen de producción, se explica mediante la
ecuación de regresión.

Solución e) ¿Cuál es el costo por unidad producida?

Como la recta es y =7,6X+1246,7 tenemos que el costo de producción por


unidad es 7,6X esto es $7,6 por unidades vendidas siendo 1246,7 el costo
fijo de producción.

Solución f). De acuerdo con el programa de producción de la


empresa, el mes próximo se deberán producir 500 unidades. ¿Cuál
es el costo total estimado de esta operación?

Como la estimación de los costos es:

y =7,6X+1246,7

Tomemos x =500 unidades


33 Estadística II – Unidad I – Regresión Lineal Simple - Prof. Esgiorge Torrez

y =7,6(500) +1246,7

y =5046,7

Por lo tanto el costo total estimado es de $5046,7

También podría gustarte