Está en la página 1de 18

TRABAJO DE 1REGRESIÓN LINEAL.

Karolyn A. Bello Martínez


Sebastián Meza Pastrana

Abril 2020.

Universidad Del Atlántico.


Facultad de Ciencias económicas.
Métodos Estadísticos.
Trabajo de regresión Lineal
En grupos de dos estudiantes
·         Regresión lineal por el método de mínimos cuadrados
·         Coeficiente de correlación Lineal  
·         El trabajo debe tener una introducción, objetivo, desarrollo de la temática, un
ejercicio resuelto utilizando el método de mínimos cuadrado donde se muestre el
diagrama de dispersión, el modelo de regresión lineal y el coeficiente de
correlación. Se debe evidenciar los cálculos manuales.
·         La regresión lineal además de mostrar la relación entre dos variables(x,y) se
utiliza para hacer pronósticos, y en estos tiempos de salud pública por la que
atraviesa el país. Utiliza el modelo de regresión lineal para pronosticar la cantidad
de infectados de COVID 19 al 31 de Marzo.
Te suministro los siguientes datos:
 

Día (x) N° de infectados (y)


1 1
2 1
3 1
4 3
5 3
6 9
7 13
8 16
9 24
10 45
11 57
12 75
13 102
14 128
15 158
16 210
17 231
OBJETIVOS GENERALES

 Identificar las variables de estudio y aplicarle el método de mínimos cuadrados y/o


coeficiente de correlación a traves de herramientas estadísticas con el fin de obtener
un modelo de regresión lineal aplicado a la realidad.
OBJETIVOS ESPECIFICOS

 Proporcionar fundamentos para describir el modelo de regresión lineal.


 Fomentar la comprensión de cuando y como utilizar el análisis del método de
mínimos cuadrados y coeficiente de correlación e interpretar los resultados.
 Realizar pronósticos por medio del modelo de regresión lineal referentes a la
emergencia sanitaria por COVID-19.

INTRODUCCION
En nuestra vida cotidiana se nos presentan distintas situaciones en la que resulta de gran
interés conocer el efecto o algún tipo de relación de dependencia que una o más variables
pueden causar sobre otras, con el fin de hacer predicciones o pronósticos de eventos futuros
de acuerdo al comportamiento de ellas. Por ejemplo, Un economista, desea determinar la
relación entre la demanda u oferta de cierto producto con respecto al número de artículos
que se han colocado en el mercado; y así mismo, la relación entre la variación en el precio
de ese producto y la cantidad de unidades producidas; también Un Administrador, quiere
determinar la relación de dependencia entre los gastos en publicidad y el volumen de ventas
de cierto producto. Un médico, ha realizado estudios de la reducción del peso de una
persona en términos del número de semanas que ha seguido una dieta específica; o la
cantidad de medicamento absorbido por el organismo en función del tiempo.
Relaciones de este tipo se pueden investigar por medio de un análisis de regresión y/ó
correlación. Dicho esto, se puede afirmar entonces que El Análisis de Regresión estudia la
construcción de modelos para explicar o representar la dependencia entre una variable
respuesta o dependiente (Y) y la(s) variable(s) explicativa(s) o independiente(s), (X); Y El
Análisis de Correlación se centra en la fuerza e intensidad de estas relaciones. En este
trabajo investigativo se describirá el modelo de regresión lineal utilizando los métodos de
mínimos cuadrados mostrando un diagrama dispersión y el coeficiente de correlación
aplicados a diferentes situaciones que se nos presentan día a día.
REGRESION LINEAL SIMPLE
La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una
recta) que permita explicar la relación lineal que existe entre dos variables. A la variable
dependiente o respuesta se le identifica como Y y a la variable predictora o independiente
como X.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Yi= δ + βxi+ ϵi
Donde δ y β son constantes y ϵi, llamado termino de error, (que provoca que la
dependencia entre las variables dependiente e independiente no sea perfecta, sino que esté
sujeta a incertidumbre),es una variable aleatoria con media 0.
Supuestos para el modelo de regresión lineal simple.
Denotemos la recta verdadera de regresión por Yi= δ + βxi+ ϵiy asumamos que se dispone
de n pares de observaciones. Suelen realizarse, al respecto, los siguientes supuestos:
1. Cada xi es un número fijo (asignado, por ejemplo, por un investigador) o es la realización
de una variable aleatoria Xi independiente del término error ϵi. En el último caso, la
inferencia se realiza condicionando al valor observado xi.
2. Los términos de error ϵi son variables aleatorias con media 0, es decir, E (ϵi) = 0, para
todo i =1,..., n
.3. Las variables aleatorias ϵi tienen todas las mismas varianzas σ2, es decir, V (ϵ i)=σ2,
para todo i =1,..., n.
4. Las variables aleatorias ϵi no se hallan correlacionadas, luego, E (ϵi ϵj) = 0, para todo i, j
=1,..., n con i ϵ ≠ j.
Teorema
Denotando la recta verdadera de regresión por Yi= δ + βxi+ ϵi ,si se cumplen los supuestos
en el modelo de regresión, entonces, para un valor fijo xi de X, la esperanza y varianza
condicionales de Yi, dado que X = xi, vienen dadas, respectivamente, por:
EJEMPLO
Supóngase que la relación entre la profundidad del océano X y la temperatura del agua Y
está descrita por el modelo de regresión lineal simple con la verdadera recta de regresión:
Y =65− 1, 2x +ϵ

Supóngase, también, que se cumplen los supuestos del modelo de regresión y que ϵ está
normalmente distribuida con media 0 y desviación σ =8.
(a) Hállese la probabilidad de que Y>50 cuando X =20.
(b) Hállese la probabilidad de que Y>50 cuando X =25.

(a) E (Y/X=20) = 65-1,2(20)=41 y V(Y/X=20)= 82 =64


50−41
E (Y¿ 50/X=20) = P (Z¿ )
8
= P (Z¿ 1,125)
=1- P (Z¿1,125)
=1-0,8686 = 0,1314

(a) E (Y/X=25)= 65-1,2(25)=35 y V(Y/X=25)= 82 =64


50−35
E (Y¿ 50/X=35) = P (Z¿ )
8
= P (Z¿ 1,875)
=1- P (Z¿1,875)
=1-0,9699 = 0,0301
DIAGRAMA DE DISPERSION
Una forma de determinar si puede existir o no dependencia entre variables, y en caso de
haberla deducir de qué tipo puede ser, es gráficamente representando los pares de valores
observados. A dicho gráfico se le llama nube de puntos o diagrama de dispersión.
Ejemplos de casos que podrían darse:

En Eje X se selecciona la variable que se considera independiente y en Eje Y la


dependiente.

En:
a) hay ausencia de relación (independencia).
b) En b) existe asociación lineal positiva (varían en general en el mismo sentido).
c) En c) existe asociación lineal negativa (varían en sentido contrario).
d) En d) existe fuerte asociación, pero no lineal.
MÉTODO DE MÍNIMOS CUADRADOS
En la gran mayoría de casos, los valores δ y β poblacionales son desconocidos, por lo
que, a partir de una muestra, se obtienen sus estimaciones. Estas estimaciones se
conocen como coeficientes de regresión. Ya que toman aquellos valores que minimizan la
suma de cuadrados residuales, dando lugar a la recta que pasa más cerca de todos los
puntos. En esos casos, se puede aplicar el llamado método de los mínimos cuadrados
tal que:

Pueden suceder, entonces, dos casos:


(1) Todos los valores xi son iguales (xi= x, para todo i). Situación en que se tiene en
realidad solo un parámetro μ = δ +βx (real), para lo cual la estimación “natural” μ
(según el método de los mínimos cuadrados) es la media de la muestra:

(2) Se supone ahora que el primer caso no ocurre. Entonces, con la cancelación del
factor −2y la manipulación algebraica de los términos, se obtiene el siguiente
sistema de ecuaciones, llamado ecuaciones normales :

Las ecuaciones normales son lineales en los valores desconocidos δ y β. Con la


condición de que el primer caso no ocurra (es decir, de que al menos dos de las xi

sean diferentes), las estimaciones de mínimos cuadrados de los parámetros δ y


β, respectivamente, son la única solución para este sistema. Estas estimaciones están
expresadas en términos de las siguientes notaciones:
TEOREMA
Sean Sxx y Sxy. Donde, la estimación de mínimos cuadrados delos parámetros δ y β son:

Respectivamente. La recta de regresión muestra (estimada o de mínimos cuadrados) es

entonces aquella cuya ecuación es:

COEFICIENTE DE CORRELACIÓN
Para estudiar la relación lineal existente entre dos variables continuas es necesario
disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros
es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.
Sean X y Y dos variables aleatorias con varianzas V (X) y V (Y), respectiva-mente (finitas
y positivas). Entonces, el coeficiente de correlación poblacional de X y Y, simbolizado por
Corr(X, Y), está definido por:

En algunos casos, utilizaremos el símbolo ρ, en vez de Corr(X, Y), para representar el


cociente de correlación poblacional.
TEOREMA 1.0
Sean X y Y dos variables aleatorias cualesquiera (discretas o continuas) con varianzas
finitas y positivas y sean a, b, c, d números reales. Entonces,
(a) −1 ≤ Corr(X, Y ) ≤ 1.
(b) Corr(X, Y)=1´o −1 si y solo si existen dos números reales m, r con m ≠0, tales queY =
mX + r.
(c) Si X y Y son independientes, entonces Corr(X, Y)=0. El reciproco no es cierto, es decir,
Corr(X, Y)=0no implica independencia.
(d) Corr (aX + b, cY + d)=Corr(X, Y), si a y c son ambas positivas o ambas negativas.
Para fines descriptivos, la relación se propone como fuerte si |Corr(X, Y) |≥0.8, moderada si
0, 5 <|Corr(X, Y)| < 0, 8 y débil, si |Corr(X, Y) |≤0, 5

NOTA: Dos variables aleatorias X y Y cuales quiera (discretas o continuas) son no


correlacionadas cuando Corr(X, Y)=0. En otro caso, se dice que son correlacionadas
(positiva cuando Corr(X, Y) > 0 o negativa cuando Corr(X, Y) < 0)

TEOREMA 2.O
Denotemos por (x1, y1), (x2,y2), ..., (xn,yn) una muestra aleatoria de n pares de
observaciones de las variables aleatorias X e Y .Sea la estimación de mínimos cuadrados
de β. Además, sean Sxx, Syy y Sxy, SSE y SSR como en el teorema .Entonces, un
estimador de la correlación poblacional entre X e Y se obtiene mediante el coeficiente de
correlación maestral:

El coeficiente de determinación maestral, simbolizada por se define como:


EJEMPLO

Una empresa requiere saber si existe una relación confiable entre las inversiones en publicidad (x) y
las ventas (Y) que se obtienen, los datos que se proporcionaron fueron los siguientes:

INVERSION EN
PUBLICIDAD(X VENTAS
) (Y)
1 64
4 71
5 54
9 81
11 76
13 93
23 77
23 95
28 109

(a) Calcule δ^ y β^ y halle la ecuación verdadera de regresión.


(b) haga un diagrama de dispersión para los datos (xi, yi) y dibuje la línea de regresión.
(c) hállese el coeficiente de correlación maestral y el de determinación e interprete la respuesta.
(d) estimar las ventas que recibirá la empresa, si hacen una inversión en publicidad de 50 para el
Décimo periodo de producción.
SOLUCION.

(a) Calculamos δ^ y ^β y hallamos la ecuación verdadera de regresión.

x y xy x2 y2
1 64 64 1 4096
4 71 284 16 5041
5 54 270 25 2916
9 81 729 81 6561
11 76 836 121 5776
13 93 1209 169 8649
23 77 1771 529 5929
23 95 2185 529 9025
28 109 3052 784 11881
117 720 10400 2255 59874
9

∑ x =117
i=1

∑ y=720
i=1

∑ xy =10400
i=1

∑ x 2=2255
i=1

∑ y2 =59874
i=1

n=9
117
x́ = =13
9

720
ý = = 80
9
Sxy = 10400 -9 (13)(80)
Sxy = 1040

Sxx = 255-9 ¿
Sxx = 734

^β = 1040 = 1,4169 , δ^ = 80-1,42(13) = 61,58


734
γ = δ^ + ^β x
γ =¿ 61,58+1,4169x
(b)
Realizamos un diagrama de dispersión para los datos (x, y) y dibujamos la línea de regresión.
$120.00

$100.00
f(x) = 1.42 x + 61.58
R² = 0.65
$80.00
VENTAS

$60.00

$40.00 Linear ()

$20.00

$-
$- $5.00 $10.00 $15.00 $20.00 $25.00 $30.00

INVERSIÓN EN PUBLICIDAD
(c) Hállanos el coeficiente de correlación maestral y el de determinación.

10400(9)(13)(80)
r=
√ ¿¿ ¿
1040
r= =0.80499
1291.94

La correlación 0,80499 indica que existe un relación positiva ente la inversión en


publicidad y las ventas.

Obsérvese que r 2 = (0,80499 ¿ ¿2 =0,64801 ò que aproximadamente 64,80% de la


variabilidad de la inversión en publicidad, está explicada por la relación lineal con las
ventas.

(d) estimamos las ventas que recibirán si hacen una inversión en publicidad de
50 para el décimo periodo de producción.

E (Y/X=50) = 61,58+1,42 (50) = 132,42 unidades monetarias (u.m)


132,42 serán las ventas recibidas para el décimo periodo de producción.
EJEMPLO.
La regresión lineal además de mostrar la relación entre dos variables(x, y) se utiliza para
hacer pronósticos, y en estos tiempos de salud pública por la que atraviesa el país. Utiliza el
modelo de regresión lineal para pronosticar la cantidad de infectados de COVID 19 al 31 de
Marzo.

N° de infectados
Día (x)
(y)
1 1
2 1
3 1
4 3
5 3
6 9
7 13
8 16
9 24
10 45
11 57
12 75
13 102
14 128
15 158
16 210
17 231
SOLUCION.

N° de infectados  x2 y 2 
Día (x)
(y) xy
1 1 1 1 1
2 1 2 4 1
3 1 3 9 1
4 3 12 16 9
5 3 15 25 9
6 9 54 36 81
7 13 91 49 169
8 16 128 64 256
9 24 216 81 576
10 45 450 100 2025
11 57 627 121 3249
12 75 900 144 5625
13 102 1326 169 10404
14 128 1792 196 16384
15 158 2370 225 24964
16 210 3360 256 44100
17 231 3927 289 53361
153 1077 15274 1785 161215

1. Hallemosδ^ y ^β
17

∑ x =153
i=1

17

∑ y=1077
i=1

17

∑ xy =15274
i=1

17

∑ x 2=1785
i=1

n = 17
153
x́ = =9
17

1077
ý = = 63,35
17

Sxy=15274-(9) (63,35)
Sxy= 5581

Sxx= 1785-(17)(9)2
Sxx=408

^β = 5581 = 13,679
408

δ^ = 63,35-13,679(9) = -59,757
2. Obtenemos la ecuación.

γ = δ^ + ^β x
γ = -59,757+13,679x

3. Diagrama de dispersión.

COVID-19
250
NÚMERO DE INFECTADOS

200

f(x) = 13.68 x − 59.76


150 R² = 0.82

Linear ()
100

50

0
0 2 4 6 8 10 12 14 16 18

DIAS

4. Hallamos coeficientes de correlación y de determinación


15274(17)(9)(63,35)
r=
√¿¿ ¿
5581.45
r= =0. 9060
615954
La correlación 0,9060 indica que existe un relación Fuerte positiva ente los días y el
número de infectados.

r 2 = (0 .9060 ¿ ¿2 =0.8210 → 82.10%

5. Realizamos un pronóstico de la cantidad de infectados por COVID-19 del 19-


31 marzo
(Demostración)
γ = -59,757+13,679x
E (Y/X=19)= -59,757+13,679(18)=186,46

pronostico de infectados del 19-31 Marzo


días No. de infectados
18 186,46
19 200,14
20 213,82
21 227,50
22 241,18
23 254,86
24 268,54
25 282,22
26 295,89
27 309,57
28 323,25
29 336,93
30 350,61
31 364,29

CONCLUSIONES
De acuerdo a la información presentada, se puede concluir que el análisis de regresión
lineal simple, como parte de la inferencia estadística, es fundamental para determinar
relaciones de dependencia lineal entre variables y establecer su validez con el fin de hacer
estimaciones y predicciones dentro de un intervalo de confianza deseado.
Contextualizándolo a la situación actual que estamos viviendo debido a la pandemia por el
virus COVID-19,es de suprema importancia obtener una ecuación de regresión que
describe el comportamiento lineal entre dos variables: días (x) y número de infectados (y) ,
y que permitan pronosticar valores futuros de la variable bajo análisis con cierto grado de
certeza, lo cual constituye una herramienta poderosa, pues le da a los profesionales en la
materia la posibilidad de hacer ajustes en los procesos, tomar decisiones o establecer
políticas tempranas y oportunas para la contención del virus .

También podría gustarte