Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Abril 2020.
INTRODUCCION
En nuestra vida cotidiana se nos presentan distintas situaciones en la que resulta de gran
interés conocer el efecto o algún tipo de relación de dependencia que una o más variables
pueden causar sobre otras, con el fin de hacer predicciones o pronósticos de eventos futuros
de acuerdo al comportamiento de ellas. Por ejemplo, Un economista, desea determinar la
relación entre la demanda u oferta de cierto producto con respecto al número de artículos
que se han colocado en el mercado; y así mismo, la relación entre la variación en el precio
de ese producto y la cantidad de unidades producidas; también Un Administrador, quiere
determinar la relación de dependencia entre los gastos en publicidad y el volumen de ventas
de cierto producto. Un médico, ha realizado estudios de la reducción del peso de una
persona en términos del número de semanas que ha seguido una dieta específica; o la
cantidad de medicamento absorbido por el organismo en función del tiempo.
Relaciones de este tipo se pueden investigar por medio de un análisis de regresión y/ó
correlación. Dicho esto, se puede afirmar entonces que El Análisis de Regresión estudia la
construcción de modelos para explicar o representar la dependencia entre una variable
respuesta o dependiente (Y) y la(s) variable(s) explicativa(s) o independiente(s), (X); Y El
Análisis de Correlación se centra en la fuerza e intensidad de estas relaciones. En este
trabajo investigativo se describirá el modelo de regresión lineal utilizando los métodos de
mínimos cuadrados mostrando un diagrama dispersión y el coeficiente de correlación
aplicados a diferentes situaciones que se nos presentan día a día.
REGRESION LINEAL SIMPLE
La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una
recta) que permita explicar la relación lineal que existe entre dos variables. A la variable
dependiente o respuesta se le identifica como Y y a la variable predictora o independiente
como X.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Yi= δ + βxi+ ϵi
Donde δ y β son constantes y ϵi, llamado termino de error, (que provoca que la
dependencia entre las variables dependiente e independiente no sea perfecta, sino que esté
sujeta a incertidumbre),es una variable aleatoria con media 0.
Supuestos para el modelo de regresión lineal simple.
Denotemos la recta verdadera de regresión por Yi= δ + βxi+ ϵiy asumamos que se dispone
de n pares de observaciones. Suelen realizarse, al respecto, los siguientes supuestos:
1. Cada xi es un número fijo (asignado, por ejemplo, por un investigador) o es la realización
de una variable aleatoria Xi independiente del término error ϵi. En el último caso, la
inferencia se realiza condicionando al valor observado xi.
2. Los términos de error ϵi son variables aleatorias con media 0, es decir, E (ϵi) = 0, para
todo i =1,..., n
.3. Las variables aleatorias ϵi tienen todas las mismas varianzas σ2, es decir, V (ϵ i)=σ2,
para todo i =1,..., n.
4. Las variables aleatorias ϵi no se hallan correlacionadas, luego, E (ϵi ϵj) = 0, para todo i, j
=1,..., n con i ϵ ≠ j.
Teorema
Denotando la recta verdadera de regresión por Yi= δ + βxi+ ϵi ,si se cumplen los supuestos
en el modelo de regresión, entonces, para un valor fijo xi de X, la esperanza y varianza
condicionales de Yi, dado que X = xi, vienen dadas, respectivamente, por:
EJEMPLO
Supóngase que la relación entre la profundidad del océano X y la temperatura del agua Y
está descrita por el modelo de regresión lineal simple con la verdadera recta de regresión:
Y =65− 1, 2x +ϵ
Supóngase, también, que se cumplen los supuestos del modelo de regresión y que ϵ está
normalmente distribuida con media 0 y desviación σ =8.
(a) Hállese la probabilidad de que Y>50 cuando X =20.
(b) Hállese la probabilidad de que Y>50 cuando X =25.
En:
a) hay ausencia de relación (independencia).
b) En b) existe asociación lineal positiva (varían en general en el mismo sentido).
c) En c) existe asociación lineal negativa (varían en sentido contrario).
d) En d) existe fuerte asociación, pero no lineal.
MÉTODO DE MÍNIMOS CUADRADOS
En la gran mayoría de casos, los valores δ y β poblacionales son desconocidos, por lo
que, a partir de una muestra, se obtienen sus estimaciones. Estas estimaciones se
conocen como coeficientes de regresión. Ya que toman aquellos valores que minimizan la
suma de cuadrados residuales, dando lugar a la recta que pasa más cerca de todos los
puntos. En esos casos, se puede aplicar el llamado método de los mínimos cuadrados
tal que:
(2) Se supone ahora que el primer caso no ocurre. Entonces, con la cancelación del
factor −2y la manipulación algebraica de los términos, se obtiene el siguiente
sistema de ecuaciones, llamado ecuaciones normales :
COEFICIENTE DE CORRELACIÓN
Para estudiar la relación lineal existente entre dos variables continuas es necesario
disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros
es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.
Sean X y Y dos variables aleatorias con varianzas V (X) y V (Y), respectiva-mente (finitas
y positivas). Entonces, el coeficiente de correlación poblacional de X y Y, simbolizado por
Corr(X, Y), está definido por:
TEOREMA 2.O
Denotemos por (x1, y1), (x2,y2), ..., (xn,yn) una muestra aleatoria de n pares de
observaciones de las variables aleatorias X e Y .Sea la estimación de mínimos cuadrados
de β. Además, sean Sxx, Syy y Sxy, SSE y SSR como en el teorema .Entonces, un
estimador de la correlación poblacional entre X e Y se obtiene mediante el coeficiente de
correlación maestral:
Una empresa requiere saber si existe una relación confiable entre las inversiones en publicidad (x) y
las ventas (Y) que se obtienen, los datos que se proporcionaron fueron los siguientes:
INVERSION EN
PUBLICIDAD(X VENTAS
) (Y)
1 64
4 71
5 54
9 81
11 76
13 93
23 77
23 95
28 109
x y xy x2 y2
1 64 64 1 4096
4 71 284 16 5041
5 54 270 25 2916
9 81 729 81 6561
11 76 836 121 5776
13 93 1209 169 8649
23 77 1771 529 5929
23 95 2185 529 9025
28 109 3052 784 11881
117 720 10400 2255 59874
9
∑ x =117
i=1
∑ y=720
i=1
∑ xy =10400
i=1
∑ x 2=2255
i=1
∑ y2 =59874
i=1
n=9
117
x́ = =13
9
720
ý = = 80
9
Sxy = 10400 -9 (13)(80)
Sxy = 1040
Sxx = 255-9 ¿
Sxx = 734
$100.00
f(x) = 1.42 x + 61.58
R² = 0.65
$80.00
VENTAS
$60.00
$40.00 Linear ()
$20.00
$-
$- $5.00 $10.00 $15.00 $20.00 $25.00 $30.00
INVERSIÓN EN PUBLICIDAD
(c) Hállanos el coeficiente de correlación maestral y el de determinación.
10400(9)(13)(80)
r=
√ ¿¿ ¿
1040
r= =0.80499
1291.94
(d) estimamos las ventas que recibirán si hacen una inversión en publicidad de
50 para el décimo periodo de producción.
N° de infectados
Día (x)
(y)
1 1
2 1
3 1
4 3
5 3
6 9
7 13
8 16
9 24
10 45
11 57
12 75
13 102
14 128
15 158
16 210
17 231
SOLUCION.
N° de infectados x2 y 2
Día (x)
(y) xy
1 1 1 1 1
2 1 2 4 1
3 1 3 9 1
4 3 12 16 9
5 3 15 25 9
6 9 54 36 81
7 13 91 49 169
8 16 128 64 256
9 24 216 81 576
10 45 450 100 2025
11 57 627 121 3249
12 75 900 144 5625
13 102 1326 169 10404
14 128 1792 196 16384
15 158 2370 225 24964
16 210 3360 256 44100
17 231 3927 289 53361
153 1077 15274 1785 161215
1. Hallemosδ^ y ^β
17
∑ x =153
i=1
17
∑ y=1077
i=1
17
∑ xy =15274
i=1
17
∑ x 2=1785
i=1
n = 17
153
x́ = =9
17
1077
ý = = 63,35
17
Sxy=15274-(9) (63,35)
Sxy= 5581
Sxx= 1785-(17)(9)2
Sxx=408
^β = 5581 = 13,679
408
δ^ = 63,35-13,679(9) = -59,757
2. Obtenemos la ecuación.
γ = δ^ + ^β x
γ = -59,757+13,679x
3. Diagrama de dispersión.
COVID-19
250
NÚMERO DE INFECTADOS
200
Linear ()
100
50
0
0 2 4 6 8 10 12 14 16 18
DIAS
CONCLUSIONES
De acuerdo a la información presentada, se puede concluir que el análisis de regresión
lineal simple, como parte de la inferencia estadística, es fundamental para determinar
relaciones de dependencia lineal entre variables y establecer su validez con el fin de hacer
estimaciones y predicciones dentro de un intervalo de confianza deseado.
Contextualizándolo a la situación actual que estamos viviendo debido a la pandemia por el
virus COVID-19,es de suprema importancia obtener una ecuación de regresión que
describe el comportamiento lineal entre dos variables: días (x) y número de infectados (y) ,
y que permitan pronosticar valores futuros de la variable bajo análisis con cierto grado de
certeza, lo cual constituye una herramienta poderosa, pues le da a los profesionales en la
materia la posibilidad de hacer ajustes en los procesos, tomar decisiones o establecer
políticas tempranas y oportunas para la contención del virus .