Está en la página 1de 12

ESCUELA SUPERIOR POLITCNICA DE CHIMBORAZO

Faculta de Informtica Y Electrnica


Ingeniera Electrnica en Telecomunicaciones y Redes

PROBABILIDAD Y ESTADSTICA

REGRESIN LINEAL SIMPLE

INTEGRANTES: CDIGOS:

Jordy Bravo 926


Cristian lvarez 854
Kevin Catota 898

NIVEL: Cuarto A

DOCENTE: Dr. Jorge Tuapanta

Riobamba Ecuador
REGRESION LINEAL SIMPLE

1. INTRODUCCIN

Constantemente en la prctica de la investigacin estadstica nos encontramos en


situaciones que requieren el anlisis de ms de una variable estadstica. Es decir, que
existen variables que de alguna manera estn relacionados entre s, por lo que es posible
que una de las variables pueda relacionarse matemticamente en funcin de otra u otras
variables. Por ejemplo, te has preguntado si alguna vez existe una relacin entre la estatura
y el peso?, estn relacionadas la edad y la resistencia fsica?, influye la temperatura en
el ndice de criminalidad? As tambin, un profesor puede estar interesado en conocer de
qu manera se puede predecir el rendimiento en Probabilidad y Estadstica basndose en
el puntaje obtenido en una prueba de aptitud en dicha asignatura.

En todos stos ejemplos, debemos analizar los datos valindonos de la correlacin y la


regresin lineales para obtener informacin acerca de los problemas planteados.

El objetivo de este artculo es puntualizar de manera prctica una de las tcnicas estadsticas
comnmente utilizadas en es el anlisis de la relacin o dependencia entre variables: la
regresin lineal simple, la cual es ms conveniente que otros mtodos.

El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la relacin
entre variables. Se adapta a una amplia variedad de situaciones. En la investigacin social,
el anlisis de regresin se utiliza para predecir un amplio rango de fenmenos, desde
medidas econmicas hasta diferentes aspectos del comportamiento humano. En fsica se
utiliza para caracterizar la relacin entre variables o para calibrar medidas. Adems, tiene
mltiples aplicaciones en las diferentes reas cientficas.

2. MODELO DE REGRESIN LINEAL SIMPLE


Un modelo de regresin se define como un procedimiento mediante el cual se trata de
determinar si existe o no relacin de dependencia entre dos o ms variables. Es decir,
conociendo los valores de una variable independiente, se trata de estimar los valores,
de una o ms variables dependientes.

La regresin lineal simple es til para encontrar la fuerza o magnitud de cmo se


relacionan dos variables: una independiente, que se representa con una X, y otra
dependiente, que se identifica con una Y; sin embargo, la regresin lineal simple se
distingue de otras pruebas, pues con ella puede estimarse o predecirse el valor de la
variable de respuesta a partir de un valor dado a la variable explicativa. Para asociar
estas dos variables se propone una lnea recta, de ah el nombre de regresin lineal.
Dicha recta se expone en un plano y su grado de inclinacin representa la pendiente, y
una inclinacin muy destacada indica grandes cambios en la variable dependiente.

2.1. Definicin del modelo de regresin lineal simple

Con frecuencia, nos encontramos en Ingeniera con modelos en los que el comportamiento
de una variable, , se puede explicar a travs de una variable ; lo que representamos
mediante:
= ()

Si consideramos que la relacin , que liga con , es lineal, entonces = () se puede


escribir as:
= 0 + 1

Ya que las relaciones del tipo anterior raramente son exactas, sino que ms bien son
aproximaciones en las que se han omitido muchas variables de importancia secundaria,
debemos incluir un trmino de perturbacin aleatoria, , que refleja todos los factores
distintos de -que influyen sobre la variable endgena, pero que ninguno de ellos es
relevante individualmente. Con ello, la relacin quedara de la siguiente forma:

El modelo de regresin simple es:


= 0 + 1 +

Donde los parmetros 0 y 1 son constantes desconocidas y es una variable


aleatoria de error, que se supone est normalmente distribuida con () = 0 y varianza
2 desconocida.

La inclusin del trmino aleatorio de error permite que (, ) quede o por encima de la lnea
de regresin verdadera (cuando > 0) o por debajo (cuando < 0). Los puntos (1 , 1 ),
, ( , ) provenientes de observaciones independientes se dispersarn entonces en torno
a la lnea de regresin verdadera ( = 0 + 1 ), como se ilustra en la figura 1.1.
(x1, y1) Lnea de regresin verdadera
0


1

2

(x2, y2)
x
x1 x2
Figura 1. Puntos correspondientes a observaciones del modelo de regresin lineal simple.

2.2. Estimacin de los parmetros del modelo

Supongamos que se tiene disponible una muestra de datos compuesta de pares


observados (1 , 1 ), , ( , ), con la cual los parmetros de modelo y la lnea de regresin
pueden ser estimados.

De acuerdo con el modelo, los puntos observados estarn distribuidos en torno a la lnea de
regresin verdadera de una manera aleatoria. Debemos encontrar entonces de entre todas
las rectas la que mejor se ajuste a los datos observados, es decir, buscamos aquellos valores
de 0 y 1 que hagan mnimos los errores de estimacin. La lnea de mejor ajuste es
entonces la que tiene la suma ms pequea posible de desviaciones al cuadrado. De ah
que al mtodo de estimacin se le llame mtodo de mnimos cuadrados.

La desviacin vertical del punto ( , ) con respecto a la lnea = 0 + 1 , es

la altura del punto - altura de la lnea = ( + )

La suma de las desviaciones verticales al cuadrado de los (1 , 1 ), , ( , ), a


la lnea es entonces:

2
(, ) = [ ( + )]
=1

Las estimaciones puntuales 0 y 1 , se denotan por y llamadas estimaciones


de mnimos cuadrados, son aquellos valores que reducen al mnimo a (, ). La
lnea de regresin estimada o lnea de mnimos cuadrados es entonces la lnea
cuya ecuacin es = + .

Es notorio que, si el conjunto de n es grande, entonces el ajuste del modelo no ser bueno.
Es decir que al tener unos residuos pequeos decimos que la seal tiene un buen ajuste.
Otra relacin interesante es la siguiente:
= + +

Cuyo uso da como resultado la aclaracin de la diferencia entre los residuos por la recta
un modelo ajustado = + , y los errores del modelo conceptual por la recta que
refleja el modelo, dada por | = +
Figura 2. Comparacin de con el residuo

La estimacin de los mnimos cuadrados del coeficiente de pendiente de la lnea


de regresin verdadera es:

Las frmulas de clculo para el numerador y denominador de 1 son:

2
( )
= = 2

La estimacin de los mnimos cuadrados de la interseccin de la lnea de


regresin verdadera es:


=

=

Ejemplo 1. Los siguientes estadsticos resumidos se obtuvieron con un estudio que utiliz
anlisis de regresin para investigar la relacin entre la deflexin y la temperatura superficial
del pavimento en varios lugares de una carretera estatal. He aqu = temperatura (F) y =
factor de ajuste por deflexin ( 0):

= 15 = 1425 = 10.68
2
= 139037.25 = 987.645 2 = 7.8518

Calcule , y la ecuacin de la lnea de regresin estimada.

Solucin:

(15)(987.645) (1425)(10.68) 404.325


= = = 0.00736023
(15)(139 037.25 ) (1425)2 54 933.75

10.68 (0.00736023)(1425)
= = 1.4112
15

Finalmente, la ecuacin de la lnea de regresin estimada ser:

= 1.412 0.007360
2.3. Inferencias que conciernen a los coeficientes de regresin

Adems de tan solo estimar la relacin lineal entre y para fines de prediccin, el
experimentador podra estar interesado en hacer ciertas inferencias acerca de pendiente y
la interseccin. Debe estarse dispuesto a hacer la suposicin adicional de que cada i =
1, 2, , tiene distribucin normal, con la finalidad de permitir la prueba de hiptesis y la
construccin de intervalos de confianza sobre y .

Intervalo de confianza para

Un intervalo de confianza de 100(1 ) 100% para el parmetro en la recta de regresin y


|x = + x es
s=1 2 s=1 2
t 2 < < + t 2
nSxx nSxx

Intervalo de confianza para

Un intervalo de confianza de 100(1 ) 100% para el parmetro en la recta de confianza


para regresin y |x = + x es:

s s
b t 2 < < b + t 2
Sxx Sxx
Prueba de hiptesis sobre la pendiente
Donde t 2 es un valor de la distribucin t con n-2 grados de libertad para ambos casos.
Para probar la hiptesis nula H0 de que = 0, contra una alternativa posible, utilizamos de
nuevo la distribucin t con n 2 grados de libertad, con la finalidad de establecer una regin
crtica y despus basar nuestra decisin sobre el valor de
0
=

Una prueba t importante sobre la pendiente es la prueba de hiptesis


0 : = 0
1 : 0

Ejemplo 2. Encuentre un intervalo de conanza de 95% para y , en la recta de


regresin Y|x = + x, con base en los datos de contaminacin de la siguiente tabla
11.1:

Tabla 11.1: Medidas de componentes electrnicos y demanda de energa calorfica


Demanda de Demanda de
Comp. Electr. Energa calorfica Y Comp. Electr. Energa calorfica Y
X (%) (%) X (%) (%)
3 5 36 34
7 11 37 6
11 21 38 38
15 16 39 37
18 16 39 36
27 28 39 45
29 27 40 39
30 25 41 41
30 35 42 40
31 30 42 44
31 40 43 37
32 32 44 44
33 34 45 46
33 32 46 46
34 34 47 49
36 37 50 51
36 38

Primero hallamos las sumatorias:


33 33 33 33

= 1104 = 1124 = 41,355 2 = 41.086


=1 =1 =1 =1

(33)(41.355) (1104)(1124)
= = .
(33)(41.086) 11042
1124 (0903642)(1104)
= = .
33
En base a lo hallado podemos hallar
( )2 ( )2
= 2 = = 2

(1104)2 (1104)(1124)
= 41.086 = 41.355
33 33
(1124)2
= 41.086
33
= 4152. 18 = 3752.09 = 3713.88

Ahora hallamos 2
3713.88 (0.903643)(3752.09)
2 = = = 10.4299
2 31
Por lo tanto, s:
= 3.2295
Se sabe que 0.025 2.045 para 3 grados de libertad. Asi, un intervalo de confianza de
95% para es:
(2.045)(3.2295) (2.045)(3.2295)
0.903643 < < 0.903643 +
452.18 452.18
. < < .
Adems, para hallar
=1 2 =1 2
< < +
2 2

(2.045)(3.2295)41.086 (2.045)(3.2295)41.086
3.829633 < < 3.829633 +
(33)(4152.18) (33)(4152.18)

. < < .

2.4. El coeficiente de determinacin

La cantidad, R2, se denomina coeficiente de determinacin y es una medida de la proporcin


de la variabilidad explicada por el modelo ajustado.
El enfoque del anlisis de varianza utiliza la suma cuadrtica de los errores
n

SSE = (yi yi )2
i=1

y de la suma total de los cuadrados corregida


n

SST = (yi yi )2
i=1

Esta ltima representa la variacin en los valores de respuesta que idealmente seran
explicados con el modelo. El valor SSE es la variacin debida al error, o variacin no
explicada. Resulta claro que s SSE = 0 , toda variacin queda explicada. La cantidad que
representa la variacin explicada es SST SSE. R2 es el

Coeficiente de determinacin: =

Cabe recalcar que si el ajuste es perfecto, todos los residuos son cero, y as R2 = 1, pero si
SSE es tan slo un poco menor que SST, R2 0 o deficiente.

Figura 3. Grficas que ilustran un ajuste muy bueno y otro deficiente.

2.5. El coeficiente de correlacin


El anlisis de correlacin intenta medir la intensidad de las relaciones entre dos variables
por medio de un solo nmero denominado coeficiente de correlacin.

2 2
2
2 = 1 =
2 2

La constante se denomina coeficiente de correlacin de la poblacin, y juega un papel


importante en muchos problemas de anlisis de datos bivariados. El valor de es 0 cuando
= 0, que resulta cuando en esencia no existe regresin lineal. Los valores de = 1 slo
ocurren cuando 2 =0, en cuyo caso se tiene una relacin lineal perfecta entre las dos
variables. As, un valor de igual a +1 implica una relacin lineal perfecta con pendiente
positiva, en tanto que un valor de igual a 1 resulta de una relacin lineal perfecta con
pendiente negativa. Entonces, podra decirse que los estimadores mustrales de con
magnitud cercana a la unidad implican una buena correlacin o asociacin lineal entre X y
Y; mientras que valores cerca de cero indican poca o ninguna correlacin.

Coeficiente de correlacin
La medida de la asociacin lineal entre dos variables X y Y se estima por medio del
coeficiente de correlacin maestral r, donde

= =

2.6. Prediccin del intervalo

Hay otra manera de construir un modelo de regresin lineal. Mediante predecir valores de
respuesta para uno o ms valores de la variable independiente. Este tema se centra en los
errores asociados con la prediccin.

La ecuacin = + es la utilizada para predecir o estimar la respuesta media | para


= , donde dicho valor no necesariamente es uno de los valores preestablecidos, o puede
emplearse para pronosticar un solo valor 0 de la variable , cuando = .
Se puede construir un intervalo de confianza para |. Se puede usar el estimador puntual
0 = + 0 para estimar | = + . Entonces la distribucin maestral de es normal
con media:

| = (0 ) = ( + 0 ) = + 0

y la varianza:

2
1 (0 )2
0
= 2+0 = 2+(0 ) 2
= [ + ]

Por lo que es posible construir un intervalo de confianza de (1 )100% sobre la respuesta


media | mediante:
0 |
=
1 ( )2
+ 0

Intervalo de confianza para |

Un intervalo de confianza de (1 )100% para la respuesta media | es:

1 )2
(0
0 + < |

1 )2
(0
0 + + > |

Utilizamos el modelo de regresin lineal para:

Determinar la relacin de dependencia que tiene una variable respecto a otra.


Ajustar la distribucin de frecuencias de una lnea, es decir, determinar la forma
de la lnea de regresin.
Predecir un dato desconocido de una variable partiendo de los datos conocidos
de otra variable.

Ejercicios de repaso

1. Se realiz un estudio para analizar el efecto de la temperatura ambiente, x, sobre la energa


elctrica consumida por una planta qumica, y. Se mantuvieron constantes otros factores y se
recabaron los datos a partir de una planta piloto experimental.
a) Grafique los datos.
b) Estime la pendiente y la interseccin en un modelo de regresin lineal simple.
c) Pronostique el consumo de energa para una temperatura ambiente de 65 F.

y (BTU) x ( F)
250 27
285 45
320 72
295 58
265 31
298 60
267 34
321 74
2. Las siguientes son las calificaciones de un grupo de 10 estudiantes de la asignatura
de Probabilidad y Estadstica en un examen parcial (x) y en el examen final (y):

x 77 50 71 72 81 94 96 99 67 79
y 82 66 78 34 47 85 99 99 68 45

a) Estime la recta de regresin lineal.


b) Calcule la calificacin final de un estudiante que obtuvo 85% en el examen parcial.

3. El empuje de un motor (y) es funcin de la temperatura de escape (x) en F, cuando


otras variables de importancia se mantienen constantes. Considere los siguientes datos.

y x
4300 1760
4650 1652
3200 1485
3150 1390
4950 1820
4010 1665
3810 1550
4500 1700
3008 1270

a) Grafique los datos.


b) A juste una recta de regresin simple a los datos y grafquela a travs de ellos.

4. Dado el conjunto de datos:

x y
2 7
15 50
30 100
10 40
20 70
45 50
25 80

a) Grafique los datos.


b) Ajuste una recta de regresin por el origen.
c) Grafique la recta de regresin sobre la grfica de los datos.
d) D una frmula general (en trminos de las yi y la pendiente b) para el estimador de
2.
e) Para este caso, d una frmula para (); = 1, 2, , .
f) Grafique los lmites de confianza de 95% para la respuesta media sobre la grfica
alrededor de la recta de regresin.

V.- BIBLIOGRAFA
Devore, J. L. (2008). Probabilidad y estadstica para ingenieras y ciencias. Cengage Learning
Editores.

Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadstica para
ingeniera y ciencias. Pearson Educacin.

Miller, I., & Freund, J. E. (1963). Probabilidad y estadstica para ingenieros. Reverte.