Está en la página 1de 6

Estadística y Probabilidad I

Profesor: Aquilino Zecua Fernández

Clase 8. Regresión Lineal.


Nombre del Alumno: _______________________________________________________
Grupo: _____________ Fecha: ___________________

Regresión Lineal
La regresión en su forma más sencilla se llama regresión lineal simple. Se trata de una
técnica estadística que analiza la relación entre dos variables cuantitativas. Si tienen dos
variables hablamos de una regresión simple, si hay más de dos variables es una regresión
múltiple.

La regresión está dirigida a describir cómo es la relación entre dos variables (x, y), de
tal manera que se pueden hacer predicciones sobre los valores de la variable y, a partir
de los de x. Cuando la asociación entre ambas variables es fuerte, la regresión nos ofrece
un modelo estadístico que puede alcanzar la predicción de la variable dependiente.

Una vez que se realiza un diagrama de dispersión y se observa una posible relación lineal
entre las dos variables, podemos encontrar la ecuación de la recta que mejor se ajuste a la
nube de puntos. Esta recta se denomina recta de regresión o de mejor ajuste.

La regresión se refiere al procedimiento de obtener una ecuación con fines de estimación


o predicción. La variable por estimar o predecir se denomina variable dependiente; y la
otra variable, aquella que proporciona la base de la estimación, se denomina variable
independiente. La regresión lineal se refiere a una relación que puede representarse
gráficamente mediante una línea recta. En general una recta de regresión simple toma la
forma:

y = ax + b

Donde a es la intersección de Y; esto es, el punto en que la recta y al eje Y se interceptan;


y b es la pendiente de la recta, la cual es el cambio en Y por cada cambio unitario en
X. El objetivo es obtener una ecuación de regresión que implica el cálculo de los valores
para a y b, y representarla en un diagrama de dispersión el cual proporciona una imagen
visual del tipo de relación involucrada y sugiere el tipo de ecuación que mejor se ajustará a
los datos.

1
Estadística y Probabilidad I

Método de Mínimos Cuadrados


Para obtener la ecuación de regresión ¿Qué criterios se emplea para seleccionar la mejor
línea recta? El criterio que más se utiliza se conoce mínimos cuadrados:

El cual implica que la recta elegida para ajustar los puntos del diagrama
de dispersión sea tal que la suma de los cuadrados de las distancias
verticales entre los puntos y la recta sea lo más pequeña posible.


Las rectas verticales trazadas desde la recta de predicción ( x, y ) hasta cada punto ( x, y )

representan las desviaciones de los puntos desde la recta, es decir ( x − y ) , donde

y = ax + b . Como se muestra en la gráfica.


Observe que algunos puntos están debajo de la recta de predicción, y por lo tanto ( x − y )

será negativo. Para evitar que las distancias positivas y negativas se “cancelen entre sí”, se

2
Estadística y Probabilidad I

elige minimizar las distancias desde los puntos hasta la recta ajustada, usando el principio
de mínimos cuadrados.

La recta que reduce al mínimo la suma de cuadrados de las desviaciones de los valores
observados de y desde los pronosticados es la recta de mejor ajuste. La suma del
cuadrado de las desviaciones por lo general se denomina suma de cuadrados de error
(SSE) y se define:

SSE = ∑ (y – ŷ)2 = ∑ [y – (ax + b)]2 = ∑ (y – ax – b)2

Para determinar los valores de a y b, se usa cálculo diferencial, el cual está fuera del
propósito del tema. En lugar de derivar sus valores, simplemente presentaremos fórmulas
para calcular los valores de a y b.

Las cantidades a y b que minimizan dicho error son los llamados coeficientes de regresión.

Para el curso utilizaremos la ecuación de regresión y = ax + b

a = Pendiente
b = Ordenada al Origen
n( xy ) − ( x)( y ) ( y ) − a ( x )
a= b=
n(  x ) − (  x )
2 2
n

Ejemplo
La siguiente tabla muestra las estaturas de siete alumnos en metros y se desea saber la
relación que existe entre la estatura de los estudiantes y el número de calzado que utilizan.

Estatura (x) 1.66 1.80 1.72 1.90 1.70 1.57 1.75


Número de calzado (y) 4.5 9.0 6.0 9.5 7.0 5.0 8.0

Determinar:
a) El Diagrama de dispersión de datos
b) La recta de regresión por el método de mínimos cuadrados
c) Trace la recta en el diagrama dispersión
d) ¿Cuál es el número de calzado del alumno si, su estatura es de 1,85 metros?

3
Estadística y Probabilidad I

a) Diagrama de Dispersión

Diagrama de Dispersión
10

9
No. de Calzado (Y)

4
1.55 1.60 1.65 1.70 1.75 1.80 1.85 1.90
Estatura (X)

Para el cálculo del de la recta de regresión se elabora una tabla de datos

x y xy x2 y2
1.66 4.5 7.47 2.7556 20.25
1.80 9.0 16.20 3.2400 81.00
1.72 6.0 10.32 2.9584 36.00
1.90 9.5 18.05 3.6100 90.25
1.70 7.0 11.90 2.8900 49.00
1.57 5.0 7.85 2.4649 25.00
1.75 8.0 14.00 3.0625 64.00
∑=12.10 ∑=49.0 ∑=85.79 ∑=20.9814 ∑=365.5

El modelo de la recta de regresión de mínimos cuadrados es: y = ax + b . Los coeficientes

de correlación son las incógnitas y tienen que calcularse a partir de los datos muestrales.
Las fórmulas para obtener los coeficientes son:

n( xy ) − ( x)( y ) ( y ) − a ( x )
a= b=
n(  x ) − (  x )
2 2
n

4
Estadística y Probabilidad I

Para el cálculo de la pendiente “a” es:

7(85.79) − (12.10)(49.0)
a=
7(20.9814) − (12.10)2

600.53 − 592.9
a=
146.8698 − 146.41

7.63
a= = 16.5941
0.4598

Para el cálculo de la ordenada al origen “b” es:

(49.0) − (16.5941)(12.10)
b=
7

49 − 200.7886
b=
7

−151.7886
b= = −21.6840
7

El modelo de regresión de mínimos cuadrados es:


y = ax + b

b) La recta de regresión por el método de mínimos cuadrados


y = 16.5941( x) − 21.6840

c) Trace la recta en el diagrama dispersión

Para trazar la recta en el diagrama de dispersión se predicen dos puntos, por ejemplo:

Si x = 1.57


y = 16.5941(1.57) − 21.6840 = 4.3663

Si x = 1.90


y = 16.5941(1.90) − 21.6840 = 9.8410

5
Estadística y Probabilidad I

Gráfica de línea ajustada


y = 16.5941 x - 21.684
10 S 0.939399
R-cuad. 80.4%
R-cuad.(ajustado) 76.5%
9

7
y

4
1.55 1.60 1.65 1.70 1.75 1.80 1.85 1.90
x

d) Cuál es el número de calzado del alumno si, su estatura es de 1.85 metros

Sustituyendo X = 1.85 en la ecuación de mínimos cuadrados:


y = 16.5941(1.85) − 21.6840


y = 9.01  9

También podría gustarte