Está en la página 1de 78

Tema 2

Correlacin y regresin
Por: Jos Antonio Rivera Colmenero

2.1. Conceptos bsicos de correlacin


En esta seccin veremos los mtodos para determinar si existe una correlacin o asociacin entre
dos variables, y si la correlacin es lineal. En el caso de las correlaciones lineales, podemos
identificar la ecuacin que se ajusta mejor a los datos, y podemos utilizar esa ecuacin para
predecir el valor de una variable a partir del valor de la otra variable.
Iniciamos con la definicin bsica de correlacin, un trmino que se utiliza comnmente en el
contexto de una relacin entre dos variables.

D EF I N I C I N

Existe una correlacin entre dos variables cuando los valores de una de ellas estn
relacionados de alguna manera con los valores de la otra.

La Tabla 2-1, por ejemplo, consiste en datos pareados del precio de una rebanada de pizza y el
precio correspondiente de un boleto del Metro en la ciudad de Nueva York, determinaremos si
existe una correlacin entre la variable x (el precio de una rebanada de pizza) y la variable
y

(el precio de un boleto del Metro).

TABLA 2-1
Ao
1960
1973
1986
1995
2002
2003

Precio de una rebanada de pizza, tarifa del Metro


x
Precio de pizza ( i
Tarifa del Metro ( y i)
0.15
0.35
1.00
1.25
1.75
2.00

0.15
0.35
1.00
1.35
1.50
2.00
1

Exploracin de los datos


Antes de realizar cualquier anlisis estadstico formal, primero debemos utilizar un diagrama de
dispersin para explorar los datos de manera visual. Podemos examinar el diagrama de dispersin
para ver si existen patrones diferentes y valores atpicos, que son los puntos que se alejan mucho
de los dems valores. Si los puntos graficados muestran un patrn distintivo, podemos concluir
que existe una correlacin entre las dos variables en una muestra de datos pareados
2.50
2.00
2.00

Metro

1.50

1.35

1.50
1.00
1.00
0.35

0.50

0.15

0.00
0.00

0.50

1.00

1.50

2.00

2.50

Pizza

FIGURA 2-1. Diagrama de dispersin de los precios


de la pizza y del boleto del metro.

Coeficiente de correlacin lineal


Puesto que las conclusiones que se basan en el examen visual de los diagramas de dispersin son
muy subjetivas, necesitamos medidas ms objetivas. Empleamos el coeficiente de correlacin
lineal r , que sirve para detectar patrones lineales.

D EF I N I C I N

El coeficiente de correlacin lineal


cuantitativos pareados

mide la fuerza de la relacin lineal entre los valores

en una muestra. El coeficiente de correlacin lineal

tambin se conoce como coeficiente de correlacin producto momento de Pearson, en


honor de Karl Pearson (18571936), quien lo desarroll originalmente.
2

Puesto que el coeficiente de correlacin lineal r

se calcula utilizando datos muestrales, se trata


de un estadstico muestral empleado para medir la fuerza de la correlacin lineal entre x y
y . Si tuviramos cada par de los valores poblacionales de x y y , el resultado de la
frmula de correlacin lineal r sera un parmetro poblacional, representado por (la
letra griega rho).
Objetivo
Determinar si existe una correlacin lineal entre dos variables.
Notacin para la ecuacin de regresin
n=

nmero de pares de datos muestrales.

denota la suma de los elementos indicados.

x= suma de todos los valores de

x 2=

x .

indica que cada valor de

debe elevarse al cuadrado y que despus deben

sumarse.

( x )2=

indica que los valores de

deben sumarse para luego elevar el total al

cuadrado. Es sumamente importante evitar confundirse entre


xy =

indica que cada valor de


correspondiente de

y ( x)

debe multiplicarse primero por su valor

y . Despus de obtener todos estos productos, se calcula la

suma.
r=

coeficiente de correlacin lineal para datos muestrales.

coeficiente de correlacin lineal para una poblacin de datos pareados.

Requisitos
Cuando nos enfrentamos a un conjunto de datos cuantitativos muestrales pareados, siempre se
puede calcular el coeficiente de correlacin lineal r , pero se deben satisfacer los siguientes
requisitos al utilizar los datos muestrales para llegar a una conclusin acerca de una correlacin
en la poblacin.

1. La muestra de datos pareados

( x , y ) es una muestra aleatoria simple de datos cuantitativos.

(Es importante que los datos muestrales no se hayan reunido por algn mtodo inadecuado,
como una muestra de respuesta voluntaria).
2. El examen visual del diagrama de dispersin debe confirmar que los puntos se acercan al
patrn de una lnea recta.
3. Como los resultados se pueden ver muy afectados por la presencia de valores atpicos, es
necesario eliminar cualquier valor atpico, si se sabe que se trata de un error. Los efectos de
r
cualquier otro valor atpico deben tomarse en cuenta calculando
con y sin el valor
atpico incluido.
Frmulas para calcular r
Frmula 2-1
r=Corr ( x , y )=

Cov (x , y )
=
Sx S y

( x ix ) ( y i y )

[ ( x x ) ][ ( y y ) ]
2

Frmula 2-2
x i y i( xi ) ( y i ) /n
r=
[ x 2i ( x i )2 /n ][ y 2i ( y i )2 /n ]

Frmula 2-3
n ( x i y i ) ( x i ) ( y i )
r=
=
n ( x2i ) ( xi )2 n ( y2i ) ( y i )2

Frmula 2-4
r=

( z x z y )
n1

Otras frmulas que son equivalentes para el clculo de

en el sentido de que todas

producen los mismos valores.


r=

[( )( )]

n
n
x i x
1
1
x

x
y

;
r=
( i )( i )

n1 i=1
sx
(n1) s x s y i=1

y i y
s
; r= xy
sy
sxsy

donde

zx

es la puntuacin

para el valor muestral

para el valor muestral

x ,y

zy

es la puntuacin

y .

Interpretacin del coeficiente de correlacin lineal r


Uso de la Tabla 2-A (al final del tema) para interpretar r. Si el valor absoluto de r, que se denota
por |r| , excede el valor en la Tabla 2-A, se concluye que existe una correlacin lineal. De lo
contrario, no existe evidencia suficiente para sustentar la conclusin de una correlacin lineal.
ADVERTENCIA
Recuerde que los mtodos utilizados se aplican a una correlacin lineal. Si concluye que, al
parecer, no existe una correlacin lineal, es posible que exista algn otro tipo de relacin que no
es lineal.

Redondeo del coeficiente de correlacin lineal r


r

Redondee el coeficiente de correlacin lineal

a tres decimales (de manera que su valor

pueda compararse directamente con los valores crticos de la Tabla 2-A). Al calcular a mano
r
y otros estadsticos, hacer un redondeo a la mitad de un clculo suele generar errores
importantes, as que trate de almacenar los resultados inmediatos y redondee solo hasta el final.
Propiedades del coeficiente de correlacin lineal r
1. El valor de r

est siempre entre 1 y 1, inclusive. Es decir,


1 r 1 .

2. El valor de

no cambia si todos los valores de cualquiera de las variables se convierten

a una escala diferente.


3. El valor de
valores de
4.

no se ve afectado por la eleccin de x o


x y y , y el valor de r no sufrir cambios.

y . Intercambie todos los

mide la fuerza de una relacin lineal. No est diseada para medir la fuerza de una

relacin que no sea lineal.

5.

es muy sensible a los valores atpicos, en el sentido de que un solo valor atpico puede

afectar su valor de manera drstica.

Valores de r y sus implicaciones

Clculo del coeficiente de correlacin lineal r


6

Hay varios mtodos para calcular el valor del coeficiente de correlacin lineal

, pero solo es

necesario utilizar un mtodo. Se recomienda ampliamente el uso de un programa de cmputo


como el Excel. Si es absolutamente necesario realizar clculos a mano, se recomienda el uso de la
Frmula 2-3.
Ejemplo 1. Clculo de r por medio de la frmula 2-3. Con base en la Frmula 2-3, calcule
el valor del coeficiente de correlacin lineal r para los precios pareados de la pizza y del
boleto del Metro listados en la Tabla 2-1.
Solucin: Si se utiliza la Frmula 2-3, el valor de r se obtiene como se muestra a
continuacin. Observe que la variable x se utiliz para el precio de la pizza, y que la variable
y

se utiliz para el precio del boleto del metro. Como hay seis pares de datos

n=6 . En la

Tabla 2-2 aparecen otros valores requeridos.


Clculo de r con la frmula 23
Tarifa del
Precio de

TABLA 2-2
Ao

pizza (
xi

1960

0.15

1973

i
y

xi yi

xi

yi

0.15

0.0225

0.0225

0.0225

0.35

0.35

0.1225

0.1225

0.1225

1986

1.00

1.00

1.0000

1.0000

1.0000

1995

1.25

1.35

1.5625

1.8225

1.6875

2002

1.75

1.50

3.0625

2.2500

2.6250

2003

2.00
x i= 6

4.000

4.000

4.0000
x i y i=

Metro

2.00
y i = 6.

.50

x =

2
i

y = 9.

9.4575
2175
Con los valores de la Tabla 2-2 y la Frmula 2-3, calculamos r como sigue:
r=

35

2
i

n ( x i y i ) ( x i ) ( y i )

9.77

6 ( 9.4575 )( 6.50 )( 6.35 )

n ( x )( x ) n ( y )( y ) 6 ( 9.77 )( 6.50 ) 6 ( 9.2175 )( 6.35 )


2
i

2
i

r=

15.47
=0.988.
16.37 14.9825

Ejemplo 2. Clculo de r por medio de la frmula 2-1. Con base en la Frmula 2-1, calcule
el valor del coeficiente de correlacin lineal r para los precios pareados de la pizza y del
boleto del Metro listados en la Tabla 2-3 y los datos de las medias

x y

y .

Clculo de r con la frmula 21

TABLA 2-3
Precio de
pizza (

Tarifa del
Metro
2

( x ix )

( y i y )

( x ix )

( y i y )

( x ix ) ( y i y )

xi

i
y

1960
1973
1986
1995
2002
2003

0.15
0.35
1.00
1.25
1.75
2.00

0.15
0.35
1.00
1.35
1.50
2.00

0.9333
0.7333
0.0833
0.1667
0.6667
0.9167

0.9083
0.7083
0.0583
0.2917
0.4417
0.9417

0.8711
0.5378
0.0069
0.0278
0.4444
0.8403

0.8251
0.5017
0.0034
0.0851
0.1951
0.8867

0.8478
0.5194
0.0049
0.0486
0.2944
0.8632

SUMA :

6.50

6.35

0.0000

0.0000

2.7283

2.4971

2.5783

Ao

x =

x i 6.50
y i 6.35
=
=1.0833, y =
=
=1.0583 .
n
6
n
6

r=

( x ix ) ( y i y )

[ ( x x ) ][ ( y y ) ]
2

2.5783
2.5783
=
=0.988
(2.7283)(2.4971) 2.6101

Desviacin estndar de una muestra


La desviacin estndar es la medida de variacin que ms se utiliza en estadstica.

D EF I N I C I N

La desviacin estndar de un conjunto de valores muestrales, denotada por

s , es la

medida de variacin de los valores con respecto a la media. Es un tipo de desviacin


promedio de los valores con respecto a la media, que se calcula utilizando las Frmulas 2-5 y
2-6, que algebraicamente son iguales.
Frmula 2-5
2
( x x )
s=
n1

Frmula 2-6
s=

n ( x ) ( x )
n (n1)

Ejemplo 3. Clculo de r por medio de la frmula 2-4. Con base en la Frmula 2-4, calcule
el valor del coeficiente de correlacin lineal r para los precios pareados de la pizza y del
boleto del Metro incluidos en la Tabla 2-4.
Usando la Frmula 2-5 y de la Tabla 2-3, obtenemos las desviaciones de x y de y:

( xi x )
2.7283
sx =
=
=0.7387
n1
61
( y i y )
2.4971
s y=
=
=0.7067
n1
61

TABLA 2-4

Ao

Precio
de pizza
(

1960
1973
1986
1995
2002
2003

Clculo de r con la frmula 24


Tarifa del
Metro

xi

i
y

0.15
0.35
1.00
1.25
1.75
2.00

0.15
0.35
1.00
1.35
1.50
2.00

zx=

x ix
sx

z y=

y i y
sy

1.2634
0.9927
0.1128

1.2853
1.0023
0.0825

0.2257
0.9025
1.2410

0.4128
0.6250
1.3325

zx z y

1.6239
0.9949
0.0093
0.0931
0.5641
1.6536

SUMA :

6.50

( z x z y )= 4.

6.35

9390

x =

Si sumamos

x i 6.50
y i 6.35
=
=1.0833, y =
=
=1.0583 .
n
6
n
6
( z x z y )=

4.9390 de la Tabla 2-4, el valor de

se calcula utilizando la

Frmula 2-4, como se muestra a continuacin.


r=

( z x z y ) 4.939
=
=0.988
n1
61

Interpretacin del coeficiente de correlacin lineal r


Despus de calcular el coeficiente de correlacin lineal

r , necesitamos interpretar su

significado. Podemos basar nuestra interpretacin en un valor P (Probabilidad) o en un valor


crtico de la Tabla 2-A . Al utilizar dicha tabla, concluimos que existe una correlacin lineal si
|r| excede el valor utilizado en la tabla. Esto equivale a la condicin de que r es mayor
que el valor de la Tabla 2-A o menor que el negativo del valor de dicha tabla. Es til considerar
los valores crticos de la Tabla 2-A como positivos y negativos. Para los datos del precio de la
pizza y del boleto del Metro, la tabla produce r=0.811 (para seis pares de datos y un nivel de
significancia de 0.05). As, podemos comparar el valor calculado de
de 0.811 , como se observa en la Figura 2-2.

r=0.988

con los valores

FIGURA 2-2. Valores crticos de la Tabla 2-A y el valor calculado de r.

Interpretacin de r: Variacin explicada


10

Si concluimos que existe una correlacin lineal entre x


y y , podemos obtener una
ecuacin lineal que exprese y
en trminos de x , y la ecuacin puede utilizarse para
predecir valores de y a partir de los valores dados de x .
El valor de

r2

es la proporcin de la variacin de

explica por la relacin lineal entre

y , y se

y .

Ejemplo 4. Variacin explicada. Con los datos de los precios de la pizza y del boleto del
Metro, encontramos que el coeficiente de correlacin lineal es r=0.988 . Qu proporcin de
la variacin en el precio del boleto del Metro puede explicarse por la variacin en el precio de la
rebanada de pizza?
Solucin:
Con

r=0.988 , obtenemos

r 2=0.976

Interpretacin. Concluimos que 0.976 (o aproximadamente el 98%) de la variacin en el


precio de un boleto del Metro puede explicarse por la relacin lineal entre los precios de la pizza
y del boleto del Metro. Esto implica que cerca del 2% de la variacin de los precios del boleto del
Metro no puede explicarse por los precios de la pizza.
Prueba de hiptesis para una correlacin lineal (uso del estadstico
de prueba r)
Notacin
n= Nmero de pares de datos.
r=

Coeficiente de correlacin lineal para una muestra de datos pareados.


Coeficiente de correlacin lineal para una poblacin de datos pareados.

Requisitos
Se aplican los mismos requisitos que pare el coeficiente de correlacin lineal.
Hiptesis

H 0 : =0

(No existe una correlacin lineal)

H1: 0

(Existe una correlacin lineal)


11

Estadstico de prueba : r
Valores crticos: Remtase a la Tabla 2-A.
Conclusin

|r|>

H0

Si

evidencia suficiente para sustentar la afirmacin de una correlacin lineal.


H0
Si |r|
el valor crtico de la Tabla 2-A, no rechace
y concluya que no hay

el valor crtico de la Tabla 2-A, rechace

y concluya que no existe

evidencia suficiente para sustentar la afirmacin de una correlacin lineal.


Ejemplo 5. Prueba de hiptesis con los precios del boleto del Metro y de la pizza. Utilice
los datos pareados de los precios de la pizza y del boleto del Metro para someter a prueba la
afirmacin de que existe una correlacin lineal entre el precio de una rebanada de pizza y el
precio de un boleto del Metro. Utilice un nivel de significancia de 0.05.
Solucin:
Afirmar que existe una correlacin lineal equivale a aseverar que el coeficiente de correlacin
lineal poblacin es diferente de 0. Por lo tanto, tenemos las siguientes hiptesis:
H 0 : =0

(No existe una correlacin lineal)

H1: 0

(Existe una correlacin lineal)

El estadstico de prueba es
Tabla 2-A con

n=6

r=0.988 .

El valor crtico de

=0.05 . Puesto que

r=0.811

se encuentra en la
|0.988|> 0.811 , rechazamos H 0 : =0 .

(El rechazo de ninguna correlacin lineal indica que existe una correlacin lineal).
Interpretacin. Concluimos que existe evidencia suficiente para sustentar la afirmacin de
una correlacin lineal entre los precios de una rebanada de pizza y los precios del boleto del
Metro.

Mtodo del valor P para la prueba de hiptesis de


una correlacin
El mtodo de prueba de hiptesis anterior supone clculos relativamente sencillos. Los Paquetes
de cmputo suelen utilizar el mtodo del valor P basado en una prueba t. Los siguientes son los
componentes fundamentales de una prueba t.

12

Prueba de hiptesis para una correlacin lineal (uso del valor P de


una prueba t)
Hiptesis

H 0 : =0

(No existe una correlacin lineal)

H1: 0

(Existe una correlacin lineal)

Estadstico de prueba
t=

1r
n2

Valor P: Utilice un programa de cmputo o la Tabla 2-B (al final del tema) con
de libertad para calcular el P correspondiente al estadstico de prueba t .

n2 grados

Conclusin
H0

Si el valor P es menor que o igual al nivel de significancia, rechace

existe evidencia suficiente para sustentar la afirmacin de una correlacin lineal.


H0
Si el valor de P es mayor que el nivel de significancia, no rechace
y concluya que no

y concluya que

hay evidencia suficiente para sustentar la afirmacin de una correlacin lineal.


Ejemplo 6. Prueba de hiptesis con los precios del boleto del Metro y de la pizza. Utilice
los datos pareados de los precios de la pizza y del boleto del Metro y utilice el mtodo del valor P
para someter a prueba la afirmacin de que existe una correlacin lineal entre el precio de una
rebanada de pizza y el precio de un boleto del Metro. Utilice un nivel de significancia de 0.05.
Solucin:
Afirmar que existe una correlacin lineal equivale a aseverar que el coeficiente de correlacin
lineal poblacin es diferente de 0. Por lo tanto, tenemos las siguientes hiptesis:
H 0 : =0

(No existe una correlacin lineal)

H1: 0

(Existe una correlacin lineal)

El coeficiente de correlacin lineal es r = 0.988 y n = 6 (porque hay seis pares de datos


muestrales). De manera que el estadstico de prueba es:

13

t=

1r
n2

0.988

10.9882
62

=12.793

Los paquetes de cmputo utilizan mayor precisin para obtener el estadstico de prueba ms
exacto de t =12.692. Con 4 grados de libertad, la Tabla 2-B (al final del tema) indica que el
estadstico de prueba t = 12.793 produce un valor P que es menor que 0.01. Los paquetes de
cmputo dan un valor P de 0.00022. Como el valor de P es menor que el nivel de significancia de
0.05, rechazamos H0.
Interpretacin. Concluimos que existe evidencia suficiente para sustentar la afirmacin de
una correlacin lineal entre el precio de una rebanada de pizza y el precio del boleto del metro.

Uso del Excel para obtener el coeficiente de


correlacin lineal, el estadstico de prueba t, y el
valor de la probabilidad (P)
Primer paso. Capturar la tabla de datos anterior en Excel y seleccionar del men principal la
opcin Datos/Anlisis de datos. En la ventana de Anlisis de datos se seleccin Regresin.

En la ventana de Regresin seleccionar en Rango Y de entrada los datos de PRECIO DE


PIZZA (A1:A7), en Rango X de entrada se seleccionan los datos de TARIFA DEL METRO
(B1:B7), marcar la opcin de Rtulos si queremos reservar tambin las celdas con los nombres de
las variables; y en Opciones de salida marcamos En una hoja nueva; se da clic en el botn
Aceptar.

14

Despus de hacerlo, obtenemos los siguientes resultados:

2.2. Conceptos bsicos de regresin


En esta seccin, describimos la ecuacin de la recta que se ajusta mejor a los datos muestrales
pareados. Dicha frmula describe algebraicamente la relacin entre las dos variables. A la recta
con el mejor ajuste se le conoce como recta de regresin y su ecuacin se denomina ecuacin de
regresin. Es posible graficar la ecuacin de regresin en un diagrama de dispersin para
determinar de manera visual qu tan bien se ajusta a los datos. Tambin se presentan mtodos
para hacer predicciones a partir de la ecuacin de regresin.

15

Un problema de regresin simple


Para explicar los conceptos bsicos, empezaremos con un experimento para determinar la
relacin entre dos variables x y y , x acta como una variable independiente cuyos
valores son controlados por el experimentador, mientras que y depende de x , y est sujeta
a las fuentes incontrolables de error.
La variable independiente o controlada tambin se llama la variable predictora y se
denota por x . El efecto o variable de respuesta se denota por y.

La dependencia de

sobre

es unidireccional, por lo que trataremos principalmente con


situaciones en las que los valores de x se establecen sin un error apreciable. (Casos en los que
tanto x como y son ajenas a la voluntad del experimentador y slo pueden ser observados
por muestreo aleatorio). Para una discusin ms concreta suponemos que

automviles

Mustang se utilizan en un experimento. La cantidad de xidos de nitrgeno que cada vehculo


emite se mide primero sin el aditivo. A continuacin, una determinada cantidad x del aditivo
se utiliza en un tanque de gasolina lleno y se mide de nuevo la emisin de xidos de nitrgeno.
Enseguida la reduccin en la cantidad de xidos se registra como la variable de respuesta y .
Los datos se pueden organizar como en la Tabla 2-5:
TABLA 2-5.
FORMA DE LOS DATOS

Cantidad de aditivo

Reduccin de xidos de nitrgeno


y

x1

x2

x3

xn

y1

y2

y3

yn

Como ejemplo numrico, consideramos los datos de la Tabla 2-6 como las observaciones
obtenidas en un experimento con n=10 automviles. La cantidad de aditivo x y la
reduccin de xidos de nitrgeno y se mide con las unidades adecuadas. Siete diferentes
niveles de

se incluyen en el experimento, y algunos de estos niveles se repiten para ms de


un automvil. Un vistazo a la tabla nos muestra que y generalmente aumenta con x , pero
16

es difcil decir mucho ms acerca de la forma de la relacin simplemente viendo estos datos
tabulares.
TABLA 2-6.
DATOS DE LA CANTIDAD DE ADITIVO Y LA REDUCCIN DE
OXIDOS DE NITRGENO EN 10 AUTOMVILES
Cantidad de aditivo

2.1

2.5

3.1

3.0

3.8

3.2

4.3

3.9

4.4

4.8

Reduccin de xidos de nitrgeno

y
Representacin de los datos

En el estudio de la relacin entre dos variables, el primer paso lgico es representar los datos
como puntos. La figura resultante, llamada diagrama de dispersin, indica si los puntos se
agrupan en torno a una lnea recta o a una curva y tambin nos dan una impresin visual de la
magnitud de la variacin con respecto a la lnea o a la curva. En la mayora de las situaciones no
hay una relacin terica a priori conocida para aplicarla, as que la informacin representada en
el diagrama de dispersin es til en la bsqueda de un modelo matemtico adecuado.
El diagrama de dispersin de las observaciones en la Tabla 2.6 aparece en la Figura 2.3. Este
diagrama de dispersin revela que la relacin es aproximadamente lineal por naturaleza; es decir,
los puntos parecen agruparse en torno a una lnea recta. Debido a que una relacin lineal es la
relacin ms simple para manejarse matemticamente, se presentan los detalles del anlisis de
regresin estadstica para este caso. Otras situaciones a menudo pueden reducirse a este caso por
la aplicacin de transformaciones adecuadas para una o ambas variables.
Es importante hacer el siguiente recordatorio:
El primer paso en el anlisis
En la investigacin de la relacin entre dos variables, la grfica de un diagrama de
dispersin es un importante paso previo que se debe realizar antes de comenzar un anlisis
estadstico formal. Un diagrama de dispersin da una idea de la naturaleza de la relacin
mostrada por los datos.

17

Figura 2.3. Diagrama de dispersin

2.2.1. Regresin lineal simple por mnimos cuadrados


Objetivo
Calcular la ecuacin de una recta de regresin.
Notacin para la ecuacin de regresin

Interseccin de la ecuacin de regresin con el eje

y
Pendiente de la ecuacin de regresin
Ecuacin de la recta de regresin

Parmetro poblacional

Estadstico muestral

b0

b1

^y = 0 + 1 x

^y =b 0+ b1 x

Requisitos
1. La muestra de datos pareados ( x , y es una muestra aleatoria de datos cuantitativos.
2. El examen visual del diagrama de dispersin indica que los puntos se aproximan al patrn de
una lnea recta.
18

3. Los valores atpicos pueden tener un gran efecto sobre la ecuacin de regresin, por lo que se
debe eliminar cualquier valor atpico, si se sabe que es un error. Es importante tomar en
cuenta los efectos de cualquier valor atpico que no sea un error conocido.
b1

Frmulas para calcular la pendiente


en la ecuacin de regresin

y la interseccin con el eje y,

^y = y b1 x

Donde r

Frmula 2-7

b0

Pendiente:

b1=r

es el

coeficiente de correlacin
s
lineal, y es la

sy
sx

desviacin estndar de los


s
valores de y , y x
es la desviacin estndar
de los valores de x .

Formula 2-8

Interseccin con el eje y:

b0 = y b 1 x

D EF I N I C I N

1.
2. A partir de un conjunto de datos muestrales pareados, la ecuacin de regresin
3.
^y i=b 0+ b1 x

describe algebraicamente la relacin entre las dos variables

y . La grfica de la

ecuacin de regresin se denomina recta de regresin (o recta del mejor ajuste o recta de
mnimos cuadrados).

19

La ecuacin de regresin expresa una relacin entre


variable de prediccin o variable independiente) y

^y

(llamada variable explicativa,


(llamada variable de respuesta o

variable dependiente). La definicin anterior indica que en estadstica, la ecuacin tpica de una
^y =b 0+ b1 x
lnea recta y=mx +b se expresa en la forma
.
^y =b 0+ b1 x

Suponga una lnea arbitraria


Figura 2-4. Para el valor
lnea es
es

b0 +b 1 x i

xi

en el diagrama de dispersin, como se muestra en la

de la variable controlada, el valor


y

, donde el valor observado

d i= y ib0b1 x i

es

yi

^y i

del modelo para esta

. Y la distancia entre estos valores

, que es la distancia vertical del punto a la lnea.

b0:

Ordenada en el origen. Punto de corte con el eje de ordenadas o eje y. En este punto x
est en el origen es decir x = 0.

b1:

Pendiente. Grado de inclinacin de la recta. Si es positiva, la recta es creciente. Si es


negativa es decreciente. Es el cociente entre el incremento que se produce en la variable
dependiente, Y, cuando se incrementa la variable independiente, X.
y
b1=
= pendiente de larecta .
x
Nota: b0 y b1 son parmetros desconocidos.

20

FIGURA 2-4. Desviaciones de las observaciones a partir de una lnea y = a + bx .


La pendiente de la recta
b1=

en la Figura 2.4 es:

^y i y 0
x ix 0

de donde
b1=

b1

y 0=b 0

x 0=0

, despejando para

^y ib0
x i0

^y i=b 0+ b1 x i

21

^y i

La recta de regresin es la que se obtiene a partir de la nube de puntos y es la que representa


mejor la distribucin de esos puntos como modelo lineal.
Se suele emplear el mtodo de los Mnimos Cuadrados, que consiste en encontrar aquella recta
tal que la suma de los cuadrados de las distancias, di , de los puntos a la recta sea la mnima
posible.
d 2i =d 21 + d 22 ++ di2+ +d 2n Mnimo
n

i=1

La funcin elegida
^y =b 0+ b1 x
.

para aproximar la relacin entre variables es una recta, es decir:

DISTANCIA = OBSERVACIN MODELO


En la Figura 2-4 se observa que:
b
( 0+b 1 x i)+ di
y i = ^y i+d i=
de donde,

d i= y i ^y i= y ib 0b1 x i .

Considerando todas las distancias de todos los n puntos, se tiene:


b

0+b
(
1 x i)
y i

d =
2
i

i=1
n

D=
i =1

22

La magnitud de D obviamente depende de la lnea dibujada; en otras palabras, depende de


b0
b
y de 1 , las dos cantidades que determinan la lnea. Un buen ajuste ocurre cuando D
es lo ms pequea posible.

El Principio de Mnimos Cuadrados


El principio de mnimos cuadrados consiste de la determinacin de los valores de los
parmetros desconocidos que hagan mnima la distancia total.
La distancia total

D se define como:

RespuestaobservadaRespuesta
(del modelo)2
D=
donde la respuesta pronosticada involucra los parmetros desconocidos del modelo. Los valores
de los parmetros determinados se llaman estimaciones por mnimos cuadrados.
El objetivo es minimizar la suma total de las distancias. Se trata de encontrar la recta que haga
mnimos las distancias (errores o residuos) para todas las observaciones. La distancia, d , la
yi
hemos definido como la diferencia entre el valor real
y el valor obtenido (valor estimado o
valor ajustado) con la recta de regresin que se denota poniendo un acento circunflejo encima de
^y i
la variable,
.
b
( 0+b 1 x i)= y ib 0b1 x i
.
d i= y i ^y i= y i
Como se cometern errores en todas las observaciones, podramos buscar los valores de
b1

b0

que hacen mnima la suma o la media de todas las distancias, aunque es fcil comprobar

que en estos modelos la suma y la media son igual a 0. Las alternativas seran sumar o hacer la
media de los valores absolutos de estas distancias, o bien la de las distancias al cuadrado; por
sencillez a la hora de derivar el criterio que adoptamos es ste ltimo, es decir, vamos a buscar
b0
b1
los valores de
y
que hagan mnima la suma de todos los errores al cuadrado, es lo
que se conoce como el criterio de Mnimos Cuadrados:
23

0+
b1 x i )
(
y i

d = Minb , b
2
i

i=1

Minimizar D=Minb , b
0

Derivando con respecto a

b0

ya

b1

i=1

e igualando con cero, se obtiene:

b1 xi
y i b0

( y ib 0b1 x i)=0
2(1)
n
D
=
b0 i=1
xi ( y i b0b1 x i )=0
21

y ib 0b1 x i

=2
i=1

2(x i )
n
D
=
b1 i=1
Dividiendo por

2, resulta un sistema de dos ecuaciones lineales con dos incgnitas

(b0 , la ordenada al origen y b1 , la pendiente de la lnea recta) .


( y ib 0b1 x i)=0(29)
n

i=1

24

x i( yi b0 b1 x i )=0 (210)
n

i=1

El cual desarrollado queda de la siguiente forma:


n

i=1

i=1

i=1

y i b0 b1 x i=0(211)
n

i=1

i=1

i=1

x i yi b0 x i b 1 x 2i =0(212)
n

Si,

b 0=n b 0
i=1

, se tiene:
n

i=1

i=1

n b0 +b 1 x i= y i (213)

i=1

i=1

b0 x i+ b1 xi = xi y i (214 )

Resolviendo para el parmetro desconocido

i=1

b0

de la ecuacin (213) :

i=1

i=1

n b0= y i +b1 x i
Despejando

b0

:
n

) (

y ib1 x i

1
1
b0 = y i b1 x i = y b1 x = i=1
n i=1
n i=1

Sustituyendo el valor de

b0

en la ecuacin ( 214 ) :

25

i=1

i=1

i=1

i=1

i=1

i=1

2
( y b1 x ) x i+ b1 xi = xi y i

x i b1 x x i +b1 xi2= x i y i
i=1

y
i=1

Multiplicando y dividiendo los dos primeros trminos del primer miembro de esta ltima
ecuacin por n :

1
1
n y x i b 1 n x x i + b1 x2i = xi y i
n i=1
n i=1
i=1
i=1

Simplificando,
n

n y x b1 n x +b1 x = x i y i
2

i=1

b1

2
i

i=1

x 2i n x 2 = x i y i n y x
i=1

i=1

x i yi n y x

b1= i=1n

x 2i n x 2

S xy
S
=r y
Sx
Sx
2

i=1

Y obtenemos que la recta de regresin de y sobre x es


b1

^y =b 0+ b1 x

con los valores de

anteriormente calculados:

Si,
^y =b 0+ b1 x=( y b 1 x ) +b 1 x= y +b 1 ( xx )= y +
es decir,

26

S xy
( xx )
Sx

( )
2

b0

^y y =

S xy
( x x )
Sx

()
2

Pendiente

que sera la misma recta pero expresada en punto pendiente. A la pendiente


regresin

^y

DEL

MODELO

Considerando el sistema de ecuaciones

DE

REGRESIN

(213) y (214) :
n

i=1

i=1

n b0 +b 1 x i= y i (213)

i=1

i=1

b0 x i+ b1 xi = xi y i (214 )
2

i=1

En forma matricial se escribira de la siguiente forma:

[ ][ ]
n

xi

i=1
n

x=1

i=1

xi x

2
i

[]

b0
=
b1

yi
i =1
n

(215)

xi yi
i=1

La matriz inversa de una matriz cuadrada de 22:

M= A
C
es,

B
D

de la recta de

sobre x se le denomina coeficiente de regresin de y sobre x.

OBTENCIN
MATRICES

b1

D
1
ADBC
M =
C
ADBC

B
ADBC
A
ADBC

]
27

LINEAL

SIMPLE

CON

si:

[ ]
n

xi

M=

i=1
n

x=1

i=1

x i x2i

entonces,

[
[

M 1=

M =

x
i=1

x i

2
i

n x2i x i x i
i=1

i=1
n

i =1
n

x=1

i=1

i=1

xi
n

n x2i x i x i
i=1

i=1

i=1

i=1
n

n x 2i xi x i

i=1

i=1

i=1

i=1

n x 2i xi x i

xi2

x i

i=1

i=1

( )

n x
2
i

i=1

xi

i=1

( )

n x
2
i

i=1

xi

i=1

x i

i=1

i=1

( )

n x
2
i

xi
i=1

i=1

( )

n x
2
i

xi
i=1

Premultiplicando por la matriz inversa ambos miembros del sistema de ecuaciones (3):

28

M 1 M

Matriz I

[]

b0
=
b1

x 2i

x i

i=1

i=1

( )

n x 2i
i=1

xi
i =1

( )

n x 2i
i=1

xi
i=1

xi

i=1

( )

n x 2i
i=1

i =1

n x 2i

xi

i=1

( )
i=1

xi

[ ]
n

yi
i=1
n

xi y i
i=1

de donde,

i=1

i=1

y i x 2i x i x i y i

b0 = i=1

i =1
2

( )

n x2i
i=1

xi

i=1

n x i yi x i y i
b1=

i=1

x=1

n x 2i
i=1

b0

Una vez que evaluamos

b1

i=1
2

( )
i=1

xi

, podemos identificar la ecuacin de la recta de regresin

estimada, la cual tiene la siguiente propiedad especial: la recta de regresin es la que mejor se
ajusta a los puntos muestrales.
DERIVACION DE LAS ESTIMACIONES DE MNIMOS CUADRADOS b0 Y b1
De acuerdo con el principio de mnimos cuadrados:
D= ( RespuestaobservadaRespuesta del modelo )2
n

i=1

i=1

D= d 2i = ( y ib0b 1 x i )2
29

b0

Podemos determinar las cantidades

b1

tal que

D= ( y ib0 b1 xi )2 sea
i=1

minimizada.
n

d 2i = Minb , b ( y i b0b1 x i )2
0

i=1

Minimizar D=Minb ,b
0

i=1

Primero escribimos:
y ib 0b1 x i= y ib 0b 1 x i+ ( y y ) +(b1 x b1 x )
( y i y ) b1 ( x ix ) +( y b0 b1 x )
Elevando al cuadrado ambos lados de la ecuacin anterior, se obtiene:
2

( y ib 0b 1 x i ) =[ ( y i y )b 1 ( x i x ) + ( y b0 b1 x ) ]
[ ( y i y ) b1 ( x ix ) + ( y b0b1 x ) ][ ( y i y )b 1 ( x ix ) + ( y b0 b1 x ) ]
2

( y i y ) b1 ( xi x )( yi y ) + ( y i y ) ( y b0 b1 x ) b1 ( x ix ) ( y i y )
+b21 ( x ix )2b 1 ( x ix )( y b0b 1 x ) + ( y i y )( y b0 b1 x )
b1 ( x i x ) ( y b0b1 x ) + ( y b0 b1 x )

Sumando trminos semejantes:


2

( y ib 0b 1 x i ) =( y i y ) + b1 ( xi x ) + ( y b 0b1 x )

2 b 1 ( x ix ) ( y i y ) 2 b1 ( x i x ) ( y b0b1 x ) +2 ( y i y ) ( y b0 b1 x )
Ahora sumamos ambos lados de la ecuacin sobre i=1, , n .
30

D= ( y ib0 b1 xi ) = ( y i y ) +b
2

i=1

i=1

2
1

( x i x ) + ( y b 0b1 x )2
2

i=1

i=1

i=1

i=1

i=1

2 b 1 ( x ix ) ( y i y ) 2 b1 ( y b 0b1 x ) ( xi x ) + 2 ( y b0 b1 x ) ( y i y )

Por sencillez en la presentacin de esta frmula introducimos las siguientes nociones bsicas.
Nociones bsicas
1
x = xi
n
1
y = y i
n
2

s 2x = ( x ix ) = x 2i 2 x x i x 2= x 2i 2 n x

xi
x 2
n

x 2i 2 n x x n x 2= xi22 n x 2n x 2= x 2i n x 2
2

s 2y = ( y i y ) = y 2i 2 y y i y 2= y 2i 2 n y

yi
y 2
n

2
2
2
2
2
2
2
y i 2n y y n y = y i 2 n y n y = y i n y

s xy = ( x i x ) ( y i y )= ( x i y i y x ix y i + x y )
x i yi y x ix y i+ x y

x i yi n y

xi
yi
n x
+ x y
n
n

x i yi n y

xi
yi
n x
+ x y
n
n

x i yi n x y n x y +n x y
x i yi n x y

31

Observamos que los dos ltimos trminos en el lado derecho de la frmula desaparecen despus
( x i x ) =0
( yi y )=0
de la suma, porque
y
. Por lo tanto, tenemos:
D=s2y + b21 s2x + n ( y b 0b 1 x )22 b1 s xy
reordenamos los trminos:
2

D=n ( y b0 b1 x ) + ( b21 s 2x 2 b 1 s xy ) + s2y


y completamos un cuadrado:
2

2 2
1 x

D=n ( y b0 b1 x ) + b s 2b 1 s xy +

2
D=n ( y b0 b1 x ) + b1 s x

El ltimo trmino no involucra a

b0

b1

s 2xy
s 2x

2
y

+s

s xy 2
s 2xy
2
+ s y 2
sx
sx

)(

s 2xy
s 2x

. Los primeros dos trminos pueden reducirse al

valor mnimo de cero, si establecemos que:


y b 0b 1 x =0
entonces,
b0 = y b 1 x
adems,
b1 s x

s xy
s
=0 b 1 s x = xy
sx
sx

de donde,
b1=

Cov ( x , y ) s xy x i y in x y
= 2=
Var (x)
sx
x 2i n x 2

Ejemplo 7. En la aplicacin del mtodo de mnimos cuadrados para el siguiente conjunto de


2
s xy
datos (x , y ) , es conveniente calcular primero las cantidades bsicas x , y , s x y
.
32

Luego se usan la frmula

^y =b 0+ b1 x

para obtener la recta de regresin de mnimos

cuadrados.
xi

yi

x i2

x i yi

1
1
2
3
4
4
5
6
6
7
=

2.1
2.5
3.1
3.0
3.8
3.2
4.3
3.9
4.4
4.8

1
1
4
9
16
16
25
36
36
49

2.1
2.5
6.2
9.0
15.2
12.8
21.5
23.4
26.4
33.6

35.1

193

152.7

39
Entonces
n

39
35.1
2
x = =3.9, y =
=3.51, x i y i=152.7, x i =193,
10
10
i=1
i=1

determinamos primero

b1 =

s xy
2
x

x i y in x y
2
i

x n x

b1

y despus

b0 :

152.7(10)(3.9)(3.51) 15.81
=
=0.387
40.9
193(10)(3.9)2

b0 = y b 1 x =3.51 ( 0.387 ) (3.9 )=2.


La ecuacin de la recta ajustada por el mtodo de mnimos cuadrados es:
^y =b 0+ b1 x=2+0.387 x .

Comprobacin de la linealidad
33

Para explicar la comprobacin de la linealidad nos valdremos del siguiente ejemplo. En una
prueba de laboratorio para el desgaste de neumticos se realiz el siguiente experimento. Los
neumticos de una determinada marca se montaron en un automvil. Los neumticos se rotaron
de una posicin a otra cada 1,000 millas, y la profundidad del desgaste se midi en milsimas de
pulgada (0,001 pulgadas = 0.0254 mm) inicialmente y despus de cada 4,000 millas. Las
mediciones se realizaron en seis posiciones equiangulares en cada una de seis ranuras alrededor
de la circunferencia de cada neumtico. La Tabla 2.8 da los promedios de las seis mediciones
sobre la ranura de un neumtico despus de cada 4,000 kilmetros hasta 32,000 kilmetros. El
grfico de dispersin para estos datos se muestra Figura 2.5. Se ve bastante lineal, y por lo tanto
es razonable para adaptarse a una lnea recta a los datos.

Kilometraje y profundidad del desgaste de


un neumtico de automvil.
Profundidad del desgaste
(en milsimas de pulgada)
394.33

329.50

291.00

12

255.17

16

229.33

20

204.83

24

179.00

28

163.83

32

150.33

TABLA 2.8
Kilometraje
(en 1,000 kms.)

34

Figura 2.5. Diagrama de dispersin, lnea de tendencia y ecuacin del grfico.


Las

ei ' s

no son independientes porque estn sujetas a las siguientes dos restricciones

lineales:
n

i=1

i=1

e i=0 , x i ei =0
Estas restricciones se obtienen a partir de las siguientes derivadas parciales igualadas con cero,
vistas anteriormente:
b1 xi
y i b0

( y ib 0b1 x i)=0
2(1)
n
D
=
b0 i=1

35

xi ( y i b0b1 x i )=0
n

y ib 0b1 x i 21=2
i=1

2(x i )
n
D
=
b1 i=1
b
( 0+b 1 x i)
y i

i=1

b
( 0+b 1 x i)
y i

xi
i=1

En la Tabla 2.9 se muestran las


e i= y i ^y i

yi

observadas, las

^y i

ajustadas, y los residuales

para el desgaste de neumticos. Se verifica que se satisfacen las restricciones:


n

i=1

i=1

e i=0 , x i ei =0
TABLA 2.9

Los datos

x i , y i , ^y i , ei

x i e i para el desgaste de neumticos.

xi

yi

^y i=360.6366677.280625 x i

e i= y i ^y i

394.33

360.64

33.69

0.00

329.50

331.51

2.01

8.06

291.00

302.39

11.39

91.13

12

255.17

273.27

18.10

217.19

16

229.33

244.15

14.82

237.07

36

x i ei

20

204.83

215.02

10.19

203.88

24

179.00

185.90

-6.90

165.64

28

163.83

156.78

7.05

197.42

32

150.33

127.66

22.67

725.55

0.00

0.00

ei

Las

se grafican contra las

xi

en la Figura 2.6. La grfica es claramente parablica, lo

que indica que despus de filtrar la componente lineal, todava queda un componente no lineal.
As que la regresin lineal no se ajusta adecuadamente a los datos, a pesar de que el coeficiente
b1
lineal de la pendiente
es significativo. Una leccin importante que aprendemos aqu es que
un valor

b1

significativo no quiere decir necesariamente que la relacin es lineal, slo nos

dice que hay un componente lineal significativo.

Figura 2.6. Grfica de residuos

e i vs . xi

para el ajuste lineal

de los datos del desgaste de neumticos


Para verificar si hay otro mejor posible ajuste podemos comparar el ajuste lineal con las curvas
de potencia y exponencial, es decir:
^y =b 0+ b1 x

Lineal:

b
Potencia: ^y =b 0 x . (La potencial no trabaja con valore de

considera).
37

x=0 , por ello. No se

Exponencial:

^y =b 0 eb

500.00
400.00
300.00 f(x) = - 7.28x + 360.64
Profundidad del desgaste, Y

200.00
100.00
0.00
0 5 10 15 20 25 30 35
Kilometraje, X

Figura 2.7. Ajuste a una recta.

450.00
400.00
350.00
300.00
250.00
200.00
150.00
100.00
50.00
0.00

f(x) = 374.64 exp( -0.03 x )

10

15

20

25

30

Figura 2.8. Ajuste a una lnea exponencial

38

35

Calculamos el Error Absoluto Porcentual (APE, Absolute Percentage Error) con la frmula
general:
APE =

Valor observadoValor pronosticado


Valor observado

Para determinar el Error Porcentual Absoluto Medio (MAPE, Mean Absolute Percentage
Error), promediamos estos valores de APE para todas las curvas consideradas. Consideraremos
a la curva con el menor MAPE como la que mejor se ajusta a los datos. En este caso la que
mejor se ajusta a los datos es la curva exponencial.

Uso de la ecuacin de regresin para efectuar predicciones


Las ecuaciones de regresin a menudo sirven para predecir el valor de una variable, a partir de
algn valor especfico de la otra variable. Es necesario considerar lo siguiente al realizar las
predicciones:
1. Use la ecuacin de regresin para hacer predicciones nicamente si la grfica de la recta de
regresin en el diagrama de dispersin confirma que la recta de regresin se ajusta a los
puntos razonablemente.
39

2. Use la ecuacin de la regresin para hacer predicciones nicamente si el coeficiente de


correlacin lineal r indica que existe una correlacin lineal entre las dos variables.
3. Use la recta de regresin para realizar predicciones nicamente si los datos no se alejan
mucho ms all del mbito de los datos muestrales disponibles se llama extrapolacin, lo cual
puede dar como resultado predicciones errneas).
4. Si la ecuacin de regresin no parece ser til para realizar predicciones, el mejor valor de
prediccin de una variable es su estimacin puntual, que es la media muestral.

FIGURA 2-9. Estrategia recomendada para los valores de prediccin de y.

Interpretacin de la ecuacin de regresin: Cambio


marginal
Podemos utilizar la ecuacin de regresin para observar el efecto en una variable, cuando la otra
variable cambia por una cantidad especfica.

D EF I N I C I N

Cuando se trabaja con dos variables relacionadas por una ecuacin de regresin, el cambio
marginal en una variable es la cantidad que esta se modifica cuando la otra variable cambia
b1
exactamente una unidad. La pendiente
en la ecuacin de regresin representa el cambio

40

marginal que ocurre en y cuando

cambia una unidad.

Ejemplo 8: Ajuste una lnea recta a los valores x y y de las primeras columnas siguientes:
xi

yi

xi

x i yi

1
2
3
4
5
6
7
=

0.5
2.5
2.0
4.0
3.5
6.0
5.5

1
4
9
16
25
36
49

0.5
5.0
6.0
16.0
17.5
36.0
38.5

24

140

119.5

28

Se pueden calcular las siguientes cantidades:


n

( )

x i =(28)2=784 ,
i=1

x i=28,

n=7 ,

i=1

x 2i =140,
i=1

y i=24
i=1

Usando las ecuaciones:


n

y i x x i x i y i

b0 = i=1

i=1

2
i

i=1

i =1
2

( )

n x2i
i=1

xi

i=1

i=1

x=1

i=1
2

n x i yi x i y i
b1=

n x 2i
i=1

( )
i=1

xi

( 24 )( 140 )(28)(119.5) 14
=
=0.07142857
( 7 ) ( 140 )784
196

( 7 ) ( 119.5 )(28)(24) 164.5


=
=0.839285714
(7 )( 140 )784
196

Por consiguiente, la ecuacin lineal con ajuste por mnimos cuadrados es:

41

^y =b 0+ b1 x=0.07142857+0.839285714 x
En este ejemplo la recta de regresin tiene una pendiente de 0.84, aproximadamente. As si
incrementamos x en una unidad, el valor de ^y se incrementar en 0.84. Es decir, por cada
unidad adicional de x el valor de ^y aumenta 0.84 de unidad.

Valores atpicos y puntos influyentes


Un anlisis de correlacin/regresin de datos bivariados (pareados) debe incluir la investigacin
de valores atpicos y puntos influyentes, los cuales se definen a continuacin.
En un diagrama de dispersin, un valor atpico es un punto que aparece muy lejos de los otros
puntos de datos.
Los datos muestrales pareados pueden incluir uno o ms puntos influyentes, los cuales son
puntos que afectan fuertemente la grfica de la recta de regresin.
Para determinar si un punto es atpico, examine el diagrama de dispersin para ver si ese punto
se aleja demasiado de los dems. He aqu cmo determinamos un punto influyente: grafique la
recta de regresin que resulta de los datos con el punto influyente incluido, despus, grafique la
recta de regresin resultante de los datos sin incluir el punto. Si la grfica cambia de forma
considerable, se trata de un punto influyente. Los puntos influyentes a menudo se encuentran al
identificar los valores atpicos que estn alejados horizontalmente de los dems puntos.

Residuos y la propiedad de los mnimos cuadrados


Hemos establecido que la ecuacin de regresin representa la recta que se ajusta mejor a los
datos. El criterio utilizado para determinar cul recta es mejor que todas las dems se basa en las
distancias verticales entre los puntos de datos originales y la recta de regresin. Tales distancias
se denominan residuos.

D EF I N I C I N

Para una muestra de datos pareados


y

muestral observado y el valor

x
y

y , un residuo es la diferencia entre un valor

predicho por medio de la ecuacin de regresin. Es

decir,
residuo= y observada y predicha= y ^y
42

Esta definicin no ha ganado premios por su sencillez, pero comprender fcilmente los residuos
con la recta que se ajusta a los siguientes datos muestrales pareados ( x y y ):

xi

yi

x i2

xi yi

^y i=5+ 4 x

Residuo= y i^y i

1
2
4
5
=

4
24
8
32

1
4
16
25

4
48
32
160

9
13
21
25

5
11
13
7

68

46

244

12

Se pueden calcular las siguientes cantidades:


n

n=4 ,

x i=12,
i=1

x i =46,
i=1
2

( )
i=1

y i=68 ,
i=1

x i =(12)2=144 ,

x i yi =244
i=1

Usando las ecuaciones:


n

i=1

i=1

i =1
2

y i x 2i x i x i y i

b0 = i=1

( )

n x2i
i=1

xi

i=1

i=1

x=1

i=1
2

n x i yi x i y i
b1 =

n x 2i
i=1

( )
i=1

xi

( 68 )( 46 )(12)(244 ) 200
=
=5
( 4 )( 46 )144
40

( 4 )( 244 )(12)( 68) 160


=
=4
( 4 )( 46 )144
40

Por consiguiente, la ecuacin lineal con ajuste por mnimos cuadrados es:

43

^y =b 0+ b1 x=5+4 x

Considere el punto muestral con las coordenadas (5, 32). Si sustituimos x=5 en la ecuacin
de regresin ^y =5+ 4 x , obtenemos un valor predicho de ^y =25 . Sin embargo, el valor
muestral observado es

y=32 . La diferencia

y ^y 3225=7 es un residuo.

La ecuacin de regresin representa la recta que se ajusta mejor a los puntos, de acuerdo con la
siguiente propiedad de mnimos cuadrados.

D EF I N I C I N

Una recta satisface la propiedad de mnimos cuadrados si la suma de los cuadrados de los
residuos es la menor suma posible.
En la siguiente tabla y en la Figura 2-10 podemos observar que los residuos son:
xi

yi

^y i

^y 1=5+ 4 ( 1 )=9

y 1^y 1=49=5

24

^y 1=5+ 4 ( 2 )=13

y 1^y 1=2413=11

^y 1=5+ 4 ( 4 )=21

y 1^y 1=821=13

32

^y 1=5+ 4 ( 5 )=25

y 1^y 1=3225=7

Residuo

De manera que la suma de sus cuadrados es:


(5)2 +(11)2+(13)2 +( 7)2=25+121+169+49=364 .
Podemos visualizar la propiedad de mnimos cuadrados si nos remitimos a la Figura 2-3, donde
los cuadrados de los residuos estn representados por las reas de los cuadrados sombreados. La
suma de las reas sombreadas cuadradas es 364, que es la menor suma posible.

44

FIGURA 2-10. Residuos y cuadrados de los residuos.

Pruebas de significancia del modelo de regresin e


intervalos de confianza
En esta seccin se presenta un mtodo para construir un intervalo de prediccin, que es una
estimacin del intervalo de un valor predicho de y . (Las estimaciones de intervalos de
parmetros se conocen como como intervalos de confianza, en tanto que las estimaciones de
intervalos de variables se denominan intervalos de prediccin).
Variacin explicada y sin explicar
Primero examinaremos las medidas de desviacin y variacin para un para de valores

(x , y ) .

Consideremos el caso especfico descrito en la Figura 2-11. Imagine una muestra de datos
pareados ( x , y ) que incluye los valores especficos de (5,19). Suponga que utilizamos esta
muestra de datos pareados para calcular los siguientes resultados:

45

Existe evidencia suficiente para sustentar la afirmacin de una correlacin lineal entre
y .

La ecuacin de recta de regresin es ^y =3+2 x .


La media de los valores de y est dada por y =9.

Uno de los pares de datos muestrales es

El punto (5,13) es uno de los puntos sobre la recta de regresin, ya que la sustitucin de
x=5 en la ecuacin de regresin ^y =3+2 x produce ^y =13 .

x=5 y

y=19.

FIGURA 2-11. Desviacin sin explicacin, explicada y total.

La Figura 2-11 indica que el punto (5,13) est sobre la recta de regresin, pero el punto (5,19)
del conjunto de datos original no se ubica en la recta de regresin. Si ignoramos por completo los
conceptos de correlacin y regresin, y deseamos producir un valor de y a partir de un valor
46

de

y un conjunto de datos pareados

(x , y ) , nuestra mejor conjetura sera la media

y .

Pero en este caso existe una correlacin lineal significativa entre x y y , por lo que la
forma de predecir el valor de y cuando x=5 consiste en sustituir x=5 en la ecuacin
de regresin para obtener ^y =13 . Podemos explicar las discrepancias entre y =9 y
^y =13

al sealar que existe una relacin lineal mejor descrita por medio de la recta de
regresin. Como consecuencia, cuando x=5 , el valor predicho de y es 13, pero el valor
muestral observado de y en realidad es 19. La discrepancia ente ^y =13 y y=19 no
puede explicarse por medio de la recta de regresin y se le denomina desviacin sin explicacin o
residuo. Esta desviacin sin explicar se exoresa en smbolos como y ^y .
Una desviacin es la diferencia entre un valor y la media. (En este caso, la media es

y =9 ).

Examine con atencin la Figura 2-4 y observe las siguientes desviaciones especficas a partir de
y =9 :
Desviacin total (a partir de

y =9 ) del punto (5,19) =

Desviacin explicada (a partir de


Desviacin sin explicar (a partir de

y y =199=10 .

y =9 ) del punto (5,13) =

y =9 ) del punto (5,19) =

^y y =139=4 .

y ^y =1913=6 .

Estas desviaciones a partir de la media se generalizan y definen formalmente como sigue.

D EF I N I C I N

Suponga que tenemos un conjunto de datos pareados que contienen el punto muestral
( x , y ) , que ^y es el valor predicho de y (obtenido por medio de la ecuacin de
regresin), y que la media de los valores
La desviacin total de

(x , y )

muestrales es

es la distancia vertical

y .

y y , que es la distancia entre el

punto (x , y ) y la recta horizontal que pasa por la media muestral


La desviacin explicada es la distancia vertical
47

y .

^y y , que es la distancia entre el valor

predicho

^y

y la recta horizontal que pasa por la media muestral

La desviacin sin explicar es la distancia vertical


(x , y )

el punto

y .

y ^y , que es la distancia vertical entre

y la recta de regresin. (La distancia

y ^y

tambin se conoce como

residuo).

En la Figura 2-11 podemos apreciar la siguiente relacin:


Formula 216
(desviacin total) =
( y y )

(desviacin
explicada)
( ^y y )

(desviacin sin explicar)

( y ^y )

La expresin anterior implica desviaciones a partir de la media y se aplica a cualquier punto


(x , y ) particular. Si sumamos los cuadrados de las desviaciones utilizando todos los puntos
(x , y ) , obtenemos cantidades de variacin, y la misma relacin se aplica a las sumas de

cuadrados que se muestran en la Frmula 2-17, aunque esta ltima expresin no es


algebraicamente equivalente. En esta frmula, la variacin total se expresa como la suma de los
cuadrados de los valores de las desviaciones totales, la variacin explicada es la suma de los
cuadrados de los valores de las desviaciones explicadas, y la variacin sin explicar es la suma de
los cuadrados de los valores de las desviaciones sin explicar.
Formula 217
(variacin total) = (variacin explicada) +
(variacin sin explicar)
2
2
=
+
( y y )
( ^y y )
( y y^ )2
El coeficiente de correlacin lineal r se utiliza para calcular la proporcin de la variacin total
en y que puede explicarse por medio de la correlacin lineal.

48

El valor de r

es la proporcin de la variacin en

relacin lineal entre

x y

que se explica por la

y .

Esta afirmacin sobre la variacin explicada se formaliza en la siguiente definicin.

D EF I N I C I N

El coeficiente de determinacin es la cantidad de variacin en

que se explica por la

recta de regresin. Se calcula como:


r 2=

Podemos calcular

r2

variacin explicada
variacin total

por medio de la definicin que dimos con la Frmula 2-4, o bien,

podemos simplemente elevar al cuadrado el coeficiente de correlacin lineal r .

Ejemplo 9. Precio de la pizza y del boleto del Metro. En 1964, Eric Bram, un tpico
adolescente de la ciudad de Nueva York observ que el precio de una rebanada de pizza con
queso era igual al precio de un boleto del Metro. Con el paso de los aos, se dio cuenta que
ambos precios aumentaban aproximadamente en la misma cantidad.

Ao

Precio de pizza
x
( i

1960
1973
1986
1995
2002
2003
Suma:

0.15
0.35
1.00
1.25
1.75
2.00
6.50

Tarifa del Metro

Se pueden calcular las siguientes cantidades:

49

i
y

xi

xi yi

0.15
0.35
1.00
1.35
1.50
2.00
6.35

0.0225
0.1225
1.0000
1.5625
3.0625
4.000
9.77

0.0225
0.1225
1.0000
1.6875
2.6250
4.0000
9.4575

( )

x i=6.50,

n=6 ,

i=1

i=1

x i =(6.50) =42.25 ,

x
i=1

2
i

=9.77,

y i=6.35
i=1

x i yi =9.4575
i=1

Usando las ecuaciones:


n

i=1

i=1

i =1
2

y i x 2i x i x i y i

b0 = i=1

( )

n x2i
i=1

xi

i=1

i=1

x=1

i=1
2

n x i yi x i y i
b1 =

n x 2i
i=1

( )

i=1

xi

( 6.35 ) ( 9.77 )(6.5)(9.4575)


=0.03456
( 6 ) ( 9.77 )42.25

( 6 ) ( 9.4575 )(6.50)(6.35) 15.47


=
=0.94502
( 6 ) ( 9.77 )42.25
16.37

Por consiguiente, la ecuacin lineal con ajuste por mnimos cuadrados es:
^y =b 0+ b1 x=0.03456+0.94502 x
Adems,
n

yi

6.35
y = i=1 =
=1.05833
n
6
podemos observar que los residuos son:
Tarifa del
Metro (
yi

^y i=0.03456+ 0.94502 x i

( ^y y )2

( y y )2

0.15

0.15

0.176313

0.77795399

0.82506339

0.35

0.35

0.365317

0.48026702

0.50173139

1.00

1.00

0.979580

0.00620156

0.00340239

Precio de
x
pizza( i

50

1.25

1.35

1.215835

0.02480783

0.08507139

1.75

1.50

1.688345

0.3969189

0.19507239

2.00

2.00

1.924600

0.75042371

0.88674239

2.43657301

2.49708334

SUMA:
r 2=

2
variacin explicada de y ( ^y y ) 2.43657301
=
=
=0.976 .
variacin total de y
( y y )2 2.49708334

El coeficiente de determinacin es
correlacin

r . Como

r =0.976 . Note que es el cuadrado del coeficiente de

es la proporcin de la variacin total que est explicada,

concluimos que aproximadamente el 97.6% de la variacin total en las tarifas del Metro se
pueden explicar por los precios de una rebanada de pizza. Esto significa que 2.4% de la variacin
total del precio del boleto del Metro est explicada por otros factores y no por el precio de una
rebanada de pizza. Sin embargo, recuerde que esos resultados son estimaciones que se basan en
los datos muestrales con que se cuenta. Es probable que otros datos muestrales produzcan
estimaciones diferentes.
El coeficiente de determinacin es la proporcin de la variacin total en y explicada por el
ajuste de regresin. Puesto que el numerador no puede exceder al denominador, su valor mximo
es 1.

Intervalos de prediccin
Una estimacin del intervalo de un parmetro (como la media de las estaturas de los alumnos del
grupo de Estadstica Aplicada) suele denominarse intervalo de confianza, mientras que la
estimacin del intervalo de una variable (como el precio de un litro de gasolina) se conoce como
intervalo de prediccin.

D EF I N I C I N

Un intervalo de prediccin es una estimacin del intervalo de un valor predicho de

y.

El desarrollo de un intervalo de prediccin requiere una medida de la dispersin de los puntos


muestrales alrededor de la recta de regresin. Recuerde que la desviacin sin explicar (o residuo)
es la distancia vertical entre un punto muestral y la recta de regresin (Figura 2-6). El error
estndar de la estimacin es una medida colectiva de la dispersin de los puntos muestrales
alrededor de la recta de regresin, y se define de manera formal como sigue.

51

D EF I N I C I N

El error estndar de la estimacin, denotado con

se

(o distancias) entre los valores muestrales observados de

, es una medida de las diferencias


y

y los valores predichos

^y

que se obtienen por medio de la ecuacin de regresin. Est dado por:


Frmula218:

se=

( y ^y )
(donde ^y es el valor predicho de y ) , o por medio de la siguiente
n2
frmula equivalente:

Frmula219:

se=

y 2b 0 yb 1 xy
n2

Ejemplo 10. Precio de la pizza y del boleto del Metro: Clculo de

se

Utilice las

frmulas 2-11 o 2-12 para calcular el error estndar de la estimacin para los datos pareados de
los precios de la pizza y del boleto del Metro, que se incluyen en el Ejemplo 1 (correlacin
lineal).
Solucin:
En el Ejemplo 9, calculamos estos valores:

b0 =0.03456

b1=0.94502.

Y de la tabla

siguiente obtenemos los valores faltantes.


Precio de pizza
xi

Tarifa del Metro


yi

0.15

0.15

0.35

0.35

1.00

1.00

^y i
0.17631
3
0.36531
7
0.97958
0
52

( y ^y )2

yi

x i yi

0.00069

0.0225

0.0225

0.00023

0.1225

0.1225

0.00042

1.0000

1.0000

1.25

1.35

1.75

1.50

2.00

2.00

Suma:

6.35

1.21583
5
1.68834
5
1.92460
0

0.01800

1.8225

1.6875

0.03547

2.2500

2.6250

0.00569

4.0000

4.0000

0.06050

9.2175

9.4575

Ahora podemos usar estos valores en las frmulas para calcular el error estndar de la estimacin
se
.

se=

2
( y ^y )
0.0605
=
=0.123
n2
62

y 2b 0 yb 1 xy
9.2175 ( 0.03456 )( 6.35 )(0.94502)(9.4575)
se=
=
=0.123
n2
62

Intervalo de prediccin para una y individual


Considerando el valor fijo

x0

, el intervalo de prediccin para una y individual es:


^y E< y< ^y + E

Donde el margen de error E es:


E=t /2 s e

x0

representa el valor dado de

x ,

n ( x 0 x )
1
1+ +
n n ( x 2 ) ( x ) 2

t /2

tiene

n2 grados de libertad, y se calcula a

partir de las Frmulas 2-18y 2-19, cualesquiera de ellas.


Ejemplo 11. Precio de la pizza y del boleto del Metro: Clculo de un intervalo de
prediccin. Para los pares de datos del Ejemplo 1, encontramos que para un precio de la
pizza de 2.25 UM, el mejor precio predicho de un boleto del Metro es de 2.16 UM, que se
determina con la ecuacin de regresin:
^y =0.03456+ 0.94502 ( 2.25 ) =2.16 UM.
Construya un intervalo de prediccin del 95% para el precio de un boleto del Metro,
considerando que una rebanada de pizza cuesta 2.25 UM ( de manera que x=2.25 UM).
53

Solucin:
Del Ejemplo 1 de la seccin de correlacin encontramos que

r=0.988 , de manera que

existe evidencia suficiente para sustentar la afirmacin de una correlacin lineal (con un nivel de
significancia de 0.05), y la ecuacin de regresin es ^y =0.03456+ 0.94502 x . Del Ejemplo
10, anterior, sabemos que

s e =0.123

. Los estadsticos se obtienen de los datos sobre los

precios de la pizza .
Ao
1960
1973
1986
1995
2002
2003

0.15
0.35
1.00
1.25
1.75
2.00
x i=

Suma:
Media:

x =

0.0225
0.1225
1.0000
1.5625
3.0625
4.000
2
x i = 9.77

6.50

x i 6.5
= =1.0833
n
6

En la Tabla 2-B (al final del tema) encontramos que


de libertad con
x 0=2.25
que

=0.05

x i2

xi

Precio de pizza (

t /2 =2.776

(utilizamos 62 = 4 grados

en dos colas). Primero calculamos el margen de error E permitiendo

(ya que buscamos el intervalo de prediccin del precio del boleto del Metro,

considerando que una rebanada de pizza cuesta

E=t /2 s e

x=2.25 UM).

2
n ( x 0 x )2
1
1 6 ( 2.251.0833 )
1+ +
=(2.776)(0.123)
1+
+
n n ( x 2 ) ( x ) 2
6 6 ( 9.77 )( 6.50 )2

( 2.776 ) ( 0.123 )( 1.29056 )=0.441


Con

^y =2.16

E=0.441 , obtenemos el intervalo de prediccin de la siguiente forma:


^y E< y< ^y + E

2.160.441< y< 2.16+0.441

54

1.72< y <2.60
INTERPRETACIN. Si el precio de una rebanada de pizza es 2.25 UM, tenemos una certeza
del 95% de que el precio del boleto del metro est entre 1.72 UM y 2.60 UM. Se trata de un
rango relativamente grande de posibles valores, y uno de los factores que contribuye a la gran
dimensin del rango es el tamao tan pequeo de la muestra, con n=6 .
Adems de saber que si una rebanada de pizza cuesta 2.25 UM, el costo predicho de un boleto del
Metro es de 2.16 UM, ahora tenemos una idea de qu tan confiable es realmente la estimacin. El
intervalo de prediccin del 95% calculado en este ejemplo indica que el precio real del boleto del
Metro puede variar sustancialmente del valor predicho de 2.16 UM.

2.2.2. Regresin lineal mltiple


Aqu presentamos un mtodo para analizar una relacin lineal que incluye ms de dos variables.
Nos enfocamos en tres elementos fundamentales:
1. La ecuacin de regresin mltiple.
2
2. El valor de R ajustada.
3. El valor P.
Debido a la naturaleza tan compleja de las operaciones requeridas, los clculos manuales son
poco prcticos y constituyen una amenaza para la salud mental; as que destacaremos el uso y la
interpretacin de los resultados obtenidos con un programa estadstico de computadora.

Conceptos bsicos de una ecuacin de regresin mltiple


Utilizamos la siguiente ecuacin de regresin mltiple para describir relaciones lineales que
incluyen ms de dos variables.

D EF I N I C I N

Una ecuacin de regresin mltiple expresa una relacin lineal entre una variable de
x , x , , xk ) .
respuesta ^y , y dos o ms variables de prediccin ( 1 2
La forma general de
una ecuacin de regresin mltiple obtenida a partir de datos muestrales es:
^y =b 0+ b1 xi 1 +b2 x i2 ++ bk x ik
donde :

55

k = nmero de variables de prediccin o variables independientes


x i1 , xi 2 , , x ik = valores fijos de las k

variables de prediccin o variables

independientes.
^y = variable de respuesta.
b0 , b1 , b2 , ,b k = con cantidades fijas desconocidas.

Para el modelo de tres variables de prediccin, requerimos variar

b0 , b1 , b2

b3

simultneamente para minimizar la suma de las desviaciones al cuadrado.


b
y i( 0+b 1 x i1 +b 2 x i 2+ +b k x ik )

D=
i =1

Los mnimos cuadrados estimados se encuentran estableciendo las primeras derivadas parciales
b0 , b1, , b k
de D con respecto a
e igualando con cero y resolviendo las ecuaciones resultantes.
Estas ecuaciones se escriben como:
b

0+b
x
+b
y i(
1 i1
2 x i 2+ +b k x ik )

n
D
=2
b0
i=1

b
y i( 0+b 1 x i1 +b 2 x i 2+ +b k x ik )

n
D
=2
b0
i=1
Divindiendo por 2:
56

b
y i( 0+b 1 x i1 +b 2 x i 2+ +b k x ik )

i=1

b
y i( 0+b 1 x i1 +b 2 x i 2+ +b k x ik )

i=1

Desarrollando:
n

x i2 bk xik =0
i=1
n

x i 1 b2
i=1
n

b 0 b1
n

i=1
n

y i
i=1

i=1

x i2 x ij b k x ik x ij =0 ( j=1,2, , k ) .
i=1

x i1 x ij b2
i=1
n

x ij b 1
i=1

y i xijb0
i=1

i=1

Simplificando nos lleva a las siguientes ecuaciones normales:

57

x i2 ++ bk x ik= y i
i=1

i=1

x i1 + b 2
i=1
n

b 0 n+b1
i=1

i=1

i=1

x i2 x ij ++ bk xik xij = yi x ij ( j=1,2, , k ) .


n

x i 1 x ij + b2
i=1
n

x ij + b 1
i=1

b0
i=1

Estas ecuaciones lineales simultneas en (k +1) variables desconocidas se pueden resolver con
una computadora.
Debido a que se utilizar un programa de computadora para determinar las ecuaciones de
regresin mltiple, ignoraremos los clculos reales y nos concentraremos en interpretar las
pantallas de resultados.
Ejemplo 12. Estaturas de madres, padres e hijas. La siguiente tabla incluye una muestra
aleatoria simple de las estaturas de madres, padres y sus hijas que servir para aplicar un examen
de nutricin. Encuentre la ecuacin de regresin mltiple donde la variable de respuesta ^y es
la estatura de una hija y las variables de prediccin

( x)

son las estaturas de la madre y del

padre.

Estaturas (en pulgadas) de madres, padres


y sus hijas.
Estatura de
la hija

Estatura de
la madre

Estatura del
padre

58.6
64.7
65.3
61.0
65.4
67.4
60.9

63
67
64
60
65
67
59

64
65
67
72
72
72
67

58

63.1
60.0
71.1
62.2
67.2
63.4
68.4
62.2
64.7
59.6
61.0
64.0
65.4

60
58
72
63
67
62
69
63
64
63
64
60
65

71
66
75
69
70
69
62
66
76
69
68
66
68

Una opcin para para obtener la recta de regresin mltiple es por medio de Excel de Microsoft.
Primer paso. Capturar la tabla de datos anterior en Excel y seleccionar del men principal la
opcin Datos/Anlisis de datos. En la ventana de Anlisis de datos se seleccin Regresin.

En la ventana de Regresin seleccionar en Rango Y de entrada los datos de ESTATURA DE


LA HIJA (A1:A21), en Rango X de entrada se seleccionan los datos de ESTATURA DE LA
MADRE y ESTATURA DEL PADRE (B1:C21), marcar la opcin de Rtulos si queremos
reservar tambin las celdas con los nombres de las variables; y en Opciones de salida marcamos
En una hoja nueva; se da clic en el botn Aceptar.

59

Con lo que obtenemos los siguientes resultados.

En la columna de Coeficientes observamos que:

60

b0 =7.5

(redondeando),

b1=0.707

(truncando), y

b2=0.164

(redondeando)

Por lo que, la ecuacin de regresin mltiple, es:


^y =7.5+ 0.707 madre+0.164 padre
Si utilizamos la notacin presentada antes, podemos escribir esta ecuacin de la siguiente forma:
^y =b 0+ b1 xi 1 +b2 x i2 =7.5+0.707 x i1 +0.164 x i 2 .
Donde

^y

es la estatura predicha de una hija,

x i1

es la estatura de la madre y

x i2

es la

estatura del padre.


Si una ecuacin de regresin mltiple se ajusta bien a los datos muestrales, se puede emplear para
hacer las predicciones. Por ejemplo, si determinamos que la ecuacin de regresin mltiple del
Ejemplo 12 es adecuada para hacer las predicciones, y si una mujer tiene una estatura de 63
pulgadas y su esposo una de 69 pulgadas, podemos predecir la estatura de la hija de ambos
sustituyendo esos valores en la ecuacin de regresin, para obtener una estatura predicha para su
hija de 63.4 pulgadas.
^y =7.5+ 0.707 ( 63 )+ 0.164 ( 69 )=63.34 pulgadas

(redondeando)

R2 y R2 ajustado
R2

denota el coeficiente mltiple de determinacin, que es una medida de lo bien que se

ajusta la ecuacin de regresin mltiple a los datos muestrales. Un ajuste perfecto dara como
2
resultado R =1 , y un ajuste muy bueno dara por resultado un valor cercano a 1. Un ajuste
muy deficiente se relaciona con un valor de

R2

cercano a 0. El valor de

R2=67.52

en los

resultados de Excel del Ejemplo 12, indica que 67.52% de la variacin en las estaturas de las
hijas puede explicarse por las estaturas de las madres y de los padres. Sin embargo, el coeficiente
2
mltiple de determinacin R
tiene una grave desventaja: a mayor nmero de variables
incluidas, se incrementa
R

.( R

podra permanecer igual, pero suele incrementarse). La

ms grande se obtiene por el simple hecho de incluir todas las variables disponibles, pero

la mejor ecuacin de regresin mltiple no necesariamente utiliza todas las variables disponibles.
A causa de esta desventaja, la comparacin de diferentes ecuaciones de regresin mltiple se
61

logra mejor con el coeficiente ajustado de determinacin, que es

ajustado para el nmero

de variables y el tamao de la muestra.

D EF I N I C I N

El coeficiente ajustado de determinacin es el coeficiente mltiple de determinacin

R2

modificado para tener en cuenta el nmero de variables y el tamao de la muestra. Se calcula


por medio de la frmula 2-7.
Frmula 2-13
R2 ajustado=1

donde

n=

( n1 )
(1R 2)
[ n( k +1 ) ]

tamao de la muestra.

k = nmero de variables de prediccin (x)


Los resultados anteriores de Excel del Ejemplo 1, indican que el coeficiente ajustado de
2
determinacin es R ajustada=63.7 . Si utilizamos la Frmula 2-13 con el valor de
R2=0.675 , n=20
R2 ajustado=1

y k =2 , encontramos que el valor ajustado de

R2 , es:

( 201 )
19
( 10.675 )=1
( 0.325 )=0.637
17
[ 20( 2+1 ) ]

( )

Lo que confirma el valor de 63.7% de los resultados de Excel. Cuando comparamos esta ecuacin
2
de regresin mltiple con otras, es mejor utilizar la R ajustada de 63.7% (o 0.637).

El valor Probabilidad
El valor Probabilidad es una medida de la significancia general de la ecuacin de regresin
mltiple. El valor de Probabilidad de 0.000 (redondeado a tres decimales) de los resultados de
Excel es pequeo, lo que indica que la ecuacin de regresin mltiple tiene buena significancia
62

general y es til para realizar predicciones. Es decir, tiene sentido predecir las estaturas de las
2
hijas con base en las estaturas de las madres y de los padres. Al igual que la R ajustada este
valor de

Probabilidad

es una buena medida de qu tan bien se ajusta la ecuacin a los datos

muestrales.

TABLA 2-A

Valores crticos del coeficiente de correlacin r de Pearson

= 0.05

= 0.01

= 0.05

= 0.01

4
5
6
7
8
9
10
11
12
13
14
15
16
17

0.950
0.878
0.811
0.754
0.707
0.666
0.632
0.602
0.576
0.553
0.532
0.514
0.497
0.482

0.990
0.959
0.917
0.875
0.834
0.798
0.765
0.735
0.708
0.684
0.661
0.641
0.623
0.606

18
19
20
25
30
35
40
45
50
60
70
80
90
100

0.468
0.456
0.444
0.396
0.361
0.335
0.312
0.294
0.279
0.254
0.236
0.220
0.207
0.196

0.590
0.575
0.561
0.505
0.463
0.430
0.402
0.378
0.361
0.330
0.305
0.286
0.269
0.256

Nota: Para someter a prueba

H 0 : =0

contra

H 1 : 0 , rechace

es mayor que el valor crtico en la tabla.

TABLA 2-B

Distribucin t: valores crticos t

63

H0

si el valor absoluto de

Grados de
libertad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
60
70
80
90
100
200
300
400
500
1000
2000
Grande

0.005

rea en una cola


0.01
0.025
0.05
rea en dos colas

0.10

0.01

0.02

0.05

0.10

0.20

31.821

12.706

6.314

3.078

6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.453
2.449
2.445
2.441
2.438
2.434
2.431
2.429
2.426
2.423
2.412
2.403
2.390
2.381
2.374
2.368
2.364
2.345
2.339
2.336
2.334
2.330
2.328
2.326

4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
2.023
2.021
2.014
2.009
2.000
1.994
1.990
1.987
1.984
1.972
1.968
1.966
1.965
1.962
1.961
1.960

2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.696
1.694
1.692
1.691
1.690
1.688
1.687
1.686
1.685
1.684
1.679
1.676
1.671
1.667
1.664
1.662
1.660
1.653
1.650
1.649
1.648
1.646
1.646
1.645

1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.309
1.309
1.308
1.307
1.306
1.306
1.305
1.304
1.304
1.303
1.301
1.299
1.296
1.294
1.292
1.291
1.290
1.286
1.284
1.284
1.283
1.282
1.282
1.282

63.65
7
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.744
2.738
2.733
2.728
2.724
2.719
2.715
2.712
2.708
2.704
2.690
2.678
2.660
2.648
2.639
2.632
2.626
2.601
2.592
2.588
2.586
2.581
2.578
2.576

64

EJEMPLOS RESUELTOS
Regresin lineal mltiple
Ejemplo 1. (Microeconoma). Una empresa inmobiliaria posee diez edificios de
departamentos cerca de una Universidad, que alquila exclusivamente a estudiantes. Cada edificio
de departamentos tiene 100 viviendas para alquilar, pero el propietario est teniendo problemas
de tesorera debido a una tasa de desocupacin de casi el 50 por ciento. Los departamentos en
cada edificio son semejantes, pero algunos edificios estn ms cerca de las facultades que otros.
El propietario de la empresa inmobiliaria tiene datos del ao pasado sobre el nmero de
departamentos alquilados, el precio de alquiler (en UM) y la cantidad ajustada en publicidad (en
cientos de UM) en cada uno de los 10 edificios. Estos datos, junto con la distancia (en
kilmetros) de cada edificio a las facultades, se presenta en las filas 1 a 11 de la Tabla 1-2.

TABLA 1-1

Datos de ocupacin de los edificios

Observacin

Cantidad

Precio

Publicidad

Distancia

28

250

11

12

69

400

24

43

450

15

32

550

31

42

575

34

72

375

22

66

375

12

49

450

24

70

400

22

10

60

375

10

El propietario quiere hacer una regresin de la cantidad demandada de departamentos con


respecto al precio, la publicidad y la distancia. Los resultados de la regresin se muestran en la
Tabla 2. Cul es la funcin de demanda estimada de los departamentos de alquiler de la empresa
inmobiliaria? Si la empresa elevara el precio de alquiler en uno de los edificios en 100 UM, qu
espera que ocurra con el nmero de apartamentos alquilados? Si la empresa eleva el alquiler en
un edificio de apartamentos medio, qu ocurrir con los ingresos totales de la empresa? Qu
puede inferir de este anlisis?

Solucin:
65

Primer paso. Capturar la tabla de datos anterior en Excel y seleccionar del men principal la
opcin Datos/Anlisis de datos. En la ventana de Anlisis de datos se seleccin Regresin.

En la ventana de Regresin seleccionar en Rango Y de entrada los datos de CANTIDAD


(B1:B11), en Rango X de entrada se seleccionan los datos de PRECIO, PUBLICIDAD y
DISTANCIA (C1:E11), marcar la opcin de Rtulos si queremos reservar tambin las celdas con
los nombres de las variables; y en Opciones de salida marcamos En una hoja nueva; se da clic en
el botn Aceptar.

Tabla 1-2. Hoja de clculo para determinar la ecuacin de regersin mtiple

66

Sean P, A y D el precio, la publicidad y la distancia a las facultades, respectivamente, los


coeficientes estimados implican la siguiente funcin de demanda de apartamentos en un edificio.
Qdx =135.150.14 P+ 0.54 A5.78 D
Puesto que el coeficiente del precio es 0.14, un incremento del precio de 100 UM reduce la
cantidad demandada de apartamentos en un edificio en 14 apartamentos.
El coeficiente de determinacin

es igual a 0.79 indica que la regresin explica el 79% de

la variacin de la cantidad de apartamentos alquilados en los 10 edificios. El estadstico F


sugiere que la regresin es significativa al nivel del 1.82 por ciento, por lo que el propietario
puede tener una confianza razonable de que el buen ajuste de la ecuacin no se debe a la suerte.
La distancia a las facultades parece ser un determinante muy significativo de la demanda de
apartamentos. El estadstico t de este coeficiente es mayor que 4 en valor absoluto, y el valor de
Probabilidad es 0.37 por ciento. A partir de la cota superior e inferior del intervalo de confianza,
el propietario puede tener una confianza al 95 por ciento de que por cada kilmetro recorrido de
un apartamento a la Universidad, la empresa inmobiliaria pierde entre 2.71 y 8.86 inquilinos.
67

Ejemplo 2. (Publicidad). El problema que enfrenta una empresa de productos de consumo es


medir la efectividad de los diferentes tipos de medios de publicidad en la promocin de sus
productos. Especficamente, la empresa est interesada en la eficacia de la publicidad en radio y
la publicidad en los peridicos. Los datos fueron recolectados de una muestra de 22 ciudades con
una poblacin aproximadamente igual, seleccionados para el estudio de duracin de un perodo
de prueba de un mes. Cada ciudad tiene asignado un nivel de gastos especficos para la
publicidad en radio y la publicidad en peridicos. Las ventas del producto (en miles de dlares)
durante el mes de prueba tambin aparecen en la siguiente tabla:
TABLA 2-1
Ciudad
1

Datos de los medios de


comunicacin
Publicidad
Publicidad
Ventas
en radio
en peridico
(%000)
($000)
($000)
973
0
40

1,119

40

875

25

25

625

25

25

910

30

30

971

30

30

931

35

35

1,177

35

35

882

40

25

10

982

40

25

11

1,628

45

45

12

1,577

45

45

13

1,044

50

14

914

50

15

1,329

55

25

16

1,330

55

25

17

1,405

60

30

18

1,436

60

30

19

1,521

65

35

20

1,741

65

35

21

1,866

70

40

22

1,717

70

40

a. Determine la ecuacin de regresin mltiple.


68

b. Interprete el significado de las pendientes,

b1

c. Interprete el significado del coeficiente de regresin,

b2
b0

, en este problema.
.

d. Qu tipo de publicidad es ms efectiva? Explique.


Solucin:
a. Ecuacin de regresin mltiple
Abra la herramienta de Excel, Datos/Anlisis de datos/Regresin:

1.
2.
3.
4.
5.

Ingrese B2:B24 como el rango de celdas de la variable Y.


Ingrese C2:D24 como el rango de celdas de la variable X.
Verifique si las columnas tienen encabezados, si es as marque el botn de Rtulos.
Ingrese 95 como el nivel de confianza para los coeficientes de regresin.
Seleccione En una hoja nueva, para que los resultados aparezcan en una hoja nueva.

69

Esto da como resultado:

La ecuacin de regresin es:


^y =b 0+ b1 x1 +b 2 x 2=156.43+13.081 x 1 +16.795 x2

b. Interpretacin de

b0

b1

Para una determinada cantidad de publicidad en los peridicos, se estima que cada aumento de
$1.00 en la publicidad por radio dar lugar a un incremento de las ventas de $13.081. Para una
determinada cantidad de publicidad en el peridico, se estima que cada aumento de $1.00
dlares en publicidad en los peridicos dar como resultado un incremento en las ventas de
$16.795.
c. Cuando no se gasta en publicidad en radio y en publicidad en los peridicos, la cantidad
estimada que se gasta por las ventas es de $ 156,430.00.
d. De acuerdo con los resultados de (b), la publicidad en peridicos es ms eficaz, ya que cada
aumento de $1.00 en la publicidad en peridicos dar lugar a un incremento superior en las
ventas que la misma cantidad de aumento en la publicidad por radio.

70

Correlacin lineal simple


Ejemplo 1. (Pronstico de ventas).
Al director de mercadotecnia de una gran cadena de supermercados le gustara usar el espacio en
las estanteras para predecir las ventas de alimentos para mascotas. Se selecciona una muestra
aleatoria de 12 supermercados de igual tamao, con los siguientes resultados

TABLA 1-1
Supermercado

Datos del espacio en las estanteras y ventas


mensuales en los supermercados
Espacio en las
Ventas Semanales
Estanteras (Metros)
(Miles de $)
(X)
(Y)

160

220

140

10

190

10

240

10

260

15

230

15

270

15

280

10

20

260

11

20

290

12

20

310

a). Dibuje el diagrama de dispersin.


b). Encuentre la ecuacin de regresin.
c). Cules son los valores de

b0

y de

b1

d). Interprete el significado de la pendiente,

.
b1

, en este problema.

e). Pronostique las ventas semanales de alimento para mascotas para los supermercados que
71

tengan con 8 metros de espacio en las estanteras para los alimentos para mascotas.

Solucin:
a). El diagrama de dispersin junto con la ecuacin de regresin se muestran enseguida:

El diagrama de dispersin muestra una correlacin lineal positiva.


b). La ecuacin de regresin lineal es:
^y =b 0+ b1 x=145+7.4 x
c). Los valores de las constantes en la lnea de regresin son:
b0 =145=intercepcin con el eje de las ordenadas
b1=7.4= pendiente de lalnea de regresin .

d). La interpretacin de

b1

, es como sigue:

72

,y

Por cada aumento de espacio en las estanteras de un metro adicional, hay un aumento
esperado en las ventas semanales de un estimado de $7.40.
e). Pronostico de las ventas semanales cuando se tiene un espacio en las estanteras de 8 metros:
^y =145+7.4 x =145+7.4 ( 8 )=$ 204.20

Ejemplo 2. (Pronsticos). A un agente de una compaa de bienes races residenciales en una


gran ciudad le gustara hacer el pronstico del costo mensual del alquiler de departamentos, en
funcin del tamao de un departamento, medidos en pies cuadrados. El agente selecciona una
muestra de 25 departamentos en una zona residencial en particular y recopila los datos que se
muestran a continuacin.
TABLA 2-1
Departamento

Datos de la renta mensual de los departamentos


en funcin de su tamao en metros cuadrados.
Renta mensual
Tamao del departamento
(en miles de $)
(pies cuadrados)
(Y)
(X)

950

850

1,600

1,450

1,200

1,085

1,500

1,232

950

718

1,700

1,485

1,650

1,136

935

726

875

700

10

1,150

956

11

1,400

1,100

12

1,650

1,285

13

2,300

1,985

14

1,800

1,369

15

1,400

1,175

16

1,450

1,225

17

1,100

1,245

18

1,700

1,259

19

1,200

1,150
73

20

1,150

896

21

1,600

1,361

22

1,650

1,040

23

1,200

755

24

800

1,000

25

1,750

1,200

a. Construya la grfica de dispersin.


b. Use el mtodo de mnimos cuadrados para determinar los coeficientes de la regresin

b0

b1 .
c. Interprete el significado de

b0

b1

en este problema.

d. Pronostique la renta mensual de un departamento que tiene 1,000 metros cuadrados.


e. Por qu no sera apropiado utilizar el modelo para pronosticar la renta mensual de
departamentos que tienen 500 pies cuadrados?
f. Sus amigos Luis y Ana estn considerando firmar un contrato de arrendamiento de un
departamento en esta zona residencial. Ellos estn tratando de decidir entre dos departamentos,
uno con 1,000 pies cuadrados para un alquiler mensual de $1,275 y el otro con 1,200 pies
cuadrados para un alquiler mensual de $1,425. Sobre la base de (a) a (d), que departamento
piensa usted que es el de la mejor oferta?
Solucin:
a). Grfica de dispersin:

b. Los coeficientes de la regresin

b0

b1

son:

74

^y =b 0+ b1 x=177.12+ 1.0651 x
b0 =177.12=intercepcin con el eje de las ordenadas , y
b1=1.0651=pendiente de lalnea de regresin .

c. Interpretacin del significado de

b0

b1

Por cada incremento de 1 pie cuadrado en el tamao del departamento, la renta mensual
esperada se calcula que aumentar en $1.0651. Dado que x no puede ser cero, 177,12 no
tiene interpretacin prctica.
d. Si

x=

1,000 pies cuadrados, entonces, el pronstico del costo del alquiler mensual, es:
^y =b 0+ b1 x=177.12+ 1.0651 ( 1,000 )=$ 1,242.22

e). Un departamento con 500 pies cuadrados se encuentra fuera del rango relevante para la
variable independiente.
f). El departamento de 1,200 pies cuadrados tiene la renta ms favorable en relacin con el
tamao. Con base en la ecuacin de regresin, un apartamento de 1,200 pies cuadrados tendra
un alquiler mensual esperado de $1,455.24, mientras que un apartamento de 1,000 pies
cuadrados tendra un alquiler mensual esperado de $ 1,242.10.
Alquiler del departamento:
Departamento de 1,200 pies cuadrados:
^y =177.12+1.0651 x=177.12+ 1.0651 ( 1,200 )=$ 1,455.24
Departamento de 1,000 pies cuadrados:
^y =177.12+1.0651 x=177.12+ 1.0651 ( 1,000 )=$ 1,242.22

75

TAREA
Problema 1. Los siguientes datos son las mediciones de la velocidad del aire y del coeficiente de
evaporacin de las gotitas de combustible en una turbina de propulsin:
Velocidad del aire (cm/seg)

Coeficiente de evaporacin (mm2/seg)

20
60
100
140
180
220
260
300
340
380

0.18
0.37
0.35
0.78
0.56
0.75
1.18
1.36
1.17
1.65

Ajusta una lnea recta a estos datos por el mtodo de mnimos cuadrados, y utilzala para estimar el
coeficiente de evaporacin de una gotita cuando la velocidad del aire es de 190 cm/seg.
Problema 2. Hay un viedo en el valle de Napa, California. El rendimiento del viedo en toneladas de
uvas por acre para los ltimos 21 aos, aparece en la ltima columna de la siguiente tabla. El rendimiento
est relacionado a tres factores: Lluvia, Grados-da y Heladas.

Ao

Lluvia

Grados-da

76

Heladas

Rendimiento

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

14.2
16.8
25.0
37.4
41.2
33.9
28.2
16.0
11.9
16.3
28.7
38.0
38.3
35.8
29.8
18.6
12.2
15.4
24.1
37.6
38.2

28.57
28.83
29.30
28.18
29.44
27.81
26.96
25.76
26.66
28.41
27.32
28.66
27.05
29.38
28.24
27.89
26.94
27.72
28.55
28.37
29.10

0
0
0
0
1
0
0
1
0
0
0
0
1
0
1
0
0
0
0
0
0

2.72
2.42
2.99
2.88
2.42
2.84
2.74
1.56
2.19
2.45
2.57
2.65
1.96
3.09
1.67
2.63
2.38
2.53
2.66
2.76
2.95

Construya un modelo de regresin lineal mltiple para pronosticar el rendimiento de la uva en el viedo.
Utilice los primeros 18 aos para hacer el modelo y pronostique de los aos 19 al 21. Diga si el ajuste es
razonable o no (Sugerencia: vea en los resultados de Excel el valor del Coeficiente de determinacin Rcuadrada, si es mayor a 0.8, el ajuste es bueno).
Problema 3. Una compaa de productos qumicos desea estudiar los efectos que el tiempo de extraccin
tiene en la eficiencia de una operacin de extraccin, obteniendo los datos que aparecen en la siguiente
tabla:
Eficiencia de la extraccin
(%)

Tiempo de extraccin
(minutos)

27
45
41
19
35
39
19
49
15
31

57
64
80
46
62
72
52
77
57
68

77

(a) Elabora el diagrama de dispersin con Excel para verificar qu lnea recta (o curva) se ajustar bien a
los datos, y con ella predice la eficiencia en la extraccin que puede esperarse cuando el tiempo de
extraccin es de 35 minutos.
(b) Compruebe con Excel la Frmula 2-17 que es transcribe a continuacin:

Formula 217
(variacin total)
( y y )2

=
=

(variacin explicada)
( ^y y )2

(c) Compruebe tambin con Excel que:


n

x i ei=0
i=1

e i=0
i=1

78

+
+

(variacin sin explicar)


( y ^y )2