Está en la página 1de 34

# Basic Regression Analysis with Excel (Spanish Version)

Ignacio Vlez-Pareja
ivelez@unitecnologica.edu.co, nachovelez@gmail.com
Cartagena, Colombia
01 de julio de 2012

Ignacio Vlez Pareja

Abstract
This is a course material for an introductory course in Probability and Statistics for
Engineering and Management. It is part of some course notes for my courses in Spanish on
that subject. The draft of the book is Apuntes de Probabilidad y Estadstica para Ingeniera
y Administracin (Notes for Probability and Statistic for Engineering and Management)
and this part is Anlisis de regresin (Basic Regression Analysis).
In this chapter we present the basic tools for linear regression analysis. With linear
regression analysis we can find models that relate variables linked by causal relationships
between given variables. The idea is to use this tool to predict the behavior of some
independent variable and other dependent variables.
Before performing any statistical analysis we should examine if there is a logical
relationship between independent and dependent variables. This effort is of utmost
importance. Calculations are easily made using the computing and inexpensive power of
software and computers. To find the possible relationships between variables is a delicate
work of observation, intelligent, experience and intuition. All these methods are studied
Resumen
Con el anlisis de regresin se busca encontrar modelos que a partir de las
relaciones causales entre una variable dependiente (la que se supone que es el resultado de
la influencia o comportamiento de otras variables) y una o ms variables independientes,
permitan predecir un resultado conociendo el valor estimado de una variable independiente.
Antes de realizar cualquier anlisis se debe examinar si existe una relacin lgica
entre las variables independientes y la variable dependiente. Este esfuerzo es el ms
importante. Lo relacionado con los clculos es muy fcil porque existen herramientas
computacionales para hacerlos. Encontrar las posibles relaciones lgicas entre las variables
es un trabajo de observacin, inteligencia, experiencia e intuicin.

ii

Ignacio Vlez Pareja

## Anlisis de regresin con Excel

I have no data yet. It is a capital mistake to theorize
before one has data. Insensibly one begins to twist
facts to suit theories, instead of theories to suit facts.
Todava no tengo datos. Es un error grave teorizar
antes de tener la informacin. Sin darse cuenta, uno
empieza a acomodar los hechos a las teoras en lugar
de ajustar la teora a los hechos.
Sherlock Holmes

## Ajuste de una lnea recta a datos observados

Examinemos por ejemplo dos variables: tasa de inflacin y tasa de aumento del
salario mnimo. Cree usted que hay relacin entre ellas? La tasa de inflacin depender
del aumento del salario mnimo o viceversa? Para responder este tipo de preguntas se debe
conocer cmo ocurren ambos fenmenos. As mismo, si los fenmenos son actos de Dios o
de la naturaleza o de muchsimas variables y circunstancias o son producto de decisiones
La inflacin es el cambio porcentual que sufre un indicador de precios que se
conoce como el ndice de Precios al Consumidor (IPC) y mide el cambio de precio de una
canasta de bienes que consumen los hogares. Esto quiere decir que hay mltiples
componentes en esa canasta de bienes y que la decisin en el cambio de precios de sus
componentes no es producto de una decisin de una sola persona sino de miles de personas.
Por otro lado, el aumento en el salario mnimo es una decisin que toma un pequeo
grupo que negocia ese valor o en el peor de los casos es una decisin de una persona (un
ministro o un presidente) con base en el anlisis de variables macroeconmicas tales como
la inflacin.
Observemos una serie de valores para cada una de estas variables. Esto se puede
observar en la siguiente tabla.

Ignacio Vlez Pareja

## Tabla 1. Tasas de inflacin y aumento del salario mnimo

Ao Tasa de inflacin Aumento nominal del salario mnimo
1981
26,35%
35,71%
1982
24,03%
30,00%
1983
16,64%
24,98%
1984
18,28%
22,00%
1985
22,45%
20,00%
1986
20,95%
24,00%
1987
24,02%
22,00%
1988
28,12%
25,00%
1989
26,12%
27,00%
1990
32,37%
26,00%
1991
26,82%
26,07%
1992
25,14%
26,04%
1993
22,61%
25,03%
1994
22,60%
21,09%
1995
19,47%
20,50%
1996
21,64%
19,50%
1997
17,68%
21,02%
1998
16,70%
18,50%
1999
9,23%
16,01%
2000
8,75%
10,00%
2001
7,65%
9,96%
2002
6,99%
8,04%
2003
6,49%
7,44%
2004
5,50%
7,83%
2005
4,85%
6,56%

Se puede observar alguna relacin entre las dos variables? En este caso en que
analizamos dos variables esa posible relacin se puede observar mejor por medio de una
grfica.
Figura 1. Tasa de inflacin y aumento del salario mnimo por ao

Ignacio Vlez Pareja

De la grfica anterior podemos intuir una relacin muy estrecha entre las dos
variables. Observemos cmo la tendencia de una es bastante estrecha con la de la otra. Ms
aun, si comparamos inflacin contra aumento en salario mnimo, vemos de otra forma esa
relacin.
Figura 2. Tasa de inflacin y aumento del salario mnimo

En esta grfica podemos deducir que hay una relacin entre las variables.
Claramente vemos que a mayor inflacin mayor aumento de salario mnimo.
La pregunta que nos hacemos ahora es si esa influencia existe o no y cmo hacerlo.
Podremos imaginarnos una relacin matemtica entre esos valores tal y como se muestran
en la figura 2? Imaginemos que esa relacin o tendencia se puede representar con una lnea
recta. Habr muchas lneas rectas que a ojo nos parecen aceptables, por ejemplo, tal y
como se muestra en la siguiente figura.
Figura 3. Varias rectas que ajustan los datos

Ignacio Vlez Pareja

El lector quedar ms satisfecho con unas que con otras y hasta este momento la
seleccin se hara por gusto. Tenemos que encontrar una forma objetiva con base en un
criterio definido y preciso que nos permita encontrar cul es la recta que mejor se ajusta a
los datos. El lector con seguridad tendra muy claro que la recta inferior en esa grfica no
rectas intermedias (y de una cantidad infinita de posibilidades que habra con diferentes
inclinaciones de las rectas).
Un criterio que se puede examinar con la intuicin sera el de escoger una recta que
fuera equidistante de alguna manera de todos los puntos. O que por ejemplo, la suma de las
diferencias entre los puntos reales y la recta sea mnima. En este caso tendramos un
problema porque el mnimo sera cuando se tuviera la suma de las diferencias en un nmero
negativo muy grande y eso no tiene sentido. Quizs podemos buscar la lnea recta que esa
suma de las diferencias sea cero. La recta horizontal, que es el promedio de los aumentos de
salario mnimo cumple esta ltima condicin. El lector quedara satisfecho con esa lnea
como la que seala la relacin entre la inflacin y el aumento de salario mnimo? Con
seguridad no. El lector podr verificar que la suma de las diferencias entre el promedio del
aumento y cada aumento es cero.
Por ltimo podemos pensar que la lnea que refleje la relacin entre las dos variables
minimice la suma de los cuadrados de las diferencias (que en el prrafo anterior veamos
que se cancelaban entre s). Esta es una forma de tener en cuenta la desviacin entre el
valor observado y la media en trminos absolutos (sea por defecto o por exceso). Esta lnea
positiva. Es fcil imaginar que la recta que est ms arriba en la grfica o la que est ms
abajo o la horizontal (que es el promedio) no cumplen con esta condicin.
En cualquier caso nuestra recta se puede representar con la siguiente ecuacin
Yest = a + bX
(1)
Donde Yest es el valor de la variable dependiente, X el valor de la variable
independiente observado, b es la pendiente de la lnea y a es la constante que muestra el
punto de corte con el eje de las coordenadas.
El modelo que represente el comportamiento de los datos ser
Yobser = a + bX +
(2)
donde representa el error, o sea la diferencia entre el valor que toma la variable
dependiente en la realidad y el valor que hemos pronosticado con nuestra recta.
Entonces lo que debemos minimizar es 2 y esto es igual a
(Yobser Yest)2 = (Yobser bX a)2
(3)
En realidad lo que debemos encontrar es los valores de a y b que hacen que el valor
de la diferencia con respecto a a y a b.
(Yobser bX a)2
= (Yobser2 + b2X2 + a2 2YobserbX 2Yobsera + 2baX)
(5)
Al derivar con respecto de a y haciendo el resultado igual a cero (para hallar el
mnimo) se obtiene
( 2a 2Yobser + 2bX) = 0
(6)
(a Yobser + bX) = 0
(7)
4

Ignacio Vlez Pareja

a Yobser + bX = 0
(8)
na Yobser + bX = 0
(9)
Yobser b X Y bX
(10)
a
n
De igual manera derivando con respecto a b y haciendo la derivada igual a cero se
tiene,

## ( 2bX2 2YobserX + 2aX) = 0

dividiendo por 2,
(bX2 YobserX + aX) = 0
bX2 YobserX + aX = 0
bX2 YobserX + aX = 0
Despejando a
aX = YobserX bX2
Yobser X - b X 2

a
X
Reemplazando a (16) en la derivada con respecto a a en (10), se tiene
Yobser b X Y b X
a
n
Yobser X - b X 2 Yobser b X
n
X
De esta expresin despejamos b

obser

X b X 2

- b X 2 Yobser X

b X

obser

obser

b
X 2
n

b
X 2 X Yobser Yobser X
n
n
X Yobser Y X
obser
n
b
X 2
2
X n
X Yobser n Yobser X
b
2
n X 2 X
- b X 2

(15)
(16)

(17)
(18)

(20)
(21)

(22)

(23)

n Yobser X X Yobser

(12)
(13)
(14)

(19)

X Y

(11)

(24)

n X 2

Ignacio Vlez Pareja

## Afortunadamente con la disponibilidad de hojas de clculo estas frmulas tan

aparatosas no se requieren. Excel nos permite calcular a y b de varias maneras. Aqu
presentamos las ms notables. La primera y ms sencilla es desde la grfica misma de los
datos.
Nuestros datos aparecen como puntos en la grfica as

Cuando se activa (se hace clic) la grfica el Men de texto cambia y aparece una
nueva opcin que se llama Herramientas de grficos. Si se activan los puntos haciendo clic
sobre ellos entonces se puede solicitar que el programa aada una lnea de tendencia.

All nos fijamos en la etiqueta Presentacin y en particular el botn que dice Lnea
de tendencia.

## Al oprimir la flecha a la derecha en el botn Lnea de tendencia se despliega el

siguiente men:

Ignacio Vlez Pareja

## En este men escogemos Ms opciones de lnea de tendencia y aparece este

men.

Ignacio Vlez Pareja

## Al seleccionar la opcin Lineal y sealamos Presentar ecuacin en el grfico y la

siguiente Presentar el valor de R cuadrado en el grfico y oprimimos Cerrar aparece lo
siguiente:

## En este ejemplo a = 0,041 y b = 0,8619. El lector puede verificar estos resultados

utilizando la frmula deducida arriba para cada coeficiente. La recta Y = 0,041 +
0,8619(inflacin) es la recta de mnimos cuadrados. De este modo, si se utiliza este
modelo para pronosticar el aumento de salario mnimo basados en la inflacin, entonces se
dira que para pronosticar el aumento del salario mnimo se toma el 86,19% de la inflacin
Hay otras formas de llegar a los mismos resultados. Por ejemplo, si se usan las
funciones estadsticas se encuentra lo siguiente

Ignacio Vlez Pareja

La funcin Pendiente calcula el valor de b cuando se introducen los datos para las
variables dependientes e independientes.

## El resultado aparece debajo a la derecha de la caja para Conocido_X y es

0,861887361. Compare el resultado con el obtenido con la grfica. La diferencia es el
nmero de decimales. Con la funcin Interseccin.eje se calcula de la misma manera, el
valor de a.

Ignacio Vlez Pareja

## En este ejemplo, el valor de a es 0,041024831. Otra vez, la diferencia se debe al

nmero de decimales.
El pronstico basado en la regresin lineal se puede hacer tambin usando las
frmulas de Excel. En este caso se utiliza la funcin Tendencia. Esta funcin arroja los
valores para la variable independiente (en el ejemplo, la inflacin). Para este caso se deja al
lector el ejercicio de usar esta funcin.
Anlisis de varianza
Hay otra posibilidad que nos brinda Excel y adems proporciona mucha ms
informacin acerca del modelo. Se trata de una herramienta para regresin que se encuentra
en la etiqueta Datos y all en Anlisis de datos.

## Cuando se selecciona Anlisis de datos, aparece este cuadro de dilogo.

10

Ignacio Vlez Pareja

## Al oprimir Aceptar, Excel arroja los siguientes resultados

Resumen
Coeficiente de correlacin mltiple
0,89891674
Coeficiente de determinacin R^2
0,8080513
0,7997057
Error tpico
0,03485217
Observaciones
25

11

Ignacio Vlez Pareja

## Anlisis de varianza (ANOVA)

Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Promedio
Suma de
de los
1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Valor
F
crtico de F
96,82368 1,0357E-09

Inferior
Superior
95%
95%
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244

## La tabla anterior se conoce como tabla de Anlisis de varianza (o ANOVA por su

nombre en ingls Analysis of Variance) y suministra informacin muy valiosa en relacin
con el modelo. Por el momento, el lector puede observar los coeficientes a y b obtenidos
arriba. Intercepcin, o sea a es 0,04102483 y la pendiente de la recta o coeficiente de Tasa
de inflacin, o sea b, es 0,86188736.
Tambin arroja los siguientes valores conocidos como Anlisis de los residuales.
Observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

## Pronstico Aumento nominal del salario mnimo

0,26813215
0,24813636
0,18444289
0,19857784
0,23451854
0,22159023
0,24805018
0,28338756
0,26614981
0,32001777
0,27218302
0,25770331
0,23589756
0,23581137
0,2088343
0,22753726
0,19340652
0,18496002
0,12057703
0,11643998
0,10695921
0,10127076
0,09696132
0,08842864
0,08282637

12

Residuos
0,08896785
0,05186364
0,06535711
0,02142216
-0,03451854
0,01840977
-0,02805018
-0,03338756
0,00385019
-0,06001777
-0,01148302
0,00269669
0,01440244
-0,02491137
-0,0038343
-0,03253726
0,01679348
3,998E-05
0,03952297
-0,01643998
-0,00735921
-0,02087076
-0,02256132
-0,01012864
-0,01722637

Ignacio Vlez Pareja

Esta tabla indica el valor del aumento del salario mnimo si se hubiera comportado
exactamente como indica el modelo. As mismo, muestra los residuos, o sea, como vimos
arriba, la diferencia entre el valor real que ocurri y el valor calculado por el modelo.
Tambin arroja la grfica que hemos mostrado arriba con la lnea de ajuste. No se
reproduce aqu por razones de espacio y ya hemos mostrado dicha grfica arriba. (Puede
producir otros informes y grficas a solicitud del usuario).
La desventaja de esta opcin radica en que los valores calculados en las tablas son
nmeros y no frmulas. Es decir que si se hace un cambio en los datos es necesario repetir
toda la operacin. Por otro lado, la ventaja radica en que ofrece los resultados en una forma
Varios de los datos que produce esta opcin Anlisis de datos tambin los produce
la funcin
produce un resultado numrico en una celda, pero se busca una tabla como la que se
muestra abajo. Para lograrlo se debe marcar un rango de N5 donde N es el nmero de
variables independientes ms 1 (la constante) y 5 es el nmero de grupos de estadsticas
(ver tabla abajo). Para visualizar la tabla una vez marcado el rango y estando en la celda
donde aparece la funcin, se entra a editar dicha funcin y se oprime simultneamente Ctrl
+ Maysculas + Intro. La tabla que se produce con esta funcin arroja los siguientes
resultados (no se muestra el procedimiento de inclusin de los datos en la funcin):
Pendiente o coeficiente de la variable independiente (b) Intercepcin (a)
0,861887361
Error tpico de b
Error tpico de a
0,087591047
2
Coeficiente de determinacin, R
Error tpico
0,808051297
Valor de F

0,0176062
0,0348522

96,82368003

0,0410248

23

residuos
0,117609173
0,0279375

Al igual que con la opcin Regresin de Anlisis de datos, con esta funcin se
obtienen los mismos datos bsicos, como el lector habr observado. Para obtener toda la
informacin que aparece en las tablas de la opcin Regresin ya mencionada, es necesario
hacer algunas operaciones.
A continuacin se explica en detalle cada una de las cifras que se obtienen en la
tabla ANOVA con la opcin Anlisis de Datos.
Coeficiente de correlacin o de Pearson
estrechamente ligado con la covarianza, ya estudiada. Este coeficiente de correlacin se
13

Ignacio Vlez Pareja

puede utilizar, por ejemplo, para determinar la relacin entre dos variables, en nuestro
ejemplo, entre la tasa de inflacin y el aumento del salario mnimo.
En la tabla de arriba lo encontramos en
Resumen
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
Error tpico
Observaciones

0,89891674
0,8080513
0,7997057
0,03485217
25

CovX, Y
xY

CovX, Yobser
x Yobser

variables.
1 r 1
y

CovX, Y

1
X XY Y
n

## El signo del coeficiente de correlacin indica el sentido de la relacin de la misma

manera que la covarianza nos indica con su signo si la variacin de las dos variables es en
la misma direccin o en sentido contrario. Un valor negativo indica que si la variable
independiente aumenta, la dependiente baja y viceversa. Mientras ms cercano a 1 est su
valor absoluto, ms relacin podremos suponer que existe entre las variables.
En Excel lo podemos calcular tambin con la funcin COEF.DE.CORREL que se
ilustra a continuacin.

14

Ignacio Vlez Pareja

## Coeficiente de determinacin, R2 o medicin de la bondad de ajuste

Podemos distinguir algunas de las diferencias entre los valores observados, los
Vamos entonces a distinguir los siguientes
1. La suma total de los cuadrados STC, (en la tabla de Anlisis de varianza que
produce Excel se titula como Total, est ubicada bajo la columna Suma de
cuadrados y vale 0,14554667) es la diferencia entre el promedio de los
2
STC Total Yobser Yobser . Este valor mide la variacin total de la
muestra que tenemos. O si se prefiere, qu tan dispersos estn los valores
Yobser dentro de la muestra.
modelo y el promedio de las Yobser. Esta se denomina la suma explicada de
los cuadrados SEC, (en la tabla de Anlisis de varianza que produce Excel se
vale 0,11760917) y tiene sentido porque es la variacin que se puede asociar
a
los
datos
en
el
modelo,
es
decir,
2
SEC Regresin Yest Yobser . Mide la dispersin de los valores
estimados por el modelo alrededor de la media de los valores observados.
de la diferencia entre el valor observado y el valor calculado por el modelo
SCR, (en la tabla de Anlisis de varianza que produce Excel se titula como
2
0,02793749) es decir SCR Residuales Yobser Yest . Estos valores
aparecen en la tabla de arriba que llamamos Anlisis de los residuales.
Para entender la idea de las diferencias miremos la siguiente grfica con valores
observados, el promedio y el pronstico
15

Ignacio Vlez Pareja

40%

35%
30%
25%

20%

Pronstico

15%

Promedio

10%
5%
0%
0%

5%

10%

15%

20%

25%

30%

35%

Inflacion

diferencias.
25,0%

Valores

24,0%
23,0%

Error

Total

Regresin

22,0%

Pronstico
Promedio

21,0%
20,0%
19,0%
20,5%

21,0%

21,5%

22,0%

Inflacion

## Los dos puntos ampliados corresponden a los siguientes

Inflacin

20,95%

24,00%

21,64%

19,50%

Pronstico

22,16%
22,75%

Regresin
Error
Total (observacin
(pronstico (observacin - promedio)
promedio)
pronstico )
20,01%
3,99%
2,15%
1,84%

Promedio

20,01%

-0,51%

2,74%

-3,25%

## Visualmente y en la tabla anterior se puede comprobar que se cumple lo siguiente

Total = Regresin + Error
(25)
Con los datos de la tabla Anlisis de los residuales podemos comprobar la siguiente
relacin
16

Ignacio Vlez Pareja

## STC = SEC + SCR

Redondeando STC
0,14554667 = 0,11760917 + 0,02793749
Estos valores aparecen en la tabla Anlisis de varianza.
Regresin
Residuos
Total

Promedio de

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Coeficientes
Intercepcin
Tasa de
inflacin

Suma de

Error tpico

(26)

Valor crtico
de F

96,82368 1,0357E-09

Inferior 95%

Superior
95%

## 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594

0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

## Esta relacin es importante porque nos indica qu fraccin de la variacin total

STC, se explica con el modelo y que parte no se puede explicar (los errores que habamos
definido arriba). Fcilmente podemos calcular la fraccin correspondiente a cada uno de los
componentes de la variacin total. Ahora podemos responder la pregunta de qu tanto
explica el modelo propuesto (SEC) la variacin total y qu tanto no se puede explicar
(SCR).
De la tabla anterior tenemos
Regresin
Residuos
Total

0,11760917
0,02793749
0,14554667

Regresin
Residuos
Total

0,11760917
0,02793749
0,14554667

Fraccin

Valor porcentual

0,80805126
0,19194867
1

80,81%
19,19%
100,00%

## Observemos que el valor (redondeado) 0,80805126 lo encontramos en la tabla de

arriba como Coeficiente de determinacin R2.
Resumen
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
Error tpico
Observaciones

17

0,89891674
0,8080513
0,7997057
0,03485217
25

Ignacio Vlez Pareja

Esto quiere decir que el R2 es exactamente SEC/STC. Este valor estar siempre
entre 0 y 1 simplemente porque SEC nunca podr ser mayor que STC (SEC es un
componente de STC).
Entonces se dice que R2 es el porcentaje de variacin de la variable dependiente que
estara explicado por la variable independiente en el modelo de regresin lineal. Si todos
los puntos observados estuvieran en la lnea de regresin, R 2 sera igual a 1. Esto quiere
decir que hay un ajuste perfecto. Por lo tanto, un R 2 cercano a 1 indica buen ajuste y un R 2
cercano a cero indica un mal ajuste. Entonces R2 mide la bondad del ajuste.
En nuestro ejemplo, R2 es 0,8080513 lo cual significa que el 80,81% de la variacin
del aumento del salario mnimo se explica por la inflacin. Observe tambin que el
Coeficiente de determinacin R2 es el cuadrado del Coeficiente de correlacin mltiple.
Cuando definimos R2 hicimos lo siguiente: partimos de la ecuacin (26) y
encontramos la proporcin de SEC sobre el total. Es decir, dividimos (26) por STC
STC = SEC + SCR
(26)
SEC SCR
(27)
1

STC STC
Al despejar SEC/STC encontramos
SEC
SCR
(28)
R2
1STC
STC
Esta ecuacin (28) se puede escribir como
SCR n
SEC
(29)
R2
1STC
STC n
En (28) estamos definiendo R2 como el complemento del error y en (29) hemos
dividido ambos elementos del quebrado por n. Pero sabemos que por definicin la varianza
es la suma de los cuadrados de las diferencias con la media dividida por n, es decir que
SCR/n y STC/n son la varianza de los residuos y la varianza total. Sin embargo, por razones
que no estn al alcance de estos apuntes, esas varianzas no son las verdaderas porque son
elemento. Los grados de libertad se calculan para los residuos como (n k 1) donde n es
el nmero de observaciones en la muestra y k es el nmero de variables independientes que
para las cuales se desea estimar el coeficiente; en el caso de la STC los grados de libertad
son (n 1). Estos grados de libertad estn en la tabla y son respectivamente 20 y 21.
Entonces al usar los grados de libertad en (29) obtenemos el verdadero valor de R2 es decir,
R 22ajust 1 (30)
En nuestro ejemplo tenemos

18

Ignacio Vlez Pareja

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Regresin
Residuos
Total

Coeficientes
Intercepcin
Tasa de
inflacin

Promedio de

Suma de

Error tpico

Valor crtico
de F

96,82368 1,0357E-09

Inferior 95%

Superior
95%

## 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594

0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

0,02793749 23
0,7997057
0,14554667 24
Este es el valor que aparece en la tabla de Anlisis de Varianza.
Resumen
Coeficiente de correlacin mltiple
0,89891674
Coeficiente de determinacin R^2
0,8080513
0,7997057
Error tpico
0,03485217
Observaciones
25
R 22ajust 1 -

## El error tpico de los residuos (0,03485217) se obtiene como la raz cuadrada de la

Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de

Promedio de

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
95%
95%
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244

## 1,0357E-09 0,68069148 1,04308325

En nuestro ejemplo
0,02793749387768
Error tpico de los residuos
0,0012146736469 0,03485216847
23

19

Ignacio Vlez Pareja

Resumen
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
Error tpico
Observaciones

0,89891674
0,8080513
0,7997057
0,03485217
25

## La importancia de esta formulacin es que mantiene un equilibrio entre el nmero

de variables independientes y la bondad de ajuste del modelo. Al aumentar el nmero de
variables independientes, SCR disminuye pero a la vez los grados de libertad aumentan y a
menos que la disminucin de SCR sea realmente significativa, sta se ver compensada con
el aumento de variables independientes. De alguna manera esto significa que el modelo de
regresin (R2 ajustado) nos alerta sobre la introduccin variables independientes que no
representen una verdadera mejora en el modelo.
Pruebas de significancia (pruebas t) de los coeficientes del modelo de regresin
Hemos hallado los coeficientes estimados para la pendiente y el coeficiente de la
variable independiente. La pregunta que nos hacemos ahora es si esos valores son o no
ciertos. Ms aun, lo que nos interesa saber es si son estadsticamente diferentes de cero.
Una manera de determinarlo es planteando lo que se conoce como una prueba de hiptesis.
Se puede demostrar que las varianzas muestrales de a y b estimados son
SCR
xi2

n 2n
(31)
Var (a)
2
x

x
i

Var (b)

SCR
n 2

(32)

## En nuestro ejemplo tenemos que

x x

es igual a 0,1583216

SCR
es lo que en nuestra tabla se llama
n 2
0,02793749
0,00121467 .
23
y

2
i

## es igual a 1,01006601. Adems,

Resumen
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
Error tpico
Observaciones

20

0,89891674
0,8080513
0,7997057
0,03485217
25

Ignacio Vlez Pareja

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Regresin
Residuos
Total

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
95%
95%
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594

Intercepcin
Tasa de
inflacin

Con

Promedio de
los

Suma de

estos

valoramos

## 1,0357E-09 0,68069148 1,04308325

Var (a)

(31)

SCR
xi2

n 2n

(32)

SCR

Var (b)

n 22

0,00121467
1,01006601
25
Var (a)
0,00030998
0,1583216
La desviacin estndar sx o error tpico en nuestra tabla, es la raz de la varianza,
entonces
a = 0,01760616
Esta es la cifra que aparece enfrente del estimado de la intercepcin en la tabla
Anlisis de varianza. Lo llamamos el error tpico o estndar de la intercepcin.
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Promedio de
los

Suma de

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
Coeficientes
95%
95%
tpico
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244

SCR

## Para valorar (32) Var (b)

n 22

tenemos

21

Ignacio Vlez Pareja

0,001297316
20
Var (b)
0,00767219
0,104651175
La desviacin estndar del coeficiente de la variable independiente es la raz
b = 0,08759105

Esta es la cifra que aparece enfrente del estimado del coeficiente de la variable
independiente en la tabla Anlisis de varianza. Lo llamamos el error tpico o estndar del
coeficiente de la variable independiente.
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de

Promedio de
los

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
Coeficientes
95%
95%
tpico
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244

## Habamos visto que el estadstico

x
t
s
n
tiene una distribucin t de Student.
Nos interesa examinar la hiptesis que el estimado de a y de b es cero para saber si
es o no significativo desde el punto de vista estadstico. Entonces usamos la anterior
expresin y definimos igual a cero, el valor de x lo reemplazamos por el estimado del
coeficiente o de la intercepcin y en el denominador incluimos el error tpico o estndar
En nuestro ejemplo tendremos
0,86188736
tb
9,83990244
0,08759105
Este es el valor que aparece como Estadstico t para el coeficiente de la variable
aleatoria.

22

Ignacio Vlez Pareja

Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de

1 0,11760917
23 0,02793749
24 0,14554667

Promedio de

0,11760917
0,00121467

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
95%
95%
Coeficientes
tpico
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105

9,83990244

## 1,0357E-09 0,68069148 1,04308325

Mientras ese valor sea ms grande ser mejor, pero hay que hacer un clculo con la
negativo o positivo, le indicamos a la funcin que haga el clculo con dos colas. Los grados
de libertad son n 2 (es decir 20) y el valor de t es el que acabamos de calcular. De modo
que la funcin de Excel se valora como =DISTR.T(9,83990244;23;2). El resultado que
arroja esta funcin es 1,0357E-09 (es decir 1,0357 dividido por 9 millones). Este resultado
mide la probabilidad de que el valor obtenido para t ocurra por azar, dentro de una situacin
en que el verdadero valor de b sea cero y se le conoce como valor p o p-value en ingls.
En nuestro ejemplo esta probabilidad es muy baja y muchsimo menor que los valores
tradicionales para medir la significancia estadstica de una variable. La conclusin de este
anlisis es que no podemos rechazar la hiptesis de que b 0.
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de

1 0,11760917
23 0,02793749
24 0,14554667

Promedio de

0,11760917
0,00121467

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
95%
95%
Coeficientes
tpico
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105

9,83990244

## Procedemos de manera similar para a. El estadstico t para a, ta, es en nuestro

ejemplo
0,04102483
ta
2,33014103
0,01760616
Al hacer la prueba con =DISTR.T(2,33014103;23;2) obtenemos una probabilidad de

23

Ignacio Vlez Pareja

Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de

1 0,11760917
23 0,02793749
24 0,14554667

Promedio de

0,11760917
0,00121467

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
95%
95%
Coeficientes
tpico
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105

9,83990244

## Aqu la conclusin de este anlisis es la misma que para b: que no podemos

rechazar la hiptesis de que a 0. Si estamos dispuestos a aceptar el riesgo tradicional de
5% decimos que el coeficiente a es significativo desde el punto de vista estadstico al 5%
porque la suma del doble de la probabilidad (dos colas) es menor que 5%.
En este sentido, entonces, decimos que los coeficientes estimados hallados por la
regresin son estadsticamente significativos. Esto significa que nuestro modelo
Aumento de salario mnimo = 0,04102483 + 0,86188736 (Tasa de inflacin) es
aceptable desde el punto de vista de R 2 y R2 ajustado y desde el punto de vista de la
significancia estadstica de los coeficientes. Sin embargo, los valores de R 2 y R2 ajustado
nos parecen altos. Pero esto es un juicio subjetivo. Debemos hallar la forma de examinar
esta apreciacin de manera ms contundente y sin el elemento subjetivo de parecernos altos
o bajos. Para eso utilizaremos la distribucin F.
Pruebas de significancia conjunta del grupo de variables (prueba F)
Habamos estudiado que nos interesaba saber qu tanto de la variacin total de los
datos se explicaba por medio de la regresin. A partir de este anlisis se calcul el
coeficiente de determinacin R2 y R2 ajustado. Si construimos un estadstico F como a
continuacin
SEC
k1
F

SCR
Promedio de la suma no explicada
k2
ejemplo
0,11760917
1 0,11760917 96,82368
F
0,02793749
0,00121467
23
Este es el valor que aparece en la tabla de Anlisis de varianza como F. Si usamos la
funcin de Excel =DISTR.F(96,82368;1;23) encontramos el valor 1,0357E-09 que mide la
probabilidad de que ese valor ocurra por azar. Si nuestro nivel de significancia estadstica
es de, por ejemplo, 5%, esta prueba es aceptable ya que es mucho menor que 5%.

24

Ignacio Vlez Pareja

Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de

1 0,11760917
23 0,02793749
24 0,14554667

Promedio de

0,11760917
0,00121467

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
95%
95%
Coeficientes
tpico
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105

## 9,83990244 1,0357E-09 0,68069148 1,04308325

En el caso de una sola variable independiente, este valor es el mismo que se obtiene
para la significancia estadstica de b, el coeficiente de la variable independiente. En nuestro
F adquiere mayor sentido cuando trabajamos con regresin lineal mltiple.
Intervalos de confianza
Hemos establecido un valor puntual estimado de a y de b. Nos interesa establecer
un rango de valores posibles entre los cuales se puede encontrar los valores verdaderos de
Para establecer un intervalo de confianza definimos un nivel de confianza. El valor
tpico o usual es el de 95%. Como hemos establecido un estadstico t de dos colas, entonces
nuestros intervalos de confianza sern
a c(error tpico de a)
y
b c(error tpico de b)
donde c es el percentil correspondiente a 97,5% de la distribucin t con (n nmero
libertad) de Excel para hallar c.
c =DISTR.T.INV(0,05;23) = 2,068657599
De manera que nuestro intervalo de confianza al 95% ser
a c(error tpico de a)
0,04102483 2,0686575990,01760616= (0,004603694, 0,077445968)
y

b c(error tpico de b)
0,86188736 2,0686575990,08759105= (0,68069148, 1,04308325)
Estos son los valores que encontramos en nuestra tabla de ANOVA.

25

Ignacio Vlez Pareja

Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de

1 0,11760917
23 0,02793749
24 0,14554667

Promedio de

0,11760917
0,00121467

Valor crtico
de F

96,82368 1,0357E-09

Error
Inferior
Superior
Coeficientes
tpico
95%
95%
2,33014103 0,02893318 0,00460372 0,07744594
0,04102483 0,01760616
0,86188736 0,08759105

9,83990244

## Regresin lineal mltiple

Cuando tenemos ms de una variable la tabla de ANOVA es bsicamente la misma.
adicional y ya el valor crtico de F obviamente difiere de la probabilidad de t.
Supongamos ahora que nos consideramos que la variable tiempo desempea un
papel importante en nuestro anlisis del aumento del salario mnimo. Nuestro modelo sera
Yobser = a + b(inflacin) + c(ao) +
Nuestro modelo para la estimacin ser
Yest = a + b(inflacin) + c(ao)
Usando, como lo hicimos para el caso de una variable independiente, la opcin
Anlisis de datos obtenemos las tablas ANOVA siguientes:
Resumen
Coeficiente de correlacin mltiple
0,9438496
Coeficiente de determinacin R^2
0,89085207
0,88092953
Error tpico
0,02687185
Observaciones
25
Anlisis de varianza
Regresin
Residuos
Total

2
22
24

Suma de
Promedio de
0,12966055 0,064830274
0,01588612 0,000722096
0,14554667

Valor crtico
F
de F
89,7806558 2,61921E-11

Intercepcin
9,52696428 2,32202551 4,102868053 0,000469296
Ao
-0,00472926 0,00115764 -4,085270173 0,000489891
Tasa de inflacin 0,53397012 0,10489961 5,090296487 4,23485E-05

Superior
Inferior 95%
95%
4,711378136 14,3425504
-0,00713005 -0,00232847
0,316421642 0,75151859

## Como ya sabemos leer la tabla ANOVA encontramos lo siguiente:

26

Ignacio Vlez Pareja

## El modelo explica ms el comportamiento del salario mnimo puesto que R 2 y R2

Una variable Dos variables
Coeficiente de correlacin mltiple
0,89891674
0,9438496
Coeficiente de determinacin R^2
0,8080513
0,89085207
0,7997057
0,88092953
Error tpico
0,03485217
0,02687185
Observaciones
25
25
Se debe observar que el error tpico ha disminuido, mientras los coeficientes R2 que
miden la explicacin de la variable dependiente han aumentado.
F
Valor crtico de F
Una variable
96,82368
1,0357E-09
Dos variables 89,7806558
2,61921E-11
Observemos que las probabilidades crticas para F han disminuido.
coeficientes son
Dos variables
Una variable
Intercepcin
4,102868053 0,000469296 2,33014103 0,02893318
Ao
-4,085270173 0,000489891
Tasa de inflacin
5,090296487 4,23485E-05 9,83990244 1,0357E-09
En este caso las probabilidades de los estadsticos t no son estrictamente
comparables precisamente porque hay ms variables que han asumido parte de la
explicacin.
independientes, as
Una variable Dos variables
Regresin
1
2
Residuos
23
22
Total
24
24
Esto significa que al calcular los valores de F y de t debemos tener en cuenta que
una variable tenamos 1 para el numerador y 23 para el denominador.
Al calcular los valores t debemos utilizar 22 grados de libertad para dos variables
mientras que en el caso de una variable utilizamos 23.
Lo importante de observar en este caso de dos variables es que el modelo es
adecuado (con base en los R2 y F) y explica ms y la nueva variable contribuye a la
explicacin del comportamiento de la variable dependiente.

27

Ignacio Vlez Pareja

Relaciones espurias
Al inicio de esta nota prevenamos al lector sobre el cuidado que se debe tener de
establecer relaciones lgicas entre variables. El mayor esfuerzo que se debe dedicar al
anlisis de datos es ste. Como ya se vio hay programas como Excel y muchos otros
especializados para hacer lo que algunos llaman el trabajo sucio de los clculos.
A manera de ilustracin vamos a hacer un anlisis de regresin entre dos variable
que no tienen ninguna relacin entre s. El lector creera la aseveracin que mientras ms
crece la poblacin de los Estados Unidos la inflacin en Colombia baja? Con toda
seguridad tildaran de loco a quien hiciera esta afirmacin.
Examinemos algunos datos al respecto en la siguiente tabla:
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

247,98
32%
251,37
27%
254,93
25%
258,45
23%
261,71
23%
264,93
19%
268,11
22%
271,39
18%
274,63
17%
277,84
9%
280,22
9%

## La grfica que ilustra este comportamiento es la siguiente

Inflacin Colombia y Poblacion USA
35%
30%

Inflacin

25%
20%
15%
10%
5%
0%
245

250

255

260

265

270

275

280

285

Poblacin USA

Tanto la tabla como la grfica nos indican una relacin estrecha entre las variables.
Ms aun, si hacemos un anlisis de varianza como el ilustrado en esta nota encontramos lo
siguiente:

28

Ignacio Vlez Pareja

Resumen
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
Error tpico
Observaciones

0,94986527
0,90224403
0,89138226
0,0231768
11

Anlisis de varianza
Regresin
Residuos
Total

Intercepcin
Poblacin
USA en
millones

Suma de
Promedio de
1 0,04462007
0,04462007
9 0,00483448
0,00053716
10 0,04945455

## Coeficientes Error tpico

1,8387209 0,17953859
-0,00617742 0,00067779

Valor crtico
de F
83,0659923 7,7014E-06

10,241369 2,9329E-06 1,43257609
2,24486571
-9,11405466 7,7014E-06 -0,00771069 -0,00464415

Si nos atenemos a las cifras que resultan del anlisis de varianza deberamos
concluir que a medida que la poblacin en Estados Unidos aumenta, la inflacin en
Colombia disminuye. Podemos ver que los R2 son altos, que los coeficientes a y b son
estadsticamente significativos y que la prueba F nos da ms que satisfactoria. Significa
esto que s hay una relacin entre la variable independiente (poblacin de los Estados
Unidos) y la variable dependiente (inflacin en Colombia)? De ninguna manera. Antes de
hacer un anlisis de regresin es necesario encontrar relaciones causales o razonables o
lgicas entre las variables. No cabe la menor duda que en este ejemplo la variable
independiente no tiene nada que ver con la variable dependiente a pesar de que los
indicadores estadsticos son muy buenos. A esto se le llama relacin espuria.
A manera de conclusin
En esta nota pedaggica hemos explicado paso a paso los diversos procedimientos
para hacer un anlisis de regresin. As mismo, hemos explicado en detalle cmo leer una
tabla ANOVA. Se espera que el lector pueda, con esta gua elaborar modelos de regresin
simple y multivariada y comprender el significado de esos modelos desde el punto de vista
Hay que advertir que este campo de la estadstica pertenece a lo que se conoce como
econometra y el tema es muchsimo ms complejo de lo que se ha presentado en estos
apuntes. Hay pruebas (cuya informacin provee en gran medida Excel) que se deben
realizar para verificar que los supuestos bsicos (ver Apndice) del anlisis de regresin se
cumplen.
El mensaje que deja esta nota es el siguiente: los recursos de cmputo hacen ms
fcil la tarea sucia de calcular indicadores, tablas, etc.; esto deja tiempo para dedicar la

29

Ignacio Vlez Pareja

## inteligencia al diseo de modelos apropiados y para encontrar relaciones causales o lgicas

entre las variables.
Referencias
Bowker, Albert H. y Gerald J. Lieberman, Engineering Statistics, Prentice-Hall, 1959.
Draper, N. R. y H.Smith, Applied Regression Analysis, Wiley, 1966.
Klein, Lawrence R. Introduccin a la econometra, Aguilar, 1966.
Wonnacott, Ronald J. y Thomas H. Wonnacot, Econometrics, 2nd ed., Wiley, 1979.
Wonnacott, Thomas H., Ronald J. Wonnacot, Introductory Statistics for Business and
Economics, 2 ed., John Wiley, 1977.
Wooldridge, Jeffrey M., Introduccin a la econometra, Thompson, 2001. (Traduccin de
la edicin de 2000).

30

Ignacio Vlez Pareja

Apndice
Supuestos que se deben cumplir al hacer anlisis de regresin mltiple
1. Existe linealidad en los parmetros. El modelo se puede representar como un
modelo lineal, como por ejemplo,
Y = a + b1X1 + b2X2, ++ bnXn + e
2. Muestra aleatoria. Se supone que se cuenta con una muestra aleatoria de un universo
para este modelo lineal.
3. La media condicional es 0. Esto significa que el valor esperado (promedio) de los
errores es cero.
4. Colinearidad imperfecta. Ninguna de las variables independientes es constante y no
hay relaciones lineales entre ellas.
5. Homocedasticidad. La varianza del error es la misma para todas las combinaciones
de las variables independientes.
6. Normalidad. El error de la poblacin o universo, , es independiente de las variables
independientes y tiene una distribucin normal.

31

Ignacio Vlez Pareja

## Anlisis de regresin .......................................................................................................... 1

Ajuste de una lnea recta a datos observados ..................................................................... 1
Anlisis de varianza .......................................................................................................... 10
Coeficiente de correlacin o de Pearson........................................................................... 13
Coeficiente de determinacin, R2 o medicin de la bondad de ajuste .............................. 15
Coeficiente de determinacin, R2 ajustado ....................................................................... 18
Pruebas de significancia (pruebas t) de los coeficientes del modelo de regresin ........... 20
Pruebas de significancia conjunta del grupo de variables (prueba F) .............................. 24
Intervalos de confianza ..................................................................................................... 25
Regresin lineal mltiple .................................................................................................. 26
Relaciones espurias........................................................................................................... 28
A manera de conclusin ................................................................................................... 29
Referencias ....................................................................................................................... 30
Apndice ........................................................................................................................... 31
Supuestos que se deben cumplir al hacer anlisis de regresin mltiple ......................... 31

32