Está en la página 1de 34

Basic Regression Analysis with Excel (Spanish Version)

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez-Pareja
ivelez@unitecnologica.edu.co, nachovelez@gmail.com
Universidad Tecnolgica de Bolvar
Cartagena, Colombia
01 de julio de 2012

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Abstract
This is a course material for an introductory course in Probability and Statistics for
Engineering and Management. It is part of some course notes for my courses in Spanish on
that subject. The draft of the book is Apuntes de Probabilidad y Estadstica para Ingeniera
y Administracin (Notes for Probability and Statistic for Engineering and Management)
and this part is Anlisis de regresin (Basic Regression Analysis).
In this chapter we present the basic tools for linear regression analysis. With linear
regression analysis we can find models that relate variables linked by causal relationships
between given variables. The idea is to use this tool to predict the behavior of some
independent variable and other dependent variables.
Before performing any statistical analysis we should examine if there is a logical
relationship between independent and dependent variables. This effort is of utmost
importance. Calculations are easily made using the computing and inexpensive power of
software and computers. To find the possible relationships between variables is a delicate
work of observation, intelligent, experience and intuition. All these methods are studied
using intensively the spreadsheet.
Resumen
Con el anlisis de regresin se busca encontrar modelos que a partir de las
relaciones causales entre una variable dependiente (la que se supone que es el resultado de
la influencia o comportamiento de otras variables) y una o ms variables independientes,
permitan predecir un resultado conociendo el valor estimado de una variable independiente.
Antes de realizar cualquier anlisis se debe examinar si existe una relacin lgica
entre las variables independientes y la variable dependiente. Este esfuerzo es el ms
importante. Lo relacionado con los clculos es muy fcil porque existen herramientas
computacionales para hacerlos. Encontrar las posibles relaciones lgicas entre las variables
es un trabajo de observacin, inteligencia, experiencia e intuicin.

ii

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Anlisis de regresin con Excel


I have no data yet. It is a capital mistake to theorize
before one has data. Insensibly one begins to twist
facts to suit theories, instead of theories to suit facts.
Todava no tengo datos. Es un error grave teorizar
antes de tener la informacin. Sin darse cuenta, uno
empieza a acomodar los hechos a las teoras en lugar
de ajustar la teora a los hechos.
Sherlock Holmes

Ajuste de una lnea recta a datos observados


Examinemos por ejemplo dos variables: tasa de inflacin y tasa de aumento del
salario mnimo. Cree usted que hay relacin entre ellas? La tasa de inflacin depender
del aumento del salario mnimo o viceversa? Para responder este tipo de preguntas se debe
conocer cmo ocurren ambos fenmenos. As mismo, si los fenmenos son actos de Dios o
de la naturaleza o de muchsimas variables y circunstancias o son producto de decisiones
tomadas por seres humanos de manera consciente y deliberada.
La inflacin es el cambio porcentual que sufre un indicador de precios que se
conoce como el ndice de Precios al Consumidor (IPC) y mide el cambio de precio de una
canasta de bienes que consumen los hogares. Esto quiere decir que hay mltiples
componentes en esa canasta de bienes y que la decisin en el cambio de precios de sus
componentes no es producto de una decisin de una sola persona sino de miles de personas.
Por otro lado, el aumento en el salario mnimo es una decisin que toma un pequeo
grupo que negocia ese valor o en el peor de los casos es una decisin de una persona (un
ministro o un presidente) con base en el anlisis de variables macroeconmicas tales como
la inflacin.
Observemos una serie de valores para cada una de estas variables. Esto se puede
observar en la siguiente tabla.

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Tabla 1. Tasas de inflacin y aumento del salario mnimo


Ao Tasa de inflacin Aumento nominal del salario mnimo
1981
26,35%
35,71%
1982
24,03%
30,00%
1983
16,64%
24,98%
1984
18,28%
22,00%
1985
22,45%
20,00%
1986
20,95%
24,00%
1987
24,02%
22,00%
1988
28,12%
25,00%
1989
26,12%
27,00%
1990
32,37%
26,00%
1991
26,82%
26,07%
1992
25,14%
26,04%
1993
22,61%
25,03%
1994
22,60%
21,09%
1995
19,47%
20,50%
1996
21,64%
19,50%
1997
17,68%
21,02%
1998
16,70%
18,50%
1999
9,23%
16,01%
2000
8,75%
10,00%
2001
7,65%
9,96%
2002
6,99%
8,04%
2003
6,49%
7,44%
2004
5,50%
7,83%
2005
4,85%
6,56%

Se puede observar alguna relacin entre las dos variables? En este caso en que
analizamos dos variables esa posible relacin se puede observar mejor por medio de una
grfica.
Figura 1. Tasa de inflacin y aumento del salario mnimo por ao

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

De la grfica anterior podemos intuir una relacin muy estrecha entre las dos
variables. Observemos cmo la tendencia de una es bastante estrecha con la de la otra. Ms
aun, si comparamos inflacin contra aumento en salario mnimo, vemos de otra forma esa
relacin.
Figura 2. Tasa de inflacin y aumento del salario mnimo

En esta grfica podemos deducir que hay una relacin entre las variables.
Claramente vemos que a mayor inflacin mayor aumento de salario mnimo.
La pregunta que nos hacemos ahora es si esa influencia existe o no y cmo hacerlo.
Podremos imaginarnos una relacin matemtica entre esos valores tal y como se muestran
en la figura 2? Imaginemos que esa relacin o tendencia se puede representar con una lnea
recta. Habr muchas lneas rectas que a ojo nos parecen aceptables, por ejemplo, tal y
como se muestra en la siguiente figura.
Figura 3. Varias rectas que ajustan los datos

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

El lector quedar ms satisfecho con unas que con otras y hasta este momento la
seleccin se hara por gusto. Tenemos que encontrar una forma objetiva con base en un
criterio definido y preciso que nos permita encontrar cul es la recta que mejor se ajusta a
los datos. El lector con seguridad tendra muy claro que la recta inferior en esa grfica no
sera adecuada. Inclusive la superior le puede parecer inapropiada. La duda surge de las
rectas intermedias (y de una cantidad infinita de posibilidades que habra con diferentes
inclinaciones de las rectas).
Un criterio que se puede examinar con la intuicin sera el de escoger una recta que
fuera equidistante de alguna manera de todos los puntos. O que por ejemplo, la suma de las
diferencias entre los puntos reales y la recta sea mnima. En este caso tendramos un
problema porque el mnimo sera cuando se tuviera la suma de las diferencias en un nmero
negativo muy grande y eso no tiene sentido. Quizs podemos buscar la lnea recta que esa
suma de las diferencias sea cero. La recta horizontal, que es el promedio de los aumentos de
salario mnimo cumple esta ltima condicin. El lector quedara satisfecho con esa lnea
como la que seala la relacin entre la inflacin y el aumento de salario mnimo? Con
seguridad no. El lector podr verificar que la suma de las diferencias entre el promedio del
aumento y cada aumento es cero.
Por ltimo podemos pensar que la lnea que refleje la relacin entre las dos variables
minimice la suma de los cuadrados de las diferencias (que en el prrafo anterior veamos
que se cancelaban entre s). Esta es una forma de tener en cuenta la desviacin entre el
valor observado y la media en trminos absolutos (sea por defecto o por exceso). Esta lnea
se conoce como la recta de mnimos cuadrados. Los cuadrados de las diferencias sern
siempre positivos porque una cifra negativa o positiva elevada al cuadrado ser siempre
positiva. Es fcil imaginar que la recta que est ms arriba en la grfica o la que est ms
abajo o la horizontal (que es el promedio) no cumplen con esta condicin.
En cualquier caso nuestra recta se puede representar con la siguiente ecuacin
Yest = a + bX
(1)
Donde Yest es el valor de la variable dependiente, X el valor de la variable
independiente observado, b es la pendiente de la lnea y a es la constante que muestra el
punto de corte con el eje de las coordenadas.
El modelo que represente el comportamiento de los datos ser
Yobser = a + bX +
(2)
donde representa el error, o sea la diferencia entre el valor que toma la variable
dependiente en la realidad y el valor que hemos pronosticado con nuestra recta.
Entonces lo que debemos minimizar es 2 y esto es igual a
(Yobser Yest)2 = (Yobser bX a)2
(3)
En realidad lo que debemos encontrar es los valores de a y b que hacen que el valor
de la anterior expresin sea mnimo. Esto se puede lograr hallando la derivada del cuadrado
de la diferencia con respecto a a y a b.
(Yobser bX a)2
= (Yobser2 + b2X2 + a2 2YobserbX 2Yobsera + 2baX)
(5)
Al derivar con respecto de a y haciendo el resultado igual a cero (para hallar el
mnimo) se obtiene
( 2a 2Yobser + 2bX) = 0
(6)
(a Yobser + bX) = 0
(7)
4

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

a Yobser + bX = 0
(8)
na Yobser + bX = 0
(9)
Yobser b X Y bX
(10)
a
n
De igual manera derivando con respecto a b y haciendo la derivada igual a cero se
tiene,

( 2bX2 2YobserX + 2aX) = 0


dividiendo por 2,
(bX2 YobserX + aX) = 0
bX2 YobserX + aX = 0
bX2 YobserX + aX = 0
Despejando a
aX = YobserX bX2
Yobser X - b X 2

a
X
Reemplazando a (16) en la derivada con respecto a a en (10), se tiene
Yobser b X Y b X
a
n
Yobser X - b X 2 Yobser b X
n
X
De esta expresin despejamos b

obser

X b X 2

- b X 2 Yobser X

b X

obser

obser

b
X 2
n

b
X 2 X Yobser Yobser X
n
n
X Yobser Y X
obser
n
b
X 2
2
X n
X Yobser n Yobser X
b
2
n X 2 X
- b X 2

(15)
(16)

(17)
(18)

(20)
(21)

(22)

(23)

n Yobser X X Yobser

(12)
(13)
(14)

(19)

X Y

(11)

(24)

n X 2

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Afortunadamente con la disponibilidad de hojas de clculo estas frmulas tan


aparatosas no se requieren. Excel nos permite calcular a y b de varias maneras. Aqu
presentamos las ms notables. La primera y ms sencilla es desde la grfica misma de los
datos.
Nuestros datos aparecen como puntos en la grfica as

Cuando se activa (se hace clic) la grfica el Men de texto cambia y aparece una
nueva opcin que se llama Herramientas de grficos. Si se activan los puntos haciendo clic
sobre ellos entonces se puede solicitar que el programa aada una lnea de tendencia.

All nos fijamos en la etiqueta Presentacin y en particular el botn que dice Lnea
de tendencia.

Al oprimir la flecha a la derecha en el botn Lnea de tendencia se despliega el


siguiente men:

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

En este men escogemos Ms opciones de lnea de tendencia y aparece este


men.

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Al seleccionar la opcin Lineal y sealamos Presentar ecuacin en el grfico y la


siguiente Presentar el valor de R cuadrado en el grfico y oprimimos Cerrar aparece lo
siguiente:

En este ejemplo a = 0,041 y b = 0,8619. El lector puede verificar estos resultados


utilizando la frmula deducida arriba para cada coeficiente. La recta Y = 0,041 +
0,8619(inflacin) es la recta de mnimos cuadrados. De este modo, si se utiliza este
modelo para pronosticar el aumento de salario mnimo basados en la inflacin, entonces se
dira que para pronosticar el aumento del salario mnimo se toma el 86,19% de la inflacin
y se le aade 4,1%.
Hay otras formas de llegar a los mismos resultados. Por ejemplo, si se usan las
funciones estadsticas se encuentra lo siguiente

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

La funcin Pendiente calcula el valor de b cuando se introducen los datos para las
variables dependientes e independientes.

El resultado aparece debajo a la derecha de la caja para Conocido_X y es


0,861887361. Compare el resultado con el obtenido con la grfica. La diferencia es el
nmero de decimales. Con la funcin Interseccin.eje se calcula de la misma manera, el
valor de a.

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

En este ejemplo, el valor de a es 0,041024831. Otra vez, la diferencia se debe al


nmero de decimales.
El pronstico basado en la regresin lineal se puede hacer tambin usando las
frmulas de Excel. En este caso se utiliza la funcin Tendencia. Esta funcin arroja los
resultados de aplicar la ecuacin de la recta de mnimos cuadrados a una serie de nuevos
valores para la variable independiente (en el ejemplo, la inflacin). Para este caso se deja al
lector el ejercicio de usar esta funcin.
Anlisis de varianza
Hay otra posibilidad que nos brinda Excel y adems proporciona mucha ms
informacin acerca del modelo. Se trata de una herramienta para regresin que se encuentra
en la etiqueta Datos y all en Anlisis de datos.

Cuando se selecciona Anlisis de datos, aparece este cuadro de dilogo.

10

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Al escoger Regresin y meter los datos que se piden se obtiene

Al oprimir Aceptar, Excel arroja los siguientes resultados


Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
0,89891674
Coeficiente de determinacin R^2
0,8080513
R^2 ajustado
0,7997057
Error tpico
0,03485217
Observaciones
25

11

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Anlisis de varianza (ANOVA)

Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Promedio
Grados de
Suma de
de los
libertad
cuadrados
cuadrados
1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Valor
F
crtico de F
96,82368 1,0357E-09

Inferior
Superior
Coeficientes Error tpico Estadstico t Probabilidad
95%
95%
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244

1,0357E-09 0,68069148 1,04308325

La tabla anterior se conoce como tabla de Anlisis de varianza (o ANOVA por su


nombre en ingls Analysis of Variance) y suministra informacin muy valiosa en relacin
con el modelo. Por el momento, el lector puede observar los coeficientes a y b obtenidos
arriba. Intercepcin, o sea a es 0,04102483 y la pendiente de la recta o coeficiente de Tasa
de inflacin, o sea b, es 0,86188736.
Tambin arroja los siguientes valores conocidos como Anlisis de los residuales.
Observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Pronstico Aumento nominal del salario mnimo


0,26813215
0,24813636
0,18444289
0,19857784
0,23451854
0,22159023
0,24805018
0,28338756
0,26614981
0,32001777
0,27218302
0,25770331
0,23589756
0,23581137
0,2088343
0,22753726
0,19340652
0,18496002
0,12057703
0,11643998
0,10695921
0,10127076
0,09696132
0,08842864
0,08282637

12

Residuos
0,08896785
0,05186364
0,06535711
0,02142216
-0,03451854
0,01840977
-0,02805018
-0,03338756
0,00385019
-0,06001777
-0,01148302
0,00269669
0,01440244
-0,02491137
-0,0038343
-0,03253726
0,01679348
3,998E-05
0,03952297
-0,01643998
-0,00735921
-0,02087076
-0,02256132
-0,01012864
-0,01722637

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Esta tabla indica el valor del aumento del salario mnimo si se hubiera comportado
exactamente como indica el modelo. As mismo, muestra los residuos, o sea, como vimos
arriba, la diferencia entre el valor real que ocurri y el valor calculado por el modelo.
Tambin arroja la grfica que hemos mostrado arriba con la lnea de ajuste. No se
reproduce aqu por razones de espacio y ya hemos mostrado dicha grfica arriba. (Puede
producir otros informes y grficas a solicitud del usuario).
La desventaja de esta opcin radica en que los valores calculados en las tablas son
nmeros y no frmulas. Es decir que si se hace un cambio en los datos es necesario repetir
toda la operacin. Por otro lado, la ventaja radica en que ofrece los resultados en una forma
tabular bien organizada y usada comnmente.
Varios de los datos que produce esta opcin Anlisis de datos tambin los produce
la funcin
=ESTIMACION.LINEAL(Conocido Y;Conocido X;VERDADERO;VERDADERO). Esto
produce un resultado numrico en una celda, pero se busca una tabla como la que se
muestra abajo. Para lograrlo se debe marcar un rango de N5 donde N es el nmero de
variables independientes ms 1 (la constante) y 5 es el nmero de grupos de estadsticas
(ver tabla abajo). Para visualizar la tabla una vez marcado el rango y estando en la celda
donde aparece la funcin, se entra a editar dicha funcin y se oprime simultneamente Ctrl
+ Maysculas + Intro. La tabla que se produce con esta funcin arroja los siguientes
resultados (no se muestra el procedimiento de inclusin de los datos en la funcin):
Pendiente o coeficiente de la variable independiente (b) Intercepcin (a)
0,861887361
Error tpico de b
Error tpico de a
0,087591047
2
Coeficiente de determinacin, R
Error tpico
0,808051297
Valor de F

0,0176062
0,0348522

Grados de libertad
96,82368003

Suma de los cuadrados de la regresin

0,0410248

23

Suma de los cuadrados de los


residuos
0,117609173
0,0279375

Al igual que con la opcin Regresin de Anlisis de datos, con esta funcin se
obtienen los mismos datos bsicos, como el lector habr observado. Para obtener toda la
informacin que aparece en las tablas de la opcin Regresin ya mencionada, es necesario
hacer algunas operaciones.
A continuacin se explica en detalle cada una de las cifras que se obtienen en la
tabla ANOVA con la opcin Anlisis de Datos.
Coeficiente de correlacin o de Pearson
Este indicador nos muestra qu tan relacionadas estn dos variables. Est
estrechamente ligado con la covarianza, ya estudiada. Este coeficiente de correlacin se
13

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

puede utilizar, por ejemplo, para determinar la relacin entre dos variables, en nuestro
ejemplo, entre la tasa de inflacin y el aumento del salario mnimo.
En la tabla de arriba lo encontramos en
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones

0,89891674
0,8080513
0,7997057
0,03485217
25

La ecuacin para el coeficiente de correlacin es en general:

CovX, Y
xY

En nuestro ejemplo la expresin es

CovX, Yobser
x Yobser

donde Cov(X,Yobser) es la covarianza entre las dos variables, y 2 es la varianza de las


variables.
1 r 1
y

CovX, Y

1
X XY Y
n

El signo del coeficiente de correlacin indica el sentido de la relacin de la misma


manera que la covarianza nos indica con su signo si la variacin de las dos variables es en
la misma direccin o en sentido contrario. Un valor negativo indica que si la variable
independiente aumenta, la dependiente baja y viceversa. Mientras ms cercano a 1 est su
valor absoluto, ms relacin podremos suponer que existe entre las variables.
En Excel lo podemos calcular tambin con la funcin COEF.DE.CORREL que se
ilustra a continuacin.

14

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Coeficiente de determinacin, R2 o medicin de la bondad de ajuste


Podemos distinguir algunas de las diferencias entre los valores observados, los
pronosticados con el modelo y los errores ya mencionados.
Vamos entonces a distinguir los siguientes
1. La suma total de los cuadrados STC, (en la tabla de Anlisis de varianza que
produce Excel se titula como Total, est ubicada bajo la columna Suma de
cuadrados y vale 0,14554667) es la diferencia entre el promedio de los
valores observados y cada uno de
esos valores elevada al cuadrado, o sea,
2
STC Total Yobser Yobser . Este valor mide la variacin total de la
muestra que tenemos. O si se prefiere, qu tan dispersos estn los valores
Yobser dentro de la muestra.
2. La suma de los cuadrados de la diferencia entre cada valor estimado por el
modelo y el promedio de las Yobser. Esta se denomina la suma explicada de
los cuadrados SEC, (en la tabla de Anlisis de varianza que produce Excel se
titula como Regresin, est ubicada bajo la columna Suma de cuadrados y
vale 0,11760917) y tiene sentido porque es la variacin que se puede asociar
a
los
datos
basados
en
el
modelo,
es
decir,
2
SEC Regresin Yest Yobser . Mide la dispersin de los valores
estimados por el modelo alrededor de la media de los valores observados.
3. Una tercera es la suma del cuadrado de los residuos SCR, que es el cuadrado
de la diferencia entre el valor observado y el valor calculado por el modelo
SCR, (en la tabla de Anlisis de varianza que produce Excel se titula como
Residuos, est ubicada bajo la columna Suma de cuadrados y vale
2
0,02793749) es decir SCR Residuales Yobser Yest . Estos valores
aparecen en la tabla de arriba que llamamos Anlisis de los residuales.
Para entender la idea de las diferencias miremos la siguiente grfica con valores
observados, el promedio y el pronstico
15

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Valores observados, promedio y pronostico


40%

Valores del aumento

35%
30%
25%

Observado

20%

Pronstico

15%

Promedio

10%
5%
0%
0%

5%

10%

15%

20%

25%

30%

35%

Inflacion

Si ampliamos esta grfica podemos observar a qu se refiere cada una de las


diferencias.
Dos puntos ampliados
25,0%

Valores

24,0%
23,0%

Error
Observado

Total

Regresin

22,0%

Pronstico
Promedio

21,0%
20,0%
19,0%
20,5%

21,0%

21,5%

22,0%

Inflacion

Los dos puntos ampliados corresponden a los siguientes


Inflacin

Observado

20,95%

24,00%

21,64%

19,50%

Pronstico

22,16%
22,75%

Regresin
Error
Total (observacin
(pronstico (observacin - promedio)
promedio)
pronstico )
20,01%
3,99%
2,15%
1,84%

Promedio

20,01%

-0,51%

2,74%

-3,25%

Visualmente y en la tabla anterior se puede comprobar que se cumple lo siguiente


Total = Regresin + Error
(25)
Con los datos de la tabla Anlisis de los residuales podemos comprobar la siguiente
relacin
16

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

STC = SEC + SCR


Redondeando STC
0,14554667 = 0,11760917 + 0,02793749
Estos valores aparecen en la tabla Anlisis de varianza.
Grados de
libertad
Regresin
Residuos
Total

Promedio de
los cuadrados

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Coeficientes
Intercepcin
Tasa de
inflacin

Suma de
cuadrados

Error tpico

(26)

Valor crtico
de F

96,82368 1,0357E-09

Estadstico t Probabilidad

Inferior 95%

Superior
95%

0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594


0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

Esta relacin es importante porque nos indica qu fraccin de la variacin total


STC, se explica con el modelo y que parte no se puede explicar (los errores que habamos
definido arriba). Fcilmente podemos calcular la fraccin correspondiente a cada uno de los
componentes de la variacin total. Ahora podemos responder la pregunta de qu tanto
explica el modelo propuesto (SEC) la variacin total y qu tanto no se puede explicar
(SCR).
De la tabla anterior tenemos
Suma de cuadrados
Regresin
Residuos
Total

0,11760917
0,02793749
0,14554667

Podemos expresar esos valores como un porcentaje del total, as


Suma de cuadrados
Regresin
Residuos
Total

0,11760917
0,02793749
0,14554667

Fraccin

Valor porcentual

0,80805126
0,19194867
1

80,81%
19,19%
100,00%

Observemos que el valor (redondeado) 0,80805126 lo encontramos en la tabla de


arriba como Coeficiente de determinacin R2.
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones

17

0,89891674
0,8080513
0,7997057
0,03485217
25

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Esto quiere decir que el R2 es exactamente SEC/STC. Este valor estar siempre
entre 0 y 1 simplemente porque SEC nunca podr ser mayor que STC (SEC es un
componente de STC).
Entonces se dice que R2 es el porcentaje de variacin de la variable dependiente que
estara explicado por la variable independiente en el modelo de regresin lineal. Si todos
los puntos observados estuvieran en la lnea de regresin, R 2 sera igual a 1. Esto quiere
decir que hay un ajuste perfecto. Por lo tanto, un R 2 cercano a 1 indica buen ajuste y un R 2
cercano a cero indica un mal ajuste. Entonces R2 mide la bondad del ajuste.
En nuestro ejemplo, R2 es 0,8080513 lo cual significa que el 80,81% de la variacin
del aumento del salario mnimo se explica por la inflacin. Observe tambin que el
Coeficiente de determinacin R2 es el cuadrado del Coeficiente de correlacin mltiple.
Coeficiente de determinacin, R2 ajustado
Cuando definimos R2 hicimos lo siguiente: partimos de la ecuacin (26) y
encontramos la proporcin de SEC sobre el total. Es decir, dividimos (26) por STC
STC = SEC + SCR
(26)
SEC SCR
(27)
1

STC STC
Al despejar SEC/STC encontramos
SEC
SCR
(28)
R2
1STC
STC
Esta ecuacin (28) se puede escribir como
SCR n
SEC
(29)
R2
1STC
STC n
En (28) estamos definiendo R2 como el complemento del error y en (29) hemos
dividido ambos elementos del quebrado por n. Pero sabemos que por definicin la varianza
es la suma de los cuadrados de las diferencias con la media dividida por n, es decir que
SCR/n y STC/n son la varianza de los residuos y la varianza total. Sin embargo, por razones
que no estn al alcance de estos apuntes, esas varianzas no son las verdaderas porque son
lo que se llaman en estadstica, estimadores sesgados. Para obtener la varianza no sesgada o
insesgada, hay que dividir no por n, sino por el nmero de grados de libertad de cada
elemento. Los grados de libertad se calculan para los residuos como (n k 1) donde n es
el nmero de observaciones en la muestra y k es el nmero de variables independientes que
para las cuales se desea estimar el coeficiente; en el caso de la STC los grados de libertad
son (n 1). Estos grados de libertad estn en la tabla y son respectivamente 20 y 21.
Entonces al usar los grados de libertad en (29) obtenemos el verdadero valor de R2 es decir,
el R2 ajustado.
SCR grados de libertad de SCR
R 22ajust 1 (30)
STC grados de libertad de STC
En nuestro ejemplo tenemos

18

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Grados de
libertad

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Regresin
Residuos
Total

Coeficientes
Intercepcin
Tasa de
inflacin

Promedio de
los cuadrados

Suma de
cuadrados

Error tpico

Valor crtico
de F

96,82368 1,0357E-09

Estadstico t Probabilidad

Inferior 95%

Superior
95%

0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594


0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

0,02793749 23
0,7997057
0,14554667 24
Este es el valor que aparece en la tabla de Anlisis de Varianza.
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
0,89891674
Coeficiente de determinacin R^2
0,8080513
R^2 ajustado
0,7997057
Error tpico
0,03485217
Observaciones
25
R 22ajust 1 -

El error tpico de los residuos (0,03485217) se obtiene como la raz cuadrada de la


suma de los cuadrados de los residuos y el nmero de grados de libertad de los mismos.
Grados de
libertad
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de
cuadrados

Promedio de
los cuadrados

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Coeficientes Error tpico Estadstico t Probabilidad
95%
95%
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244

Error tpico de los residuos

1,0357E-09 0,68069148 1,04308325

Suma de los cuadrados de los residuos(SCR)


Grados de libertad

Promedio de los cuadrados de los residuos


En nuestro ejemplo
0,02793749387768
Error tpico de los residuos
0,0012146736469 0,03485216847
23

19

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones

0,89891674
0,8080513
0,7997057
0,03485217
25

La importancia de esta formulacin es que mantiene un equilibrio entre el nmero


de variables independientes y la bondad de ajuste del modelo. Al aumentar el nmero de
variables independientes, SCR disminuye pero a la vez los grados de libertad aumentan y a
menos que la disminucin de SCR sea realmente significativa, sta se ver compensada con
el aumento de variables independientes. De alguna manera esto significa que el modelo de
regresin (R2 ajustado) nos alerta sobre la introduccin variables independientes que no
representen una verdadera mejora en el modelo.
Pruebas de significancia (pruebas t) de los coeficientes del modelo de regresin
Hemos hallado los coeficientes estimados para la pendiente y el coeficiente de la
variable independiente. La pregunta que nos hacemos ahora es si esos valores son o no
ciertos. Ms aun, lo que nos interesa saber es si son estadsticamente diferentes de cero.
Una manera de determinarlo es planteando lo que se conoce como una prueba de hiptesis.
Se puede demostrar que las varianzas muestrales de a y b estimados son
SCR
xi2

n 2n
(31)
Var (a)
2
x

x
i

Var (b)

SCR
n 2

(32)

En nuestro ejemplo tenemos que

x x

es igual a 0,1583216

SCR
es lo que en nuestra tabla se llama
n 2
0,02793749
0,00121467 .
Promedio de los cuadrados y en nmeros es
23
y

2
i

es igual a 1,01006601. Adems,

Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones

20

0,89891674
0,8080513
0,7997057
0,03485217
25

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Grados de
libertad

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Regresin
Residuos
Total

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Coeficientes Error tpico Estadstico t Probabilidad
95%
95%
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594

Intercepcin
Tasa de
inflacin

Con

Promedio de
los
cuadrados

Suma de
cuadrados

0,86188736 0,08759105 9,83990244

estos

resultados

valoramos

1,0357E-09 0,68069148 1,04308325

Var (a)

(31)

SCR
xi2

n 2n

(32)

SCR

Var (b)

n 22

0,00121467
1,01006601
25
Var (a)
0,00030998
0,1583216
La desviacin estndar sx o error tpico en nuestra tabla, es la raz de la varianza,
entonces
a = 0,01760616
Esta es la cifra que aparece enfrente del estimado de la intercepcin en la tabla
Anlisis de varianza. Lo llamamos el error tpico o estndar de la intercepcin.
Grados de
libertad
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Promedio de
los
cuadrados

Suma de
cuadrados

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
Coeficientes
Estadstico t Probabilidad
95%
95%
tpico
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244

1,0357E-09 0,68069148 1,04308325

SCR

Para valorar (32) Var (b)

n 22

tenemos

21

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

0,001297316
20
Var (b)
0,00767219
0,104651175
La desviacin estndar del coeficiente de la variable independiente es la raz
cuadrada de la varianza, entonces
b = 0,08759105

Esta es la cifra que aparece enfrente del estimado del coeficiente de la variable
independiente en la tabla Anlisis de varianza. Lo llamamos el error tpico o estndar del
coeficiente de la variable independiente.
Grados de
libertad
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de
cuadrados

Promedio de
los
cuadrados

1 0,11760917 0,11760917
23 0,02793749 0,00121467
24 0,14554667

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
Coeficientes
Estadstico t Probabilidad
95%
95%
tpico
0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105 9,83990244

1,0357E-09 0,68069148 1,04308325

Habamos visto que el estadstico


x
t
s
n
tiene una distribucin t de Student.
Nos interesa examinar la hiptesis que el estimado de a y de b es cero para saber si
es o no significativo desde el punto de vista estadstico. Entonces usamos la anterior
expresin y definimos igual a cero, el valor de x lo reemplazamos por el estimado del
coeficiente o de la intercepcin y en el denominador incluimos el error tpico o estndar
cada uno de ellos.
En nuestro ejemplo tendremos
0,86188736
tb
9,83990244
0,08759105
Este es el valor que aparece como Estadstico t para el coeficiente de la variable
aleatoria.

22

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Grados de
libertad
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de
cuadrados

1 0,11760917
23 0,02793749
24 0,14554667

Promedio de
los cuadrados

0,11760917
0,00121467

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
Probabilidad
95%
95%
Coeficientes
tpico
Estadstico t
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105

9,83990244

1,0357E-09 0,68069148 1,04308325

Mientras ese valor sea ms grande ser mejor, pero hay que hacer un clculo con la
funcin =DISTR.T(t;grados de libertad;colas) de Excel. Como el coeficiente puede ser
negativo o positivo, le indicamos a la funcin que haga el clculo con dos colas. Los grados
de libertad son n 2 (es decir 20) y el valor de t es el que acabamos de calcular. De modo
que la funcin de Excel se valora como =DISTR.T(9,83990244;23;2). El resultado que
arroja esta funcin es 1,0357E-09 (es decir 1,0357 dividido por 9 millones). Este resultado
mide la probabilidad de que el valor obtenido para t ocurra por azar, dentro de una situacin
en que el verdadero valor de b sea cero y se le conoce como valor p o p-value en ingls.
En nuestro ejemplo esta probabilidad es muy baja y muchsimo menor que los valores
tradicionales para medir la significancia estadstica de una variable. La conclusin de este
anlisis es que no podemos rechazar la hiptesis de que b 0.
Grados de
libertad
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de
cuadrados

1 0,11760917
23 0,02793749
24 0,14554667

Promedio de
los cuadrados

0,11760917
0,00121467

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
95%
95%
Coeficientes
tpico
Estadstico t Probabilidad
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105

9,83990244

1,0357E-09 0,68069148 1,04308325

Procedemos de manera similar para a. El estadstico t para a, ta, es en nuestro


ejemplo
0,04102483
ta
2,33014103
0,01760616
Al hacer la prueba con =DISTR.T(2,33014103;23;2) obtenemos una probabilidad de
0,02893318 es decir, aproximadamente 2,9%.

23

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Grados de
libertad
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de
cuadrados

1 0,11760917
23 0,02793749
24 0,14554667

Promedio de
los cuadrados

0,11760917
0,00121467

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
95%
95%
Coeficientes
tpico
Estadstico t Probabilidad
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105

9,83990244

1,0357E-09 0,68069148 1,04308325

Aqu la conclusin de este anlisis es la misma que para b: que no podemos


rechazar la hiptesis de que a 0. Si estamos dispuestos a aceptar el riesgo tradicional de
5% decimos que el coeficiente a es significativo desde el punto de vista estadstico al 5%
porque la suma del doble de la probabilidad (dos colas) es menor que 5%.
En este sentido, entonces, decimos que los coeficientes estimados hallados por la
regresin son estadsticamente significativos. Esto significa que nuestro modelo
Aumento de salario mnimo = 0,04102483 + 0,86188736 (Tasa de inflacin) es
aceptable desde el punto de vista de R 2 y R2 ajustado y desde el punto de vista de la
significancia estadstica de los coeficientes. Sin embargo, los valores de R 2 y R2 ajustado
nos parecen altos. Pero esto es un juicio subjetivo. Debemos hallar la forma de examinar
esta apreciacin de manera ms contundente y sin el elemento subjetivo de parecernos altos
o bajos. Para eso utilizaremos la distribucin F.
Pruebas de significancia conjunta del grupo de variables (prueba F)
Habamos estudiado que nos interesaba saber qu tanto de la variacin total de los
datos se explicaba por medio de la regresin. A partir de este anlisis se calcul el
coeficiente de determinacin R2 y R2 ajustado. Si construimos un estadstico F como a
continuacin
SEC
k1
Promedio de la suma explicada de los cuadrados
F

SCR
Promedio de la suma no explicada
k2
donde k1 y k2 son los grados de libertad de cada uno, tendramos para nuestro
ejemplo
0,11760917
1 0,11760917 96,82368
F
0,02793749
0,00121467
23
Este es el valor que aparece en la tabla de Anlisis de varianza como F. Si usamos la
funcin de Excel =DISTR.F(96,82368;1;23) encontramos el valor 1,0357E-09 que mide la
probabilidad de que ese valor ocurra por azar. Si nuestro nivel de significancia estadstica
es de, por ejemplo, 5%, esta prueba es aceptable ya que es mucho menor que 5%.

24

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Grados de
libertad
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de
cuadrados

1 0,11760917
23 0,02793749
24 0,14554667

Promedio de
los cuadrados

0,11760917
0,00121467

Valor crtico
de F

96,82368 1,0357E-09

Inferior
Superior
Error
Probabilidad
95%
95%
Coeficientes
tpico
Estadstico t
0,04102483 0,01760616
2,33014103 0,02893318 0,00460372 0,07744594
0,86188736 0,08759105

9,83990244 1,0357E-09 0,68069148 1,04308325

En el caso de una sola variable independiente, este valor es el mismo que se obtiene
para la significancia estadstica de b, el coeficiente de la variable independiente. En nuestro
ejemplo diremos que el modelo es adecuado desde el punto de vista estadstico. Esta prueba
F adquiere mayor sentido cuando trabajamos con regresin lineal mltiple.
Intervalos de confianza
Hemos establecido un valor puntual estimado de a y de b. Nos interesa establecer
un rango de valores posibles entre los cuales se puede encontrar los valores verdaderos de
esos estimados a y b.
Para establecer un intervalo de confianza definimos un nivel de confianza. El valor
tpico o usual es el de 95%. Como hemos establecido un estadstico t de dos colas, entonces
nuestros intervalos de confianza sern
a c(error tpico de a)
y
b c(error tpico de b)
donde c es el percentil correspondiente a 97,5% de la distribucin t con (n nmero
de variables independientes 1) grados de libertad.
En nuestro ejemplo usamos la funcin =DISTR.T.INV(Probabilidad;grados de
libertad) de Excel para hallar c.
c =DISTR.T.INV(0,05;23) = 2,068657599
De manera que nuestro intervalo de confianza al 95% ser
a c(error tpico de a)
0,04102483 2,0686575990,01760616= (0,004603694, 0,077445968)
y

b c(error tpico de b)
0,86188736 2,0686575990,08759105= (0,68069148, 1,04308325)
Estos son los valores que encontramos en nuestra tabla de ANOVA.

25

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Grados de
libertad
Regresin
Residuos
Total

Intercepcin
Tasa de
inflacin

Suma de
cuadrados

1 0,11760917
23 0,02793749
24 0,14554667

Promedio de
los cuadrados

0,11760917
0,00121467

Valor crtico
de F

96,82368 1,0357E-09

Error
Inferior
Superior
Probabilidad
Coeficientes
tpico
Estadstico t
95%
95%
2,33014103 0,02893318 0,00460372 0,07744594
0,04102483 0,01760616
0,86188736 0,08759105

9,83990244

1,0357E-09 0,68069148 1,04308325

Regresin lineal mltiple


Cuando tenemos ms de una variable la tabla de ANOVA es bsicamente la misma.
Las diferencias radican en que se aaden ms lneas inferiores, una para cada variable
adicional y ya el valor crtico de F obviamente difiere de la probabilidad de t.
Supongamos ahora que nos consideramos que la variable tiempo desempea un
papel importante en nuestro anlisis del aumento del salario mnimo. Nuestro modelo sera
Yobser = a + b(inflacin) + c(ao) +
Nuestro modelo para la estimacin ser
Yest = a + b(inflacin) + c(ao)
Usando, como lo hicimos para el caso de una variable independiente, la opcin
Anlisis de datos obtenemos las tablas ANOVA siguientes:
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
0,9438496
Coeficiente de determinacin R^2
0,89085207
R^2 ajustado
0,88092953
Error tpico
0,02687185
Observaciones
25
Anlisis de varianza
Grados de
libertad
Regresin
Residuos
Total

2
22
24

Suma de
Promedio de
cuadrados los cuadrados
0,12966055 0,064830274
0,01588612 0,000722096
0,14554667

Valor crtico
F
de F
89,7806558 2,61921E-11

Coeficientes Error tpico Estadstico t Probabilidad


Intercepcin
9,52696428 2,32202551 4,102868053 0,000469296
Ao
-0,00472926 0,00115764 -4,085270173 0,000489891
Tasa de inflacin 0,53397012 0,10489961 5,090296487 4,23485E-05

Superior
Inferior 95%
95%
4,711378136 14,3425504
-0,00713005 -0,00232847
0,316421642 0,75151859

Como ya sabemos leer la tabla ANOVA encontramos lo siguiente:


26

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

El modelo explica ms el comportamiento del salario mnimo puesto que R 2 y R2


ajustado aumentan, as
Estadsticas de la regresin
Una variable Dos variables
Coeficiente de correlacin mltiple
0,89891674
0,9438496
Coeficiente de determinacin R^2
0,8080513
0,89085207
R^2 ajustado
0,7997057
0,88092953
Error tpico
0,03485217
0,02687185
Observaciones
25
25
Se debe observar que el error tpico ha disminuido, mientras los coeficientes R2 que
miden la explicacin de la variable dependiente han aumentado.
F
Valor crtico de F
Una variable
96,82368
1,0357E-09
Dos variables 89,7806558
2,61921E-11
Observemos que las probabilidades crticas para F han disminuido.
Las probabilidades asociadas a los estadsticos t y los estadsticos t de los
coeficientes son
Dos variables
Una variable
Estadstico t Probabilidad Estadstico t Probabilidad
Intercepcin
4,102868053 0,000469296 2,33014103 0,02893318
Ao
-4,085270173 0,000489891
Tasa de inflacin
5,090296487 4,23485E-05 9,83990244 1,0357E-09
En este caso las probabilidades de los estadsticos t no son estrictamente
comparables precisamente porque hay ms variables que han asumido parte de la
explicacin.
Los grados de libertad tambin nos han cambiado porque ahora son dos variables
independientes, as
Una variable Dos variables
Regresin
1
2
Residuos
23
22
Total
24
24
Esto significa que al calcular los valores de F y de t debemos tener en cuenta que
para F los grados de libertad son 2 para el numerador y 22 para denominador. En el caso de
una variable tenamos 1 para el numerador y 23 para el denominador.
Al calcular los valores t debemos utilizar 22 grados de libertad para dos variables
mientras que en el caso de una variable utilizamos 23.
Lo importante de observar en este caso de dos variables es que el modelo es
adecuado (con base en los R2 y F) y explica ms y la nueva variable contribuye a la
explicacin del comportamiento de la variable dependiente.

27

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Relaciones espurias
Al inicio de esta nota prevenamos al lector sobre el cuidado que se debe tener de
establecer relaciones lgicas entre variables. El mayor esfuerzo que se debe dedicar al
anlisis de datos es ste. Como ya se vio hay programas como Excel y muchos otros
especializados para hacer lo que algunos llaman el trabajo sucio de los clculos.
A manera de ilustracin vamos a hacer un anlisis de regresin entre dos variable
que no tienen ninguna relacin entre s. El lector creera la aseveracin que mientras ms
crece la poblacin de los Estados Unidos la inflacin en Colombia baja? Con toda
seguridad tildaran de loco a quien hiciera esta afirmacin.
Examinemos algunos datos al respecto en la siguiente tabla:
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

Poblacin USA en millones Inflacin Colombia


247,98
32%
251,37
27%
254,93
25%
258,45
23%
261,71
23%
264,93
19%
268,11
22%
271,39
18%
274,63
17%
277,84
9%
280,22
9%

La grfica que ilustra este comportamiento es la siguiente


Inflacin Colombia y Poblacion USA
35%
30%

Inflacin

25%
20%
15%
10%
5%
0%
245

250

255

260

265

270

275

280

285

Poblacin USA

Tanto la tabla como la grfica nos indican una relacin estrecha entre las variables.
Ms aun, si hacemos un anlisis de varianza como el ilustrado en esta nota encontramos lo
siguiente:

28

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones

0,94986527
0,90224403
0,89138226
0,0231768
11

Anlisis de varianza
Grados de
libertad
Regresin
Residuos
Total

Intercepcin
Poblacin
USA en
millones

Suma de
Promedio de
cuadrados los cuadrados
1 0,04462007
0,04462007
9 0,00483448
0,00053716
10 0,04945455

Coeficientes Error tpico


1,8387209 0,17953859
-0,00617742 0,00067779

Valor crtico
de F
83,0659923 7,7014E-06

Estadstico t Probabilidad Inferior 95% Superior 95%


10,241369 2,9329E-06 1,43257609
2,24486571
-9,11405466 7,7014E-06 -0,00771069 -0,00464415

Si nos atenemos a las cifras que resultan del anlisis de varianza deberamos
concluir que a medida que la poblacin en Estados Unidos aumenta, la inflacin en
Colombia disminuye. Podemos ver que los R2 son altos, que los coeficientes a y b son
estadsticamente significativos y que la prueba F nos da ms que satisfactoria. Significa
esto que s hay una relacin entre la variable independiente (poblacin de los Estados
Unidos) y la variable dependiente (inflacin en Colombia)? De ninguna manera. Antes de
hacer un anlisis de regresin es necesario encontrar relaciones causales o razonables o
lgicas entre las variables. No cabe la menor duda que en este ejemplo la variable
independiente no tiene nada que ver con la variable dependiente a pesar de que los
indicadores estadsticos son muy buenos. A esto se le llama relacin espuria.
A manera de conclusin
En esta nota pedaggica hemos explicado paso a paso los diversos procedimientos
para hacer un anlisis de regresin. As mismo, hemos explicado en detalle cmo leer una
tabla ANOVA. Se espera que el lector pueda, con esta gua elaborar modelos de regresin
simple y multivariada y comprender el significado de esos modelos desde el punto de vista
estadstico.
Hay que advertir que este campo de la estadstica pertenece a lo que se conoce como
econometra y el tema es muchsimo ms complejo de lo que se ha presentado en estos
apuntes. Hay pruebas (cuya informacin provee en gran medida Excel) que se deben
realizar para verificar que los supuestos bsicos (ver Apndice) del anlisis de regresin se
cumplen.
El mensaje que deja esta nota es el siguiente: los recursos de cmputo hacen ms
fcil la tarea sucia de calcular indicadores, tablas, etc.; esto deja tiempo para dedicar la

29

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

inteligencia al diseo de modelos apropiados y para encontrar relaciones causales o lgicas


entre las variables.
Referencias
Bowker, Albert H. y Gerald J. Lieberman, Engineering Statistics, Prentice-Hall, 1959.
Draper, N. R. y H.Smith, Applied Regression Analysis, Wiley, 1966.
Klein, Lawrence R. Introduccin a la econometra, Aguilar, 1966.
Wonnacott, Ronald J. y Thomas H. Wonnacot, Econometrics, 2nd ed., Wiley, 1979.
Wonnacott, Thomas H., Ronald J. Wonnacot, Introductory Statistics for Business and
Economics, 2 ed., John Wiley, 1977.
Wooldridge, Jeffrey M., Introduccin a la econometra, Thompson, 2001. (Traduccin de
la edicin de 2000).

30

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Apndice
Supuestos que se deben cumplir al hacer anlisis de regresin mltiple
1. Existe linealidad en los parmetros. El modelo se puede representar como un
modelo lineal, como por ejemplo,
Y = a + b1X1 + b2X2, ++ bnXn + e
2. Muestra aleatoria. Se supone que se cuenta con una muestra aleatoria de un universo
para este modelo lineal.
3. La media condicional es 0. Esto significa que el valor esperado (promedio) de los
errores es cero.
4. Colinearidad imperfecta. Ninguna de las variables independientes es constante y no
hay relaciones lineales entre ellas.
5. Homocedasticidad. La varianza del error es la misma para todas las combinaciones
de las variables independientes.
6. Normalidad. El error de la poblacin o universo, , es independiente de las variables
independientes y tiene una distribucin normal.

31

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin


Ignacio Vlez Pareja

Anlisis de regresin .......................................................................................................... 1


Ajuste de una lnea recta a datos observados ..................................................................... 1
Anlisis de varianza .......................................................................................................... 10
Coeficiente de correlacin o de Pearson........................................................................... 13
Coeficiente de determinacin, R2 o medicin de la bondad de ajuste .............................. 15
Coeficiente de determinacin, R2 ajustado ....................................................................... 18
Pruebas de significancia (pruebas t) de los coeficientes del modelo de regresin ........... 20
Pruebas de significancia conjunta del grupo de variables (prueba F) .............................. 24
Intervalos de confianza ..................................................................................................... 25
Regresin lineal mltiple .................................................................................................. 26
Relaciones espurias........................................................................................................... 28
A manera de conclusin ................................................................................................... 29
Referencias ....................................................................................................................... 30
Apndice ........................................................................................................................... 31
Supuestos que se deben cumplir al hacer anlisis de regresin mltiple ......................... 31

32