Está en la página 1de 149

Análisis de regresión para 

sociólogos
con aplicaciones en R
Registro de propiedad intelectual Nº 192374, CHILE.

Christian Castro Navarro
Sociólogo U. de Chile

Santiago, 11 de Junio del 2010
christiancastro@vtr.net
Prefacio.

El análisis de regresión es una herramienta estadística tradicionalmente utilizada por los economistas. Sin 
embargo,   la   utilidad   de   esta   técnica   trasciende   disciplinas   y   resulta   clave   para   el   sociólogo­investigador   al 
ayudarlo a predecir dentro de cierto rango de probabilidad la ocurrencia de alguna situación social o bien, 
determinar   la   influencia   que   múltiples   variables   ejercen   sobre   otra.   La   utilidad   del   análisis   de   regresión   en 
sociología  es   amplia,   siendo  aplicable  al   estudio   de  los  mercados,  del  comportamiento  desviado,   la  ciencia 
política, la demografía, la epidemiología y la pobreza, entre otros (gran parte de los ejemplos se han hecho sobre 
estos temas). 
Siendo   esto   así,   este   texto   intenta  ser  una  referencia   para  estudiantes   y  profesionales   de   las   ciencias 
sociales que en sus investigaciones necesiten aplicar un análisis de regresión a la multiplicidad de problemas que 
el complejo mundo social nos ofrece.
El   presente   trabajo   se   divide   en   cuatro   secciones.   La   primera   aborda   el   análisis   de   regresión   simple, 
explicándolo paso a paso junto con los diferentes test asociados a él. La segunda sección generaliza este análisis 
al modelo de regresión múltiple. La tercera sección está dedicada al estudio de los problemas que con más 
frecuencia se presentan en el análisis de regresión (autocorrelación, heterocedasticidad y multicolinealidad) y la 
final,   desarrolla   3   aplicaciones   (formas   funcionales,   variables   dummy   y   modelos   de   regresión   con   respuesta 
cualitativa).
El  único   requisito  para  comprender  a  cabalidad  este  texto  es   el  conocimiento  de  las   matemáticas   y 
estadística   elemental   entregado   en   la   enseñanza   media  (herramientas   de  cálculo   sólo   han   sido   utilizadas   al 
derivar las ecuaciones normales y al describir la distribución acumulativa normal como la integral de la función 
gaussiana).
Hemos   utilizado   para   el   tratamiento   computacional   de   datos   el   paquete   estadístico   R   (de   libre 
distribución en la página http://www.r­project.org). Se ha elegido porque es tanto un paquete estadístico como 
un lenguaje de programación, con lo que su versatilidad es amplia, su capacidad  para generar gráficas de 
calidad es enorme y es gratuito. En negrita de color azul se han señalado todas las instrucciones con R así como  
también los ejemplos.

Christian Castro Navarro
Santiago, 11 de Junio del 2010
A G.N.S., G.C.T. y G.C.N. 
Índice

ÍNDICE Pp

1 EL ANÁLISIS DE REGRESIÓN SIMPLE (ARS) 1

1.1 INTRODUCCIÓN 1
1.1.1  Las presunciones del modelo de regresión. 1
1.2 PRIMERAS CONSIDERACIONES 2
Ejemplo Nº1: Esperanza de vida y su relación con el PIB PPA para el año 2005 en 174 países. 2
1.2.1 Primera interpretación de resultados. 3
1.2.2 Linealización de variables. 4
1.3 ESTIMACIÓN DE LOS PARÁMETROS POR EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MCO) 
PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES 7
Ejemplo Nº2: Robos por cada 1000 habitantes y % de población viviendo bajo la pobreza en condados 
     con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007.  7
1.3.1 Graficando los residuos estandarizados. 9
1.3.2 La varianza residual o cuadrado medio del error (CME):  S2 9
1.3.3 Algunas propiedades de la regresión obtenida por MCO. 10
1.4 TEST DE SIGNIFICACIÓN PARA LOS PARÁMETROS ESTIMADOS 10
1.4.1 Varianza de los estimadores por MCO de los parámetros estimados  b0 y de  b1 10
Ejemplo Nº3: Suicidio y desempleo en Japón (1953­2004). 12
1.4.2 Test de significación para los parámetros estimados. 13
1.4.3 Demostración de que los parámetros estimados por MCO son estimadores no sesgados de 
los parámetros reales. 14
1.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE 14
1.5.1  Intervalos de confianza para los parámetros estimados. 14
Ejemplo Nº4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporción de niños 
     viviendo en familias lideradas por un solo padre (2004). 15
1.5.2 Estimación del intervalo de confianza para los valores promedios de la variable respuesta. 16
1.5.3 Estimación del intervalo de predicción de los valores particulares de la variable respuesta. 18
1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIÓN 19
1.6.1 El coeficiente de determinación:  R 2 19
Ejemplo Nº5: Nivel de pobreza y años de escolaridad para las comunas del Gran Santiago (2006). 20
1.6.2 El coeficiente de correlación r. 21
1.6.3 Uso del análisis de varianza. 21
1.6.4 La estadística F. 22
1.7 PROPIEDADES DE LOS PARÁMETROS ESTIMADOS BAJO EL MÉTODO DE MÍNIMOS CUADRADOS 
ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia. 24  
1.7.1 Sesgo. 24
1.7.2 Eficiencia. 24
1.7.3 Consistencia. 25
1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE 25

2 EL ANÁLISIS DE REGRESIÓN MÚLTIPLE (ARM) 27

2.1 INTRODUCCIÓN 27
2.1.1 Obtención de los estimadores por MCO de los parámetros con dos variables 
independientes o explicativas. 28
2.1.2 Desarrollo de técnicas de regresión para el ARM utilizando el álgebra de matrices. 29
2.1.3 Ejemplo y trabajo con matrices en R. 30
Ejemplo Nº6: Regresión lineal de los años de escolaridad sobre el % de pobreza, el resultado del SIMCE 
     en matemáticas para los segundos medios y el % de desocupación para las comunas de 
     Santiago el año 2006. 30
2.2 INTERVALOS DE CONFIANZA 31
2
2.2.1 La varianza residual: S 31
2.2.2 La varianza de los parámetros estimados. 32
2.2.3 Los valores t de los parámetros estimados. 32
2.2.4 Construcción de los intervalos de confianza para los parámetros estimados. 33
2.3 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE  33
2.3.1  R 2  ajustado o  R 2 34
2.4 PREDICCIÓN 35
2.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de predicción 
toman los valores específicos  [1, X 1i , X 2i , ∙∙∙ , X ki ] 35
2.4.1.1 Cálculo de los intervalos de confianza usando el álgebra de matrices con R. 35
Ejemplo Nº7: El índice de desarrollo humano. 35
2.4.2 Intervalo de predicción para la respuesta particular cuando las k variables de predicción 
toman los valores específicos [1, X 1i , X 2i ,∙ ∙∙ , X ki ] 36
2.4.2.1 Cálculo de los intervalos de predicción usando el álgebra de matrices con R. 37

i
2.5 EL TEST DE SIGNIFICACIÓN GENERAL DE LA REGRESIÓN: LA ESTADÍSTICA F 38
2.5.1 La estadística F. 38
Ejemplo Nº8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU. 38
2.5.2 Tabla ANOVA para el modelo lineal general. 40
2.5.3  Cálculo de la tabla ANOVA utilizando el álgebra de matrices en R. 40
2.6 LOS COEFICIENTES DE CORRELACIÓN PARCIAL (CCP) 41
2.7 ANÁLISIS DE LOS RESIDUOS 42

3.1 AUTOCORRELACIÓN 44
 
3.1.1 ¿QUÉ ES LA AUTOCORRELACIÓN? 44
3.1.1.1 Autocorrelación en datos de sección transversal. 45
3.1.1.2 Autocorrelación en series de tiempo. 45
3.1.1.3 Algunos patrones de autocorrelación. 45
3.1.2 ¿POR QUÉ OCURRE LA AUTOCORRELACIÓN? 46
3.1.3 ¿CÓMO SE IDENTIFICA UNA AUTOCORRELACIÓN? 47
3.1.3.1 La estadística d de Durbin­Watson. 47
3.1.3.1.1 Los pasos para aplicar la prueba d. 49
3.1.3.2 Método informal (gráfico) para la autocorrelación de primer orden negativa. 49
3.1.3.3 Método informal (gráfico) para la autocorrelación de primer orden positiva. 51
Ejemplo Nº9: Suicidio y desempleo en Japón (1953­2004). 52
3.1.4 SOLUCIONANDO LA AUTOCORRELACIÓN 54
3.1.4.1 Corrección de la autocorrelación de primer orden positiva. 55

3.2 HETEROCEDASTICIDAD 57

3.2.1 ¿QUÉ ES LA HETEROCEDASTICIDAD? 57
3.2.1.1 Razones por las que puede ocurrir la heterocedasticidad. 57
3.2.2 ¿CÓMO SE IDENTIFICA LA HETEROCEDASTICIDAD? 58
3.2.2.1 Método informal (gráfico). 58
3.2.2.2 Métodos formales. 59
3.2.2.2.1 El test de Park. 59
Ejemplo Nº10 Relación entre la tasa de robos y de robo de vehículos cada 100.000 habitantes en EE.UU 
      entre 1960 y el 2007. 59
3.2.2.2.2 El test de Goldfeld­Quandt.  60
Ejemplo Nº11: Tasa de crímenes violentos versus crímenes contra la propiedad para los departamentos 
      de policía de California durante el año 2007. 61
3.2.2.2.3 El test de Koenker­Bassett. 63
Ejemplo Nº12: Obesos versus actividad física. 63
3.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD  64
Ejemplo Nº13: Solución de la heterocedasticidad del ejemplo 10. 65

3.3 MULTICOLINEALIDAD 66

3.3.1 ¿QUÉ ES LA MULTICOLINEALIDAD? 66
3.3.1.1 ¿Por qué se produce? 67
3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD. 67
3.3.3 ¿CÓMO SE IDENTIFICA LA MULTICOLINEALIDAD? 68
3.3.3.1 El factor de inflación de la varianza. 68
Ejemplo Nº14: Índice de marginación, población indígena y % de analfabetismo en los municipios del 
       Estado de Chiapas, México. 69
Ejemplo Nº15: Función Cobb­Douglas de la economía chilena (1986­2000). 71
Ejemplo Nº16: Crímenes contra la propiedad y crímenes violentos en el Estado de Nevada, EE.UU. (1960­1980). 72
3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD 74

4.1 FORMAS FUNCIONALES 76

4.1.1 INTRODUCCIÓN 76
4.1.2 FORMA DOBLE­LOG 76
4.1.2.1 La función Cobb­Douglas. 78
4.1.2.2 La definición de la elasticidad. 78 
Ejemplo Nº17: Función Cobb­Douglas de la economía chilena (1986­2000). 79 
4.1.3 FORMA SEMI­LOG 80 
Ejemplo Nº18: La explosión demográfica en EE.UU. entre 1790 y 1960. 82
4.1.4 FORMA POLINOMIAL 83
Ejemplo Nº19: Diagnosticados con VIH en Norteamérica entre 1987 y el 2000. 85
Ejemplo Nº20: Evolución de los detenidos por drogas por la DEA en los EE.UU (1994­2004). 86
4.1.5 FORMA RECÍPROCA 87
Ejemplo Nº21: Tasa de mortalidad infantil y el PIB per cápita ajustado a paridad de poder adquisitivo 
      para 42 países. 89

ii
Índice

4.2 VARIABLES DUMMY 91

4.2.1 INTRODUCCIÓN 91
4.2.2 MODELOS SÓLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA). 91
4.2.2.1 Modelos con solo una variable predictora cualitativa. 91
Ejemplo Nº22: % de población latina y su ubicación geográfica en el Estado de Texas, EE.UU. 91
4.2.2.2 Modelos con dos variables predictoras cualitativas. 93
Ejemplo Nº23: % de pobreza, ubicación geográfica y densidad de población latina en el Estado de Texas. 93
4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA) 94
Ejemplo Nº24: % de pobreza, ubicación geográfica y % de población latina en el Estado de Texas. 94
4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL 95
Ejemplo Nº25: Los efectos diferenciados para África y el resto del mundo de la correlación entre 
      la esperanza de vida y el PIB.   96   
4.2.5 ALGUNAS PRECAUCIONES EN EL USO DE VARIABLES DUMMY  98
 

4.3 MODELOS DE ELECCIÓN BINARIOS 99

4.3.1 INTRODUCCIÓN 99
4.3.2 EL MODELO LOGIT 99
Ejemplo Nº26: Pobreza y religión en Irlanda del Norte. 100
4.3.2.1 Interpretación de los coeficientes. 101
4.3.2.2 Intervalos de confianza para los coeficientes estimados. 101
4.3.2.3 Significación estadística de los coeficientes. 101
4.3.2.4 Contraste de hipótesis para los coeficientes. 102
4.3.2.4.1 La función de verosimilitud. 102
4.3.2.4.2 Estadístico de la Razón de Verosimilitud o chi2. 102
4.3.2.4.3 Bondad del ajuste. 103
4.3.2.5 Características del modelo Logit. 103
4.3.2.6 Algunas observaciones para el modelo Logit. 103
4.3.3 EL MODELO PROBIT 104
Ejemplo 27: Satisfacción con la vida y PIB PPA per cápita para 30 países. 104
4.3.3.1 Interpretación de los coeficientes. 105
4.3.3.2 Intervalos de confianza para los parámetros estimados. 106
4.3.3.3 Contraste de hipótesis del modelo. 106
4.3.4 Modelos logit y probit. ¿Cuál es preferible? 107

5 BIBLIOGRAFÍA 108

6 BASE DE DATOS i

iii
Análisis de regresión simple

EL ANÁLISIS DE REGRESIÓN SIMPLE (ARS)


1.1 INTRODUCCIÓN

El   Análisis   de   Regresión   Simple   es   el   estudio   de   la   influencia   cuantitativa   que   sobre   una   variable 
dependiente (regresando o respuesta) denominada Y1, ejerce otra independiente X (regresor o estímulo). 
De   lo   que   se   trata   es   extraer   de   grandes   cantidades   de   datos   las   características   esenciales   de   una 
relación que no es evidente, ajustando a ellos una ecuación empírica que sea razonablemente precisa para 
entre otras cosas, poder predecir el comportamiento de Y según varíe el de X. 
Suponemos esta relación lineal (asume la forma de la ecuación clásica de una línea recta) a la cual le 
adjuntamos un error asociado.
Como   no   se   espera   que   estas   variables   hayan   sido   observadas   bajo   condiciones   completamente 
controladas, para el análisis de regresión existen una multiplicidad de tests que prueban la confiabilidad de los 
resultados   obtenidos.   En   esta   sección   y   en   la   siguiente,   dedicada   al   Análisis   de   Regresión   Múltiple,   los 
estudiaremos uno a uno.
La ecuación de regresión simple se define de la siguiente manera: Y i = b0 b 1 X i i (1)
                 GRÁFICA Nº1
Ésta es la ecuación real a la cual sin embargo sólo nos 
podemos   aproximar   aplicando   una   metodología.   Ésta   son   los 
Mínimos Cuadrados Ordinarios (MCO), con los cuales podemos 
hacer  una estimación  de  los parámetros  o coeficientes  reales
b y  b . Estos parámetros estimados se denominan b
0 1 0

y b1 . 
La ecuación de regresión estimada resulta entonces:
Y = b b X e (2)
i 0 1 i i

donde e i se denomina residuo. Más adelante lo estudiaremos 
en profundidad.
El   método   de   MCO   es   una   técnica   que   nos   permite 
encontrar las estimaciones de los parámetros en la ecuación de 
regresión,   minimizando   la   suma   de   los   cuadrados2  de   las 
diferencias entre los valores observados de la variable respuesta
Y i y aquellos proporcionados por la ecuación de predicción
Y , esto es, minimizando la sumatoria de los cuadrados de los 
i

residuos.   Lo   que   se   busca  es   ajustar  la   mejor  línea   recta  a  la 


muestra   de   observaciones   X   e   Y.   Involucra   minimizar   la   suma 
vertical3 de los cuadrados de las desviaciones de los puntos hacia la línea de regresión4.

1.1.1  Las presunciones del modelo de regresión.

El modelo de regresión lineal clásico (MRLC) necesita de 10 presunciones básicas:

Supuesto 1: El modelo de regresión es lineal en los parámetros (los bi de la ecuación de regresión), esto 
es, ningún parámetro en el modelo aparece como un exponente ni es multiplicado o dividido por cualquier otro 
parámetro.
Supuesto 2: Se asume que X no es aleatorio. 
Supuesto 3: El error i correspondiente a cualquier valor X i , posee media condicional cero. De esta 
manera, Y i = b0 b 1 X i nos da el valor promedio de Y.
Supuesto 4: Existe homocedasticidad, esto es, dado un valor de X i , la varianza condicional de i es 

1 El estudio de la regresión sobre una variable dependiente cualitativa lo haremos en la sección 4, capítulo 3: 'Modelos de elección binarios'.
2 Consideramos los cuadrados en el método de MCO, pues de lo contrario las desviaciones de igual tamaño pero opuestas en signo se anularían. 
Además, con esto a las grandes desviaciones les entregamos un mayor peso que a las pequeñas.
3  Se consideran las desviaciones verticales porque intentamos explicar o predecir los movimientos en la variable dependiente Y, los cuales se 
miden a lo largo del eje vertical.
4 Con la instrucción segments graficamos en R las líneas de los puntos a la recta de regresión estimada:
>a1<­lm(a$V2~ a$V1)
>segments(a$V1, fitted(a1), a$V1, a$V2, col="red")

1
la misma para todas las observaciones. Las poblaciones Y i correspondientes a los diversos valores X i  tienen 
2
la misma varianza: Var  i =  con lo que los coeficientes de la regresión son eficientes 5 y los test de hipótesis 
estadísticas sobre ellos no sesgados6.     
Los supuestos 3 y 4 nos indican que el error i se distribuye normalmente: N 0 ; 2 . Esto implica 
que también Y i y los parámetros de la regresión se distribuyen normalmente, lo que nos permite hacer pruebas 
de significación estadística.
Supuesto 5: No existe autocorrelación entre los errores. Esto es, dado dos valores X cualquiera X i y  X j
, la covarianza7 entre i y  j es cero: Ei j = 0 ∀ i≠ j
Supuesto 6: i y X i    no están correlacionados. Así suponemos que cada Y se compone de un valor 
real y otro aleatorio no observable.         
Supuesto 7: El número de observaciones n debe ser mayor que el número de parámetros a ser estimados. 
Alternativamente, el número de observaciones n debe ser mayor que el número de variables independientes.
Supuesto 8: Debe existir una suficiente variabilidad en los valores tomados por los regresores. 
Supuesto 9: El modelo de regresión está correctamente especificado, esto es, posee una forma funcional 
correcta.    Así,   cualquier  variación   en   Y que   no  pueda  explicarse   por  medio   de  la  ecuación  de  regresión  es 
exclusiva responsabilidad de un error aleatorio.
Supuesto 10: No existe ninguna relación lineal casi perfecta entre ningún regresor con otro. Caso contrario 
estamos   en   presencia   de   multicolinealidad,   que   implica   una   casi   perfecta   relación   lineal   entre   las   variables 
independientes. Esto es un problema del análisis de regresión con varias variables independientes que veremos 
en detalle en la sección 3, capítulo 4: 'Problemas en el análisis de regresión: Multicolinealidad'.

1.2 PRIMERAS CONSIDERACIONES

  Supongamos   dos   conjuntos: {Y1, Y 2 , ..., Yn } y {X1, X 2 , ..., Xn } que   representan   n   mediciones   de   una 
variable respuesta Yi  que se han observado bajo un grupo de n mediciones de una variable de predicción 
 Xi  . El ARS se inicia con la conjetura de que existe linealidad en la relación entre Y i y X i , por lo que lo 
primero que haremos en el ARS, ya que nos es posible8, será graficar las Y i versus las X i para verificar este 
supuesto inicial y fundamental9.

Ejemplo Nº1:  Esperanza de vida y su relación con el PIB PPA para el año 2005 en 174 países.

Existe una relación entre el Producto Interno Bruto (PIB) per cápita de un país y la esperanza de vida para 
el   mismo   en   periodos   de   tiempo   próximos,   pues   a   mayor   PIB   per   cápita,   y   suponiendo   una   distribución 
razonablemente justa del ingreso, tenemos razones para creer que existe una mejor calidad y cobertura de la 
atención médica, que las condiciones de salubridad son mayores y que las necesidades de alimentación están 
bien cubiertas para una amplia mayoría de la población.
La base de datos Nº1 nos entrega los valores de la esperanza de vida en años al momento de nacer 
 Yi  y el PIB (corregido a paridad de poder adquisitivo) per cápita en US$  Xi  al 2005 para 174 países.
Leamos los datos en R (que hemos almacenado bajo un editor de textos con el nombre a.txt en C:) y 
grafiquemos   la   esperanza   de   vida   como   variable   dependiente   y   el   PIB   PPA   per   cápita   como   variable 
independiente:
Los  parámetros  a$V1  y  a$V2  representan   las   variables  de  las  columnas   Y  y  X  respectivamente,  col  lo 
usamos para asignar a los puntos color, xlab e ylab los utilizamos para asignar nombres a las variables del gráfico 
y main lo utilizamos para el título del mismo.

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de 
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>jpeg(file='a.jpeg', width=500, height=500)

5 Sus varianzas son mínimas en torno al valor verdadero  bi .
6 El promedio de los  b i nos da el valor de  bi .

7 La covarianza refleja la relación lineal que existe entre dos variables y se define como: Cov  XY=


∑ x i y i = ∑ Xi − X  Y i − Y 
n−1 n−1
8  Si   bien   se   puede   en   el   análisis   de   regresión   múltiple   tener   una   representación   gráfica   de   dos   variables   independientes   en   un   espacio 
tridimensional, esto ya resulta imposible para tres o más.
9 Es importante que el lector esté consciente de que no es posible establecer una relación causa­efecto entre las Y y las X.

2
Análisis de regresión simple

>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de 
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>dev.off()10

                           GRÁFICA Nº2

BASE DE DATOS Nº1

PAÍS Yi Xi

Albania 76,2 5323,118


Algeria 71,7 7175,777
Angola 41,7 2828,850
Antigua y Barbuda 73,9 11604,383
Argentina 74,8 13153,390
∙ ∙ ∙
∙ ∙ ∙
∙ ∙ ∙
Venezuela 73,2 5801,392
Vietnam 73,7 2782,199
Yemen 61,5 745,176
Zambia 40,5 911,352
Zimbabwe 40,9 2412,635
FUENTES: 
PIB PPA per cápita 2005: 
http://www.imf.org/external/data.htm 
Espectativa de vida al nacer 2005: 
http://hdrstats.undp.org/es/indicators/2.html 

          
                                              GRÁFICA Nª3
Observemos   que   tenemos   dos   datos   aberrantes: 
Guinea Ecuatorial y Luxemburgo
Excluyámoslos,   grafiquemos   nuevamente,   tracemos   la 
línea de regresión asociada a las variables y apliquemos nuestro 
primer análisis de regresión a estos datos (con la instrucción lwd 
asignamos el grosor a una línea):

>abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<­lm(a$V1~ a$V2)
>summary(a1)

1.2.1 Primera interpretación de resultados.

1.   Los   valores   que   nos   entrega   R   como   coeficientes 


estimados (Coefficients Estimate) nos dan la intercepción de la 
recta de regresión con el eje Y (o lo que es lo mismo, cuando X= 
0) que R denomina (Intercept) y el valor de la pendiente de la 
recta, denominado por R en este caso a$V2.
En   nuestro   ejemplo,   el   coeficiente   estimado   de 
intercepción con el eje Y es 60,15 y el coeficiente estimado de 
la  pendiente  de  la  recta es   0,0007062.   Este  último   valor  es  clave,  pues   nos   indica   la  razón   de  cambio   en   la  
variable dependiente por cada cambio en el valor de una unidad de la independiente. Así por cada cambio en 
US$ 1 del PIB PPA per cápita, los países del mundo aumentan 0,0007062 años su espectativa de vida al nacer 
(0,2578 dias o 6 horas). Para verlo de manera mas clara, por cada aumento de US$ 10000, la esperanza de vida 
aumenta 7,062 años.
60,15 y 0,0007062 son los parámetros estimados b0 y  b1 respectivamente.
2.   Los   valores   t   (Coefficients   t   value)   son   importantes   porque   nos   permiten   probar   la   significación 
estadística   de   los   coeficientes   estimados.   Este   valor   debe   compararse   con   el   valor   límite   de   la   estadística   t 
asociada  a los grados de libertad11 y el nivel de significación elegido.

10 De ahora en adelante omitiremos las últimas 3 líneas, pues sólo nos sirven para guardar nuestros gráficos en C:.
11 n­k donde n es el número de casos y k el número de parámetros a estimar.

3
Para nuestro ejemplo, a un 95% de significación y 
SALIDA Nº1
con   172   grados   de   libertad     (Hacemos   un   test   de   dos 
colas,   con   lo   que 1−/2 =  1   –   0,05/2   =   0,975)  Call:
calculando con R obtenemos: lm(formula = a$V1 ~ a$V2)

>qt(0.975,172) Residuals:
[1] 1.973852       Min        1Q    Median    3Q       Max 
   ­22.904   ­3.692    1.841    5.999    12.295 
Vemos   que   ambos   valores   de   t   (69,51   y   11,9), 
superan   este   valor,   siendo   por   tanto   ambos   parámetros  Coefficients:
                        Estimate        Std. Error        t value        Pr(>|t|)    
estimados significativos al 95%
(Intercept)        6.015e+01      8.653e­01        69.51         <2e­16 ***
3. El valor  R2 (Multiple R­squared) mide el grado  a$V2                7.062e­04       5.933e­05        11.90         <2e­16 ***
de asociación lineal entre variables. Si todos los puntos de  ­­­
yacieran sobre la línea de regresión estimada este  valor  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
valdría 1. Para nuestro ejemplo: R2 = 0,4546
De   ahora   en   adelante   asociaremos   los   tres  Residual standard error: 8.072 on 170 degrees of freedom
Multiple R­squared: 0.4546, Adjusted R­squared: 0.4514 
primeros resultados de la siguiente manera:
F­statistic: 141.7 on 1 and 170 DF,  p­value: < 2.2e­16 

Y= 60,150,0007062 X R2 = 0,4546
 69,51  11,9

4. La estadística F es un método para probar la hipótesis nula : H0 : b1= 0 , esto es, que no existe una 


relación lineal entre X e Y,  contra la alternativa H1 : b 1≠ 0 . Un valor pequeño de F implicará un ajuste pobre y 
sugerirá   la   ausencia   de   una   asociación   lineal   entre   X   e   Y.   Un   valor   alto   de   F   implicará   que   una   porción 
considerable de la variación en las observaciones es atribuíble a un efecto lineal de X sobre Y. De todas formas, 
debe compararse nuestro valor F con el valor límite tabulado al nivel de significación elegido y los grados de 
libertad determinados por el modelo, en este caso 1 y n­2 (mas adelante explicaremos el porqué estos valores).
En nuestro ejemplo: F­statistic: 141,7. Calculemos F con R:

>qf(0.95,1,172)
[1] 3.896092 3,896 141,7 con lo que rechazamos la hipótesis nula.

5.  Los  valores Pr(>|t|) nos indican  el nivel de significación  que  posee  cada  parámetro  estimado. Por 


ejemplo para el coeficiente 0,0007062 su Pr(>|t|) asociado es <2e­16, lo que significa que este parámetro es 
significativo hasta un (1­2e­16)∙100%. Prácticamente un 100%.
Observemos   que   el   modelo   a   pesar   de  poseer  coeficientes   estimados   extremadamente   significativos 
estadísticamente, posee un R2 demasiado bajo debido a que los puntos no presentan un claro patrón lineal. A 
continuación vamos a solucionar este problema.

1.2.2 Linealización de variables.

Podemos   solucionar  el   problema   de   la  no   linealidad   de   los   datos   de   este   ejemplo,   transformándolos 
b1
según alguna forma funcional del tipo recíproco  Y= b 0  o bien del tipo semi­log:  Y= b 0b1 ln X , 
X
pues el patrón de los puntos así nos lo sugiere.
En   el   primer   capítulo   de   la   sección   tercera:   'Formas   funcionales'   trataremos   con   detalle   estas 
transformaciones. Por el momento, sólo realicemos regresiones lineales según las dos transformaciones expuestas 
e interpretémoslas. Decidiremos cuál de las dos resulta la mejor forma funcional.

b1
a)  Y= b 0   Forma funcional recíproca.
X

Grafiquemos los puntos de la tabla Nº1 y la recta de regresión a ellos asociada:

>a <­ read.table('a.txt')
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='1/PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Relación entre 1/PIB PPA per cápita", "y la esperanza de 
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')

4
Análisis de regresión simple

              GRÁFICA Nº4

Observemos   que  TABLA Nº1


ahora   las   variables 
PAÍS Yi 1 / Xi
lucen   mucho   más 
linealizadas,   aunque   a  Albania 76,2 0,00018786
medida   que   aumenta  Algeria 71,7 0,00013936
la   variable  Angola 41,7 0,00035350
independiente   mayor  Antigua y Barbuda 73,9 0,00008617
es   la   dispersión   de   la  Argentina 74,8 0,00007603
dependiente. Éste es el  ∙ ∙ ∙
fenómeno   de   la  ∙ ∙ ∙
∙ ∙ ∙
heterocedasticidad del 
Venezuela 73,2 0,00017237
cual   ya   hemos  Vietnam 73,7 0,00035943
hablado. Yemen 61,5 0,00134196
Apliquemos   un  Zambia 40,5 0,00109727
análisis de regresión: Zimbabwe 40,9 0,00041448

>a1<­lm(a$V1~ a$V2)
>summary(a1)

SALIDA Nº2
Nuestra ecuación de regresión resulta entonces:
 74,74 −23790 Z Call:
Y= i R2 = 0,5703
lm(formula = a$V1 ~ a$V2)
 101,89 −15,02

Residuals:
1      Min       1Q      Median      3Q       Max 
Donde  Z i=
Xi   ­29.249  ­2.076     1.453       4.588   18.680 

Coefficients:
El valor  R2 está mas cerca de 1 (0,5703), por lo                          Estimate       Std. Error     t value   Pr(>|t|)    
que   concluímos   que   la   forma   funcional   recíproca  (Intercept)       7.474e+01     7.336e­01     101.89   <2e­16 ***
propone una  mejor linealización de  las  variables que el  a$V2              ­2.379e+04    1.584e+03     ­15.02    <2e­16 ***
caso original, pero continúa siendo regular. ­­­
Grafiquemos   nuestras   variables   originales  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
(excluyendo los dos datos aberrantes) y la curva que se 
Residual standard error: 7.164 on 170 degrees of freedom
 1
obtiene de la expresión:  Y= 74,74−23790∙ Multiple R­squared: 0.5703, Adjusted R­squared: 0.5678 
Xi F­statistic: 225.6 on 1 and 170 DF,  p­value: < 2.2e­16 

                GRÁFICA Nº5
 

     
>a <­ read.table('a.txt') 
>x <­ seq( 0 ,50000,length = 100) 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', 
cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de 
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
>lines(x, 74.74 ­23790* 1/x, type='l', col= 'red', lwd=3)  
                                                          
La   curva   obtenida   nos   da   información   precisa   del 
comportamiento de Y i a medida que varían las X i . Existe 
una línea asintótica representada por la recta Y= 74,74   b 0
sobre la cual el valor de la esperanza de vida no es superado.

5
b) Y= b 0b1 ln X Forma funcional semi­log. TABLA Nº2

Grafiquemos  los  puntos  de la  tabla Nº2  y  la recta de regresión  a ella  PAÍS Yi ln X i


asociada:
Albania 76,2 8,580
>a <­ read.table('a.txt')  Algeria 71,7 8,878
>par(bg = "Ivory 2")  Angola 41,7 7,948
>plot(a$V2, a$V1, col=3, xlab='Ln PIB PPA per cápita', ylab='Esperanza de vida',  Antigua y Barbuda 73,9 9,359
cex.lab=1,family='NewCenturySchoolbook')  Argentina 74,8 9,484
>title(main=paste("Relación entre el Ln PIB PPA per cápita", "y la esperanza de  ∙ ∙ ∙
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')  ∙ ∙ ∙
>abline(lm(a$V1~a$V2), lwd=3, col='red') ∙ ∙ ∙
Venezuela 73,2 8,666
Y apliquemos un análisis de regresión: Vietnam 73,7 7,931
Yemen 61,5 6,614
>a1<­lm(a$V1~ a$V2) Zambia 40,5 6,815
>summary(a1) Zimbabwe 40,9 7,788

                GRÁFICA Nº6

SALIDA Nº3

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
      Min         1Q        Median        3Q         Max 
    ­25.5378   ­2.2021     0.8045       4.0142    12.0787 

Coefficients:
                        Estimate   Std. Error   t value   Pr(>|t|)    
(Intercept)           0.2074    3.8633       0.054     0.957    
a$V2                   7.7435    0.4416      17.535   <2e­16 ***   
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 6.522 on 170 degrees of freedom
Multiple R­squared: 0.644, Adjusted R­squared: 0.6419 
F­statistic: 307.5 on 1 and 170 DF,  p­value: < 2.2e­16 

         
         GRÁFICA Nº7
Nuestra ecuación de regresión resulta entonces:

R = 0,644 Donde  Z i= ln Xi
 2
Y= 0,20747,7435 Z i
 0,054 17,535

Grafiquemos   nuestras   variables   originales   (excluyendo 


los   dos   datos   aberrantes)   y   la   curva   que   se   obtiene   de   la 
expresión:  Y=  0,20747,7435 ∙ ln X i

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', 
cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de 
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
>lines(x, 0.2074+7.7435*log(x), type='l', col= 'red', lwd=3)

El valor R2 está más cerca que el ejemplo anterior a 1 
(0,644), por lo que concluímos que la forma funcional semi­log 
es una mejor linealización del modelo original que la recíproca.

6
Análisis de regresión simple

1.3 ESTIMACIÓN DE LOS PARÁMETROS POR EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MCO) 
PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES

Consideremos   un   modelo   de   la   forma Y i = b0 b 1 X i i donde i= 1,2,... , n y b0 y b1 son   los 


parámetros reales pero desconocidos.
Y i es una variable aleatoria que es la suma de dos componentes, el término no aleatorio b0 b 1 X i y 
la componente aleatoria i .
La sumatoria del cuadrado de la i­ésima desviación o error  i = Y i −b 0b1 X i  es:

∑ 2i = ∑  Y i −b 0−b1 X i 2 (3)

Los   estimadores   por   MCO  de   b0 y   b1 se   obtienen   derivando   parcialmente   la   ecuación   anterior 


respecto a b0 y b1 e igualando a cero cada una.

Primera ecuación normal:
2 2
∂ ∑ i ∂ ∑  Y i−b0 −b1 X i 
= = 0 −2 ∑ Yi − b0− b1 X i = 0     ∑ Y i= n b0 b1 ∑ X i (4)     
∂ b 0 ∂ b0

Segunda ecuación normal:
∂ ∑ 2i ∂ ∑  Y i−b0 −b1 X i 2
= = 0 −2 ∑ Xi Y i − b0− b1 X i = 0 ∑ Xi Y i= b0 ∑ X i b1 ∑ X 2i (5)
∂ b 1 ∂ b1

Sustituyendo una ecuación normal dentro de la otra obtenemos el valor de los parámetros estimados.
Despejemos  b0 de la primera ecuación normal:

∑ Y i = n b 0 b1 ∑ X i  b0 = ∑ i −b 1 ∑ i Esta expresión también puede escribir:


Y X
n n
b0 = Y
 − b1 X
   (6)
Sustituyendo el valor de  b0 en la segunda ecuación normal obtenemos:
2
  ∑ X i Y i = b0 ∑ X i b1 ∑ X i
∑Y ∑X
∑ X i Y i = [ n i −b 1 n i ] ∑ X ib 1∑ X 2i
2 2
∑ Y i ∑ X i − b1 ∑ X i  b 2
 b1 [ ∑ X 2i −
∑ X i  ∑ Yi ∑ X i y así:
∑ Xi Y i= n n 1 ∑Xi
n
]= ∑ X i Y i− n

∑ Yi ∑ X i
∑ X i Y i− n
b1= 2 (7)
2
∑ X i 
∑X − i
n

Ejemplo Nº2: Robos   por   cada   1000   habitantes   y   %   de   población   viviendo   bajo   la   pobreza   en 
condados con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. (excluyendo  
los 6 condados más atípicos) (23 casos).

La Teoría de la Economía Alternativa Informal e ilegal (Cooper: 2000), afirma que los trabajos informales 
alternativos   e   ilegales   surgen   en   la   medida   en   que   la   economía   formal   no   es   capaz   de   otorgar   los   puestos 
laborales   formales   necesarios   para   un   número   importante   de   personas.   Es   así   que   la   economía   informal 
alternativa   e   ilegal   es   una   forma   de   obtener   ingresos   que   permiten   una   subsistencia   inalcanzable   por   otros 
medios, esto al menos, en el caso de los ladrones comunes. 
La base de datos Nª2 nos entrega información del número de robos cada 1000 habitantes  Y i  y el % 
de población pobre  Xi  en condados con una población superior a 50.000 personas en el Estado de Illinois, 
EE.UU. en el 2007. (excluyendo los 6 condados más atípicos)
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión 
lineal de la tasa de delitos sobre el % de población pobre.

7
BASE DE DATOS Nº2
>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
CONDADO Yi Xi
>plot(a$V2, a$V1, col=3, xlab='% de población pobre', ylab='Tasa de robos', 
cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Relación entre el % de población pobre", "y la tasa de  Adams County 0,285 11,324
robos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')  Boone County 0,150 9,790
>abline(lm(a$V1~a$V2), lwd=3, col='red') DeKalb County 0,428 10,454
DuPage County 0,277 4,725
>a1<­lm(a$V1~ a$V2) Kane County 0,538 7,782
>summary(a1) ∙ ∙ ∙
∙ ∙ ∙
FUENTES:  ∙ ∙ ∙
Poblaci ón viviendo bajo el nivel de la pobreza al 2007 en el Estado de Illinois:  Tazewell County 0,267 7,789
http://www.ers.usda.gov/Data/PovertyRates/Povlistnum.asp?TheState=IL%2CIllinois  Vermilion County 1,762 17,839
Tasa de robos por cada 100.000 en el Estado de Illinois al 2007: 
Whiteside County 0,237 10,982
http://www.isp.state.il.us/crime/cii2007.cfm 
Estimaci ón de la poblaci ón de los condados de Illinois al 1 de Julio del 2007: Will County 0,504 5,821
http://www.census.gov/popest/counties/CO­EST2008­01.html Winnebago County 2,329 13,624

  GRÁFICA Nº8

SALIDA Nº4

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
      Min        1Q       Median      3Q       Max 
  ­0.7010   ­0.3391     ­0.1666    0.3231  1.0298 

Coefficients:
                        Estimate    Std. Error    t value    Pr(>|t|)    
(Intercept)        ­0.78355     0.33377     ­2.348      0.0288 *  
a$V2                 0.15626     0.03045      5.132     4.39e­05 ***  
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.5321 on 21 degrees of freedom
Multiple R­squared: 0.5564, Adjusted R­squared: 0.5353 
F­statistic: 26.34 on 1 and 21 DF,  p­value: 4.391e­05 

Calculemos los coeficientes con nuestras fórmulas:
TABLA Nº3
∑ Yi ∑ X i
∑ X i Y i− n CONDADO Yi Xi Xi Y i X 2i
b1= 2
∑ X i  Adams County 0,285 11,324 3,222 128,243
∑ X 2i −
n Boone County 0,150 9,790 1,471 95,838
19,135 ∙237,79 DeKalb County 0,428 10,454 4,473 109,296
245,555− DuPage County 0,277 4,725 1,311 22,322
23
b1= Kane County 0,538 7,782 4,187 60,555
237,79 2 ∙ ∙ ∙ ∙ ∙
2763,834−
23 ∙ ∙ ∙ ∙ ∙
245,555−197,831 47,724 ∙ ∙ ∙ ∙ ∙

b1= b1= Tazewell County 0,267 7,789 2,083 60,664
2763,83−2458,438 305,392
Vermilion County 1,762 17,839 31,428 318,213
b1= 0,156 Whiteside County 0,237 10,982 2,605 120,596
Will County 0,504 5,821 2,933 33,880
b0 = 0,832−0,156∙ 10,339 b0 = −0,781 Winnebago County 2,329 13,624 31,727 185,605

b0 = Y
 − b1 X
∑ 19,135 237,790 245,555 2763,834
Y i = 0,832 X i = 10,339
Y   vemos   que   coinciden   con   los   datos 
entregados por R.

8
Análisis de regresión simple

1.3.1 Graficando los residuos estandarizados.

Los residuos e i  son muy importantes debido a que proporcionan abundante información sobre lo que 
puede fallar en el modelo de regresión estimado.
Con  el   siguiente  comando   graficamos   los   residuos   estandarizados,   pero   antes   debemos   descargar  la 
librería MASS e instalarla12:

>library(MASS) 
>a1 <­ (lm(a$V1~a$V2)) 
>par(bg = "Ivory 2") 
>plot(a$V2,stdres(a1), col=3, xlab='% de población pobre', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Residuos estandarizados", "versus variable 
independiente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
>x <­ seq( 3, 19, length = 100)    
>lines(x, x­x, type="l", col= 'red', lwd=3)  
                                                                                                                          GRÁFICA Nº9
El valor residual es la distancia vertical que existe entre 
una   observación   determinada   y   el   punto   sobre   la   recta 
estimada de regresión para la misma observación.
Un residuo representa la cantidad en la que un valor 
estimado falla para predecir la media de la correspondiente 
observación. Por lo tanto, entre mayor sea un residuo, mayor 
tendería   a   ser   el   efecto   de   la   componente   aleatoria   en   el 
modelo.

1.3.2 La   varianza   residual   o   cuadrado   medio   del 


2
error (CME):  S

Según los supuestos iniciales, la varianza de la variable 
2
respuesta Var  Y i =  es igual a la varianza del error, que es 
constante para todos los valores de la variable de predicción
X i .   El   estimador   de   esta   varianza 2 es S 2 y   se 
denomina   varianza   residual   o   cuadrado   medio   del   error.   Se 
define   formalmente  como   la  sumatoria  del   cuadrado   de   los 
residuos,   dividido   por   la   cantidad   de   datos   menos   los 
parámetros a estimar (los grados de libertad). En el caso del ARS, el denominador es n­2 ya que se pierden dos  
grados de libertad al tener que estimar los dos parámetros b0 y b1 antes de obtener  Y i  :

S 2=
∑  Yi − Y i 2 = ∑ e 2i (8) TABLA Nº4
n−2 n−2
CONDADO Yi Xi Y i ei e 2i
(donde S se denomina desviación standard residual)
Calculemos el cuadrado medio del error para el  Adams County 0,285 11,324 0,986 0,701 0,492
ejemplo ya visto: Boone County 0,150 9,790 0,746 0,596 0,355
DeKalb County 0,428 10,454 0,850 0,422 0,178
S 2=
∑ e 2i = 5,946 = 0,283 S= 0,532 Que   vemos  DuPage County 0,277 4,725 ­0,045 ­0,323 0,104
n−2 21 Kane County 0,538 7,782 0,432 ­0,106 0,011
coincide   con   la   salida   en   R   llamada   error   standard  ∙ ∙ ∙ ∙ ∙ ∙
residual. ∙ ∙ ∙ ∙ ∙ ∙
Como  Y i estima la media de  Y i ,  Y i − Y i (el  ∙ ∙ ∙ ∙ ∙ ∙
Tazewell County 0,267 7,789 0,434 0,166 0,028
residuo)   es   la   desviación   de   Y i respecto   a   su   propia  Vermilion County 1,762 17,839 2,004 0,242 0,059
media. Por lo anterior es que S 2 es una medida absoluta  Whiteside County 0,237 10,982 0,932 0,695 0,483
de que tan bien se ajusta la recta estimada de regresión a  Will County 0,504 5,821 0,126 ­0,378 0,143
las medias de la observaciones de la variable respuesta.  Winnebago County 2,329 13,624 1,345 ­0,983 0,967
Mientras más pequeño sea el valor de  S 2 , mayor ajuste  ∑ e 2i = 5,946
tendrá el modelo.

12 Para instalar paquetes que aún no se tienen en las librerías de R, escribimos >install.packages(), seleccionamos un espejo desde el cual bajar 
los paquetes y lo llamamos con >library(packages).

9
S 2 es un estimador no sesgado de 2 mientras la forma del modelo de regresión sea la correcta.

1.3.3 Algunas propiedades de la regresión obtenida por MCO.

1  ∑ e i = 0
pues ∑ e i = ∑  Y i−Y i = ∑  Y i−b 0−b1 Xi = ∑ Yi −n b0− b1 ∑ X i= nY  − b1 X − b1 n X
 −n Y = 0

2  ∑ Y i = ∑ Y i
ya que  ∑ Y i = ∑ b0 b1 X i = n b0 b1 ∑ X i y como ya hemos visto que la primera ecuación normal es
  ∑ Y i = n b0b1 ∑ X i ,  ∑ Y i = ∑ Y i
3  ∑ X i e i= 0
pues  ∑ X i e i= ∑  X i  Y i − Y i = ∑ X i Y i− ∑ X i Y i = ∑ X i Y i −∑ X i b 0 b1 X i 
= ∑ Xi Yi −b0 ∑ X i− b1 ∑  X i 2 Recordemos que la forma de la segunda ecuación normal es:
2
  ∑ X i Y i = b0 ∑ X ib1 ∑  X i  , por lo que  ∑ X i ei = 0

4  ∑ Y i e i= 0
∑ Y i ei = ∑ b0 b1 Xi  e i= b0 ∑ e i b1 ∑ X i ei y ya hemos visto que estas dos últimas expresiones son cero.

Las   dos   últimas   propiedades   implican   que   los   residuos   no   están   correlacionados   ni   con   las   variables 
predictoras ni con la predicha.
TABLA Nº5
Verifiquemos   estas   propiedades   en   nuestro 
CONDADO Yi Xi Y i ei X i ei Y i e i
ejemplo:

Adams County 0,285 11,324 0,986 0,701 7,944 0,692


Boone County 0,150 9,790 0,746 0,596 5,834 0,445
DeKalb County 0,428 10,454 0,850 0,422 4,414 0,359
DuPage County 0,277 4,725 ­0,045 ­0,323 ­1,525 0,015
Kane County 0,538 7,782 0,432 ­0,106 ­0,822 ­0,046
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
Tazewell County 0,267 7,789 0,434 0,166 1,293 0,072
Vermilion County 1,762 17,839 2,004 0,242 4,319 0,485
Whiteside County 0,237 10,982 0,932 0,695 7,635 0,648
Will County 0,504 5,821 0,126 ­0,378 ­2,200 ­0,048
Winnebago County 2,329 13,624 1,345 ­0,983 ­13,399 ­1,323

∑ 19,135 19,135 0,000 0,001 0,000

1.4 TEST DE SIGNIFICACIÓN PARA LOS PARÁMETROS ESTIMADOS

En el modelo de regresión simple resulta más o menos evidente saber si los parámetros estimados son 
coherentes comparando la recta de regresión obtenida con los puntos de las variables originales. Sin embargo, 
en el análisis de regresión múltiple que trataremos en la siguiente sección el problema no es tan trivial. En estos 
casos no tenemos una representación gráfica con la cual comparar, por lo que debemos establecer un test que 
evalúe la significación estadística de los estimadores de la regresión. Veamos esto para el caso del modelo lineal 
simple. La pregunta clave es: ¿son las estimaciones de los coeficientes obtenidos estadísticamente relevantes?

Para comenzar debemos obtener la varianza de  b0 y de  b1

1.4.1 Varianza de los estimadores por MCO de los parámetros estimados  b0 y de  b1

Definamos:   x i= X i− X y yi= Y i−Y


 (9)

entonces:

10
Análisis de regresión simple

2 ∑ Xi2  2 ∑ X 2i
a) Var b 0= 2 o bien Var b 0= 2 (10)
n ∑  X i −
X n ∑ xi

Donde   2 es la varianza del error en la relación real entre Y i y X i que como hemos visto puede 


estimarse con la varianza residual S 2 .

Demostración:
∑ Yi ∑ X i
∑ X i Y i−
b1=
n ∑ Xi −X  Y i−Y 
Hemos obtenido que: 2 , pero lo anterior es equivalente a: 13

2
∑ X i  ∑ Xi −X 2
[∑ X − i ]
n

X
X i − 
Entonces, si definimos:  Ci=    b i = ∑ Ci Y i (11)
∑  X i− X 2
(Notemos   que   en   la   expresión   anterior   da   lo   mismo   utilizar Yi − Y  = y i o Y i ,   pues
∑  Xi −X  Y i− Y = ∑  X i −X  Yi −Y ∑  X i− X = ∑  X i −X  Yi ­Ya que  ∑ X i −X = 0 ­.
      

Por otro lado b0 = Y
 − b1 X , entonces Var b 0= Var Y − b1 X  (12)

∑ Yi − X C Y ]= Var [  Y i −X C Y ]= Var[  1 − X C  Y ]= 2


Var b 0= Var[
n
∑ i i ∑ n i i ∑ n i i ∑  1n −X Ci  Var Y i 

Puesto que: Var [ ∑ X ∙ Y ]= ∑ X 2 Var Y (13)


14

1 2X  Ci 2 X ∑ Ci
Var b 0=  2 ∑  2 −  2 C2i = 2 ∑ 12 −
X  X2 ∑ C2i 
n n n n
1
Si ∑ Ci= 0 (Recordemos que  ∑ X i −X = 0 ) y ∑ C2i = y puesto que:  ∑ a= n siendo 
∑  X i− X 2
1 1 1 1
a una constante:  ∑ = 2 ∑ 1= 2 n=
n
n2 n n

1
Var b 0=  2  
2
X
=  2 
∑  Xi −X 2n X 2 
2
n ∑  X i − X  n ∑  X i−X  2

Ya que:  ∑ X i −X 2= ∑  Xi2−2 X i X X 2 = ∑ Xi2−2 X ∑ X i ∑ X 2= ∑ X2i −2n X 2n X 2= ∑ X 2i −n X2
2 2 2 2

Var b 0=  2 


∑ X i −n X n X = 2  ∑ X i 
 2
n ∑  X i− X  2
n ∑ X i − X

13 Hagamos: 
∑ Y i ∑ Xi ][  ∑ X i
[∑ Xi Yi −
n
∑  Xi− X 2 ] = [ ∑ X i− X   Yi − Y  ][ ∑ X 2i −
n
]

Desarrollemos la primera expresión para llegar a la segunda:

[ ∑ Xi Y i−∑ Xi    X2 ]
Y ][ ∑  X2i −2 Xi X = ∑ X3i Y i − Y ∑ X3i −2 X∑ X 2i Y i2 X Y ∑ X2i  X2 ∑ Xi Y i − X2 Y ∑ Xi =

∑ X 3i Y i − Y ∑ X 3i − X ∑ X 2i Y i X Y ∑ X 2i − X ∑ X2i Y i X Y ∑ Xi2 X2 ∑ Xi Y i− X2 Y ∑ X i = [ ∑ X 2i − X ∑ X i][ ∑ X i Y i− Y ∑ X i − X ∑ Y i X Y ] =

2 2
∑ X i  ∑ X i 
= 2
[ ∑ Xi − ][ ∑  X i Y i − Y X i− X Y i X Y ]
][ ∑  Xi− X = 2
[ ∑ Xi −
  Y i− Y ]
n n
14 La demostración de esta importante ecuación excede los propósitos de este texto.

11
Como   2 es   la  varianza  del   error  en   la  relación   real entre   X i y Y i que   puede   estimarse   como 

S
2
, un estimador de la desviación standard de  b0  es: S b0 = S
 ∑ X2i
n ∑ X i− 
X
2
(14)

2 2
b) Var b 1= o bien Var b 1= (15)
∑ x 2i ∑ X i −X 2
Demostración:
2 ∑  X i−X 2 ]= 2
Var b 1= Var ∑ Ci Y i = ∑ C2i Var Y i = 2 ∑ C2i  ∑ C2i = 2
 [ 2
 2 
∑  X i− X ∑  X i −X 2
S
Entonces: S b1 = (16)
 ∑ X i −X 2
es la desviación standard del estimador de mínimos cuadrados de la pendiente.

S 2 ∑ X 2i ∑ e 2i ∑ X 2i
S 2 b0 = 2
=
n ∑ xi n−2 n ∑ x2i
Tenemos así que: (17)
2
S b 1=
S2
=
∑ e 2i
2
∑ xi n−2 ∑ x 2i

Nótese que las varianzas de  b0 y b1 son funciones de la variable X.

Calculemos las varianzas de los parámetros estimados para el siguiente ejemplo:

Ejemplo Nº3: Suicidio y desempleo en Japón (1953­2004). BASE DE DATOS Nº3

Xi AÑO Y
Es conocido que el deterioro de algunos factores económicos como la caída del  i

empleo   o   las   recesiones   pueden   contribuir   a   un   aumento   de   la   tasa   de   suicidios.  1955 31,27 2,6
Wasserman   (1984)   mostró   que   en   los   Estados   Unidos   desde   1947   a   1977   los   periodos  1956 29,85 2,3
recesivos   se   asocian   a   un   aumento   de   tasa   de   suicidios   y   que   existe   una   correlación  1957 29,72 1,9
estadística entre los suicidios y la duración promedio del desempleo.  Stuckler (2009) halló  1958 30,82 2,2
que por cada 1 por ciento de aumento del desempleo, existe casi un 0,8 por ciento de  1959 26,76 2,3
incremento en las tasas de suicidio en menores de 65 años estudiando 26 países de la  ∙ ∙ ∙
∙ ∙ ∙
Unión Europea.
∙ ∙ ∙
Se   debe   tener   en   consideración   sin   embargo,   que   si   bien   es   probado   que   el  2000 34,87 4,9
desempleo es un factor en la evolución de la tasa de suicidio también es cierto que entre  2001 33,86 5,2
los cesantes está sobrerepresentada la población de enfermos mentales y drogadictos,  2002 34,80 5,5
dado que ellos tienen mas dificultades para conservar su trabajo. 2003 37,51 5,5
La base de datos Nº3 nos entrega información de la tasa de suicidios de hombres 2004 35,20 4,9
 Yi  y la tasa de desempleo Xi  entre los  FUENTES: 
Número de suicidios de hombres en Japón (1953­2003): 
años 1953 y el 2003 en Japón. http://www.stat.go.jp/english/data/chouki/02.htm
Para   orientarnos,   grafiquemos   los  Población japonesa entre (1953­2003): 
puntos, la recta de regresión a ellos asociada y  http://www.stat.go.jp/english/data/chouki/02.htm
% de desempleo en Japón: (1953­2003) :
ejecutemos una regresión lineal de la tasa de  http://lysander.sourceoecd.org/vl=4326714/cl=22/nw=1/rpsv/factbook2009/06/02/01/index.htm
suicidios sobre la tasa de desempleo en Japón.

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Relación entre la tasa de desempleo", "y la tasa de suicidios en 
Japón",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
>abline(lm(a$V1~a$V2), lwd=3, col='red')

>a1<­lm(a$V1~ a$V2)
>summary(a1)

12
Análisis de regresión simple

TABLA Nº6

AÑO Yi Xi X i2 x 2i
Calculemos  S b0  y  S b1 
1955 31,27 2,6 6,76 0,024 De la salida de R tenemos que S 2= 8,398 y como n= 50:
1956 29,85 2,3 5,29 0,021
1957 29,72 1,9 3,61 0,296
S 2 ∑ X 2i 8,398 ∙ 371,04
S  b0 =
2
1958 30,82 2,2 4,84 0,060
2
= = 0,861 S b0 = 0,928
1959 26,76 2,3 5,29 0,021 n ∑ xi 50∙ 72,38
∙ ∙ ∙ ∙ ∙ 2
S 8,398
∙ ∙ ∙ ∙ ∙ S 2 b1 = 2
= = 0,116 S b1 = 0,341
∙ ∙ ∙ ∙ ∙ ∑ xi 72,38
2000 34,87 4,9 24,01 6,032
2001 33,86 5,2 27,04 7,596
2002 34,80 5,5 30,25 9,339
2003 37,51 5,5 30,25 9,339
2004 35,20 4,9 24,01 6,032
 2,444
X=
∑ 371,04 72,38

  GRÁFICA Nº10

SALIDA Nº5

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
     Min        1Q        Median      3Q      Max 
  ­3.9885  ­1.9864     ­0.8444    1.3186   7.7696 

Coefficients:
                       Estimate   Std. Error   t value    Pr(>|t|)    
(Intercept)        13.7994     0.9280      14.87    <2e­16 ***
a$V2                 4.2900      0.3407      12.59    <2e­16 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 2.898 on 48 degrees of freedom
Multiple R­squared: 0.7676, Adjusted R­squared: 0.7628 
F­statistic: 158.6 on 1 and 48 DF,  p­value: < 2.2e­16 

1.4.2 Test de significación para los parámetros estimados.

El test de significación de los parámetros estimados consiste en comparar el valor del cuociente entre el 
parámetro estimado y su respectiva desviación standard con el valor de la t de student correspondiente a los 
grados de libertad y el nivel de significación elegido. El parámetro clave del modelo es b1 ; la significación 
estadística del parámetro estimado de la intersección con Y no tiene mayor relevancia. 

Nuestra hipótesis alternativa la establecemos así: 

Si Y se encuentra relacionada en forma lineal con X, entonces b1≠ 0  
b0−b 0 b 1−b1
Las variables aleatorias t 0=  y t 1= (18)
S b0  Sb 1

tienen una distribución t de student con n­2 grados de libertad, por lo que si queremos probar las hipótesis nulas 
b0 b 1
H0 : b 0= 0 y  H0 : b 1= 0 , debemos comparar  t 0= y t 1= (19)
S b0  Sb 1

13
con la t correspondiente a los grados de libertad y el nivel de significación elegido.

b0 13,799 b1 4,29


Calculemos para nuestro ejemplo: t 0= = = 14,872 t 1= = = 12,594
Sb0  0,928 Sb1  0,341

A   un   95%   de   significación   y   con   48   grados   de   libertad   (hacemos   un   test   de   dos   colas,   con   lo   que
1−/2 = 1 – 0,05/2 = 0,975) calculando con R obtenemos nuestro t:

>qt(0.975,48)
[1] 2.010635

Si t i −t o t ti ,   nuestro bi es   estadísticamente   significativo   al   nivel   elegido,   lo   cual   es   nuestro 


caso, pues: 2.01 14,872 y 2.01 12,594

Así que se rechaza la hipótesis nula.

1.4.3 Demostración de que los parámetros estimados por MCO son estimadores no sesgados de los 
parámetros reales.

a) Demostración de que  b1 es un estimador no sesgado de  b1 :  E b1= b1 (20)

Se deben demostrar dos cosas:

1 Que  b1 es combinación lineal de  Y 1 , ..., Y n


∑ X i −X   Yi −Y = ∑  Xi −X  Yi − Y ∑  Xi −X = ∑  X i−X  Y i
∑  X i− X  Y i −Y  = ∑  Xi− X  y i  X i − X 
Por definición  b1= Si Ci= entonces  b1= ∑ Ci y i
∑ X i − X 2 ∑ X i −X 2 ∑  X i− X 2
2 Que  Eb1= b1
Eb1= E∑ Ci Yi = ∑ Ci E Y i = ∑ Ci b 0b1 Xi = b0 ∑ Ci b1 ∑ Ci X i

∑  X i −X  =
2.1 ∑ Ci= 0
∑  X i− X 2
∑  X i− X  X i = ∑  Xi2−X X i  = 1 ya que X = ∑ X i  X = n X y
2.2  ∑ Ci X i= ∑ i
∑  X i −X 2 ∑  X 2i −2 n X 2n X 2 n
∑ X i −X 2= ∑  Xi2−2 X i X  X 2 = ∑ Xi2−2 X ∑ X i ∑ X 2= ∑ X2i −2n X 2n X 2= ∑ X 2i −n X2
Entonces queda así demostrado que  E b1= b1

b) Demostración de que  b0 es un estimador no sesgado de  b0 Eb0= b 0 (21)

Dado que el estimador de MCO de b0  es:  b0 = Y−  b X


1
 , como  b1 es una combinación lineal de 

la observaciones  Y 1, Y 2, ... Y n entonces  b0 también es combinación lineal de las observaciones. Por otro lado:

E b0 = E Y − b1 X  E b1 =


 = E Y − X ∑  Y i  −X b = ∑ b0 b1 X i  − X b
1 1
n n
n b0b1 ∑ X i
− X b1= b0b1 X
 −b1 X = b0
n

1.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE

1.5.1  Intervalos de confianza para los parámetros estimados.

14
Análisis de regresión simple

Un   intervalo   de   confianza   para   los   parámetros   verdaderos b0 y b1 ­esto   es,   la   región   donde   con 
cierta   probabilidad   se   encuentran,   al   nivel   de   significación   establecido   y   para   cierto   grado   de   libertad­   se 
construye   sumando   y   restando   al   parámetro   estimado   su   propia   desviación   standard   multiplicada   por   la 
estadística t asociada.
Para  b0 y b1 los intervalos de confianza entonces quedan como:

b0 ± t ∙ Sb0 y b1± t ∙S b1        (22)

b1
Como ya lo hemos visto, la variable aleatoria  tiene una distribución t de student con n­2 grados 
S b1 
de   libertad,   por   lo   que   la   probabilidad   de   que   b1 se   encuentre   dentro   del   intervalo 
[ b1− t 1−/2, n−2 ∙ S b1 ; b1  t 1−/ 2,n−2 ∙S b1 ] es P[ b 1− t 1− / 2, n−2 ∙S b1   b1  b1 t 1−/2, n−2 ∙ S b1 ]= 1−

Así nuestro intervalo es b1± t1− / 2, n−2 ∙ Sb 1 (23)

Para el caso de  b0 procedemos de manera análoga.

Consideremos el siguiente ejemplo:

Ejemplo Nº4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporción de niños  
(bajo 18 años) viviendo en familias lideradas por un solo padre (2004).

La   presencia   o   ausencia   relativa   de   figuras   paternas   en   una   comunidad,   parece   estar   fuertemente 
correlacionada con la tasa de criminalidad.
En los Estados Unidos el 70% de los delincuentes juveniles, de los homicidas menores de 20 años y de los 
individuos arrestados por violación y otras ofensas sexuales graves crecieron sin padre. 
La   relación   entre   ausencia   del   padre   y   delincuencia   surge   de   numerosos   trabajos   de   investigación 
(Adams, Milner & Schrepf, 1984; Anderson, 1968; Chilton & Markle, 1972; Monahan, 1972; Mosher, 1969; Robins & Hill, 
1966; Stevenson & Black, 1988; Wilson & Herrnstein, 1985; Bohman, 1971; Kellam, Ensminger & Turner, 1977). 
La base de datos Nº4 nos entrega la tasa de asesinatos por cada 100.000 habitantes al 2006   Y i  y la 
proporción de niños (menores de 18 años) viviendo en familias uniparentales al 2004   Xi  para los 50 Estados 
norteamericanos (excluímos Washington D.C.)
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión 
de la tasa de asesinatos sobre la proporción de familias uniparentales:

BASE DE DATOS Nº4

ESTADO Yi Xi
>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='Tasa de familias uniparentales', ylab='Tasa de homicidios',  Alabama 8,3 37
cex.lab=1,family='NewCenturySchoolbook')  Alaska 5,4 30
>title(main=paste("Relación entre la tasa de familias uniparentales", "y la tasa de  Arizona 7,5 33
homicidios",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')  Arkansas 7,3 35
>abline(lm(a$V1~a$V2), lwd=3, col='red') California 6,8 31
∙ ∙ ∙
>a1<­lm(a$V1~ a$V2) ∙ ∙ ∙
>summary(a1)
∙ ∙ ∙
Virginia 5,2 29
Washington 3,0 29
West Virginia 4,1 31
Wisconsin 3,0 28
Wyoming 1,7 27
FUENTES: 
Proporción de niños (bajo 18 años) viviendo en familias lideradas por un solo padre (2004):
http://www.thenationalcampaign.org/
Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU:
http://www.infoplease.com/ipa/A0004912.html

15
       GRÁFICA Nº11
                          

SALIDA Nº6

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
      Min        1Q       Median      3Q        Max 
  ­3.7899   ­1.0143    ­0.2414    1.1005    4.5012 

Coefficients:
                          Estimate    Std. Error   t value     Pr(>|t|)    
(Intercept)          ­7.50664     1.49841    ­5.010     7.80e­06 ***
a$V2                   0.39705     0.04786     8.297     7.87e­11 ***    
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.669 on 48 degrees of freedom
Multiple R­squared: 0.5892, Adjusted R­squared: 0.5806 
F­statistic: 68.83 on 1 and 48 DF,  p­value: 7.873e­11 
         

Ahora calculemos los intervalos de confianza para los parámetros estimados según R:

SALIDA Nº7
>confint(a1, level= 0.95) 2,5% 97,5%
(Intercept) ­10,5193867 ­4,4938931
a$V2 0,3008243 0,4932663

Hagamos nuestros propios cálculos y verifiquémoslo:

Hemos visto que para un 95% de significación y con 48 grados de libertad, calculando con R obtenemos:

>qt(0.975,48)
[1] 2.010635 

Así:  b1± t1 −/2, n−2 ∙ S b1= 0,39705± 2,010635∙ 0,04786 ­> [0,301; 0,493]

2.­ De R obtenemos que  b0 = −7,50664 y S b0 = 1,49841


Así:  b0 ± t 1−/ 2, n−2 ∙S b0 = −7,50664±2,010635∙1,49841 ­> [­10,519; ­4,494]

Vemos que ambos resultados coinciden con los entregados por R.

1.5.2 Estimación del intervalo de confianza para los valores promedios de la variable respuesta.

Un intervalo de confianza para los valores promedios de la variable respuesta es una región, donde a un 
nivel de significación determinado, la variable independiente yace. 
Para el modelo lineal simple, la recta de regresión estimada permite obtener un estimador para la media 
de   la   variable   respuesta   para   cada   valor   de   la   variable   de   predicción   X i : Y i = b0  b1 X i ,   por   otro   lado 
 = b 0 b1 X implica que  b0 = Y − b1 X por lo que  Y i = Y − b1 X
Y  b1 X i Así: Y i = Y  b1  X i − X

 2 
Entonces la varianza del estimador de la variable respuesta es: Var  Y i = S  Y i = Var [ Y   b1  X i − X ]

Ya hemos visto que b1= ∑ Ci y i ∑ Yi  X −X  1


entonces Var [
n i ∑ Ci Y i ]= Var [ ∑  Ci  X i−X
n
  Y i ]
2
1 1
Observemos que: Var [ ∑  Ci  X i− X  Y i ]= ∑  n Ci  X i − X  Var Y i  y desarrollemos:
n

16
Análisis de regresión simple

1 2
1  X −X 
∑ [ n Ci X i −X  ] Var  Yi =  2 [∑
2
2 i ∑ Ci Xi −X 2 ∑ C2i ] Recordemos que ∑ Ci= 0 y
n n
 X i−X   2
 Xi − X ∑  X i −X 2 = 1
2
  Ci= entonces: ∑ Ci = ∑ [ ]=
∑  X i −X 2 ∑  X i −X 4 ∑  X i− X 4 ∑  X i− X 2

1  2
 Xi − X
Es así que la varianza del estimador de la variable respuesta resulta: S 2 Y i = 2 [  ] (24)
n ∑  Xi −X  2

1  2
 X i− X
por lo que un estimador de la desviación standard de  Y i está dado por:  S Y i =S [  ] (25)
n ∑  Xi − X 2

Tenemos entonces que Y i es un estimador no sesgado de la media de  Y i que tiene una distribución 


normal con:
 2
media  E Y i = b0b 1 X i = E b0 b1 X i = E Y  =  2 [ 1   X i − X  ]
  y varianza   S 2  Y
i i
n ∑  X i − X 2

[ Y i −E Y i ]
Por otro lado, la distribución de muestreo de  (26)
S Y 
i

es la t de student con n­ 2 grados de libertad. Por lo anterior, la probabilidad de que E Y i  se encuentre dentro 
del intervalo aleatorio: [ Y i − t 1−/ 2, n−2 ∙ S Y i  ; Y i t1−/ 2, n−2 ∙ S Y i ] es 1− o bien,   el  intervalo de  confianza 
del  100 1−% para  Y es: Y ± t i i ∙S Y 
1− / 2,n−2 i (27)

Calculemos estos intervalos para el ejemplo Nº4:
SALIDA Nº8

Con la siguiente instrucción obtenemos los valores numéricos de 
fit lwr upr
los   límites   superior   e   inferior   del   intervalo   de   confianza   para   el   valor  1 7,1840353 6,4308025 7,9372681
promedio de Y al 95% de significación: 2 4,4047183 3,9220763 4,8873604
3 5,5958542 5,0809145 6,1107938
>predict(a1,interval="confidence", level = 0.95) 
4 6,3899447 5,7741304 7,0057591
5 4,8017636 4,3272468 5,2762805
Corroboraremos lo anterior calculando los Y i ± t 1−/2, n−2 ∙ S Y i  y  ∙ ∙ ∙ ∙
graficando las curvas: ∙ ∙ ∙ ∙


 2 ∙ ∙ ∙ ∙
1  X i− X
Y i  Superior , Inferior= b0  b1 ∙ X i± t ∙S  para   el   rango   de  46 4,0076731 3,4985194 4,5168267
n ∑  X i− X  2 47 4,0076731 3,4985194 4,5168267
X(15  ;  50).   Como b = −7,50664 ; b = 0,39705 ;  t= 2.010635;  S=  1,669; 
0 1
48 4,8017636 4,3272468 5,2762805
49 3,6106278 3,0592219 4,1620337
 = 30,92 y ∑ X i − X
n=   50; X  2= 1215,68 ,   los   límites   superiores   e  50 3,2135825 2,6074666 3,8196984
inferiores del intervalo de confianza para  Y i son:
TABLA Nº7

Y i Inf Y i Sup

6,431
3,922
7,938
4,888
Y i  Superior , Inferior= −7,506640,39705∙ X i ± 2,010635∙ 1,669  0,02
  X i−30,92 2
1215,68

5,081 6,111
5,774 7,006
Introduciendo   los   datos   de   X i en   la   ecuación   anterior   obtenemos   los   valores   de  la 
3,499 4,517 tabla Nº7.
∙ ∙
∙ ∙ Grafiquemos estos intervalos haciendo los  X i continuos:
∙ ∙
3,499 4,517 >x <­ seq( 15 ,50,length = 100) 
3,499 4,517 >lines(x, ­7.50664+0.39705 * x + 2.010635 * 1.669*  ((0.02+ {(x­30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3) 
4,327 5,277 >lines(x, ­7.50664+0.39705 * x ­ 2.010635 * 1.669*  ((0.02+ {(x­30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3) 
3,059 4,162
2,607 3,820

17
                 GRÁFICA Nº12
1.5.3 Estimación   del   intervalo   de   predicción   de   los 
valores particulares de la variable respuesta.

Un intervalo de predicción para los valores de la variable 
respuesta   es   una   región,   donde   a   un   nivel   de   significación 
determinado,   la   variable   independiente   yace,   pero   esto, 
ampliado a cualquier valor de la variable independiente. 
Supongamos que un nuevo valor es observado después 
de   que   la   regresión   se   ha   ejecutado.   Como   la   nueva 
observación   es   independiente   de   las   observaciones   que   se 
utilizaron para ajustar el modelo, el intervalo deberá incluir el 
error   del   modelo   ajustado   y   el   error   asociado   con 
observaciones   futuras,   con   lo   que   la   varianza   de   este 
estimador   será   mayor.   Los   intervalos   de   predicción   para   las 
observaciones   individuales   de   la   respuesta   son   mas   grandes 
que los correspondientes intervalos de confianza para la media 
de las mismas.
El valor estimado de la variable dependiente es el mismo 
que   para   la   estimación   del   promedio   y   está   dado   por
Y i = b0 b 1 X i , pero la varianza incluye la variación de una 
observación independiente.

1  2
 Xi − X 1  X i− X 2
Var  YP =  22 [  2
]=  2 [1  ] (28)
n ∑  Xi − X n ∑  X i− X 2

 1  2
 Xi − X
Y así: S Yp = S [ 1  ] (29)
n ∑  Xi − X 2

[ Y p−E Y p ]
Entonces, bajo la teoría normal,  (30)
S Y 
p

SALIDA Nº9
tiene una distribución t de student con n­ 2 grados de libertad, por lo que 
fit lwr upr para un  dado, el intervalo de predicción para la observación  Y p
1 7,1840353 3,7456187 10,6224520 será: P[ Y − t   
p 1− / 2, n−2 ∙S  Yp  Y p  Y p t1− / 2, n−2 ∙ S Y p] = 1−
2 4,4047183 1,0152800 7,7941570
3 5,5958542 2,2016662 8,9900420
Un intervalo de predicción es análogo a un intervalo de confianza. Uno 
4 6,3899447 2,9789953 9,8008940 del 100 1−% para   una   observación   particular   Y p es:
5 4,8017636 1,4134728 8,1900540 Y ± t 
∙ S Y  (31)
p 1− / 2, n−2 p
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ Con   la   siguiente   instrucción   obtenemos   los   valores 
∙ ∙ ∙ ∙ numéricos de los límites superior e inferior del intervalo de  TABLA Nº8
46 4,0076731 0,6143581 7,4009880 confianza   para   el   valor   promedio   de   Y.   Calculémoslo 
Y i Inf Y i Sup
47 4,0076731 0,6143581 7,4009880 para nuestro ejemplo:
48 4,8017636 1,4134728 8,1900540
49 3,6106278 0,2107164 7,0105390 3,745 10,623
>predict.lm(a1,interval="prediction", level = 0.95)  1,015 7,795
50 3,2135825 ­0,1956293 6,6227940
2,201 8,991
2,978 9,802
Los límites superiores e inferiores del intervalo de predicción para  Y i son: 1,413 8,191
∙ ∙

Y i  Superior , Inferior= −7,506640,39705∙ X i± 2,010635 ∙1,669  10,02


  X i −30,92 2
1215,68
 ∙

0,614


7,402
0,614 7,402
Introduciendo   los   datos   de X i en   la   ecuación   anterior   obtenemos   los   valores   de   la 
1,413 8,191
tabla Nº8: 0,210 7,012
­0,196 6,624

18
Análisis de regresión simple

Grafiquemos estos intervalos haciendo los X i continuos (Gráfico Nº13):

>x <­ seq( 15 ,50,length = 100) 
>lines(x, ­7.50664+0.39705 * x + 2.010635 * 1.669*  ((1+0.02+ {(x­30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3) 
>lines(x, ­7.50664+0.39705 * x ­ 2.010635 * 1.669*  ((1+0.02+ {(x­30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3) 

Graficando los intervalos de confianza y de predicción tenemos  (Gráfico Nº14):

  GRÁFICA Nº13                                                                                      GRÁFICA Nº14

1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIÓN

1.6.1 El coeficiente de determinación:  R 2
Consideremos la ecuación fundamental del análisis de regresión:
       Variación                  Variación      Variación 
         total en Y             explicada de Y    residual de Y

∑  Yi− Y2 = 2
∑  Y i−Y  ∑ Y i−Y i 2 (32)
        Suma total              Suma de los                      Suma de los
  de los cuadrados            cuadrados de                     cuadrados
              la regresión                       del error
          STC                SCR      SCE /: STC

SCR SCE 2 SCE SCE


1=  o bien 1= R  con lo que obtenemos R2 = 1 − (33)
STC STC STC STC

SCR es la porción de la variación atribuíble a un efecto lineal de X sobre Y y R 2 es la proporción de la 
variación en Y explicada por la regresión de Y sobre X.
∑ y i2 = SCR = 1 − ∑ ei2 = 1 − SCE donde:
2
Por otro lado:  R =
∑ y i2 STC ∑ y2i STC
y 2i =  2
 Y i −Y ∑ ∑
2
0 ≤ R ≤ 1
       La ecuación de                Todos los puntos 
      regresión estimada                coinciden en la
     no explica ninguna               línea de regresión
           variación en Y

R2 no mide la validez del modelo de regresión propuesto, sino cuanto se explica de la variación total 
mediante la ecuación de regresión estimada.
2
R ∙100  nos da el porcentaje en que la ecuación de regresión explica la variación total.
Calculemos R para el siguiente ejemplo. Para esto determinemos primero la suma total de los cuadrados 
(STC), la suma de los cuadrados de la regresión (SCR) y la suma de los cuadrados del error (SCE).

19
Ejemplo Nº5: Nivel de pobreza y años de escolaridad para las comunas   BASE DE DATOS Nº5
del Gran Santiago (2006)
COMUNA Yi Xi
Diversos   estudios   han   establecido   la   clara   correlación   entre   el   nivel 
educativo de las personas con sus ingresos. Santiago 7,3 13,1
En América Latina, los datos históricos son contundentes sobre la incidencia  Cerrillos 8,3 10,4
de   la   educación   en   la   distribución   del   ingreso.   En   Brasil,   el   10   por   ciento   de   la  Cerro Navia 17,5 9,1
Conchalí 8,0 10,1
población   con   más   ingresos   gana   casi   60   veces   más   que   el   10   por   ciento   con 
El Bosque 15,8 9,7
menos ingresos; en Uruguay, el país con menor desigualdad, esa relación es de 18 
∙ ∙ ∙
veces y en México es de 40 veces. Todos los países con menor desigualdad relativa  ∙ ∙ ∙
–entre ellos Argentina, a pesar de la concentración del ingreso­. son aquellos que  ∙ ∙ ∙
hicieron de la expansión educativa una prioridad política por lo menos durante los  San Bernardo 20,9 9,7
últimos 50 años.  San Joaquín 7,4 10,7
La base de datos Nº5 nos entrega información del % de pobres   Yi   y los  San Miguel 2,5 12,3
San Ramón 16,7 9,6
años de escolaridad  X i  , para las comunas del gran Santiago al año 2006.
Vitacura 4,4 14,6
Para  orientarnos,  grafiquemos  los  puntos,  la recta de regresión  a ellos  FUENTES: 
asociada y corramos una regresión lineal de la tasa de % de pobres sobre los  % de pobres 2006 y a ños de escolaridad 2006: 
años de escolaridad.  http://www.bcn.cl/siit/comunas_cifras

SALIDA Nº10
>a <­read.table('a.txt') 
Call: >par(bg = "Ivory 2") 
lm(formula = a$V1 ~ a$V2) >plot(a$V2, a$V1, col=3, xlab='Años de escolaridad', ylab='% de población 
pobre', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Relación entre los años de escolaridad", "y el % de 
Residuals: población pobre", 
      Min        1Q        Median         3Q        Max  sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
   ­6.8335   ­3.2591     0.2868        2.2141   7.5117  >abline(lm(a$V1~a$V2), lwd=3, col='red')

Coefficients: >a1<­lm(a$V1~ a$V2)
                          Estimate   Std. Error    t value    Pr(>|t|)     >summary(a1)
(Intercept)           38.1007     4.5262       8.418    1.28e­09 ***
a$V2                   ­2.5477      0.4103      ­6.210     5.92e­07 *** Calculemos   la   suma   total   de   los   cuadrados     (STC),   la 
­­­ suma de los cuadrados de la regresión (SCR) y la suma de 
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  los cuadrados del error (SCE) (Tabla Nº9).                
Ahora calculemos  R2 :
Residual standard error: 3.493 on 32 degrees of freedom
Multiple R­squared: 0.5465, Adjusted R­squared: 0.5323 
SCE 390,376
F­statistic: 38.56 on 1 and 32 DF,  p­value: 5.921e­07  R2 = 1 − = 1 − = 0,546 o bien 
STC 860,802
2 SCR 470,436
R= = = 0,546 que coincide con el 0,5465 que obtuvimos en nuestra salida en R. 
STC 860,802

                   GRÁFICA Nº15

TABLA Nº9

COMUNA Yi Xi Y i  Y i− Y2  Y i− Y2  Y i− Y i 2

Santiago 7,3 13,1 4,726 8,651 30,419 6,626


Cerrillos 8,3 10,4 11,605 3,768 1,859 10,921
Cerro Navia 17,5 9,1 14,917 52,690 21,860 6,674
Conchalí 8,0 10,1 12,369 5,023 4,527 19,088
El Bosque 15,8 9,7 13,388 30,900 9,903 5,818
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
San Bernardo 20,9 9,7 13,388 113,610 9,903 56,430
San Joaquín 7,4 10,7 10,840 8,072 0,359 11,836
San Miguel 2,5 12,3 6,764 59,926 12,091 18,182
San Ramón 16,7 9,6 13,643 41,716 11,571 9,347
Vitacura 4,4 14,6 0,904 34,119 87,178 12,220

Y = 10,241 ∑ 860,802 470,436 390,376

    

20
Análisis de regresión simple

1.6.2 El coeficiente de correlación r.

El coeficiente de correlación mide el grado de asociación entre variables. Supone que tanto X como Y 
son variables aleatorias.
Sea la distribución conjunta de X e Y la normal bivariada y sea  X1 , Y 1; X 2 , Y 2 ; ...;X n , Yn  una muestra 
aleatoria de tamaño n de esta distribución. En el caso de dos variables r es:

r X , Y=
∑ X i −X Y i− Y  −1 ≤ r ≤ 1 (34)
∑ X i−X 2  ∑ Y i−Y 2
Para nuestro ejemplo:
TABLA Nº10

r X , Y=
∑ X i −X Y i− Y  = −184,649
= −0,739 COMUNA Yi Xi  Xi− X 2  Y i− Y2  X i− X  Y i− Y 
∑  Xi−X  ∑ Y i−Y   72,478  860,802
2 2

Santiago 7,3 13,1 4,686 8,651 ­6,367


Cerrillos 8,3 10,4 0,287 3,768 1,039
La   instrucción   para   obtener   el   coeficiente   de  Cerro Navia 17,5 9,1 3,368 52,690 ­13,322
correlación en R nos entrega el siguiente resultado (Salida nº11): Conchalí 8,0 10,1 0,698 5,023 1,872
SALIDA Nº11   El Bosque 15,8 9,7 1,526 30,900 ­6,867
∙ SALIDA Nº11
∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙
V1 V2 >cor(a)
∙ ∙ V1 ∙ ∙ V2 ∙ ∙
V1 1.0000000 ­0.7392548
San BernardoV1 20,9 1 9,7 1,526 113,610
­0,73925480 ­13,167
V2 ­0.7392548 1.0000000
San Joaquín 7,4 10,7 0,055
V2 ­0,73925480 1 8,072 0,669
San Miguel 2,5 12,3 1,862 59,926 ­10,564
Como r mide el grado de asociación lineal entre X e Y y  San Ramón 16,7 9,6 1,783 41,716 ­8,624
ya  que   b1 es  el   correspondiente  estimador  por  MCO  de  la  Vitacura 4,4 14,6 13,430 34,119 ­21,406
 10,935
X=
pendiente para el modelo de regresión propuesto entre X e Y,  Y = 10,241 ∑ 72,478 860,802 ­184,649
entonces debe existir una relación entre r y   b1 . Esa relación 
es la siguiente:

b1=
 ∑  Yi − Y2
∑  Xi −X 2
∙r ya que 
 ∑  Y i− Y2 ∑  X i− X Y i −Y = ∑  X i− X Y i −Y =
∑  X i− X2  ∑  X i− X 2  ∑  Yi −Y 2 ∑  Xi −X 2
b1 (35)

El cuadrado del coeficiente de correlación es el coeficiente de determinación r= R 2
donde:

r=­1:  perfecta correlación lineal negativa.
r= 1:  perfecta correlación lineal positiva.

Para nuestro ejemplo:  R2 = 0,5465 R = −0,739


2

Si bien r no indica causalidad o dependencia, no es sólo un medida del grado de asociación lineal entre 
dos variables, sino que puede emplearse una función de r como una medida de la bondad del ajuste para una 
ecuación estimada de regresión.
r 0 Implica que X e Y se mueven en direcciones contrarias, mientras que r0 Implica que X e Y se 
mueven en la misma dirección.
r por sí mismo no puede ni probar ni desmentir una relación causal entre X e Y, aún si r=±1 , lo cual es 
sólo posible a través de la comprensión de la relación natural que existente entre X e Y.

1.6.3 Uso del análisis de varianza.

Esta técnica es utilizada para probar la hipótesis nula de que la pendiente es cero, sin embargo, además 
permite   una   comprensión   natural   del   problema,   con   lo   que   facilita   el   análisis   de   modelos   mucho   más 
complicados que la regresión simple.
El objetivo es que la recta estimada de regresión explique la mayor cantidad posible de la variación total, 
por lo que la contribución del término b0 b 1 X i debe ser substancial. 
Consideremos   la   desviación   de Y i respecto   a Y  .   Si   la   magnitud   de   Y i − Y   0 ,   esta   magnitud 
debería atribuirse a las componentes del modelo.

21
Deduzcamos la ecuación fundamental del análisis de varianza:

Y i−Y
 = Yi − Y  Yi − Y i / 2          Yi − Y
  Y i − Y i = Y i − Y  2 =  Y i − Y 22  Y i − Y
  Y i− Y i  Y i − Y i 2 / ∑ 
∑ Y i −Y 2= ∑  Y i −Y 22 ∑ Y i − Y   Yi −Y i ∑  Yi −Y i 2 Pero ya que ∑ Y i −Y Y i −Y i = 0 puesto que
∑  Y −Y  Y −Y = ∑ Y  Y −Y −Y ∑  Y −Y = ∑ Y  Y − Y  (ya hemos visto que la segunda expresión es 0) y
i i i i i i i i i i i

∑ Y i  Y i −Y i = ∑  b0b1 X i  Y i−Y i = b0 ∑ e i  b1 ∑ X i e i = 0

∑  Yi −Y 2= ∑  Y i− Y 2  ∑  Y i− Y i 2
          STC   SCR            SCE
 Suma total de     Suma de los         Suma de los
 los cuadrados    cuadrados de     cuadrados del
                                la regresión              error

Notemos que también podemos calcular STC como: STC= ∑  Yi − Y  2= ∑ Y 2−n Y 2 ya que:


i

∑ Y i −Y  = ∑  Yi −2 Y i Y  Y = ∑ Y i −2 Y ∑ Y in Y = ∑ Yi −2n Y n Y 2= ∑ Y 2i −n Y2


2 2 2 2 2 2 2

SCR   representa   la   variación   de   la   observación   que   es   atribuible   al   efecto   lineal   de   X   sobre   Y.   Si   la 
pendiente de la recta estimada de regresión es cero, entonces SCR=0

SCE  es  la variación   de  las  observaciones  con  respecto  a la recta de regresión  estimada.   Si  todas  las 
observaciones se encuentran sobre esta recta, SCE=0 
          GRÁFICA Nº16
Grados de libertad.

Para STC es n­1, para SCE es n­2 y y como los grados de 
libertad son aditivos:
gl (SCR) = gl(STC) ­gl(SCE) lo que implica que el grado 
de libertad de SCR es 1.

1.6.4 La estadística F

La  estadística   F   es   utilizada   en   el   análisis   de   regresión 


para   probar   la   hipótesis   nula   : H0 : b1= 0 ,   esto   es,   que   no 
existe   una   relación   lineal   entre   X   e   Y,     contra   la   alternativa
H1 : b 1≠ 0 .
Si   suponemos   la   existencia   de   normalidad,   entonces 
bajo H0 las   observaciones Y i son   n   variables   aleatorias 
independientes normalmente distribuidas con la misma media y 
varianza   2 .

Por lo anterior, puede demostrarse que:

SCR SCE
y son   dos   variables   aleatorias   independientes   con   una   distribución  2 con   1   y   n­2 
2 2
grados de libertad respectivamente. De esta manera, la variable aleatoria:

SCR/ 2
1 SCR / 1 CMR
= = = F (36)
SCE/ 2 SCE/n−2 CME
n−2

tiene una distribución F con 1 y n­2 grados de libertad.

(CMR: Cuadrado medio de la regresión; CME: Cuadrado medio del error.) Notemos que el cuadrado 
medio del error es igual a la varianza residual.

22
Análisis de regresión simple

Un   valor   grande   de   CME   comparado   con   CMR  SALIDA Nº12


implicará un ajuste pobre y sugerirá la ausencia de una 
asociación lineal entre X e Y. Un valor pequeño de CME  Call:
implicará  que  una porción   considerable  de  la  variación  lm(formula = a$V1 ~ a$V2)
en las observaciones es atribuíble a un efecto lineal de X 
sobre Y. Residuals:
       Min        1Q        Median       3Q       Max 
H0 ha   de   rechazarse   cuando   el   valor   de   F 
    ­6.8335   ­3.2591     0.2868      2.2141   7.5117 
dado   por   el   cuociente   entre   el   cuadrado   medio   de   la 
regresión   y   el   cuadrado   medio   del   error   se   encuentra  Coefficients:
dentro de la región crítica superior a la distribución F dada                      Estimate   Std. Error   t value    Pr(>|t|)    
con   1   y   n­2   grados   de   libertad   al   nivel   de   significación  (Intercept)     38.1007     4.5262      8.418    1.28e­09 ***
deseado. a$V2             ­2.5477      0.4103     ­6.210    5.92e­07 ***
­­­
En nuestro ejemplo: Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
CMR SCR / 1 470,4361/1
F= = = = 38,563 Residual standard error: 3.493 on 32 degrees of freedom
CME SCE/n−2 390,3759/ 32 Multiple R­squared: 0.5465, Adjusted R­squared: 0.5323 
F­statistic: 38.56 on 1 and 32 DF,  p­value: 5.921e­07 
Calculemos F con R:
>qf(0.95,1,32)
[1] 4.149097  4,149  38,563 con lo que rechazamos la hipótesis nula.

Tabla ANOVA para el modelo lineal simple:

TABLA Nº11
Fuente de  Grado de Suma de los  Cuadrados 
F
variación libertad Cuadrados Medios

∑  Y i− Y2 ∑  Y i− Y2
Regresión 1 ∑  Y i− Y2
  ∑  Y i− Y i2 /n−2

Error n−2 ∑  Y i− Y i 2 ∑  Y i− Y i2


n−2

Total n−1 ∑  Y i− Y2

Tabla ANOVA para nuestro ejemplo:

TABLA Nº12
Fuente de  Grado de Suma de los  Cuadrados 
F
variación libertad Cuadrados Medios

Regresión 1 470,436 470,436 38,563


 

Error 32 390,376 12,199

Total 33 860,802

SALIDA Nº13

Analysis of Variance Table

Aplicación en R: Response: a$V1
                      Df     Sum Sq    Mean Sq     F value    Pr(>F)    
>anova(a1)
a$V2               1      470.43      470.43       38.562   5.921e­07 ***
Residuals         32     390.38      12.20                      
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

23
Existe una relación entre F con 1 y n­1 grados de libertad y la correspondiente estadística t de student 
para una hipótesis alternativa bilateral.
Considerando que la recta estimada es: Y i = Y   b1 X i − X    = b1  X i − X  / ∑  2
Y i − Y 
2  2 2 2 2
∑ Y i −Y  = b1 ∑ X i −X   SCR= bi ∑  Xi − X

2 S2 CME SCE/ n−2
y que por otro lado: S  b1 = = = (pues el cuadrado medio del error es 
∑ X i− X 2 ∑ Xi −X 2 ∑  X i −X 2
igual a la varianza residual) tenemos que nuestra estadística F es:
CMR SCR/1 b2 ∑  X i− X
 2 / 1 b1 2
F= = = 21 =   Verifiquemos esto en nuestro ejemplo: (37)
CME SCE/n−2  S  b1 ∑  Xi − X  2 S b1 
b 1 2 −2,5477 2
Tenemos que:  S b1= 0,4103 y  b1= −2,5477  por lo tanto  =   = 38,556
Sb 1 0,4103
De   acuerdo   con   lo   anterior,   si   una   variable   aleatoria   tiene   una   distribución   F   con   1   y   n­2   grados   de 
libertad, entonces: F= t2 Donde t es una variable aleatoria t de student con n­2 grados de libertad. La relación 
En nuestro ejemplo t para  b es  ­6.210, Así  t 2= 38,564
2
es: F = t
1− , 1,n−2 1− / 2, n−2 1 (38)

1.7 PROPIEDADES   DE   LOS   PARÁMETROS   ESTIMADOS   BAJO   EL   MÉTODO   DE   MÍNIMOS   CUADRADOS 


ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia.

Consideremos   todos   los   estimadores   no   sesgados   de b0 y b1 ( b0 y b1 )   los   cuales   son 
combinaciones   lineales   de   las   observaciones Y 1, Y 2 , ..., Y n .   Si   entre   todos   estos   estimadores   existen   algunos 
cuyas varianzas son las más pequeñas de entre todos los demás estimadores no sesgados de b0 y b1 , éstos 
son denominados los mejores estimadores lineales insesgados (MELI) de b0 y b1 . Ahora, bajo los 10 supuestos 
requeridos y expuestos al inicio de este capítulo, los estimadores por MCO son los MELI. Lo anterior es conocido 
como el teorema de Gauss­Markov y representa la justificación más importante para usar MCO.
         
1.7.1 Sesgo.

        GRÁFICA Nº17

Un   estimador   es   insesgado   si   el   promedio   de   su   distribución 


muestral es igual al parámetro verdadero.

Esto es:  
E b=b (39)
El sesgo es definido como la diferencia entre el valor esperado 
del estimador y el parámetro verdadero, así:


sesgo=E b−b (40)

                                                GRÁFICA Nº18
1.7.2 Eficiencia.

El estimador eficiente o mejor insesgado se refiere al que tiene 
la menor varianza de entre los estimadores insesgados. Otra manera de 
decir   esto   es   que   un   estimador   eficiente   tiene   el   menor  intervalo   de 
confianza y está más cercano a ser estadísticamente significativo que 
cualquier otro estimador.
La   gráfica   Nº18   muestra   la   distribución   de   dos   estimadores 
insesgados, uno de los cuales es eficiente:
El estimador por MCO es frecuentemente usado porque es el 
mejor estimador lineal  insesgado, esto  es,  entre  todos  los  estimadores 
lineales insesgados, es el que tiene la menor varianza. Sin embargo, los 
estimadores no lineales pueden ser superiores a los MCO.        

24
Análisis de regresión simple

1.7.3 Consistencia.

  GRÁFICA Nº19
Un estimador es considerado consistente cuando ocurre que:

1   a   medida   que   el   tamaño   de   la   muestra   se   incrementa,   el 


estimador   se   aproxima   más   y   más   al   parámetro   real   (esto   se 
denomina insesgación asintótica).

2 Cuando el tamaño de la muestra se aproxima al infinito en el 
límite,   la   distribución   muestral   del   estimador   debe   colapsar   o 
hacerse una línea vertical de altura 1 sobre el valor del parámetro 
verdadero.

1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE

Para los n pares   X 1 ; Y 1 , X 2 ; Y 2 , ..., X n ; Y n  , el modelo lineal:

Y 1 = b0 b 1 X 1 1
Y 2 = b0b 1 X 2 2
Y i =b0b 1 X i i i=1,2 ,... ,n son n ecuaciones lineales de la forma:

Y n = b0b 1 X n n
Si definimos:

[] [ ] [ ]
Y1 1 X1 b 0 b1 X 1
Y
Y= 2

Yn
;   X=
1 X2
⋮ ⋮
1 Xn
;   b=
[]
b0
b1
;  entonces: Y = X b=
b 0 b1 X 2
⋮ ⋮
b 0 b1 Xn

Si asumimos la presencia de la normalidad,  es un vector de variables aleatorias normales tales que: 
2
E =0 ; Var = I Donde:

I : vector de identidad
 2 : varianza del error constante.

Las ecuaciones normales son:

∑ Yi =n b0b1 ∑ X i
∑ Xi Yi =b0 ∑ X i b 1 ∑ X i 2 lo que expresado en términos matriciales resultaría:

[ ] [ ] [∑
∑ Yi
∑ Xi Yi

b 0
b1
n
Xi
∑ Xi
∑ X 2i ] notemos que: (41)

[ ]
1 X1

[∑n
Xi
∑ Xi
∑ X 2i ] [
 = 
1 1 ... 1
X 1 X 2... Xn
X1  X 2 ...  X n
X21  X 22 ...  X 2n ] [
 = 
1
X1
1 ⋯ 1
X2 ⋯ Xn ] 1 X2
⋮ ⋮
1 Xn
=  X ' X

[]
Y1

Además notemos de que: 
[ ] [
∑ Yi
∑ Xi Yi

Y 1Y 2...Y n
X1 Y 1X 2 Y 2... Xn Y n ] [

1
X1
1 ⋯ 1
X2 ⋯ Xn ] Y2

Yn
 =  X ' Y

25

Tenemos entonces que las ecuaciones normales en forma matricial son:  X ' X b= X' Y

' ' ' 


Si suponemos que la matriz  X X tiene inversa, entonces:  X X  X X b=  X ' X−1 X ' Y
−1


I b=  X ' X−1 X ' Y y el vector de parámetros estimados queda entonces como:


b=  X ' X−1 X' Y (42)

Y la ecuación de regresión queda: Y = X b (43)

26
Análisis de regresión múltiple

EL ANÁLISIS DE REGRESIÓN MÚLTIPLE (ARM)


2.1 INTRODUCCIÓN

El análisis de regresión múltiple (ARM) se utiliza para comprender la influencia de dos o más variables 
independientes X ki sobre una variable dependiente Y i  . Es el caso general del ARS. 
El modelo de regresión lineal con dos regresores puede escribirse como sigue:
Y i = b0 b 1 X 1i b2 X 2ii i= 1,2,... , n (44)
En términos generales: sean [ X 1i , X 2i , ... , X ki ] k variables de predicción y Y i la i­ésima observación 
respuesta   asociada   a   ellas, i el   error   aleatorio   no   observable   asociado   con Y i y [ b 0 , b1 , ..., bk ] k 
parámetros   lineales   desconocidos.   Entonces   el   modelo   de   regresión   lineal   múltiple   (de   primer   orden)   para   k 
variables de predicción independientes es:
  Y i = b0 b 1 X 1i b2 X 2i...bk X kii i= 1,2,... , n (45)
Y 1= b 0b1 X 11b2 X 21...bk X k11
Y 2= b 0b1 X 12b2 X 22...bk X k2 2
.
Lo anterior es una forma abreviada de la expresión:
.
.
Y n = b0 b 1 X 1n b2 X 2n...bk X knn
Si suponemos presencia de normalidad, las Y i son variables aleatorias independientes con medias y 
varianzas: E Y i = b0b 1 X 1i ...b k X ki Var  Y i =  2 i= 1,2,... , n (46)
2
y los errores aleatorios i se distribuyen según una curva normal  N 0,   siendo independientes 
los unos de otros.
Los   parámetros bk representan   el   cambio   en   la   respuesta   promedio   para   un   cambio   igual   a   una 
unidad de la correspondiente variable de predicción X ki , cuando todos los demás regresores se mantienen 
constantes. bk representa el efecto parcial de X ki sobre la respuesta.
Si  por  ejemplo   estamos  en  presencia  de  un  modelo: Y i = b0 b 1 X 1i b2 X 2ib 3 X 1i X 2i i , b3 refleja  la 
influencia sobre la variable respuesta ejercida por la interacción entre  X 1i y X 2i .
El   modelo   lineal   general   necesita   sólo   una   restricción   funcional:   que   sea   lineal   en   los   parámetros 
desconocidos. 
Así   surgen   muchas   alternativas   de   modelos.   Por   ejemplo,   si   se   define: X 3i = X1i X 2i i= 1,2,... , n la 
ecuación Y i = b0 b X
1 1i b X
2 2ib X X
3 1i 2i  i puede   reescribirse   como   un   modelo   de   primer   orden: 
Y i = b0 b 1 X 1i b2 X 2ib3 X 3i i .
j
Otro caso se da cuando  X ji= Xi i= 1,2,... , n  j= 1,2,... , k . Así el modelo lineal general toma la 
forma:
Y i = b0 b 1 X i b2 X 2i ...bk Xki i que es llamado modelo polinomial. (47)
En el modelo polinomial lo que se busca es el grado k que mejor se ajusta la curva de regresión.
Muchas veces el modelo más preciso es el que incluye estas dos características, la forma polinomial y la 
interacción entre las múltiples variables de predicción. Por ejemplo, para 2 variables de predicción tenemos:
Y i = b0 b 1 X 1i b2 X 2ib 3 X 21i b4 X 22i b 5 X1i X 2ii (48)
que se denomina ecuación completa de segundo orden.
Para   k≥2 variables de predicción distintas, una ecuación de regresión completa de segundo orden 
k k−1
consiste en un término constante, k términos lineales, k términos cuadráticos y  términos de interacción.
2
Para el ARM existe un supuesto adicional que para el análisis de regresión simple: no debe existir una 
relación   lineal   exacta   entre   las X i ,   pues   de   lo   contrario   las   ecuaciones   que   constituyen   el   sistema   de 
ecuaciones normales construido por MCO no son independientes.
Si dos o más X i  están alta pero no perfectamente correlacionados, los b i pueden ser calculados por 
MCO pero los efectos de cada X k  respecto a Y no pueden ser aislados.

27
 2.1.1 Obtención de los estimadores por MCO de los parámetros con dos variables independientes o 
explicativas.

El método de MCO para obtener los parámetros estimados en el ARM opera, al igual que en el ARS, 
minimizando la suma del cuadrado de los residuos:

∑ e 2i = ∑  Y i− Y i 2= ∑  Y i−b0 −b1 X1i −b2 X 2i 2 (49)

∂ ∑ e 2i ∂ ∑  Y i −b0− b1 X 1i− b2 X 2i 2


1 = = 0 −2 ∑ Yi − b0 − b1 X 1i − b2 X 2i = 0
∂ b 0
∂ b 0

∑ Y i= n b0 b1 ∑ X 1i b2 ∑ X 2i Primera ecuación normal (50)

2 2
∂ ∑ ei ∂ ∑  Y i −b0− b1 X 1i− b2 X 2i 
2 = = 0 −2 ∑ X1i Yi −b0 −b 1 X 1i − b2 X 2i = 0
∂ b 1
∂ b 1

∑ Y i X 1i = b0 ∑ X 1i b1 ∑ X 1i 2  b2 ∑ X2i X1i Segunda ecuación normal (51)

∂ ∑ e 2i ∂ ∑  Y i −b0− b1 X 1i− b2 X 2i 2


3 = = 0 −2 ∑ X 2i  Yi − b0 − b1 X 1i − b2 X 2i = 0
∂ b 2
∂ b 2
2
∑ Y i X 2i = b0 ∑ X 2i b2 ∑  X2i   b1 ∑ X 1i X 2i Tercera ecuación normal (52)

Para   el   caso   del   análisis   de   regresión   múltiple   con   dos   variables   independientes, b0 es   el   término 
constante de la intersección de la regresión y está dado por el valor estimado para Y i cuando X 1i = X 2i = 0 .
b1 mide el cambio en Y i para cada cambio de 1 unidad en X 1i , mientras X 2i se mantiene constante. El 
parámetro   b1 es   un   coeficiente   de   regresión   parcial   porque   corresponde   a   la   derivada   parcial   de   Y   con 
∂Y
respecto a   X 1i   . El caso de  b2 es análogo a  b1 .
∂ X 1i

Al expresar las ecuaciones normales en forma de desviación podemos obtener los parámetros estimados 
un poco más fácilmente:
Tenemos que Y i = b0 b 1 X 1i  b2 X 2i y Y  = b0 b1 X
 1 b2 X 2 , definamos  y i y y i :
 
y i = Yi −Y = b 1 X 1i − X   2  o lo que es lo mismo y i = b1 x1i  b2 x2i y y i = Yi −Y
 1  b2  X 2i − X (53)
Por otro lado e i = y i − y i = y i − b1 x1i −b 2 x 2i . Entonces la suma del cuadrado de los residuos es:
∑ e 2i = ∑  yi−b1 x1i −b2 x2i 2 (54)

Los   parámetros   estimados   se   obtienen   derivando   la   expresión   anterior   respecto   a b1 y b2 e 
igualando a 0:

1.­
∑ e 2 ∑  yi−b1 x1i −b2 x2i 2 = 0
∂ i= ∂ −2 ∑ x1i y i−b1 x1i − b2 x2i = 0
∂b 1
∂ b 1

b1=
∑ x1i y i −b2 ∑ x1i x2i
∑ x 1i y i= b 1 ∑ x21i  b2 ∑ x1i x2i  Primera ecuación normal (55)
∑ x 21i
2.­ ∂
∑ e 2i = ∂ ∑  yi−b1 x1i −b2 x2i 2 = 0 −2 ∑ x2i y i −b 1 x 1i− b2 x2i = 0
∂ b2 ∂ b2

b2=
∑ x 2i yi−b1 ∑ x1i x2i
∑ x 2i y i= b2 ∑ x 22i b1 ∑ x1i x 2i  Segunda ecuación normal (56)
∑ x22i
∑ x1i y i −b2 ∑ x1i x2i
Sustituyamos  b1= en  ∑ x 2i y i= b2 ∑ x 22i b1 ∑ x1i x 2i y obviemos los sub­i:
∑ x 21i

28
Análisis de regresión múltiple

b2 ∑ x22
∑ x1 y −b 2 ∑ x 1 x 2  x x
∑ x2y = ∑ 1 2 ∑ x 2 y ∑ x21= b2 ∑ x 22 ∑ x 21 ∑ x 1 y− b2 ∑ x1 x2 ∑ x1 x2
∑ x21
2
b2=
∑ x 2 y ∑ x21−∑ x 1 y ∑ x1 x2
∑ x 2 y ∑ x = ∑ x1 y ∑ x1 x2 −b2 [∑ x1 x2  ∑ x21 ∑ x22 ]
2
1
Y así: 2 (57)
∑ x21 ∑ x 22− ∑ x1 x2 
∑ x 2i y i−b1 ∑ x1i x2i
Sustituyamos   b2=
2
2 en  ∑ x 1i y i= b 1 ∑ x1i  b2 ∑ x1i x2i y obviemos los sub­i:
∑ 2i x
2 ∑ x 2 y− b1 ∑ x 1 x2 2
∑ x 1 y= b 1 ∑ x1  2
 ∑ x1 x2 ∑ x 1 y ∑ x22= b 1 ∑ x12 ∑ x22 ∑ x2 y ∑ x 1 x 2−b1 ∑ x1 x 2
∑ 2 x

2  2 2 2 b ∑ x1 y ∑ x 22−∑ x 2 y ∑ x1 x2
∑ x 1 y ∑ x2= ∑ x2 y ∑ x 1 x2 −b 1 [ ∑ x1 x2  −∑ x1 ∑ x2 ] Y así: 1 = 2 (58)
∑ x 21 ∑ x 22− ∑ x1 x2 

Por otro lado con la ecuación:  = b0 b1 X 1 b2 X 2


Y obtenemos  b0 (59)

Hacer estos cálculos suele ser un proceso engorroso. El álgebra de matrices simplifica enormemente la 
situación. Así, lo anterior usando matrices en R se puede resumir con las siguientes instrucciones:

>a <­ read.table('a.txt') 
>am<­as.matrix(a) 
>x<­ cbind(1, am[,2],am[,3],am[,4])
>y<­cbind(am[,1])
>xt <­ t(x)
>b<­solve(xt%*%x)%*%xt%*%y
>b

Más adelante aplicaremos estas instrucciones en el ejemplo Nº6.

2.1.2 Desarrollo de técnicas de regresión para el ARM utilizando el álgebra de matrices.

Dada una muestra aleatoria de observaciones [ Y1 , Y 2 , ..., Yn ] en los puntos de observación:


[ X 11 , X 21 , ..., X k1 , X 12 , X22 ,... , X k2 , ..., X 1n , X 2n ,... , X kn ] respectivamente,   se   establecen   las   n   ecuaciones 
siguientes:
Y 1= b 0b1 X 11b2 X 21...bk X k1 1
Y 2= b 0b1 X 12b2 X 22...bk X k2 2
.
Lo que en forma matricial se expresa: Y= Xb+µ, donde: (59)
.
.
Y n = b0 b 1 X 1n b 2 X 2n ...bk Xkn  n

[] [ ] [] []
Y1 1 X11 X 21 ⋯ X k1 b0 1

Y = Y2 X= 1 X12 X 22 ⋯ X k2 b= b1 = 2
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
Yn 1 X 1n X 2n ⋯ X kn bk n

Si suponemos presencia de normalidad:
Y  N Xb, 2 I y  N 0, 2 I donde: Var Y= Var= 2 I (60)

Resulta   entonces   que  Y  y  son   vectores1  de   variables   aleatorias   independientes   normalmente 


distribuidas.
La estimación matricial de los parámetros por MCO, da para las ecuaciones normales la misma forma 
que para el análisis de regresión simple:

 X ' X b= X ' Y Si   X ' X tiene inversa, entonces:  b=
  X ' X−1 X ' Y (61)

1 Matrices de sólo una columna.

29
Es así que la ecuación estimada de regresión es: Y = X b (62)

Las propiedades de los estimadores por MCO [ b0, b1 , ..., bk ] son extensiones de las propiedades de 


los estimadores del modelo lineal simple.

2.1.3 Ejemplo y trabajo con matrices en R.

Ejemplo Nº6: Regresión   lineal   de   los   años   de   escolaridad   sobre   el   %   de   pobreza,   el   resultado   del  
SIMCE en matemáticas para los segundos medios y el % de desocupación para las comunas de Santiago el año  
2006.
Los años de escolaridad son un indicador importante del nivel  BASE DE DATOS Nº6
de progreso cultural y económico de una sociedad. Suponemos que  COMUNA
Yi X 1i X 2i X 3i
existen diversos factores que influyen en que una persona continúe sus 
estudios o los detenga, entre otros, el nivel de pobreza, los resultados  Santiago 13,1 7,3 283 6,2
académicos   a   nivel   de   enseñanza   media   y   el   porcentaje   de  Cerrillos 10,4 8,3 259 9,3
desocupación en una población.  Cerro Navia 9,1 17,5 215 9,4
La base de datos Nº6 nos entrega información de los años de  Conchalí 10,1 8,0 236 4,9
escolaridad  Yi  , el % de población pobre  X1i  , los resultados de  El Bosque 9,7 15,8 231 10,3
∙ ∙ ∙ ∙ ∙
la prueba SIMCE en matemáticas para los 2º medios  X 2i y el % de  ∙ ∙ ∙ ∙ ∙
desocupación X 3i para las comunas del gran Santiago el año 2006. ∙ ∙ ∙ ∙ ∙
San Bernardo 9,7 20,9 246 8,6
San Joaquín 10,7 7,4 233 7,4
San Miguel 12,3 2,5 237 4,6
Aplicaremos   una   regresión   lineal   de   los   años   de   escolaridad 
San Ramón 9,6 16,7 245 7,9
sobre las variables ya enunciadas. Vitacura 14,6 4,4 325 3,2
FUENTE: 
Obtengamos los coeficientes de la regresión: Años de escolaridad, % de población pobre,
resultados simce en matemáticas para los 2º medios y % desocupados al 2006: 
http://www.bcn.cl/siit/comunas_cifras

SALIDA Nº14 >a <­ read.table('a.txt')   
>a1 <­ (lm(a$V1~a$V2+a$V3+a$V4)) 
Call: >summary(a1)
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Con   lo   que   nuestra   ecuación   de   regresión   múltiple 
Residuals: queda como:
    Min      1Q       Median      3Q       Max 
­1.7851  ­0.3802    0.0646     0.3693  1.1437  Y i = 7,004−0,112∙ X 1i 0,025∙ X 2i −0,152X 3i
−4,089 5 −2,251
Coefficients:
                      Estimate    Std. Error     t value      Pr(>|t|)    
(Intercept)      7.004017   1.572577       4.454      0.000108 *** Probemos   la   significación   estadística   de   nuestros 
a$V2             ­0.111553    0.027281     ­4.089      0.000299 *** parámetros estimados:
a$V3              0.024663    0.004933      5.000      2.33e­05 *** Para un 95% de significación2 y con 30 grados de libertad 
a$V4             ­0.151626    0.067370     ­2.251      0.031895 *   (n­k= 34­4= 30), calculando con R obtenemos:
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  >qt(0.975,30)
[1] 2.042272
Residual standard error: 0.6573 on 30 degrees of freedom
Multiple R­squared: 0.8212, Adjusted R­squared: 0.8033 
F­statistic: 45.91 on 3 and 30 DF,  p­value: 2.504e­11 
Por lo que nuestros tres coeficientes son significativos al 
95%.

Calcularemos ahora los parámetros estimados utilizando el álgebra de matrices en R, esto es,

  X ' X−1 X ' Y


b=

Construimos   la   matriz  X.   Para   esto   convertimos   el   data.frame   que   se   forma   mediante   la   instrucción 
read.table en una matriz con la instrucción  as.matrix  y añadimos una primera columna de 1's, tal como hemos 


2 Hacemos un test de dos colas, con lo que  1− = 1 – 0,05/2 = 0,975.
2

30
Análisis de regresión múltiple

definido nuestra matriz X:

>am<­as.matrix(a) 
>x<­ cbind(1, am[,2],am[,3],am[,4])

Construimos la matriz Y:
>y<­cbind(am[,1])

Calculamos la transpuesta de X:
>xt <­ t(x)

Y   conociendo   que   la   inversa   de   una   matriz   la   obtenemos   con   la   instrucción  solve,   la   expresión
  X ' X−1 X ' Y tiene su equivalente en R como sigue:
b=
SALIDA Nº 15
>b<­solve(xt%*%x)%*%xt%*%y
            [,1]
Y llamamos al objeto b, obteniendo (Salida nº15): [1,]  7.00401718
[2,] ­0.11155272
>b [3,]  0.02466273
Que como vemos coincide con los resultados ya obtenidos. [4,] ­0.15162602

2.2 INTERVALOS DE CONFIANZA

2
2.2.1 La varianza residual: S
Y ' Y −b ' X ' Y
La varianza residual en términos matriciales se define como: S 2 = (63)
n−k
 X ' Y es   la   suma   del   cuadrado   de   los   residuos   y   n­k   es   igual   al 
donde   de   manera   análoga   al   ARS, Y ' Y− b'
número de observaciones menos el número de parámetros que figuran en el modelo. 

Según R, el error standard residual del ejemplo Nº6 es: 0,6573.

Según la forma algebraica S 2=
∑ e 2i 2
. Verifiquémoslo: S =
12,963
= 0,432 con lo que S= 0,657
n−k 34−4 

Calculemos lo mismo pero en forma matricial con R:
TABLA Nº13

Ya   hemos   construido   nuestras   matrices  Y,   la  COMUNA Yi X 1i X 2i X 3i ei e 2i


transpuesta de X y b
Santiago 13,1 7,3 283 6,2 12,229 0,758
 :
Obtengamos la transpuesta de Y y de  b Cerrillos 10,4 8,3 259 9,3 11,056 0,430
>yt <­ t(y) Cerro Navia 9,1 17,5 215 9,4 8,929 0,029
>bt <­ t(b) Conchalí 10,1 8,0 236 4,9 11,189 1,186
El Bosque 9,7 15,8 231 10,3 9,377 0,104
Entonces las instrucciones en R análogas a ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
Y ' Y −b ' X ' Y

Y ' Y− b' X' Y
y para los estimadores de  ∙ ∙ ∙ ∙ ∙ ∙ ∙
n−k n−k San Bernardo 9,7 20,9 246 8,6 9,436 0,070
la   varianza   residual   y   la   desviación   standard   residual  San Joaquín 10,7 7,4 233 7,4 10,803 0,011
respectivamente son3: San Miguel 12,3 2,5 237 4,6 11,873 0,183
San Ramón 9,6 16,7 245 7,9 9,986 0,149
Vitacura 14,6 4,4 325 3,2 14,043 0,310

∑ e 2i = 12,963

SALIDA Nº16

>(yt%*%y­bt%*%xt%*%y)/30 obteniendo:           [,1]


[1,] 0.4320875

3 R también es una calculadora.

31
y SALIDA Nº17

>sqrt((yt%*% y­bt%*%xt%*%y)/30)  obteniendo:           [,1]


[1,] 0.6573336

2.2.2 La varianza de los parámetros estimados

1. Cada b  j es un estimador insesgado de  b j .  Eb j = b j para  j= 0,1,2,... , k y 


2
2. La varianza de los parámetros verdaderos es: Var b j = C j1   para j= 0,1,2,... , k donde  C j1  
es el elemento de la diagonal (j+1) de  X' X−1
SALIDA Nº18
Para nuestro ejemplo:
[1,] [2,] [3,] [4,]
>solve(xt%*%x) =  X ' X−1 = [1,] 5,7233711000 ­0,0333771990 ­0,0173353265 ­0,1389501476
[2,] ­0,0333772000 0,0017225115 0,0001005538 ­0,0012987022
[3,] ­0,0173353300 0,0001005538 0,0000563115 0,0003028544
[4,] ­0,1389501500 ­0,0012987022 0,0003028544 0,0105042786

Ahora, la varianza de los parámetros estimados es: Var b j = Cj1  S 2= S 2 b j  para  j= 0,1,2,..., k (64)


Calculemos la desviación standard para los parámetros estimados de nuestro ejemplo y comparemos 
con los que obtuvimos con R4.

S 2 b0 = C1 S 2= 5,72337110 ∙0,4320875= 2,47299711 S b0 = 1,57257658


S 2 b1 = C2 S2 = 0,00172251∙ 0,4320875= 0,00074428 S b1 = 0,02728147
S b = 0,00493255
2 2
S  b2 = C3 S = 0,00005631∙ 0,4320875= 0,00002433 2

S  b = C S 2= 0,01050428 ∙0,4320875 = 0,00453877 S b3 = 0,06737039


2 
3 4

Como   vemos,   todas   las   desviaciones   standard   de   los   parámetros   estimados   coinciden   con   los 
entregados por R.

2.2.3 Los valores t de los parámetros estimados.

 b j −b j 
para  j= 0,1,2,... , k (65)
Sb j

es una variable aleatoria t de student con n­k grados de libertad.
La estadística apropiada para probar la hipótesis nula: H0 : b j =0 contra cualquier hipótesis alternativa, 
b j −b j b j
es la t de student: t=  para  j= 0,1,2,... , k con n­k grados de libertad.
Sb j  S b j 

Calculemos y observemos que coinciden los valores obtenidos con R:

b0 7,00401718 b1 0,11155272


t 0= = = 4,454 t 1= =− =−4,089

Sb 0  1,57257658 
S b1  0,02728147
b 2 0,02466273 b 3 0,15162602
t 2= = = 5 t 3= =− =−2,251
Sb 2 0,00493255 S b 3 0,06737039

Ya hemos obtenido que para un 95% de significación y con 30 grados de libertad: t 1− 0.05 , 30= 2.042272 , 


2
así los cuatros coeficientes estimados son estadísticamente significativos al 95%.

4 Para evitar errores de redondeo utilizaremos 8 decimales.

32
Análisis de regresión múltiple

2.2.4 Construcción de los intervalos de confianza para los parámetros estimados.

El intervalo de confianza del 100 1− % para el parámetro  b j resulta:

b j± t  ∙ S b j  j= 0,1,2,. .. , k entonces, como  t 1− 0.005 , 30 =2.042272 (66)


 1− , n−k
2 2

b0 ±t ∙ Sb0=  
1−
0,05
, 30  7,00401718±2,042272∙ 1,57257658= [ 3,792 ;10,216 ]
2

b1± t 0,05 ∙S b1 = −0.11155272±2,042272∙ 0,02728142= [−0,167;−0,056]


 1− , 30
2

b2± t 0,05 ∙ Sb 2= 0.02466273±2,042272∙ 0,00493255= [ 0,015 ;0,035]


 1− , 30 
2

b3± t 0,05 ∙ Sb 3= −0.15162602±2,042272∙ 0,06737039= [−0,289 ;−0,014 ]


 1− , 30 
2

En R, la instrucción con la que se obtienen los intervalos de confianza es   confint.  Comparemos con los 


resultados ya obtenidos.
SALIDA Nº19

>confint(a, level= 0.95) 
2,5% 97,5%
(Intercept) 3,79238725 10,21564712
a$V2 ­0,16726880 ­0,05583663
Vemos que ambos resultados coinciden. a$V3 0,01458882 0,03473665
a$V4 ­0,28921469 ­0,01403736

2.3 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE 

Es  definido  como   la proporción  de  la variación  total en Y i explicada por la  regresión  múltiple  de Y 
sobre  X 1i y  X 2i (para el caso de dos variables independientes) y se calcula de la siguiente manera:

Establezcamos las variables en forma de desviación:

xi = X i − X 
 R2 = 1−
∑ e2i
Sean: y i = Yi − Y y
2 2
R se define como  0≤ R ≤ 1 (67)
y i = Y i − Y
 ∑ y2i

Existen varias equivalencias:

R2 =
∑  Y i −Y 2 = ∑ y2i = SCR
= 1−
∑ Yi −Y i 2 = 1− SCE = b1 ∑ Y X 1b 2 ∑ Y X 2 (68)
∑ Yi −Y 2 ∑ y 2i STC ∑ Y i −Y 2 STC ∑ Yi2
Demostremos la última relación por ser la menos evidente:

∑ e 2i = ∑ e i  Yi −Y i = ∑ e i  Y i−b1 X 1i −b 2 X 2i = ∑ e i Y i −b 1 ∑ e i X 1i−b2 ∑ e i X 2i


2 2
∂ ∑ ei ∂ ∑ ei
Por el proceso de MCO:  = − ∑ e X
i 1i = 0 y  = −∑ ei X 2i = 0
∂ b1 ∂ b2
Es entonces que:

∑ e 2i = ∑ e i Y i = ∑  Yi −Y i Y i= ∑ Y i  Y i−b1 X 1i −b 2 X 2i = ∑ Y2i −b 1 ∑ Y i X 1i −b2 ∑ Yi X 2i


Sustituyendo en:  R = 1−
2 ∑ e2i obtenemos:
∑ y2i
2
 ∑ Y2i −b 1 ∑ Y i X 1i −b2 ∑ Y i X 2i  2 b1 ∑ Y i X 1i b2 ∑ Y i X 2i
R = 1− 2 o lo que es lo mismo: R =
∑ Yi ∑ Y 2i

33
La inclusión de variables independientes adicionales probablemente incremente el valor SCR para el 
mismo STC lo que hace que  R2 aumente.
R2 mide la proporción de la variación total de las observaciones con respecto a su media, atribuible a 
la ecuación de regresión estimada.
Por   si   solo, R 2 no   puede   validar   el   modelo   propuesto,   como   tampoco   un R2 ≈ 1 implica 
necesariamente que la ecuación de regresión estimada sea apropiada para predecir.
TABLA Nº14
Para nuestro ejemplo:
COMUNA Yi X 1i X 2i X 3i Y i  Y i− Y2  Y i− Y i 2  Y i− Y2

Tenemos   entonces   que: Santiago 13,1 7,3 283 6,2 12,229 1,674 0,758 ­211,785

R2 =
∑ yi2 = SCR = 1− SCE equivale  Cerrillos 10,4 8,3 259 9,3 11,056 0,015 0,430 53,816
Cerro Navia 9,1 17,5 215 9,4 8,929 4,025 0,029 186,898
∑ yi2 STC STC Conchalí 10,1 8,0 236 4,9 11,189 0,064 1,186 84,227
para   nuestro   ejemplo   a: El Bosque 9,7 15,8 231 10,3 9,377 2,429 0,104 125,055
59,516 12,963 ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
= 1− = 0,821 que  ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
72,477 72,477 ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
coincide con el valor entregado por R. San Bernardo 9,7 20,9 246 8,6 9,436 2,249 0,070 125,055
San Joaquín 10,7 7,4 233 7,4 10,803 0,018 0,011 23,585
San Miguel 12,3 2,5 237 4,6 11,873 0,879 0,183 ­134,608
San Ramón 9,6 16,7 245 7,9 9,986 0,902 0,149 135,312
Vitacura 14,6 4,4 325 3,2 14,043 9,661 0,310 ­353,041

∑ 59,516 12,963 72,477

2.3.1  2
R 2  ajustado o  R

El   problema   con R2 es   que   no   toma   en   consideración   los   grados   de   libertad. R


 2   se   usa   para 
incorporar el efecto tanto del tamaño de la muestra como del número de parámetros del modelo. R  2 siempre 
2
es  menor a R y no puede  forzarse hacia  1  sólo por  el  hecho de agregar  mas  variables independientes al 
modelo.
2
 2 que se define como: 
Por eso es preferible utilizar R  2= 1−  1−R  n−1
R donde: (69)
 n−k
n : número de observaciones.
k: : número de parámetros estimados.

2
 2= 1− 1−R  n−1 = 1−  1−0,821  33 = 0,803 que coincide con el resultado 
Para nuestro ejemplo:  R
n−k  30
de R cuadrado ajustado entregado por R.

 2 es: 
El rango de valores para  R

n−1 
cuando k=1,  = 1 y R2 = R
2 ;
n−k 
n−1 
cuando k>1,   1 y R2  R
2 ;
n−k 
n−1 
cuando n es grande, frente a un k dado,  ≈ 1 y  R2 ≈ R
2 y
n−k 
2
cuando k es grande en relación a n, R será mucho menor que R2 , pudiendo incluso ser negativo. 
2
(aún cuando 0≤ R ≤ 1 )

2
La suma del cuadrado de los residuos ∑ e i  , requerido para realizar los test de significación, puede 
2 b1 ∑ Y i X 1i b2 ∑ Y i X 2i ∑ e2i

ser   determinado   sin   antes   encontrar Y i :   Siendo   R = ,   como R2
= 1− ;
∑ Y 2i ∑ y2i
∑ e 2i = 1−R 2 ∑ y 2i Este método implica muchos menos cálculos que utilizando Y i .

34
Análisis de regresión múltiple

2.4 PREDICCIÓN

2.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de predicción toman 
los valores específicos  [1, X 1i , X 2i , ∙∙∙ , X ki ]

Si  X  es   la   matriz  de   los   valores   de   las   variables   independientes,   la   cual   da   origen   a   la   ecuación   de 
regresión estimada, entonces un vector particular X i se puede denotar como  [1, X 1i , X 2i , ∙∙∙ , X ki ] .
La respuesta promedio estimada Y i= X i b será por lo tanto: b0 b 1 X 1 b 2 X 2... b k X k y la estimación 
2 ' '
de la varianza real  Var Y i=  I será: S 2 ∙ [X i  X X X i] donde S 2 es , como ya hemos visto,  la varianza 
−1

residual.
Asumiendo   normalidad,   un   intervalo   de   confianza   del 1001− %   para   la   respuesta   promedio   en 

X i es: Y i ±t 1−  , n−k S ∙ 
[ X'i  X ' X−1 Xi ] (70)
2

2.4.1.1 Cálculo de los intervalos de confianza usando el álgebra de matrices con R.


La expresión que buscamos es: Y i ±t1−  , n−k S ∙  [ X  X X
'
i
' −1
Xi ] . Consideremos el siguiente ejemplo:
2

Ejemplo Nº7: El índice de desarrollo humano

El índice de desarrollo humano (IDH) mide el nivel que ha alcanzado un país en tres indicadores básicos 
de   bienestar:   una   vida   larga,   educación   (ponderado   en   dos   tercios   la   tasa   de   alfabetización   y   un   tercio   el 
promedio de las tasas brutas de matrícula primaria, secundaria y terciaria) y un nivel de vida digno, medido por el 
PIB per cápita5  (estandarizado en paridad de poder adquisitivo en dólares norteamericanos). El valor de cada 
componente   se   expresa   como   un   valor   entre   0   y   1   y   se   calcula   el   IDH   como   el   promedio   simple   de   estos 
indicadores.  
La base de datos Nº7 nos entrega los valores de la espectativa de vida al nacer en años  Yi  , el PIB 
PPA per capita (US$) X1i  , y el índice de educación X 2i   para 175 países al 2007.
Ejecutemos una regresión lineal de la espectativa de vida al nacer sobre el PIB PPA per capita y el índice 
de educación.

SALIDA Nº20 BASE DE DATOS Nº7

Call: PAÍS Yi X 1i X 2i
lm(formula = a$V1 ~ a$V2 + a$V3)
Afghanistan 43,6 1054 0,35
Residuals: Albania 76,5 7041 0,89
    Min      1Q  Median      3Q     Max  Algeria 72,2 7740 0,75
­21.344  ­2.199   1.216   3.632  12.576  Angola 46,5 5385 0,67
Argentina 75,2 13238 0,95
Coefficients: ∙ ∙ ∙ ∙
                    Estimate      Std. Error    t value   Pr(>|t|)     ∙ ∙ ∙ ∙
(Intercept)    3.680e+01   2.283e+00  16.120    < 2e­16 *** ∙ ∙ ∙ ∙
a$V2            1.794e­04    3.701e­05   4.847    2.79e­06 *** Vanuatu 69,9 3666 0,73
a$V3           3.665e+01    3.107e+00  11.794    < 2e­16 *** Venezuela  73,6 12156 0,92
­­­ Viet Nam 74,3 2600 0,81
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  Yemen 62,5 2335 0,57
Zambia 44,5 1358 0,68
Residual standard error: 6.07 on 172 degrees of freedom FUENTE: 
Multiple R­squared: 0.6573,Adjusted R­squared: 0.6533  http://hdrstats.undp.org/es/indicators
F­statistic: 164.9 on 2 and 172 DF,  p­value: < 2.2e­16

>a <­ read.table('a.txt')   
>a1 <­ (lm(a$V1~a$V2+a$V3)) 
>summary(a1)

5 Se ajusta el ingreso debido a que para lograr un nivel digno de desarrollo humano no se requiere un ingreso ilimitado. En consecuencia, se utiliza 
su logaritmo.

35
Nuestra ecuación de regresión múltiple queda como:

Y i = 36,80,0001794∙ X1i 36,65∙ X 2i


  16,12 4,847  11,794 

Calculemos la estadística t al 95% de significación:
>qt(0.975,172)
[1] 1.973852

Con lo que nuestros parámetros estimados son estadísticamente significativos al 95%.
SALIDA Nº21

Obtengamos los valores de 
[ X'i  X ' X−1 Xi ]   utilizando el álgebra de matrices en R. El 
[ X  X X
' ' −1
Xi ]
resultado de estas operaciones lo obtenemos en la salida Nº21. i

0,2104009
>a <­ read.table('a.txt')  0,1066846
>am<­as.matrix(a)  0,0802109
>x<­ cbind(1, am[,2],am[,3]) 0,0928063
>xt <­ t(x)
0,1091066
>sqrt(x%*%solve(xt%*%x)%*%xt)

>ad<­diag(sqrt(x%*%solve(xt%*%x)%*%xt))

>adt<­t(ad)
>adt ∙
0,0889951
0,1010908
Y conociendo  que la inversa de  una matriz  la  obtenemos  con la instrucción  solve,  la 
0,1016238
  X ' X−1 X ' Y tiene su equivalente en R como sigue:
expresión b= 0,1215859
Hemos obtenido que  t 1− 0.05 , 172= 1.973852 y de la salida de R  S= 6,07 0,0975262
2
En la tabla Nº15 hemos hecho los cálculos para obtener algebraicamente los valores de los intervalos de 
confianza para la variable respuesta estimada  Y i : 

TABLA Nº15

PAÍS Yi X 1i X 2i Y i [ X  X X 
' ' −1
Xi ] Y i −t 
S [ X 'i X ' X− 1 X i ] Y i t 
S [ X 'i X ' X−1 X i ]
i  
1− ,n −k  1− ,n −k 
2 2

Afghanistan 43,6 1054 0,35 49,963 0,210 47,442 52,484


Albania 76,5 7041 0,89 70,535 0,107 69,257 71,813
Algeria 72,2 7740 0,75 65,603 0,080 64,642 66,564
Angola 46,5 5385 0,67 62,212 0,093 61,100 63,324
Argentina 75,2 13238 0,95 73,846 0,109 72,539 75,153
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Vanuatu 69,9 3666 0,73 64,139 0,089 63,073 65,205
Venezuela  73,6 12156 0,92 72,735 0,101 71,524 73,947
Viet Nam 74,3 2600 0,81 66,953 0,102 65,735 68,171
Yemen 62,5 2335 0,57 58,256 0,122 56,799 59,713
Zambia 44,5 1358 0,68 62,039 0,098 60,870 63,207

La  instrucción   en   R   para   obtener  los   intervalos   de   confianza   bajo   el  contexto  de   un   ARM   al  95%   de 
confianza es: predict.lm(a1,interval="confidence", level = 0.95) 

Comparemos con los resultados que ya hemos obtenido previamente:

>a<­ read.table('a.txt') 
>a1 <­ (lm(a$V1~a$V2+a$V3))
>predict.lm(a1,interval="confidence", level = 0.95) 

2.4.2 Intervalo de predicción para la respuesta particular cuando las k variables de predicción toman 
los valores específicos [1, X 1i , X 2i ,∙ ∙∙ , X ki ]

Si  X  es   la   matriz  de   los   valores   de   las   variables   independientes,   la   cual   da   origen   a   la   ecuación   de 
regresión estimada, entonces un vector particular X i se puede denotar como  [1, X 1i , X 2i , ∙∙∙ , X ki ] .

36
Análisis de regresión múltiple

La   respuesta   promedio   estimada Y i= X i b será   por   lo   tanto: SALIDA Nº22


b0 b 1 X 1 b 2 X 2... b k X k y   la   estimación   de   la   varianza   real 
 
' ' fit lwr upr
 Var Y i=  22 I será: S 2 ∙ [1X iX X  X i] donde S 2 es   ,   como 
−1
1 49,81284 47,29185 52,33383
ya hemos visto,  la varianza residual. 2 70,67753 69,39925 71,95580
Asumiendo normalidad, un intervalo de predicción del 1001− 3 65,67201 64,71094 66,63309
 4 62,31759 61,20560 63,42958
% para la respuesta promedio en  X i es: Y i ±t1−  , n−k S ∙ 5 73,98820 72,68090 75,29549
2
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙

[1X  X X
'
i
' −1
X i] (71) ∙
171

64,20817

63,14185

65,27450
172 72,69461 71,48336 73,90586
2.4.2.1 Cálculo  de los intervalos de predicción usando el álgebra  173 66,94889 65,73125 68,16653
de matrices con R. 174 58,10550 56,64868 59,56233
175 61,96166 60,79312 63,13021

La expresión que buscamos es: Y i ±t1−  , n−k S ∙  [1X X X 
'
i
' −1
X i] .  SALIDA Nº23
2

Obtengamos los valores de  
[1X 'i X ' X −1 X i] utilizando el álgebra de matrices en R. 
[ 1X  X X
'
i
' −1
Xi ]
El resultado de esta operación lo obtenemos en la salida Nº23.
1,0218950
>a <­ read.table('a.txt')  1,0056750
>am<­as.matrix(a)  1,0032120
>x<­ cbind(1, am[,2],am[,3]) 1,0042970
>xt <­ t(x) 1,0059350
>sqrt(1+x%*%solve(xt%*%x)%*%xt) ∙
>ad<­diag(sqrt(1+x%*%solve(xt%*%x)%*%xt)) ∙
>adt<­t(ad) ∙
>adt 1,0039520
En la tabla Nº16 hemos hecho los cálculos para obtener algebraicamente los valores de  1,0050970
los intervalos de predicción para la variable respuesta estimada  Y i :  1,0051500
1,0073640
1,0047440
TABLA Nº16

PAÍS Yi X 1i X 2i Y i [ 1X  X X 
'
i
' −1 
 −1
 ' ' −1
X i ] Y i −t1−  ,n −k S [1X i  X X  X i ] Y i t1−  ,n −k  S [1X i  X X  X i ]
' '
La   instrucción 
2 2
en  R  para  obtener 
Afghanistan 43,6 1054 0,35 49,963 1,022 37,720 62,207 los   intervalos   de 
Albania 76,5 7041 0,89 70,535 1,006 58,486 82,584 confianza   bajo   el 
Algeria 72,2 7740 0,75 65,603 1,003 53,583 77,623
contexto   de   un 
Angola 46,5 5385 0,67 62,212 1,004 50,179 74,244
Argentina 75,2 13238 0,95 73,846 1,006 61,793 85,898 ARM   al   95%   de 
∙ ∙ ∙ ∙ ∙ ∙ ∙ confianza es:
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
Vanuatu 69,9 3666 0,73 64,139 1,004 52,110 76,168
Venezuela  73,6 12156 0,92 72,735 1,005 60,693 84,778
Viet Nam 74,3 2600 0,81 66,953 1,005 54,910 78,996
Yemen 62,5 2335 0,57 58,256 1,007 46,186 70,326
Zambia 44,5 1358 0,68 62,039 1,005 50,001 74,077

SALIDA Nº24

>predict.lm(a1,interval="p", level = 0.95)  fit lwr upr


1 49,81284 37,56866 62,05702
Comparemos   con   los   resultados   que   ya   hemos   obtenido  2 70,67753 58,62769 82,72736
previamente: 3 65,67201 53,65169 77,69234
4 62,31759 50,28426 74,35092
>a <­ read.table('a.txt')  5 73,98820 61,93525 86,04115
>a1 <­ (lm(a$V1~a$V2+a$V3)) ∙ ∙ ∙ ∙
>predict.lm(a1,interval="p", level = 0.95)  ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
171 64,20817 52,17897 76,23737
172 72,69461 60,65170 84,73752
173 66,94889 54,90533 78,99244
174 58,10550 46,03542 70,17559
175 61,96166 49,92297 74,00035

37
2.5 EL TEST DE SIGNIFICACIÓN GENERAL DE LA REGRESIÓN: LA ESTADÍSTICA F

2.5.1 La estadística F.

La significación global para la regresión puede ser probada con la proporción de varianza explicada 
respecto a la inexplicada. Ésta sigue una distribución F con (k­1) y (n­k) grados de libertad donde:

∑ y 2i R2
k−1 k−1 demostremos la última igualdad. (72)
Fk−1, n−k= 2
= 2
∑ i
e 1−R
n−k n−k
xi = X i − 
X

Consideremos las variables en forma de desviación: y i = Yi − Y

y i = Yi − Y

2
2
∑ y i ∑ i n−k
y

R2
2 2
k−1 ∑ y i  n−k = ∑ y i R2 n−k  k−1
Resulta así que: = = =
∑ e i ∑ e i k−1 ∑ ei  k−1  1−R2   k−1  1−R2 
2 2 2

n−k ∑ y 2i n−k
2 2
2 ∑ y i = SCR SCE ∑ e i = 1−R 2
Recordemos que: R = 2 y =
∑ yi STC STC ∑ y 2i
donde:

n: número de observaciones.
k: número de parámetros estimados.

Se establece el siguiente set de hipótesis: H0 : b 1= b2 = ...= bk = 0

La hipótesis nula H0 implica que ninguna de las variables independientes ayuda a explicar la variación 
de la variable dependiente (referida a su media).
La hipótesis alternativa resulta entonces H1 : bi ≠ 0 al menos para un valor de  bi
Un valor alto de F sugiere una relación significativa entre la variable dependiente y las independientes, lo 
que nos lleva a rechazar  H0 .

Fórmulas para las varianzas explicada e inexplicada (esta última también llamada varianza residual):

Varianza Explicada: 
∑  Y i −Y 2 = SCR
=
∑ y 2i (73)
k−1 k−1 k−1

Varianza Inexplicada:
∑  Yi −Y i 2 = SCE
=
∑ e 2i (74)
n−k n−k n−k

Ejemplo Nº8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU

El embarazo adolescente es un problema mundial que acarrea múltiples consecuencias. Una de las más 
dramáticas es que éstas jóvenes en su gran mayoría deberán tener la responsabilidad de mantener solas a sus 
hijos bajo condiciones económicas muchas veces precarias, negando su propia adolescencia.
El bajo nivel educativo de los padres, las limitadas aspiraciones profesionales de las jóvenes, las actitudes 
ambivalentes o positivas hacia el embarazo de las adolescentes, las estudiantes con las calificaciones más bajas 
y   aquellas   quienes   se   involucran   en   actividades   delictivas   han   sido   identificadas   como   factores   claves   al 
momento de la iniciación sexual y el primer embarazo.

38
Análisis de regresión múltiple

BASE DE DATOS Nº8
Sin   embargo,   nosotros   relacionaremos   la   tasa   de   embarazo 
adolescente con otros dos factores quizás más relevantemente asociados: el  ESTADO Yi X 1i X 2i
consumo de alcohol y las familias monoparentales, pues se ha demostrado 
que vivir en un hogar con un solo padre o la ausencia del padre aumenta el  Alabama  90 15,73 37
riesgo   de   embarazo   prematuro   mientras   que   los   hijos   criados   por   ambos  Alaska  73 15,61 30
padres   disfrutan   de   estándares   de   bienestar   más   altos   en   casi   cualquier  Arizona  104 18,47 33
Arkansas  93 15,65 35
aspecto. Por otro lado, asimismo el consumo inadecuado de alcohol es uno 
California  96 15,24 31
de   los   factores   claramente   asociados   al   inicio   temprano   de   relaciones 
∙ ∙ ∙ ∙
sexuales y por lo tanto al embarazo adolescente. ∙ ∙ ∙ ∙
La base de datos Nº8 nos entrega los valores de la tasa de embarazo  ∙ ∙ ∙ ∙
adolescente para mujeres entre los 15 y los 19 años para el año 2000 (cada  Virginia  72 18,28 29
1000 habitantes)  Y i  , el % de personas entre los 12 y 17 años que reportó  Washington  75 16,26 29
haber consumido alcohol el mes pasado para el año 2002   X 1i , y el % de  West Virginia  67 20,12 62
Wisconsin  55 18,70 31
niños bajo los 18 años viviendo en familias con un solo padre al 2004   X 2i  ,  Wyoming  77 18,99 28
para   los   50   estados  FUENTES: 
norteamericanos   más   Washington  Tasa de embarazo adolescente en mujeres de 15­ a 19 a ños, 2000 (tasa por 1,000)
D.C. http://www.thenationalcampaign.org/state­data/state­comparisions.asp?id=3&sID=18
Primero   ejecutemos   una  % de personas entre los 12 y 17 años que reportó haber consumido alcohol el pasado mes el a ño 2002
http://www.drugabusestatistics.samhsa.gov/2k2State/html/appA.htm
regresión   lineal   para   obtener   los  Porcentaje de niños bajo 18 años viviendo con familias lideradas por un solo padre 2004
parámetros estimados: http://www.thenationalcampaign.org/state­data/state­comparisions.asp?id=8&sID=5

>a <­ read.table('a.txt')   
SALIDA Nº25 >a1 <­ (lm(a$V1~a$V2+a$V3)) 
>summary(a1)
Call:
lm(formula = a$V1 ~ a$V2 + a$V3) Nuestra ecuación de regresión múltiple queda como:
Residuals:
     Min       1Q   Median       3Q      Max 
Y= 88,5012−2,7093 ∙ X11,1986 ∙ X 2
­41.3044  ­7.1242  ­0.5424  11.4843  34.3829   4,714 −3,311 4,416

Coefficients:
                 Estimate   Std. Error    t value    Pr(>|t|)    
∑ y2i 8107.66
(Intercept)  88.5012     18.7750     4.714    2.12e­05 *** k−1 2
Fk−1, n−k= = F2,48= = 18,766
a$V2          ­2.7093       0.8183    ­3.311    0.00177 **  ∑ e 2i 10368.736
a$V3           1.1986       0.2714     4.416    5.69e­05 *** 48
­­­
n−k
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Que vemos coincide con el resultado entregado por R:
Residual standard error: 14.7 on 48 degrees of freedom
Multiple R­squared: 0.4388, Adjusted R­squared: 0.4154 
F­statistic: 18.77 on 2 and 48 DF,  p­value: 9.515e­07 

TABLA Nº17

ESTADO Yi X 1i X 2i Y i  Y i− Y2  Y i− Y i 2  Y i− Y2

Verifiquemos  Alabama  90 15,73 37 90,232 153,490 0,054 147,793


algebraicamente   las   relaciones   de   F  Alaska  73 15,61 30 82,167 18,697 84,034 23,455
para nuestro ejemplo (Tabla Nº17). Arizona  104 18,47 33 78,014 0,029 675,260 684,189
Arkansas  93 15,65 35 88,052 104,217 24,486 229,735
California  96 15,24 31 84,368 42,577 135,302 329,677
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Virginia  72 18,28 29 73,735 16,879 3,009 34,141
Washington  75 16,26 29 79,207 1,862 17,702 8,083
West Virginia  67 20,12 62 108,303 927,829 1705,961 117,571
Wisconsin  55 18,7 31 74,994 8,117 399,756 521,803
Wyoming  77 18,99 28 70,612 52,282 40,802 0,711

Y = 77,843
∑ 8107,660 10368,736 18476,745

39
Si el valor F calculado excede el valor tabulado de la F específica al nivel de significación elegido y los 
grados de libertad dados, se acepta  H1 . En nuestro ejemplo, el valor F calculado para un 95% de significación 
con 2 y 48 grados de libertad es:

>qf(0.95,2,48)
[1] 3.190727 3,191 < 18,766 con lo que aceptamos la hipótesis alternativa.

F   puede   ser   grande   y   sin   embargo   ninguno   de   los   parámetros   estimados   ser   estadísticamente 
significativos. Esto puede ocurrir cuando las variables independientes están altamente correlacionadas las unas 
con   las   otras   (este   problema,   denominado   multicolinealidad,   lo   estudiaremos   en   la   sección   3,   capítulo   4: 
Multicolinealidad).

2.5.2 Tabla ANOVA para el modelo lineal general.
TABLA Nº18
Fuente de  Grado de Suma de los  Cuadrados 
variación libertad Cuadrados Medios F
2
∑ Y i  SCR
Regresión k−1 SCR= b' X' Y−' SCR
n k−1
  k−1 CMR
=
SCE SCE CME
Error n−k SCE= Y ' Y−b' X 'Y  n−k 
n−k 

2
∑ Y i 
Total n−1 STC= Y 'Y −
n

2.5.3  Cálculo de la tabla ANOVA utilizando el álgebra de matrices en R.
TABLA Nº19
Calculemos la matriz X, la Y, la traspuesta de X, la transpuesta de Y, b 
y la transpuesta de b: Suma de los 
cuadrados
>a <­ read.table('a.txt')  2
∑ Y i 
>am<­as.matrix(a)  SCR= b' X' Y ' − = 8109,135
>x<­ cbind(1, am[,2],am[,3]) n
>y<­cbind(am[,1])
>xt <­ t(x) SCE= Y ' Y−b' X ' Y = 10368,74
>yt <­ t(y)
>b<­solve(xt%*%x)%*%xt%*%y 2
>bt <­ t(b) ∑ Y i 
STC= Y 'Y − = 18477,835
n

Calculemos las siguientes expresiones para obtener los cuadrados medios:

Y'Y­b'X'Y  = yt%*%y­ bt%*%xt%*%y  =  10368.74


b'X'Y  = bt%*%xt%*%y =  317145.3
Y'Y = yt%*%y =  327514

2
∑ Yi 
Y como por otro lado obtenemos que: = 309036,165
n

TABLA Nº20
Fuente de  Grado de Suma de los  Cuadrados 
variación libertad Cuadrados Medios F

317026,486
Regresión 2 8109,135
 2 CMR
= 18,77
CME
10368,74
Error 48 10368,74
48

Total 50 18477,835

40
Análisis de regresión múltiple

Si un valor de F es lo suficientemente grande, entonces una porción considerable de la variación en las 
observaciones puede atribuirse a la regresión de Y sobre las variables de predicción tal como se encuentran 
definidas por el modelo.
∑ y2i R2
k−1 k−1
Hemos visto que F se relaciona con R de la siguiente manera: F= 2
= 2
∑ i
e 1−R
n−k n−k

R2 0,439
 
k−1 2 0,2195
Para nuestro ejemplo:  R2 = 0,439 = = = 18,781= F
1−R 2 0,561 0,0116875
 
n−k 48

La   estadística   F   como   una   prueba   de   significación   del   poder   explicativo   de   todas   las   variables 
independientes   conjuntamente,   es   aproximadamente   equivalente   a   probar   la   significación   de   la   estadística 
R2 . Si  H1 es aceptada podríamos esperar que  R2 y por lo tanto F sean altas.

2.6 LOS COEFICIENTES DE CORRELACIÓN PARCIAL (CCP)

Los CCP miden la correlación entre la variable dependiente y una variable independiente después de 
excluir la influencia común de las otras variables independientes en el modelo (manteniéndolas constantes). Los 
CCP son usados en el análisis de regresión múltiple para determinar la importancia relativa de cada variable 
independiente   en   el   modelo.   La   variable   independiente   con   el   mayor   CCP   con   respecto   a   la   variable 
dependiente es la que más contribuye al poder explicativo del modelo.
Por ejemplo,  rY X X es la correlación parcial entre Y y  X 1 después de remover la influencia de X 2
1 2

tanto de Y como de X 1 .

Para el caso de un modelo con dos variables independientes:

r Y X −r Y X r X X2 r YX −r Y X r X X2
rY X X = rY X X =
1 2 1 2 1 1
y  Donde: (75)
1 2

1−r 1−r2
X 1 X2
2
YX 2
2 1

1−r 1−r2
X 1 X2
2
YX 1

rY X
es el coeficiente de correlación simple entre Y y X 1 ,
1

rY X
es el coeficiente de correlación simple entre Y y X 2  y
2

r X X es el coeficiente de correlación simple entre  X 1 y X 2
1 2

Los   coeficientes   de   correlación   parcial   varían   de   ­1   a   1   (la   misma   variación   que   los   coeficientes   de 
correlación simple) y tienen el signo del parámetro estimado correspondiente ( r Y X X tiene el mismo signo que  1 2

b y r Y X X tiene   el   mismo   signo   que b )   La   suma   de   los   CCP   entre   las   variables   independientes   y   la 
1 2 1 2
variable dependiente en el modelo no debe superar el valor de 1. 

Para nuestro ejemplo calculemos los coeficientes de correlación parcial:

La siguiente instrucción en R calcula una matriz de correlaciones con 1 en la diagonal, las correlaciones 
simples en el triángulo inferior y las correlaciones parciales en el triángulo superior. (Debemos bajar y llamar la 
librería ggm)
SALIDA Nº26

>a <­ read.table('a.txt')  V1 V2 V3 V4
>library(ggm) V1 1,0000000 ­0,5982236 0,6741887 ­0,3800718
>correlations(a) V2 ­0,7392548 1,0000000 0,2122357 ­0,0010714
V3 0,8006118 ­0,5062053 1,0000000 ­0,0127640
V4 ­0,6750090 0,4970814 ­0,5462974 1,0000000

rY X
= ­1 Se refiere al caso donde hay una perfecta relación lineal negativa entre Y y X 1 después de 
1 X2

remover la influencia común de X 2 sobre Y y X 1 .

41
r Y X X = 1 Se refiere al caso donde hay una perfecta relación lineal positiva entre Y y X 1 después de 
1 2

remover la influencia común de X 2 sobre Y y X 1 .
r Y X X = 0 Se refiere al caso en el que no existe una relación lineal entre Y y X 1 después de remover la 
1 2

influencia común de X 2 sobre Y y X 1 . Por consiguiente  X 1 puede ser omitido en la regresión.

Existe un método para remover la influencia de X 2 tanto de Y como de X 1 al encontrar r Y X X .  1 2

Para remover la influencia de X 2 sobre Y, hacemos una regresión de Y sobre X 2   y encontramos el 


residuo e 1= Y . Para remover la influencia de X 2 sobre X 1 , hacemos una regresión de X 1 sobre X 2 y 

encontramos el residuo  e 2= X 1

Y y X 1 representan las variaciones en Y y X 1 respectivamente sin la influencia de   X 2 . Por lo 


✳ ✳

tanto, el coeficiente de correlación parcial es simplemente el coeficiente de correlación simple entre los residuos
Y ✳ y X 1 esto es,  r Y X X = rY X .

✳ ✳
1 2 1

2.7 ANÁLISIS DE LOS RESIDUOS

El  análisis  de  los  residuos   es   el   estudio  más   importante  dentro   del  modelo  de  regresión,   pues   de  una 
manera muy efectiva podemos detectar sus posibles deficiencias. Asimismo, con este análisis podemos descubrir 
violaciones de las suposiciones subyacentes al modelo.

4 son las deficiencias más comunes en el análisis de regresión:

1. Que estemos en presencia de una relación no lineal.
2. Que la varianza del error 2 no sea constante (heterocedasticidad).
3. Que una o más de las variables de predicción que ejercen una influencia importante no estén incluídas 
en el modelo.
4. Que existan observaciones discrepantes o aberrantes (aquellas cuyos valores se encuentran alejados del 
comportamiento general del resto de los datos).
Recordemos que un residuo se define como: e i = Y i − Y i ∀ i= 1,2,... n donde e i es una estimación 
del verdadero error no observable  i
ei
Se   grafican   los   valores   de Y i versus   los   residuos   estandarizados: e s= dado   que   la   media   de   los 
S
residuos es igual a cero y S es la desviación standard residual:  CME (el error cuadrático medio es la varianza 
2
de los residuos, que es una estimación de  i )
El análisis de los residuos es un análisis de sus gráficas. Una ecuación de regresión correcta no develará 
ningún patrón entre los e s y los Y i , los e s tenderán a encontrarse dentro de una banda horizontal centrada 
alrededor del cero, sin ninguna tendencia a los positivos o los negativos y muy raramente más allá de ±3 . Si n 
es muy grande, la distribución de los e s deberá encontrarse aproximada a una distribución normal standard. 
Situación contraria indicará una deficiencia en el modelo.

Examinemos tres casos:         GRÁFICA Nª 20
 

1. Acá existe un efecto cuadrático presente en una 
variable   de   predicción,   por   lo   cual,   esa   variable 
independiente   debe   introducirse   como   un   término 
cuadrático en el modelo.

42
Análisis de regresión múltiple

       GRÁFICA Nª 21

2. Modelos   con   varianza   del   error   no   constante 


(heterocedáticos)

Deben   emplearse   mínimos   cuadrados   con   factores   de 


peso (donde los pesos son inversamente proporcionales a la 
varianza   de   los   errores)   para   estimar   los   coeficientes   de 
regresión.

              GRÁFICA Nª 22
 
3. Cuando una variable que se ha eliminado muestra 
una fuerte asociación lineal con los residuos   debe incluirse 
en el modelo de regresión.

Dos ideas importantes:
1.   Una   de   las   suposiciones   de   la   estimación   por 
mínimos cuadrados es que el conjunto de datos con los que 
se trabaja es típico de la situación para la cual se intenta 
identificar una buena ecuación de predicción.
2. En una ausencia clara de evidencia de error, la 
observación   discrepante   (aberrante)   puede   ser   la   única 
información con respecto a la respuesta y ser vital para el 
entendimiento del fenómeno.

43
3.1 AUTOCORRELACIÓN GRÁFICA Nº23

 
3.1.1 ¿QUÉ ES LA AUTOCORRELACIÓN?

Si   se   observa   la   tasa   de   desempleo   o   las 


semanas promedio en el desempleo en el mercado del 
trabajo en una economía, es común encontrar que esos 
indicadores   suban   o   bajen   a   lo   largo   de   los   meses   en 
sucesión.   La   gráfica   nº23   nos   entrega  la   tasa   de 
desempleo   y   la   duración   en   semanas   del   mismo   para 
EE.UU entre Enero de 1980 y Julio del 2009.  Obviamente 
en situaciones como ésta, el supuesto de no correlación 
serial de los errores subyacente al método de MCO no se 
cumple.
El supuesto de no correlación serial de los errores 
establece   que   éstos   (o   sus   estimaciones,   los   residuos) 
deben   estar   distribuidos   aleatoriamente,   esto   es,   cada
i e i  no está influenciado por el error (el residuo) 
de   cualquier   otra   observación   (Gráfica   nº24).   En 
lenguaje   formal,   esto   supone   que   la   covarianza1  entre 
cualquier par de errores es 0:

E t  t s= 0 ∀ s ≠0 (76)

GRÁFICA Nº24 Si estos errores (residuos) presentan algún tipo de patrón, se dice 
que existe autocorrelación, simbólicamente expresada como:

E t  t s≠ 0 ∀ s ≠0               (77)

pudiendo   existir   tanto   en   series   de   tiempo   (correlación   temporal), 


como en datos de sección transversal (correlación espacial), siendo 
el primer caso mucho mas común que el segundo. 
El problema es que cuando  los estimadores  de los parámetros 
son   obtenidos   en   presencia   de   autocorrelación,   dejan   de   ser 
eficientes,  es  decir,  dejan  de  ser los  que  más   cercanos  están  a  ser 
estadísticamente significativos que cualquier otro estimador (gráfica 
nº 25).
        GRÁFICA Nº25

        
  

Se   generan   así   errores   standard   sesgados2  y   por   lo 


tanto   pruebas   estadísticas   e   intervalos   de   confianza 
incorrectos.  
Cuando el supuesto de no autocorrelación es violado 
es necesario formular el modelo de regresión de modo más 
general   prescindiendo   de   esta   hipótesis.   Este   modelo   se 
denominará   modelo   de   regresión   lineal   generalizado   y   su 
estimación se hará aplicando métodos distintos a los de los 
MCO. 

1 La covarianza refleja la relación lineal que existe entre dos variables y se define como: Cov  XY=


∑ x i y i = ∑  X i − X Y i − Y 
n−1 n−1
2 Esto es porque :  
E b≠ b

44
Problemas en el análisis de regresión: Autocorrelación

3.1.1.1 Autocorrelación en datos de sección transversal.

La autocorrelación espacial ocurre cuando los errores están geográficamente relacionados. Por ejemplo, 
una ciudad ve un repunte en sus tasas de criminalidad por lo que decide aumentar su dotación policiaca. Al año 
siguiente su tasa de criminalidad baja notoriamente. Una ciudad vecina, que no aumentó su dotación policial, 
encuentra que presenta un repunte de su tasa de criminalidad sobre el mismo periodo.
Otro ejemplo: tenemos datos de corte transversal que consideran el gasto en consumo sobre el ingreso 
familiar. Un incremento del gasto de una familia puede afectar el gasto en consumo de otra, al estimular a esta 
familia a incrementar sus gastos si quiere 'mantenerse a la altura' de la otra.
Es importante recordar que en los análisis de sección transversal, el orden de los datos debe obedecer a 
cierta lógica para darle sentido sociológico a cualquier decisión de si hay presencia de autocorrelación espacial 
o no. 

3.1.1.2 Autocorrelación en series de tiempo.

Consideremos la serie temporal del número de homicidios en una ciudad en un lapso de tiempo. Existen 
razones para creer que la cantidad de estos delitos está influenciado por los que se han cometido en el pasado. 
(una sociedad puede volverse mas 'anómica' en con el transcurso del tiempo). Para tablas en las cuales los datos 
siguen  un  orden  natural   sobre   el  tiempo,   las   observaciones  sucesivas  tienen  una  alta  probabilidad   de   exhibir 
intercorrelación, especialmente cuando el intervalo entre las sucesivas observaciones es corto, como un día, una 
semana o un mes.

3.1.1.3 Algunos patrones de autocorrelación:

Tendencia cuadrática. Tendencia cíclica.
GRÁFICA Nº26                   GRÁFICA Nº27

Tendencia ascendente. Tendencias lineales y cuadráticas.

GRÁFICA Nº28 GRÁFICA Nº29

45
3.1.2 ¿POR QUÉ OCURRE LA AUTOCORRELACIÓN?

1.­ Por inercia: En sociología prácticamente no existen variables que cambien inmediatamente a medida 
que cambia otra relacionada a ella. Existe una tendencia que se opone al cambio, una 'inercia' que hace que 
valores pasados de un regresor influyan sobre los valores actuales del mismo, ya sea temporal o espacialmente. 
2.­ Cuando variables fundamentales en un modelo de regresión son excluídas. Al inicio de un análisis de 
regresión el investigador debe poseer un modelo verosímil, pero que muchas veces resulta no ser el mejor. Si al 
graficar   los   residuos e i  obtenidos   de   la   regresión   ajustada,   se   observan   patrones   de   autocorrelación,   esto 
puede sugerir que importantes variables que quizás fueron candidatas pero que no fueron incluidas en el modelo 
(por cualquier razón) deben ser incluídas. 
A   menudo   la   inclusión   de   aquellas   variables   remueve   el   patrón   de   correlación   observado   entre   los 
residuos.
Por ejemplo, supongamos que tenemos el siguiente modelo válido en una serie de tiempo (por ello el 
subíndice t):

Y t = b 0b1 X 1t b2 X 2t b 3 X3t  t pero que por alguna razón consideramos el siguiente:

Y t = b 0b1 X 1t b 2 X 2t  t donde t = b3 X 3t t

El  error t revelará  un  patrón   sistemático,  ya  que  los   valores  de X 3t afectan   a Y t ,   creando  una 
autocorrelación falsa que desaparece al correr el modelo correcto.

3.­ Cuando no aplicamos una forma funcional correcta. Consideremos el siguiente modelo de regresión 
lineal:
Y t = b 0b1 X 1t b2 X 21t t pero erróneamente ajustamos el modelo siguiente: Y t = b 0b1 X 1t t

2
GRÁFICA Nº30 donde t = b 2 X 1t  t

La curva que corresponde al modelo verdadero se muestra junto a la 
errónea recta de regresión asociada (gráfica nº30).

Entre A y B la la recta de regresión sobreestima el valor Y t , como así 
más allá de esos puntos lo subestima. Esto es esperado, puesto que el error 
2
es t = b 2 X 1t  t y por lo tanto captura el efecto sistemático del término 
b X 2 en   el   valor   de Y t .   En   este   caso, t presentará 
2 1t

autocorrelación por el uso de una incorrecta forma funcional.

4.­ Decisiones implementadas en el regresando, producto de la influencia del comportamiento de los 
regresores3. Consideremos el modelo:

Q t = b0 b1 P t−1 t donde Q es la cantidad y P es el precio de una mercancía.

Supóngase que al final del periodo t, el precio P t resulta ser inferior al P t−1 , por lo tanto, en el periodo 


t+1 los productores pueden decidir producir menos de lo que produjeron en el periodo t.
Obviamente, en esta situación no se espera que los errores t estén distribuidos aleatoriamente porque 
si los productores sobreproducen en el año t es probable que reduzcan su producción en t+1, lo que lleva a un 
patrón autorregresivo4.

5.­   Rezagos:   Se   ha   observado   que   las   ventas   de   una   mercancía   dependen,   además   del   gasto   en 
publicidad, de las ventas del periodo previo, esto es: V t = b0b 1 Pt b 2 V t−1 t donde V t y Pt son las ventas 
y el gasto en publicidad en el periodo t, y  V t−1 las ventas en el periodo t­1. (Esquema autorregresivo)
Si no consideramos el término retrasado, el error resultante reflejará un patrón sistemático debido a la 
influencia de la propaganda de las ventas pasadas sobre las ventas actuales.
3 Este fenómeno es conocido como el efecto cobweb.
4 En modelos autorregresivos el error del modelo de regresión lineal esta relacionado con su valor pasado de la manera::  t=  t−1

46
Problemas en el análisis de regresión: Autocorrelación

6.­ 'Manipulación' de los datos. 

En análisis  empíricos, los datos en bruto son a menudo 'manipulados'. Por ejemplo,  en regresiones de 


series   de   tiempo   que   involucran   datos   trimestrales,   tales   datos   son   usualmente   derivados   desde   los   datos 
mensuales por la suma simple de tres observaciones mensuales divididas por 3.
Este   promedio   introduce   suavizamientos   en   las   fluctuaciones   existentes   en   los   meses.   Por   lo   tanto,   el 
gráfico de los datos trimestrales luce mucho mas suave que los datos mensuales y este suavizamiento podrá 
provocar un patrón sistemático en los errores, introduciendo así autocorrelación.
Otra forma de manipulación es la interpolación o extrapolación de datos. Por ejemplo, cada 10 años se 
practica un censo de población. Supongamos el último en el 2000 y el anterior en 1990. Si hay necesidad de 
obtener datos de algunos de los años del periodo intercensal (1990; 2000) una práctica común es interpolar sobre 
la base de un supuesto ad­hoc.
Todas estas técnicas de manipulación de datos pueden imponer sobre los datos patrones sistemáticos 
que podrían no existir en los datos originales.

7.­ La autocorrelación puede ser inducida como resultado de la transformación del modelo original.

Consideremos el siguiente modelo:

Y t = b 0b1 X t t donde: Y t = Gastos en consumo y X t = Ingreso (78)


Si la ecuación planteada resulta válida,  también  lo será para un periodo anterior, esto es, para  (t­1). 
Entonces la ecuación queda como:

Y t−1= b 0b1 X t−1 t−1 (Forma de nivel) (79)


Si restamos a la primera expresión la segunda tenemos:

Y t − Y t−1 = b1  X t −X t−1 t − t−1 =  Y t= b1  X t  t (Primera forma de diferencia), donde:


 : Primer operador de diferencia.
Para nuestros propósitos podemos escribir lo anterior como:   Y t = b1  X t t

Si en Y t−1= b 0b1 X t−1t−1 X e Y representan los logaritmos del gasto en consumo e ingreso, entonces 


en:  Y t = b1  X t  t ,  Y y  X representarán cambios en sus respectivos logaritmos. Pero un cambio en 
el logaritmo de una variable es un cambio relativo o porcentual, si aquel es multiplicado por 100. Así en vez de 
estudiar relaciones entre variables en la forma de nivel, quizás estemos más interesados en sus relaciones en la 
forma de diferencia.
Si   el   término   del   error   en Y t = b0 b 1 X t t satisface   los   supuestos   standard   del   método   de   MCO 
(específicamente el de no autocorrelación) puede demostrarse que el error t está autocorrelacionado5.
Modelos   como  Y t = b1  X t t son   conocidos   como   modelos   de   regresión   dinámicos,   esto   es, 
modelos que incluyen regresandos rezagados.

3.1.3 ¿CÓMO SE IDENTIFICA UNA AUTOCORRELACIÓN?

Recordemos que el supuesto de no autocorrelación del modelo clásico de regresión lineal se refiere a los 
errores t ,   los   cuales   no   son   directamente   observables.   Con   lo   que   contamos   en   vez   de   ellos   son   sus 
estimaciones, los residuos e t , que obtenemos por el procedimiento usual de MCO.
A pesar de no ser los e t lo mismo que los t , muy a menudo un examen visual de los residuos nos da 
algunas pistas sobre la probable presencia de autocorrelación en los t . Incluso, un examen visual de los e t o
2
e t puede entregar información útil no solamente de autocorrelación, sino que también de heterocedasticidad 
(que veremos en el próximo capítulo) y sesgo de especificación6.

3.1.3.1 La estadística d de Durbin­Watson.

El test mas famoso para detectar autocorrelación es el Durbin­Watson, cuya gran ventaja es que se basa 
en los е t . Se define como como:

5 La demostración de esto excede los propósitos de este libro.
6 Es el sesgo causado por la omisión de variables relevantes.

47
n

∑  e t −e t−12
d= t=2
(80)
n
2
∑e t
t=1

∑  е t −е t−12 = ∑ е2t ∑ е 2t−1 −2∑ е t е t−1


  d= Como ∑ е 2t y ∑ е 2t−1 difieren sólo en una observación, 
∑ е 2t ∑ е2t
podemos considerarlos aproximadamente iguales, por lo que:

d≈ 2 1−
∑ е t еt−1  ∑ еt е t−1
2 . Definamos:  = como un estimador del coeficiente de autocorrelación 
∑ еt ∑ е2t
de primer orden  , entonces: d≈ 2 1−   y como −1≤≤1 , esto implica que 0≤d≤4

Si no hay correlación lineal de primer orden  =0 y d= 2.
Si existe perfecta autocorrelación de primer orden positiva  =1 y d= 0
Si existe perfecta autocorrelación de primer orden negativa  =−1 y d= 4

Debemos comparar la d que obtenemos con el valor tabulado de ella a los correspondientes grados de 
libertad dados y significación elegida.

Existen ciertos supuestos subyacentes a la estadística d:

1. El modelo de regresión incluye el término de intersección. Si este no está presente como en el caso de 
una regresión a través del origen, es esencial correr de nuevo la regresión incluyendo el término de intersección 
para obtener la suma de los cuadrados del error (SCE)
2. Las variables independientes son no estocásticas o ajustadas en muestras repetidas.
3. Los errores t son generados por un patrón autorregresivo de primer orden:

t =  t−1t  (81)

Por  lo tanto, la estadística d no  puede ser  usada  para detectar  esquemas  autorregresivos  de 


orden superior.
4. Se supone que los errores t están normalmente distribuidos.
5.  El   modelo   de   regresión   no   incluye  el  valor  atrasado   de   la  variable   dependiente  como   una   de   las 
variables de predicción. Así el test es inaplicable a modelos de regresión dinámicos del tipo:

Y t = b 0b1 X 1t b2 X 2t ...bk X kt  Y t−1t      (82)

donde Y t−1 es el valor de un atraso de Y t

6.­ No hay observaciones perdidas en los datos.

A diferencia de t, F o 2 , no existe un único valor crítico para aceptar o rechazar la hipótesis nula de 
que no existe correlación serial de primer orden en los errores i .
Estos límites sólo dependen del número de observaciones n y el número de variables independientes k.
Si existe autocorrelación positiva, los е t estarán agrupados y sus diferencias por lo tanto tenderán a ser 
pequeñas. Por el contrario, si existe autocorrelación negativa, un е t positivo será seguido por un е t−1 negativo 
con mucho mas frecuencia que en el caso anterior, lo que haría más grande el numerador que el denominador. 

Recordemos que d=
∑  е t− еt−12
∑ е2t

48
Problemas en el análisis de regresión: Autocorrelación

3.1.3.1.1 Los pasos para aplicar la prueba d:

1. Se corre una regresión por MCO y se obtienen los residuos.
2. Se calcula d.
3. Para el tamaño de la muestra y el número de variables independiente dados, se encuentran los valores 
críticos dInferior y dSuperior
4. Se toman decisiones de acuerdo a los siguientes sets de hipótesis:
H0 : = 0
4.1. Se rechaza H0 al nivel  si 0 d dinferior , esto es, si hay evidencia estadísticamente 
H1 :  0
significativa de una autocorrelación positiva.
H0 : = 0
4.2. Se   rechaza H0 al   nivel  si 4−dinferior  d 4 ,   esto   es,   si   hay   evidencia 
H1 :  0
estadísticamente significativa de una autocorrelación negativa.
Notemos que la zona de indecisión donde d no es concluyente se estrecha  medida que el tamaño de la 
muestra se incrementa.
Si bien el test Durbin­Watson es un test cuantitativo para determinar la presencia de autocorrelación de 
primer orden, el método gráfico es poderoso y sugestivo ­aunque por naturaleza subjetivo­.

3.1.3.2 Método informal (gráfico) para la autocorrelación de primer orden negativa.

Al graficar los residuos versus el tiempo, si éstos están autocorrelacionados negativamente, se obtendrá 
una  gráfica como la que muestra la figura nº31:

Autocorrelación negativa:

                 GRÁFICA Nº31                             GRÁFICA Nº32

Los   signos   de   los   residuos   en   el   tiempo   cambian 


continuamente.
Si   los   residuos   están 
correlacionados 
negativamente,   al   graficar 
los e t contra   los e t−1
obtendremos   una   gráfica 
como   la   que   muestra   la 
figura nº32:
Notemos del gráfico lo 
siguiente:  en  el cuadrante I 
se   ubican   los   residuos   que 
en el tiempo pasan de ser negativos a positivos y en el III, los 
que pasan de positivos a negativos. 
La tabla nº21  nos  entrega los valores  de residuos que 
están autocorrelacionados negativamente.
Asumamos   que   estos   residuos   están   estandarizados7, 
para   así   trabajar   con   números   puros8.   Grafiquemos   estos 
residuos contra el tiempo (gráfica nº33):

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Residuos autocorrelacionados ","negativamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
>lines(a$V1, lwd=3, col=4) 
>x <­ seq( 0, 30, length = 100) 
>lines(x, x­x, type="l", lwd=3, col= 'red') 

et
7 Los residuos estandarizados son simplemente los et divididos por el error standard de la regresión, es decir:

8  Tengamos en cuenta que e t y  están medidos en las unidades en las cuales el regresando Y i es medido, por lo que los residuos 
estandarizados  son   números  puros  (desprovistos   de   unidad   de   medida)   y   pueden   ser  comparados  con   los   residuos  estandarizados  de   otras 
regresiones. 

49
               GRÁFICA Nº33

TABLA Nº21 Observemos que el signo de los residuos cambia 
sucesivamente.
et t Ahora grafiquemos los e t versus los e t−1 para 
0,7 1
nuestro  ejemplo   (tabla  nº22)  ­nótese  que perdemos 
­2,0 2 una observación­:
       
1,9 3
­2,8 4
>a <­ read.table('a.txt') 
1,8 5 >par(bg = "Ivory 2") 
∙ ∙ >plot(a$V2, a$V1, col=3, xlab='e t­1', ylab='e t', 
∙ ∙ cex.lab=1,family='NewCenturySchoolbook') 
∙ ∙ >title(main=paste("Residuo", "versus su residuo anterior",sep="\n"), 
­1,6 19 font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
1,2 20 >x <­ seq( ­3, 3, length = 100) 
­2,2 21 >lines(x, x­x, type="l", lwd=3, col= 'red') 
1,1 22 >lines(x­x, x, type="l", lwd=3, col= 'red')
­2,4 23

                            GRÁFICA Nº34

TABLA Nº23
TABLA Nº22
t e t−1 et e 2t e t−e t− 12
t et e t− 1
1 0,7 0,49
2 ­2,0 0,7 4,00 7,29 1 0,7
3 1,9 ­2,0 3,61 15,21 2 ­2,0 0,7
4 ­2,8 1,9 7,84 22,09 3 1,9 ­2,0
5 1,8 ­2,8 3,24 21,16 4 ­2,8 1,9
∙ ∙ ∙ ∙ ∙ 5 1,8 ­2,8
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
19 ­1,6 2,1 2,56 13,69 ∙ ∙ ∙
20 1,2 ­1,6 1,44 7,84 19 ­1,6 2,1
21 ­2,2 1,2 4,84 11,56 20 1,2 ­1,6
22 1,1 ­2,2 1,21 10,89 21 ­2,2 1,2
23 ­2,4 1,1 5,76 12,25 22 1,1 ­2,2
­2,4 23 ­2,4 1,1
∑ 67,85 187,23 ­2,4

        

Calculemos   la   estadística   Durbin­Watson   para   determinar   la   existencia   de   autocorrelación   en   forma 


algebraica (tabla nº23):
n

∑  e t−e t−12 187,23


t=2
d= n
= = 2,759
67,85
∑ e 2t
t=1
Ahora, el valor tabulado de D­W para el tamaño n, el número de parámetros estimados y el nivel de 
significación elegido es:

n= 23, k= 1 al 95% de significación: dinf = 1,257 y  dS up= 1,437

     0          1,257         1,437                                     2,563         2,743            4         
                   
Como 2,743 < 2.759 existe autocorrelación negativa.

50
Problemas en el análisis de regresión: Autocorrelación

3.1.3.3 Método informal (gráfico) para la autocorrelación de primer orden positiva.

                 GRÁFICA Nº35

Al   graficar   los   residuos   versus   el   tiempo,   si   éstos   están   autocorrelacionados 


positivamente, se obtendrá una gráfica como la que muestra la nº35:

         

      GRÁFICA Nº36

Autocorrelación positiva:

Los signos de los residuos en el tiempo cambian pocas 
veces.
Si los residuos están correlacionados positivamente, al 
graficar   los e t contra   los e t−1 obtendremos   una   gráfica 
como la nº36:
Notemos del gráfico lo siguiente: en el cuadrante II se 
ubican   los   residuos   que   permanecen   positivos 
secuencialmente   y   en   el   IV,   los   que   permanecen   negativos 
secuencialmente. 
La tabla nº24 nos entrega los valores de residuos que 
están   autocorrelacionados   positivamente.   Asumamos   que 
están  estandarizados.   Grafiquemos   estos   residuos   contra   el 
tiempo (gráfica nº37):

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Residuos autocorrelacionados", "positivamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
>lines(a$V1, lwd=3, col=4) 
>x <­ seq( 0, 30, length = 100) 
>lines(x, x­x, type="l", lwd=3, col= 'red')

GRÁFICA Nº37

TABLA Nº25
TABLA Nº24
t et e t−1
Observemos  et t
que   el   signo   de   los  1 ­1,2
residuos   permanece  ­1,2 1 2 ­1,9 ­1,2
­1,9 2
agrupado   a  3 ­2,4 ­1,9
­2,4 3
intervalos. 4 ­0,3 ­2,4
­0,3 4
Ahora  5 ­1,6 ­0,3
­1,6 5
∙ ∙ ∙
grafiquemos   los e t ∙
∙ ∙ ∙

versus   los e t−1 para  ∙ ∙ ∙

nuestro   ejemplo  ­2,2 19 19 ­2,2 ­0,6
(Tabla nº25): ­1,3 20 20 ­1,3 ­2,2
­0,9 21 21 ­0,9 ­1,3
­2,1 22 22 ­2,1 ­0,9
­0,3 23 23 ­0,3 ­2,1
­0,3

51
>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='e t­1', ylab='e t', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
>x <­ seq( ­3, 3, length = 100) 
>lines(x, x­x, type="l", lwd=3, col= 'red') 
>lines(x­x, x, type="l", lwd=3, col= 'red')

               GRÁFICA Nº38       

TABLA Nº26
      
Calculemos  t et e t− 1 e 2t e t−e t− 12
algebraicamente   la 
estadística   Durbin­Watson  1 ­1,2 1,44
para determinar la existencia  2 ­1,9 ­1,2 3,61 0,49
3 ­2,4 ­1,9 5,76 0,25
de   autocorrelación   (tabla 
4 ­0,3 ­2,4 0,09 4,41
nº26):  5 ­1,6 ­0,3 2,56 1,69
  ∙ ∙ ∙ ∙ ∙
n
∙ ∙ ∙ ∙ ∙
∑  e t −e t−12 56,49 ∙ ∙ ∙ ∙ ∙
t=2
d= n
= 19 ­2,2 ­0,6 4,84 2,56
2 62,57
∑e t
20 ­1,3 ­2,2 1,69 0,81
t=1 21 ­0,9 ­1,3 0,81 0,16
22 ­2,1 ­0,9 4,41 1,44
d= 0,903 23 ­0,3 ­2,1 0,09 3,24
­0,3
∑ 62,57 56,49

Ahora, el valor tabulado de D­W para el tamaño n, el número de parámetros estimados y el nivel de 
significación elegido es:

n= 23, k= 1 al 95% de significación:  dinf = 1,257 y  dS up= 1,437

       0           1,257         1,437                                     2,563         2,743           4        

                       Como 0,903 < 1,257 existe autocorrelación positiva.

Ejemplo Nº9:     Suicidio y desempleo en Japón (1953­2004)
BASE DE DATOS Nº3
El suicidio en Japón, al contrario que en occidente, no es tratado como un tabú, 
es más, muchas veces es considerado como un acto honorable, sobre todo en hombres  Año Xi
Yi
de mediana edad que ya no son capaces de mantener económicamente a sus familias, 
pues en esta sociedad la vergüenza y la falta de prestigio asociadas al el hecho de no  1948 18,7 0,7
tener trabajo es enorme.  1949 20,9 1,1
Como   causas   del   suicidio   en   este   país   se   pueden   consideran   las   recesiones  1950 24,1 1,3
económicas ­que generan desempleo­, el fin del modelo japonés de bienestar, la crisis en  1951 21,8 1,1
1952 21,8 1,3
las   estructuras   familiares   y   la   influencia   de   la   cultura   budista   ­imperante   entre   los 
∙ ∙ ∙
japoneses­ que no estigmatiza el suicidio.
∙ ∙ ∙
La base de datos nº3 nos entrega los valores la tasa de suicidio en hombres por  ∙ ∙ ∙
cada   100.000   habitantes    Yi  y   la   tasa   de   cesantía   en   %   de   la   fuerza   laboral   para  2000 35,2 4.9
hombres mayores de 15 años  Xi  para Japón entre los años 1948 y 2004. 2001 34,2 5.2
2002 35,2 5.5
Para orientarnos, grafiquemos estas variables y la recta de regresión asociada a 
2003 38,0 5,5
ellas (gráfica nº39):
2004 35,6 4,9
FUENTE:
http://www.stat.go.jp/english/data/chouki/index.htm

52
Problemas en el análisis de regresión: Autocorrelación

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook') 
>abline(lm(a$V1~a$V2), lwd=3, col='red') 
>title(main=paste("Relación entre las tasas de suicidio", "y desempleo en 
Japón",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

     GRÁFICA Nº39

SALIDA Nº27

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
    Min        1Q       Median       3Q       Max 
­4.4460   ­2.2741    ­0.7309     1.8405   7.5832 

Coefficients:
                 Estimate   Std. Error  t value   Pr(>|t|)    
(Intercept)  14.6590     0.8453     17.34    <2e­16 ***
a$V2           4.1432      0.3242     12.78    <2e­16 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 2.914 on 55 degrees of freedom
Multiple R­squared: 0.748,Adjusted R­squared: 0.7434 
F­statistic: 163.3 on 1 and 55 DF,  p­value: < 2.2e­16 

SALIDA Nº28
Y determinemos la presencia de autocorrelación:
Durbin­Watson test
>library(lmtest)
>library(MASS)
>a1 <­  (lm(a$V1~a$V2))  data:  lm(a$V1 ~ a$V2) 
>summary(a1) DW = 0.4026, p­value = 2.934e­15
>dwtest (lm(a$V1~a$V2))  alternative hypothesis: true autocorrelation is greater than 0 

El valor tabulado para los valores límites de la estadística Durbin­Watson es para 50 grados de libertad, 1 
variable independiente al 95% de significación:

                     

      0           1,503         1.585                                      2,597         2,415           4                        

Como 0,4026 < 1,503 existe autocorrelación positiva.

Grafiquemos los residuos estandarizados versus el tiempo (gráfica nº40):

>a <­ read.table('a.txt')9 
>a1 <­ (lm(a$V1~a$V2))
>par(bg = "Ivory 2") 
>plot(a$V2, stdres(a1), col=3, xlab='Tasa de desempleo', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook') 
>lines(a$V2,stdres(a1), lwd=3, col=4) 
>x <­ seq( 0, 5.7, length = 100) 
>lines(x, x­x, type="l", col= 'red', lwd=3) 
>title(main=paste("Tasa de desempleo", "versus residuos estandarizados",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
                                             
Ahora grafiquemos los e t versus los e t−1 para la base datos nº3 (gráfica nº41):

Para esto convirtamos nuestros datos que contienen los residuos en una matriz:
9  Para trazar las lineas entre los puntos según un orden ascendente del valor X y no sobre el orden cronológico de años sucesivos, debemos  
ordenar los datos según las X en orden ascendente, sino las líneas se unirán por año consecutivo.

53
>a <­ read.table('a.txt') 
>a1 <­ (lm(a$V1~a$V2)) 
>m<­as.matrix(stdres(a1)) 

Creemos dos vectores, uno que excluya la primera observación y el otro que excluya la última:

>m1<­m[­c(1)] 
>m2<­m[­c(50)] 

Y grafiquemos:

>par(bg = "Ivory 2") 
>plot(m1,m2, xlab='e t­1', ylab='e t', col=3, cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
>x <­ seq( ­2, 3, length = 100) 
>lines(x, x­x, type="l", col= 'red', lwd=3) 
>lines(x­x, x, type="l", col= 'red', lwd=3)

                  GRÁFICA Nº40                                                                                                                  GRÁFICA Nº41

                

 3.1.4 SOLUCIONANDO LA AUTOCORRELACIÓN

Tenemos 2 opciones dependiendo del caso:

¿La autocorrelación surge por errores en el modelo o es pura? 

1.­ A   veces   se   observan   patrones   en   los   residuos   porque   el   modelo   es   erróneo   ­esto   es,   se   han 
excluído importantes variables­ o porque la forma funcional es incorrecta.
2.­ Si se trata de autocorrelación pura, podemos hacer las transformaciones apropiadas al modelo 
original, para hacer que este modelo transformado no presente el problema de autocorrelación (pura). Usamos 
para esto el método de mínimos cuadrados generalizados (MCG).
La solución depende del conocimiento que tengamos de la naturaleza de la interdependencia entre los 
errores, esto es, sobre la estructura de la autocorrelación.

Consideremos el siguiente modelo de regresión de 2 variables:

Y t = b 0b1 X t t y asumamos que t sigue el siguiente patrón autorregresivo de primer orden :


t =  t−1t −1  1

Consideraremos sólo el caso cuando  es conocido:

Acá, el problema de la autocorrelación es fácil de resolver. Si  Y t = b 0b1 X t t es cierto, también lo es 


que: Y t−1= b 0b1 X t−1 t−1

54
Problemas en el análisis de regresión: Autocorrelación

nuestro sistema de ecuaciones resulta entonces: Y t = b 0b1 X t t


Y t−1= b 0b1 X t−1 t−1

multipliquemos esta última expresión por   y restémosela a la primera. Nos queda:
Y t − Y t−1= b0  1−b 1 X t −X t−1t donde:  t =  t− t−1 (83)

La expresión anterior puede escribirse como:
Y ✴t = b ✴0 b 1 X ✴t t (ecuación de diferencias generalizada) (84)
Ya   que t satisface   los   supuestos   usuales   del   método   de   MCO,   podemos   aplicar   este   método     las 
variables transformadas  Y ✳ y  X ✳ y obtener los mejores estimadores lineales insesgados (MELI).
En el proceso de diferencias perdemos una observación, pues la primera no tiene un antecedente. Para 
evitar perder esta primera observación, las primeras   Y t y X t se transforman como sigue (transformaciones 
∗ ∗

de Prais­Winsten):
Y ✴1 = Y 1  1−2 y X 1✴= X 1  1−2 (85)

3.1.4.1 Corrección de la autocorrelación de primer orden positiva.

Método Durbin de dos etapas (un caso de mínimos cuadrados generalizados).

1 Se estima   aplicando una regresión:
Y t = b 0 1− Y t−1 b1 X t −b 1  X t−1  t

2 Se reestima la regresión con las variables transformadas:
Y t −  Y t−1= b0  1−  b 1 X t −  X t−1t −   t−1 

Solución de la autocorrelación de nuestro ejemplo.

Corramos una regresión con los valores Y t , Y t−1 , X t y X t−1 de la tabla nº27:

>a <­ read.table('a.txt')
>a1 <­  (lm(a$V1~a$V2+a$V3+a$V4)) 
>summary(a1)

SALIDA Nº29
TABLA Nº27
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4) Yt Y t−1 Xt X t−1

Residuals: 18,7 0,7


    Min      1Q  Median      3Q     Max  20,9 18,7 1,1 0,7
­3.1328 ­1.1761 ­0.4511  0.7820  6.2941  24,1 20,9 1,3 1,1
21,8 24,1 1,1 1,3
Coefficients: 21,8 21,8 1,3 1,1
                  Estimate  Std. Error  t value   Pr(>|t|)     ∙ ∙ ∙ ∙
(Intercept)   2.71385    1.34622   2.016    0.048991 *   ∙ ∙ ∙ ∙
a$V2           0.80148    0.08354   9.594    4.27e­13 *** ∙ ∙ ∙ ∙
a$V3           4.52956    0.81830   5.535    1.03e­06 *** 35,2 36,5 4.9 4.8
a$V4          ­3.63840    0.93665  ­3.884    0.000291 *** 34,2 35,2 5.2 4.9
­­­ 35,2 34,2 5.5 5.2
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  38,0 35,2 5,5 5.5
35,6 38,0 4,9 5,5
Residual standard error: 1.797 on 52 degrees of freedom 35,6 4,9
Multiple R­squared: 0.9079,Adjusted R­squared: 0.9026 
F­statistic: 170.8 on 3 and 52 DF,  p­value: < 2.2e­16

Nuestra ecuación de regresión estimada resulta entonces:

Y t = 2,71390.8015 Y t−1 4,5297 X t −3,6384 X t−1  t


 9,594  5.535 −3,884 

55
TABLA Nº28 Estimemos  

Yt Y t−1 Xt X t−1 Y ✴= Y t−  Y t−1 X ✴= X t−  X t−1 Y t = b0 1−    Y t−1  b1 X t −b 1  X t−1  t
 = 0,8015
18,7 0,7
20,9 18,7 1,1 0,7 5,912 0,539
24,1 20,9 1,3 1,1 7,349 0,418 Reestimemos   la   regresión   con   las   variables 
21,8 24,1 1,1 1,3 2,484 0,058 transformadas:
21,8 21,8 1,3 1,1 4,327 0,418
∙ ∙ ∙ ∙ ∙ ∙ Y ✴= Y t −  Y t−1
∙ ∙ ∙ ∙ ∙ ∙ X ✴= X t −  X t−1
∙ ∙ ∙ ∙ ∙ ∙
35,2 36,5 4.9 4.8 5,945 1,053
34,2 35,2 5.2 4.9 5,987 1,273 Para obtener las primeras observaciones que se pierden, 
35,2 34,2 5.5 5.2 7,789 1,332 apliquemos la transformación de Prais­Winsten:
38,0 35,2 5,5 5.5 9,787 1,092
35,6 38,0 4,9 5,5 5,143 0,492
35,6 4,9


Y 1 ≈ Y 1 1− 
2 18,7  1−0,8015 2= 11,1825
X ✴≈ X 1− 2
1 1  0,7  1−0,8015 2 = 0,4186

Ahora apliquemos una regresión lineal a la tabla nº29:

>a <­ read.table('a.txt')
>a1 <­  (lm(a$V1~a$V2)) 
>summary(a1)

SALIDA Nº30
TABLA Nº29
Call:
Y ✴= Y t−  Y t− 1 X ✴= X t− X
 t− 1 lm(formula = a$V1 ~ a$V2)

11,1825 0,4186 Residuals:


5,9120 0,5390     Min       1Q     Median    3Q      Max 
7,3487 0,4184 ­3.2466  ­1.3106  ­0.5588   0.6792  6.4643 
2,4839 0,0581
4,3273 0,4184 Coefficients:
∙ ∙                  Estimate   Std. Error   t value   Pr(>|t|)    
∙ ∙ (Intercept)   2.8666      0.4526     6.334   4.62e­08 ***
∙ ∙ a$V2           4.4233      0.7076     6.251   6.31e­08 ***
5,9453 1,0528 ­­­
5,9872 1,2727 Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
7,7887 1,3322
9,7872 1,0918 Residual standard error: 1.956 on 55 degrees of freedom
5,1430 0,4918 Multiple R­squared: 0.4154,Adjusted R­squared: 0.4047 
F­statistic: 39.07 on 1 and 55 DF,  p­value: 6.309e­08 

El valor tabulado para los valores límites de la estadística Durbin­Watson es para 57 grados de libertad, 1 
variable independiente al 95% de significación es:

                     

          0           1,528         1,601                                     2,399         2,472          4       

Determinemos la estadística d para la tabla nº29 con R:
SALIDA Nº31
>library(lmtest)
>library(MASS) Durbin­Watson test
>a <­ read.table('a.txt')
>dwtest (lm(a$V1~a$V2)) 
data:  lm(a$V1 ~ a$V2) 
DW = 1.6798, p­value = 0.09426
Como 1,601 < 1,6798 ya no existe autocorrelación. alternative hypothesis: true autocorrelation is greater than 0 

56
Problemas en el análisis de regresión: Heterocedasticidad

3.2 HETEROCEDASTICIDAD
3.2.1 ¿QUÉ ES LA HETEROCEDASTICIDAD?

Un   supuesto   básico   del   modelo   clásico   de   regresión   lineal   señala   que   los   errores i deben   ser 
homocedáticos, esto es, deben poseer igual varianza:

Var  i =  2 ∀ i= 1,2,... , n (86)


    GRÁFICA Nº42

Para   un   modelo   de   regresión   de   2   variables: 


Y i = b0 b1 X i i en   el   que   a   medida   que   X   aumenta,   Y   en 
promedio   también,   la   homocedasticidad   es   representada   por   la 
gráfica nº 42, donde la varianza condicional de Y i (la cual es igual 
a la de i ) sobre una X i dada, permanece constante a lo largo 
de todas las X i . En otras palabras, la dispersión de los puntos sobre 
la recta de regresión permanece constante.

En contraste, una situación heterocedática: Var  i ≠  2 ∀ i= 1,2,... , n (87)


se representa en las gráficas nº43 y nº44:

La varianza de Y i se incrementa   La varianza de Y i decrece


a medida que aumenta X i . a medida que aumenta X i .

                       GRÁFICA Nº43                                                  GRÁFICA Nº44

3.2.1.1 Razones por las que puede ocurrir la heterocedasticidad.

2
Hay varias razones por las que Var  i ≠  , como por ejemplo:
1. En modelos de medición del aprendizaje: En un proceso de aprendizaje, los errores de las personas 
disminuyen a medida que avanza el tiempo; la dispersión de los errores tiende a disminuir. En este sentido, se 
espera que Var  i  decrezca (gráfica nº43). 
2.   En   modelos   econométricos   del   tipo: Y i = b0 b1 X i i donde Y i representa   el   ahorro   y X i
representa los ingresos, a medida que el ingreso aumenta, las personas tienen mayor amplitud de decisión sobre 
2
si ahorrar o gastar, por lo tanto, es probable que i se incremente a mayor ingreso. En este ejemplo, la propia 
teoría sugiere la forma o pauta de la heterocedasticidad: la varianza del error depende positivamente de la 
renta (gráfica nº44). 
3. A medida que las técnicas de recolección de datos hacen que estos aumenten, es probable que 
2i decrezca. 
4. La heterocedasticidad también se puede producir como resultado de la presencia de datos anómalos. 
Un dato anómalo es aquel que difiere mucho en relación al resto de los datos de la muestra.
La inclusión o exclusión de aquella observación, especialmente si el tamaño de la muestra es pequeño, 

57
puede cambiar sustancialmente los resultados del análisis de regresión.
5. Una forma funcional incorrecta puede ser una fuerte fuente de heterocedasticidad. Este problema 
muy a menudo tiene que ver con el hecho de que variables importantes sean excluídas en el modelo. Así en una 
función de demanda de una mercancía si no se incluyen los precios de las mercancías complementarias con la 
mercancía   en   cuestión   (sesgo   de   la   variable   omitida),   los   residuos   obtenidos   de   la   regresión   quizás   den   la 
impresión de que la varianza del error no sea constante. Pero si las variables que han sido omitidas son incluídas 
en el modelo, esa impresión probablemente desaparecerá.
En   las   formas   funcionales   vimos   que,   por   ejemplo,   si   en   una   regresión   de Y i sobre X i podemos 
2
observar un patrón, pero al hacerla de Y i sobre X i y X i podemos ver otro, concluímos que es una forma 
2
cuadrática, por lo que X i debe incluirse en el modelo.
6. Otra fuente de heterocedasticidad es la asimetría en la distribución de uno o más regresores incluidos 
en el modelo. Ejemplos de esto son las variables económicas como el ingreso, la salud y la educación. Es bien 
conocida la desigualdad del ingreso o la calidad de la salud en la mayoría de las sociedades, con el grueso del 
ingreso y calidad de salud agrupándose en los quintiles más acomodados.
El problema de la heterocedasticidad se da más comúnmente en datos de sección transversal que en 
series de tiempo.

3.2.2 ¿CÓMO SE IDENTIFICA LA HETEROCEDASTICIDAD?

No   se   posee   una   única   y   efectiva  herramienta  para   detectar  heterocedasticidad,   sino   unos   cuantos 
2
métodos   parciales.   Ésta   situación   es   inevitable,   porque i sólo   puede   ser   conocida   si   conocemos   toda   la 
población Y i correspondiente a las X i elegidas. Pero esta situación es mas bien la excepción que la regla en 
sociología.

3.2.2.1 Método informal (gráfico).

En   estudios   de   corte   transversal   que   involucran   unidades   heterogéneas   es   muy   común   encontrar 
heterocedasticidad, como es el caso de la regresión entre ingresos y escolaridad.
Si no hay información empírica o a priori sobre la naturaleza de la heterocedasticidad, en la práctica 
podemos hacer un análisis de regresión sobre la base de que no existe y entonces examinar el patrón en la 
relación de los residuos al cuadrado1 con Y i para ver si exhiben alguna sistematicidad.
En la gráfica nº 45 no se aprecia la existencia de una evidente heterocedasticidad, al contrario de lo que 
muestran las gráficas nº46, 47 y 48.

           GRÁFICA Nº45                    GRÁFICA Nº46          GRÁFICA Nº47                   GRÁFICA Nº48

GRÁFICA Nº49
2
También   se   puede   graficar e i versus   X,   que   para   el   caso   de   una   variable 
independiente exhibe el mismo patrón que e i versus  Y i . Para el caso de dos o 
2

2
más   variables   independientes e i se   puede   graficar   con   cualquier   regresor.   Por 
ejemplo,   la   gráfica   nº49   sugiere   que   la   varianza   heterocedática   quizás   sea 
proporcional a la X i en cuestión. Saber esto nos puede ayudar para transformar los 
datos de manera tal en la regresión, que en una nueva regresión sobre estos datos 
transformados la varianza de los errores se vuelva homocedática.

1 Utilizamos el cuadrado de los residuos para evitar consideraciones sobre sus posibles valores negativos.

58
Problemas en el análisis de regresión: Heterocedasticidad

3.2.2.2 Métodos formales.

3.2.2.2.1 El test de Park.

2
Park formalizó el método gráfico sugiriendo que i es alguna función de las variables independientes 
Xi . La forma funcional que propuso fué:
Vi 2 2
2i = 2 X i e o bien  ln i = ln  ln X i V i donde  V i es el error. (88)
2 2
Como   en   general    i es   desconocido,   Park   sugirió   usar e i como   una   aproximación   y   correr   la 
2 2
siguiente regresión: ln e = ln   ln X i V i =  ln X i V i
i (89)
Si  resulta ser estadísticamente significativo, se presume que hay presencia de heterocedasticidad en 
los datos. Si no lo es, podemos aceptar el supuesto de homocedasticidad.
El test de Park es entonces un procedimiento de dos etapas. En la primera corremos la regresión por MCO 
no   considerando   el   problema   de   la   heterocedasticidad.   Obtenemos e i de   esta   regresión   y   en   la   segunda 
2
etapa corremos la regresión siguiente: ln e i =  ln X i V i

Ejemplo Nº10: Relación entre la tasa de robos y de robo de vehículos cada 100.000 habitantes en EE.UU  
entre 1960 y el 2007.
BASE DE DATOS Nº9
La   base   de   datos   nº9   nos   entrega   como   variable   dependiente  Yi  la 
cantidad   total   de   robos   de   vehículos   y   como   variable   independiente  Xi  la  Año Yi Xi
cantidad total de robos para EE.UU. entre los años 1960 y 2007.
1960 328200 107840
Grafiquemos los datos, la recta de regresión a ellos asociada y los residuos 
1961 336000 106670
versus la variable independiente:
1962 366800 110860
1963 408300 116470
>a <­ read.table('a.txt') 
1964 472800 130390
>par(bg = "Ivory 2") 
∙ ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Robos', ylab='Robo de vehículos', cex.lab=1,family='NewCenturySchoolbook') 
>abline(lm(a$V1~a$V2), lwd=3, col='red')  ∙ ∙ ∙
>title(main=paste("Relación de robos", "y robos de vehículos entre 1960 y el 2007 en  ∙ ∙ ∙
EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')  2003 1261226 414235
2004 1237851 401470
>library(lmtest)  2005 1235859 417438
>library(MASS)  2006 1192809 447403
>par(bg = "Ivory 2")  2007 1095769 445125
>a1 <­ (lm(a$V1~a$V2))  FUENTE:
>plot(a$V2, stdres(a1), col=3, xlab='Robos', ylab='Residuos estandarizados',  http://www.disastercenter.com/crime/uscrime.htm
cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Residuos estandarizados versus robos", "entre 1960 y el 2007 en 
EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
>x <­ seq( 100000, 700000, length = 100) 
>lines(x, x­x, type="l", col= 'red', lwd=3)

    GRÁFICA Nº 50                                GRÁFICA Nº 51

59
SALIDA Nº32
Obtengamos nuestra recta estimada:
Call:
>summary(a1) lm(formula = a$V1 ~ a$V2)

 2003002,051 X
Y= R 2=0,8625 Residuals:
3,719 17,198     Min      1Q  Median      3Q     Max 
­328441  ­83459   11419   99699  214231 
2
Obtengamos   los   valores   de   e i , X i , ln e i y
Coefficients:
ln X i (tabla nº30) y corramos una   regresión de   ln e 2i                    Estimate    Std. Error   t value   Pr(>|t|)    
sobre  ln X i : (Intercept)  2.003e+05  5.384e+04   3.719   0.000542 ***
a$V2          2.051e+00  1.193e­01   17.198   < 2e­16 ***
­­­
>a <­ read.table('a.txt')
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
>a1 <­ lm(a$V1~a$V2)
>summary(a1)
Residual standard error: 130500 on 46 degrees of freedom
Multiple R­squared: 0.8654,Adjusted R­squared: 0.8625 
F­statistic: 295.8 on 1 and 46 DF,  p­value: < 2.2e­16 

Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,46)
[1] 2.012896 por lo que nuestro parámetro estimado es significativo al 5%: hay heterocedasticidad.

SALIDA Nº33
TABLA Nº30
Call:
ei Xi lne 2i ln X i lm(formula = a$V1 ~ a$V2)

­83018,57 106670 22,654 11,577 Residuals:


­93218,1 107840 22,885 11,588     Min       1Q     Median      3Q     Max 
­60811,78 110860 22,031 11,616 ­4.9030  ­0.4599   0.2472    1.1756  2.3182 
­30817,25 116470 20,672 11,665
5134,42 130390 17,087 11,778 Coefficients:
∙ ∙ ∙ ∙                  Estimate  Std. Error t value   Pr(>|t|)   
∙ ∙ ∙ ∙ (Intercept)    5.422      6.120     0.886     0.3803   
∙ ∙ ∙ ∙ a$V2           1.329       0.476     2.792     0.0076 **
69653,62 618950 22,303 13,336 ­­­
124579,61 639270 23,465 13,368 Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
9531,37 659870 18,325 13,400
31369,69 672480 20,707 13,419 Residual standard error: 1.718 on 46 degrees of freedom
50993,68 687730 21,679 13,441 Multiple R­squared: 0.1449,Adjusted R­squared: 0.1263 
F­statistic: 7.795 on 1 and 46 DF,  p­value: 0.007607 

Aunque empíricamente atractivo, el test de Park adolece de ciertos problemas. Goldfeld y Quandt han 
argumentado que el error V i puede no satisfacer los supuestos del método de MCO y puede ser él mismo 
heterocedático. No obstante, como un método estrictamente exploratorio, el test de Park puede ser utilizado.

3.2.2.2.2 El test de Goldfeld­Quandt. 

El contraste de Goldfeld­Quant se utiliza para contrastar la homocedasticidad cuando la forma de la 
2
heterocedasticidad no es conocida, aunque se intuye que la varianza heterocedática i guarda una relación 
monótona –creciente o decreciente– respecto a alguna variable exógena.
Por simplicidad consideremos el modelo de 2 variables usual: Y i = b0 b1 X i i
2 2 2 2
Supongamos que   i está relacionada positivamente con X i como sigue: i =  X i donde 2
es una constante.
2
El supuesto anterior postula que  i es proporcional al cuadrado de X.

Para hacer este test explícito, Goldfeld y Quandt sugieren seguir los siguientes pasos:

60
Problemas en el análisis de regresión: Heterocedasticidad

1. Hacer un ranking de las observaciones X i comenzando con su menor valor. Si estamos en presencia 
de un modelo de regresión con 2 o más variables independientes, el primer paso del test, el orden por ranking, 
puede hacerse tomando cualquier X i . Si no estamos seguros cuál variable X i es apropiada, podemos hacer 
el test para cada una de las variables independientes.
2.   Omitir   c   observaciones   centrales,   donde   c   se   especifica   a   priori   y   divide   las   restantes   (n­c) 
observaciones   en   dos   grupos,   cada   uno   con   (n­c)/2   observaciones.   Las   observaciones   c   son   omitidas   para 
agudizar la diferencia entre el grupo de menor varianza SCR 1 y el grupo de mayor varianza SCR 2 . La 
capacidad de éxito del test Goldfeld­Quandt depende de como sea elegido el valor c. c=4 si n=30 y c=10 si n=60 
ha sido en la práctica satisfactoriamente encontrado.
3. Aplicar regresiones por el método de MCO a ambos grupos y obtener las respectivas sumas de los 
cuadrados   de   los   residuos SCR1 (referido   a   los   menores   valores   de X i ­el   grupo   de   menor   varianza­)   y 
SCR 2 (referido a los mayores valores de X i ­el grupo de mayor varianza­)
n−c
SCR1 y  SCR 2 tienen −k grados de libertad (g.l.) siendo k es el número de parámetros a ser 
2
estimado incluyendo la intercepción y n el número de casos.
SCR 2
4 Calcular la siguiente fracción: = (90)
SCR1
Si suponemos a i normalmente distribuido (lo que suele suceder), entonces puede demostrarse que 
n−c 
 sigue   una   distribución   F   con   −k   grados   de   libertad   tanto   para   el   numerador   como   para   el 
2
denominador.
Si existe heterocedasticidad, con la ordenación de la muestra, la varianza del error será mayor hacia el 
final de la muestra que al principio de la misma. Como el cuadrado de los residuos está asociado con la varianza 
de   los   mismos,   entonces SCR 2 debería   ser   sensiblemente   mayor   que SCR 1 .   Por   ello,   se   rechazará   la 
hipótesis   nula   de   homocedasticidad   siempre   que   el   valor   de  exceda   el   valor   tabulado   al   nivel   de 
significación elegido y a los grados de libertad dados para F. en este caso se puede afirmar la existencia de 
heterocedasticidad.

Ejemplo Nº11:  Tasa de crímenes violentos versus crímenes contra la propiedad para los departamentos 
de policía de California durante el año 2007

La base de datos nº10 nos entrega como variable dependiente  Yi  la tasa de crímenes violentos y 
como variable independiente  Xi  la tasa de crímenes contra la propiedad por cada 100.000 habitantes entre 
los años 1960 y 2007 para 396 agencias de policía del Estado de Texas.

Grafiquemos los datos y la recta de regresión a ellos asociada y también los residuos versus la variable 
independiente:

>a <­ read.table('a.txt')  BASE DE DATOS Nº10
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='Tasa de crímenes contra la propiedad', ylab='Tasa de  Agencia Yi Xi
crímenes violentos', cex.lab=1,family='NewCenturySchoolbook') 
>abline(lm(a$V1~a$V2), lwd=3, col='red') 
Adelanto Police Dept 532,7 2639,4
>title(main=paste("Tasa de crímenes violentos", "versus crímenes contra la 
Agoura Hills 213,4 1515,3
propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
Alameda County Sheriff Dept 562,1 2357,2
>library(lmtest)  Alameda Police Dept 291 2805
>library(MASS)  Albany Police Dept 283,2 4883,9
>a1 <­ (lm(a$V1~a$V2))  ∙ ∙ ∙
>par(bg = "Ivory 2")  ∙ ∙ ∙
>plot(a$V2, stdres(a1), col=3, xlab='Tasa de crímenes contra la propiedad', ylab='Residuos  ∙ ∙ ∙
estandarizados', cex.lab=1,family='NewCenturySchoolbook')  Yorba Linda 66,4 1556,2
>title(main=paste("Residuos estandarizados versus ", "tasa de crímenes contra la  Yuba County Sheriff Dept 398,6 2043,4
propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
Yuba City Police Dept 395,9 3091,4
>x <­ seq( 0, 9000, length = 100) 
Yucaipa 100,7 1770,5
>lines(x, x­x, type="l", col= 'red', lwd=3)
Yucca Valley 354,7 2698,3
FUENTE:
http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm

61
        GRÁFICA Nº 52                  GRÁFICA Nº 53

Hagamos   un   ranking   de   las   observaciones X i comenzando   con   sus   menores   valores   (tabla   nº31)   y 
omitamos un sexto de las observaciones centrales (c=66) estableciendo dos grupos con 165 observaciones cada 
uno ((n­c)/2).
Obtengamos   las   respectivas   sumas   de   los   cuadrados   de   los   residuos SCR1 referida   a   los   menores 
valores   de X i ­el   grupo   de   menor   varianza­,   y SCR 2 ,   referida   a   los   mayores   valores   de X i ­el   grupo   de 
mayor varianza­) (tabla nº32 y nº33 respectivamente):

TABLA Nº31 TABLA Nº32 TABLA Nº33

Agencia Yi Xi Agencia Yi Xi Agencia Yi Xi

Laguna Woods 16,4 502,4 Laguna Woods 16,4 502,4 Loma Linda 129,4 2832,6


Avenal 256,2 774,4 Avenal 256,2 774,4 Temecula 221 2833,5
Hillsborough Police Dept 18,7 888,1 Hillsborough Police Dept 18,7 888,1 Auburn Police Dept 374,8 2853,4
Nevada County Sheriff Dept 197,1 891,3 Nevada County Sheriff Dept 197,1 891,3 Paradise Police Dept 208,5 2861,9
Corcoran Police Dept 189,8 910,8 Corcoran Police Dept 189,8 910,8 Redding Police Dept 498,2 2896,2
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Desert Hot Springs 1155,3 7191,3 Duarte 377,4 2350 Desert Hot Springs 1155,3 7191,3
Palm Springs Police Dept 632,4 7249,4 Fontana Police Dept 507,7 2352,5 Palm Springs Police Dept 632,4 7249,4
Oroville Police Dept 1458,1 7570,5 Ridgecrest Police Dept 576,8 2356,6 Oroville Police Dept 1458,1 7570,5
Commerce 1089,8 8316,3 Alameda County Sheriff Dept 562,1 2357,2 Commerce 1089,8 8316,3
Santa Fe Springs 796,2 8804,6 Farmersville Police Dept 538,2 2377,9 Santa Fe Springs 796,2 8804,6

SALIDA Nº34

Para SCR1 :
Analysis of Variance Table

>a<­ read.table('a.txt') Response: a$V1
>a1 <­ (lm(a$V1~a$V2)) 
                    Df        Sum Sq      Mean Sq         F value        Pr(>F)    
>anova(a1)
a$V2            1         1235655      1235655         43.577      5.468e­10 ***
Residuals     163        4621964       28356                      
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

62
Problemas en el análisis de regresión: Heterocedasticidad

SALIDA Nº35

Analysis of Variance Table Para SCR 2 :

Response: a$V1 >a<­ read.table('a.txt')
                    Df        Sum Sq      Mean Sq       F value      Pr(>F)     >a1 <­ (lm(a$V1~a$V2))
a$V2             1        3179031      3179031        41.884     1.085e­09 *** >anova(a1)
Residuals      163      12371907      75901                      
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

n−c 396−66 
siendo los grados de libertad de cada SCR: −k= −2= 163
2 2

SCR 2 12371907
Calculemos la siguiente fracción: = = = 2,677
SCR1 4621964
Calculemos F con R con (k­1) y (n­k) grados de libertad:

>qf(0.95,1,394) 
[1] 3.865169  2,677< 3,8652
Así, con un 95% de confianza, no se puede afirmar la existencia de heteroscedasticidad.

3.2.2.2.3 El test de Koenker­Bassett.

2
El test de K­B se basa en el cuadrado de los residuos e i , pero en vez de correr la regresión sobre uno o 
más regresores, se hace sobre el cuadrado del valor estimado del regresando Y2 . i
Así, si el modelo original es: Y i = b0 b1 X 1i b2 X 2i...b k X kii
Corremos una regresión obteniendo: Y i = b0  b1 X 1i  b2 X 2i... b k X kie i
Y corremos una regresión nuevamente pero de e sobre  Y2 obteniendo:
2
i i

e2i =  1 2 Y i 2V i (91)


La   hipótesis   nula   es  2= 0 .   Si   esta   es   rechazada   entonces   podemos   concluir   que   hay 
heterocedasticidad. Para el caso de una regresión lineal simple, la H0 puede ser probada con los test t o F 
2
(recordemos que  F1, k = tk )
Una ventaja del test de K­B es que es aplicable incluso si el error en el modelo original i  no está 
normalmente distribuído.

Ejemplo Nº12:  Obesos versus actividad física.
BASE DE DATOS Nº 11
La   base   de   datos   nº11   nos   entrega   como   variable   dependiente,   el 
porcentaje   de   población   obesa  Yi  y   como   independiente,   el   porcentaje   de  Estado Yi Xi
población que en una encuesta responde hacer ejercicios  Xi  para 53 Estados 
Alabama 32,2 70,5
Norteamericanos2 para el año 2008. 
Alaska 27 75,9
Grafiquemos los datos, la recta de regresión a ellos asociada y los residuos  Arizona 25,5 76,8
versus la variable independiente: Arkansas 29,5 70,2
California 24,2 76,6
>a <­ read.table('a.txt')  ∙ ∙ ∙
>par(bg = "Ivory 2")  ∙ ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Cantidad de gente que hace ejercicios %', ylab='Cantidad de obesos %', 
∙ ∙ ∙
cex.lab=1,family='NewCenturySchoolbook') 
Virgin Islands 26,5 66,8
>abline(lm(a$V1~a$V2), lwd=3, col='red') 
>title(main=paste("Relación ejercicio­ Washington 26 80,6
obesidad"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')  West Virginia 31,9 68,9
Wisconsin 26 77,9
>a1 <­ (lm(a$V1~a$V2)) Wyoming 25,2 75,6
>plot(a$V2,residuals(a1),   col=3,   xlab='%   de   población   que   hace   ejercicios',   ylab='Residuos',  FUENTE:
main='Residuos versus % de población que hace ejercicios') http://apps.nccd.cdc.gov/brfss

2 Excluímos el Estado libre asociado de Puerto Rico.

63
    GRÁFICA Nº 54                                                                             GRÁFICA Nº 55

SALIDA Nº36 2
Determinemos   los e i y   los  TABLA Nº34

Call: Y2 (tabla nº34):


i e 2i 2
Yi
lm(formula = a$V1 ~ a$V2)
>residuals(a1)*residuals(a1) 8,817 854,428
Residuals: >fitted(a1)*fitted(a1) 0,934 677,735
     Min      1Q       Median     3Q     Max  0,000 650,273
   ­4.696  ­3.512     ­2.346     1.772  19.032  2
Corramos una regresión de e i 0,008 864,844
2,013 656,327
Coefficients: sobre  Y2 : i ∙ ∙
                  Estimate    Std. Error   t value   Pr(>|t|) ∙ ∙
(Intercept)  1.137880    4.669830    0.244      0.808 >a <­ read.table('a.txt') ∙ ∙
a$V2           0.004101   0.006468    0.634      0.529 >a1 <­ (lm(a$V1~a$V2)) 24,219 987,299
>summary(a1) 7,560 540,587
Residual standard error: 5.454 on 51 degrees of freedom
2,965 910,708
Multiple R­squared: 0.00782,Adjusted R­squared: ­0.01163 
1,324 617,481
F­statistic: 0.4019 on 1 and 51 DF,  p­value: 0.5289 
1,022 687,014

Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,51)
[1] 2.007584 Nuestro parámetro estimado no es significativo al 5%, por lo que hay homocedasticidad.
3.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD 
                 GRÁFICA Nº56
La   heterocedasticidad   no   acaba   con   las   propiedades 
insesgadas y consistentes de los estimadores por MCO, pero no los 
hace los más eficientes, ni siquiera asintóticamente (por ejemplo 
en   una   muestra   de   gran   tamaño).   Esta   ausencia   de   eficiencia 
produce   estimaciones   sesgadas   de   los   errores   standard   (lo   que 
provoca   pruebas   estadísticas   e   intervalos   de   confianza 
incorrectos), por lo que esta situación debe ser remediada. 

Consideremos   el   modelo   de   regresión   de   dos   variables 


cuando la varianza no es conocida:

Y i = b0 b1 X i i

2 2 2
Supongamos que el patrón de heterocedasticidad sigue la forma:   E i =  X i , esto es, la varianza 
2
del error es proporcional a  X i (gráfica nº57).

64
Problemas en el análisis de regresión: Heterocedasticidad

               GRÁFICA Nº 57
  Entonces podemos transformar el modelo original como sigue:
Yi b 0  b
Y i = b0 b1 X i i /X i = b 1 i = 0 b1 V i (92)
Xi Xi Xi Xi
i
donde  V i es el término del error transformado, igual a 
Xi
2
2 1 i
Resulta fácil verificar que:  E V i = E  2
E 2i =  2
=
Xi Xi
Por lo tanto ahora  V i es homocedática y podemos aplicar el método 
de MCO a la ecuación:
Yi b 0 i Yi 1
= b 1 corriendo una regresión de  sobre 
Xi Xi Xi Xi Xi

Ejemplo Nº13: Solución de la heterocedasticidad del ejemplo 10.

Hemos   ya   comprobado   la   existencia   de   heterocedasticidad   en   el   ejemplo   nº10.   Apliquemos   la 


transformación   de   variables   propuesta   para   solucionar   este   problema   (tabla   nº35)   y,   con  el   test   de   Park 
verifiquemos que ahora éstas variables (tabla nº36) son homocedáticas.
2 2
Obtengamos los valores de e i , X i , ln e i y ln X i (tabla nº36) para la tabla nº35 y corramos una 
2
nueva regresión de ln e i sobre ln X i para obtener la salida nº37:

>a <­ read.table('a.txt') # Leemos los datos de la tabla nº35 #
>a1 <­ lm(a$V1~a$V2)
>residuals(a1)*residuals(a1) # Obtenemos los residuos al cuadrado#

>a <­ read.table('a.txt') # Leemos las dos últimas columnas de la tabla nº36 #
>a1 <­ lm(a$V1~a$V2)
>summary(a1)

BASE DE DATOS Nº9 TABLA Nº35 TABLA Nº36


Yi 1
Año Yi Xi 2
ei   Xi
2
lne i ln X i
Xi Xi

1960 328200 107840 3,04339763 0,00000927 0,25904500 0,00000927 ­1,35075349 ­11,58840393


1961 336000 106670 3,14990157 0,00000937 0,17397260 0,00000937 ­1,74885746 ­11,57749524
1962 366800 110860 3,30867761 0,00000902 0,04288449 0,00000902 ­3,14924506 ­11,61602342
1963 408300 116470 3,50562377 0,00000859 0,00278896 0,00000859 ­5,88208651 ­11,66538901
1964 472800 130390 3,62604494 0,00000767 0,09481216 0,00000767 ­2,35585761 ­11,77828524
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
2003 1261226 414235 3,04471134 0,00000241 0,24663510 0,00000241 ­1,39984536 ­12,93418872
2004 1237851 401470 3,08329639 0,00000249 0,27404920 0,00000249 ­1,29444763 ­12,90288809
2005 1235859 417438 2,96058097 0,00000240 0,17136060 0,00000240 ­1,76398517 ­12,94189131
2006 1192809 447403 2,66607287 0,00000224 0,02041255 0,00000224 ­3,89160537 ­13,01121503
2007 1095769 445125 2,46171076 0,00000225 0,00396315 0,00000225 ­5,53071586 ­13,00611042

SALIDA Nº37

Call:
lm(formula = a$V1 ~ a$V2)

Nuestro valor crítico t para un 95% de significación es: Residuals:
    Min      1Q  Median      3Q     Max 
>qt(0.975,46) ­5.5803 ­0.3668  0.3399  1.0647  2.7727 
[1]   2.012896   por   lo   que   nuestro   parámetro   estimado   no   es 
Coefficients:
significativo   al   5%   y   las   variables   no   presentan 
                   Estimate  Std. Error  t value   Pr(>|t|)  
heterocedasticidad. (Intercept)     9.6211     6.8371    1.407      0.1661  
a$V2            1.0072      0.5317     1.894      0.0645 .
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.919 on 46 degrees of freedom
Multiple R­squared: 0.07237,Adjusted R­squared: 0.0522 
F­statistic: 3.589 on 1 and 46 DF,  p­value: 0.06447 

65
3.3 MULTICOLINEALIDAD
3.3.1 ¿QUÉ ES LA MULTICOLINEALIDAD?

Un supuesto importante del modelo de regresión lineal por MCO establece que  no existen relaciones 
lineales exactas entre los regresores o variables independientes (los regresores no son exactamente colineales). 
De haberlas, surge un problema llamado multicolinealidad perfecta1. Éste supuesto es necesario para el cálculo 
del   vector   de   estimadores   de   los   parámetros   verdaderos,   ya   que   en   caso   contrario X ' X será   singular   (no 
tendrá   inversa)   y   nos   resultará   imposible   determinar b=  X ' X−1 X ' Y .   Los   coeficientes   así   resultantes   serán 
indeterminados y sus errores standard infinitos. Cuando dos o más regresores están altamente correlacionados en 
la muestra, se hace muy difícil separar el efecto parcial de cada uno de ellos sobre la variable dependiente. 
Un   conjunto   k   de   variables   predictoras X 1i , X 2i , ..., Xki son   perfectamente   multicolineales   si   para   k 
constantes C0 , C 1 , C 2 , ..., Ck que no son cero simultáneamente, se cumple la siguiente condición:

C1 X 1i C2 X 2i ...Ck X ki= C0 (93)

Asumamos que Ck ≠ 0 , entonces, para el caso de perfecta multicolinealidad:

j=k−1

 
C0− ∑ Cj X j 
(94)
j=1
X ki=
Ck

La expresión anterior muestra que   X ki es combinación lineal de todos los demás regresores. Se hace 
entonces así imposible calcular las estimaciones por MCO de los parámetros, porque el sistema de ecuaciones 
normales contendrá una o más ecuaciones que no son independientes.
               GRÁFICA Nº58
La   multicolinealidad   perfecta   casi   no   ocurre   en   la 
práctica. Lo que si suele suceder es la existencia de una relación 
aproximadamente   lineal,   no   exacta,   entre   dos   o   más   variables 
exógenas.   Cuando   esto   ocurre,   los   estimadores   obtenidos   son 
poco precisos, aunque sus  propiedades de insesgadez, eficiencia 
y consistencia  no  se  ven  afectadas,  esto  es,  los  estimadores  por 
MCO   siguen   siendo   los   MELI.   Sin   embargo,   a   pesar   de   que   las 
varianzas   de   los   estimadores   por   MCO   son   las   mínimas   posibles 
(son eficientes) son mayores que las que se lograrían en ausencia 
del problema de multicolinealidad. 
En   los   siguientes   gráficos   los   círculos   representan   las 
variaciones   tanto   de   las   variables   dependientes,   como   de   la 
independiente.   El   grado   de   colinealidad   puede   medirse   por   la 
extensión de las intersecciones entre los círculos X 1 y  X 2 .

                GRÁFICAS Nº 59

                No existe colinealidad                   Existe una baja colinealidad           Existe una alta colinealidad              Casi perfecta colinealidad

1  El efecto totalmente contrario a la multicolinealidad perfecta es la ortogonalidad, en el que el coeficiente de correlación simple entre dos  
variables es cero. En la ortogonalidad, el efecto que una variable tiene sobre la respuesta se mide de manera totalmente independiente del 
efecto individual que otra variable tenga sobre la misma.

66
Problemas en el análisis de regresión: Multicolinealidad

La multicolinealidad puede afectar a dos regresores (el caso más simple de todos), a un subconjunto o 
incluso a todos, estando frecuentemente presente en series de tiempo (por ejemplo, la población y el PIB suelen 
estar altamente correlacionados)

3.3.1.1 ¿Por qué se produce?

La  multicolinealidad   es,   en   cierto   sentido,   un   fenómeno   inevitable.   En   un   sistema   social  es   muy  difícil 
suponer la ausencia de relación entre sus distintos elementos. Por el contrario, la sociología se apoya en la idea 
de la existencia de interrelaciones entre las variables de los sistemas sociales analizados.                

Suele aparecer cuando:

1.   Ocurre   un   error   en   la   especificación   (los   regresores   no   son   importantes   en   la   explicación   del 


regresando:   se   omiten   variables   relevantes   o   bien   se   integran   aquellas   que   no   lo   son)   cometido   por   el 
investigador que ignora una igualdad o combinación lineal entre las variables independientes.
2. Se cae en la 'trampa de las dummies' que consiste en incluir un número tal de variables ficticias que 
todas ellas acaben por generar una combinación lineal entre sí. Si una variable independiente cualitativa tiene m 
categorías, debe representarse por medio de m­1 variables dummy, asignando a cada una de ellas los valores de 
0 ó 12.
3. Se recolecta un limitado rango de los valores tomados por los regresores en la población.
4. El modelo tiene más variables independientes que número de observaciones.
5.   Especialmente   en   series   de   tiempo,   los   regresores   incluidos   en   el   modelo   presentan   tendencias 
comunes, esto es, se incrementan o decrecen a medida que transcurre el tiempo.

3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD.

Teniendo   en   consideración   que   las   consecuencias   de   la   multicolinealidad   están   directamente 


relacionadas con la magnitud con que se presenta, las más importantes son:

1. Se hace difícil cuantificar con precisión el efecto que cada regresor ejerce sobre el regresando, 
debido a que los errores estándar de los coeficientes estimados son elevados, es decir, tienden a ser mayores de 
lo que serían si no hubiera multicolinealidad. 
Producto de lo anterior, el valor del estadístico para realizar contrastes de significación individual: 

b j −b j b j
t=  (95)
S b j  Sb j 

tiende   a   ser  pequeño,   aumentando   así   la   probabilidad   de   no   rechazar   la  hipótesis   nula.   Es   así   que   se   suele 
concluir que los coeficientes estimados no son significativas individualmente y llegar a la conclusión errónea de 
que la variable independiente X i no es importante en el modelo.. El problema no reside en que los contrastes 
no sean correctos estadísticamente, sino en que no estimamos con suficiente precisión esos efectos individuales.
2
En presencia de multicolinealidad es común obtener valores altos de R j aún cuando los valores de los 
estadísticos t de significación individual sean bajos. El problema reside en la identificación del efecto individual 
de cada variable explicativa, no tanto en su conjunto. Por eso, si se realiza un contraste de significación conjunta 
de las variables explicativas, el resultado normalmente será rechazar la hipótesis nula aunque individualmente 
cada una de ellas no sea significativa.
2. En el caso de existencia de multicolinealidad exacta, los parámetros no pueden estimarse ya 
que, al existir dentro de la matriz X de observaciones de variables exógenas una combinación lineal de éstas, 
no puede ser invertida, de esta manera, X ' X tampoco tendrá inversa haciendo imposible calcular la expresión 
del estimador mínimo cuadrático: b=   X ' X −1 X ' Y
3. Pequeños   cambios   en   los   datos   o   en   la   especificación   provocan   grandes   cambios   en   las 
estimaciones de los coeficientes. Los parámetros sean muy inestables y fluctúan de forma importante al introducir 
nueva información. Efectivamente, al ser el parámetro más imperfecto, al presentar mayor rango de variación, 
una nueva estimación puede arrojar valores muy diferentes al anterior.
4. Las estimaciones de los coeficientes suelen presentar signo distintos a los esperados y magnitudes 
poco razonables.

2 Esta situación la estudiaremos en detalle en la sección 4, capítulo 1: '' Variables Dummy'.

67
 3.3.3 ¿CÓMO SE IDENTIFICA LA MULTICOLINEALIDAD?

La multicolinealidad es una característica de la muestra (está asociada a la configuración concreta de 
la matriz X )  y no de la población, por lo tanto, no existe un contraste estadístico que sea aplicable para su 
detección.   Además,   como   hemos   visto,   la   multicolinealidad   es   una   cuestión   de   grado   y   no   de   presencia   o 
ausencia. No obstante, podemos detectarla con algunas reglas prácticas (aunque no siempre fiables) o medirla 
para una muestra particular con el Factor de inflación de la varianza.

Debemos sospechar la existencia de multicolinealidad cuando:

1. Hay coeficientes de regresión significativos con valores muy grandes o de signo opuesto al esperado.
2.   Los   coeficientes   estimados   asociados   a   las   variables   independientes   que   se   esperaba   fuesen 
importantes, tienen valores de t pequeños aunque F informe que 'existe modelo' y R 2 sea alta. Este es un signo 
clásico de multicolinealidad.
3. La incorporación o eliminación de una fila o columna de la matriz X produce grandes cambios en la 
magnitud de los coeficientes.
4. Los coeficientes de correlación muestral simples entre todas las parejas de variables predictoras   son 
muy   altas.   Las   correlaciones   entre   variables   deben   ser   bajas,   aunque   no   hay   un   límite   fijo   a   partir   del   cual 
podamos   hablar   de   multicolinealidad;   ese   límite   debe   establecerse   desde   el   sentido   común   y   según   las 
circunstancias de análisis específicas. Así por ejemplo un mismo valor de un coeficiente de correlación implica 
distinto   grado   de   correlación   según   el   tamaño   muestral;   en   muestras   de   tamaño   elevado,   una   correlación 
aparentemente pequeña (0,3­0,4) implica la existencia de una evidente multicolinealidad o bien una correlación 
moderada pero no esperada a priori desde el punto de vista teórico puede estar avisando de algún defecto en 
la especificación o el tratamiento de los datos.
En todo caso, si se desea una regla general, una práctica habitual consiste en establecer la R 2 del 
modelo   original   como   límite   de   la   correlación   observada   entre   dos   o   más   variables:   diremos   que   existe 
multicolinealidad cuando existan correlaciones entre las variables superiores al coeficiente de determinación del 
modelo.  Sin  embargo,  debemos  recordar  nuevamente  las   limitaciones  de  cualquier  'receta'  de  este  tipo.   Por 
2
ejemplo,   lógicamente   diremos   que   existe   multicolinealidad   cuando,   aún   sin   superar   la R j del   modelo,   las 
correlaciones sean mayores de un 0,7.
Aunque es condición suficiente para que exista multicolinealidad el que todos estos coeficientes sean 
altos, lo contrario no es necesariamente cierto. Se puede dar el caso de tener una relación lineal casi perfecta 
entre tres o más variables y sin embargo las correlaciones simples entre pares de variables no ser mayores que 0,5.

Supongamos que tenemos un modelo de 4 variables:

Y i = b0 b1 X 1i b2 X 2ib 3 X 3i i y   supongamos   que: X 3i = 1 X 1i 2 X 2i donde 2 y 3 son 


constantes distintas de cero.
X 3 es una combinación lineal exacta de  X 1 y  X 2 dando  R 23.12= 1
2
r 231r 232−2 r 31 r 32 r 12 2
Podemos escribir este   R 2 como:   R 3.12= pero como:   R 3.12= 1 , a causa de una 
1−r 212
r 231r 232−2 r 31 r32 r 12
colinealidad perfecta, obtenemos: 1= condición que puede ser satisfecha si:
1−r 212
r 31= 0,5 ,  r 32= 0,5 y  r 12= −0,5 los cuales no son valores altos.

Por   lo   tanto,   en   modelos   que   involucran   más   de   dos   variables   independientes,   la   correlación   simple 
puede no proveer una infalible vía para detectar la presencia de multicolinealidad. Por supuesto, si solo existen 
dos variables independientes en el modelo, la correlación de orden cero es suficiente. 
5. Realizando la regresión de cada una de los regresores sobre el resto (regresión auxiliar) y analizar los 
coeficientes  de   determinación   de  cada  regresión.   Alguno   o  algunos   de   estos   coeficientes  de   determinación
R 2j  altos, estarían señalando la posible existencia de un problema de multicolinealidad.

3.3.3.1 El Factor de inflación de la varianza.

El   factor  de   inflación   de  la   varianza  cuantifica  la   severidad   de  la   multicolinealidad   en   un   análisis   de 
regresión   lineal   por   MCO.   Provee   un   índice   que   mide   en   cuánto   la   varianza   de   un   coeficiente   de   regresión 
estimado se incrementa debido a la multicolinealidad.

68
Problemas en el análisis de regresión: Multicolinealidad

Si consideramos el modelo de regresión lineal múltiple: Y i = b0 b1 X 1i ...b j X ji ...b k X ki i


entonces se puede demostrar que la varianza del j­ésimo coeficiente de regresión estimado es:
2
 1
Var b j =   (96)
S ii 1−R 2j
2
Donde R j es el coeficiente de determinación (no ajustado) de la regresión lineal de X ji contra todas 
n

las demás variables predictoras y  Sii = ∑  X − X 
j=1
ij i
2

La   ecuación   (101)   separa   las   influencias   de   los   distintos   factores   que   intervienen   en   la   varianza   de 
coeficiente estimado. Así:
1. Cuanto mayor es 2 , esto es, cuanto mayor es la dispersión, mayor será la varianza del estimador.
2.  Al aumentar el tamaño de la muestra, se reduce la varianza del estimador.
3.   Cuanto   menor   sea   la   varianza   muestral   del   regresor,   mayor   será   la   varianza   del   correspondiente 
coeficiente estimado.
2
4. Cuanto mayor  sea R j , es decir,  cuanto  mayor sea  la  correlación  del regresor  con el resto  de lo 
regresores, mayor será la varianza de b j
1
FIV j = Se denomina j­ésimo factor de inflación de la varianza y representa el  (97)
1−R2j
incremento en la varianza debido a la presencia de multicolinealidad. Es la razón entre la varianza observada y la 
que habría sido en caso de que X j no estuviera correlacionada con el resto de regresores del modelo. Muestra 
en   que   medida   se   agranda   la   varianza   del   estimador   como   consecuencia   de   la   no   ortogonalidad   de   los 
regresores. Debe tenerse presente que el FIV j  no suministra ninguna información que pueda utilizarse para 
corregir el problema.
Si las variables independientes no son redundantes (ortogonales), entonces FIV j = 1 R 2j = 0  3. Si los 
2
regresores son multicolineales, FIV j = ∞ R j = 1 .
Si el  FIV j  es grande (mayor que 10), entonces puede haber multicolinealidad.
1
La tolerancia se define como:  TOL j= = 1−R2j (98)
FIV j

La   utilización   de   los   coeficientes TOL j y VIF j para   detectar   la   presencia   de   multicolinealidad   ha 
recibido múltiples críticas, porque la conclusión obtenida con estos valores no siempre recoge adecuadamente 
la información de y problemas existentes en los datos. Tal y como hemos visto anteriormente, las varianzas de los 
2 2
estimadores   depende   del VIF j ,  y ∑ X ji− X j  , por   lo   que   un   alto VIF j no   es   condición   suficiente   ni 
necesaria para que dichas varianzas sean elevadas.

Ejemplo Nº14 Índice de marginación, población indígena y   BASE DE DATOS Nº12
%   de   analfabetismo   en   los   municipios   del   Estado   de   Chiapas,  
México. Municipio Yi X 1i X 2i

Acacoyagua   0.483 0.41 18


La   base   de   datos   Nº12   nos   entrega   el   índice   de 
Acala   0.356 9.93 27
marginación por municipio para 2005 como variable dependiente Acapetahua   0.672 0.35 21
 Yi    y   como   independientes   el   %   de     población   hablante   de  Altamirano   0.984 40.75 38
lengua indígena de 5 años en adelante en el 2000  X1i  y el % de  Amatán   1.745 14.76 34
∙ ∙ ∙ ∙
analfabetismo  X 2i para   el   2000,   para   los   118   Municipios   del 
∙ ∙ ∙ ∙
Estado de Chiapas (México).  ∙ ∙ ∙ ∙
Grafiquemos   las   variables   (gráfica   nº60)  y   obtengamos   el  Maravilla Tenejapa   1.518 33.12 31
resultado  de   aplicar  una  regresión   de  Yi  sobre  X1i  y  X 2i Marqués de Comillas   1.602 30.1 30
(salida nº38). Montecristo de Guerrero   1.118 0.71 28
San Andres Duraznal   1.489 66.9 46
>a <­ read.table('a.txt')  Santiago el Pinar   2.209 63.57 68
>plot(a, col=3) FUENTE:
>a1 <­  (lm(a$V1~a$V2+a$V3))  http://www.e­local.gob.mx/work/templates/enciclo/chiapas
>summary(a1) 

3 Recordemos que R2 indica la existencia de una relación lineal.

69
              GRÁFICA Nº 60

SALIDA Nº 38

Call:
lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:
     Min       1Q   Median       3Q      Max 
­1.23973 ­0.27460 ­0.05131  0.25093  1.63512 

Coefficients:
                   Estimate   Std. Error    t value    Pr(>|t|)    
(Intercept)  ­0.347757   0.113054    ­3.076     0.00262 ** 
a$V2           0.003411   0.002227     1.532     0.12828    
a$V3           0.039641   0.004997     7.932     1.56e­12 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.4271 on 115 degrees of freedom
Multiple R­squared: 0.6595,Adjusted R­squared: 0.6535 
F­statistic: 111.3 on 2 and 115 DF,  p­value: < 2.2e­16 

Nuestro valor crítico t para un 95% de significación es:

>qt(0.975,115)
[1] 1.980808 
Determinemos la existencia de multicolinealidad.

En primer  lugar  ejecutemos  regresiones  de  Yi  sobre    X1i  (salida nº39)  y de    Yi  sobre    X 2i
(salida nº40)

         >a1 <­  (lm(a$V1~a$V2))         >a1 <­  (lm(a$V1~a$V3)) 
         >summary(a1)         >summary(a1) 

SALIDA Nº39 SALIDA Nº40

Call: Call:
lm(formula = a$V1 ~ a$V2) lm(formula = a$V1 ~ a$V3)

Residuals: Residuals:
     Min          1Q         Median        3Q         Max       Min         1Q         Median         3Q         Max 
­1.74628    ­0.30991     0.02496     0.24031   2.12295  ­1.19279   ­0.29527    ­0.02594     0.26905   1.72302 

Coefficients: Coefficients:
                   Estimate    Std. Error    t value    Pr(>|t|)                        Estimate    Std. Error    t value   Pr(>|t|)    
(Intercept)   0.446136    0.065111     6.852    3.72e­10 *** (Intercept)  ­0.435657    0.097975    ­4.447    2.01e­05 ***
a$V2           0.017329    0.001698    10.207   < 2e­16 *** a$V3           0.045674    0.003095    14.759   < 2e­16 ***
­­­ ­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.5289 on 116 degrees of freedom Residual standard error: 0.4296 on 116 degrees of freedom
Multiple R­squared: 0.4731,Adjusted R­squared: 0.4686  Multiple R­squared: 0.6525,Adjusted R­squared: 0.6495 
F­statistic: 104.2 on 1 and 116 DF,  p­value: < 2.2e­16  F­statistic: 217.8 on 1 and 116 DF,  p­value: < 2.2e­16 

Podemos sospechar la existencia de multicolinealidad, ya que los coeficientes estimados de las variables 
independientes son muy significativos a un 95% en las regresiones de  Yi  sobre  X1i  y de  Yi  sobre  X 2i
(10,207 y 14,759 respectivamente), pero en la regresión múltiple original (salida nº38), el parámetro estimado de
 X1i  resulta no ser significativo, siendo R 2 relativamente alta (0,6595) y F= 111,3 informándonos la 'existencia' 
de modelo.

70
Problemas en el análisis de regresión: Multicolinealidad

Analicemos los coeficientes de correlación simple entre todas las parejas de variables predictoras:

>cor(a) SALIDA Nº41
La   correlación   entre   las   variables   es   alta   (0.808),   superando   el
2 V1 V2 V3
R = 0,6595 del modelo original. V1 1.0000000 0.6878547 0.8077816
V2 0.6878547 1.0000000 0.7879961
V3 0.8077816 0.7879961 1.0000000

Encontremos el factor de inflación de la varianza.
SALIDA Nº42
>a1 <­  (lm(a$V1~a$V2+a$V3)) 
>library(car)4  a$V2 a$V3
>vif(a1) 2.638090 2.638090

Ejemplo Nº15: Función Cobb­Douglas de la economía chilena (1986­2000).
BASE DE DATOS Nº13
 
La   base   de   datos   Nº13   nos   entrega   los   valores   del   PIB  Yi  ,  Año Yi X 1i X 2i

stock   de   capital  X1i  (ambos   en   miles   de   millones   de   pesos   al   año 


1986 3419 8658 4269,674
1986) y la fuerza de trabajo  X 2i  en miles de personas para Chile entre  1987 3645 8852 4372,610
los años 1986 y 2000. 1988 3911 9144 4569,370
Grafiquemos   las   variables   (gráfica   nº61)  y   obtengamos   el  1989 4324 9586 4727,218
1990 4484 10133 4822,836
resultado de aplicar una regresión de  Yi  sobre  X1i  y  X 2i (salida 
∙ ∙ ∙ ∙
nº43). ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
>a <­ read.table('a.txt')  1996 7305 15383 5522,817
>plot(a, col=3)
1997 7845 16778 5625,843
1998 8153 18228 5734,213
>a1 <­  (lm(a$V1~a$V2+a$V3)) 
>summary(a1) 1999 8060 19381 5829,013
2000 8493 20256 5845,905
FUENTES:
PIB y stock de capital.
http://www.bcentral.cl/estudios/documentos­trabajo/pdf/dtbc133.pdf Pp16 
Fuerza de trabajo.
                GRÁFICA Nº 61 http://www.ine.cl/canales/chile_estadistico/mercado_del_trabajo/empleo/situacionfuerzatrabajo/sitexcel/ttpais.htm

SALIDA Nº43

Call:
lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:
     Min        1Q       Median      3Q       Max 
  ­362.53   ­140.95    ­25.47     139.97   356.03 

Coefficients:
                    Estimate     Std. Error    t value    Pr(>|t|)    
(Intercept)  ­5.697e+03   1.062e+03   ­5.365    0.000169 ***
a$V2            2.290e­01   3.957e­02    5.788     8.64e­05 ***
a$V3           1.661e+00   2.957e­01     5.617     0.000113 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 212.3 on 12 degrees of freedom
Multiple R­squared: 0.9877,Adjusted R­squared: 0.9857 
F­statistic: 483.5 on 2 and 12 DF,  p­value: 3.393e­12

Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,12)
[1] 2.178813 

4  Debemos  instalar  el   paquete   car.   En   R   escribimos  >install.packages(),   seleccionamos   un   espejo   desde   el  cual   bajarlo   y   lo   llamamos   con 
>library(car). 

71
Determinemos la existencia de multicolinealidad.
SALIDA Nº44
Analicemos   los   coeficientes   de   correlación   muestral   simples   entre 
V1 V2 V3
todas las parejas de variables predictoras:
V1 1.0000000 0.9775036 0.9764859
V2 0.9775036 1.0000000 0.9327449
>cor(a)
V3 0.9764859 0.9327449 1.0000000

El valor 0,976 es menor que R 2= 0,988 lo que nos indica una ausencia de multicolinealidad.


SALIDA Nº45
Ejecutemos   una   regresión   de    X1i  sobre    X 2i y 
Call:
analicemos   el   coeficiente   de   determinación   (salida 
lm(formula = a$V2 ~ a$V3)
nº45). 
Residuals:
>a <­ read.table ('a.txt')
     Min       1Q       Median       3Q       Max 
>a1 <­ (lm(a$V2~a$V3))
 ­2251.4   ­909.9      ­221.7      1206.8   2399.6 

Coefficients: Encontremos el factor de inflación de la varianza.
                   Estimate    Std. Error     t value   Pr(>|t|)    
(Intercept)  ­2.289e+04  3.885e+03   ­5.891   5.31e­05 *** >a1 <­  (lm(a$V1~a$V2+a$V3))  SALIDA Nº46
a$V3           6.969e+00  7.471e­01     9.328   4.01e­07 *** >library(car)
>vif(a1) a$V2 a$V3
­­­
7.693082 7.693082
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1488 on 13 degrees of freedom Acá   podemos   apreciar   la   relatividad   de   los   test   para 


2
Multiple R­squared:  0.87,Adjusted R­squared:  0.86  detectar   multicolinealidad.   Aunque   el   FIV,   el Ri y   la 
F­statistic: 87.01 on 1 and 13 DF,  p­value: 4.008e­07
correlación entre regresores son altos, la salida nº43 nos 
indica   una   casi   perfecta   relación   lineal R2 = 0,9877 y     valores   de   lo   parámetros   estimados   coherentes.   La 
decisión final debe ser tomada por el sentido común del investigador.

Ejemplo Nº16: Crímenes contra la propiedad y crímenes violentos en el Estado de Nevada, EE.UU. (1960­
1980).
BASE DE DATOS Nº14

Se   puede   especular   que   la   tasa   de   crímenes   contra   la  Año Yi X 1i X 2i X 3i X 4i


propiedad   está   determinada   en   cierta   medida,   por   el   grado   de 
'anomia'  de una  sociedad,  expresada ésta en las  tasas  de crímenes  1960 3294.7 8.8 12.6 74 50.5
violentos. 1961 3436.8 7 8 106 62.5
La base de datos nº14 nos entrega información de la tasa de  1962 3496.1 8.1 19.7 106.6 77.9
1963 4385.1 7.9 16.3 118.8 62.2
crímenes   contra   la   propiedad  Yi  ,   la   tasa   de   asesinato   no 
1964 4015 7.8 13.2 109.8 110
negligente   y   homicidio   involuntario  X1i  ,   la   tasa   de   violación  ∙ ∙ ∙ ∙ ∙ ∙
forzada  X 2i , la tasa de robo  X 3i y la tasa de asalto agravado ∙ ∙ ∙ ∙ ∙ ∙
 X 4i  en   el   Estado   de   Nevada   por   cada   100.000   habitantes   entre  ∙ ∙ ∙ ∙ ∙ ∙

1960 y 1980.  1976 7615.1 11.5 47.2 294.9 337.4


1977 7225 15.8 49.1 323.1 355
Grafiquemos   las   variables   (gráfica   nº62)  y   obtengamos   el 
1978 7506.1 15.5 53.9 359.5 351.8
resultado   de   aplicar   una   regresión   de  Yi  sobre  X1i  ,  X 2i , 1979 7996 17.5 59.5 407.5 351
 X 3i y  X 4i  (salida nº47). 1980 7941.4 20 67.2 460.6 364.9
FUENTE:
http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm
>a <­ read.table('a.txt') 
>plot(a, col=3)

>a1 <­  (lm(a$V1~a$V2+a$V3+a$V4+a$V5)) 
>summary(a1) 

              
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,16)
[1] 2.119905 
Resulta que sólo el coeficiente que acompaña a  X 4i  es significativo y más sorprendente aún, el que 
acompaña a  X1i  tiene signo negativo. Esto no parece tener sentido al ver la gráfica nº62.

72
Problemas en el análisis de regresión: Multicolinealidad

                GRÁFICA Nº 62

SALIDA Nº47

Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4 + a$V5)

Residuals:
      Min       1Q       Median       3Q       Max 
  ­324.76  ­226.37     ­60.68      191.86   706.62 

Coefficients:
                  Estimate    Std. Error   t value   Pr(>|t|)    
(Intercept)  2806.063    275.315    10.192   2.11e­08 ***
a$V2          ­65.081      42.701      ­1.524    0.146999    
a$V3           13.036      19.776       0.659    0.519152    
a$V4           4.698        2.963        1.586     0.132395    
a$V5           9.903        2.092        4.734     0.000224 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 305.3 on 16 degrees of freedom
Multiple R­squared: 0.975,Adjusted R­squared: 0.9688 
F­statistic: 156.2 on 4 and 16 DF,  p­value: 1.331e­12

Ejecutemos regresiones de  Yi  sobre  X1i  ,  X 2i ,  X 3i y  X 4i  individualmente (salidas nº48, 49, 


50 y 51 respectivamente).

        >a1 <­  (lm(a$V1~a$V2))     >a1 <­  (lm(a$V1~a$V3))
        >summary(a1)    >summary(a1)
SALIDA Nª48 SALIDA Nª49

Call: Call:
lm(formula = a$V1 ~ a$V2) lm(formula = a$V1 ~ a$V3)

Residuals: Residuals:
      Min       1Q       Median       3Q       Max        Min      1Q      Median     3Q      Max 
  ­1713.4   ­737.1      102.3        406.8    2147.4    ­917.30   ­278.33   55.66     277.33  960.79 

Coefficients: Coefficients:
                  Estimate   Std. Error   t value    Pr(>|t|)                      Estimate    Std. Error    t value   Pr(>|t|)    
(Intercept)   1041.59     673.24      1.547      0.138     (Intercept)  2642.57     216.69        12.20   1.97e­10 ***
a$V2            384.88      56.51        6.811   1.67e­06 *** a$V3           89.89         6.09          14.76   7.31e­12 ***
­­­ ­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 955.5 on 19 degrees of freedom Residual standard error: 502.1 on 19 degrees of freedom
Multiple R­squared: 0.7095,Adjusted R­squared: 0.6942  Multiple R­squared: 0.9198,Adjusted R­squared: 0.9156 
F­statistic: 46.39 on 1 and 19 DF,  p­value: 1.674e­06 F­statistic: 217.8 on 1 and 19 DF,  p­value: 7.314e­12

       >a1 <­  (lm(a$V1~a$V4))       >a1 <­  (lm(a$V1~a$V5))
       >summary(a1)       >summary(a1)
 
SALIDA Nª50 SALIDA Nª51

Call: Call:
lm(formula = a$V1 ~ a$V4) lm(formula = a$V1 ~ a$V5)

Residuals: Residuals:
     Min        1Q        Median       3Q      Max       Min       1Q     Median      3Q     Max 
­1134.04   ­260.49      ­67.28      256.49  954.38   ­572.29  ­130.76   ­13.15     181.92  927.54 

Coefficients: Coefficients:
                   Estimate    Std. Error   t value   Pr(>|t|)                        Estimate    Std. Error   t value    Pr(>|t|)    
(Intercept)   2363.1800   221.4738   10.67   1.83e­09 *** (Intercept)  2562.0368   146.8661     17.45   3.76e­13 ***
a$V4             14.5729     0.9368     15.56    2.90e­12 *** a$V5            14.3974      0.6433       22.38   4.09e­15 ***
­­­ ­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 478.3 on 19 degrees of freedom Residual standard error: 338.9 on 19 degrees of freedom
Multiple R­squared: 0.9272,Adjusted R­squared: 0.9234  Multiple R­squared: 0.9635,Adjusted R­squared: 0.9615 
F­statistic:   242 on 1 and 19 DF,  p­value: 2.898e­12 F­statistic: 500.9 on 1 and 19 DF,  p­value: 4.087e­15

73
Podemos   sospechar   la   existencia   de   multicolinealidad,   ya   que   los   coeficientes   de   las   variables 
independientes   son   muy   significativos   a   un   95%   en   las   4   regresiones   anteriores   (6.811,   14.76,   15.56   Y   22.38 
respectivamente).

Analicemos   los   coeficientes   de   correlación     simples   entre   todas   las   parejas   de   variables   predictoras 
(salida nº52):
SALIDA Nº52

>cor(a)
V1 V2 V3 V4 V5
La   correlación   entre   los   regresores   es   alta,  V1 1.0000000 0.8422917 0.9590489 0.9629110 0.9815558
superando   las   correlaciones   entre X 2i y X 3i el R 2 V2 0.8422917 1.0000000 0.9044769 0.8938066 0.8612384
del modelo original. V3 0.9590489 0.9044769 1.0000000 0.9767272 0.9562189
V4 0.9629110 0.8938066 0.9767272 1.0000000 0.9537829
V5 0.9815558 0.8612384 0.9562189 0.9537829 1.0000000
Encontremos el factor de inflación de la varianza
SALIDA Nº53
>a1 <­  (lm(a$V1~a$V2+a$V3+a$V4+a$V5))   
>library(car) a$V2 a$V3 a$V4 a$V5
>vif(a1) 5.59514 28.52305 24.55465 13.03072

Los regresores  X 2i X 3i y  X 4i presentan gran multicolinealidad.

3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD

Ya hemos señalado que el problema de la multicolinealidad es un problema de grados, por lo que las 
medidas que aquí se proponen deben tomarse siempre y cuando su severidad sea tan importante como para 
que   una   o   varias   variables   del   modelo   de   regresión   que   se   supone   sean   relevantes,   se   presenten   como 
estadísticamente no significativas. Si existe multicolinealidad en un grado leve,  puede continuarse el trabajo de 
análisis sin adoptar medidas para corregir el problema. 
Si se trata de un problema de multicolinealidad casi perfecta, es razonable pensar que ésta se debe a la 
incorporación de dos regresores que miden el mismo concepto pero de forma alternativa o bien están indicando 
un concepto más abstracto que el que se supone hacen independientemente cada una de ellas 5. En el primer 
caso se sugiere revisar el proceso de operacionalización de los conceptos y suprimir la redundancia hallada, en 
el  segundo,   determinar  un  índice   mediante  alguna  técnica,   desde   la más   simple,   como  un  índice  sumatorio 
simple, hasta uno más complejo, como un índice calculado sobre la base de un análisis factorial para suprimir 
esta multicolinealidad.
 
Los métodos más comunes son6:

1. Eliminación de variables:   Cuando nos encontramos con una fuerte multicolinealidad, una de las cosas más 
simples que se pueden hacer es desechar las variables más colineales 7. El inconveniente es que ésta es una 
medida que puede provocar otro tipo de problemas, ya que si la variables que eliminamos del modelo realmente 
sí   son   significativas8,   estamos   omitiendo   una   variable   relevante.   Por   consiguiente,   los   estimadores   de   los 
coeficientes del modelo y de su varianza serían sesgados y así la inferencia realizada no sería válida. 
Si   estamos   ante   un   problema   de   información   repetida,   una   solución   resulta   transformar   dos   o   más 
variables   correlacionadas   en   una   combinación   de   las   mismas.   A   este   respecto   es   útil   la   técnica   del   análisis 
multivariable factorial.  
2.   Aumento   del  tamaño   de   la   muestra  o   cambiar  de   muestra:   Teniendo   en   cuenta  que   un   cierto   grado   de 
multicolinealidad acarrea problemas cuando aumenta ostensiblemente la varianza muestral de los estimadores, 
las soluciones deben ir encaminadas a reducir esta varianza introduciendo observaciones adicionales. Solución 
no siempre viable.
Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede ser que con 
nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea consiste en conseguir datos menos 
correlacionados que los anteriores. De todas formas, no siempre resulta   fácil obtener mejores datos por lo que 
muy   probablemente   debamos   convivir   con   el   problema   teniendo   cuidado   con   la   inferencia   realizada   y   las 

5  Por   ejemplo,   las   variables   independientes   como   alfabetización,   urbanización,   empleo   en   el   sector   el   servicios,   teléfonos   por   habitante, 
mortalidad infantil, etc., en el análisis de una región determinada, pueden presentar fuerte multicolinealidad porque representan conjuntamente 
el concepto más abstracto de “modernización”.
6 La elección de estas alternativas depende de la severidad de la multicolinealidad encontrada.
7 En presencia de multicolinealidad, una medida para resolver este problema bastante lógica puede ser quitar del modelo aquellas variables con  
más alto VIF ( o más baja tolerancia).
8 Son variables que deben estar incluídas en el modelo de regresión.

74
Problemas en el análisis de regresión: Multicolinealidad

conclusiones de la misma.
3. Utilización de ratios: En lugar del regresando y los regresores del modelo original, se pueden utilizar ratios con 
respecto al regresor que posea mayor colinealidad. Esto puede hacer que la correlación entre los regresores del 
modelo disminuya. Pero se debe tener cuidado: estos ratios pueden ser heterocedáticos.
4. Utilizando información a priori.

Consideremos el modelo: Y i = b0 b1 X 1i b2 X 2i i


Supongamos a  X 1 y  X 2 altamente colineales y supongamos que creemos que  b2 = 0,1b1

Entonces: Y i = b0 b1 X 1i 0,1 b1 X 2ii = b 0b1 X ii donde:  X i = X i1 0,1 X 2i

Una vez que obtenemos  b1 podemos estimar  b2 de la relación postulada entre  b1 y  b2 .

¿De donde obtenemos la información a priori? Puede provenir de trabajos empíricos previos en los que el 
problema de la colinealidad parezca ser menos serio o de teoría relevante subyacente al campo de estudio 
(como en el caso de los retornos a escala constantes).

75
4.1 FORMAS FUNCIONALES
4.1.1 INTRODUCCIÓN

Frecuentemente en las ciencias sociales nos encontramos con variables cuyas relaciones entre sí no son 
lineales. Este es el caso por ejemplo, de la relación entre el PIB per cápita y la esperanza de vida en los países del 
mundo   o   la   tasa   de   crecimiento   demográfico   en   los   países   en   vías   de   desarrollo   durante   el   siglo   XX.   Al 
encontrarnos con estos casos, muchas veces podremos transformar las variables para obtener funciones lineales 
en   los   parámetros,   sobre   las   cuales   podremos   aplicar   el   método   de   MCO   y   así   obtener   una   ecuación   de 
regresión lineal. 
Es importante señalar que el primer paso para escoger la forma funcional adecuada para una relación 
no lineal entre variables es recurrir a lo que la teoría social bajo la cual estudiamos nuestras variables señala.

Algunas   de   las   relaciones   no   lineales   más   comunes   entre   variables   y   sus   transformaciones   son   las 
siguientes:

b1
4.1.2 FORMA DOBLE­LOG: Y= b 0 X e  (99)

Esta forma aparece cuando nos encontramos con variables que crecen a un ritmo exponencial.
Aplicando logaritmos la forma (76): ln Y= ln b 0b1 ln X o bien: Y= elnb b ln X 0 1

Si   hacemos: ln Y= Y ✳ , ln b0 = b0 y ln X= X ✳ la   expresión   anterior   nos   queda Y = b0 b1 X  , 


✳ ✳ ✳ ✳

ecuación a la que ya podemos aplicar el método de MCO ya conocidos. La ecuación de regresión así obtenida 
será:
Y✳ = b ✳0 b1 X ✳ o bien  lnY= ln b 0 b1 ln X Aplicando un exponencial obtenemos: 

  b ln X
 lnb

Y= e 0 1
(100)

Aspectos teóricos.

TABLA Nº37
Supongamos   que   nos   encontramos   con   una  relación   matemática  perfecta  entre   dos 
variables de la forma Y= e 1−ln X , función que nos es desconocida. Tenemos sin embargo, los 
Yi Xi
valores que estas dos variables asumen y que se muestran en la tabla Nº37. Grafiquemos con R 
2,718 1 los puntos y la recta de regresión lineal aplicada a ellos:
1,359 2
0,906 3 >a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
0,680 4
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') 
0,544 5
>abline(lm(a$V1~a$V2), lwd=3, col='red') 
∙ >title(main=paste("Forma doble­log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
∙ >jpeg(file='a.jpeg', width=500, height=500) 
∙ >par(bg = "Ivory 2") 
0,170 16 >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') 
0,160 17 >abline(lm(a$V1~a$V2), lwd=3, col='red') 
0,151 18 >title(main=paste("Forma doble­log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
0,143 19 >dev.off()
0,136 20
y obtengamos los parámetros estimados de la regresión:

>a1 <­ (lm(a$V1~a$V2))
>summary(a1) 

 1,2519 −0,0727 X
Y= R 2= 0,473
 6,111  −4,249 

Sospechamos que nos encontramos en presencia de una relación doble log. Lo que tenemos que hacer 
por lo tanto, es transformar ambas variables en sus respectivos logaritmos y correr una regresión sobre ellas.

76
Problemas en el análisis de regresión: Formas funcionales

         GRÁFICA Nº63

SALIDA Nº54

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
        Min          1Q          Median         3Q          Max 
     ­0.3630    ­0.2853       ­0.1130       0.1592      1.5390 

Coefficients:
                         Estimate    Std. Error     t value       Pr(>|t|)    
(Intercept)         1.25194       0.20487       6.111       8.99e­06 ***
a$V2                ­0.07266       0.01710      ­4.249       0.000483 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.441 on 18 degrees of freedom
Multiple R­squared: 0.5007, Adjusted R­squared: 0.473 
F­statistic: 18.05 on 1 and 18 DF,  p­value: 0.000483 

TABLA Nº38

Grafiquemos las nuevas variables (tabla nº38), la recta de regresión lineal aplicada sobre  ln Y i ln X i
ellas y apliquemos una regresión para obtener los coeficientes:
1.000 0.000
>a <­ read.table('a.txt')  0.307 0.693
>par(bg = "Ivory 2")  ­0.099 1.099
>plot(a$V2, a$V1, col=3, xlab='LnX', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook')  ­0.386 1.386
>abline(lm(a$V1~a$V2), lwd=3, col='red')  ­0.609 1.609
>title(main=paste("Forma doble­log:", "LnY versus LnX",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
∙ ∙
∙ ∙
>a1 <­ (lm(a$V1~a$V2))
∙ ∙
>summary(a1) 
­1.773 2.773
­1.833 2.833
­1.890 2.890
              GRÁFICA Nº64 ­1.944 2.944
­1.996 2.996

SALIDA Nº55

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
        Min            1Q             Median            3Q               Max 
­3.045e­16     ­9.394e­17     ­4.092e­17      6.958e­17      3.105e­16 

Coefficients:
                         Estimate       Std. Error        t value       Pr(>|t|)    
(Intercept)              1           1.094e­16       9.143e+15   <2e­16 ***
a$V2                     ­1           4.839e­17      ­2.066e+16   <2e­16 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.714e­16 on 18 degrees of freedom
Multiple R­squared:     1, Adjusted R­squared:     1 
F­statistic: 4.27e+32 on 1 and 18 DF,  p­value: < 2.2e­16 

Obtenemos la ecuación: Y✳ = 1 − X✳ R 2=1


 9,143e+15  −2,066e+16 

77
Como Y✳ = b ✳0b1 X ✳ es   equivalente   a Y=
  b ln X
 lnb
 e ,   tenemos   para   nuestro   ejemplo   que
0 1

Y= e 1−ln X= e / X


             GRÁFICA Nº65

TABLA Nº39 Si   graficamos   nuestras   variables 


originales   y   esta   curva,   observamos   que 
Y i = e/X i Xi coinciden   perfectamente   (gráfica   nº65):
     
2,718 1
1,359 2 >a <­ read.table('a.txt') 
0,906 3 >par(bg = "Ivory 2") 
0,680 4 >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', 
0,544 5 cex.lab=1,family='NewCenturySchoolbook') 
>x <­ seq( 0 ,20,length = 100) 

>lines(x, exp(1­log(x)), type='l', col= 'red', lwd=3) 

>title(main=paste("Forma doble­log:", "Y versus 
∙ X",sep="\n"),font.main=1,cex.main=1.5,family
0,170 16 ='NewCenturySchoolbook')
0,160 17
0,151 18
0,143 19
0,136 20
           

4.1.2.1 La función Cobb­Douglas.

En economía, una forma funcional clásica es la función Cobb­Douglas. Es de las más usadas por ser una 
de las que más se acerca a la realidad económica.
Esta función resultó de la observación empírica de la distribución del PIB entre capital y trabajo en los 
EE.UU. Los datos mostraron evidencia de una relación de la forma:

  Q= A ∙K b ∙L b ∙ e donde:
1 2

Q =  Producción total (el valor monetario de todos los bienes y servicios producidos durante un año o 
PIB).
K =  Stock de capital.
L =  Stock de trabajo.
A =  Productividad total de los factores (o la tecnología en un momento dado en un sociedad), y
b1  y  b2  = Elasticidades del producto en relación al capital y al trabajo, respectivamente. 

(La   función   Cobb­Douglas   también   aparece   en   la   relación   entre   la   cantidad   demandada   de   una 
b b
mercancía (Q), su precio (P) y el ingreso de los consumidores (Y): Q= b0 ∙P ∙ Y ∙e  ) 1 2

4.1.2.2 La definición de la elasticidad.
Al aplicar una regresión lineal a un modelo Cobb­Douglas, obtenemos que los parámetros estimados de 
la   ecuación   de   regresión   corresponden   a   las   elasticidades   de   la   variable   dependiente   respecto   a   las 
independientes. Derivemos las fórmulas de las elasticidades para la relación entre la cantidad demandada de 
b b
una mercancía (Q), su precio (P) y el ingreso de los consumidores (Y):  Q= b0 ∙P ∙ Y ∙e  . 1 2

a) b1 es la elasticidad de la demanda respecto al precio o P

∂Q P
Por definición: P= ∙
∂P Q
∂Q b −1 b  b b Q
La derivada parcial de la función Q respecto a P es   = b1  b0 P Y e = b1 b 0 P Y e   P−1= b1
1 2 1 2

∂P P
∂Q Q P
sustituyendo el valor de  dentro de la fórmula para  P obtenemos: P= b 1 ∙ = b1
∂P P Q

78
Problemas en el análisis de regresión: Formas funcionales

b) b2 es la elasticidad de la demanda respecto al ingreso o Y

∂Q Y
Por definición Y = ∙
∂Y Q
∂Q b b −1  b b Q
La derivada parcial de la función Q respecto a Y es  = b 2 b0 P Y e = b 2 b0 P Y e  Y −1 = b2
1 2 1 2

∂Y Y
∂Q Q Y
sustituyendo el valor de  dentro de la fórmula para  Y obtenemos:  Y = b2 ∙ = b2
∂Y Y Q

Si para la función Cobb­Douglas, b2 = 0,15 , un aumento del 1% en la cantidad de trabajo, provocaría 


un incremento aproximado del 0,15% en el volumen del producto.
Si esta función cumple el principio de los rendimientos constantes a escala, entonces si K y L aumentan 
cada   uno   el   20%,   Q   aumenta   también   el   20%.   Lo   anterior   se   expresa   en   términos   de   elasticidades   como: 
b1b 2= 1 . Por otro lado, si b1b 2 1 , hay retornos crecientes a escala esto es, un incremento de K y L de 
un 10% implicará que la salida se incremente un b1 b 2 ∙10 %

Ejemplo Nº17: Función Cobb­Douglas de la economía chilena (1986­2000).

La base de datos Nº13 nos entrega los valores del PIB  Yi  , stock de capital X1i  (ambos en miles de 


millones de pesos al año 1986) y la fuerza de trabajo  X 2i  en miles de personas para Chile entre los años 1986 y 
2000. Consideremos la aplicación de una función Cobb­Douglas para estos datos de la economía chilena.
Apliquemos una regresión a los logaritmos de estos datos dados por la tabla Nº40:
BASE DE DATOS Nº13
 
Año Yi X 1i X 2i
>a <­ read.table('a.txt') 
>a1 <­ (lm(a$V1~a$V2+a$V3)) 1986 3419 8658 4269,674
>summary(a1)  1987 3645 8852 4372,610
1988 3911 9144 4569,370
Nuestra ecuación de regresión resulta: 1989 4324 9586 4727,218
1990 4484 10133 4822,836
∙ ∙ ∙ ∙
Q ✳= −10,62520,4425 K ✳1,7653 L ✳ R 2= 0,9896 ∙ ∙ ∙ ∙
4,735   6,747 
∙ ∙ ∙ ∙
1996 7305 15383 5522,817
1997 7845 16778 5625,843
1998 8153 18228 5734,213
1999 8060 19381 5829,013
2000 8493 20256 5845,905

SALIDA Nº56
TABLA Nº40

lm(formula = a$V1 ~ a$V2 + a$V3)
ln Y i ln X1i ln X 2i

Residuals:
8,137 9,066 8,359 Nuestro valor crítico t para un 95% 
          Min             1Q            Median        3Q           Max 
8,201 9,088 8,383 de significación es:
     ­0.057389    ­0.016945     ­0.001807    0.022291   0.042643 
8,272 9,121 8,427
8,372 9,168 8,461 >qt(0.975,13)
8,408 9,224 8,481 [1] 2.160369  Coefficients:
∙ ∙ ∙                        Estimate     Std. Error    t value    Pr(>|t|)    
∙ ∙ ∙
por   lo   que   todos   nuestros  (Intercept)      ­10.62516      1.42407    ­7.461     7.62e­06 ***
∙ ∙ ∙ parámetros   estimados   son  a$V2                0.44246       0.09345     4.735     0.000485 ***
8,896 9,641 8,617 significativos al 5%. a$V3                1.76534       0.26166     6.747     2.05e­05 ***
8,968 9,728 8,635 ­­­
9,006 9,811 8,654 Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
8,995 9,872 8,671
9,047 9,916 8,673 Residual standard error: 0.03204 on 12 degrees of freedom
Multiple R­squared: 0.9911, Adjusted R­squared: 0.9896 
F­statistic: 664.8 on 2 and 12 DF,  p­value: 5.123e­13 

Consideremos: Q ✳= b✳  b K ✳ b L ✳ o   lo   que   es   lo   mismo: lnQ= lnb b ln K b ln L por   lo   que:


0 1 2 0 1 2
lnb0 = −10,6252 y b0 = e = 0,000024296
−10,6252

79
 b b
Como Q= b0 ∙K ∙ L nuestra ecuación de regresión final resulta:  Q=
1 2  0,000024296 ∙K 0,4425 ∙ L 1,7653
Notemos   que   0,4425+1,7653   >   1   por   lo   que   nuestra   economía   para   el   periodo   señalado   presentó 
rendimientos a escala crecientes.

4.1.3 FORMA SEMI­LOG: ln Y= b 0b1 X (101)

Esta forma funcional representa un crecimiento exponencial simple, con lo que la podemos asociar de 
una manera intuitivamente directa (si la variable independiente es el tiempo) a fenómenos como la oferta de 
mercancías   con   nuevas   tecnologías   en   países   desarrollados,   el   inicio   de   la   expansión   de   una   enfermedad 
infecciosa, etc.
Si ln Y= Y ✳ , Y = b0 b1 X con   lo   que   nuestra   ecuación   de   regresión   queda   de   la   siguiente 

manera: Y✳ = b 0 b1 X o bien, aplicando un exponencial Y=  e


 b  b X 
0 1
(102)

b mide el cambio relativo producido en Y, por unidad de cambio en X. 
1

Aspectos teóricos.
TABLA Nº41
Supongamos que nos encontramos con una relación matemática perfecta entre dos 
X
variables de la forma: Y= e2 10  , función que nos es desconocida. Tenemos sin embargo, los  Yi Xi

valores que estas dos variables asumen y se muestran en la tabla Nº41: 7,389 0
8,166 1
Grafiquemos con R los puntos y la recta de regresión lineal aplicada sobre ellos: 9,025 2
9,974 3
>a <­ read.table('a.txt')  11,023 4
>par(bg = "Ivory 2")  ∙
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')  ∙
>abline(lm(a$V1~a$V2), lwd=3, col='red')  ∙
>title(main=paste("Forma semi­log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 36,598 16
40,447 17
y obtengamos los parámetros estimados de la regresión: 44,701 18
49,402 19
>a1 <­ (lm(a$V1~a$V2)) 54,598 20
>summary(a1) 

Nuestra ecuación de regresión resulta:
 − 0,00830,4175 X 2
Y= R = 0,9306      GRÁFICA Nº66
−0,012  16,408

SALIDA Nº57

Call:
lm(formula = AAR2a$V1 ~ AAR2a$V2)

Residuals:
    Min          1Q      Median       3Q      Max 
 ­3.0762    ­1.1554     0.3879    1.4216  1.7673 

Coefficients:
                    Estimate     Std. Error   t value    Pr(>|t|) 
(Intercept)    ­0.008332    0.706595   ­0.012       0.99    
AAR2a$V2     0.417446    0.025442   16.408    1.12e­12 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.634 on 19 degrees of freedom
Multiple R­squared: 0.9341 Adjusted R­squared: 0.9306 
F­statistic: 269.2 on 1 and 19 DF,  p­value: 1.125e­12 

 b  b X  
Podemos   especular   que   la   función   entre   las   variables   es   de   la   forma: Y=
 e ,   por   lo   que 
0 1

grafiquemos estas variables transformadas, la recta de regresión a ellas asociadas y apliquemos una regresión 
para obtener los coeficientes:

80
Problemas en el análisis de regresión: Formas funcionales

TABLA Nº42
>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
ln Y i Xi
>plot(a$V2, a$V1, col=3, xlab='X', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook') 
>abline(lm(a$V1~a$V2), lwd=3, col='red') 
>title(main=paste("Forma semi­log:", "LnY versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 2,0 0
2,1 1
>a1 <­ (lm(a$V1~a$V2)) 2,2 2
>summary(a1)  2,3 3
2,4 4
Obtenemos la ecuación: ∙
 2 ∙
ln Y= 2  X/ 10 R =1

 1,884e+16 1,102e+16
3,6 16
3,7 17
X
la cual es equivalente a  Y=  2  3,8 18
 e 10 3,9 19
4,0 20
     GRÁFICA Nº67

SALIDA Nº58

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
       Min           1Q           Median        3Q            Max 
­3.972e­16   ­1.709e­16   ­2.150e­17  1.594e­16   7.472e­16 

Coefficients:
                        Estimate       Std. Error      t value       Pr(>|t|)    
(Intercept)             2           1.061e­16     1.884e+16   <2e­16 ***
a$V2                    0,1          9.078e­18    1.102e+16    <2e­16 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
   
Residual standard error: 2.519e­16 on 19 degrees of freedom
Multiple R­squared:     1, Adjusted R­squared:     1 
F­statistic: 1.213e+32 on 1 and 19 DF,  p­value: < 2.2e­16 

Por último grafiquemos nuestras variables originales (tabla nº41) con esta recta de regresión:

                    GRÁFICA Nº68

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', 
cex.lab=1,family='NewCenturySchoolbook') 
>x <­ seq( 0 ,20,length = 100) 
>lines(x, exp(2+(x/10)), type='l', col= 'red', lwd=3) 
>title(main=paste("Forma semi­log:", "Y versus 
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
                  

81
Ejemplo Nº18: La explosión demográfica en EE.UU. entre 1790 y 1960.
BASE DE DATOS Nº15
En el siglo XX Estados Unidos experimentó una de las explosiones demográficas 
más grandes del mundo, que se explica, entre otras cosas, por una enorme inmigración. Yi Xi
La   base   de   datos   Nº15   nos   entrega   los   valores   de   la   cantidad   de   población
 Y i  y el año  X 2i  en EE.UU. entre 1790 y 1690. 3929214 1790
5308483 1800
7239881 1810
Grafiquemos las variables, la recta de regresión a ellas asociada y calculemos los  9638453 1820
coeficientes sobre estos datos: 12860702 1830
∙ ∙
>a <­ read.table('a.txt')  ∙ ∙
>par(bg = "Ivory 2")  ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de habitantes', cex.lab=1,family='NewCenturySchoolbook') 
106021537 1920
>abline(lm(a$V1~a$V2), lwd=3, col='red') 
123202624 1930
>title(main=paste("Forma semi­log:", "Número de habitantes versus 
Años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 132164569 1940
151325798 1950
>a1 <­ (lm(a$V1~a$V2)) 179323175 1960
>summary(a1)  FUENTE:
http://www.census.gov/
Obtenemos la ecuación:

 −1,83e+091,009e+06
Y=
2
R = 0.9206
−13,6   14.07

GRÁFICA Nº69

SALIDA Nº59

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
         Min              1Q          Median       3Q             Max 
    ­18776884    ­13317773    ­2941158    9177445    31141520 

Coefficients:
                         Estimate      Std. Error      t value    Pr(>|t|)    
(Intercept)       ­1.830e+09    1.345e+08     ­13.60    3.28e­10 ***
a$V2                1.009e+06    7.173e+04      14.07    1.98e­10 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 15790000 on 16 degrees of freedom
Multiple R­squared: 0.9252, Adjusted R­squared: 0.9206 
F­statistic:   198 on 1 and 16 DF,  p­value: 1.982e­10 

TABLA Nº43
 b  b X  
Podemos especular que la función entre las variables es de la forma: Y=  e , por  0 1

lo   que   corramos   una   regresión   entre   las   siguientes   variables   transformadas   (tabla   nº43)   y  ln Y i Xi
grafiquemos la ecuación de regresión obtenida junto a las variables originales:
15.184 1790
15.485 1800
>a1 <­ (lm(a$V1~a$V2))
>summary(a1)  15.795 1810
16.081 1820
16.370 1830
>a <­ read.table('a.txt') 
>par(bg = "Ivory 2")  ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de habitantes', cex.lab=1,family='NewCenturySchoolbook')  ∙ ∙
>x <­ seq( 1780, 1970, length = 100)  ∙ ∙
>lines(x, exp(­25.19 + 0.0227*(x)), type="l", col= 'red', lwd=3)  18.479 1920
>title(main=paste("Forma semi­log:", "Número de habitantes versus  18.629 1930
Años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 18.700 1940
18.835 1950
Nuestra ecuación de regresión resulta entonces: Y=
 e
 b
b  X
0 1 
Y= e
−25,190,0227 X
19.005 1960

82
Problemas en el análisis de regresión: Formas funcionales

                          GRÁFICA Nº70

SALIDA Nº60

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
    Min          1Q      Median       3Q         Max 
­0.31942   ­0.15824   0.02600   0.17855   0.22418 

Coefficients:
                        Estimate        Std. Error    t value       Pr(>|t|)    
(Intercept)      ­2.519e+01     1.653e+00    ­15.24       6.00e­11 ***
a$V2               2.271e­02      8.811e­04      25.78      1.85e­14 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1939 on 16 degrees of freedom
Multiple R­squared: 0.9765, Adjusted R­squared: 0.975 
F­statistic: 664.4 on 1 and 16 DF,  p­value: 1.855e­14 

4.1.4 FORMA POLINOMIAL Y= b 0b1 Xb2 X 2 (103)

Si hacemos W = X 2 la forma polinomial queda linealizada como: Y= b 0b1 Xb2 W


y nuestra ecuación de regresión queda como :  b  b X b W
Y= (104)
0 1 2

Aspectos teóricos. TABLA Nº44

Yi Xi
Supongamos que nos encontramos con una relación matemática perfecta entre dos 
variables   de   la   forma: Y=22 X3 X 3 ,   función   que   nos   es   desconocida.   Tenemos   sin  ­3018 ­10
embargo, los valores de estas dos variables asumen y que se muestran en la tabla nº44: ­2203 ­9
­1550 ­8
Grafiquemos   estos   datos   con   R,   junto   con  la   recta   de   regresión   y   obtengamos   los  ­1041 ­7
parámetros estimados: ­658 ­6
∙ ∙
>a <­ read.table('a.txt')  ∙ ∙
>par(bg = "Ivory 2")  ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')  662 6
>abline(lm(a$V1~a$V2), lwd=3, col='red')  1045 7
>title(main=paste("Forma polinomial:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 1554 8
2207 9
SALIDA Nº61 3022 10

Call:
lm(formula = AAR7a$V2 ~ AAR7a$V1)

Residuals: >a1 <­ (lm(a$V1~a$V2))
         Min             1Q          Median           3Q           Max  >summary(a1) 
   ­1.026e+03  ­4.104e+02   ­5.476e­14    4.104e+02  1.026e+03 

Coefficients: La ecuación que obtenemos resulta:
                      Estimate    Std. Error     t value     Pr(>|t|)    
(Intercept)         2.00         118.54        0.017        0.987     
Y= 2  199,4 X R 2= 0,8371
AAR7a$V1       199.40         19.58       10.186     3.91e­09 ***  0,017 10,186 
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 543.2 on 19 degrees of freedom
Multiple R­squared: 0.8452, Adjusted R­squared: 0.8371 
F­statistic: 103.7 on 1 and 19 DF,  p­value: 3.910e­09 

83
GRÁFICA Nº71
Podemos especular que la función entre las variables es 
de la forma: Y=  b  b X b W , por lo que grafiquemos las 
0 1 2
variables originales junto con la recta de regresión asociada a 
esta función .
Corramos una regresión sobre las variables señaladas en 
la tabla nº45 y grafiquemos la ecuación de regresión obtenida 
junto a los datos originales (tabla nº44):

 >a <­ read.table('a.txt') 
 >a1 <­ (lm(a$V1~a$V2+a$V3))
 >summary(a1) 

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', 
cex.lab=1,family='NewCenturySchoolbook') 
>x <­ seq( ­10, 10, length = 100) 
>lines(x, 2+2*x+3*x*x*x, type="l", lwd=3, col= 'red') 
>title(main=paste("Forma polinomial:", "Y versus 
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

SALIDA Nº62

TABLA Nº45 Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Yi Xi X 2i
Residuals:
­3018 ­10 ­1000       Min              1Q           Median         3Q              Max 
­2203 ­9 ­729 ­1.727e­13    ­4.891e­14    1.020e­14    6.577e­14     1.344e­13 
­1550 ­8 ­512
­1041 ­7 ­343 Coefficients:
­658 ­6 ­216                       Estimate       Std. Error      t value     Pr(>|t|)    
∙ ∙ ∙ (Intercept)     2.000e+00    1.921e­14    1.041e+14   <2e­16 ***
∙ ∙ ∙ a$V2             2.000e+00    7.997e­15    2.501e+14   <2e­16 ***
∙ ∙ ∙ a$V3             3.000e+00    1.116e­16    2.689e+16   <2e­16 ***
662 6 216 ­­­
1045 7 343 Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
1554 8 512
2207 9 729 Residual standard error: 8.805e­14 on 18 degrees of freedom
3022 10 1000 Multiple R­squared:     1, Adjusted R­squared:     1 
F­statistic: 2.336e+33 on 2 and 18 DF,  p­value: < 2.2e­16 
                  
GRÁFICA Nº72

Nuestra ecuación de regresión resulta entonces: 

Y i = 2  2 Xi  3X 2i R 2= 1
 2,501e+14 2,2,689e+14 

Y obtenemos exactamente la función que determina la 
relación entre las variables originales: Y= 22 X3 W

84
Problemas en el análisis de regresión: Formas funcionales

Ejemplo Nº19: Diagnosticados con VIH en Norteamérica entre 1987 y el 2000.
BASE DE DATOS Nº16
Se   estima   que   actualmente   más   de   un   millón   de   personas   han   sido 
diagnosticadas con VIH en los EE.UU., constituyendo este virus uno de los problemas de  Yi Xi
salud pública más importantes que afecta a ese país. No obstante, con el descubrimiento 
de terapias más eficaces, el mayor conocimiento por parte de la comunidad médica de  29105 1987
las infecciones oportunistas y las campañas de uso del preservativo, a partir de 1995 tanto  36126 1988
43499 1989
las   defunciones   por   SIDA   como   los   diagnosticados   con   VIH   se   han   reducido 
49546 1990
notablemente. 
60573 1991
La base de datos nº16 nos entrega los valores del número de diagnosticados con  ∙ ∙
VIH  Y i  entre 1987 y el 2000  Xi  en EE.UU. ∙ ∙
Grafiquemos estos datos con R, y la recta de regresión a ellos asociada. ∙ ∙
61124 1996
>a <­ read.table('a.txt')  49379 1997
>par(bg = "Ivory 2")  43225 1998
>plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de diagnoticados con VIH',  41356 1999
cex.lab=1,family='NewCenturySchoolbook')  39513 2000
>abline(lm(a$V1~a$V2), lwd=3, col='red') 
FUENTE:
>title(main=paste("Forma polinomial:", "Número de diagnoticados con VIH versus  http://www.avert.org/usastaty.htm
años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

    GRÁFICA Nº73

Podemos especular que la función entre las variables es 
 b  b X b W ,   por   lo   que   corremos   una 
de   la   forma: Y= 0 1 2
regresión entre las variables de la tabla nº46: 

>a <­ read.table('a.txt') 
>a1 <­ (lm(a$V1~a$V2+a$V3))
>summary(a1) 

SALIDA Nº63

TABLA Nº46 Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Yi Xi X 2i
Residuals:
29105 1 1       Min      1Q      Median     3Q       Max 
36126 2 4    ­9863     ­4650     ­1131      3372     12036 
43499 3 9
49546 4 16 Coefficients:
60573 5 25                          Estimate     Std. Error    t value     Pr(>|t|)    
∙ ∙ ∙ (Intercept)          11054.0       7020.3      1.575         0.144    
∙ ∙ ∙ a$V2                  15484.2        2153.1      7.191     1.77e­05 ***
∙ ∙ ∙ a$V3                  ­1009.4         139.6      ­7.229     1.69e­05 ***
61124 10 100 ­­­
49379 11 121 Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
43225 12 144
41356 13 169 Residual standard error: 7535 on 11 degrees of freedom
39513 14 196 Multiple R­squared: 0.8274, Adjusted R­squared: 0.796 
F­statistic: 26.37 on 2 and 11 DF,  p­value: 6.362e­05 

85
       GRÁFICA Nº74

Obtenemos:

Y i = 1105415484,2 X i −1009,4 X i
2
R 2= 0,796  
 7,191 −7,229

Grafiquemos la ecuación de regresión obtenida junto 
a los datos originales ( Y i y X i de la tabla)1.

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de diagnoticados con VIH', 
cex.lab=1,family='NewCenturySchoolbook') 
>x <­ seq(1,14, length = 100) 
>lines(x, 11054 +15484.2*x­1009.4*x*x, type="l", col= 'red',lwd=3) 
>title(main=paste("Forma polinomial:", "Número de diagnoticados con VIH 
versus 
años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

Ejemplo Nº20: Evolución de los detenidos por drogas por la DEA en los EE.UU (1994­2004).
BASE DE DATOS Nº17

Yi Xi En  ningún  otro  país   del  mundo  el  problema de  las  drogas  es  tan  extendido  e intenso 
como en los EE.UU. Graves problemas sociales como la criminalidad y el contagio de VIH 
23135 1994
se asocian a él. 
25279 1995
Un   gran   porcentaje   del   dinero   gastado   en   el   combate   a   las   drogas   se   destina   a   la 
29269 1996
34068 1997 represión,  en particular en arrestos, procesos judiciales y encarcelamiento de traficantes 
38468 1998 de poca monta.  Aproximadamente 500.000 personas están encarceladas por delitos de 
∙ ∙ drogas en los EE.UU. Las medidas vinculadas a la prevención o al tratamiento, han tenido 
∙ ∙ poco éxito.
∙ ∙ La base de datos Nº17 nos entrega los valores del número de arrestos por drogas  Y i 
39743 2000
34471 2001
entre 1994 y el 2004  Xi  en EE.UU.
30270 2002            
28549 2003        GRÁFICA Nº75
27053 2004
Fuente:
http://www.usdoj.gov/dea/statistics.html

Grafiquemos estos datos con R y la recta de regresión 
a ellos asociada.

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de arrestos relacionados 
con drogas', cex.lab=1,family='NewCenturySchoolbook') 
>abline(lm(a$V1~a$V2), lwd=3, col='red') 
>title(main=paste("Forma polinomial: Número de arrestos", "relacionados con 
drogas versus años",sep="\n"),font.main=1,cex.main=1.5,
family='NewCenturySchoolbook')

1 Es importante señalar que no es razonable incluir el valor de los años como variable independiente en la regresión, pues a este nivel la curva 
generada   entre   X   y X 2 es   prácticamente   una   recta,   con   lo   que   las   variables   independientes   presentarán   una   multicolinealidad   total. 
Cambiamos por esto el valor de los años por números del 1 al 14.

86
Problemas en el análisis de regresión: Formas funcionales

TABLA Nº47
Podemos   especular   que   la   función   entre   las   variables   es   de   la   forma:
 b  b X b W , por lo que corremos una regresión entre las variables de la tabla 
Y= 0 1 2 Yi Xi X 2i
nº47: 
23135 1 1
>a <­ read.table('a.txt')  25279 2 4
>a1 <­ (lm(a$V1~a$V2+a$V3)) 29269 3 9
>summary(a1)  34068 4 16
38468 5 25
Obtenemos: ∙ ∙ ∙
∙ ∙ ∙
Y i = 14394,637501,46 X i −596,52 X i
2
R 2= 0,8278 ∙ ∙ ∙
39743 7 49
        7,074 −6,931 34471 8 64
30270 9 81
Grafiquemos la ecuación de regresión obtenida junto a los datos originales. 28549 10 100
27053 11 121
>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de arrestos relacionados con drogas', cex.lab=1,family='NewCenturySchoolbook') 
>x <­ seq(1,11, length = 100) 
>lines(x, 14394.63 +7501.46*x­596.52*x*x, type="l", col= 'red',lwd=3) 
>title(main=paste("Forma polinomial: Número de arrestos", " relacionados con drogas versus 
años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

  GRÁFICA Nº76
SALIDA Nº64

Call:
lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:
    Min        1Q       Median      3Q      Max 
­3319.6   ­1745.2      ­788.1    1951.5    3364.3 

Coefficients:
                         Estimate     Std. Error    t value    Pr(>|t|)    
(Intercept)        14394.63       2768.63      5.199    0.000823 ***
a$V2                 7501.46       1060.41       7.074    0.000105 ***
a$V3                 ­596.52          86.07       ­6.931    0.000121 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 2521 on 8 degrees of freedom
Multiple R­squared: 0.8622, Adjusted R­squared: 0.8278 
F­statistic: 25.04 on 2 and 8 DF,  p­value: 0.0003601 

b1
4.1.5 FORMA RECÍPROCA Y= b 0  (105)
X
GRÁFICA Nº77
b1
Si Z= la   ecuación   transformada   queda Y= b 0b1 Z , 
X
con lo que nuestra ecuación de regresión resulta:
 b  b Z
  Y= (106)
0 1

Este modelo tiene las siguientes características: A medida que X 
crece indefinidamente, el término b1 Z se aproxima a cero e Y se 
aproxima al límite asintótico  b . 0
Por lo tanto en estos modelos se constituye una asíntota o valor 
límite que la variable dependiente toma cuando cuando el valor de 
X crece indefinidamente, tal como se muestra en la gráfica Nº77.

87
Aspectos teóricos.
TABLA Nº48 TABLA Nº49

Supongamos   que   nos   encontramos   con   una   relación   matemática  Yi Xi Yi Zi


1
perfecta   entre   dos   variables   de   la   forma: Y= 52  ,   función   que   nos   es 
X 7,000 1 7,000 1,000
desconocida. Tenemos sin embargo, los valores que estas dos variables asumen  6,000 2 6,000 0,500
y se muestran en la tabla nº48: 5,667 3 5,667 0,333
5,500 4 5,500 0,250
5,400 5 5,400 0,200
Grafiquemos estos datos con R y la recta de regresión a ellos asociada.
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
>a <­ read.table('a.txt') 
∙ ∙ ∙ ∙
>par(bg = "Ivory 2") 
5,125 16 5,125 0,063
>plot(a$V2,a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') 
>abline(lm(a$V1~a$V2), lwd=3, col='red')  5,118 17 5,118 0,059
>title(main=paste("Forma recíproca:", "Y versus  5,111 18 5,111 0,056
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 5,105 19 5,105 0,053
5,100 20 5,100 0,050

b1
Podemos   especular   que   la   función   entre   las   variables   es   de   la   forma: Y= b 0  ,   por   lo   que 
X
corremos una regresión entre las variables de la tabla nº49: 

               GRÁFICA Nº78

>a <­ read.table('a.txt') 
>a1 <­ (lm(a$V1~a$V2))
>summary(a1) 

La ecuación que obtenemos resulta:


Y= 5  2∙ Z R 2= 1
26536   2999

Grafiquemos   las   variables   originales   (tabla   nº48)   junto 


con la recta de regresión aquí obtenida.

>a <­ read.table('a.txt') 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', 
cex.lab=1,family='NewCenturySchoolbook') 
>x <­ seq( 1, 20, length = 100) 
>lines(x, 5+2*(1/x), type="l", lwd=3, col= 'red') 
>title(main=paste("Forma recíproca:", "Y versus 
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

         GRÁFICA Nº79
         
SALIDA Nº65

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
        Min           1Q           Median           3Q             Max 
­0.0008940   ­0.0004211    0.0001214    0.0001499    0.0011506 

Coefficients:
                          Estimate    Std. Error   t value    Pr(>|t|)    
(Intercept)         4.9998164  0.0001884    26536   <2e­16 ***
a$V2                 2.0004648  0.0006670    2999     <2e­16 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.0006496 on 18 degrees of freedom
Multiple R­squared:     1, Adjusted R­squared:     1 
F­statistic: 8.996e+06 on 1 and 18 DF,  p­value: < 2.2e­16 

88
Problemas en el análisis de regresión: Formas funcionales

Ejemplo Nº21: Tasa de mortalidad infantil y el PIB per cápita ajustado a paridad de poder adquisitivo  
para 42 países.

BASE DE DATOS Nº18
La   base   de   datos   Nº18   nos   entrega   los   valores   la   tasa   de   mortalidad 
Yi Xi infantil por cada 100 nacidos vivos  Y i  al 2009 y el PIB PPA per cápita  Xi  al 
2008 para 219 países. Suponemos que a mayor PIB PPA baja dramáticamente la 
Afghanistan 151,95 800
Albania 18,62 6000
mortalidad infantil.
Algeria 27,73 6900
American Samoa 10,18 8000
Andorra 3,76 42500 Grafiquemos estos puntos y la recta de regresión a ellos asociada:
∙ ∙ ∙
∙ ∙ ∙ >a <­ read.table('a.txt') 
∙ ∙ ∙ >par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Tasa de mortalidad infantil', 
West Bank 15,96 2900
cex.lab=1,family='NewCenturySchoolbook') 
Western Sahara 69,66 2500
>abline(lm(a$V1~a$V2), lwd=3, col='red') 
Yemen 54,7 2500 >title(main=paste("Forma recíproca:", "Tasa de mortalidad infantil versus PIB PPA per 
Zambia 101,2 1500 cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 
Zimbabwe 32,31 200
Fuente:
http://www.cia.gov        GRÁFICA Nº80

Nuestra suposición resulta verdadera porque a mayor 
PIB   PPA   la   gente   puede   disponer   de   más   recursos   para   el 
cuidado   de   la   salud,   asumiendo   que   los   demás   factores 
permanecen constantes. Observemos que a medida que el 
PIB   PPA   per   cápita   se   incrementa,   hay   inicialmente   una 
drástica caída de la mortalidad infantil pero que se estabiliza 
a medida que el PIB PPA per cápita continúa creciendo.
Podemos especular que la función entre las variables 
b
es   de   la   forma: Y= b 0 1  ,   por   lo   que   corremos   una 
X
regresión entre las variables de la tabla 50: 

>a <­ read.table('a.txt') 
>a1 <­ (lm(a$V1~a$V2))
>summary(a1) 

La ecuación que obtenemos resulta:


Y= 19,35132177,613∙ Z R 2= 0,3516
  10,13 10,92

TABLA Nº50

Yi 1/X i Grafiquemos las variables originales junto con la recta de regresión aquí 
obtenida.
Afghanistan 151,95 0,001250
Albania 18,62 0,000167
>a <­ read.table('a.txt') 
Algeria 27,73 0,000145
>par(bg = "Ivory 2") 
American Samoa 10,18 0,000125
>plot(a$V2,a$V1, col=3, xlab='PIB PPA per cápita', ylab='Tasa de mortalidad infantil', 
Andorra 3,76 0,000024 cex.lab=1,family='NewCenturySchoolbook') 
∙ ∙ ∙ >x <­ seq( 0, 120000, length = 100) 
∙ ∙ ∙ >lines(x, 19.351+32177*(1/x), type="l", lwd=3, col= 'red') 
∙ ∙ ∙ >title(main=paste("Forma recíproca:", "Tasa de mortalidad infantil versus PIB PPA per 
West Bank 15,96 0,000345 cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Western Sahara 69,66 0,000400
Yemen 54,7 0,000400
          
Zambia 101,2 0,000667
Zimbabwe 32,31 0,005000

89
                                               GRÁFICA Nº81

SALIDA Nº66

Call:
lm(formula = a$V1 ~ a$V2)

Residuals:
     Min        1Q      Median     3Q      Max 
­147.929   ­14.768   ­7.359    10.422   99.330 

Coefficients:
                  Estimate   Std. Error   t value   Pr(>|t|)    
(Intercept)    19.351      1.911       10.13    <2e­16 ***
a$V2         32177.613   2947.032   10.92    <2e­16 ***
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 24.39 on 217 degrees of freedom
Multiple R­squared: 0.3546,Adjusted R­squared: 0.3516 
F­statistic: 119.2 on 1 and 217 DF,  p­value: < 2.2e­16

90
Aplicaciones del análisis de regresión: Variables Dummy

4.2 VARIABLES DUMMY1


 4.2.1 INTRODUCCIÓN

Hasta   el   momento,   en   el   análisis   de   regresión   lineal   sólo   hemos   considerado   variables   cuantitativas 
continuas ­las cuales pueden tomar cualquier valor dentro de un intervalo específico de números­ tanto para los 
regresores como para el regresando. Sin embargo, en muchos casos, variables de naturaleza cualitativa pueden 
influenciar de manera decisiva a la variable dependiente2  (consideremos por ejemplo el sexo, la etnicidad, la 
religión,   etc.)   Para   estudiar   estos   casos   dentro   del   modelo   de   regresión   lineal   introduciremos   variables 
independientes cualitativas, llamadas también variables dummy.
Estas variables funcionan como un dispositivo de clasificación en categorías mutuamente excluyentes y 
se tratan como a cualquier otra variable cuantitativa. Son tantas como el número de categorías en que se divida 
la variable menos 1. Por ejemplo, si una variable posee dos categorías, como en el caso del sexo (hombre o 
mujer) se construye una variable dummy en la que 1 indica mujer y 0 hombre. Si utilizamos una variable que 
posee 3 categorías, como en el caso de la religión (católico, protestante o judío, por ejemplo) construimos dos 
variables dummy: (1 0) en el caso de católico, (0 1) en el caso de protestante y (0 0) en el caso de judío y así 
sucesivamente. En general diremos que a k categorías, utilizamos k­1 variables dummy.
Las   variables   dummy  pueden   ser   incorporadas   en   los   modelos   de   regresión   tan   fácilmente   como   las 
variables cuantitativas. De hecho, un modelo de regresión puede poseer regresores exclusivamente dummy. Estos 
modelos son llamados modelos de Análisis de Varianza (ANOVA) y los estudiaremos a continuación.

4.2.2 MODELOS SÓLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA).

4.2.2.1 Modelos con solo una variable predictora cualitativa.

La población latina en Texas.

Se   proyecta   que   para   el   2020   la   población   blanca   en   el   Estado   de   Texas   dejará   de   ser   la   mayoría 
absoluta pasando a constituir solo el 47%, mientras la población latina será el 37% ­por lejos, la segunda mayoría 
relativa­3, dándose en esta población los índices más altos de pobreza. 'En 1999, más de 1.6 millones (25.4 por 
ciento)   de   hispanos   en   Texas   eran   pobres.   Su   ingreso   familiar   promedio   era  de   $29,873,   muy   por   debajo   del 
promedio de Texas de $39,927'4.
Es así que a medida que pasa el tiempo, debido a la cada vez mayor cantidad de población hispana en 
Texas, una también cantidad cada vez mayor de población tejana se hará pobre. 
Texas debe reducir las disparidades económicas que subyacen aún en su población si desea un porvenir 
sustentable.

Ejemplo Nº22: % de población latina y su ubicación geográfica en el Estado de Texas, EE.UU.

Para  comenzar  a  caracterizar  a  la  población  latina  de  Texas,  supongamos  que   queremos  saber  si  el 
porcentaje de ésta  sobre el total difiere en forma significativa entre tres zonas seleccionadas arbitrariamente de 
los 254 condados del Estado. 
Para esto, creamos dos variables dummy que nos indican la ubicación geográfica (gráfica nº82). De esta 
manera:
D1i D2i

1:  Frontera con México    (1     0)


2:  Centro­oeste y este    (0     1) 
3:  El resto del Estado    (0     0)

La base de datos nº19  muestra el porcentaje de población latina como variable dependiente  Yi  , 
como variables dummy D1i y  D2i  la ubicación geográfica para los 254 condados del Estado de Texas y el % 
promedio de población latina dentro de estos tres grupos. 

1 Estas variables también se conocen como indicadoras, categóricas, mudas o ficticias.
2 Por ejemplo, existe evidencia empírica de que las mujeres ganan menos que los hombres por la misma actividad en el mercado del trabajo.
3 http://www.cis.org/TexasImmigration­1970­2020
4 http://www.dallasfed.org/entrada/articles/2005/sp_fotexas_petersen.html

91
                        
BASE DE DATOS Nº19 %
 Población                     GRÁFICA Nº 82
Condado Yi D1i D2i latina
promedio
Starr County  98,10 1 0
Maverick County  95,33 1 0
Webb County  94,40 1 0
Brooks County  92,00 1 0
Zavala County  91,39 1 0
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
Brewster County  43,72 1 0
Live Oak County  37,95 1 0
Jeff Davis County  35,48 1 0
McMullen County  34,43 1 0
Real County  21,63 1 0 69,08

Castro County  51,83 0 1
Parmer County  49,83 0 1
Crosby County  48,84 0 1
Dawson County  48,09 0 1
Hale County  47,99 0 1
∙ ∙ ∙ ∙ Fuente: 
∙ ∙ ∙ ∙ http://geology.com/
∙ ∙ ∙ ∙
Los   promedios   de   población   latina   para   estas   tres 
Hardin County  2,45 0 1
Cass County  1,62 0 1
regiones son:
Sabine County  1,60 0 1 Población
Marion County  1,40 0 1 latina
Delta County  0,81 0 1 17,93
1: Frontera con México : 69,08 %
Atascosa County  58,70 0 0 2: Centro­oeste y este : 17,93 %
Deaf Smith County  57,71 0 0 3: El resto del Estado : 22,15 %
Bexar County  54,35 0 0
Sutton County  51,73 0 0
Reagan County  49,67 0 0
¿Son   estos   resultados   significativamente   diferentes   unos 
∙ ∙ ∙ ∙ de otros?
∙ ∙ ∙ ∙ Existen varias técnicas estadísticas para comparar dos o 
∙ ∙ ∙ ∙ más promedios, las cuales son generalmente llamadas análisis 
Montague County  5,49 0 0 de varianza, pero el mismo objetivo puede lograrse dentro del 
Llano County  5,14 0 0 contexto de un análisis de regresión.
Armstrong County  3,91 0 0
Clay County  3,07 0 0
Para ver esto, supongamos el siguiente modelo:
Roberts County  1,35 0 0 22,15
FUENTE: 
http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.html
Y i = b0 b1 D1i b 2 D2i i (107)

y hagamos una regresión (salida nº67):

>a <­ read.table('a.txt') 
>a1 <­ (lm(a$V1~a$V2+a$V3))
>summary(a1) 

Obtenemos la siguiente ecuación:

Y i = 22,1546,935 D1i −4,225D2i R 2= 0,5766


16,882 −2,052

Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,251)
[1] 1.969460 por lo que nuestros parámetros estimados son significativos al 5%.

92
Aplicaciones del análisis de regresión: Variables Dummy

b0 es nuestro punto de control correspondiente  SALIDA Nº67


a los valores de las variables dummy: (0 0) y nos entrega el 
promedio   del   %   de   población   latina   para   los   condados  Call:
que se encuentran 'en el resto del Estado': 22,15%. lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:
Reemplacemos los valores de las correspondientes        Min       1Q       Median      3Q      Max 
dummy:   ­47.454  ­10.079     ­4.160      9.534   36.550 

D1i : 1 y  D2i : 0 El   condado   se   encuentra  Coefficients:


en la frontera y nuestra ecuación queda:                  Estimate   Std. Error   t value   Pr(>|t|)    
(Intercept)   22.150      1.351      16.399   <2e­16 ***
Y i = 22,1546,935= 69,085
a$V2           46.935      2.780      16.882   <2e­16 ***
a$V3           ­4.225       2.058     ­2.052      0.0412 *  
D1i : 0 y  D2i : 1 El   condado   se   encuentra  ­­­
en el centro­oeste y este y nuestra ecuación queda: Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Y i = 22,15−4,225= 17,925
Residual standard error: 14.98 on 251 degrees of freedom
Multiple R­squared: 0.5799,Adjusted R­squared: 0.5766 
Vemos que hay una tremenda concentración de  F­statistic: 173.3 on 2 and 251 DF,  p­value: < 2.2e­16 
población latina en la frontera con México.

Los valores de  b1 y  b2 nos dicen en cuanto los porcentajes promedio de latinos en los condados de 


la frontera y del centro­oeste y el este difieren del promedio del porcentaje de latinos del 'resto del Estado'.

4.2.2.2 Modelos con dos variables predictoras cualitativas

Ejemplo Nº23: % de pobreza, ubicación geográfica y densidad de población latina en el Estado de  
Texas.

La base de datos nª20 nos entrega como variable dependiente  Yi  el % de población pobre para los 
condados del Estado de Texas y como regresores, las dos variables dummy de ubicación espacial vistas en el 
ejemplo   anterior   ( D1i y   D2i )y   una   nueva   variable   dummy   que   categoriza   la   densidad   de   la   población 
hispana:

1:  D3i = 1 condados con más del 30% de su población latina.


2:  D3i = 0 condados con menos del 30% de su población latina.

Supongamos un modelo del tipo:

Y i = b0 b1 D1i b 2 D2i b3 D3i i (108)

BASE DE DATOS Nº20 Y hagamos un análisis de regresión (salida nº68):
Condado Yi D1i D2i D3i >a <­ read.table('a.txt')   
>a1 <­ (lm(a$V1~a$V2+a$V3+a$V4)) 
Anderson County  14,32 0 1 0 >summary(a1) 
Andrews County  15,29 0 1 1
Angelina County  19,34 0 1 0 Nuestra ecuación resulta:
Aransas County  19,63 0 0 0
Archer County  8,21 0 1 0
Y i = 14,43318,9935 D1i 1,5022 D2i 1,383 D3i
∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙  9,018 2,4  1,906
∙ ∙ ∙ ∙ ∙ Nuestro valor crítico t para un 95% de significación es:
Wood County  12,99 0 1 0
Yoakum County  17,17 0 1 1 >qt(0.95,252)
Young County  16,29 0 1 0
[1]   1.650923   por   lo   que   nuestros   parámetros   estimados   son 
Zapata County  37,19 1 0 1
Zavala County  39,71 1 0 1
significativos al 5%.
FUENTES:
http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.html
http://www.ers.usda.gov/Data/PovertyRates/PovListNum.asp?ST=TX&view=Number&Longname=TX

93
Acá nuestro punto de referencia son los condados que 
SALIDA Nº68
se encuentran 'en el resto del Estado' y tienen menos de 
Call: un   30%   de   su   población   latina.   Siendo   así,   todas   las 
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4) comparaciones deben ser hechas en torno a este grupo.
El % de población pobre para este grupo es, por lo tanto 
Residuals: b = 14,4331  Ahora, si en nuestra categoría 'resto del 
0
     Min        1Q      Median        3Q        Max 
Estado' consideramos los condados que tienen más del 
­11.8096  ­2.3544    ­0.1607      2.3598   17.1004 
30% de su población latina, el % promedio de pobreza 
Coefficients: sube a:  Y i = 14,43311,383= 15,8161
                  Estimate   Std. Error   t value   Pr(>|t|)     Observemos   ahora   nuestra   categoría   centro­oeste   y 
(Intercept)   14.4331     0.4471     32.284   <2e­16 *** este.   Para   los   condados   con   menos   del   30%   de   su 
a$V2            8.9935      0.9973     9.018    <2e­16 *** población   latina   el   promedio   de   %   de   pobreza   es: 
a$V3            1.5022      0.6260     2.400     0.0171 *  
a$V4            1.3830      0.7258     1.906     0.0579 .  
Y i = 14,43311,5022= 15,9353 .   Si   consideramos   los 
­­­ condados de  esta categoría que poseen más  del  30% 
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  de su población latina el porcentaje de población pobre 
aumenta a:  Y i = 14,43311,50221,383= 17,3183
Residual standard error: 4.553 on 250 degrees of freedom
Multiple R­squared: 0.3688,Adjusted R­squared: 0.3612 
Los   condados   de   la   categoría   'frontera   con   México' 
F­statistic: 48.68 on 3 and 250 DF,  p­value: < 2.2e­16 poseen  todos  más  del 30%  de  su población   latina y el 
promedio   de   pobreza   en   ellos   es   de 
Y i = 14,43318,99351,50221,383= 26,3118

4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA)

Ejemplo Nº24: % de pobreza, ubicación geográfica y % de población latina en el Estado de Texas

Las bases de datos nº19 y nº20 nos entregan el % de población pobre  Yi  y el % de población latina
 Xi  .   Consideremos   también   la   ubicación   espacial   de   los   condados   de   Texas   tal   como   ya   los   hemos 
clasificado en los ejemplos anteriores.

Supongamos el siguiente modelo: Y i = b0 b1 X 1b 2 D1i b 3 D2i i (109)

y hagamos una regresión del % de población pobre sobre las demás variables (salida nº69):

>a <­ read.table('a.txt')   
>a1 <­ (lm(a$V1~a$V2+a$V3+a$V4)) 
>summary(a1) 

BASES DE DATOS Nº19 y Nº20
Obtenemos la siguiente recta de regresión:
Condado Yi X 1i   D1i   D2i

Anderson County  14,32 12,00 0 1


Y i = 11,96710,1266 X i 4,0627 D1i1,997D2i
Andrews County  15,29 40,11 0 1 7,196   3,589 3,453
Angelina County  19,34 14,08 0 1
Aransas County  19,63 20,42 0 0 Nuestro valor crítico t para un 95% de significación es:
Archer County  8,21 4,57 0 1
∙ ∙ ∙ ∙ ∙ >qt(0.975,252)
∙ ∙ ∙ ∙ ∙ [1]   1.969422,   por   lo   que     nuestros   parámetros   estimados   son 
∙ ∙ ∙ ∙ ∙ significativos al 5%.
Wood County  12,99 5,38 0 1
Yoakum County  17,17 45,92 0 1
Young County  16,29 10,50 0 1 Obtengamos   nuestras   rectas   de   regresión   asociadas   a   cada 
Zapata County  37,19 84,94 1 0 categoría de la variable cualitativa: 'ubicación geográfica'.
Zavala County  39,71 91,39 1 0

Si el condado se encuentra en la frontera D1i =1 y D2i= 0 : Y i = 16,0298 0,1266 X i


Si el condado se encuentra en el centro­oeste y este D1i =0 y D2i =1 : Y i = 13,96410,1266 X i
Si el condado se encuentra en el resto del Estado D1i =0 y D2i =0 : Y i = 11,96710,1266 X i

94
Aplicaciones del análisis de regresión: Variables Dummy

SALIDA Nº69

Grafiquemos con R las tres ecuaciones anteriores  Call:
y nuestros datos de % promedio de población pobre y %  lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
promedio de población latina para los condados de Texas 
(gráfica nº 83): Residuals:
     Min       1Q      Median       3Q       Max 
>x <­ seq( 0 ,100,length = 100)  ­11.9327  ­2.6806   ­0.2313     2.3717  14.6897 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='% promedio de población latina', ylab='%  Coefficients:
promedio de población pobre',                    Estimate   Std. Error   t value  Pr(>|t|)    
cex.lab=1,family='NewCenturySchoolbook') 
(Intercept)  11.96711    0.54169    22.092  < 2e­16 ***
>lines(x, 16.0298+0.1266*(x), type='l', col= 'blue', lwd=2) 
a$V2           0.12656    0.01759     7.196   7.23e­12 ***
>lines(x, 13.9641+0.1266*(x), type='l', col= 'red', lwd=3) 
>lines(x, 11.9671+0.1266*(x), type='l', col= 'Magenta 4', lwd=2)  a$V3           4.06270    1.13208     3.589   0.000400 ***
>title(main=paste("Población pobre versus", "población latina en los  a$V4           1.99695    0.57837     3.453   0.000652 ***
condados de Texas",sep="\n"),  ­­­
font.main=1,cex.main=1.5,family='NewCenturySchoolbook')   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 4.174 on 250 degrees of freedom
Multiple R­squared: 0.4695,Adjusted R­squared: 0.4631 
F­statistic: 73.74 on 3 and 250 DF,  p­value: < 2.2e­16 

                 GRÁFICA Nº 83

Las tres rectas de regresión representan a las 3 regiones 
en que hemos dividido el Estado de Texas. 
El   gráfico   se   interpreta   como   sigue:   La   línea   violeta 
representa   'el   resto   del   Estado',   la   línea   roja   representa   el 
centro­oeste   y   el   este,   y   la   azul   los   condados   que   se 
encuentran en la frontera con México.
Vemos que consecutivamente a medida que aumenta 
el % promedio de población latina es mayor el valor del % de 
población pobre, poseyendo los condados que se ubican en la 
frontera con México los más altos índices de pobreza.

4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL

Las  variables   dummy  permiten   determinar  si  ha  habido   un   cambio   en  los   parámetros  del  modelo   de 
regresión, ya sea en la intercepción o en la pendiente. Para esto sólo debemos saber si los parámetros estimados 
asociados a las variables dummy son estadísticamente significativos.  
Consideremos el modelo general con una variable dummy: Y i = b0 b1 X 1i b2 X i D1i b3 D1i   (110)

donde: i= 1,...,n y definamos: D1i = 0 para la categoría o y D1i = 1 para la categoría p. 

De esta manera una vez ejecutada la regresión:

Y i = b0  b1 X i para la categoría o.

Y i = b0  b3 b1 b2 Xi para la categoría p.

Hay  cuatro   casos   posibles  de  acuerdo  a  que   posean   o   no   significación   estadística  cada  uno   de  los 
parámetros estimados: 

95
                  GRÁFICA Nº 84
1. b3 y  b2 no son significativas, por lo que no hay 
cambio estructural. Las regresiones para las dos categorías son 
idénticas:  Y i = b0  b1 X i para todo i.
2. b es   significativa,   pero   b no.   Existen   dos 
3 2
regresiones   con   la   misma   pendiente   pero   con   distintas 
intercepciones.

Y i = b0  b1 X i para la categoría o.


Y i = b0  b3  b1 X i para la categoría p.

     
          GRÁFICA Nº 85

3. b3 no   es   significativa,   pero b2 si.   Hay   dos 


regresiones   con   una   misma   intercepción   (concurrente)   pero 
con diferentes pendientes.

Y i = b0  b1 X i para la categoría o.


Y i = b0  b1 b2  X i para la categoría p.

                  GRÁFICA Nº 86

4. b3 y b2 son ambas estadísticamente significativas. 


Existen dos regresiones por completo distintas. 

Y i = b0  b1 X i para la categoría o.


Y i = b0  b3 b1 b2 Xi para la categoría p.

Ilustremos este último caso con un ejemplo:

Ejemplo Nº25: Los efectos diferenciados para África y el resto del mundo de la correlación entre 
la esperanza de vida y el PIB.

Se supone la existencia de cierta correlación entre la esperanza de vida y el PIB per cápita a valores de 
paridad de poder adquisitivo en los países del mundo, como lo vimos en el ejemplo nº1 de este trabajo. Como 
África posee los más bajos PIB per cápita mundiales, para considerar los efectos regionales en la regresión, se 
introducirá una variable dummy: Di= 1 si el país es africano y Di = 0 si no lo es.
La tabla nº2 vista en la primera sección de este trabajo ­Análisis  de Regresión Simple­ nos muestra la 
esperanza de vida en años al 2005  Y i  y el logaritmo del PIB per cápita a paridad de poder adquisitivo al 2005
 Xi  . Añadamos la variable dummy definida anteriormente Di  y esta misma multiplicada por la variable 
independiente Di X i  para 164 países del mundo, 39 de los cuales son africanos. 

96
Aplicaciones del análisis de regresión: Variables Dummy

(excluímos   los   siguientes   datos   aberrantes   ­todos   países  TABLA Nº2


africanos­:   Angola,   Botswana,   Gabon,   Lesotho,   Namibia,   South 
Africa, Swaziland y Zimbabwe) PAÍS Yi Xi Di X i Di
Apliquemos una regresión de la esperanza de vida sobre el 
logaritmo del PIB per cápita a paridad de poder adquisitivo: Albania 76,2 8,580 0 0,000
Algeria 71,7 8,878 1 8,878
>a <­ read.table('a.txt')  Antigua y Barbuda 73,9 9,359 0 0,000
>a1 <­ (lm(a$V1~a$V2))  Argentina 74,8 9,484 0 0,000
>summary(a1) Armenia 71,7 8,306 0 0,000
∙ ∙ ∙ ∙ ∙
SALIDA Nº70 ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙
Call: Vanuatu 69,3 8,136 0 0,000
lm(formula = a$V1 ~ a$V2) Venezuela 73,2 8,666 0 0,000
Vietnam 73,7 7,931 0 0,000
Residuals:
Yemen 61,5 6,614 0 0,000
     Min       1Q      Median       3Q       Max 
­14.2331  ­2.4979   0.2952      3.2149  11.0504 
Zambia 40,5 6,815 1 6,815

Coefficients: Nuestra ecuación de regresión nos da:
                 Estimate    Std. Error   t value    Pr(>|t|)      1,9627,652X
Y= R 2=0,764
(Intercept)   1.9619       2.9153      0.673      0.502    
a$V2           7.6520       0.3329     22.987    <2e­16 ***
22,987
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  Nuestro valor crítico t para un 95% de significación es:
Residual standard error: 4.88 on 162 degrees of freedom >qt(0.975,160)
Multiple R­squared: 0.7653,Adjusted R­squared: 0.7639  [1]   1.974902,   por   lo   que   nuestros   parámetros   estimados   son 
F­statistic: 528.4 on 1 and 162 DF,  p­value: < 2.2e­16
significativos al 5%.
Apliquemos una regresión de la esperanza de vida, sobre el resto de variables independientes incluyendo 
las dummies:

SALIDA Nº71 >a <­ read.table('a.txt') 
>a1 <­ (lm(a$V1~a$V2+a$V3+a$V4)) 
Call: >summary(a1)
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)

Nuestra ecuación de regresión nos da:
Residuals:
     Min       1Q        Median       3Q       Max 
­10.8277  ­1.9444     0.3835      2.3447   9.6967   25,4825,178X− 47,501D5,256 X ∙D
Y=
2
R =0,852
14,015 −6,454  5,51
Coefficients:
Siendo   todos   nuestros   parámetros   estimados   son 
                  Estimate   Std. Error   t value   Pr(>|t|)    
(Intercept)   25.4817     3.3735      7.554   3.06e­12 ***
significativos al 5%.
a$V2           5.1782       0.3695     14.015  < 2e­16 ***
Las ecuaciones resultan respectivamente:
a$V3         ­47.5010      7.3604     ­6.454   1.24e­09 ***
a$V4           5.2558       0.9540      5.510   1.41e­07 ***  1,9627,652X para las variables originales
Y=
­­­  − 22,01910,434 X
Y= para África y  
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Y= 25,4825,178X para el resto del mundo.
Residual standard error: 3.903 on 160 degrees of freedom Grafiquemos esta rectas (gráfica nº 87):
Multiple R­squared: 0.8518,Adjusted R­squared: 0.849 
F­statistic: 306.4 on 3 and 160 DF,  p­value: < 2.2e­16

>a <­ read.table('a.txt') 
>x <­ seq( 5, 12, length = 1000) 
>par(bg = "Ivory 2") 
>plot(a$V2, a$V1, col=3, xlab='Ln del PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') 
>abline(lm(a$V1~a$V2), lwd=3, col='red') 
>lines(x, ­22.019 +10.434*(x), type="l", col= 'Magenta 4') 
>lines(x, 25.482 +5.178*(x), type="l", col= 'blue') 
>title(main=paste("Esperanza de vida", "versus ln del PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

La columna gruesa azul nos muestra la recta de regresión original. La línea verde representa al conjunto 
de países excluyendo África. Se aprecia con una pendiente menor y una intersección con el eje Y mayor. Lo 
anterior   implica   que   la   esperanza   de   vida   parte   siendo   alta   para   valores   bajos   del   PIB   y   se   incrementa 
suavemente a través del aumento del ln del PIB de los países.
La   línea   roja   interpreta   a   los   países   africanos,   y   muestra   que   la   esperanza   de   vida   para   éstos   se 
incrementa dramáticamente a medida que aumenta el PIB de los mismos.

97
        GRÁFICA Nº 87
4.2.5 ALGUNAS   PRECAUCIONES   EN   EL   USO   DE   VARIABLES  
DUMMY 
 
1. Si una variable cualitativa tiene m categorías, debe 
representarse por medio de m­1 variables dummy, asignando a 
cada una los valores de 0 ó 1. De no ser así ocurre el problema 
de  la  multicolinealidad   (que   hemos   analizado   en  la  sección 
precedente)5. 
Las siguientes precauciones están referidas a modelos 
ANOVA.
2. La categoría para la cual no es asignada ninguna 
variable   dummy   es   denominada   punto   de   referencia   o 
categoría omitida. Todas las comparaciones están hechas en 
relación al punto de referencia.
3.   El   valor   de   intercepción b0 representa   el   valor 
promedio del punto de referencia. 
Por   ejemplo,   consideremos   la   base   de   datos   Nº1 
restringida al  los valores de  la  esperanza de  vida  Yi  junto 
con la dummy antes definida Di  .
Ejecutemos una regresión de  Y i  sobre Di  : BASE DE DATOS Nº1

>a <­ read.table('a.txt')  PAÍS Yi Di
>a1 <­ (lm(a$V1~a$V2)) 
>summary(a1) Albania 76.2 0
Algeria 71.7 1
La recta de regresión obtenida es: Antigua y Barbuda 73.9 0
Argentina 74.8 0
 72.507−17,271 ∙D
Y= R 2=0,5365 Armenia 71.7 0
i
∙ ∙ ∙
−13,77
∙ ∙ ∙
∙ ∙ ∙
SALIDA Nº72
Para   los   países   no  Vanuatu 69.3 0
Call:
africanos Di = 0  el  Venezuela 73.2 0
valor   promedio   de   la  Vietnam 73.7 0
lm(formula = a$V1 ~ a$V2)
esperanza   de   vida   es  Yemen 61.5 0
Zambia 40.5 1
Residuals: 72,507.
     Min       1Q      Median       3Q       Max  4.   Los   coeficientes   b i son   conocidos   como   los 
­18.6072  ­4.1394   ­0.0572     4.9678   18.2641 
coeficientes   de   intercepción   diferencial.   Nos   dicen   en 
Coefficients: cuanto varía el valor de la variable dependiente para la 
                 Estimate   Std. Error   t value   Pr(>|t|)     correspondiente   categoría   respecto   al   punto   de 
(Intercept)  72.5072     0.6115     118.56   <2e­16 *** referencia.
a$V2         ­17.2713     1.2540     ­13.77   <2e­16 *** En   nuestro   ejemplo,   72,507­17,271=   55,236  es   el   valor 
­­­ promedio   de   la   esperanza   de   vida   para   los   países 
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  africanos.
5.   Si   la   variable   cualitativa   tienen   más   que   una 
Residual standard error: 6.837 on 162 degrees of freedom
categoría, la elección del 'punto de referencia' queda a 
Multiple R­squared: 0.5394,Adjusted R­squared: 0.5365 
F­statistic: 189.7 on 1 and 162 DF,  p­value: < 2.2e­16 estricta elección del investigador.

5 Es posible evitar el problema de la multicolinealidad al tener m variables dummy para m categorías de una variables cualitativa omitiendo el 
término de intercepción y corriendo una regresión bajo el siguiente modelo supuesto: Y i = b 1 D1ib1 D 2ib1 D3i  i . Suprimiendo la intercepción 
y utilizando una variable dummy para cada categoría, se obtienen directamente los valores medios para cada una de las categorías.

98
Aplicaciones del análisis de regresión: Modelos de elección binarios

4.3 MODELOS DE ELECCIÓN BINARIOS


4.3.1 INTRODUCCIÓN

Hasta ahora, hemos considerado modelos de regresión en los que el regresando (variable dependiente o 
respuesta) es cuantitativa, mientras las variables independientes son cuantitativas, cualitativas (dummy) o una 
mezcla de ambas. Sin embargo, algunas veces en el análisis de regresión sólo estamos interesados en el valor 
dicotómico   que   pueda   adoptar   la   variable   respuesta,   como   por   ejemplo,   en   regresiones   donde   deseamos 
averiguar   de  qué   manera   influye  un   set   de  variables   independientes   en   el  hecho   de   que   una   persona  esté 
ocupada o desempleada, sea alfabeta o analfabeta, sea solvente o insolvente para un préstamo, etc. 
Existe   una   importante   diferencia   entre   un   modelo   de   regresión   donde   la   variable   dependiente   es 
cuantitativa y otro en la que es cualitativa. En el primer caso, nuestro objetivo es estimar la media del regresando, 
dados los valores de los regresores. En el segundo, nuestro objetivo es encontrar la probabilidad de que algo 
ocurra   o   no.   Es   por   esto   que   los   modelos   de   regresión   con   variable   dependiente   cualitativa   se   denominan 
también modelos de probabilidad.
Si en un modelo de regresión lineal la variable dependiente es una variable dicotómica1  (que adopta 
sólo   los   valores   0   ó   1),   una   regresión   por   el   método   de   MCO   no   es   apropiada,   pues   éste   puede   permitir 
predicciones mayores que 1 o menores que 0 dando un resultado absurdo. 
En este capítulo abordaremos   dos   metodologías   para  estudiar  los   modelos   de   respuesta  cualitativa:   el 
Logit y el Probit.

  4.3.2 EL MODELO LOGIT

La función de distribución logística puede expresarse como:
Z
1 1 e i

Pi = E Y= 1 / Xi = − b b X  o bien, si Z i= b0 b1 X i ; Pi = −Z


= Z (111)
1e 0 1 i
1e 1e i i

donde  Z i se denomina logit.
Zi
e
Z i varía   de −∞ a ∞ ,   por   lo   que Pi = Z varía   de   0   a   1.   Lo   que   se   intenta   es   llevar 
1e i

rápidamente a 0 ó a 1 los valores de Pi .
              GRÁFICA Nº88
Existe   un   problema   de   estimación,   porque Pi no   es 
lineal ni en los X i ni en los bi , por lo que no podemos 
utilizar   el   método   de   MCO   para   estimar   los   parámetros. 
Debemos utilizar el logit.
Z
e i

Si Pi = Z es   la   probabilidad   de   poseer   cierto 


1e i

atributo,   entonces 1−Pi  es   la   probabilidad   de   no 


Zi
e 1
poseerlo: 1−Pi = 1− Z
= Z (112)
1e i
1e i

Definamos como Oportunidad Relativa2 la razón entre la 
probabilidad de poseer un atributo y no poseerlo : 3

Z
Pi e Z 1e i   i

Op Rel= = Z
∙ = e Z = e b b X  i 0 1 i
(113)
1−Pi 1e 1 i

Pi
Aplicando logaritmos al odds ratio obtenemos Z i= ln  = b0 b1 X i (114)
1−P i
Siendo ahora el logit lineal en X y en los parámetros. Analicemos el siguiente ejemplo:

1 Tengamos presente que en el caso general, la variable respuesta puede ser politómica (poseer múltiples categorías).
2 También llamada odds ratio.
4/5 4 /5 4
3 Así, si P i= 0,8 esto significa que: Odds Ratio= = = esto es, que las probabilidades son 4 a 1 a favor de que encontremos la 
1−4/ 5 1/ 5 1
presencia del atributo buscado.

99
Ejemplo Nº26: Pobreza y religión en Irlanda del Norte. BASE DE DATOS Nº21

DISTRITO Yi Xi
La   base   de   datos   nº21   nos   da   información   para   los   26   distritos   de 
gobierno   local   de   Irlanda   del   norte,   siendo Y i una   variable   dependiente  Antrim 0 34,382
dicotómica que asume los valores Y i = 1 si el porcentaje de niños que viven  Ards 1 12,191
bajo el 60% del ingreso medio es mayor del 25% para el 2008, Y i = 0 si no, y Armagh 0 47,297
Ballymena 1 19,081
X i es el porcentaje de población católica para la respectiva provincia para 
Ballymoney 0 31,405
1991. Podemos establecer el supuesto de que las provincias con alto predominio  ∙ ∙ ∙
católico son las más pobres. ∙ ∙ ∙
∙ ∙ ∙
Apliquemos un análisis de regresión Logit a esta tabla (salida nº73): Newry & Mourne  1 76,988
Newtownabbey 0 14,054
>a <­ read.table('a.txt') North Down 0 9,736
>a1 <­ glm(a$V1 ~ a$V2,family=binomial(link=logit))  Omagh 1 66,812
>summary(a1) Strabane 1 63,712
FUENTES:
Nuestra   ecuación   logit   queda  25% o más de niños que viven bajo el 60% del ingreso medio 2008
entonces: http://www.niassembly.gov.uk/centre/2007mandate/reports/Report08_07_08r_vol1.htm 
% de población católica 1991
http://www.wesleyjohnston.com/users/ireland/past/protestants_1861_1991.html
Z i= −2,164970,07013 X i

Obtengamos el valor crítico para z al 95% de significación:

>qnorm(0.975) 
[1] 1.959964 
Ambos coeficientes son estadísticamente significativos.

Grafiquemos   los   valores   del   logit  Zi  y   sus   valores   ajustados P i sobre   la   variable   independiente 
dados en la tabla nº51 (gráficas nº89 y nº90) .
SALIDA Nº73

Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = logit)) TABLA Nº51

Deviance Residuals:  DISTRITO Yi Xi Zi Pi
    Min       1Q     Median     3Q       Max  
­1.6891  ­0.7115   0.4149   0.5790   1.7600   Antrim 0 34,382 0,246 0,561
Ards 1 12,191 ­1,310 0,212
Coefficients: Armagh 0 47,297 1,152 0,760
                  Estimate    Std. Error  z value  Pr(>|z|)   Ballymena 1 19,081 ­0,827 0,304
(Intercept)  ­2.16497     1.08133   ­2.002    0.0453 * Ballymoney 0 31,405 0,037 0,509
a$V2           0.07013     0.02753    2.548    0.0108 * ∙ ∙ ∙ ∙ ∙
­­­ ∙ ∙ ∙ ∙ ∙
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  ∙ ∙ ∙ ∙ ∙
Newry & Mourne  1 76,988 3,234 0,962
(Dispersion parameter for binomial family taken to be 1)   Newtownabbey 0 14,054 ­1,179 0,235
North Down 0 9,736 ­1,482 0,185
Null deviance: 34.646  on 25  degrees of freedom Omagh 1 66,812 2,521 0,926
Strabane 1 63,712 2,303 0,909
Residual deviance: 25.326  on 24  degrees of freedom
AIC: 29.326

Number of Fisher Scoring iterations: 4

>par(bg = "Ivory 2") 
>plot(a$V2, predict(a1), col='3', xlab='% de población católica', ylab='Valores del Logit', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Relación entre los valores del Logit",   "y  el % de población 
católica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

>par(bg = "Ivory 2") 
>plot(a$V2, fitted(a1), col='3', xlab='% de población católica', ylab='Valores ajustados del Logit', cex.lab=1,family='NewCenturySchoolbook') 
>title(main=paste("Relación entre los valores ajustados del Logit",   "y  el % de población 
católica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

100
Aplicaciones del análisis de regresión: Modelos de elección binarios

        GRÁFICA Nº89                         GRÁFICA Nº90

4.3.2.1 Interpretación de los coeficientes: Z i= −2,164970,07013 X i

El parámetro estimado de pendiente en la ecuación de salida es un coeficiente de pendiente parcial y 
mide el cambio en el Logit estimado para el cambio de 1 unidad en el valor del regresor dado (manteniendo 
todos los demás constantes).
La interpretación de los coeficientes logit puede ser difícil. En nuestro ejemplo, para el incremento de un 
1% en X i , el logaritmo del odds ratio de que una provincia sea pobre se incrementa en 0,07. Es preferible elevar 
a e los coeficientes e interpretarlos como odd­ratios.
SALIDA Nº74

>exp(a1$coefficients) (Intercept) a$V2


  0.1147539    1.0726478

Así para el incremento de un 1%  en X i , el odds ratio de que una provincia sea pobre se incrementa en 
un factor de 1,0726.

4.3.2.2 Intervalos de confianza para los coeficientes estimados

SALIDA Nº75
Notemos   que   el   intervalo   de   confianza   que   nos   entrega  R   está 
2.5 % 97.5 %
referido a los parámetros estimados del logit. (Intercept) ­4.60906435 ­0.2316007
a$V2 0.02276608 0.1344598
>confint(a1)

4.3.2.3 Significación estadística de los coeficientes.

La significación estadística de cada uno de los coeficientes estimados la obtenemos de la división del 
respectivo coeficiente por su desviación estándar. Éste valor sigue una distribución normal:
b i
Z i= (115)
Sb i 
Para nuestro ejemplo:

b0 2,16497 b1 0,07013


Z 0= =− = −2,002 y Z 1= = = 2,547

Sb 0 1.08133 
S b1  0,02753

El valor Pr(|z|) nos da el límite de la significación del parámetro estimado. Para   b1 el valor límite de 


significación es: Pr(|z|)= 0,0108, esto quiere decir que 1­0,0108/2= 0,9946 es el valor de la significación exacta.

101
Verifiquémoslo:

 >qnorm(0.9946) 
[1] 2.549104 el cual es el valor de  Z 1

4.3.2.4 Contraste de hipótesis el modelo.

4.3.2.4.1 La función de verosimilitud.

Observemos dos datos que nos entrega la salida nº73:  Null deviance y  Residual deviance. La primera es 
­2 veces4  el logaritmo de la verosimilitud del modelo denominado nulo −2Ln L 0  , en el cual no se considera 
regresor  alguno   y  cuyas   probabilidades Pi son  las   probabilidades   simples   de   que  el  evento   ocurra  o   no;   la 
segunda es ­2 veces el logaritmo de la verosimilitud del modelo incluyendo los regresores −2Ln L .
El   logaritmo   de   la   función   de   verosimilitud   se 
TABLA Nº52
define como:
DISTRITO Yi Pi 1−P i Y i ∙ lnP i 1−Y i ∙ln 1−P i
N

∑ [Y i ∙ln Pi Z i 1−Y i ∙ln 1−Pi Z i ] (116)


Antrim 0 0,615 0,385 0,000 ­0,956
i=1
Ards 1 0,615 0,385 ­0,486 0,000
Armagh 0 0,615 0,385 0,000 ­0,956
Ballymena 1 0,615 0,385 ­0,486 0,000 Calculemos   el  logaritmo   de   la   verosimilitud   del 
Ballymoney 0 0,615 0,385 0,000 ­0,956 modelo nulo para nuestro ejemplo:
∙ ∙ ∙ ∙ ∙ ∙ −7,768− 9,555= −17,323
∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙
Calculemos   el  logaritmo   de   la   verosimilitud   del 
Newry & Mourne  1 0,615 0,385 ­0,486 0,000
Newtownabbey 0 0,615 0,385 0,000 ­0,956
modelo para nuestro ejemplo:
North Down 0 0,615 0,385 0,000 ­0,956 −6,349 −6,314= −12,663 Este último valor también lo 
Omagh 1 0,615 0,385 ­0,486 0,000 obtenemos con la siguiente instrucción:
Strabane 1 0,615 0,385 ­0,486 0,000
>logLik(a1)
∑ ­7,768 ­9,555 'log Lik.' ­12.66264 (df=2)
TABLA Nº53

DISTRITO Yi Xi Zi −Z i P i Z i  1−P i Z i  Y i ∙ lnP i  Zi  1 −Y i ∙ln 1−P i Z i 

Antrim 0 34,382 0,246 ­0,246 0,561 0,439 0,000 ­0,824


Ards 1 12,191 ­1,310 1,310 0,212 0,788 ­1,549 0,000
Verifiquemos   que   los  Armagh 0 47,297 1,152 ­1,152 0,760 0,240 0,000 ­1,427
datos   entregados   por   las   tablas  Ballymena 1 19,081 ­0,827 0,827 0,304 0,696 ­1,190 0,000
nº52   y   nº53   coinciden   con   los  Ballymoney 0 31,405 0,037 ­0,037 0,509 0,491 0,000 ­0,712
entregados por la salida nº73: ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
  −2 ∙−12,663= 25,326 y Newry & Mourne  1 76,988 3,234 ­3,234 0,962 0,038 ­0,039 0,000
Newtownabbey 0 14,054 ­1,179 1,179 0,235 0,765 0,000 ­0,268
−2 ∙−17,323= 34,646 North Down 0 9,736 ­1,482 1,482 0,185 0,815 0,000 ­0,205
Omagh 1 66,812 2,521 ­2,521 0,926 0,074 ­0,077 0,000
Strabane 1 63,712 2,303 ­2,303 0,909 0,091 ­0,095 0,000

∑ ­6,349 ­6,314

4.3.2.4.2Estadístico de la Razón de Verosimilitud o chi2.

Para evaluar la significación global del modelo (para el conjunto de coeficientes estimados) se utiliza el 
Estadístico de la Razón de Verosimilitud, definido como: ERV= −2 lnL 0−L = 34,646−25,326= 9,32 (117)
que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que 
este caso es 1. 
Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora 
sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.

4 Pues la verosimilitud es un valor pequeño.

102
Aplicaciones del análisis de regresión: Modelos de elección binarios

Calculemos chi2

>qchisq(0.95, df=1)

[1] 3.841459

3.841459 < 9,32 y concluímos que la inclusión del regresor mejora ostensiblemente la verosimilitud del modelo.

4.3.2.4.3Bondad del ajuste.

Una medida de la bondad del ajuste es un 'estadístico­resumen' que indica la precisión con la cual un 
modelo se aproxima a los datos observados. Evalúa la idoneidad del modelo de regresión logística. 
Podemos estimar la bondad de ajuste mediante la comparación del número de casos observados con 
los esperados por el modelo estimado (eI porcentaje de distritos que coinciden con la alternativa predicha por el 
modelo).
En nuestro ejemplo los casos totales son 26 y los predichos por nuestro modelo correctamente (tomando 
como punto de corte 0,5) son 18, entonces:
18
X= ∙ 100%= 69,231 % y el modelo seleccionado ajusta los datos con un 69,231% de precisión.
26

4.3.2.5 Características del modelo Logit.         GRÁFICA Nº91

1.   Si Pi varía   de   0  a  1,   el   Logit Z i varía  de −∞ a   ∞ , 


esto es, mientras las probabilidades yacen entre 0 y 1, los Logit 
no tienen límites.
2.   Si   bien Z i es   lineal   sobre   X,   las   probabilidades Pi sobre
X i no.
3.   Podemos   agregar   tantos   regresores   (o   variables 
independientes) al modelo como nos lo indique la teoría.
4.   Si Z i es   negativo   y   se   incrementa   en   magnitud,   el   odds 
decrece   de   1   a   0   y   por   el   contrario,   si   se   incrementa 
positivamente,   el   odds   ratio   se   incrementa   de   1   al   infinito. 
(gráfica nº91)
5.  b1 , la pendiente, mide el cambio en Z i producido por 
el   cambio   de   1   unidad   en   X,   esto   es,   nos   dice   cómo   los 
logaritmos   de   los   odds   ratio   en   favor  de Pi = 1 cambian   a 
medida que la variable independiente se incrementa en una 
unidad.
La intercepción b0 es el valor del logaritmo del odds 
ratio a favor de Pi = 1 si la variable independiente es cero. 
6. Dado un cierto valor de la variable independiente, si deseamos no estimar los odds ratio a favor de Pi = 1
sino la probabilidad Pi = 1 , ésta se puede obtener directamente de:
Z
1 i
e
Pi = −Z
= Z una vez que los estimadores de  b0 y  b1 estén disponibles.
1e i
1e i

7. El modelo Logit asume que el logaritmo de los odds ratio está linealmente relacionado con  X i

4.3.2.6 Algunas observaciones para el modelo Logit.

1. Como usamos el método de máxima verosimilitud, el cual es generalmente un método de muestras grandes, 
los errores standard estimados son asintóticos. Como resultado, en vez de usar la estadística t para evaluar la 
significación   estadística   de   un   coeficiente,   usamos   la   estadística   z   (normal   standard).   Recordemos   que   si   el 
tamaño de la muestra es razonablemente grande, la distribución t converge a la distribución normal.
2. En modelos de regresión binario, la bondad del ajuste tiene una importancia secundaria. Lo que importa son 
los signos esperados de los coeficientes de la regresión y su significación estadística.

103
4.3.3 EL MODELO PROBIT        GRÁFICA Nº92

La   función   de   distribución   acumulativa   normal   es 


también   utilizada   para   explicar   el   comportamiento   de   una 
variable   dependiente   dicotómica.   El   modelo   de   estimación 
que así surge se denomina modelo Probit o Normit.
En el modelo Probit, P es una función de distribución 
acumulada   de   la   normal   standard   que   se   expresa   como 
integral.
Pi = P Y= 1 /X i  es   la   probabilidad   de   que   un 
evento   ocurra   dado   los   valores   de   la(s)   variable(s) 
independiente(s) X i siendo Z i la  variable normal standard 
Z N0, 2  tal que si Z i= b0 b1 X i entonces:

2
−z i
1 2
por lo que
zi
(118) (119)
 Zi = e
 
2 P Zi = ∫
−∞
 v  dv

es la función de distribución acumulativa normal.

La probabilidad de que un  evento a ocurra P a está representada por el área definida bajo la curva 
normal de  −∞ a  Z a . 

Ejemplo 27: Satisfacción con la vida y PIB PPA per cápita para 30 países.

La base de datos nº22 nos muestra un set de datos para 30 países, que nos indica los datos del puntaje 
de satisfacción con la vida, como variable dependiente. El promedio de este indicador es 222,33. Categorizemos 
esta variable como Y i = 1   si el país supera esta media y Y i = 0 si no. Como variable independiente X i
tenemos los datos del PIB PPA per cápita para los mismos.

BASE DE DATOS Nº22
Apliquemos   un   análisis   de   regresión   Probit   de Di sobre X i   (salida 
PAÍS Yi Di Xi
nº76):

Australia  243,33 1 39300 >a <­ read.table('a.txt')


Austria  260,00 1 39600 >a1 <­ glm(a$V1~a$V2,family=binomial(link=probit)) 
>summary(a1)
Bahrain  240,00 1 37200
Belarus  133,33 0 12000
Belgium  243,33 1 38300 Nuestra ecuación de regresión Probit resulta: Z i= − 4,720,0001594 X i
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ Obtengamos el valor crítico para z al 95% de significación:
∙ ∙ ∙ ∙
Spain  233,33 1 34100 >qnorm(0.975) 
Sweden  256,67 1 39600 TABLA Nº54
[1] 1.959964 
Switzerland  273,33 1 40900
United Kingdom  236,67 1 37400 Ambos   coeficientes   son  PAÍS Yi Xi Zi Pi
United States 
FUENTES:  246,67 1 48000
estadísticamente 
PIB PPA per cápita 2005:  Australia  1 39300 1,544 0,939
significativos. Austria  1 39600 1,592 0,944
http://www.imf.org/external/data.htm 
Índice de satisfacción con la vida 2006:  Bahrain  1 37200 1,210 0,887
Adrian G. White. University of Leicester Belarus  0 12000 ­2,807 0,002
Belgium  1 38300 1,385 0,917
∙ ∙ ∙ ∙ ∙
Grafiquemos los valores ajustados del Probit y de Pi sobre  ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙
la variable independiente que aparecen en la tabla nº54 (gráficas 
Spain  1 34100 0,716 0,763
nº92 y nº 93): Sweden  1 39600 1,592 0,944
Switzerland  1 40900 1,799 0,964
United Kingdom  1 37400 1,242 0,893
United States  1 48000 2,931 0,998

104
Aplicaciones del análisis de regresión: Modelos de elección binarios

SALIDA Nº76

Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = probit))
>par(bg = "Ivory 2") 
Deviance Residuals:  >plot(a$V2, predict(a1), col='3', xlab='PIB PPA per cápita', ylab='Valores 
    Min       1Q     Median     3Q       Max   del Probit', cex.lab=1,family='NewCenturySchoolbook') 
­1.8455  ­0.3624   0.2337   0.4610   1.8103   >title(main=paste("Relación entre los valores del Probit",   "y el PIB PPA per 
cápita",sep="\n"),font.main=1,cex.main=1.5,
family='NewCenturySchoolbook') 
Coefficients:
                   Estimate     Std. Error    z value   Pr(>|z|)   
>par(bg = "Ivory 2") 
(Intercept)  ­4.720e+00  1.565e+00    ­3.017   0.00255 **
>plot(a$V2, fitted(a1), col='3', xlab='PIB PPA per cápita', ylab='Valores 
a$V2           1.594e­04   4.891e­05     3.259   0.00112 ** ajustados del Probit', cex.lab=1,family='NewCenturySchoolbook') 
­­­ >title(main=paste("Relación entre los valores ajustados del Probit",   "y el 
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1  PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,
family='NewCenturySchoolbook') 
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 40.381  on 29  degrees of freedom
Residual deviance: 21.404  on 28  degrees of freedom
AIC: 25.404

Number of Fisher Scoring iterations: 7

        GRÁFICA Nº93    GRÁFICA Nº94

Con el siguiente comando obtenemos los  Pi del modelo de regresión probit.

> fitted.values(a1)

4.3.3.1 Interpretación de los coeficientes.

En este tipo de modelos no resulta posible interpretar directamente las estimaciones de los parámetros, ya 
que son modelos no lineales. Lo que haremos es fijarnos en el signo de los estimadores. Si el estimador es positivo, 
significará que incrementos en la variable asociada causan incrementos en P(Y = 1) (aunque desconocemos la 
magnitud   de   los   mismos).   Por   el   contrario,   si   el   estimador   muestra   un   signo   negativo,   ello   supondrá   que 
incrementos en la variable asociada causarán disminuciones en P(Y = 1). 
        El   PIB   PPA   per   cápita   tiene   un   impacto   positivo   en   el   Probit.   Aunque   el   hecho   de   que   valga 
aproximadamente cero, induce a pensar que un aumento unitario en el PIB PPA per cápita no causará un efecto 
apreciable sobre su la satisfacción con la vida consideremos que hablamos de dólares, por lo que tiene mas 
sentido decir que un aumento de diez mil dólares en el PIB PPA per cápita aumentael probit un 1,59.

105
4.3.3.2 Intervalos de confianza para los coeficientes estimados

Los   intervalos   de   confianza   se   obtienen   con   la   siguiente  SALIDA Nº77

instrucción en R:
2.5% 97.5%
(Intercept) ­8.554748e+00 ­2.0497822717
>confint(a1)
a$V2 7.561091e­05 0.0002806858

4.3.3.3 Contraste de hipótesis el modelo.
TABLA Nº64

Al igual que en el modelo Logit, para el Probit 
PAÍS Yi Pi 1−P i Y i ∙ lnP i 1−Y i ∙ln 1−P i Z i 
el   logaritmo   de   la   función   de   verosimilitud   se   define 
como: Australia  1 0,6 0,4 ­0,511 0,000
Austria  1 0,6 0,4 ­0,511 0,000
N
Bahrain  1 0,6 0,4 ­0,511 0,000
∑ [Y i ∙ln Pi Z i 1−Y i  ∙ln 1−Pi Z i ] Belarus  0 0,6 0,4 0,000 ­0,916
i=1
Belgium  1 0,6 0,4 ­0,511 0,000
∙ ∙ ∙ ∙ ∙ ∙
Calculemos el logaritmo de la verosimilitud del  ∙ ∙ ∙ ∙ ∙ ∙
modelo nulo para nuestro ejemplo: ∙ ∙ ∙ ∙ ∙ ∙
Spain  1 0,6 0,4 ­0,511 0,000
−9,195−10,995= − 20,19 Sweden  1 0,6 0,4 ­0,511 0,000
Switzerland  1 0,6 0,4 ­0,511 0,000
United Kingdom  1 0,6 0,4 ­0,511 0,000
Calculemos el logaritmo de la verosimilitud del 
United States  1 0,6 0,4 ­0,511 0,000
modelo para nuestro ejemplo:
­9,195 ­10,995
−4,99− 5,712= −10,702

TABLA Nº65 Este   último   valor 


también   lo   obtenemos   con 
PAÍS Yi Xi Zi P i Z i  1−P i Z i  Y i ∙ lnP i  Zi  1−Y i ∙ln 1−P i Z i 
−Z i la siguiente instrucción:
Australia  1 39300 1,544 ­1,544 0,939 0,061 ­0,063 0,000
>logLik(a1)
Austria  1 39600 1,592 ­1,592 0,944 0,056 ­0,057 0,000
'log Lik.' ­10.70192 (df=2)
Bahrain  1 37200 1,210 ­1,210 0,887 0,113 ­0,120 0,000
Belarus  0 12000 ­2,807 2,807 0,002 0,998 0,000 ­0,003
Belgium  1 38300 1,385 ­1,385 0,917 0,083 ­0,087 0,000 Verifiquemos   que   los 
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ datos   entregados   por   las 
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ tablas nº64 y nº65 coinciden 
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ con   los   entregados   por   la 
Spain  1 34100 0,716 ­0,716 0,763 0,237 ­0,271 0,000 salida nº76:
Sweden  1 39600 1,592 ­1,592 0,944 0,056 ­0,057 0,000
Switzerland  1 40900 1,799 ­1,799 0,964 0,036 ­0,037 0,000
  −2 ∙−20,19= 40,38 y
United Kingdom  1 37400 1,242 ­1,242 0,893 0,107 ­0,113 0,000
United States  1 48000 2,931 ­2,931 0,998 0,002 ­0,002 0,000
−2 ∙−10,702= 21,404
­4,990 ­5,712

Para evaluar la significación global del modelo (para el conjunto de coeficientes estimados) se utiliza el 
Estadístico de la Razón de Verosimilitud, definido como: ERV= −2 lnL 0−L = 40,38−21,404= 18,976 (120)
que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que 
este caso es 1. 
Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora 
sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.

Calculemos chi2

>qchisq(0.95, df=1)

[1] 3.841459

3.841459 < 18,976 y concluímos que la inclusión del regresor mejora ostensiblemente la verosimilitud del modelo.

106
Aplicaciones del análisis de regresión: Modelos de elección binarios

4.3.4 Modelos logit y probit. ¿Cuál es preferible?

Para   muchas   aplicaciones,   los   modelos   son   muy   similares.   La   principal   diferencia   consiste   en   que   la 
distribución   logística   se   aproxima   más   lentamente   a   0   y   a   1   a   medida   que   el   logit   se   desplaza   de   ­∞  a  ∞ 
respectivamente (gráfica nº95). Por consiguiente no existe una razón de peso para elegir entre una u otra.
En la práctica, muchos investigadores eligen el modelo Logit por su comparativamente mayor sencillez 
matemática (la facilidad de los cálculos cuando no están las tablas necesarias para encontrar la probabilidad 
acumulada).

>a1 <­ glm(a$V1~a$V2,family=binomial(link=logit)) 
>summary(a1)

SALIDA Nº76                       GRÁFICA Nº95

Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = logit))

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
­1.8423  ­0.3925   0.2852   0.4796   1.8135  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)   
(Intercept) ­7.805e+00  2.900e+00  ­2.691  0.00712 **
a$V2         2.634e­04  9.127e­05   2.886  0.00390 **
­­­
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 40.381  on 29  degrees of freedom
Residual deviance: 21.841  on 28  degrees of freedom
AIC: 25.841

Number of Fisher Scoring iterations: 5

Aunque los modelos son similares, debemos tener cuidado al interpretar los coeficientes estimados en 
ambos modelos.
Pueden ser diferentes. La razón de esto es que aunque las distribuciones logística standard (la base del 
modelo Logit) y normal standard (la base del modelo probit) tienen media 0 y sus varianzas son diferentes: 1 para 
2
la normal standard y  para la distribución logística.
3

Por   lo   tanto,   si   multiplicamos   el   coeficiente   Probit   por   ,   obtendremos   aproximadamente   el 
3
coeficiente Logit.

bProbit ∙  = bLogit bProbit ∙1,81= bLogit bProbit = 0,55 ∙b Logit (121)


3
Otros autores sugieren utilizar un coeficiente 0,625. Así:

bLogit ∙ 0,625= bProbit 1,6 ∙b Probit= b Logit

107
Bibliografía

5. BIBLIOGRAFÍA
1. Bernstein, Stephen; Bernstein Ruth. Elements of Statistics II: Inferential Statistics, Mc Graw­Hill, 1999, Cap. 
19: 'Regression and correlation', págs: 333­378.

2. Canavos, George.  Estadística y Probabilidades (Aplicaciones y Métodos),  McGrawHill, 1988,  Cap. 13: 


'Análisis de regresión: el modelo lineal simple', págs:  443­502; Cap.  14:    'Análisis  de regresión:  el  modelo lineal 
general', págs: 503­571.

3. Chambers, John M. Software for Data Analysis Programming with R , Springer, 2008.

4. Chatterjee, Samprit; Hadi, Ali S. Regression Analysis by Example, Fourth Edition, John Wiley & Sons, 2006, 
Cap. 2: 'Simple Linear Regression', págs: 21­52; Cap. 3: 'Multiple Linear Regression', págs: 53­84; Cap. 5: 'Qualitative 
Variables as Predictors', págs: 121­150; Cap. 6: 'Transformation  of Variables', págs: 151­178; Cap. 8: 'The Problem of 
Correlated Errors ', págs:197­220; Cap. 9: 'Analysis of Collinear Data ', págs: 221­258; Cap. 12: 'Logistic Regression ', 
págs: 317­340.

5. Crawley, Michael J. The R Book, John Wiley & Sons, 2007. Cap. 10: 'Regression ', págs: 387­448.

6.   Gujarati,   Damodar.  Basic   Econometrics,  Fourth   Edition,   McGrawHill,   2004,   Cap.   9:   'Dummy   variable 
regression models', págs: 297­333; Cap. 10: 'Multicollinearity: what happens if the regressors are correlated?', págs: 
341­386; Cap. 11: 'Heteroscedasticity: what happens if the error variance is nonconstant?', págs: 387­440; Cap. 12: 
'Autocorrelation: what happens if the error terms are correlated?', págs: 441­505; Cap. 15: 'Qualitative response 
regression models', págs: 580­635. 

7.   Montgomery,   Douglas   C;   Runger,   George   C.  Applied   Statistics   and   Probability   for   Engineers,  Third 
Edition,   John   Wiley   &   Sons,   2003,   Cap   11:   'Simple   Linear   Regression   and   Correlation';   págs:   372­409;   Cap.   12: 
'Multiple Linear Regression', págs: 410­467.

8. Salvatore, Dominick; Reagle, Derrick. Theory and problems of Statistics and Econometrics, McGrawHill, 
2002, Cap. 6: 'Simple regression analysis', págs: 128­153; Cap 7: 'Multiple regression analysis', págs: 154­180; Cap 8: 
'Further techniques and applications in regression analysis', págs: 181­205, Cap 9: 'Problems in regression analysis', 
págs: 206­227. 

9. Marques de Sá, Joaquim P.  Applied Statistics Using SPSS, STATISTICA, MATLAB and R ,  Second Edition, 


Springer, 2007, Cap 7: 'Data Regression', págs: 271­328.

10.   Verzani,   John.  Using   R   for   Introductory   Statistics,  Chapman   &   Hall/CRC,   2005,   Cap.   10:   'Linear 
regression', págs: 264­297.

108
Bases de datos

6. ANEXO: BASES DE DATOS.


BASE DE DATOS Nº1

PAÍS Y X

Albania 76,2 5323,118


Algeria 71,7 7175,777
Angola 41,7 2828,850
Antigua y Barbuda 73,9 11604,383
Argentina 74,8 13153,390
Armenia 71,7 4048,132
Australia 80,9 31317,558
Austria 79,4 32802,003
Azerbaijan 67,1 4500,316
Bahamas, The 72,3 18725,849
Bahrain 75,2 19748,035
Bangladesh 63,1 1997,948
Barbados 76,6 17169,758
Belarus 68,7 7229,542
Belgium 78,8 31158,621
Belize 75,9 7635,294
Benin 55,4 1147,382
Bhutan 64,7 3329,786
Bolivia 64,7 2839,524
Bosnia and Herzegovina 74,5 5827,264
Botswana 48,1 10866,083
Brazil 71,7 8452,691
Brunei Darussalam 76,7 24825,708
Bulgaria 72,7 9204,530
Burkina Faso 51,4 1326,183
Burundi 48,5 753,236
Côte d'Ivoire 47,4 1492,703
Cambodia 58 2116,041
Cameroon 49,8 2283,608
Canada 80,3 34550,246
Cape Verde 71 6287,127
Central African Republic 43,7 1163,041
Chad 50,4 1744,093
Chile 78,3 11536,519
China 72,5 6193,421
Colombia 72,3 7309,397
Comoros 64,1 1716,934
Congo, Democratic Republic of 45,8 675,290
Congo, Republic of 54 1379,278
Costa Rica 78,5 10316,297
Croatia 75,3 12364,02
Cyprus 79 20668,584
Czech Republic 75,9 19488,401
Denmark 77,9 34717,573
Djibouti 53,9 1957,463
Dominica 75,6 6250,069
Dominican Republic 71,5 7042,452
Ecuador 74,7 4296,540
Egypt 70,7 4281,929
El Salvador 71,3 4525,095
Equatorial Guinea 50,4 50473,514
Eritrea 56,6 916,821
Estonia 71,2 16461,257
Ethiopia 51,8 859,202
Fiji 68,3 6282,052
Finland 78,9 30817,570

i
France 80,2 29019,288
Gabon 56,2 6976,653
Gambia, The 58,8 1999,430
Georgia 70,7 3037,713
Germany 79,1 30149,652
Ghana 59,1 2600,915
Greece 78,9 21529,166
Grenada 68,2 8410,763
Guatemala 69,7 4135,536
Guinea 54,8 1985,822
Guinea­Bissau 45,8 755,526
Guyana 65,2 4680,530
Haiti 59,5 1687,716
Honduras 69,4 2793,077
Hong Kong SAR 81,9 32292,182
Hungary 72,9 16627,455
Iceland 81,5 35686,217
India 63,7 3315,702
Indonesia 69,7 3939,515
Iran, Islamic Republic of 70,2 8065,119
Ireland 78,4 40002,741
Israel 80,3 22944,118
Italy 80,3 29218,079
Jamaica 72,2 4470,846
Japan 82,3 31405,673
Jordan 71,9 4614,515
Kazakhstan 65,9 8252,367
Kenya 52,1 1108,224
Korea 77,9 22665,654
Kuwait 77,3 16297,267
Kyrgyz Republic 65,6 2061,020
Lao People's Democratic Republic 63,2 2049,032
Latvia 72 13059,487
Lebanon 71,5 6205,325
Lesotho 42,6 2162,916
Libya 73,4 11353,605
Lithuania 72,5 14337,639
Luxembourg 78,4 66820,651
Macedonia, Former Yugoslav Republic of 73,8 7749,249
Madagascar 58,4 910,766
Malawi 46,3 595,857
Malaysia 73,7 11159,608
Maldives 67 7639,500
Mali 53,1 1084,444
Malta 79,1 20015,440
Mauritania 63,2 2307,076
Mauritius 72,4 13028,798
Mexico 75,6 10090,420
Moldova 68,4 2261,605
Mongolia 65,9 2045,544
Morocco 70,4 4578,292
Mozambique 42,8 1335,140
Myanmar 60,8 1417,007
Namibia 51,6 6657,765
Nepal 62,6 1471,227
Netherlands 79,2 30573,938
New Zealand 79,8 24881,583
Nicaragua 71,9 2778,888
Niger 55,8 896,472
Nigeria 46,5 1187,952
Norway 79,8 41940,513
Oman 75 16299,602
Pakistan 64,6 2549,284
Panama 75,1 7052,058

ii
Bases de datos

Papua New Guinea 56,9 2414,236


Paraguay 71,3 4663,165
Peru 70,7 5872,232
Philippines 71 4770,234
Poland 75,2 13439,814
Portugal 77,7 19388,399
Qatar 75 29606,696
Romania 71,9 8257,719
Russia 65 11209,393
Rwanda 45,2 1430,504
Samoa 70,8 6389,850
Sao Tome and Principe 64,9 1638,174
Saudi Arabia 72,2 14592,097
Senegal 62,3 1914,089
St. Kitts and Nevis 70 15049,644
St. Lucia 73,1 5516,483
St. Vincent and the Grenadines 71,1 7042,385
Seychelles 72,7 12135,151
Sierra Leone 41,8 900,777
Singapore 79,4 28227,954
Slovak Republic 74,2 16110,216
Slovenia 77,4 21694,983
Solomon Islands 63 1922,463
South Africa 50,8 11345,534
Spain 80,5 24803,458
Sri Lanka 71,6 4144,734
Sudan 57,4 2416,980
Suriname 69,6 5725,517
Swaziland 40,9 5181,153
Sweden 80,5 29536,787
Switzerland 81,3 33168,045
Syrian Arab Republic 73,6 3870,846
Tajikistan 66,3 1373,340
Tanzania 51 720,154
Thailand 69,6 8542,395
Togo 57,8 1599,533
Tonga 72,8 7689,927
Trinidad and Tobago 69,2 13957,584
Tunisia 73,5 8223,289
Turkey 71,4 7958,134
Turkmenistan 62,6 7853,975
Uganda 49,7 1817,451
Ukraine 67,7 7181,610
United Arab Emirates 78,3 23722,875
United Kingdom 79 30277,126
United States 77,9 41571,061
Uruguay 75,9 9619,364
Uzbekistan 66,8 1834,398
Vanuatu 69,3 3415,355
Venezuela 73,2 5801,392
Vietnam 73,7 2782,199
Yemen 61,5 745,176
Zambia 40,5 911,352
Zimbabwe 40,9 2412,635

BASE DE DATOS Nº2

CONDADO Y X

Adams County 0,285 11,324


Boone County 0,150 9,790
DeKalb County 0,428 10,454
DuPage County 0,277 4,725
Kane County 0,538 7,782

iii
Kankakee County 1,121 12,419
Kendall County 0,104 3,669
La Salle County 0,143 10,099
Lake County 0,504 6,167
Macon County 1,371 15,390
Madison County 0,610 11,113
McHenry County 0,137 5,265
McLean County 0,782 11,615
Ogle County 0,109 7,857
Peoria County 2,290 13,079
Rock Island County 0,952 12,816
Sangamon County 1,800 12,667
St. Clair County 2,436 15,506
Tazewell County 0,267 7,789
Vermilion County 1,762 17,839
Whiteside County 0,237 10,982
Will County 0,504 5,821
Winnebago County 2,329 13,624

BASE DE DATOS Nº3

AÑO Y X

1955 31,27 2,6


1956 29,85 2,3
1957 29,72 1,9
1958 30,82 2,2
1959 26,76 2,3
1960 24,85 1,6
1961 22,32 1,3
1962 20,42 1,2
1963 18,90 1,2
1964 17,47 1,1
1965 17,11 1,1
1966 17,38 1,2
1967 16,14 1,2
1968 16,43 1,2
1969 16,37 1,2
1970 17,06 1,2
1971 17,58 1,3
1972 19,37 1,5
1973 20,02 1,3
1974 19,72 1,4
1975 21,32 2,0
1976 21,10 2,2
1977 21,89 2,1
1978 21,89 2,4
1979 22,49 2,1
1980 22,17 2,0
1981 21,91 2,3
1982 22,61 2,4
1983 28,71 2,7
1984 27,47 2,7
1985 25,81 2,6
1986 27,60 2,7
1987 25,44 2,9
1988 23,70 2,5
1989 21,38 2,2
1990 20,29 2,0
1991 20,48 2,0
1992 22,10 2,1
1993 22,08 2,4
1994 22,88 2,8
1995 23,11 3,1

iv
Bases de datos

1996 24,07 3,3


1997 25,72 3,4
1998 36,07 4,2
1999 36,12 4,8
2000 34,87 4,9
2001 33,86 5,2
2002 34,80 5,5
2003 37,51 5,5
2004 35,20 4,9

BASE DE DATOS Nº4

ESTADO Y X

Alabama 8,3 37
Alaska 5,4 30
Arizona 7,5 33
Arkansas 7,3 35
California 6,8 31
Colorado 3,3 28
Connecticut 3,1 28
Delaware 4,9 34
Florida 6,2 35
Georgia 6,4 36
Hawaii 1,6 27
Idaho 2,5 21
Illinois 6,1 31
Indiana 5,8 32
Iowa 1,8 26
Kansas 4,6 28
Kentucky 4,0 33
Louisiana 12,4 41
Maine 1,7 31
Maryland 9,7 32
Massachusetts 2,9 28
Michigan 7,1 32
Minnesota 2,4 25
Mississippi 7,7 45
Missouri 6,3 32
Montana 1,8 25
Nebraska 2,8 25
Nevada 9,0 34
New Hampshire 1,0 25
New Jersey 4,9 28
New Mexico 6,8 37
New York 4,8 34
North Carolina 6,1 35
North Dakota 1,3 24
Ohio 4,7 33
Oklahoma 5,8 34
Oregon 2,3 29
Pennsylvania 5,9 31
Rhode Island 2,6 35
South Carolina 8,3 40
South Dakota 1,2 27
Tennessee 6,8 35
Texas 5,9 33
Utah 1,8 18
Vermont 1,9 29
Virginia 5,2 29
Washington 3,0 29
West Virginia 4,1 31
Wisconsin 3,0 28
Wyoming 1,7 27

v
BASE DE DATOS Nº5

COMUNA Y X

Santiago 7,3 13,1


Cerrillos 8,3 10,4
Cerro Navia 17,5 9,1
Conchalí 8,0 10,1
El Bosque 15,8 9,7
Estación Central 7,3 10,5
Huechuraba 14,5 9,9
Independencia 6,0 11,3
La Cisterna 8,6 11,6
La Florida 9,6 11,3
La Granja 14,2 9,5
La Pintana 17,2 8,8
La Reina 7,8 12,4
Las Condes 2,3 14,3
Lo Barnechea 8,1 11,1
Lo Espejo 20,1 9,7
Lo Prado 11,6 10,1
Macul 13,4 10,9
Maipú 9,1 11,4
Ñuñoa 4,3 13,4
Pedro Aguirre Cerda 6,3 9,8
Peñalolén 8,7 9,9
Providencia 3,5 13,8
Pudahuel 7,1 10,3
Puente Alto 10,6 10,7
Quinta Normal 10,8 10,5
Quilicura 6,7 11,1
Recoleta 12,4 10,2
Renca 19,2 10,0
San Bernardo 20,9 9,7
San Joaquín 7,4 10,7
San Miguel 2,5 12,3
San Ramón 16,7 9,6
Vitacura 4,4 14,6

BASE DE DATOS Nº6

COMUNA Y X X X

Santiago 13,1 7,3 283 6,2


Cerrillos 10,4 8,3 259 9,3
Cerro Navia 9,1 17,5 215 9,4
Conchalí 10,1 8,0 236 4,9
El Bosque 9,7 15,8 231 10,3
Estación Central 10,5 7,3 251 8,8
Huechuraba 9,9 14,5 238 9,1
Independencia 11,3 6,0 225 5,9
La Cisterna 11,6 8,6 237 7,8
La Florida 11,3 9,6 259 5,7
La Granja 9,5 14,2 240 10,2
La Pintana 8,8 17,2 233 11
La Reina 12,4 7,8 286 8,3
Las Condes 14,3 2,3 314 3,8
Lo Barnechea 11,1 8,1 296 3,4
Lo Espejo 9,7 20,1 205 6,8
Lo Prado 10,1 11,6 209 9,5
Macul 10,9 13,4 250 6,5
Maipú 11,4 9,1 261 7,3
Ñuñoa 13,4 4,3 265 5,3

vi
Bases de datos

BASE DE DATOS Nº6
Pedro Aguirre Cerda 9,8 6,3 235 11,6
Peñalolén 9,9 8,7 244 6,5
Providencia 13,8 3,5 319 5,5
Pudahuel 10,3 7,1 220 6,1
Puente Alto 10,7 10,6 246 6,3
Quinta Normal 10,5 10,8 237 8,9
Quilicura 11,1 6,7 243 7,9
Recoleta 10,2 12,4 242 6,6
Renca 10,0 19,2 250 6,7
San Bernardo 9,7 20,9 246 8,6
San Joaquín 10,7 7,4 233 7,4
San Miguel 12,3 2,5 237 4,6
San Ramón 9,6 16,7 245 7,9
Vitacura 14,6 4,4 325 3,2

BASE DE DATOS Nº7

PAÍS Y X X

Afghanistan 43,6 1054 0,35


Albania 76,5 7041 0,89
Algeria 72,2 7740 0,75
Angola 46,5 5385 0,67
Argentina 75,2 13238 0,95
Armenia 73,6 5693 0,91
Australia 81,4 34923 0,99
Austria 79,9 37370 0,96
Azerbaijan 70 7851 0,88
Bahamas 73,2 20253 0,88
Bahrain 75,6 29723 0,89
Bangladesh 65,7 1241 0,53
Barbados 77 17956 0,98
Belarus 69 10841 0,96
Belgium 79,5 34935 0,97
Belize 76 6734 0,76
Benin 61 1312 0,45
Bhutan 65,7 4837 0,53
Bolivia 65,4 4206 0,89
Bosnia and Herzegovina 75,1 7764 0,87
Botswana 53,4 13604 0,79
Brazil 72,2 9567 0,89
Brunei Darussalam 77 50200 0,89
Bulgaria 73,1 11222 0,93
Burkina Faso 52,7 1124 0,3
Burundi 50,1 341 0,56
Côte d'Ivoire 56,8 1690 0,45
Cambodia 60,6 1802 0,7
Cameroon 50,9 2128 0,63
Canada 80,6 35812 0,99
Cape Verde 71,1 3041 0,79
Central African Republic 46,7 713 0,42
Chad 48,6 1477 0,33
Chile 78,5 13880 0,92
China 72,9 5383 0,85
Colombia 72,7 8587 0,88
Comoros 64,9 1143 0,66
Congo 53,5 3511 0,74
Congo (Democratic Republic of the) 47,6 298 0,61
Costa Rica 78,7 10842 0,88
Croatia 76 16027 0,92
Cuba 78,5 6876 0,99
Cyprus 79,6 24789 0,91
Czech Republic 76,4 24144 0,94

vii
BASE DE DATOS Nº7
Denmark 78,2 36130 0,99
Djibouti 55,1 2061 0,55
Dominican Republic 72,4 6706 0,84
Ecuador 75 7449 0,87
Egypt 69,9 5349 0,7
El Salvador 71,3 5804 0,79
Equatorial Guinea 49,9 30627 0,79
Eritrea 59,2 626 0,54
Estonia 72,9 20361 0,96
Ethiopia 54,7 779 0,4
Fiji 68,7 4304 0,87
Finland 79,5 34526 0,99
France 81 33674 0,98
Gabon 60,1 15167 0,84
Gambia 55,7 1225 0,44
Georgia 71,6 4662 0,92
Germany 79,8 34401 0,95
Ghana 56,5 1334 0,62
Greece 79,1 28517 0,98
Grenada 75,3 7344 0,88
Guatemala 70,1 4562 0,72
Guinea 57,3 1140 0,36
Guinea­Bissau 47,5 477 0,55
Guyana 66,5 2782 0,94
Haiti 61 1155 0,59
Honduras 72 3796 0,81
Hong Kong, China (SAR) 82,2 42306 0,88
Hungary 73,3 18755 0,96
Iceland 81,7 35742 0,98
India 63,4 2753 0,64
Indonesia 70,5 3712 0,84
Iran (Islamic Republic of) 71,2 10955 0,79
Ireland 79,7 44613 0,99
Israel 80,7 26315 0,95
Italy 81,1 30353 0,97
Jamaica 71,7 6079 0,83
Japan 82,7 33632 0,95
Jordan 72,4 4901 0,87
Kazakhstan 64,9 10863 0,97
Kenya 53,6 1542 0,69
Korea (Republic of) 79,2 24801 0,99
Kuwait 77,5 47812 0,87
Kyrgyzstan 67,6 2006 0,92
Lao People's Democratic Republic 64,6 2165 0,68
Latvia 72,3 16377 0,96
Lebanon 71,9 10109 0,86
Lesotho 44,9 1541 0,75
Liberia 57,9 362 0,56
Libyan Arab Jamahiriya 73,8 14364 0,9
Lithuania 71,8 17575 0,97
Luxembourg 79,4 79485 0,98
Macedonia (the Former Yugoslav Rep. of) 74,1 9096 0,88
Madagascar 59,9 932 0,68
Malawi 52,4 761 0,69
Malaysia 74,1 13518 0,85
Maldives 71,1 5196 0,89
Mali 48,1 1083 0,33
Malta 79,6 23080 0,89
Mauritania 56,6 1927 0,54
Mauritius 72,1 11296 0,84
Mexico 76 14104 0,89
Moldova 68,3 2551 0,9
Mongolia 66,2 3236 0,91

viii
Bases de datos

BASE DE DATOS Nº7
Montenegro 74 11699 0,89
Morocco 71 4108 0,57
Mozambique 47,8 802 0,48
Myanmar 61,2 904 0,79
Namibia 60,4 5155 0,81
Nepal 66,3 1049 0,58
Netherlands 79,8 38694 0,99
New Zealand 80,1 27336 0,99
Nicaragua 72,7 2570 0,76
Niger 50,8 627 0,28
Nigeria 47,7 1969 0,66
Norway 80,5 53433 0,99
Oman 75,5 22816 0,79
Pakistan 66,2 2496 0,49
Panama 75,5 11391 0,89
Papua New Guinea 60,7 2084 0,52
Paraguay 71,7 4433 0,87
Peru 73 7836 0,89
Philippines 71,6 3406 0,89
Poland 75,5 15987 0,95
Portugal 78,6 22765 0,93
Qatar 75,5 74882 0,89
Romania 72,5 12369 0,92
Russian Federation 66,2 14690 0,93
Rwanda 49,7 866 0,61
Saint Lucia 73,6 9786 0,89
Saint Vincent and the Grenadines 71,4 7691 0,82
Samoa 71,4 4467 0,91
Sao Tome and Principe 65,4 1638 0,81
Saudi Arabia 72,7 22935 0,83
Senegal 55,4 1666 0,42
Serbia 73,9 10248 0,89
Sierra Leone 47,3 679 0,4
Singapore 80,2 49704 0,91
Slovakia 74,6 20076 0,93
Slovenia 78,2 26753 0,97
Solomon Islands 65,8 1725 0,68
South Africa 51,5 9757 0,84
Spain 80,7 31560 0,98
Sri Lanka 74 4243 0,83
Sudan 57,9 2086 0,54
Suriname 68,8 7813 0,85
Swaziland 45,3 4789 0,73
Sweden 80,8 36712 0,97
Switzerland 81,7 40658 0,94
Syrian Arab Republic 74,1 4511 0,77
Tajikistan 66,4 1753 0,9
Tanzania (United Republic of) 55 1208 0,67
Thailand 68,7 8135 0,89
Timor­Leste 60,7 717 0,55
Togo 62,2 788 0,53
Tonga 71,7 3748 0,92
Trinidad and Tobago 69,2 23507 0,86
Tunisia 73,8 7520 0,77
Turkey 71,7 12955 0,83
Turkmenistan 64,6 4953 0,91
Uganda 51,9 1059 0,7
Ukraine 68,2 6914 0,96
United Arab Emirates 77,3 54626 0,84
United Kingdom 79,3 35130 0,96
United States 79,1 45592 0,97
Uruguay 76,1 11216 0,96
Uzbekistan 67,6 2425 0,89

ix
BASE DE DATOS Nº7
Vanuatu 69,9 3666 0,73
Venezuela  73,6 12156 0,92
Viet Nam 74,3 2600 0,81
Yemen 62,5 2335 0,57
Zambia 44,5 1358 0,68

BASE DE DATOS Nº8

ESTADO Y X X

Alabama  90 15,73 37
Alaska  73 15,61 30
Arizona  104 18,47 33
Arkansas  93 15,65 35
California  96 15,24 31
Colorado  82 19,47 28
Connecticut  70 17,21 28
Delaware  93 18,26 34
District of Columbia  128 13,68 62
Florida  97 17,75 35
Georgia  95 14,36 36
Hawaii  93 16,11 27
Idaho  62 16,56 21
Illinois  87 18,95 31
Indiana  73 18,92 32
Iowa  55 20,50 26
Kansas  69 20,63 28
Kentucky  76 17,59 33
Louisiana  87 19,04 41
Maine  52 17,02 31
Maryland  91 18,33 32
Massachusetts  60 20,16 28
Michigan  75 19,57 32
Minnesota  50 19,45 25
Mississippi  103 17,18 45
Missouri  74 19,53 32
Montana  60 23,15 25
Nebraska  59 21,64 25
Nevada  113 18,69 34
New Hampshire  47 18,41 25
New Jersey  90 17,99 28
New Mexico  103 20,00 37
New York  91 19,13 34
North Carolina  95 17,27 35
North Dakota  42 24,67 24
Ohio  74 17,62 33
Oklahoma  86 15,42 34
Oregon  79 15,95 29
Pennsylvania  60 18,26 31
Rhode Island  67 23,22 35
South Carolina  89 14,68 40
South Dakota  54 23,22 27
Tennessee  89 14,04 35
Texas  101 17,57 33
Utah  53 11,79 18
Vermont  44 21,46 29
Virginia  72 18,28 29
Washington  75 16,26 29
West Virginia  67 20,12 62
Wisconsin  55 18,70 31
Wyoming  77 18,99 28

x
Bases de datos

BASE DE DATOS Nº9

Año Y X

1960 328200 107840


1961 336000 106670
1962 366800 110860
1963 408300 116470
1964 472800 130390
1965 496900 138690
1966 561200 157990
1967 659800 202910
1968 783600 262840
1969 878500 298850
1970 928400 349860
1971 948200 387700
1972 887200 376290
1973 928800 384220
1974 977100 442400
1975 1009600 470500
1976 966000 427810
1977 977700 412610
1978 1004100 426930
1979 1112800 480700
1980 1131700 565840
1981 1087800 592910
1982 1062400 553130
1983 1007900 506570
1984 1032200 485010
1985 1102900 497870
1986 1224137 542775
1987 1288674 517704
1988 1432900 542970
1989 1564800 578330
1990 1635900 639270
1991 1661700 687730
1992 1610800 672480
1993 1563100 659870
1994 1539300 618950
1995 1472400 580510
1996 1394200 535590
1997 1354189 498534
1998 1240754 446625
1999 1152075 409371
2000 1160002 408016
2001 1228391 423557
2002 1246646 420806
2003 1261226 414235
2004 1237851 401470
2005 1235859 417438
2006 1192809 447403
2007 1095769 445125

BASE DE DATOS Nº10
Y X
Agencia

Adelanto Police Dept 532,7 2639,4


Agoura Hills 213,4 1515,3
Alameda County Sheriff Dept 562,1 2357,2
Alameda Police Dept 291 2805
Albany Police Dept 283,2 4883,9
Alhambra Police Dept 324,9 2416,5
Aliso Viejo 74,4 1261,7

xi
BASE DE DATOS Nº10
American Canyon 299,1 2539,1
Anaheim Police Dept 424,6 2625,2
Anderson Police Dept 423,4 4120,8
Antioch Police Dept 843,4 3061,6
Apple Valley 377,8 2670,9
Arcadia Police Dept 273,8 2991,2
Arcata Police Dept 301,3 3095,3
Arroyo Grande Police Dept 157,7 2220,2
Artesia 517,9 2077,4
Arvin Police Dept 689,5 4222,5
Atascadero Police Dept 385,9 2057,2
Atwater Police Dept 371 3677,7
Auburn Police Dept 374,8 2853,4
Avenal 256,2 774,4
Azusa Police Dept 434,6 2685,5
Bakersfield Police Dept 615,2 5037,9
Baldwin Park Police Dept 356 2424,5
Banning Police Dept 692,9 2549,5
Barstow Police Dept 1406,7 5046,5
Beaumont Police Dept 152,9 2193,2
Bell Police Dept 467,7 1552,6
Bell Gardens Police Dept 479,6 1896,5
Bellflower 680,1 3385,9
Belmont Police Dept 97,5 1450,9
Benicia Police Dept 214,7 1789,5
Berkeley Police Dept 630,5 7021,7
Beverly Hills Police Dept 446,9 3327,4
Blythe Police Dept 436,2 2612,8
Brawley Police Dept 282,4 5126,6
Brea Police Dept 197,2 3875,4
Brentwood Police Dept 237,4 2433,1
Buena Park Police Dept 396,8 2576
Burbank Police Dept 261,3 2638,5
Burlingame Police Dept 207,4 3084,9
Butte County Sheriff Department 230,9 1598,6
Calabasas 70,5 1731,8
Calaveras County Sheriff Department 107,9 1422,7
Calexico Police Dept 241,5 3283
California City Police Dept 453,8 2239,1
Camarillo 148,6 1679,4
Campbell Police Dept 269,8 4045
Canyon Lake 199,2 1472,6
Carslbad Police Dept 334,5 2575,3
Carpinteria 209,1 1695
Carson 724,9 2760,7
Cathedral City Police Dept 378,1 3312,1
Ceres Dept Of Public Safety 442,1 4732,1
Cerritos 263 3583,5
Chico Police Dept 518,3 3303,4
Chino Police Dept 287,5 3097,9
Chino Hills 96,8 1452,6
Chowchilla Police Dept 111,9 1726
Chula Vista Police Dept 421,1 3328
Claremont Police Dept 246,8 2766
Clayton Police Dept 80 1466,4
Clearlake Police Dept 442,7 4321,7
Clovis Police Dept 143,6 3070,5
Coachella Police Dept 782,3 4041
Coalinga Police Dept 522,4 2797,6
Colton Police Dept 471,8 3715
Commerce 1089,8 8316,3
Compton Police Dept 1690,8 2922,2
Concord Police Dept 402,6 4089,9

xii
Bases de datos

BASE DE DATOS Nº10
Contra Costa County Sheriff Department 428,5 2253,5
Corcoran Police Dept 189,8 910,8
Corona Police Dept 221,5 2619,9
Coronado Police Dept 96,7 1989,7
Costa Mesa Police Dept 234,9 3037,3
Covina Police Dept 450,4 3846,9
Cudahy 573,1 2236,2
Culver City Police Dept 458,5 3696,1
Cupertino 100 1579,2
Cypress Police Dept 201,1 1925
Daly City Police Dept 291,2 2097,7
Dana Point 130,4 1531,2
Danville 53 1549,3
Davis Police Dept 276 3463,5
Delano Police Dept 541,8 3579,2
Desert Hot Springs 1155,3 7191,3
Diamond Bar 229,5 1825,6
Dinuba Police Dept 662,5 4762,6
Dixon Police Dept 408,2 4585,4
Downey Police Dept 470,6 3553,4
Duarte 377,4 2350
Dublin 173,7 1728
East Palo Alto Police Dept 785,9 2071,7
El Cajon Police Dept 541,1 4328,5
El Centro Police Dept 649,5 5059
El Cerrito Police Dept 786,2 5085,7
El Dorado County Sheriff Department 161,8 1394,5
El Monte Police Dept 552,4 2262,8
El Segundo Police Dept 217,7 4693,6
Encinitas 267,6 1925,1
Escondido Police Dept 492,4 3244,4
Eureka Police Dept 998,1 5984,9
Exeter Police Dept 203,7 3095
Fairfield Police Dept 595,7 4101,9
Farmersville Police Dept 538,2 2377,9
Fillmore 341,7 2010,6
Folsom Police Dept 143,4 2333,1
Fontana Police Dept 507,7 2352,5
Fortuna Police Dept 212,2 3332,7
Foster City Police Dept 76 1661
Fountain Valley Police Dept 198,3 2578
Fremont Police Dept 301 2569,6
Fresno County Sheriff Department 329,5 3464,3
Fresno Police Dept 644,5 4441
Fullerton Police Dept 348,9 3083,9
Galt Police Dept 392,2 3705,1
Garden Grove Police Dept 387,6 2495
Gardena Police Dept 747,3 2381,9
Gilroy Dept Of Public Safety 508,7 4085,7
Glendale Police Dept 187,5 1833,1
Glendora Police Dept 164,4 2958,7
Goleta 181,2 1289,2
Grand Terrace 178,4 1962,1
Grass Valley Police Dept 526,9 2938,1
Greenfield Police Dept 911,4 3728,3
Grover Beach Police Dept 697,4 2162,8
Half Moon Bay Police Dept 169,8 2069,5
Hanford Police Dept 303,9 3368,6
Hawaiian Gardens Police Dept 960,7 2624,1
Hawthorne Police Dept 893,6 2326,9
Hayward Police Dept 626,6 3319,3
Healdsburg Police Dept 173,4 2546,8
Hemet Police Dept 666,9 4339,7

xiii
BASE DE DATOS Nº10
Hercules Police Dept 198,9 1911,4
Hermosa Beach Police Dept 340,5 2805,4
Hesperia 371,2 2326,2
Highland 618,1 2540,8
Hillsborough Police Dept 18,7 888,1
Hollister Police Dept 541,7 2465,7
Humboldt County Sheriff Department 199,9 1313,8
Huntington Beach Police Dept 192,8 2068,5
Huntington Park Police Dept 968,4 4459,7
Imperial County Sheriff Department 338,1 3014,2
Imperial Police Dept 40 1663,2
Indio Police Dept 427,3 3455,1
Inglewood Police Dept 899,1 2592,4
Irvine Police Police 70,8 1612,9
Kerman Police Dept 218,8 2743,3
Kern County Sheriff Department 571,2 3276,3
King City Police Dept 676,3 3096,9
Kings County Sheriff Department 337,7 1374,6
Kingsburg Police Dept 121,9 3849,2
La Canada­Flintridge 118,6 2044,7
La Habra Police Dept 352,5 2447,3
Lamesa Police Dept 450,7 4231
La Mirada 229,3 2153,8
La Palma Police Dept 284,4 1870,9
La Puente 533,9 1806,1
La Quinta 469,3 3637,8
La Verne Police Dept 244,4 2447,2
Lafayette 100 1731,5
Laguna Beach Police Dept 202,4 2044,2
Laguna Hills 171 1998,6
Laguena Niguel 72,3 1022,4
Laguna Woods 16,4 502,4
Lake County Sheriff Department 318,8 1635
Lake Elsinore 383,8 3456,6
Lake Forest 121,8 1377,7
Lakewood 570,3 3092,2
Lancaster 909,1 3506
Lawndale 770,6 1553,7
Lemon Grove 670,3 2491,5
Lemoore Police Dept 336,7 3124,3
Lincoln Police Dept 114,3 965,4
Lindsay Police Dept 686,5 3716,2
Livermore Police Dept 210,6 2578,1
Livingston Police Dept 730,1 3003,2
Lodi Police Dept 363,8 4369
Loma Linda 129,4 2832,6
Lomita 603,7 2088,7
Lompoc Police Dept 685,2 2194,1
Long Beach Police Dept 722,8 2738,4
Los Alamitos Police Dept 290 2899,8
Los Altos Police Dept 65,6 1067,4
Los Angeles County Sheriff Department 784,3 2067,2
Los Angeles Police Dept 718,4 2621,3
Los Banos Dept Of Public Safety 393,1 2618,8
Los Gatos Police Dept 123,6 2206,9
Lynwood 1012,4 2593,5
Madera County Sheriff Department 423,5 1751,5
Madera Police Dept 730,7 2239,6
Malibu 218,7 2435,3
Manhattan Beach Police Dept 145,7 2771,1
Manteca Police Dept 367,5 4019,3
Marin County Sheriff Department 199,3 1260
Marina Dept Of Public Safety 277 3246,9

xiv
Bases de datos

BASE DE DATOS Nº10
Martinez Police Dept 343,3 3326
Marysville Police Dept 1403 4864,3
Maywood Police Dept 607,7 1548,8
Mendocino County Sheriff Department 527,5 1184
Menlo Park Police Dept 247,8 1875
Merced County Sheriff Department 540,7 2685,3
Merced Police Dept 781,5 4887,1
Mill Valley Police Dept 120,5 1385,5
Millbrae Police Dept 190,9 1684,2
Milpitas Police Dept 277,5 3262,1
Mission Viejo 86,2 1380,7
Modesto Police Dept 716,1 5781,8
Monrovia Police Dept 353,9 2951,7
Montclair Police Dept 654,7 6536,1
Montebello Police Dept 383,7 3088,6
Monterey County Sheriff Department 222,5 1983,6
Monterey Police Dept 578,9 4453,5
Monterey Park Police Dept 313,7 2064,9
Moorpark 113,1 1597
Moraga Police Dept 88,1 1497
Moreno Valley 538,2 3348,8
Morgan Hill Police Dept 230,7 2435,8
Morro Bay Police Dept 207,9 1514,9
Mountain View Police Dept 340 2170
City Of Murrieta Police Dept 120,3 1993,9
Napa County Sheriff Department 291,9 2076,8
Napa Police Dept 382,6 3123,6
National City Police Dept 683,9 3498,6
Nevada County Sheriff Department 197,1 891,3
Newark Police Dept 536,1 4119,1
Newman Police Dept 345 3162,1
Newport Beach Police Dept 214 2771,9
Norco 345,8 3429,3
Norwalk 576,3 2497,9
Novato Police Dept 301,5 2289,4
Oakdale Police Dept 246,4 5233,8
Oakland Police Dept 1917,8 5967,6
Oakley 399,3 2518,6
Oceanside 546,8 2756,8
Ontario Police Dept 486,5 3332,6
Orange County Sheriff Department 161,9 1347,3
Orange Police Dept 195,9 2244,9
Orinda 70,5 1669,5
Oroville Police Dept 1458,1 7570,5
Oxnard Police Dept 453,4 2293,9
Pacific Grove Police Dept 155,7 2626,6
Pacifica Police Dept 199,1 1683,9
Palm Desert 192,1 6083,1
Palm Springs Police Dept 632,4 7249,4
Palmdale 733,9 3027
Palo Alto Police Dept 110,9 2495,8
Palos Verdes Estates Police Dept 28,9 1178,8
Paradise Police Dept 208,5 2861,9
Paramount 854,7 3426,1
Parlier Police Dept 926 3278,3
Pasadena Police Dept 511,2 2957
Paso Robles Police Dept 372,1 3267,8
Patterson Police Dept 265 3109,1
Perris 625,6 4201,4
Petaluma Police Dept 413,7 1892,9
Pico Rivera 397,2 2418,9
Piedmont Police Dept 95,4 1975,6
Pinole Police Dept 594,4 4202,9

xv
BASE DE DATOS Nº10
Pittsburg Police Dept 391,2 3758,2
Placentia Police Dept 178,5 1407,9
Placer County Sheriff Department 227,8 1784
Placerville Police Dept 700,1 2317,1
Pleasant Hill Police Dept 376,1 4835,6
Pleasanton Police Dept 94,4 1939,8
Pomona Police Dept 795,9 3358,4
Port Hueneme Police Dept 426,5 1825,4
Porterville Police Dept 619,9 5038,5
Poway 212 1561,2
Rancho Cucamonga 211,6 2211,8
Rancho Mirage 156,1 6170,1
Rancho Palos Verdes 98 1283,3
Rancho Santa Margari 58,8 1054,4
Red Bluff Police Dept 970,9 4790,6
Redding Police Dept 498,2 2896,2
Redlands Police Dept 424,6 3510,5
Redondo Beach Police Dept 301,9 2406,2
Redwood City Police Dept 457,5 2300
Reedley Police Dept 588,8 3026,2
Rialto Police Dept 743,6 2270,8
Richmond Police Dept 1190,6 5374,2
Ridgecrest Police Dept 576,8 2356,6
Ripon Police Dept 245,2 2608,5
Riverbank 303,4 3967,6
Riverside County Sheriff Department 407 2709,7
Riverside Police Dept 632,5 3726,5
Rocklin Police Dept 193 2094,5
Rohnert Park Dept Of Public Safety 579,9 2322
Rosemead 456,6 2524,1
Roseville Police Dept 347,1 3551,7
Sacramento County Sheriff Department 465,4 2147,8
Sacramento Police Dept 1113,5 5297,8
Salinas Police Dept 794,5 4735,3
San Anselmo Police Dept 216,8 2342,6
San Bernardino County Sheriff Department 445,2 2274,1
San Bernardino Police Dept 1070,7 5024,7
San Bruno Police Dept 270,3 2057,1
San Carlos Police Dept 130,1 1676,5
San Clemente 132,3 1242
San Diego County Sheriff Department 393,8 1753,4
San Diego Police Dept 502,1 3502
San Dimas 229 2507,7
San Fernando Police Dept 533,3 1938,9
San Francisco Police Dept 874,1 4695,6
San Gabriel Police Dept 473,5 1869,6
San Jacinto Police Dept 426,4 3278,8
San Joaquin County Sheriff Department 711,7 3469
San Jose Police Dept 402,2 2574,7
San Juan Capistrano 191,6 1401
San Leandro Police Dept 703,2 5114,1
San Luis Obispo County Sheriff Department 217,4 1233,6
San Luis Obispo Police Dept 392,7 4315
San Marino Police Dept 122 2036,3
San Mateo County Sheriff Department 369,8 2483,2
San Mateo Police Dept 334,6 2267
San Pablo Police Dept 1008,3 5436,2
San Rafael Police Dept 500,1 3148,9
San Ramon 107,4 2091,7
Sanger Police Dept 367,4 2814
Santa Ana Police Dept 572,3 2291,7
Santa Barbara County Sheriff Department 150,7 1251,3
Santa Barbara Police Dept 522,7 2674,4

xvi
Bases de datos

BASE DE DATOS Nº10
Santa Clara County Sheriff Department 382,1 2091,5
Santa Clara Police Dept 211,1 3134,7
Santa Clarita 218,3 2219,1
Santa Cruz County Sheriff Department 208,6 1952,3
Santa Cruz Police Dept 880,5 4452,1
Santa Fe Springs 796,2 8804,6
Santa Maria Police Dept 704,1 3049,6
Santa Monica Police Dept 672,8 3508,5
Santa Paula Police Dept 347,1 2514,2
Santa Rosa Police Dept 497,6 2408,5
Santee 280,2 2172,9
Saratoga 96,5 997,8
Scotts Valley Police Dept 99 2420,4
Seal Beach Police Beach 151,7 1665,1
Seaside Police Dept 637,4 2081,6
Selma Police Dept 384 4595,5
Shafter Police Dept 446,9 4009,2
Shasta County Sheriff Department 441,6 1224,9
Sierra Madre Police Dept 99,7 1541,1
Signal Hill Police Dept 532,4 4037,3
Simi Valley Police Dept 147,5 1942,5
Solana Beach 206,3 2150,6
Soledad Police Dept 306 1614,4
Sonoma County Sheriff Department 364,1 1199,3
South El Monte 663,7 2954,5
South Gate Police Dept 584,6 2959,4
South Lake Tahoe Police Dept 682,8 2526
South Pasadena Police Dept 144,2 1746,3
South San Francisco Police Dept 288 2549,7
Stanislaus County Sheriff Department 715,4 3513,7
Stanton 448,7 1959,3
Stockton Police Dept 1418,7 6285
Suisun City Police Dept 533,1 2713,8
Sunnyvale Dept Of Public Safety 118,2 2017,2
Susanville Police Dept 373,8 2088,8
Sutter County Sheriff Department 403,8 3054,7
Tehama County Sheriff Department 473,1 1025,1
Temecula 221 2833,5
Temple City 220,5 1808,2
Thousand Oaks 116,6 1551,2
Torrance Police Dept 239,9 2229,1
Tracy Police Dept 161,6 3016
Truckee 359,7 1902
Tulare County Sheriff Department 327,7 1894,4
Tulare Police Dept 809,7 4202,3
Tuolumne County Sheriff Department 207,5 1680,9
Turlock Police Dept 708,9 5090,5
Tustin Police Dept 195,9 2251,8
Twenty­Nine Palms 311,4 1599
Twin Cities Police Dept 90,3 2636,6
Ukiah Dept Of Public Safety 872 3084,5
Union City Police Dept 643,6 2898,1
Upland Police Dept 393 3688,1
Vacaville Police Dept 282,3 2185,3
Vallejo Police Dept 932,7 5192,6
Ventura County Sheriff Department 208,6 1477,1
Ventura Police Dept 352,1 3661,4
Victorville 629,3 3851,4
Visalia Police Dept 571,2 4456,8
Walnut 177,9 1747,7
Walnut Creek Police Dept 141,6 4068,1
Watsonville Police Dept 809,7 4642
West Covina Police Dept 362,6 3575,5

xvii
BASE DE DATOS Nº10
West Hollywood 923,4 3906,7
West Sacramento Police Dept 802,2 2997,1
Westminster Police Dept 395,8 2962,1
Whittier Police Dept 404,6 2770,2
Windsor 339,4 1283,5
Woodland Police Dept 299,9 3518,6
Yorba Linda 66,4 1556,2
Yuba County Sheriff Dept 398,6 2043,4
Yuba City Police Dept 395,9 3091,4
Yucaipa 100,7 1770,5
Yucca Valley 354,7 2698,3

BASE DE DATOS Nº 11

Estado Y X

Alabama 32,2 70,5


Alaska 27 75,9
Arizona 25,5 76,8
Arkansas 29,5 70,2
California 24,2 76,6
Colorado 19,1 81,1
Connecticut 21,4 77,5
Delaware 27,7 75,8
District of Columbia 22,3 78,8
Florida 25,1 74
Georgia 27,8 76,9
Guam 27 73,6
Hawaii 23,1 80,4
Idaho 25,1 78,8
Illinois 26,8 72
Indiana 26,9 72,2
Iowa 26,7 74,9
Kansas 28 74,4
Kentucky 30,2 69,5
Louisiana 28,9 70,1
Maine 25,8 77,1
Maryland 26,6 76
Massachusetts 21,4 77,9
Michigan 29,5 74,8
Minnesota 25,1 81,9
Mississippi 33,3 67,4
Missouri 29 72,4
Montana 24,2 76,8
Nebraska 27,2 75,3
Nevada 25,6 72,4
New Hampshire 24,8 78,5
New Jersey 23,5 73
New Mexico 25,7 76
New York 25,1 73,6
North Carolina 29,5 75,3
North Dakota 27,7 74,4
Ohio 29,2 73,9
Oklahoma 30,9 68,5
Oregon 24,9 80,9
Pennsylvania 28,3 74,2
Rhode Island 22 75,7
South Carolina 30,6 72,8
South Dakota 28,1 73,1
Tennessee 31,2 71
Texas 28,9 71,5
Utah 23,1 80,2
Vermont 23,2 80,5

xviii
Bases de datos

BASE DE DATOS Nº 11
Virginia 25,7 76,4
Virgin Islands 26,5 66,8
Washington 26 80,6
West Virginia 31,9 68,9
Wisconsin 26 77,9
Wyoming 25,2 75,6

BASE DE DATOS Nº12

Municipio Y X X

Acacoyagua   0.483 0.41 18


Acala   0.356 9.93 27
Acapetahua   0.672 0.35 21
Altamirano   0.984 40.75 38
Amatán   1.745 14.76 34
Amatenango de la Frontera   0.723 2.91 25
Amatenango del Valle   2.002 53.48 47
Angel Albino Corzo  0.868 2.91 27
Arriaga   ­0.298 1.22 15
Bejucal de Ocampo   1.279 0.84 19
Bella Vista   0.761 1.11 13
Berriozábal   0.170 3.62 22
Bochil   0.470 42.07 30
El Bosque   1.065 63.79 43
Cacahoatán   0.091 1.8 19
Catazajá   0.494 1.8 20
Cintalapa   0.147 5.23 18
Coapilla   0.912 13.81 24
Comitán de Domínguez   ­0.422 3.58 18
La Concordia   1.082 5.24 28
Copainalá   0.443 9.17 17
Chalchihuitán   2.344 80.89 51
Chamula   1.872 82.74 58
Chanal   1.686 72.81 47
Chapultenango   0.815 66.62 30
Chenalho   1.781 69.35 43
Chiapa de Corzo   ­0.014 4.38 20
Chiapilla   0.781 4.39 37
Chicoasén   0.054 9.57 18
Chicomuselo   1.042 0.34 25
Chilón   2.143 64.86 46
Escuintla   0.595 0.56 19
Francisco León   1.589 64.3 36
Frontera Comalapa   0.130 1.72 16
Frontera Hidalgo   0.508 0.26 23
La Grandeza   0.915 1.46 15
Huehuetán   0.577 0.28 21
Huixtán   1.569 76.46 37
Huitiupan   1.653 58.59 38
Huixtla   ­0.157 0.62 15
La Independencia   0.636 3.77 22
Ixhuatan   0.864 35.34 30
Ixtacomitán   0.630 16.73 20
Ixtapa   0.493 20.36 26
Ixtapangajoya   1.218 11 24
Jiquipilas   0.258 4.42 17
Jitotol   0.946 60.31 35
Juarez   0.273 4.26 19
Larrainzar   1.654 63.04 41
La Libertad   0.489 1.38 16
Mapastepec   0.227 0.51 21
Las Margaritas   1.126 40.38 35

xix
BASE DE DATOS Nº12
Mazapa de Madero   0.689 3.61 12
Mazatán   0.626 0.44 19
Metapa   0.124 0.42 18
Mitontic   2.039 78.97 62
Motozintla   0.575 2.08 15
Nicolas Ruiz   1.287 0 0
Ocosingo   1.448 49.76 34
Ocotepec   1.609 80.11 49
Ocozocoautla de espinosa   0.419 14.54 21
Ostuacán   1.127 4.81 26
Osumacinta   0.055 8.72 13
Oxchuc   1.779 80.75 31
Palenque   0.597 33.6 24
Pantelhó   2.252 68.23 52
Pantepec   1.364 44.35 45
Pichucalco   0.250 1.64 21
Pijijiapan   0.487 1.11 20
El Porvenir   1.176 6.32 15
Villa Comaltitlán   0.764 0.73 21
Pueblo Nuevo Solistahuacán   1.176 39.75 42
Rayón   0.714 33.41 34
Reforma   ­0.780 0.97 12
Las Rosas   1.073 7.01 39
Sabanilla   1.510 63.72 36
Salto de Agua   1.683 69.18 40
San Cristobal de las Casas   ­0.626 32.02 18
San Fernando   0.279 1.77 23
Siltepec   1.290 0.44 25
Simojovel   1.344 48.61 45
Sitalá   3.345 44.77 60
Socoltenango   1.011 7.03 32
Solosuchiapa   0.906 13.18 26
Soyaló   0.545 26.32 31
Suchiapa   ­0.018 0.51 24
Suchiate   0.454 0.37 22
Sunuapa   1.046 0.83 26
Tapachula   ­0.442 1.18 12
Tapalapa   0.739 81.89 23
Tapilula   0.272 10.57 26
Tecpatán   0.807 18.97 22
Tenejapa   1.370 76.12 35
Teopisca   1.096 35.43 41
Tila   1.414 78.27 39
Tonalá   ­0.082 0.59 16
Totolapa   1.241 6.87 44
La Trinitaria   0.497 8.13 21
Tumbalá   1.814 74.13 45
Tuxtla Gutiérrez   ­1.263 2.14 8
Tuxtla Chico   0.420 0.22 22
Tuzantán   0.703 0.79 17
Tzimol   0.632 1.12 29
Unión Juárez   0.303 1.68 19
Venustiano Carranza   0.728 17.97 32
Villa Corzo   0.668 4.83 25
Villaflores   0.142 1.46 19
Yajalón   0.914 52.98 35
San Lucas   1.247 10.72 37
Zinacantán   1.797 82.34 54
San Juan Cancuc   1.966 76.42 52
Aldama   2.319 68.45 58
Benemérito de las Américas   1.120 25.95 27
Maravilla Tenejapa   1.518 33.12 31
Marqués de Comillas   1.602 30.1 30

xx
Bases de datos

BASE DE DATOS Nº12
Montecristo de Guerrero   1.118 0.71 28
San Andres Duraznal   1.489 66.9 46
Santiago el Pinar   2.209 63.57 68

BASE DE DATOS Nº13
 
Año Y X X

1986 3419 8658 4269,674


1987 3645 8852 4372,610
1988 3911 9144 4569,370
1989 4324 9586 4727,218
1990 4484 10133 4822,836
1991 4841 10664 4918,510
1992 5436 11285 5059,528
1993 5816 12101 5343,141
1994 6148 13019 5465,013
1995 6801 14103 5499,544
1996 7305 15383 5522,817
1997 7845 16778 5625,843
1998 8153 18228 5734,213
1999 8060 19381 5829,013
2000 8493 20256 5845,905

BASE DE DATOS Nº14

Año Y X X X X

1960 3294.7 8.8 12.6 74 50.5


1961 3436.8 7 8 106 62.5
1962 3496.1 8.1 19.7 106.6 77.9
1963 4385.1 7.9 16.3 118.8 62.2
1964 4015 7.8 13.2 109.8 110
1965 3537.5 8.4 15.5 97.5 95.2
1966 3407.9 10.6 11.5 96.9 98.5
1967 4056.3 10.8 14.4 117.8 104.7
1968 4183.7 5.5 17.4 142.8 112.6
1969 4786.4 9 20.6 170.9 158.9
1970 5365.2 8.8 19.6 188.4 181.7
1971 5089.3 11.4 26.6 171.2 162.9
1972 5420.5 13.5 34 190.1 192
1973 6060 12.2 46 262 251.8
1974 7144.7 14.8 45.2 277.8 344.5
1975 7474.2 13 47.1 302.5 316
1976 7615.1 11.5 47.2 294.9 337.4
1977 7225 15.8 49.1 323.1 355
1978 7506.1 15.5 53.9 359.5 351.8
1979 7996 17.5 59.5 407.5 351
1980 7941.4 20 67.2 460.6 364.9

BASE DE DATOS Nº15

Y X

3929214 1790
5308483 1800
7239881 1810
9638453 1820
12860702 1830
17063353 1840
23191876 1850
31443321 1860
38558371 1870

xxi
BASE DE DATOS Nº15
50189209 1880
62979766 1890
76212168 1900
92228496 1910
106021537 1920
123202624 1930
132164569 1940
151325798 1950
179323175 1960

BASE DE DATOS Nº16

Y X

29105 1987
36126 1988
43499 1989
49546 1990
60573 1991
79657 1992
79879 1993
73086 1994
69984 1995
61124 1996
49379 1997
43225 1998
41356 1999
39513 2000

BASE DE DATOS Nº17

Y X

23135 1994
25279 1995
29269 1996
34068 1997
38468 1998
41293 1999
39743 2000
34471 2001
30270 2002
28549 2003
27053 2004

BASE DE DATOS Nº18

PAÍS Y X

Afghanistan 151,95 800


Albania 18,62 6000
Algeria 27,73 6900
American Samoa 10,18 8000
Andorra 3,76 42500
Anguilla 3,52 8800
Antigua and Barbuda 16,25 19400
Argentina 11,44 14200
Armenia 20,21 6300
Aruba 13,79 21800
Australia 4,75 38200
Austria 4,42 40400
Azerbaijan 54,6 9500
Bahamas, The 23,17 30700

xxii
Bases de datos

BASE DE DATOS Nº18
Bahrain 15,25 37400
Bangladesh 59,02 1500
Barbados 12,29 18900
Belarus 6,43 11800
Belgium 4,44 37500
Belize 23,07 8400
Benin 64,64 1500
Bermuda 2,46 69900
Bhutan 49,36 5200
Bolivia 44,66 4500
Bosnia and Herzegovina 9,1 6500
Botswana 12,59 13900
Brazil 22,58 10200
British Virgin Islands 14,65 38500
Brunei 12,27 51300
Bulgaria 17,87 12900
Burkina Faso 84,49 1200
Burma 47,61 1200
Burundi 59,64 300
Cambodia 54,79 2000
Cameroon 63,34 2300
Canada 5,04 39200
Cape Verde 41,35 3800
Cayman Islands 6,94 43800
Central African Republic 80,62 700
Chad 98,69 1600
Chile 7,71 14900
China 20,25 6000
Colombia 18,9 9200
Comoros 66,57 1000
Congo, Democratic Republic of the 81,21 300
Congo, Republic of the 79,78 3900
Cook Islands 16,9 9100
Costa Rica 8,77 11600
Cote d'Ivoire 68,06 1700
Croatia 6,37 18400
Cuba 5,82 9500
Cyprus 6,6 21300
Czech Republic 3,79 25900
Denmark 4,34 37200
Djibouti 97,51 2700
Dominica 13,65 10000
Dominican Republic 25,96 8200
Ecuador 20,9 7500
Egypt 27,26 5800
El Salvador 21,52 6200
Eritrea 43,33 700
Estonia 7,32 21400
Ethiopia 80,8 900
European Union 5,72 33700
Faroe Islands 6,32 31000
Fiji 11,58 3800
Finland 3,47 37000
France 3,33 33300
French Polynesia 7,55 18000
Gabon 51,78 14200
Gambia, The 67,33 1300
Gaza Strip 18,35 2900
Georgia 16,22 4700
Germany 3,99 35500
Ghana 51,09 1500
Gibraltar 4,83 38200
Greece 5,16 32100

xxiii
BASE DE DATOS Nº18
Greenland 10,72 20000
Grenada 13,23 13200
Guatemala 27,84 5300
Guernsey 4,47 44600
Guinea 65,22 1100
Guinea­Bissau 99,82 600
Guyana 29,65 3900
Haiti 59,69 1300
Honduras 24,03 4400
Hong Kong 2,92 43800
Hungary 7,86 19800
Iceland 3,23 42300
India 30,15 2900
Indonesia 29,97 3900
Iran 35,78 12800
Iraq 43,82 3200
Ireland 5,05 45500
Isle of Man 5,37 35000
Israel 4,22 28600
Italy 5,51 31400
Jamaica 15,22 8600
Japan 2,79 34100
Jersey 4,73 57000
Jordan 14,97 5200
Kazakhstan 25,73 11500
Kenya 54,7 1600
Kiribati 43,48 5300
Korea, North 51,34 1800
Korea, South 4,26 27700
Kuwait 8,96 57500
Kyrgyzstan 31,26 2200
Laos 77,82 2100
Latvia 8,77 17300
Lebanon 21,82 11100
Lesotho 77,4 1600
Liberia 138,24 500
Libya 21,05 14200
Lithuania 6,47 17800
Luxembourg 4,56 81200
Macau 3,22 30000
Macedonia 9,01 9100
Madagascar 54,2 1000
Malawi 89,05 800
Malaysia 15,87 15200
Maldives 29,53 4500
Mali 102,05 1100
Malta 3,75 24600
Marshall Islands 25,45 2500
Mauritania 63,42 2100
Mauritius 12,2 12100
Mayotte 56,29 4900
Mexico 18,42 14300
Micronesia, Federated States of 26,1 2200
Moldova 13,13 2500
Monaco 5 30000
Mongolia 39,88 3200
Montserrat 16,08 3400
Morocco 36,88 4500
Mozambique 105,8 900
Namibia 45,51 6400
Nauru 9,25 5000
Nepal 47,46 1100
Netherlands 4,73 40500

xxiv
Bases de datos

BASE DE DATOS Nº18
Netherlands Antilles 9,09 16000
New Caledonia 7,05 15000
New Zealand 4,92 27900
Nicaragua 25,02 2900
Niger 116,66 700
Nigeria 94,35 2300
Northern Mariana Islands 6,59 12500
Norway 3,58 59500
Oman 16,88 20200
Pakistan 65,14 2500
Palau 13,14 8100
Panama 12,67 11800
Papua New Guinea 45,23 2300
Paraguay 24,68 4200
Peru 28,62 8500
Philippines 20,56 3300
Poland 6,8 17400
Portugal 4,78 22200
Puerto Rico 8,42 17800
Romania 22,9 12200
Russia 10,56 16100
Rwanda 81,61 900
Saint Helena 17,63 2500
Saint Kitts and Nevis 13,94 19100
Saint Lucia 13,43 11100
Saint Pierre and Miquelon 6,87 7000
Saint Vincent and the Grenadines 15,14 10200
Samoa 24,22 4700
San Marino 5,34 41900
Sao Tome and Principe 37,12 1300
Saudi Arabia 11,57 20500
Senegal 58,94 1600
Serbia 6,75 10800
Seychelles 12,3 21000
Sierra Leone 154,43 900
Singapore 2,31 51600
Slovakia 6,84 22000
Slovenia 4,25 29600
Solomon Islands 19,03 2700
Somalia 109,19 600
South Africa 44,42 10100
Spain 4,21 34600
Sri Lanka 18,57 4400
Sudan 82,43 2200
Suriname 18,81 8900
Swaziland 68,63 4400
Sweden 2,75 38200
Switzerland 4,18 42000
Syria 25,87 4600
Taiwan 5,35 31100
Tajikistan 41,03 1800
Tanzania 69,28 1400
Thailand 17,63 8400
Timor­Leste 40,65 2300
Togo 56,24 900
Tonga 11,58 4600
Trinidad and Tobago 29,93 23600
Tunisia 22,57 7900
Turkey 25,78 11900
Turkmenistan 45,36 6500
Turks and Caicos Islands 13,89 11500
Tuvalu 18,43 1600
Uganda 64,82 1300

xxv
BASE DE DATOS Nº18
Ukraine 8,98 7400
United Arab Emirates 12,7 44600
United Kingdom 4,85 36700
United States 6,26 47500
Uruguay 11,32 12400
Uzbekistan 23,43 2600
Vanuatu 49,45 4600
Venezuela 21,54 13500
Vietnam 22,88 2800
Virgin Islands 7,56 14500
Wallis and Futuna 5,02 3800
West Bank 15,96 2900
Western Sahara 69,66 2500
Yemen 54,7 2500
Zambia 101,2 1500
Zimbabwe 32,31 200

BASE DE DATOS Nº19

Condado Y D D

Starr County  98,10 1 0
Maverick County  95,33 1 0
Webb County  94,40 1 0
Brooks County  92,00 1 0
Zavala County  91,39 1 0
Jim Hogg County  90,63 1 0
Hidalgo County  88,42 1 0
Duval County  88,16 1 0
Willacy County  86,11 1 0
Kenedy County  85,99 1 0
Dimmit County  85,31 1 0
Zapata County  84,94 1 0
Presidio County  84,76 1 0
Cameron County  84,47 1 0
El Paso County  78,27 1 0
La Salle County  77,29 1 0
Jim Wells County  75,92 1 0
Val Verde County  75,75 1 0
Hudspeth County  75,45 1 0
Frio County  73,92 1 0
Reeves County  73,59 1 0
Culberson County  72,34 1 0
Uvalde County  66,12 1 0
Kleberg County  65,56 1 0
Pecos County  61,09 1 0
Nueces County  55,71 1 0
Crockett County  55,09 1 0
Bee County  53,95 1 0
Terrell County  51,34 1 0
Kinney County  50,10 1 0
San Patricio County  49,40 1 0
Edwards County  45,61 1 0
Medina County  45,49 1 0
Brewster County  43,72 1 0
Live Oak County  37,95 1 0
Jeff Davis County  35,48 1 0
McMullen County  34,43 1 0
Real County  21,63 1 0
Castro County  51,83 0 1
Parmer County  49,83 0 1
Crosby County  48,84 0 1
Dawson County  48,09 0 1

xxvi
Bases de datos

BASE DE DATOS Nº19
Hale County  47,99 0 1
Bailey County  47,73 0 1
Floyd County  46,03 0 1
Yoakum County  45,92 0 1
Cochran County  45,04 0 1
Lynn County  44,32 0 1
Terry County  43,99 0 1
Lamb County  43,71 0 1
Martin County  41,49 0 1
Andrews County  40,11 0 1
Howard County  37,56 0 1
Hockley County  37,21 0 1
Garza County  37,15 0 1
Gaines County  35,79 0 1
Swisher County  35,37 0 1
Mitchell County  31,33 0 1
Titus County  28,40 0 1
Nolan County  27,90 0 1
Scurry County  27,82 0 1
Hall County  27,55 0 1
Lubbock County  27,44 0 1
Knox County  25,53 0 1
Dickens County  23,39 0 1
Briscoe County  22,74 0 1
Fisher County  21,71 0 1
Jones County  21,10 0 1
Haskell County  20,61 0 1
Wilbarger County  20,46 0 1
Childress County  20,32 0 1
Cottle County  18,91 0 1
Borden County  18,24 0 1
Taylor County  17,54 0 1
Foard County  16,21 0 1
Hardeman County  15,09 0 1
Camp County  14,45 0 1
Stephens County  14,17 0 1
Angelina County  14,08 0 1
Motley County  13,53 0 1
Cherokee County  13,25 0 1
Wichita County  12,13 0 1
Anderson County  12,00 0 1
Stonewall County  11,99 0 1
Nacogdoches County  11,32 0 1
Rockwall County  11,13 0 1
Smith County  11,10 0 1
Liberty County  10,92 0 1
Eastland County  10,75 0 1
Jefferson County  10,58 0 1
Young County  10,50 0 1
Kent County  10,24 0 1
Collin County  10,22 0 1
Polk County  9,65 0 1
Shelby County  9,48 0 1
Hopkins County  9,26 0 1
Baylor County  9,14 0 1
Gregg County  8,86 0 1
Franklin County  8,78 0 1
Rusk County  8,30 0 1
Shackelford County  8,24 0 1
Hunt County  8,19 0 1
Throckmorton County  7,84 0 1
Houston County  7,59 0 1
Henderson County  6,75 0 1

xxvii
BASE DE DATOS Nº19
Van Zandt County  6,73 0 1
Callahan County  6,22 0 1
King County  6,18 0 1
Fannin County  5,66 0 1
Harrison County  5,40 0 1
Wood County  5,38 0 1
Red River County  5,11 0 1
Archer County  4,57 0 1
Rains County  4,56 0 1
San Jacinto County  4,49 0 1
Bowie County  4,27 0 1
Trinity County  4,07 0 1
Jasper County  3,96 0 1
Upshur County  3,79 0 1
Newton County  3,71 0 1
Tyler County  3,65 0 1
Lamar County  3,54 0 1
Orange County  3,50 0 1
Morris County  3,46 0 1
Panola County  3,23 0 1
San Augustine County  2,96 0 1
Hardin County  2,45 0 1
Cass County  1,62 0 1
Sabine County  1,60 0 1
Marion County  1,40 0 1
Delta County  0,81 0 1
Atascosa County  58,70 0 0
Deaf Smith County  57,71 0 0
Bexar County  54,35 0 0
Sutton County  51,73 0 0
Reagan County  49,67 0 0
Karnes County  47,71 0 0
Moore County  47,39 0 0
Refugio County  44,69 0 0
Crane County  44,09 0 0
Winkler County  44,03 0 0
Schleicher County  43,61 0 0
Upton County  42,45 0 0
Ward County  42,41 0 0
Ector County  42,39 0 0
Concho County  41,65 0 0
Calhoun County  40,71 0 0
Caldwell County  40,60 0 0
Gonzales County  39,88 0 0
Victoria County  39,22 0 0
Wilson County  36,48 0 0
Goliad County  35,13 0 0
Guadalupe County  33,16 0 0
Harris County  32,95 0 0
Menard County  32,63 0 0
Hansford County  31,83 0 0
Ochiltree County  31,69 0 0
Matagorda County  31,30 0 0
Sterling County  31,30 0 0
Wharton County  31,23 0 0
Tom Green County  30,65 0 0
Dallas County  29,89 0 0
Glasscock County  29,87 0 0
Hays County  29,45 0 0
Runnels County  29,40 0 0
Midland County  28,93 0 0
Dallam County  28,48 0 0
Travis County  28,21 0 0

xxviii
Bases de datos

BASE DE DATOS Nº19
Potter County  28,18 0 0
Sherman County  27,97 0 0
DeWitt County  27,31 0 0
McCulloch County  26,63 0 0
Jackson County  25,07 0 0
Irion County  24,68 0 0
Bastrop County  23,99 0 0
Brazoria County  22,76 0 0
Comal County  22,60 0 0
San Saba County  21,66 0 0
Mason County  21,21 0 0
Fort Bend County  21,10 0 0
Comanche County  21,06 0 0
Kimble County  20,97 0 0
Collingsworth County  20,59 0 0
Aransas County  20,42 0 0
Colorado County  19,76 0 0
Tarrant County  19,73 0 0
Waller County  19,43 0 0
Lipscomb County  19,20 0 0
Kerr County  19,16 0 0
Milam County  18,98 0 0
Lee County  18,27 0 0
Ellis County  18,24 0 0
Galveston County  18,05 0 0
McLennan County  17,93 0 0
Loving County  17,91 0 0
Brazos County  17,86 0 0
Kendall County  17,73 0 0
Williamson County  17,21 0 0
Coke County  16,95 0 0
Bell County  16,68 0 0
Grimes County  16,25 0 0
Austin County  16,06 0 0
Gillespie County  15,99 0 0
Navarro County  15,89 0 0
Falls County  15,87 0 0
Madison County  15,80 0 0
Blanco County  15,29 0 0
Brown County  15,22 0 0
Hemphill County  15,10 0 0
Lampasas County  15,05 0 0
Erath County  14,98 0 0
Burnet County  14,76 0 0
Burleson County  14,64 0 0
Robertson County  14,56 0 0
Hutchinson County  14,47 0 0
Walker County  14,02 0 0
Hartley County  13,78 0 0
Somervell County  13,56 0 0
Bandera County  13,45 0 0
Hill County  13,44 0 0
Coleman County  13,43 0 0
Palo Pinto County  13,22 0 0
Gray County  12,98 0 0
Limestone County  12,98 0 0
Oldham County  12,81 0 0
Fayette County  12,65 0 0
Montgomery County  12,62 0 0
Coryell County  12,53 0 0
Mills County  12,48 0 0
Wheeler County  12,40 0 0
Bosque County  12,33 0 0

xxix
BASE DE DATOS Nº19
Denton County  12,09 0 0
Johnson County  12,01 0 0
Lavaca County  11,41 0 0
Kaufman County  11,12 0 0
Chambers County  10,89 0 0
Wise County  10,76 0 0
Randall County  10,28 0 0
Cooke County  9,82 0 0
Washington County  8,97 0 0
Freestone County  8,43 0 0
Jack County  7,92 0 0
Leon County  7,86 0 0
Hamilton County  7,50 0 0
Hood County  6,99 0 0
Parker County  6,96 0 0
Carson County  6,81 0 0
Grayson County  6,39 0 0
Donley County  5,80 0 0
Montague County  5,49 0 0
Llano County  5,14 0 0
Armstrong County  3,91 0 0
Clay County  3,07 0 0
Roberts County  1,35 0 0

BASE DE DATOS Nº20

Condado Y D D D

Anderson County  14,32 0 1 0
Andrews County  15,29 0 1 1
Angelina County  19,34 0 1 0
Aransas County  19,63 0 0 0
Archer County  8,21 0 1 0
Armstrong County  8,8 0 0 0
Atascosa County  20,13 0 0 1
Austin County  12,15 0 0 0
Bailey County  18,84 0 1 1
Bandera County  15,18 0 0 0
Bastrop County  15,27 0 0 0
Baylor County  16,74 0 1 0
Bee County  16,97 1 0 1
Bell County  15,2 0 0 0
Bexar County  18,3 0 0 1
Blanco County  11,11 0 0 0
Borden County  6,45 0 1 0
Bosque County  19,89 0 0 0
Bowie County  16,97 0 1 0
Brazoria County  11,42 0 0 0
Brazos County  27,1 0 0 0
Brewster County  16,95 1 0 1
Briscoe County  12,79 0 1 0
Brooks County  28,51 1 0 1
Brown County  18,13 0 0 0
Burleson County  15,62 0 0 0
Burnet County  12,5 0 0 0
Caldwell County  18,14 0 0 1
Calhoun County  15,28 0 0 1
Callahan County  13,79 0 1 0
Cameron County  39,11 1 0 1
Camp County  18,7 0 1 0
Carson County  8,18 0 0 0
Cass County  18,23 0 1 0
Castro County  17,31 0 1 1

xxx
Bases de datos

BASE DE DATOS Nº20
Chambers County  9,4 0 0 0
Cherokee County  18,12 0 1 0
Childress County  17,51 0 1 0
Clay County  11,98 0 0 0
Cochran County  19,54 0 1 1
Coke County  11,65 0 0 0
Coleman County  19,87 0 0 0
Collin County  9,13 0 1 0
Collingsworth County  17,75 0 0 0
Colorado County  14,43 0 0 0
Comal County  13,04 0 0 0
Comanche County  16,5 0 0 0
Concho County  13,46 0 0 1
Cooke County  14,26 0 0 0
Coryell County  11,23 0 0 0
Cottle County  17,38 0 1 0
Crane County  9,91 0 0 1
Crockett County  13,61 1 0 1
Crosby County  21,05 0 1 1
Culberson County  20,2 1 0 1
Dallam County  12,89 0 0 0
Dallas County  17,75 0 0 0
Dawson County  19,69 0 1 1
Deaf Smith County  20,31 0 0 1
Delta County  17,44 0 1 0
Denton County  9,87 0 0 0
DeWitt County  17,39 0 0 0
Dickens County  17,13 0 1 0
Dimmit County  31,08 1 0 1
Donley County  15,57 0 0 0
Duval County  23,52 1 0 1
Eastland County  17,72 0 1 0
Ector County  16,26 0 0 1
Edwards County  21,88 1 0 1
El Paso County  30,15 1 0 1
Ellis County  13,6 0 0 0
Erath County  16,02 0 0 0
Falls County  22,57 0 0 0
Fannin County  15,53 0 1 0
Fayette County  12,47 0 0 0
Fisher County  14,41 0 1 0
Floyd County  18,39 0 1 1
Foard County  15,47 0 1 0
Fort Bend County  11,91 0 0 0
Franklin County  16,55 0 1 0
Freestone County  13,12 0 0 0
Frio County  24,91 1 0 1
Gaines County  18,77 0 1 1
Galveston County  13,83 0 0 0
Garza County  18,04 0 1 1
Gillespie County  10,91 0 0 0
Glasscock County  8,61 0 0 0
Goliad County  16,05 0 0 1
Gonzales County  18,8 0 0 1
Gray County  13,51 0 0 0
Grayson County  13,12 0 0 0
Gregg County  16,48 0 1 0
Grimes County  16,4 0 0 0
Guadalupe County  11,95 0 0 1
Hale County  16,36 0 1 1
Hall County  23,8 0 1 0
Hamilton County  13,95 0 0 0
Hansford County  12,91 0 0 1

xxxi
BASE DE DATOS Nº20
Hardeman County  14,48 0 1 0
Hardin County  11,84 0 1 0
Harris County  18,62 0 0 1
Harrison County  16,35 0 1 0
Hartley County  7,28 0 0 0
Haskell County  17,66 0 1 0
Hays County  18,7 0 0 0
Hemphill County  8,71 0 0 0
Henderson County  16,41 0 1 0
Hidalgo County  41,91 1 0 1
Hill County  17,99 0 0 0
Hockley County  16,21 0 1 1
Hood County  12,57 0 0 0
Hopkins County  15,12 0 1 0
Houston County  20,39 0 1 0
Howard County  21,2 0 1 1
Hudspeth County  31,55 1 0 1
Hunt County  17,16 0 1 0
Hutchinson County  12,22 0 0 0
Irion County  7,96 0 0 0
Jack County  11,46 0 0 0
Jackson County  13,96 0 0 0
Jasper County  19,57 0 1 0
Jeff Davis County  13 1 0 1
Jefferson County  15,33 0 1 0
Jim Hogg County  21,23 1 0 1
Jim Wells County  22,76 1 0 1
Johnson County  13,04 0 0 0
Jones County  14,02 0 1 0
Karnes County  19,59 0 0 1
Kaufman County  14,58 0 0 0
Kendall County  11,11 0 0 0
Kenedy County  14,98 1 0 1
Kent County  7,33 0 1 0
Kerr County  17,19 0 0 0
Kimble County  17,57 0 0 0
King County  11,52 0 1 0
Kinney County  20,72 1 0 1
Kleberg County  22,46 1 0 1
Knox County  16,34 0 1 0
La Salle County  26,41 1 0 1
Lamar County  16,05 0 1 0
Lamb County  17,91 0 1 1
Lampasas County  15,69 0 0 0
Lavaca County  12,62 0 0 0
Lee County  12,31 0 0 0
Leon County  16,42 0 0 0
Liberty County  14,31 0 1 0
Limestone County  19,84 0 0 0
Lipscomb County  13,9 0 0 0
Live Oak County  14,24 1 0 1
Llano County  13,22 0 0 0
Loving County  16,42 0 0 0
Lubbock County  17,98 0 1 0
Lynn County  17,88 0 1 1
Madison County  17,28 0 0 0
Marion County  24,21 0 1 0
Martin County  15,63 0 1 1
Mason County  14,98 0 0 0
Matagorda County  21,57 0 0 1
Maverick County  32,49 1 0 1
McCulloch County  21,39 0 0 0
McLennan County  19,57 0 0 0

xxxii
Bases de datos

BASE DE DATOS Nº20
McMullen County  14,22 1 0 1
Medina County  15,81 1 0 1
Menard County  19,03 0 0 1
Midland County  15,42 0 0 0
Milam County  17,38 0 0 0
Mills County  15,98 0 0 0
Mitchell County  16,53 0 1 1
Montague County  15,02 0 0 0
Montgomery County  13,69 0 0 0
Moore County  12,38 0 0 1
Morris County  17,28 0 1 0
Motley County  14,45 0 1 0
Nacogdoches County  20,65 0 1 0
Navarro County  19,55 0 0 0
Newton County  17,87 0 1 0
Nolan County  19,47 0 1 0
Nueces County  19,24 1 0 1
Ochiltree County  13,35 0 0 1
Oldham County  19,91 0 0 0
Orange County  12,91 0 1 0
Palo Pinto County  15,77 0 0 0
Panola County  13,59 0 1 0
Parker County  10,17 0 0 0
Parmer County  14,15 0 1 1
Pecos County  17,94 1 0 1
Polk County  18,2 0 1 0
Potter County  25,15 0 0 0
Presidio County  24,92 1 0 1
Rains County  18,95 0 1 0
Randall County  9,62 0 0 0
Reagan County  8,66 0 0 1
Real County  19,3 1 0 0
Red River County  16,92 0 1 0
Reeves County  27,85 1 0 1
Refugio County  14,72 0 0 1
Roberts County  5,75 0 0 0
Robertson County  19,14 0 0 0
Rockwall County  8,45 0 1 0
Runnels County  16,89 0 0 0
Rusk County  12,62 0 1 0
Sabine County  15,39 0 1 0
San Augustine County  20,22 0 1 0
San Jacinto County  19,03 0 1 0
San Patricio County  17,55 1 0 1
San Saba County  17,36 0 0 0
Schleicher County  13,8 0 0 1
Scurry County  14,86 0 1 0
Shackelford County  11,63 0 1 0
Shelby County  19,47 0 1 0
Sherman County  12,62 0 0 0
Smith County  15,87 0 1 0
Somervell County  10,25 0 0 0
Starr County  36,81 1 0 1
Stephens County  16,74 0 1 0
Sterling County  11,2 0 0 1
Stonewall County  14,06 0 1 0
Sutton County  14,72 0 0 1
Swisher County  15,6 0 1 1
Tarrant County  14,21 0 0 0
Taylor County  15,47 0 1 0
Terrell County  17,3 1 0 1
Terry County  20,23 0 1 1
Throckmorton County  12,76 0 1 0

xxxiii
BASE DE DATOS Nº20
Titus County  14,93 0 1 0
Tom Green County  15,56 0 0 1
Travis County  17,1 0 0 0
Trinity County  18,19 0 1 0
Tyler County  16,89 0 1 0
Upshur County  16,62 0 1 0
Upton County  13,48 0 0 1
Uvalde County  23,94 1 0 1
Val Verde County  26,37 1 0 1
Van Zandt County  15,15 0 1 0
Victoria County  16,27 0 0 1
Walker County  17,99 0 0 0
Waller County  20,02 0 0 0
Ward County  14,11 0 0 1
Washington County  14,21 0 0 0
Webb County  36,08 1 0 1
Wharton County  15,28 0 0 1
Wheeler County  10,9 0 0 0
Wichita County  13,83 0 1 0
Wilbarger County  13,82 0 1 0
Willacy County  38,51 1 0 1
Williamson County  8,77 0 0 0
Wilson County  13,05 0 0 1
Winkler County  14,04 0 0 1
Wise County  11,2 0 0 0
Wood County  12,99 0 1 0
Yoakum County  17,17 0 1 1
Young County  16,29 0 1 0
Zapata County  37,19 1 0 1
Zavala County  39,71 1 0 1

BASE DE DATOS Nº21

DISTRITO Y X

Antrim 0 34,382
Ards 1 12,191
Armagh 0 47,297
Ballymena 1 19,081
Ballymoney 0 31,405
Banbridge 0 29,552
Belfast 1 41,977
Carrickfergus 0 7,645
Castlereagh 0 10,197
Coleraine 1 23,810
Cookstown 1 55,305
Craigavon 0 43,333
Derry 1 72,642
Down 1 60,345
Dungannon 1 57,930
Fermanagh 1 56,667
Larne 1 23,810
Limavady 1 55,068
Lisburn 0 28,643
Magherafelt 1 61,433
Moyle 1 54,730
Newry & Mourne  1 76,988
Newtownabbey 0 14,054
North Down 0 9,736
Omagh 1 66,812
Strabane 1 63,712

xxxiv
Bases de datos

BASE DE DATOS Nº22

PAÍS Y X X

Australia  243,33 1 39300


Austria  260,00 1 39600
Bahrain  240,00 1 37200
Belarus  133,33 0 12000
Belgium  243,33 1 38300
Canada  253,33 1 40200
Czech Republic  213,33 0 26800
Estonia  170,00 0 21900
Finland  256,67 1 38400
France  220,00 0 32700
Germany  240,00 1 34800
Greece  210,00 0 32800
Hungary  190,00 0 20500
Iceland  260,00 1 42600
Ireland  253,33 1 47800
Israel  223,33 1 28900
Italy  230,00 1 31000
Japan  206,67 0 35300
Latvia  156,67 0 18500
Lithuania  156,67 0 18400
Malta  250,00 1 24200
New Zealand  246,67 1 28500
Portugal  203,33 0 22000
Russia  143,33 0 15800
Slovenia  220,00 0 30800
Spain  233,33 1 34100
Sweden  256,67 1 39600
Switzerland  273,33 1 40900
United Kingdom  236,67 1 37400
United States  246,67 1 48000

xxxv

También podría gustarte