Análisis de Regresión para Sociólogos

Análisis de regresión para
sociólogos
con aplicaciones en R
Registro de propiedad intelectual Nº 192374, CHILE.
Christian Castro Navarro
Sociólogo U. de Chile
Santiago, 11 de Junio del 2010
christiancastro@vtr.net
Prefacio.
El análisis de regresión es una herramienta estadística tradicionalmente utilizada por los economistas. Sin
embargo, la utilidad de esta técnica trasciende disciplinas y resulta clave para el sociólogoinvestigador al
ayudarlo a predecir dentro de cierto rango de probabilidad la ocurrencia de alguna situación social o bien,
determinar la influencia que múltiples variables ejercen sobre otra. La utilidad del análisis de regresión en
sociología es amplia, siendo aplicable al estudio de los mercados, del comportamiento desviado, la ciencia
política, la demografía, la epidemiología y la pobreza, entre otros (gran parte de los ejemplos se han hecho sobre
estos temas).
Siendo esto así, este texto intenta ser una referencia para estudiantes y profesionales de las ciencias
sociales que en sus investigaciones necesiten aplicar un análisis de regresión a la multiplicidad de problemas que
el complejo mundo social nos ofrece.
El presente trabajo se divide en cuatro secciones. La primera aborda el análisis de regresión simple,
explicándolo paso a paso junto con los diferentes test asociados a él. La segunda sección generaliza este análisis
al modelo de regresión múltiple. La tercera sección está dedicada al estudio de los problemas que con más
frecuencia se presentan en el análisis de regresión (autocorrelación, heterocedasticidad y multicolinealidad) y la
final, desarrolla 3 aplicaciones (formas funcionales, variables dummy y modelos de regresión con respuesta
cualitativa).
El único requisito para comprender a cabalidad este texto es el conocimiento de las matemáticas y
estadística elemental entregado en la enseñanza media (herramientas de cálculo sólo han sido utilizadas al
derivar las ecuaciones normales y al describir la distribución acumulativa normal como la integral de la función
gaussiana).
Hemos utilizado para el tratamiento computacional de datos el paquete estadístico R (de libre
distribución en la página http://www.rproject.org). Se ha elegido porque es tanto un paquete estadístico como
un lenguaje de programación, con lo que su versatilidad es amplia, su capacidad para generar gráficas de
calidad es enorme y es gratuito. En negrita de color azul se han señalado todas las instrucciones con R así como
también los ejemplos.
Christian Castro Navarro
Santiago, 11 de Junio del 2010
A G.N.S., G.C.T. y G.C.N.
Índice
ÍNDICE Pp
1 EL ANÁLISIS DE REGRESIÓN SIMPLE (ARS) 1
1.1 INTRODUCCIÓN 1
1.1.1 Las presunciones del modelo de regresión. 1
1.2 PRIMERAS CONSIDERACIONES 2
Ejemplo Nº1: Esperanza de vida y su relación con el PIB PPA para el año 2005 en 174 países. 2
1.2.1 Primera interpretación de resultados. 3
1.2.2 Linealización de variables. 4
1.3 ESTIMACIÓN DE LOS PARÁMETROS POR EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MCO)
PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES 7
Ejemplo Nº2: Robos por cada 1000 habitantes y % de población viviendo bajo la pobreza en condados
con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. 7
1.3.1 Graficando los residuos estandarizados. 9
1.3.2 La varianza residual o cuadrado medio del error (CME): S2 9
1.3.3 Algunas propiedades de la regresión obtenida por MCO. 10
1.4 TEST DE SIGNIFICACIÓN PARA LOS PARÁMETROS ESTIMADOS 10
1.4.1 Varianza de los estimadores por MCO de los parámetros estimados b0 y de b1 10
Ejemplo Nº3: Suicidio y desempleo en Japón (19532004). 12
1.4.2 Test de significación para los parámetros estimados. 13
1.4.3 Demostración de que los parámetros estimados por MCO son estimadores no sesgados de
los parámetros reales. 14
1.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE 14
1.5.1 Intervalos de confianza para los parámetros estimados. 14
Ejemplo Nº4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporción de niños
viviendo en familias lideradas por un solo padre (2004). 15
1.5.2 Estimación del intervalo de confianza para los valores promedios de la variable respuesta. 16
1.5.3 Estimación del intervalo de predicción de los valores particulares de la variable respuesta. 18
1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIÓN 19
1.6.1 El coeficiente de determinación: R 2 19
Ejemplo Nº5: Nivel de pobreza y años de escolaridad para las comunas del Gran Santiago (2006). 20
1.6.2 El coeficiente de correlación r. 21
1.6.3 Uso del análisis de varianza. 21
1.6.4 La estadística F. 22
1.7 PROPIEDADES DE LOS PARÁMETROS ESTIMADOS BAJO EL MÉTODO DE MÍNIMOS CUADRADOS
ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia. 24
1.7.1 Sesgo. 24
1.7.2 Eficiencia. 24
1.7.3 Consistencia. 25
1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE 25
2 EL ANÁLISIS DE REGRESIÓN MÚLTIPLE (ARM) 27
2.1 INTRODUCCIÓN 27
2.1.1 Obtención de los estimadores por MCO de los parámetros con dos variables
independientes o explicativas. 28
2.1.2 Desarrollo de técnicas de regresión para el ARM utilizando el álgebra de matrices. 29
2.1.3 Ejemplo y trabajo con matrices en R. 30
Ejemplo Nº6: Regresión lineal de los años de escolaridad sobre el % de pobreza, el resultado del SIMCE
en matemáticas para los segundos medios y el % de desocupación para las comunas de
Santiago el año 2006. 30
2.2 INTERVALOS DE CONFIANZA 31
2
2.2.1 La varianza residual: S 31
2.2.2 La varianza de los parámetros estimados. 32
2.2.3 Los valores t de los parámetros estimados. 32
2.2.4 Construcción de los intervalos de confianza para los parámetros estimados. 33
2.3 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE 33
2.3.1 R 2 ajustado o R 2 34
2.4 PREDICCIÓN 35
2.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de predicción
toman los valores específicos [1, X 1i , X 2i , ∙∙∙ , X ki ] 35
2.4.1.1 Cálculo de los intervalos de confianza usando el álgebra de matrices con R. 35
Ejemplo Nº7: El índice de desarrollo humano. 35
2.4.2 Intervalo de predicción para la respuesta particular cuando las k variables de predicción
toman los valores específicos [1, X 1i , X 2i ,∙ ∙∙ , X ki ] 36
2.4.2.1 Cálculo de los intervalos de predicción usando el álgebra de matrices con R. 37
i
2.5 EL TEST DE SIGNIFICACIÓN GENERAL DE LA REGRESIÓN: LA ESTADÍSTICA F 38
2.5.1 La estadística F. 38
Ejemplo Nº8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU. 38
2.5.2 Tabla ANOVA para el modelo lineal general. 40
2.5.3 Cálculo de la tabla ANOVA utilizando el álgebra de matrices en R. 40
2.6 LOS COEFICIENTES DE CORRELACIÓN PARCIAL (CCP) 41
2.7 ANÁLISIS DE LOS RESIDUOS 42
3.1 AUTOCORRELACIÓN 44

3.1.1 ¿QUÉ ES LA AUTOCORRELACIÓN? 44
3.1.1.1 Autocorrelación en datos de sección transversal. 45
3.1.1.2 Autocorrelación en series de tiempo. 45
3.1.1.3 Algunos patrones de autocorrelación. 45
3.1.2 ¿POR QUÉ OCURRE LA AUTOCORRELACIÓN? 46
3.1.3 ¿CÓMO SE IDENTIFICA UNA AUTOCORRELACIÓN? 47
3.1.3.1 La estadística d de DurbinWatson. 47
3.1.3.1.1 Los pasos para aplicar la prueba d. 49
3.1.3.2 Método informal (gráfico) para la autocorrelación de primer orden negativa. 49
3.1.3.3 Método informal (gráfico) para la autocorrelación de primer orden positiva. 51
Ejemplo Nº9: Suicidio y desempleo en Japón (19532004). 52
3.1.4 SOLUCIONANDO LA AUTOCORRELACIÓN 54
3.1.4.1 Corrección de la autocorrelación de primer orden positiva. 55
3.2 HETEROCEDASTICIDAD 57
3.2.1 ¿QUÉ ES LA HETEROCEDASTICIDAD? 57
3.2.1.1 Razones por las que puede ocurrir la heterocedasticidad. 57
3.2.2 ¿CÓMO SE IDENTIFICA LA HETEROCEDASTICIDAD? 58
3.2.2.1 Método informal (gráfico). 58
3.2.2.2 Métodos formales. 59
3.2.2.2.1 El test de Park. 59
Ejemplo Nº10 Relación entre la tasa de robos y de robo de vehículos cada 100.000 habitantes en EE.UU
entre 1960 y el 2007. 59
3.2.2.2.2 El test de GoldfeldQuandt. 60
Ejemplo Nº11: Tasa de crímenes violentos versus crímenes contra la propiedad para los departamentos
de policía de California durante el año 2007. 61
3.2.2.2.3 El test de KoenkerBassett. 63
Ejemplo Nº12: Obesos versus actividad física. 63
3.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD 64
Ejemplo Nº13: Solución de la heterocedasticidad del ejemplo 10. 65
3.3 MULTICOLINEALIDAD 66
3.3.1 ¿QUÉ ES LA MULTICOLINEALIDAD? 66
3.3.1.1 ¿Por qué se produce? 67
3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD. 67
3.3.3 ¿CÓMO SE IDENTIFICA LA MULTICOLINEALIDAD? 68
3.3.3.1 El factor de inflación de la varianza. 68
Ejemplo Nº14: Índice de marginación, población indígena y % de analfabetismo en los municipios del
Estado de Chiapas, México. 69
Ejemplo Nº15: Función CobbDouglas de la economía chilena (19862000). 71
Ejemplo Nº16: Crímenes contra la propiedad y crímenes violentos en el Estado de Nevada, EE.UU. (19601980). 72
3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD 74
4.1 FORMAS FUNCIONALES 76
4.1.1 INTRODUCCIÓN 76
4.1.2 FORMA DOBLELOG 76
4.1.2.1 La función CobbDouglas. 78
4.1.2.2 La definición de la elasticidad. 78
Ejemplo Nº17: Función CobbDouglas de la economía chilena (19862000). 79
4.1.3 FORMA SEMILOG 80
Ejemplo Nº18: La explosión demográfica en EE.UU. entre 1790 y 1960. 82
4.1.4 FORMA POLINOMIAL 83
Ejemplo Nº19: Diagnosticados con VIH en Norteamérica entre 1987 y el 2000. 85
Ejemplo Nº20: Evolución de los detenidos por drogas por la DEA en los EE.UU (19942004). 86
4.1.5 FORMA RECÍPROCA 87
Ejemplo Nº21: Tasa de mortalidad infantil y el PIB per cápita ajustado a paridad de poder adquisitivo
para 42 países. 89
ii
Índice
4.2 VARIABLES DUMMY 91
4.2.2 MODELOS SÓLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA). 91
4.2.2.1 Modelos con solo una variable predictora cualitativa. 91
Ejemplo Nº22: % de población latina y su ubicación geográfica en el Estado de Texas, EE.UU. 91
4.2.2.2 Modelos con dos variables predictoras cualitativas. 93
Ejemplo Nº23: % de pobreza, ubicación geográfica y densidad de población latina en el Estado de Texas. 93
4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA) 94
Ejemplo Nº24: % de pobreza, ubicación geográfica y % de población latina en el Estado de Texas. 94
4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL 95
Ejemplo Nº25: Los efectos diferenciados para África y el resto del mundo de la correlación entre
la esperanza de vida y el PIB. 96
4.2.5 ALGUNAS PRECAUCIONES EN EL USO DE VARIABLES DUMMY 98

4.3 MODELOS DE ELECCIÓN BINARIOS 99
4.3.2 EL MODELO LOGIT 99
Ejemplo Nº26: Pobreza y religión en Irlanda del Norte. 100
4.3.2.1 Interpretación de los coeficientes. 101
4.3.2.2 Intervalos de confianza para los coeficientes estimados. 101
4.3.2.3 Significación estadística de los coeficientes. 101
4.3.2.4 Contraste de hipótesis para los coeficientes. 102
4.3.2.4.1 La función de verosimilitud. 102
4.3.2.4.2 Estadístico de la Razón de Verosimilitud o chi2. 102
4.3.2.4.3 Bondad del ajuste. 103
4.3.2.5 Características del modelo Logit. 103
4.3.2.6 Algunas observaciones para el modelo Logit. 103
4.3.3 EL MODELO PROBIT 104
Ejemplo 27: Satisfacción con la vida y PIB PPA per cápita para 30 países. 104
4.3.3.1 Interpretación de los coeficientes. 105
4.3.3.2 Intervalos de confianza para los parámetros estimados. 106
4.3.3.3 Contraste de hipótesis del modelo. 106
4.3.4 Modelos logit y probit. ¿Cuál es preferible? 107
5 BIBLIOGRAFÍA 108
6 BASE DE DATOS i
iii
Análisis de regresión simple
EL ANÁLISIS DE REGRESIÓN SIMPLE (ARS)

1.1 INTRODUCCIÓN
El Análisis de Regresión Simple es el estudio de la influencia cuantitativa que sobre una variable
dependiente (regresando o respuesta) denominada Y1, ejerce otra independiente X (regresor o estímulo).
De lo que se trata es extraer de grandes cantidades de datos las características esenciales de una
relación que no es evidente, ajustando a ellos una ecuación empírica que sea razonablemente precisa para
entre otras cosas, poder predecir el comportamiento de Y según varíe el de X.
Suponemos esta relación lineal (asume la forma de la ecuación clásica de una línea recta) a la cual le
adjuntamos un error asociado.
Como no se espera que estas variables hayan sido observadas bajo condiciones completamente
controladas, para el análisis de regresión existen una multiplicidad de tests que prueban la confiabilidad de los
resultados obtenidos. En esta sección y en la siguiente, dedicada al Análisis de Regresión Múltiple, los
estudiaremos uno a uno.
La ecuación de regresión simple se define de la siguiente manera: Y i = b0 b 1 X i i (1)
GRÁFICA Nº1
Ésta es la ecuación real a la cual sin embargo sólo nos
podemos aproximar aplicando una metodología. Ésta son los
Mínimos Cuadrados Ordinarios (MCO), con los cuales podemos
hacer una estimación de los parámetros o coeficientes reales
b y b . Estos parámetros estimados se denominan b
0 1 0
y b1 .
La ecuación de regresión estimada resulta entonces:
Y = b b X e (2)
i 0 1 i i
donde e i se denomina residuo. Más adelante lo estudiaremos
en profundidad.
El método de MCO es una técnica que nos permite
encontrar las estimaciones de los parámetros en la ecuación de
regresión, minimizando la suma de los cuadrados2 de las
diferencias entre los valores observados de la variable respuesta
Y i y aquellos proporcionados por la ecuación de predicción
Y , esto es, minimizando la sumatoria de los cuadrados de los
i
residuos. Lo que se busca es ajustar la mejor línea recta a la

muestra de observaciones X e Y. Involucra minimizar la suma
vertical3 de los cuadrados de las desviaciones de los puntos hacia la línea de regresión4.
1.1.1 Las presunciones del modelo de regresión.
El modelo de regresión lineal clásico (MRLC) necesita de 10 presunciones básicas:
Supuesto 1: El modelo de regresión es lineal en los parámetros (los bi de la ecuación de regresión), esto
es, ningún parámetro en el modelo aparece como un exponente ni es multiplicado o dividido por cualquier otro
parámetro.
Supuesto 2: Se asume que X no es aleatorio.
Supuesto 3: El error i correspondiente a cualquier valor X i , posee media condicional cero. De esta
manera, Y i = b0 b 1 X i nos da el valor promedio de Y.
Supuesto 4: Existe homocedasticidad, esto es, dado un valor de X i , la varianza condicional de i es
1 El estudio de la regresión sobre una variable dependiente cualitativa lo haremos en la sección 4, capítulo 3: 'Modelos de elección binarios'.
2 Consideramos los cuadrados en el método de MCO, pues de lo contrario las desviaciones de igual tamaño pero opuestas en signo se anularían.
Además, con esto a las grandes desviaciones les entregamos un mayor peso que a las pequeñas.
3 Se consideran las desviaciones verticales porque intentamos explicar o predecir los movimientos en la variable dependiente Y, los cuales se
miden a lo largo del eje vertical.
4 Con la instrucción segments graficamos en R las líneas de los puntos a la recta de regresión estimada:
>a1<lm(a$V2~ a$V1)
>segments(a$V1, fitted(a1), a$V1, a$V2, col="red")
1
la misma para todas las observaciones. Las poblaciones Y i correspondientes a los diversos valores X i tienen
2
la misma varianza: Var  i =  con lo que los coeficientes de la regresión son eficientes 5 y los test de hipótesis
estadísticas sobre ellos no sesgados6.
Los supuestos 3 y 4 nos indican que el error i se distribuye normalmente: N 0 ; 2 . Esto implica
que también Y i y los parámetros de la regresión se distribuyen normalmente, lo que nos permite hacer pruebas
de significación estadística.
Supuesto 5: No existe autocorrelación entre los errores. Esto es, dado dos valores X cualquiera X i y X j
, la covarianza7 entre i y  j es cero: Ei j = 0 ∀ i≠ j
Supuesto 6: i y X i no están correlacionados. Así suponemos que cada Y se compone de un valor
real y otro aleatorio no observable.
Supuesto 7: El número de observaciones n debe ser mayor que el número de parámetros a ser estimados.
Alternativamente, el número de observaciones n debe ser mayor que el número de variables independientes.
Supuesto 8: Debe existir una suficiente variabilidad en los valores tomados por los regresores.
Supuesto 9: El modelo de regresión está correctamente especificado, esto es, posee una forma funcional
correcta. Así, cualquier variación en Y que no pueda explicarse por medio de la ecuación de regresión es
exclusiva responsabilidad de un error aleatorio.
Supuesto 10: No existe ninguna relación lineal casi perfecta entre ningún regresor con otro. Caso contrario
estamos en presencia de multicolinealidad, que implica una casi perfecta relación lineal entre las variables
independientes. Esto es un problema del análisis de regresión con varias variables independientes que veremos
en detalle en la sección 3, capítulo 4: 'Problemas en el análisis de regresión: Multicolinealidad'.
1.2 PRIMERAS CONSIDERACIONES
Supongamos dos conjuntos: {Y1, Y 2 , ..., Yn } y {X1, X 2 , ..., Xn } que representan n mediciones de una
variable respuesta Yi  que se han observado bajo un grupo de n mediciones de una variable de predicción
 Xi  . El ARS se inicia con la conjetura de que existe linealidad en la relación entre Y i y X i , por lo que lo
primero que haremos en el ARS, ya que nos es posible8, será graficar las Y i versus las X i para verificar este
supuesto inicial y fundamental9.
Ejemplo Nº1: Esperanza de vida y su relación con el PIB PPA para el año 2005 en 174 países.
Existe una relación entre el Producto Interno Bruto (PIB) per cápita de un país y la esperanza de vida para
el mismo en periodos de tiempo próximos, pues a mayor PIB per cápita, y suponiendo una distribución
razonablemente justa del ingreso, tenemos razones para creer que existe una mejor calidad y cobertura de la
atención médica, que las condiciones de salubridad son mayores y que las necesidades de alimentación están
bien cubiertas para una amplia mayoría de la población.
La base de datos Nº1 nos entrega los valores de la esperanza de vida en años al momento de nacer
 Yi  y el PIB (corregido a paridad de poder adquisitivo) per cápita en US$  Xi  al 2005 para 174 países.
Leamos los datos en R (que hemos almacenado bajo un editor de textos con el nombre a.txt en C:) y
grafiquemos la esperanza de vida como variable dependiente y el PIB PPA per cápita como variable
independiente:
Los parámetros a$V1 y a$V2 representan las variables de las columnas Y y X respectivamente, col lo
usamos para asignar a los puntos color, xlab e ylab los utilizamos para asignar nombres a las variables del gráfico
y main lo utilizamos para el título del mismo.
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>jpeg(file='a.jpeg', width=500, height=500)
5 Sus varianzas son mínimas en torno al valor verdadero bi .
6 El promedio de los b i nos da el valor de bi .
7 La covarianza refleja la relación lineal que existe entre dos variables y se define como: Cov  XY=

∑ x i y i = ∑ Xi − X  Y i − Y 
n−1 n−1
8 Si bien se puede en el análisis de regresión múltiple tener una representación gráfica de dos variables independientes en un espacio
tridimensional, esto ya resulta imposible para tres o más.
9 Es importante que el lector esté consciente de que no es posible establecer una relación causaefecto entre las Y y las X.
2
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>dev.off()10
GRÁFICA Nº2
BASE DE DATOS Nº1
PAÍS Yi Xi
Albania 76,2 5323,118

Algeria 71,7 7175,777
Angola 41,7 2828,850
Antigua y Barbuda 73,9 11604,383
Argentina 74,8 13153,390
∙ ∙ ∙
∙ ∙ ∙
∙ ∙ ∙
Venezuela 73,2 5801,392
Vietnam 73,7 2782,199
Yemen 61,5 745,176
Zambia 40,5 911,352
Zimbabwe 40,9 2412,635
FUENTES:
PIB PPA per cápita 2005:
http://www.imf.org/external/data.htm
Espectativa de vida al nacer 2005:
http://hdrstats.undp.org/es/indicators/2.html

GRÁFICA Nª3
Observemos que tenemos dos datos aberrantes:
Guinea Ecuatorial y Luxemburgo
Excluyámoslos, grafiquemos nuevamente, tracemos la
línea de regresión asociada a las variables y apliquemos nuestro
primer análisis de regresión a estos datos (con la instrucción lwd
asignamos el grosor a una línea):
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<lm(a$V1~ a$V2)
>summary(a1)
1.2.1 Primera interpretación de resultados.
1. Los valores que nos entrega R como coeficientes

estimados (Coefficients Estimate) nos dan la intercepción de la
recta de regresión con el eje Y (o lo que es lo mismo, cuando X=
0) que R denomina (Intercept) y el valor de la pendiente de la
recta, denominado por R en este caso a$V2.
En nuestro ejemplo, el coeficiente estimado de
intercepción con el eje Y es 60,15 y el coeficiente estimado de
la pendiente de la recta es 0,0007062. Este último valor es clave, pues nos indica la razón de cambio en la
variable dependiente por cada cambio en el valor de una unidad de la independiente. Así por cada cambio en
US$ 1 del PIB PPA per cápita, los países del mundo aumentan 0,0007062 años su espectativa de vida al nacer
(0,2578 dias o 6 horas). Para verlo de manera mas clara, por cada aumento de US$ 10000, la esperanza de vida
aumenta 7,062 años.
60,15 y 0,0007062 son los parámetros estimados b0 y b1 respectivamente.
2. Los valores t (Coefficients t value) son importantes porque nos permiten probar la significación
estadística de los coeficientes estimados. Este valor debe compararse con el valor límite de la estadística t
asociada a los grados de libertad11 y el nivel de significación elegido.
10 De ahora en adelante omitiremos las últimas 3 líneas, pues sólo nos sirven para guardar nuestros gráficos en C:.
11 nk donde n es el número de casos y k el número de parámetros a estimar.
3
Para nuestro ejemplo, a un 95% de significación y
SALIDA Nº1
con 172 grados de libertad (Hacemos un test de dos
colas, con lo que 1−/2 = 1 – 0,05/2 = 0,975) Call:
calculando con R obtenemos: lm(formula = a$V1 ~ a$V2)
>qt(0.975,172) Residuals:
[1] 1.973852 Min 1Q Median 3Q Max
22.904 3.692 1.841 5.999 12.295
Vemos que ambos valores de t (69,51 y 11,9),
superan este valor, siendo por tanto ambos parámetros Coefficients:
Estimate Std. Error t value Pr(>|t|)
estimados significativos al 95%
(Intercept) 6.015e+01 8.653e01 69.51 <2e16 ***
3. El valor R2 (Multiple Rsquared) mide el grado a$V2 7.062e04 5.933e05 11.90 <2e16 ***
de asociación lineal entre variables. Si todos los puntos de
yacieran sobre la línea de regresión estimada este valor Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
valdría 1. Para nuestro ejemplo: R2 = 0,4546
De ahora en adelante asociaremos los tres Residual standard error: 8.072 on 170 degrees of freedom
Multiple Rsquared: 0.4546, Adjusted Rsquared: 0.4514
primeros resultados de la siguiente manera:
Fstatistic: 141.7 on 1 and 170 DF, pvalue: < 2.2e16

Y= 60,150,0007062 X R2 = 0,4546
 69,51  11,9
4. La estadística F es un método para probar la hipótesis nula : H0 : b1= 0 , esto es, que no existe una

relación lineal entre X e Y, contra la alternativa H1 : b 1≠ 0 . Un valor pequeño de F implicará un ajuste pobre y
sugerirá la ausencia de una asociación lineal entre X e Y. Un valor alto de F implicará que una porción
considerable de la variación en las observaciones es atribuíble a un efecto lineal de X sobre Y. De todas formas,
debe compararse nuestro valor F con el valor límite tabulado al nivel de significación elegido y los grados de
libertad determinados por el modelo, en este caso 1 y n2 (mas adelante explicaremos el porqué estos valores).
En nuestro ejemplo: Fstatistic: 141,7. Calculemos F con R:
>qf(0.95,1,172)
[1] 3.896092 3,896 141,7 con lo que rechazamos la hipótesis nula.
5. Los valores Pr(>|t|) nos indican el nivel de significación que posee cada parámetro estimado. Por

ejemplo para el coeficiente 0,0007062 su Pr(>|t|) asociado es <2e16, lo que significa que este parámetro es
significativo hasta un (12e16)∙100%. Prácticamente un 100%.
Observemos que el modelo a pesar de poseer coeficientes estimados extremadamente significativos
estadísticamente, posee un R2 demasiado bajo debido a que los puntos no presentan un claro patrón lineal. A
continuación vamos a solucionar este problema.
1.2.2 Linealización de variables.
Podemos solucionar el problema de la no linealidad de los datos de este ejemplo, transformándolos
b1
según alguna forma funcional del tipo recíproco Y= b 0  o bien del tipo semilog: Y= b 0b1 ln X ,
X
pues el patrón de los puntos así nos lo sugiere.
En el primer capítulo de la sección tercera: 'Formas funcionales' trataremos con detalle estas
transformaciones. Por el momento, sólo realicemos regresiones lineales según las dos transformaciones expuestas
e interpretémoslas. Decidiremos cuál de las dos resulta la mejor forma funcional.
b1
a) Y= b 0  Forma funcional recíproca.
X
Grafiquemos los puntos de la tabla Nº1 y la recta de regresión a ellos asociada:
>plot(a$V2, a$V1, col=3, xlab='1/PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre 1/PIB PPA per cápita", "y la esperanza de
4
GRÁFICA Nº4
Observemos que TABLA Nº1

ahora las variables
PAÍS Yi 1 / Xi
lucen mucho más
linealizadas, aunque a Albania 76,2 0,00018786
medida que aumenta Algeria 71,7 0,00013936
la variable Angola 41,7 0,00035350
independiente mayor Antigua y Barbuda 73,9 0,00008617
es la dispersión de la Argentina 74,8 0,00007603
dependiente. Éste es el ∙ ∙ ∙
fenómeno de la ∙ ∙ ∙
∙ ∙ ∙
heterocedasticidad del
Venezuela 73,2 0,00017237
cual ya hemos Vietnam 73,7 0,00035943
hablado. Yemen 61,5 0,00134196
Apliquemos un Zambia 40,5 0,00109727
análisis de regresión: Zimbabwe 40,9 0,00041448
>a1<lm(a$V1~ a$V2)
>summary(a1)
SALIDA Nº2
Nuestra ecuación de regresión resulta entonces:
 74,74 −23790 Z Call:
Y= i R2 = 0,5703
lm(formula = a$V1 ~ a$V2)
 101,89 −15,02
Residuals:
1 Min 1Q Median 3Q Max
Donde Z i=
Xi 29.249 2.076 1.453 4.588 18.680
Coefficients:
El valor R2 está mas cerca de 1 (0,5703), por lo Estimate Std. Error t value Pr(>|t|)
que concluímos que la forma funcional recíproca (Intercept) 7.474e+01 7.336e01 101.89 <2e16 ***
propone una mejor linealización de las variables que el a$V2 2.379e+04 1.584e+03 15.02 <2e16 ***
caso original, pero continúa siendo regular.
Grafiquemos nuestras variables originales Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(excluyendo los dos datos aberrantes) y la curva que se
Residual standard error: 7.164 on 170 degrees of freedom
 1
obtiene de la expresión: Y= 74,74−23790∙ Multiple Rsquared: 0.5703, Adjusted Rsquared: 0.5678
Xi Fstatistic: 225.6 on 1 and 170 DF, pvalue: < 2.2e16
GRÁFICA Nº5

>x < seq( 0 ,50000,length = 100)
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida',
cex.lab=1,family='NewCenturySchoolbook')
>lines(x, 74.74 23790* 1/x, type='l', col= 'red', lwd=3)

La curva obtenida nos da información precisa del
comportamiento de Y i a medida que varían las X i . Existe
una línea asintótica representada por la recta Y= 74,74  b 0
sobre la cual el valor de la esperanza de vida no es superado.
5
b) Y= b 0b1 ln X Forma funcional semilog. TABLA Nº2
Grafiquemos los puntos de la tabla Nº2 y la recta de regresión a ella PAÍS Yi ln X i

asociada:
Albania 76,2 8,580
>a < read.table('a.txt') Algeria 71,7 8,878
>par(bg = "Ivory 2") Angola 41,7 7,948
>plot(a$V2, a$V1, col=3, xlab='Ln PIB PPA per cápita', ylab='Esperanza de vida', Antigua y Barbuda 73,9 9,359
cex.lab=1,family='NewCenturySchoolbook') Argentina 74,8 9,484
>title(main=paste("Relación entre el Ln PIB PPA per cápita", "y la esperanza de ∙ ∙ ∙
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') ∙ ∙ ∙
>abline(lm(a$V1~a$V2), lwd=3, col='red') ∙ ∙ ∙
Venezuela 73,2 8,666
Y apliquemos un análisis de regresión: Vietnam 73,7 7,931
Yemen 61,5 6,614
>a1<lm(a$V1~ a$V2) Zambia 40,5 6,815
>summary(a1) Zimbabwe 40,9 7,788
GRÁFICA Nº6
SALIDA Nº3
Call:
Residuals:
Min 1Q Median 3Q Max
25.5378 2.2021 0.8045 4.0142 12.0787
Coefficients:
(Intercept) 0.2074 3.8633 0.054 0.957
a$V2 7.7435 0.4416 17.535 <2e16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

GRÁFICA Nº7
R = 0,644 Donde Z i= ln Xi
 2
Y= 0,20747,7435 Z i
 0,054 17,535
Grafiquemos nuestras variables originales (excluyendo

los dos datos aberrantes) y la curva que se obtiene de la
expresión: Y=  0,20747,7435 ∙ ln X i
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida',
>lines(x, 0.2074+7.7435*log(x), type='l', col= 'red', lwd=3)
El valor R2 está más cerca que el ejemplo anterior a 1
(0,644), por lo que concluímos que la forma funcional semilog
es una mejor linealización del modelo original que la recíproca.
6
1.3 ESTIMACIÓN DE LOS PARÁMETROS POR EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MCO)
PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES
Consideremos un modelo de la forma Y i = b0 b 1 X i i donde i= 1,2,... , n y b0 y b1 son los

parámetros reales pero desconocidos.
Y i es una variable aleatoria que es la suma de dos componentes, el término no aleatorio b0 b 1 X i y
la componente aleatoria i .
La sumatoria del cuadrado de la iésima desviación o error i = Y i −b 0b1 X i  es:
∑ 2i = ∑  Y i −b 0−b1 X i 2 (3)
Los estimadores por MCO de b0 y b1 se obtienen derivando parcialmente la ecuación anterior

respecto a b0 y b1 e igualando a cero cada una.
Primera ecuación normal:
2 2
∂ ∑ i ∂ ∑  Y i−b0 −b1 X i 
= = 0 −2 ∑ Yi − b0− b1 X i = 0 ∑ Y i= n b0 b1 ∑ X i (4)
∂ b 0 ∂ b0
Segunda ecuación normal:
∂ ∑ 2i ∂ ∑  Y i−b0 −b1 X i 2
= = 0 −2 ∑ Xi Y i − b0− b1 X i = 0 ∑ Xi Y i= b0 ∑ X i b1 ∑ X 2i (5)
∂ b 1 ∂ b1
Sustituyendo una ecuación normal dentro de la otra obtenemos el valor de los parámetros estimados.
Despejemos b0 de la primera ecuación normal:
∑ Y i = n b 0 b1 ∑ X i  b0 = ∑ i −b 1 ∑ i Esta expresión también puede escribir:

Y X
n n
b0 = Y
 − b1 X
 (6)
Sustituyendo el valor de b0 en la segunda ecuación normal obtenemos:
2
∑ X i Y i = b0 ∑ X i b1 ∑ X i
∑Y ∑X
∑ X i Y i = [ n i −b 1 n i ] ∑ X ib 1∑ X 2i
2 2
∑ Y i ∑ X i − b1 ∑ X i  b 2
 b1 [ ∑ X 2i −
∑ X i  ∑ Yi ∑ X i y así:
∑ Xi Y i= n n 1 ∑Xi
n
]= ∑ X i Y i− n
∑ Yi ∑ X i
∑ X i Y i− n
b1= 2 (7)
2
∑ X i 
∑X − i
n
Ejemplo Nº2: Robos por cada 1000 habitantes y % de población viviendo bajo la pobreza en
condados con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. (excluyendo
los 6 condados más atípicos) (23 casos).
La Teoría de la Economía Alternativa Informal e ilegal (Cooper: 2000), afirma que los trabajos informales
alternativos e ilegales surgen en la medida en que la economía formal no es capaz de otorgar los puestos
laborales formales necesarios para un número importante de personas. Es así que la economía informal
alternativa e ilegal es una forma de obtener ingresos que permiten una subsistencia inalcanzable por otros
medios, esto al menos, en el caso de los ladrones comunes.
La base de datos Nª2 nos entrega información del número de robos cada 1000 habitantes  Y i  y el %
de población pobre  Xi  en condados con una población superior a 50.000 personas en el Estado de Illinois,
EE.UU. en el 2007. (excluyendo los 6 condados más atípicos)
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión
lineal de la tasa de delitos sobre el % de población pobre.
7
BASE DE DATOS Nº2
CONDADO Yi Xi
>plot(a$V2, a$V1, col=3, xlab='% de población pobre', ylab='Tasa de robos',
>title(main=paste("Relación entre el % de población pobre", "y la tasa de Adams County 0,285 11,324
robos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') Boone County 0,150 9,790
>abline(lm(a$V1~a$V2), lwd=3, col='red') DeKalb County 0,428 10,454
DuPage County 0,277 4,725
>a1<lm(a$V1~ a$V2) Kane County 0,538 7,782
>summary(a1) ∙ ∙ ∙
∙ ∙ ∙
FUENTES: ∙ ∙ ∙
Poblaci ón viviendo bajo el nivel de la pobreza al 2007 en el Estado de Illinois: Tazewell County 0,267 7,789
http://www.ers.usda.gov/Data/PovertyRates/Povlistnum.asp?TheState=IL%2CIllinois Vermilion County 1,762 17,839
Tasa de robos por cada 100.000 en el Estado de Illinois al 2007:
Whiteside County 0,237 10,982
http://www.isp.state.il.us/crime/cii2007.cfm
Estimaci ón de la poblaci ón de los condados de Illinois al 1 de Julio del 2007: Will County 0,504 5,821
http://www.census.gov/popest/counties/COEST200801.html Winnebago County 2,329 13,624
GRÁFICA Nº8
SALIDA Nº4
Call:
Residuals:
0.7010 0.3391 0.1666 0.3231 1.0298
Coefficients:
(Intercept) 0.78355 0.33377 2.348 0.0288 *
a$V2 0.15626 0.03045 5.132 4.39e05 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Fstatistic: 26.34 on 1 and 21 DF, pvalue: 4.391e05
Calculemos los coeficientes con nuestras fórmulas:
TABLA Nº3
∑ Yi ∑ X i
∑ X i Y i− n CONDADO Yi Xi Xi Y i X 2i
b1= 2
∑ X i  Adams County 0,285 11,324 3,222 128,243
∑ X 2i −
n Boone County 0,150 9,790 1,471 95,838
19,135 ∙237,79 DeKalb County 0,428 10,454 4,473 109,296
245,555− DuPage County 0,277 4,725 1,311 22,322
23
b1= Kane County 0,538 7,782 4,187 60,555
237,79 2 ∙ ∙ ∙ ∙ ∙
2763,834−
23 ∙ ∙ ∙ ∙ ∙
245,555−197,831 47,724 ∙ ∙ ∙ ∙ ∙

b1= b1= Tazewell County 0,267 7,789 2,083 60,664
2763,83−2458,438 305,392
Vermilion County 1,762 17,839 31,428 318,213
b1= 0,156 Whiteside County 0,237 10,982 2,605 120,596
Will County 0,504 5,821 2,933 33,880
b0 = 0,832−0,156∙ 10,339 b0 = −0,781 Winnebago County 2,329 13,624 31,727 185,605
b0 = Y
 − b1 X
∑ 19,135 237,790 245,555 2763,834
Y i = 0,832 X i = 10,339
Y vemos que coinciden con los datos
entregados por R.
8
1.3.1 Graficando los residuos estandarizados.
Los residuos e i  son muy importantes debido a que proporcionan abundante información sobre lo que
puede fallar en el modelo de regresión estimado.
Con el siguiente comando graficamos los residuos estandarizados, pero antes debemos descargar la
librería MASS e instalarla12:
>library(MASS)
>a1 < (lm(a$V1~a$V2))
>plot(a$V2,stdres(a1), col=3, xlab='% de población pobre', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos estandarizados", "versus variable
independiente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x < seq( 3, 19, length = 100)
>lines(x, xx, type="l", col= 'red', lwd=3)
GRÁFICA Nº9
El valor residual es la distancia vertical que existe entre
una observación determinada y el punto sobre la recta
estimada de regresión para la misma observación.
Un residuo representa la cantidad en la que un valor
estimado falla para predecir la media de la correspondiente
observación. Por lo tanto, entre mayor sea un residuo, mayor
tendería a ser el efecto de la componente aleatoria en el
modelo.
1.3.2 La varianza residual o cuadrado medio del

2
error (CME): S
Según los supuestos iniciales, la varianza de la variable
2
respuesta Var  Y i =  es igual a la varianza del error, que es
constante para todos los valores de la variable de predicción
X i . El estimador de esta varianza 2 es S 2 y se
denomina varianza residual o cuadrado medio del error. Se
define formalmente como la sumatoria del cuadrado de los
residuos, dividido por la cantidad de datos menos los
parámetros a estimar (los grados de libertad). En el caso del ARS, el denominador es n2 ya que se pierden dos
grados de libertad al tener que estimar los dos parámetros b0 y b1 antes de obtener Y i :
S 2=
∑  Yi − Y i 2 = ∑ e 2i (8) TABLA Nº4
n−2 n−2
CONDADO Yi Xi Y i ei e 2i
(donde S se denomina desviación standard residual)
Calculemos el cuadrado medio del error para el Adams County 0,285 11,324 0,986 0,701 0,492
ejemplo ya visto: Boone County 0,150 9,790 0,746 0,596 0,355
DeKalb County 0,428 10,454 0,850 0,422 0,178
S 2=
∑ e 2i = 5,946 = 0,283 S= 0,532 Que vemos DuPage County 0,277 4,725 0,045 0,323 0,104
n−2 21 Kane County 0,538 7,782 0,432 0,106 0,011
coincide con la salida en R llamada error standard ∙ ∙ ∙ ∙ ∙ ∙
residual. ∙ ∙ ∙ ∙ ∙ ∙
Como Y i estima la media de Y i , Y i − Y i (el ∙ ∙ ∙ ∙ ∙ ∙
Tazewell County 0,267 7,789 0,434 0,166 0,028
residuo) es la desviación de Y i respecto a su propia Vermilion County 1,762 17,839 2,004 0,242 0,059
media. Por lo anterior es que S 2 es una medida absoluta Whiteside County 0,237 10,982 0,932 0,695 0,483
de que tan bien se ajusta la recta estimada de regresión a Will County 0,504 5,821 0,126 0,378 0,143
las medias de la observaciones de la variable respuesta. Winnebago County 2,329 13,624 1,345 0,983 0,967
Mientras más pequeño sea el valor de S 2 , mayor ajuste ∑ e 2i = 5,946
tendrá el modelo.
12 Para instalar paquetes que aún no se tienen en las librerías de R, escribimos >install.packages(), seleccionamos un espejo desde el cual bajar
los paquetes y lo llamamos con >library(packages).
9
S 2 es un estimador no sesgado de 2 mientras la forma del modelo de regresión sea la correcta.
1.3.3 Algunas propiedades de la regresión obtenida por MCO.
1 ∑ e i = 0
pues ∑ e i = ∑  Y i−Y i = ∑  Y i−b 0−b1 Xi = ∑ Yi −n b0− b1 ∑ X i= nY  − b1 X − b1 n X
 −n Y = 0
2 ∑ Y i = ∑ Y i
ya que ∑ Y i = ∑ b0 b1 X i = n b0 b1 ∑ X i y como ya hemos visto que la primera ecuación normal es
∑ Y i = n b0b1 ∑ X i , ∑ Y i = ∑ Y i
3 ∑ X i e i= 0
pues ∑ X i e i= ∑  X i  Y i − Y i = ∑ X i Y i− ∑ X i Y i = ∑ X i Y i −∑ X i b 0 b1 X i 
= ∑ Xi Yi −b0 ∑ X i− b1 ∑  X i 2 Recordemos que la forma de la segunda ecuación normal es:
2
∑ X i Y i = b0 ∑ X ib1 ∑  X i  , por lo que ∑ X i ei = 0
4 ∑ Y i e i= 0
∑ Y i ei = ∑ b0 b1 Xi  e i= b0 ∑ e i b1 ∑ X i ei y ya hemos visto que estas dos últimas expresiones son cero.
Las dos últimas propiedades implican que los residuos no están correlacionados ni con las variables
predictoras ni con la predicha.
TABLA Nº5
Verifiquemos estas propiedades en nuestro
CONDADO Yi Xi Y i ei X i ei Y i e i
ejemplo:
Adams County 0,285 11,324 0,986 0,701 7,944 0,692

Boone County 0,150 9,790 0,746 0,596 5,834 0,445
DeKalb County 0,428 10,454 0,850 0,422 4,414 0,359
DuPage County 0,277 4,725 0,045 0,323 1,525 0,015
Kane County 0,538 7,782 0,432 0,106 0,822 0,046
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
Tazewell County 0,267 7,789 0,434 0,166 1,293 0,072
Vermilion County 1,762 17,839 2,004 0,242 4,319 0,485
Whiteside County 0,237 10,982 0,932 0,695 7,635 0,648
Will County 0,504 5,821 0,126 0,378 2,200 0,048
Winnebago County 2,329 13,624 1,345 0,983 13,399 1,323
∑ 19,135 19,135 0,000 0,001 0,000
1.4 TEST DE SIGNIFICACIÓN PARA LOS PARÁMETROS ESTIMADOS
En el modelo de regresión simple resulta más o menos evidente saber si los parámetros estimados son
coherentes comparando la recta de regresión obtenida con los puntos de las variables originales. Sin embargo,
en el análisis de regresión múltiple que trataremos en la siguiente sección el problema no es tan trivial. En estos
casos no tenemos una representación gráfica con la cual comparar, por lo que debemos establecer un test que
evalúe la significación estadística de los estimadores de la regresión. Veamos esto para el caso del modelo lineal
simple. La pregunta clave es: ¿son las estimaciones de los coeficientes obtenidos estadísticamente relevantes?
Para comenzar debemos obtener la varianza de b0 y de b1
1.4.1 Varianza de los estimadores por MCO de los parámetros estimados b0 y de b1
Definamos: x i= X i− X y yi= Y i−Y

 (9)
entonces:
10
2 ∑ Xi2  2 ∑ X 2i
a) Var b 0= 2 o bien Var b 0= 2 (10)
n ∑  X i −
X n ∑ xi
Donde 2 es la varianza del error en la relación real entre Y i y X i que como hemos visto puede

estimarse con la varianza residual S 2 .
Demostración:
∑ Yi ∑ X i
∑ X i Y i−
b1=
n ∑ Xi −X  Y i−Y 
Hemos obtenido que: 2 , pero lo anterior es equivalente a: 13
2
∑ X i  ∑ Xi −X 2
[∑ X − i ]
n
X
X i − 
Entonces, si definimos: Ci=  b i = ∑ Ci Y i (11)
∑  X i− X 2
(Notemos que en la expresión anterior da lo mismo utilizar Yi − Y  = y i o Y i , pues
∑  Xi −X  Y i− Y = ∑  X i −X  Yi −Y ∑  X i− X = ∑  X i −X  Yi Ya que ∑ X i −X = 0 .
      
Por otro lado b0 = Y
 − b1 X , entonces Var b 0= Var Y − b1 X  (12)
∑ Yi − X C Y ]= Var [  Y i −X C Y ]= Var[  1 − X C  Y ]= 2

Var b 0= Var[
n
∑ i i ∑ n i i ∑ n i i ∑  1n −X Ci  Var Y i 
Puesto que: Var [ ∑ X ∙ Y ]= ∑ X 2 Var Y (13)

14
1 2X  Ci 2 X ∑ Ci
Var b 0=  2 ∑  2 −  2 C2i = 2 ∑ 12 −
X  X2 ∑ C2i 
n n n n
1
Si ∑ Ci= 0 (Recordemos que ∑ X i −X = 0 ) y ∑ C2i = y puesto que: ∑ a= n siendo
∑  X i− X 2
1 1 1 1
a una constante: ∑ = 2 ∑ 1= 2 n=
n
n2 n n
1
Var b 0=  2  
2
X
=  2 
∑  Xi −X 2n X 2 
2
n ∑  X i − X  n ∑  X i−X  2
Ya que: ∑ X i −X 2= ∑  Xi2−2 X i X X 2 = ∑ Xi2−2 X ∑ X i ∑ X 2= ∑ X2i −2n X 2n X 2= ∑ X 2i −n X2
2 2 2 2
Var b 0=  2 

∑ X i −n X n X = 2  ∑ X i 
 2
n ∑  X i− X  2
n ∑ X i − X
13 Hagamos:
∑ Y i ∑ Xi ][  ∑ X i
[∑ Xi Yi −
n
∑  Xi− X 2 ] = [ ∑ X i− X   Yi − Y  ][ ∑ X 2i −
n
]
Desarrollemos la primera expresión para llegar a la segunda:
[ ∑ Xi Y i−∑ Xi    X2 ]
Y ][ ∑  X2i −2 Xi X = ∑ X3i Y i − Y ∑ X3i −2 X∑ X 2i Y i2 X Y ∑ X2i  X2 ∑ Xi Y i − X2 Y ∑ Xi =
∑ X 3i Y i − Y ∑ X 3i − X ∑ X 2i Y i X Y ∑ X 2i − X ∑ X2i Y i X Y ∑ Xi2 X2 ∑ Xi Y i− X2 Y ∑ X i = [ ∑ X 2i − X ∑ X i][ ∑ X i Y i− Y ∑ X i − X ∑ Y i X Y ] =
2 2
∑ X i  ∑ X i 
= 2
[ ∑ Xi − ][ ∑  X i Y i − Y X i− X Y i X Y ]
][ ∑  Xi− X = 2
[ ∑ Xi −
  Y i− Y ]
n n
14 La demostración de esta importante ecuación excede los propósitos de este texto.
11
Como 2 es la varianza del error en la relación real entre X i y Y i que puede estimarse como
S
2
, un estimador de la desviación standard de b0 es: S b0 = S
 ∑ X2i
n ∑ X i− 
X
2
(14)
2 2
b) Var b 1= o bien Var b 1= (15)
∑ x 2i ∑ X i −X 2
Demostración:
2 ∑  X i−X 2 ]= 2
Var b 1= Var ∑ Ci Y i = ∑ C2i Var Y i = 2 ∑ C2i  ∑ C2i = 2
 [ 2
 2 
∑  X i− X ∑  X i −X 2
S
Entonces: S b1 = (16)
 ∑ X i −X 2
es la desviación standard del estimador de mínimos cuadrados de la pendiente.
S 2 ∑ X 2i ∑ e 2i ∑ X 2i
S 2 b0 = 2
=
n ∑ xi n−2 n ∑ x2i
Tenemos así que: (17)
2
S b 1=
S2
=
∑ e 2i
2
∑ xi n−2 ∑ x 2i
Nótese que las varianzas de b0 y b1 son funciones de la variable X.
Calculemos las varianzas de los parámetros estimados para el siguiente ejemplo:
Ejemplo Nº3: Suicidio y desempleo en Japón (19532004). BASE DE DATOS Nº3
Xi AÑO Y
Es conocido que el deterioro de algunos factores económicos como la caída del i
empleo o las recesiones pueden contribuir a un aumento de la tasa de suicidios. 1955 31,27 2,6
Wasserman (1984) mostró que en los Estados Unidos desde 1947 a 1977 los periodos 1956 29,85 2,3
recesivos se asocian a un aumento de tasa de suicidios y que existe una correlación 1957 29,72 1,9
estadística entre los suicidios y la duración promedio del desempleo. Stuckler (2009) halló 1958 30,82 2,2
que por cada 1 por ciento de aumento del desempleo, existe casi un 0,8 por ciento de 1959 26,76 2,3
incremento en las tasas de suicidio en menores de 65 años estudiando 26 países de la ∙ ∙ ∙
∙ ∙ ∙
Unión Europea.
∙ ∙ ∙
Se debe tener en consideración sin embargo, que si bien es probado que el 2000 34,87 4,9
desempleo es un factor en la evolución de la tasa de suicidio también es cierto que entre 2001 33,86 5,2
los cesantes está sobrerepresentada la población de enfermos mentales y drogadictos, 2002 34,80 5,5
dado que ellos tienen mas dificultades para conservar su trabajo. 2003 37,51 5,5
La base de datos Nº3 nos entrega información de la tasa de suicidios de hombres 2004 35,20 4,9
 Yi  y la tasa de desempleo Xi  entre los FUENTES:
Número de suicidios de hombres en Japón (19532003):
años 1953 y el 2003 en Japón. http://www.stat.go.jp/english/data/chouki/02.htm
Para orientarnos, grafiquemos los Población japonesa entre (19532003):
puntos, la recta de regresión a ellos asociada y http://www.stat.go.jp/english/data/chouki/02.htm
% de desempleo en Japón: (19532003) :
ejecutemos una regresión lineal de la tasa de http://lysander.sourceoecd.org/vl=4326714/cl=22/nw=1/rpsv/factbook2009/06/02/01/index.htm
suicidios sobre la tasa de desempleo en Japón.
>plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre la tasa de desempleo", "y la tasa de suicidios en
Japón",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1<lm(a$V1~ a$V2)
>summary(a1)
12
TABLA Nº6
AÑO Yi Xi X i2 x 2i
Calculemos S b0  y S b1 
1955 31,27 2,6 6,76 0,024 De la salida de R tenemos que S 2= 8,398 y como n= 50:
1956 29,85 2,3 5,29 0,021
1957 29,72 1,9 3,61 0,296
S 2 ∑ X 2i 8,398 ∙ 371,04
S  b0 =
2
1958 30,82 2,2 4,84 0,060
2
= = 0,861 S b0 = 0,928
1959 26,76 2,3 5,29 0,021 n ∑ xi 50∙ 72,38
∙ ∙ ∙ ∙ ∙ 2
S 8,398
∙ ∙ ∙ ∙ ∙ S 2 b1 = 2
= = 0,116 S b1 = 0,341
∙ ∙ ∙ ∙ ∙ ∑ xi 72,38
2000 34,87 4,9 24,01 6,032
2001 33,86 5,2 27,04 7,596
2002 34,80 5,5 30,25 9,339
2003 37,51 5,5 30,25 9,339
2004 35,20 4,9 24,01 6,032
 2,444
X=
∑ 371,04 72,38
GRÁFICA Nº10
SALIDA Nº5
Call:
Residuals:
3.9885 1.9864 0.8444 1.3186 7.7696
Coefficients:
(Intercept) 13.7994 0.9280 14.87 <2e16 ***
a$V2 4.2900 0.3407 12.59 <2e16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
1.4.2 Test de significación para los parámetros estimados.
El test de significación de los parámetros estimados consiste en comparar el valor del cuociente entre el
parámetro estimado y su respectiva desviación standard con el valor de la t de student correspondiente a los
grados de libertad y el nivel de significación elegido. El parámetro clave del modelo es b1 ; la significación
estadística del parámetro estimado de la intersección con Y no tiene mayor relevancia.
Nuestra hipótesis alternativa la establecemos así:
Si Y se encuentra relacionada en forma lineal con X, entonces b1≠ 0
b0−b 0 b 1−b1
Las variables aleatorias t 0=  y t 1= (18)
S b0  Sb 1
tienen una distribución t de student con n2 grados de libertad, por lo que si queremos probar las hipótesis nulas
b0 b 1
H0 : b 0= 0 y H0 : b 1= 0 , debemos comparar t 0= y t 1= (19)
S b0  Sb 1
13
con la t correspondiente a los grados de libertad y el nivel de significación elegido.
b0 13,799 b1 4,29

Calculemos para nuestro ejemplo: t 0= = = 14,872 t 1= = = 12,594
Sb0  0,928 Sb1  0,341
A un 95% de significación y con 48 grados de libertad (hacemos un test de dos colas, con lo que
1−/2 = 1 – 0,05/2 = 0,975) calculando con R obtenemos nuestro t:
>qt(0.975,48)
[1] 2.010635
Si t i −t o t ti , nuestro bi es estadísticamente significativo al nivel elegido, lo cual es nuestro

caso, pues: 2.01 14,872 y 2.01 12,594
Así que se rechaza la hipótesis nula.
1.4.3 Demostración de que los parámetros estimados por MCO son estimadores no sesgados de los
parámetros reales.
a) Demostración de que b1 es un estimador no sesgado de b1 : E b1= b1 (20)
Se deben demostrar dos cosas:
1 Que b1 es combinación lineal de Y 1 , ..., Y n

∑ X i −X   Yi −Y = ∑  Xi −X  Yi − Y ∑  Xi −X = ∑  X i−X  Y i
∑  X i− X  Y i −Y  = ∑  Xi− X  y i  X i − X 
Por definición b1= Si Ci= entonces b1= ∑ Ci y i
∑ X i − X 2 ∑ X i −X 2 ∑  X i− X 2
2 Que Eb1= b1
Eb1= E∑ Ci Yi = ∑ Ci E Y i = ∑ Ci b 0b1 Xi = b0 ∑ Ci b1 ∑ Ci X i
∑  X i −X  =
2.1 ∑ Ci= 0
∑  X i− X 2
∑  X i− X  X i = ∑  Xi2−X X i  = 1 ya que X = ∑ X i  X = n X y
2.2 ∑ Ci X i= ∑ i
∑  X i −X 2 ∑  X 2i −2 n X 2n X 2 n
∑ X i −X 2= ∑  Xi2−2 X i X  X 2 = ∑ Xi2−2 X ∑ X i ∑ X 2= ∑ X2i −2n X 2n X 2= ∑ X 2i −n X2
Entonces queda así demostrado que E b1= b1
b) Demostración de que b0 es un estimador no sesgado de b0 Eb0= b 0 (21)
Dado que el estimador de MCO de b0 es: b0 = Y−  b X

1
 , como b1 es una combinación lineal de

la observaciones Y 1, Y 2, ... Y n entonces b0 también es combinación lineal de las observaciones. Por otro lado:
E b0 = E Y − b1 X  E b1 =

 = E Y − X ∑  Y i  −X b = ∑ b0 b1 X i  − X b
1 1
n n
n b0b1 ∑ X i
− X b1= b0b1 X
 −b1 X = b0
n
1.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE
1.5.1 Intervalos de confianza para los parámetros estimados.
14
Un intervalo de confianza para los parámetros verdaderos b0 y b1 esto es, la región donde con
cierta probabilidad se encuentran, al nivel de significación establecido y para cierto grado de libertad se
construye sumando y restando al parámetro estimado su propia desviación standard multiplicada por la
estadística t asociada.
Para b0 y b1 los intervalos de confianza entonces quedan como:
b0 ± t ∙ Sb0 y b1± t ∙S b1  (22)
b1
Como ya lo hemos visto, la variable aleatoria tiene una distribución t de student con n2 grados
S b1 
de libertad, por lo que la probabilidad de que b1 se encuentre dentro del intervalo
[ b1− t 1−/2, n−2 ∙ S b1 ; b1  t 1−/ 2,n−2 ∙S b1 ] es P[ b 1− t 1− / 2, n−2 ∙S b1   b1  b1 t 1−/2, n−2 ∙ S b1 ]= 1−
Así nuestro intervalo es b1± t1− / 2, n−2 ∙ Sb 1 (23)
Para el caso de b0 procedemos de manera análoga.
Consideremos el siguiente ejemplo:
Ejemplo Nº4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporción de niños
(bajo 18 años) viviendo en familias lideradas por un solo padre (2004).
La presencia o ausencia relativa de figuras paternas en una comunidad, parece estar fuertemente
correlacionada con la tasa de criminalidad.
En los Estados Unidos el 70% de los delincuentes juveniles, de los homicidas menores de 20 años y de los
individuos arrestados por violación y otras ofensas sexuales graves crecieron sin padre.
La relación entre ausencia del padre y delincuencia surge de numerosos trabajos de investigación
(Adams, Milner & Schrepf, 1984; Anderson, 1968; Chilton & Markle, 1972; Monahan, 1972; Mosher, 1969; Robins & Hill,
1966; Stevenson & Black, 1988; Wilson & Herrnstein, 1985; Bohman, 1971; Kellam, Ensminger & Turner, 1977).
La base de datos Nº4 nos entrega la tasa de asesinatos por cada 100.000 habitantes al 2006  Y i  y la
proporción de niños (menores de 18 años) viviendo en familias uniparentales al 2004 Xi  para los 50 Estados
norteamericanos (excluímos Washington D.C.)
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión
de la tasa de asesinatos sobre la proporción de familias uniparentales:
BASE DE DATOS Nº4
ESTADO Yi Xi
>plot(a$V2, a$V1, col=3, xlab='Tasa de familias uniparentales', ylab='Tasa de homicidios', Alabama 8,3 37
cex.lab=1,family='NewCenturySchoolbook') Alaska 5,4 30
>title(main=paste("Relación entre la tasa de familias uniparentales", "y la tasa de Arizona 7,5 33
homicidios",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') Arkansas 7,3 35
>abline(lm(a$V1~a$V2), lwd=3, col='red') California 6,8 31
∙ ∙ ∙
>a1<lm(a$V1~ a$V2) ∙ ∙ ∙
>summary(a1)
∙ ∙ ∙
Virginia 5,2 29
Washington 3,0 29
West Virginia 4,1 31
Wisconsin 3,0 28
Wyoming 1,7 27
FUENTES:
Proporción de niños (bajo 18 años) viviendo en familias lideradas por un solo padre (2004):
http://www.thenationalcampaign.org/
Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU:
http://www.infoplease.com/ipa/A0004912.html
15
GRÁFICA Nº11

SALIDA Nº6
Call:
Residuals:
3.7899 1.0143 0.2414 1.1005 4.5012
Coefficients:
(Intercept) 7.50664 1.49841 5.010 7.80e06 ***
a$V2 0.39705 0.04786 8.297 7.87e11 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Ahora calculemos los intervalos de confianza para los parámetros estimados según R:
SALIDA Nº7
>confint(a1, level= 0.95) 2,5% 97,5%
(Intercept) 10,5193867 4,4938931
a$V2 0,3008243 0,4932663
Hagamos nuestros propios cálculos y verifiquémoslo:
Hemos visto que para un 95% de significación y con 48 grados de libertad, calculando con R obtenemos:
>qt(0.975,48)
[1] 2.010635
Así: b1± t1 −/2, n−2 ∙ S b1= 0,39705± 2,010635∙ 0,04786 > [0,301; 0,493]
2. De R obtenemos que b0 = −7,50664 y S b0 = 1,49841

Así: b0 ± t 1−/ 2, n−2 ∙S b0 = −7,50664±2,010635∙1,49841 > [10,519; 4,494]
Vemos que ambos resultados coinciden con los entregados por R.
1.5.2 Estimación del intervalo de confianza para los valores promedios de la variable respuesta.
Un intervalo de confianza para los valores promedios de la variable respuesta es una región, donde a un
nivel de significación determinado, la variable independiente yace.
Para el modelo lineal simple, la recta de regresión estimada permite obtener un estimador para la media
de la variable respuesta para cada valor de la variable de predicción X i : Y i = b0  b1 X i , por otro lado
 = b 0 b1 X implica que b0 = Y − b1 X por lo que Y i = Y − b1 X
Y  b1 X i Así: Y i = Y  b1  X i − X

 2 
Entonces la varianza del estimador de la variable respuesta es: Var  Y i = S  Y i = Var [ Y   b1  X i − X ]
Ya hemos visto que b1= ∑ Ci y i ∑ Yi  X −X  1

entonces Var [
n i ∑ Ci Y i ]= Var [ ∑  Ci  X i−X
n
  Y i ]
2
1 1
Observemos que: Var [ ∑  Ci  X i− X  Y i ]= ∑  n Ci  X i − X  Var Y i  y desarrollemos:
n
16
1 2
1  X −X 
∑ [ n Ci X i −X  ] Var  Yi =  2 [∑
2
2 i ∑ Ci Xi −X 2 ∑ C2i ] Recordemos que ∑ Ci= 0 y
n n
 X i−X   2
 Xi − X ∑  X i −X 2 = 1
2
Ci= entonces: ∑ Ci = ∑ [ ]=
∑  X i −X 2 ∑  X i −X 4 ∑  X i− X 4 ∑  X i− X 2
1  2
 Xi − X
Es así que la varianza del estimador de la variable respuesta resulta: S 2 Y i = 2 [  ] (24)
n ∑  Xi −X  2
1  2
 X i− X
por lo que un estimador de la desviación standard de Y i está dado por: S Y i =S [  ] (25)
n ∑  Xi − X 2
Tenemos entonces que Y i es un estimador no sesgado de la media de Y i que tiene una distribución

normal con:
 2
media E Y i = b0b 1 X i = E b0 b1 X i = E Y  =  2 [ 1   X i − X  ]
  y varianza S 2  Y
i i
n ∑  X i − X 2
[ Y i −E Y i ]
Por otro lado, la distribución de muestreo de (26)
S Y 
i
es la t de student con n 2 grados de libertad. Por lo anterior, la probabilidad de que E Y i  se encuentre dentro
del intervalo aleatorio: [ Y i − t 1−/ 2, n−2 ∙ S Y i  ; Y i t1−/ 2, n−2 ∙ S Y i ] es 1− o bien, el intervalo de confianza
del 100 1−% para Y es: Y ± t i i ∙S Y 
1− / 2,n−2 i (27)
Calculemos estos intervalos para el ejemplo Nº4:
SALIDA Nº8
Con la siguiente instrucción obtenemos los valores numéricos de
fit lwr upr
los límites superior e inferior del intervalo de confianza para el valor 1 7,1840353 6,4308025 7,9372681
promedio de Y al 95% de significación: 2 4,4047183 3,9220763 4,8873604
3 5,5958542 5,0809145 6,1107938
>predict(a1,interval="confidence", level = 0.95)
4 6,3899447 5,7741304 7,0057591
5 4,8017636 4,3272468 5,2762805
Corroboraremos lo anterior calculando los Y i ± t 1−/2, n−2 ∙ S Y i  y ∙ ∙ ∙ ∙
graficando las curvas: ∙ ∙ ∙ ∙

 2 ∙ ∙ ∙ ∙
1  X i− X
Y i  Superior , Inferior= b0  b1 ∙ X i± t ∙S  para el rango de 46 4,0076731 3,4985194 4,5168267
n ∑  X i− X  2 47 4,0076731 3,4985194 4,5168267
X(15 ; 50). Como b = −7,50664 ; b = 0,39705 ; t= 2.010635; S= 1,669;
0 1
48 4,8017636 4,3272468 5,2762805
49 3,6106278 3,0592219 4,1620337
 = 30,92 y ∑ X i − X
n= 50; X  2= 1215,68 , los límites superiores e 50 3,2135825 2,6074666 3,8196984
inferiores del intervalo de confianza para Y i son:
TABLA Nº7
Y i Inf Y i Sup
6,431
3,922
7,938
4,888
Y i  Superior , Inferior= −7,506640,39705∙ X i ± 2,010635∙ 1,669  0,02
  X i−30,92 2
1215,68

5,081 6,111
5,774 7,006
Introduciendo los datos de X i en la ecuación anterior obtenemos los valores de la
3,499 4,517 tabla Nº7.
∙ ∙
∙ ∙ Grafiquemos estos intervalos haciendo los X i continuos:
∙ ∙
3,499 4,517 >x < seq( 15 ,50,length = 100)
3,499 4,517 >lines(x, 7.50664+0.39705 * x + 2.010635 * 1.669* ((0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3)
4,327 5,277 >lines(x, 7.50664+0.39705 * x 2.010635 * 1.669* ((0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3)
3,059 4,162
2,607 3,820
17
GRÁFICA Nº12
1.5.3 Estimación del intervalo de predicción de los
valores particulares de la variable respuesta.
Un intervalo de predicción para los valores de la variable
respuesta es una región, donde a un nivel de significación
determinado, la variable independiente yace, pero esto,
ampliado a cualquier valor de la variable independiente.
Supongamos que un nuevo valor es observado después
de que la regresión se ha ejecutado. Como la nueva
observación es independiente de las observaciones que se
utilizaron para ajustar el modelo, el intervalo deberá incluir el
error del modelo ajustado y el error asociado con
observaciones futuras, con lo que la varianza de este
estimador será mayor. Los intervalos de predicción para las
observaciones individuales de la respuesta son mas grandes
que los correspondientes intervalos de confianza para la media
de las mismas.
El valor estimado de la variable dependiente es el mismo
que para la estimación del promedio y está dado por
Y i = b0 b 1 X i , pero la varianza incluye la variación de una
observación independiente.
1  2
 Xi − X 1  X i− X 2
Var  YP =  22 [  2
]=  2 [1  ] (28)
n ∑  Xi − X n ∑  X i− X 2
 1  2
 Xi − X
Y así: S Yp = S [ 1  ] (29)
n ∑  Xi − X 2
[ Y p−E Y p ]
Entonces, bajo la teoría normal, (30)
S Y 
p
SALIDA Nº9
tiene una distribución t de student con n 2 grados de libertad, por lo que
fit lwr upr para un  dado, el intervalo de predicción para la observación Y p
1 7,1840353 3,7456187 10,6224520 será: P[ Y − t   
p 1− / 2, n−2 ∙S  Yp  Y p  Y p t1− / 2, n−2 ∙ S Y p] = 1−
2 4,4047183 1,0152800 7,7941570
3 5,5958542 2,2016662 8,9900420
Un intervalo de predicción es análogo a un intervalo de confianza. Uno
4 6,3899447 2,9789953 9,8008940 del 100 1−% para una observación particular Y p es:
5 4,8017636 1,4134728 8,1900540 Y ± t 
∙ S Y  (31)
p 1− / 2, n−2 p
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ Con la siguiente instrucción obtenemos los valores
∙ ∙ ∙ ∙ numéricos de los límites superior e inferior del intervalo de TABLA Nº8
46 4,0076731 0,6143581 7,4009880 confianza para el valor promedio de Y. Calculémoslo
Y i Inf Y i Sup
47 4,0076731 0,6143581 7,4009880 para nuestro ejemplo:
48 4,8017636 1,4134728 8,1900540
49 3,6106278 0,2107164 7,0105390 3,745 10,623
>predict.lm(a1,interval="prediction", level = 0.95) 1,015 7,795
50 3,2135825 0,1956293 6,6227940
2,201 8,991
2,978 9,802
Los límites superiores e inferiores del intervalo de predicción para Y i son: 1,413 8,191
∙ ∙
Y i  Superior , Inferior= −7,506640,39705∙ X i± 2,010635 ∙1,669  10,02

  X i −30,92 2
1215,68
 ∙
∙
0,614
∙
∙
7,402
0,614 7,402
Introduciendo los datos de X i en la ecuación anterior obtenemos los valores de la
1,413 8,191
tabla Nº8: 0,210 7,012
0,196 6,624
18
Grafiquemos estos intervalos haciendo los X i continuos (Gráfico Nº13):
>x < seq( 15 ,50,length = 100)
>lines(x, 7.50664+0.39705 * x + 2.010635 * 1.669* ((1+0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3)
>lines(x, 7.50664+0.39705 * x 2.010635 * 1.669* ((1+0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3)
Graficando los intervalos de confianza y de predicción tenemos (Gráfico Nº14):
GRÁFICA Nº13 GRÁFICA Nº14
1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIÓN
1.6.1 El coeficiente de determinación: R 2
Consideremos la ecuación fundamental del análisis de regresión:
Variación Variación Variación
total en Y explicada de Y residual de Y
∑  Yi− Y2 = 2
∑  Y i−Y  ∑ Y i−Y i 2 (32)
Suma total Suma de los Suma de los
de los cuadrados cuadrados de cuadrados
la regresión del error
STC SCR SCE /: STC
SCR SCE 2 SCE SCE

1=  o bien 1= R  con lo que obtenemos R2 = 1 − (33)
STC STC STC STC
SCR es la porción de la variación atribuíble a un efecto lineal de X sobre Y y R 2 es la proporción de la
variación en Y explicada por la regresión de Y sobre X.
∑ y i2 = SCR = 1 − ∑ ei2 = 1 − SCE donde:
2
Por otro lado: R =
∑ y i2 STC ∑ y2i STC
y 2i =  2
 Y i −Y ∑ ∑
2
0 ≤ R ≤ 1
La ecuación de Todos los puntos
regresión estimada coinciden en la
no explica ninguna línea de regresión
variación en Y
R2 no mide la validez del modelo de regresión propuesto, sino cuanto se explica de la variación total
mediante la ecuación de regresión estimada.
2
R ∙100 nos da el porcentaje en que la ecuación de regresión explica la variación total.
Calculemos R para el siguiente ejemplo. Para esto determinemos primero la suma total de los cuadrados
(STC), la suma de los cuadrados de la regresión (SCR) y la suma de los cuadrados del error (SCE).
19
Ejemplo Nº5: Nivel de pobreza y años de escolaridad para las comunas BASE DE DATOS Nº5
del Gran Santiago (2006)
COMUNA Yi Xi
Diversos estudios han establecido la clara correlación entre el nivel
educativo de las personas con sus ingresos. Santiago 7,3 13,1
En América Latina, los datos históricos son contundentes sobre la incidencia Cerrillos 8,3 10,4
de la educación en la distribución del ingreso. En Brasil, el 10 por ciento de la Cerro Navia 17,5 9,1
Conchalí 8,0 10,1
población con más ingresos gana casi 60 veces más que el 10 por ciento con
El Bosque 15,8 9,7
menos ingresos; en Uruguay, el país con menor desigualdad, esa relación es de 18
∙ ∙ ∙
veces y en México es de 40 veces. Todos los países con menor desigualdad relativa ∙ ∙ ∙
–entre ellos Argentina, a pesar de la concentración del ingreso. son aquellos que ∙ ∙ ∙
hicieron de la expansión educativa una prioridad política por lo menos durante los San Bernardo 20,9 9,7
últimos 50 años. San Joaquín 7,4 10,7
La base de datos Nº5 nos entrega información del % de pobres  Yi  y los San Miguel 2,5 12,3
San Ramón 16,7 9,6
años de escolaridad X i  , para las comunas del gran Santiago al año 2006.
Vitacura 4,4 14,6
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos FUENTES:
asociada y corramos una regresión lineal de la tasa de % de pobres sobre los % de pobres 2006 y a ños de escolaridad 2006:
años de escolaridad. http://www.bcn.cl/siit/comunas_cifras
SALIDA Nº10
>a <read.table('a.txt')
Call: >par(bg = "Ivory 2")
lm(formula = a$V1 ~ a$V2) >plot(a$V2, a$V1, col=3, xlab='Años de escolaridad', ylab='% de población
pobre', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre los años de escolaridad", "y el % de
Residuals: población pobre",
Min 1Q Median 3Q Max sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
6.8335 3.2591 0.2868 2.2141 7.5117 >abline(lm(a$V1~a$V2), lwd=3, col='red')
Coefficients: >a1<lm(a$V1~ a$V2)
Estimate Std. Error t value Pr(>|t|) >summary(a1)
(Intercept) 38.1007 4.5262 8.418 1.28e09 ***
a$V2 2.5477 0.4103 6.210 5.92e07 *** Calculemos la suma total de los cuadrados (STC), la
suma de los cuadrados de la regresión (SCR) y la suma de
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 los cuadrados del error (SCE) (Tabla Nº9).
Ahora calculemos R2 :
SCE 390,376
Fstatistic: 38.56 on 1 and 32 DF, pvalue: 5.921e07 R2 = 1 − = 1 − = 0,546 o bien
STC 860,802
2 SCR 470,436
R= = = 0,546 que coincide con el 0,5465 que obtuvimos en nuestra salida en R.
STC 860,802
GRÁFICA Nº15
TABLA Nº9
COMUNA Yi Xi Y i  Y i− Y2  Y i− Y2  Y i− Y i 2
Santiago 7,3 13,1 4,726 8,651 30,419 6,626

Cerrillos 8,3 10,4 11,605 3,768 1,859 10,921
Cerro Navia 17,5 9,1 14,917 52,690 21,860 6,674
Conchalí 8,0 10,1 12,369 5,023 4,527 19,088
El Bosque 15,8 9,7 13,388 30,900 9,903 5,818
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
San Bernardo 20,9 9,7 13,388 113,610 9,903 56,430
San Joaquín 7,4 10,7 10,840 8,072 0,359 11,836
San Miguel 2,5 12,3 6,764 59,926 12,091 18,182
San Ramón 16,7 9,6 13,643 41,716 11,571 9,347
Vitacura 4,4 14,6 0,904 34,119 87,178 12,220
Y = 10,241 ∑ 860,802 470,436 390,376

20
1.6.2 El coeficiente de correlación r.
El coeficiente de correlación mide el grado de asociación entre variables. Supone que tanto X como Y
son variables aleatorias.
Sea la distribución conjunta de X e Y la normal bivariada y sea  X1 , Y 1; X 2 , Y 2 ; ...;X n , Yn  una muestra
aleatoria de tamaño n de esta distribución. En el caso de dos variables r es:
r X , Y=
∑ X i −X Y i− Y  −1 ≤ r ≤ 1 (34)
∑ X i−X 2  ∑ Y i−Y 2
Para nuestro ejemplo:
TABLA Nº10
r X , Y=
∑ X i −X Y i− Y  = −184,649
= −0,739 COMUNA Yi Xi  Xi− X 2  Y i− Y2  X i− X  Y i− Y 
∑  Xi−X  ∑ Y i−Y   72,478  860,802
2 2
Santiago 7,3 13,1 4,686 8,651 6,367

Cerrillos 8,3 10,4 0,287 3,768 1,039
La instrucción para obtener el coeficiente de Cerro Navia 17,5 9,1 3,368 52,690 13,322
correlación en R nos entrega el siguiente resultado (Salida nº11): Conchalí 8,0 10,1 0,698 5,023 1,872
SALIDA Nº11 El Bosque 15,8 9,7 1,526 30,900 6,867
∙ SALIDA Nº11
∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙
V1 V2 >cor(a)
∙ ∙ V1 ∙ ∙ V2 ∙ ∙
V1 1.0000000 0.7392548
San BernardoV1 20,9 1 9,7 1,526 113,610
0,73925480 13,167
V2 0.7392548 1.0000000
San Joaquín 7,4 10,7 0,055
V2 0,73925480 1 8,072 0,669
San Miguel 2,5 12,3 1,862 59,926 10,564
Como r mide el grado de asociación lineal entre X e Y y San Ramón 16,7 9,6 1,783 41,716 8,624
ya que b1 es el correspondiente estimador por MCO de la Vitacura 4,4 14,6 13,430 34,119 21,406
 10,935
X=
pendiente para el modelo de regresión propuesto entre X e Y, Y = 10,241 ∑ 72,478 860,802 184,649
entonces debe existir una relación entre r y b1 . Esa relación
es la siguiente:
b1=
 ∑  Yi − Y2
∑  Xi −X 2
∙r ya que
 ∑  Y i− Y2 ∑  X i− X Y i −Y = ∑  X i− X Y i −Y =
∑  X i− X2  ∑  X i− X 2  ∑  Yi −Y 2 ∑  Xi −X 2
b1 (35)
El cuadrado del coeficiente de correlación es el coeficiente de determinación r= R 2
donde:
r=1: perfecta correlación lineal negativa.
r= 1: perfecta correlación lineal positiva.
Para nuestro ejemplo: R2 = 0,5465 R = −0,739

2
Si bien r no indica causalidad o dependencia, no es sólo un medida del grado de asociación lineal entre
dos variables, sino que puede emplearse una función de r como una medida de la bondad del ajuste para una
ecuación estimada de regresión.
r 0 Implica que X e Y se mueven en direcciones contrarias, mientras que r0 Implica que X e Y se
mueven en la misma dirección.
r por sí mismo no puede ni probar ni desmentir una relación causal entre X e Y, aún si r=±1 , lo cual es
sólo posible a través de la comprensión de la relación natural que existente entre X e Y.
1.6.3 Uso del análisis de varianza.
Esta técnica es utilizada para probar la hipótesis nula de que la pendiente es cero, sin embargo, además
permite una comprensión natural del problema, con lo que facilita el análisis de modelos mucho más
complicados que la regresión simple.
El objetivo es que la recta estimada de regresión explique la mayor cantidad posible de la variación total,
por lo que la contribución del término b0 b 1 X i debe ser substancial.
Consideremos la desviación de Y i respecto a Y  . Si la magnitud de Y i − Y   0 , esta magnitud
debería atribuirse a las componentes del modelo.
21
Deduzcamos la ecuación fundamental del análisis de varianza:
Y i−Y
 = Yi − Y  Yi − Y i / 2   Yi − Y
  Y i − Y i = Y i − Y  2 =  Y i − Y 22  Y i − Y
  Y i− Y i  Y i − Y i 2 / ∑ 
∑ Y i −Y 2= ∑  Y i −Y 22 ∑ Y i − Y   Yi −Y i ∑  Yi −Y i 2 Pero ya que ∑ Y i −Y Y i −Y i = 0 puesto que
∑  Y −Y  Y −Y = ∑ Y  Y −Y −Y ∑  Y −Y = ∑ Y  Y − Y  (ya hemos visto que la segunda expresión es 0) y
i i i i i i i i i i i
∑ Y i  Y i −Y i = ∑  b0b1 X i  Y i−Y i = b0 ∑ e i  b1 ∑ X i e i = 0
∑  Yi −Y 2= ∑  Y i− Y 2  ∑  Y i− Y i 2
STC SCR SCE
Suma total de Suma de los Suma de los
los cuadrados cuadrados de cuadrados del
la regresión error
Notemos que también podemos calcular STC como: STC= ∑  Yi − Y  2= ∑ Y 2−n Y 2 ya que:

i
∑ Y i −Y  = ∑  Yi −2 Y i Y  Y = ∑ Y i −2 Y ∑ Y in Y = ∑ Yi −2n Y n Y 2= ∑ Y 2i −n Y2

2 2 2 2 2 2 2
SCR representa la variación de la observación que es atribuible al efecto lineal de X sobre Y. Si la
pendiente de la recta estimada de regresión es cero, entonces SCR=0
SCE es la variación de las observaciones con respecto a la recta de regresión estimada. Si todas las
observaciones se encuentran sobre esta recta, SCE=0
GRÁFICA Nº16
Grados de libertad.
Para STC es n1, para SCE es n2 y y como los grados de
libertad son aditivos:
gl (SCR) = gl(STC) gl(SCE) lo que implica que el grado
de libertad de SCR es 1.
1.6.4 La estadística F
La estadística F es utilizada en el análisis de regresión

para probar la hipótesis nula : H0 : b1= 0 , esto es, que no
existe una relación lineal entre X e Y, contra la alternativa
H1 : b 1≠ 0 .
Si suponemos la existencia de normalidad, entonces
bajo H0 las observaciones Y i son n variables aleatorias
independientes normalmente distribuidas con la misma media y
varianza  2 .
Por lo anterior, puede demostrarse que:
SCR SCE
y son dos variables aleatorias independientes con una distribución  2 con 1 y n2
2 2
grados de libertad respectivamente. De esta manera, la variable aleatoria:
SCR/ 2
1 SCR / 1 CMR
= = = F (36)
SCE/ 2 SCE/n−2 CME
n−2
tiene una distribución F con 1 y n2 grados de libertad.
(CMR: Cuadrado medio de la regresión; CME: Cuadrado medio del error.) Notemos que el cuadrado
medio del error es igual a la varianza residual.
22
Un valor grande de CME comparado con CMR SALIDA Nº12

implicará un ajuste pobre y sugerirá la ausencia de una
asociación lineal entre X e Y. Un valor pequeño de CME Call:
implicará que una porción considerable de la variación lm(formula = a$V1 ~ a$V2)
en las observaciones es atribuíble a un efecto lineal de X
sobre Y. Residuals:
H0 ha de rechazarse cuando el valor de F
6.8335 3.2591 0.2868 2.2141 7.5117
dado por el cuociente entre el cuadrado medio de la
regresión y el cuadrado medio del error se encuentra Coefficients:
dentro de la región crítica superior a la distribución F dada Estimate Std. Error t value Pr(>|t|)
con 1 y n2 grados de libertad al nivel de significación (Intercept) 38.1007 4.5262 8.418 1.28e09 ***
deseado. a$V2 2.5477 0.4103 6.210 5.92e07 ***

En nuestro ejemplo: Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
CMR SCR / 1 470,4361/1
F= = = = 38,563 Residual standard error: 3.493 on 32 degrees of freedom
CME SCE/n−2 390,3759/ 32 Multiple Rsquared: 0.5465, Adjusted Rsquared: 0.5323
Calculemos F con R:
>qf(0.95,1,32)
[1] 4.149097 4,149  38,563 con lo que rechazamos la hipótesis nula.
Tabla ANOVA para el modelo lineal simple:
TABLA Nº11
Fuente de Grado de Suma de los Cuadrados
F
variación libertad Cuadrados Medios
∑  Y i− Y2 ∑  Y i− Y2
Regresión 1 ∑  Y i− Y2
∑  Y i− Y i2 /n−2
Error n−2 ∑  Y i− Y i 2 ∑  Y i− Y i2

n−2
Total n−1 ∑  Y i− Y2
Tabla ANOVA para nuestro ejemplo:
TABLA Nº12
F
variación libertad Cuadrados Medios
Regresión 1 470,436 470,436 38,563

Error 32 390,376 12,199
Total 33 860,802
SALIDA Nº13
Analysis of Variance Table
Aplicación en R: Response: a$V1
Df Sum Sq Mean Sq F value Pr(>F)
>anova(a1)
a$V2 1 470.43 470.43 38.562 5.921e07 ***
Residuals 32 390.38 12.20

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
23
Existe una relación entre F con 1 y n1 grados de libertad y la correspondiente estadística t de student
para una hipótesis alternativa bilateral.
Considerando que la recta estimada es: Y i = Y   b1 X i − X    = b1  X i − X  / ∑  2
Y i − Y 
2  2 2 2 2
∑ Y i −Y  = b1 ∑ X i −X   SCR= bi ∑  Xi − X

2 S2 CME SCE/ n−2
y que por otro lado: S  b1 = = = (pues el cuadrado medio del error es
∑ X i− X 2 ∑ Xi −X 2 ∑  X i −X 2
igual a la varianza residual) tenemos que nuestra estadística F es:
CMR SCR/1 b2 ∑  X i− X
 2 / 1 b1 2
F= = = 21 =   Verifiquemos esto en nuestro ejemplo: (37)
CME SCE/n−2  S  b1 ∑  Xi − X  2 S b1 
b 1 2 −2,5477 2
Tenemos que: S b1= 0,4103 y b1= −2,5477 por lo tanto  =   = 38,556
Sb 1 0,4103
De acuerdo con lo anterior, si una variable aleatoria tiene una distribución F con 1 y n2 grados de
libertad, entonces: F= t2 Donde t es una variable aleatoria t de student con n2 grados de libertad. La relación
En nuestro ejemplo t para b es 6.210, Así t 2= 38,564
2
es: F = t
1− , 1,n−2 1− / 2, n−2 1 (38)
1.7 PROPIEDADES DE LOS PARÁMETROS ESTIMADOS BAJO EL MÉTODO DE MÍNIMOS CUADRADOS

ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia.
Consideremos todos los estimadores no sesgados de b0 y b1 ( b0 y b1 ) los cuales son
combinaciones lineales de las observaciones Y 1, Y 2 , ..., Y n . Si entre todos estos estimadores existen algunos
cuyas varianzas son las más pequeñas de entre todos los demás estimadores no sesgados de b0 y b1 , éstos
son denominados los mejores estimadores lineales insesgados (MELI) de b0 y b1 . Ahora, bajo los 10 supuestos
requeridos y expuestos al inicio de este capítulo, los estimadores por MCO son los MELI. Lo anterior es conocido
como el teorema de GaussMarkov y representa la justificación más importante para usar MCO.

1.7.1 Sesgo.
GRÁFICA Nº17
Un estimador es insesgado si el promedio de su distribución

muestral es igual al parámetro verdadero.
Esto es: 
E b=b (39)
El sesgo es definido como la diferencia entre el valor esperado
del estimador y el parámetro verdadero, así:

sesgo=E b−b (40)
GRÁFICA Nº18
1.7.2 Eficiencia.
El estimador eficiente o mejor insesgado se refiere al que tiene
la menor varianza de entre los estimadores insesgados. Otra manera de
decir esto es que un estimador eficiente tiene el menor intervalo de
confianza y está más cercano a ser estadísticamente significativo que
cualquier otro estimador.
La gráfica Nº18 muestra la distribución de dos estimadores
insesgados, uno de los cuales es eficiente:
El estimador por MCO es frecuentemente usado porque es el
mejor estimador lineal insesgado, esto es, entre todos los estimadores
lineales insesgados, es el que tiene la menor varianza. Sin embargo, los
estimadores no lineales pueden ser superiores a los MCO.
24
1.7.3 Consistencia.
GRÁFICA Nº19
Un estimador es considerado consistente cuando ocurre que:
1 a medida que el tamaño de la muestra se incrementa, el

estimador se aproxima más y más al parámetro real (esto se
denomina insesgación asintótica).
2 Cuando el tamaño de la muestra se aproxima al infinito en el
límite, la distribución muestral del estimador debe colapsar o
hacerse una línea vertical de altura 1 sobre el valor del parámetro
verdadero.
1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE
Para los n pares  X 1 ; Y 1 , X 2 ; Y 2 , ..., X n ; Y n  , el modelo lineal:
Y 1 = b0 b 1 X 1 1
Y 2 = b0b 1 X 2 2
Y i =b0b 1 X i i i=1,2 ,... ,n son n ecuaciones lineales de la forma:
Y n = b0b 1 X n n
Si definimos:
[] [ ] [ ]
Y1 1 X1 b 0 b1 X 1
Y
Y= 2
⋮
Yn
; X=
1 X2
⋮ ⋮
1 Xn
; b=
[]
b0
b1
; entonces: Y = X b=
b 0 b1 X 2
⋮ ⋮
b 0 b1 Xn
Si asumimos la presencia de la normalidad,  es un vector de variables aleatorias normales tales que:
2
E =0 ; Var = I Donde:
I : vector de identidad
 2 : varianza del error constante.
Las ecuaciones normales son:
∑ Yi =n b0b1 ∑ X i
∑ Xi Yi =b0 ∑ X i b 1 ∑ X i 2 lo que expresado en términos matriciales resultaría:
[ ] [ ] [∑
∑ Yi
∑ Xi Yi
=
b 0
b1
n
Xi
∑ Xi
∑ X 2i ] notemos que: (41)
[ ]
1 X1
[∑n
Xi
∑ Xi
∑ X 2i ] [
=
1 1 ... 1
X 1 X 2... Xn
X1  X 2 ...  X n
X21  X 22 ...  X 2n ] [
=
1
X1
1 ⋯ 1
X2 ⋯ Xn ] 1 X2
⋮ ⋮
1 Xn
= X ' X
[]
Y1
Además notemos de que:
[ ] [
∑ Yi
∑ Xi Yi
=
Y 1Y 2...Y n
X1 Y 1X 2 Y 2... Xn Y n ] [
=
1
X1
1 ⋯ 1
X2 ⋯ Xn ] Y2
⋮
Yn
= X ' Y
25

Tenemos entonces que las ecuaciones normales en forma matricial son:  X ' X b= X' Y
' ' ' 

Si suponemos que la matriz X X tiene inversa, entonces:  X X  X X b=  X ' X−1 X ' Y
−1

I b=  X ' X−1 X ' Y y el vector de parámetros estimados queda entonces como:

b=  X ' X−1 X' Y (42)
Y la ecuación de regresión queda: Y = X b (43)
26
Análisis de regresión múltiple
EL ANÁLISIS DE REGRESIÓN MÚLTIPLE (ARM)

2.1 INTRODUCCIÓN
El análisis de regresión múltiple (ARM) se utiliza para comprender la influencia de dos o más variables
independientes X ki sobre una variable dependiente Y i . Es el caso general del ARS.
El modelo de regresión lineal con dos regresores puede escribirse como sigue:
Y i = b0 b 1 X 1i b2 X 2ii i= 1,2,... , n (44)
En términos generales: sean [ X 1i , X 2i , ... , X ki ] k variables de predicción y Y i la iésima observación
respuesta asociada a ellas, i el error aleatorio no observable asociado con Y i y [ b 0 , b1 , ..., bk ] k
parámetros lineales desconocidos. Entonces el modelo de regresión lineal múltiple (de primer orden) para k
variables de predicción independientes es:
Y i = b0 b 1 X 1i b2 X 2i...bk X kii i= 1,2,... , n (45)
Y 1= b 0b1 X 11b2 X 21...bk X k11
Y 2= b 0b1 X 12b2 X 22...bk X k2 2
.
Lo anterior es una forma abreviada de la expresión:
.
.
Y n = b0 b 1 X 1n b2 X 2n...bk X knn
Si suponemos presencia de normalidad, las Y i son variables aleatorias independientes con medias y
varianzas: E Y i = b0b 1 X 1i ...b k X ki Var  Y i =  2 i= 1,2,... , n (46)
2
y los errores aleatorios i se distribuyen según una curva normal  N 0,   siendo independientes
los unos de otros.
Los parámetros bk representan el cambio en la respuesta promedio para un cambio igual a una
unidad de la correspondiente variable de predicción X ki , cuando todos los demás regresores se mantienen
constantes. bk representa el efecto parcial de X ki sobre la respuesta.
Si por ejemplo estamos en presencia de un modelo: Y i = b0 b 1 X 1i b2 X 2ib 3 X 1i X 2i i , b3 refleja la
influencia sobre la variable respuesta ejercida por la interacción entre X 1i y X 2i .
El modelo lineal general necesita sólo una restricción funcional: que sea lineal en los parámetros
desconocidos.
Así surgen muchas alternativas de modelos. Por ejemplo, si se define: X 3i = X1i X 2i i= 1,2,... , n la
ecuación Y i = b0 b X
1 1i b X
2 2ib X X
3 1i 2i  i puede reescribirse como un modelo de primer orden:
Y i = b0 b 1 X 1i b2 X 2ib3 X 3i i .
j
Otro caso se da cuando X ji= Xi i= 1,2,... , n  j= 1,2,... , k . Así el modelo lineal general toma la
forma:
Y i = b0 b 1 X i b2 X 2i ...bk Xki i que es llamado modelo polinomial. (47)
En el modelo polinomial lo que se busca es el grado k que mejor se ajusta la curva de regresión.
Muchas veces el modelo más preciso es el que incluye estas dos características, la forma polinomial y la
interacción entre las múltiples variables de predicción. Por ejemplo, para 2 variables de predicción tenemos:
Y i = b0 b 1 X 1i b2 X 2ib 3 X 21i b4 X 22i b 5 X1i X 2ii (48)
que se denomina ecuación completa de segundo orden.
Para k≥2 variables de predicción distintas, una ecuación de regresión completa de segundo orden
k k−1
consiste en un término constante, k términos lineales, k términos cuadráticos y términos de interacción.
2
Para el ARM existe un supuesto adicional que para el análisis de regresión simple: no debe existir una
relación lineal exacta entre las X i , pues de lo contrario las ecuaciones que constituyen el sistema de
ecuaciones normales construido por MCO no son independientes.
Si dos o más X i están alta pero no perfectamente correlacionados, los b i pueden ser calculados por
MCO pero los efectos de cada X k respecto a Y no pueden ser aislados.
27
2.1.1 Obtención de los estimadores por MCO de los parámetros con dos variables independientes o
explicativas.
El método de MCO para obtener los parámetros estimados en el ARM opera, al igual que en el ARS,
minimizando la suma del cuadrado de los residuos:
∑ e 2i = ∑  Y i− Y i 2= ∑  Y i−b0 −b1 X1i −b2 X 2i 2 (49)
∂ ∑ e 2i ∂ ∑  Y i −b0− b1 X 1i− b2 X 2i 2

1 = = 0 −2 ∑ Yi − b0 − b1 X 1i − b2 X 2i = 0
∂ b 0
∂ b 0
∑ Y i= n b0 b1 ∑ X 1i b2 ∑ X 2i Primera ecuación normal (50)
2 2
∂ ∑ ei ∂ ∑  Y i −b0− b1 X 1i− b2 X 2i 
2 = = 0 −2 ∑ X1i Yi −b0 −b 1 X 1i − b2 X 2i = 0
∂ b 1
∂ b 1
∑ Y i X 1i = b0 ∑ X 1i b1 ∑ X 1i 2  b2 ∑ X2i X1i Segunda ecuación normal (51)
∂ ∑ e 2i ∂ ∑  Y i −b0− b1 X 1i− b2 X 2i 2

3 = = 0 −2 ∑ X 2i  Yi − b0 − b1 X 1i − b2 X 2i = 0
∂ b 2
∂ b 2
2
∑ Y i X 2i = b0 ∑ X 2i b2 ∑  X2i   b1 ∑ X 1i X 2i Tercera ecuación normal (52)
Para el caso del análisis de regresión múltiple con dos variables independientes, b0 es el término
constante de la intersección de la regresión y está dado por el valor estimado para Y i cuando X 1i = X 2i = 0 .
b1 mide el cambio en Y i para cada cambio de 1 unidad en X 1i , mientras X 2i se mantiene constante. El
parámetro b1 es un coeficiente de regresión parcial porque corresponde a la derivada parcial de Y con
∂Y
respecto a X 1i   . El caso de b2 es análogo a b1 .
∂ X 1i
Al expresar las ecuaciones normales en forma de desviación podemos obtener los parámetros estimados
un poco más fácilmente:
Tenemos que Y i = b0 b 1 X 1i  b2 X 2i y Y  = b0 b1 X
 1 b2 X 2 , definamos y i y y i :
 
y i = Yi −Y = b 1 X 1i − X   2  o lo que es lo mismo y i = b1 x1i  b2 x2i y y i = Yi −Y
 1  b2  X 2i − X (53)
Por otro lado e i = y i − y i = y i − b1 x1i −b 2 x 2i . Entonces la suma del cuadrado de los residuos es:
∑ e 2i = ∑  yi−b1 x1i −b2 x2i 2 (54)
Los parámetros estimados se obtienen derivando la expresión anterior respecto a b1 y b2 e
igualando a 0:
1.
∑ e 2 ∑  yi−b1 x1i −b2 x2i 2 = 0
∂ i= ∂ −2 ∑ x1i y i−b1 x1i − b2 x2i = 0
∂b 1
∂ b 1
b1=
∑ x1i y i −b2 ∑ x1i x2i
∑ x 1i y i= b 1 ∑ x21i  b2 ∑ x1i x2i Primera ecuación normal (55)
∑ x 21i
2. ∂
∑ e 2i = ∂ ∑  yi−b1 x1i −b2 x2i 2 = 0 −2 ∑ x2i y i −b 1 x 1i− b2 x2i = 0
∂ b2 ∂ b2
b2=
∑ x 2i yi−b1 ∑ x1i x2i
∑ x 2i y i= b2 ∑ x 22i b1 ∑ x1i x 2i Segunda ecuación normal (56)
∑ x22i
∑ x1i y i −b2 ∑ x1i x2i
Sustituyamos b1= en ∑ x 2i y i= b2 ∑ x 22i b1 ∑ x1i x 2i y obviemos los subi:
∑ x 21i
28
b2 ∑ x22
∑ x1 y −b 2 ∑ x 1 x 2  x x
∑ x2y = ∑ 1 2 ∑ x 2 y ∑ x21= b2 ∑ x 22 ∑ x 21 ∑ x 1 y− b2 ∑ x1 x2 ∑ x1 x2
∑ x21
2
b2=
∑ x 2 y ∑ x21−∑ x 1 y ∑ x1 x2
∑ x 2 y ∑ x = ∑ x1 y ∑ x1 x2 −b2 [∑ x1 x2  ∑ x21 ∑ x22 ]
2
1
Y así: 2 (57)
∑ x21 ∑ x 22− ∑ x1 x2 
∑ x 2i y i−b1 ∑ x1i x2i
Sustituyamos b2=
2
2 en ∑ x 1i y i= b 1 ∑ x1i  b2 ∑ x1i x2i y obviemos los subi:
∑ 2i x
2 ∑ x 2 y− b1 ∑ x 1 x2 2
∑ x 1 y= b 1 ∑ x1  2
 ∑ x1 x2 ∑ x 1 y ∑ x22= b 1 ∑ x12 ∑ x22 ∑ x2 y ∑ x 1 x 2−b1 ∑ x1 x 2
∑ 2 x
2  2 2 2 b ∑ x1 y ∑ x 22−∑ x 2 y ∑ x1 x2
∑ x 1 y ∑ x2= ∑ x2 y ∑ x 1 x2 −b 1 [ ∑ x1 x2  −∑ x1 ∑ x2 ] Y así: 1 = 2 (58)
∑ x 21 ∑ x 22− ∑ x1 x2 
Por otro lado con la ecuación:  = b0 b1 X 1 b2 X 2

Y obtenemos b0 (59)
Hacer estos cálculos suele ser un proceso engorroso. El álgebra de matrices simplifica enormemente la
situación. Así, lo anterior usando matrices en R se puede resumir con las siguientes instrucciones:
>am<as.matrix(a)
>x< cbind(1, am[,2],am[,3],am[,4])
>y<cbind(am[,1])
>xt < t(x)
>b<solve(xt%*%x)%*%xt%*%y
>b
Más adelante aplicaremos estas instrucciones en el ejemplo Nº6.
2.1.2 Desarrollo de técnicas de regresión para el ARM utilizando el álgebra de matrices.
Dada una muestra aleatoria de observaciones [ Y1 , Y 2 , ..., Yn ] en los puntos de observación:

[ X 11 , X 21 , ..., X k1 , X 12 , X22 ,... , X k2 , ..., X 1n , X 2n ,... , X kn ] respectivamente, se establecen las n ecuaciones
siguientes:
Y 1= b 0b1 X 11b2 X 21...bk X k1 1
Y 2= b 0b1 X 12b2 X 22...bk X k2 2
.
Lo que en forma matricial se expresa: Y= Xb+µ, donde: (59)
.
.
Y n = b0 b 1 X 1n b 2 X 2n ...bk Xkn  n
[] [ ] [] []
Y1 1 X11 X 21 ⋯ X k1 b0 1
Y = Y2 X= 1 X12 X 22 ⋯ X k2 b= b1 = 2
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
Yn 1 X 1n X 2n ⋯ X kn bk n
Si suponemos presencia de normalidad:
Y  N Xb, 2 I y  N 0, 2 I donde: Var Y= Var= 2 I (60)
Resulta entonces que Y y  son vectores1 de variables aleatorias independientes normalmente

distribuidas.
La estimación matricial de los parámetros por MCO, da para las ecuaciones normales la misma forma
que para el análisis de regresión simple:

 X ' X b= X ' Y Si  X ' X tiene inversa, entonces: b=
  X ' X−1 X ' Y (61)
1 Matrices de sólo una columna.
29
Es así que la ecuación estimada de regresión es: Y = X b (62)
Las propiedades de los estimadores por MCO [ b0, b1 , ..., bk ] son extensiones de las propiedades de

los estimadores del modelo lineal simple.
2.1.3 Ejemplo y trabajo con matrices en R.
Ejemplo Nº6: Regresión lineal de los años de escolaridad sobre el % de pobreza, el resultado del
SIMCE en matemáticas para los segundos medios y el % de desocupación para las comunas de Santiago el año
2006.
Los años de escolaridad son un indicador importante del nivel BASE DE DATOS Nº6
de progreso cultural y económico de una sociedad. Suponemos que COMUNA
Yi X 1i X 2i X 3i
existen diversos factores que influyen en que una persona continúe sus
estudios o los detenga, entre otros, el nivel de pobreza, los resultados Santiago 13,1 7,3 283 6,2
académicos a nivel de enseñanza media y el porcentaje de Cerrillos 10,4 8,3 259 9,3
desocupación en una población. Cerro Navia 9,1 17,5 215 9,4
La base de datos Nº6 nos entrega información de los años de Conchalí 10,1 8,0 236 4,9
escolaridad  Yi  , el % de población pobre X1i  , los resultados de El Bosque 9,7 15,8 231 10,3
∙ ∙ ∙ ∙ ∙
la prueba SIMCE en matemáticas para los 2º medios  X 2i y el % de ∙ ∙ ∙ ∙ ∙
desocupación X 3i para las comunas del gran Santiago el año 2006. ∙ ∙ ∙ ∙ ∙
San Bernardo 9,7 20,9 246 8,6
San Joaquín 10,7 7,4 233 7,4
San Miguel 12,3 2,5 237 4,6
Aplicaremos una regresión lineal de los años de escolaridad
San Ramón 9,6 16,7 245 7,9
sobre las variables ya enunciadas. Vitacura 14,6 4,4 325 3,2
FUENTE:
Obtengamos los coeficientes de la regresión: Años de escolaridad, % de población pobre,
resultados simce en matemáticas para los 2º medios y % desocupados al 2006:
http://www.bcn.cl/siit/comunas_cifras
SALIDA Nº14 >a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3+a$V4))
Call: >summary(a1)
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Con lo que nuestra ecuación de regresión múltiple
Residuals: queda como:
1.7851 0.3802 0.0646 0.3693 1.1437 Y i = 7,004−0,112∙ X 1i 0,025∙ X 2i −0,152X 3i
−4,089 5 −2,251
Coefficients:
(Intercept) 7.004017 1.572577 4.454 0.000108 *** Probemos la significación estadística de nuestros
a$V2 0.111553 0.027281 4.089 0.000299 *** parámetros estimados:
a$V3 0.024663 0.004933 5.000 2.33e05 *** Para un 95% de significación2 y con 30 grados de libertad
a$V4 0.151626 0.067370 2.251 0.031895 * (nk= 344= 30), calculando con R obtenemos:

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 >qt(0.975,30)
[1] 2.042272
Por lo que nuestros tres coeficientes son significativos al
95%.
Calcularemos ahora los parámetros estimados utilizando el álgebra de matrices en R, esto es,
  X ' X−1 X ' Y

b=
Construimos la matriz X. Para esto convertimos el data.frame que se forma mediante la instrucción
read.table en una matriz con la instrucción as.matrix y añadimos una primera columna de 1's, tal como hemos

2 Hacemos un test de dos colas, con lo que 1− = 1 – 0,05/2 = 0,975.
2
30
definido nuestra matriz X:
>am<as.matrix(a)
>x< cbind(1, am[,2],am[,3],am[,4])
Construimos la matriz Y:
>y<cbind(am[,1])
Calculamos la transpuesta de X:
>xt < t(x)
Y conociendo que la inversa de una matriz la obtenemos con la instrucción solve, la expresión
  X ' X−1 X ' Y tiene su equivalente en R como sigue:
b=
SALIDA Nº 15
>b<solve(xt%*%x)%*%xt%*%y
[,1]
Y llamamos al objeto b, obteniendo (Salida nº15): [1,] 7.00401718
[2,] 0.11155272
>b [3,] 0.02466273
Que como vemos coincide con los resultados ya obtenidos. [4,] 0.15162602
2.2 INTERVALOS DE CONFIANZA
2
2.2.1 La varianza residual: S
Y ' Y −b ' X ' Y
La varianza residual en términos matriciales se define como: S 2 = (63)
n−k
 X ' Y es la suma del cuadrado de los residuos y nk es igual al
donde de manera análoga al ARS, Y ' Y− b'
número de observaciones menos el número de parámetros que figuran en el modelo.
Según R, el error standard residual del ejemplo Nº6 es: 0,6573.
Según la forma algebraica S 2=
∑ e 2i 2
. Verifiquémoslo: S =
12,963
= 0,432 con lo que S= 0,657
n−k 34−4 
Calculemos lo mismo pero en forma matricial con R:
TABLA Nº13
Ya hemos construido nuestras matrices Y, la COMUNA Yi X 1i X 2i X 3i ei e 2i

transpuesta de X y b
Santiago 13,1 7,3 283 6,2 12,229 0,758
 :
Obtengamos la transpuesta de Y y de b Cerrillos 10,4 8,3 259 9,3 11,056 0,430
>yt < t(y) Cerro Navia 9,1 17,5 215 9,4 8,929 0,029
>bt < t(b) Conchalí 10,1 8,0 236 4,9 11,189 1,186
El Bosque 9,7 15,8 231 10,3 9,377 0,104
Entonces las instrucciones en R análogas a ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
Y ' Y −b ' X ' Y

Y ' Y− b' X' Y
y para los estimadores de ∙ ∙ ∙ ∙ ∙ ∙ ∙
n−k n−k San Bernardo 9,7 20,9 246 8,6 9,436 0,070
la varianza residual y la desviación standard residual San Joaquín 10,7 7,4 233 7,4 10,803 0,011
respectivamente son3: San Miguel 12,3 2,5 237 4,6 11,873 0,183
San Ramón 9,6 16,7 245 7,9 9,986 0,149
Vitacura 14,6 4,4 325 3,2 14,043 0,310
∑ e 2i = 12,963
SALIDA Nº16
>(yt%*%ybt%*%xt%*%y)/30 obteniendo: [,1]

[1,] 0.4320875
3 R también es una calculadora.
31
y SALIDA Nº17
>sqrt((yt%*% ybt%*%xt%*%y)/30) obteniendo: [,1]

[1,] 0.6573336
2.2.2 La varianza de los parámetros estimados
1. Cada b  j es un estimador insesgado de b j . Eb j = b j para j= 0,1,2,... , k y

2
2. La varianza de los parámetros verdaderos es: Var b j = C j1   para j= 0,1,2,... , k donde C j1
es el elemento de la diagonal (j+1) de X' X−1
SALIDA Nº18
[1,] [2,] [3,] [4,]
>solve(xt%*%x) =  X ' X−1 = [1,] 5,7233711000 0,0333771990 0,0173353265 0,1389501476
[2,] 0,0333772000 0,0017225115 0,0001005538 0,0012987022
[3,] 0,0173353300 0,0001005538 0,0000563115 0,0003028544
[4,] 0,1389501500 0,0012987022 0,0003028544 0,0105042786
Ahora, la varianza de los parámetros estimados es: Var b j = Cj1  S 2= S 2 b j  para j= 0,1,2,..., k (64)

Calculemos la desviación standard para los parámetros estimados de nuestro ejemplo y comparemos
con los que obtuvimos con R4.
S 2 b0 = C1 S 2= 5,72337110 ∙0,4320875= 2,47299711 S b0 = 1,57257658

S 2 b1 = C2 S2 = 0,00172251∙ 0,4320875= 0,00074428 S b1 = 0,02728147
S b = 0,00493255
2 2
S  b2 = C3 S = 0,00005631∙ 0,4320875= 0,00002433 2
S  b = C S 2= 0,01050428 ∙0,4320875 = 0,00453877 S b3 = 0,06737039

2 
3 4
Como vemos, todas las desviaciones standard de los parámetros estimados coinciden con los
entregados por R.
2.2.3 Los valores t de los parámetros estimados.
 b j −b j 
para j= 0,1,2,... , k (65)
Sb j
es una variable aleatoria t de student con nk grados de libertad.
La estadística apropiada para probar la hipótesis nula: H0 : b j =0 contra cualquier hipótesis alternativa,
b j −b j b j
es la t de student: t=  para j= 0,1,2,... , k con nk grados de libertad.
Sb j  S b j 
Calculemos y observemos que coinciden los valores obtenidos con R:
b0 7,00401718 b1 0,11155272

t 0= = = 4,454 t 1= =− =−4,089

Sb 0  1,57257658 
S b1  0,02728147
b 2 0,02466273 b 3 0,15162602
t 2= = = 5 t 3= =− =−2,251
Sb 2 0,00493255 S b 3 0,06737039
Ya hemos obtenido que para un 95% de significación y con 30 grados de libertad: t 1− 0.05 , 30= 2.042272 ,

2
así los cuatros coeficientes estimados son estadísticamente significativos al 95%.
4 Para evitar errores de redondeo utilizaremos 8 decimales.
32
2.2.4 Construcción de los intervalos de confianza para los parámetros estimados.
El intervalo de confianza del 100 1− % para el parámetro b j resulta:
b j± t  ∙ S b j  j= 0,1,2,. .. , k entonces, como t 1− 0.005 , 30 =2.042272 (66)

 1− , n−k
2 2
b0 ±t ∙ Sb0=
1−
0,05
, 30  7,00401718±2,042272∙ 1,57257658= [ 3,792 ;10,216 ]
2
b1± t 0,05 ∙S b1 = −0.11155272±2,042272∙ 0,02728142= [−0,167;−0,056]

 1− , 30
2
b2± t 0,05 ∙ Sb 2= 0.02466273±2,042272∙ 0,00493255= [ 0,015 ;0,035]

 1− , 30 
2
b3± t 0,05 ∙ Sb 3= −0.15162602±2,042272∙ 0,06737039= [−0,289 ;−0,014 ]

 1− , 30 
2
En R, la instrucción con la que se obtienen los intervalos de confianza es confint. Comparemos con los

resultados ya obtenidos.
SALIDA Nº19
>confint(a, level= 0.95)
2,5% 97,5%
(Intercept) 3,79238725 10,21564712
a$V2 0,16726880 0,05583663
Vemos que ambos resultados coinciden. a$V3 0,01458882 0,03473665
a$V4 0,28921469 0,01403736
2.3 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
Es definido como la proporción de la variación total en Y i explicada por la regresión múltiple de Y
sobre X 1i y X 2i (para el caso de dos variables independientes) y se calcula de la siguiente manera:
Establezcamos las variables en forma de desviación:
xi = X i − X 
 R2 = 1−
∑ e2i
Sean: y i = Yi − Y y
2 2
R se define como 0≤ R ≤ 1 (67)
y i = Y i − Y
 ∑ y2i
Existen varias equivalencias:
R2 =
∑  Y i −Y 2 = ∑ y2i = SCR
= 1−
∑ Yi −Y i 2 = 1− SCE = b1 ∑ Y X 1b 2 ∑ Y X 2 (68)
∑ Yi −Y 2 ∑ y 2i STC ∑ Y i −Y 2 STC ∑ Yi2
Demostremos la última relación por ser la menos evidente:
∑ e 2i = ∑ e i  Yi −Y i = ∑ e i  Y i−b1 X 1i −b 2 X 2i = ∑ e i Y i −b 1 ∑ e i X 1i−b2 ∑ e i X 2i

2 2
∂ ∑ ei ∂ ∑ ei
Por el proceso de MCO:  = − ∑ e X
i 1i = 0 y  = −∑ ei X 2i = 0
∂ b1 ∂ b2
Es entonces que:
∑ e 2i = ∑ e i Y i = ∑  Yi −Y i Y i= ∑ Y i  Y i−b1 X 1i −b 2 X 2i = ∑ Y2i −b 1 ∑ Y i X 1i −b2 ∑ Yi X 2i

Sustituyendo en: R = 1−
2 ∑ e2i obtenemos:
∑ y2i
2
 ∑ Y2i −b 1 ∑ Y i X 1i −b2 ∑ Y i X 2i  2 b1 ∑ Y i X 1i b2 ∑ Y i X 2i
R = 1− 2 o lo que es lo mismo: R =
∑ Yi ∑ Y 2i
33
La inclusión de variables independientes adicionales probablemente incremente el valor SCR para el
mismo STC lo que hace que R2 aumente.
R2 mide la proporción de la variación total de las observaciones con respecto a su media, atribuible a
la ecuación de regresión estimada.
Por si solo, R 2 no puede validar el modelo propuesto, como tampoco un R2 ≈ 1 implica
necesariamente que la ecuación de regresión estimada sea apropiada para predecir.
TABLA Nº14
COMUNA Yi X 1i X 2i X 3i Y i  Y i− Y2  Y i− Y i 2  Y i− Y2
Tenemos entonces que: Santiago 13,1 7,3 283 6,2 12,229 1,674 0,758 211,785
R2 =
∑ yi2 = SCR = 1− SCE equivale Cerrillos 10,4 8,3 259 9,3 11,056 0,015 0,430 53,816
Cerro Navia 9,1 17,5 215 9,4 8,929 4,025 0,029 186,898
∑ yi2 STC STC Conchalí 10,1 8,0 236 4,9 11,189 0,064 1,186 84,227
para nuestro ejemplo a: El Bosque 9,7 15,8 231 10,3 9,377 2,429 0,104 125,055
59,516 12,963 ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
= 1− = 0,821 que ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
72,477 72,477 ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
coincide con el valor entregado por R. San Bernardo 9,7 20,9 246 8,6 9,436 2,249 0,070 125,055
San Joaquín 10,7 7,4 233 7,4 10,803 0,018 0,011 23,585
San Miguel 12,3 2,5 237 4,6 11,873 0,879 0,183 134,608
San Ramón 9,6 16,7 245 7,9 9,986 0,902 0,149 135,312
Vitacura 14,6 4,4 325 3,2 14,043 9,661 0,310 353,041
∑ 59,516 12,963 72,477
2.3.1 2
R 2 ajustado o R
El problema con R2 es que no toma en consideración los grados de libertad. R

 2 se usa para
incorporar el efecto tanto del tamaño de la muestra como del número de parámetros del modelo. R  2 siempre
2
es menor a R y no puede forzarse hacia 1 sólo por el hecho de agregar mas variables independientes al
modelo.
2
 2 que se define como:
Por eso es preferible utilizar R  2= 1−  1−R  n−1
R donde: (69)
 n−k
n : número de observaciones.
k: : número de parámetros estimados.
2
 2= 1− 1−R  n−1 = 1−  1−0,821  33 = 0,803 que coincide con el resultado
Para nuestro ejemplo: R
n−k  30
de R cuadrado ajustado entregado por R.
 2 es:
El rango de valores para R
n−1 
cuando k=1, = 1 y R2 = R
2 ;
n−k 
n−1 
cuando k>1,  1 y R2  R
2 ;
n−k 
n−1 
cuando n es grande, frente a un k dado, ≈ 1 y R2 ≈ R
2 y
n−k 
2
cuando k es grande en relación a n, R será mucho menor que R2 , pudiendo incluso ser negativo.
2
(aún cuando 0≤ R ≤ 1 )
2
La suma del cuadrado de los residuos ∑ e i  , requerido para realizar los test de significación, puede
2 b1 ∑ Y i X 1i b2 ∑ Y i X 2i ∑ e2i

ser determinado sin antes encontrar Y i : Siendo R = , como R2
= 1− ;
∑ Y 2i ∑ y2i
∑ e 2i = 1−R 2 ∑ y 2i Este método implica muchos menos cálculos que utilizando Y i .
34
2.4 PREDICCIÓN
2.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de predicción toman
los valores específicos [1, X 1i , X 2i , ∙∙∙ , X ki ]
Si X es la matriz de los valores de las variables independientes, la cual da origen a la ecuación de
regresión estimada, entonces un vector particular X i se puede denotar como [1, X 1i , X 2i , ∙∙∙ , X ki ] .
La respuesta promedio estimada Y i= X i b será por lo tanto: b0 b 1 X 1 b 2 X 2... b k X k y la estimación
2 ' '
de la varianza real  Var Y i=  I será: S 2 ∙ [X i  X X X i] donde S 2 es , como ya hemos visto, la varianza
−1
residual.
Asumiendo normalidad, un intervalo de confianza del 1001− % para la respuesta promedio en

X i es: Y i ±t 1−  , n−k S ∙ 
[ X'i  X ' X−1 Xi ] (70)
2
2.4.1.1 Cálculo de los intervalos de confianza usando el álgebra de matrices con R.

La expresión que buscamos es: Y i ±t1−  , n−k S ∙  [ X  X X
'
i
' −1
Xi ] . Consideremos el siguiente ejemplo:
2
Ejemplo Nº7: El índice de desarrollo humano
El índice de desarrollo humano (IDH) mide el nivel que ha alcanzado un país en tres indicadores básicos
de bienestar: una vida larga, educación (ponderado en dos tercios la tasa de alfabetización y un tercio el
promedio de las tasas brutas de matrícula primaria, secundaria y terciaria) y un nivel de vida digno, medido por el
PIB per cápita5 (estandarizado en paridad de poder adquisitivo en dólares norteamericanos). El valor de cada
componente se expresa como un valor entre 0 y 1 y se calcula el IDH como el promedio simple de estos
indicadores.
La base de datos Nº7 nos entrega los valores de la espectativa de vida al nacer en años  Yi  , el PIB
PPA per capita (US$) X1i  , y el índice de educación X 2i  para 175 países al 2007.
Ejecutemos una regresión lineal de la espectativa de vida al nacer sobre el PIB PPA per capita y el índice
de educación.
SALIDA Nº20 BASE DE DATOS Nº7
Call: PAÍS Yi X 1i X 2i
lm(formula = a$V1 ~ a$V2 + a$V3)
Afghanistan 43,6 1054 0,35
Residuals: Albania 76,5 7041 0,89
Min 1Q Median 3Q Max Algeria 72,2 7740 0,75
21.344 2.199 1.216 3.632 12.576 Angola 46,5 5385 0,67
Argentina 75,2 13238 0,95
Coefficients: ∙ ∙ ∙ ∙
Estimate Std. Error t value Pr(>|t|) ∙ ∙ ∙ ∙
(Intercept) 3.680e+01 2.283e+00 16.120 < 2e16 *** ∙ ∙ ∙ ∙
a$V2 1.794e04 3.701e05 4.847 2.79e06 *** Vanuatu 69,9 3666 0,73
a$V3 3.665e+01 3.107e+00 11.794 < 2e16 *** Venezuela 73,6 12156 0,92
Viet Nam 74,3 2600 0,81
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Yemen 62,5 2335 0,57
Zambia 44,5 1358 0,68
Residual standard error: 6.07 on 172 degrees of freedom FUENTE:
Multiple Rsquared: 0.6573,Adjusted Rsquared: 0.6533 http://hdrstats.undp.org/es/indicators
>a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1)
5 Se ajusta el ingreso debido a que para lograr un nivel digno de desarrollo humano no se requiere un ingreso ilimitado. En consecuencia, se utiliza
su logaritmo.
35
Nuestra ecuación de regresión múltiple queda como:
Y i = 36,80,0001794∙ X1i 36,65∙ X 2i

16,12 4,847  11,794 
Calculemos la estadística t al 95% de significación:
>qt(0.975,172)
[1] 1.973852
Con lo que nuestros parámetros estimados son estadísticamente significativos al 95%.
SALIDA Nº21
Obtengamos los valores de 
[ X'i  X ' X−1 Xi ] utilizando el álgebra de matrices en R. El
[ X  X X
' ' −1
Xi ]
resultado de estas operaciones lo obtenemos en la salida Nº21. i
0,2104009
>a < read.table('a.txt') 0,1066846
>am<as.matrix(a) 0,0802109
>x< cbind(1, am[,2],am[,3]) 0,0928063
>xt < t(x)
0,1091066
>sqrt(x%*%solve(xt%*%x)%*%xt)
∙
>ad<diag(sqrt(x%*%solve(xt%*%x)%*%xt))
∙
>adt<t(ad)
>adt ∙
0,0889951
0,1010908
Y conociendo que la inversa de una matriz la obtenemos con la instrucción solve, la
0,1016238
  X ' X−1 X ' Y tiene su equivalente en R como sigue:
expresión b= 0,1215859
Hemos obtenido que t 1− 0.05 , 172= 1.973852 y de la salida de R S= 6,07 0,0975262
2
En la tabla Nº15 hemos hecho los cálculos para obtener algebraicamente los valores de los intervalos de
confianza para la variable respuesta estimada Y i :
TABLA Nº15
PAÍS Yi X 1i X 2i Y i [ X  X X 
' ' −1
Xi ] Y i −t 
S [ X 'i X ' X− 1 X i ] Y i t 
S [ X 'i X ' X−1 X i ]
i  
1− ,n −k  1− ,n −k 
2 2
Afghanistan 43,6 1054 0,35 49,963 0,210 47,442 52,484

Albania 76,5 7041 0,89 70,535 0,107 69,257 71,813
Algeria 72,2 7740 0,75 65,603 0,080 64,642 66,564
Angola 46,5 5385 0,67 62,212 0,093 61,100 63,324
Argentina 75,2 13238 0,95 73,846 0,109 72,539 75,153
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Vanuatu 69,9 3666 0,73 64,139 0,089 63,073 65,205
Venezuela 73,6 12156 0,92 72,735 0,101 71,524 73,947
Viet Nam 74,3 2600 0,81 66,953 0,102 65,735 68,171
Yemen 62,5 2335 0,57 58,256 0,122 56,799 59,713
Zambia 44,5 1358 0,68 62,039 0,098 60,870 63,207
La instrucción en R para obtener los intervalos de confianza bajo el contexto de un ARM al 95% de
confianza es: predict.lm(a1,interval="confidence", level = 0.95)
Comparemos con los resultados que ya hemos obtenido previamente:
>a< read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3))
>predict.lm(a1,interval="confidence", level = 0.95)
2.4.2 Intervalo de predicción para la respuesta particular cuando las k variables de predicción toman
los valores específicos [1, X 1i , X 2i ,∙ ∙∙ , X ki ]
Si X es la matriz de los valores de las variables independientes, la cual da origen a la ecuación de
regresión estimada, entonces un vector particular X i se puede denotar como [1, X 1i , X 2i , ∙∙∙ , X ki ] .
36
La respuesta promedio estimada Y i= X i b será por lo tanto: SALIDA Nº22

b0 b 1 X 1 b 2 X 2... b k X k y la estimación de la varianza real
 
' ' fit lwr upr
 Var Y i=  22 I será: S 2 ∙ [1X iX X  X i] donde S 2 es , como
−1
1 49,81284 47,29185 52,33383
ya hemos visto, la varianza residual. 2 70,67753 69,39925 71,95580
Asumiendo normalidad, un intervalo de predicción del 1001− 3 65,67201 64,71094 66,63309
 4 62,31759 61,20560 63,42958
% para la respuesta promedio en X i es: Y i ±t1−  , n−k S ∙ 5 73,98820 72,68090 75,29549
2
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
[1X  X X
'
i
' −1
X i] (71) ∙
171
∙
64,20817
∙
63,14185
∙
65,27450
172 72,69461 71,48336 73,90586
2.4.2.1 Cálculo de los intervalos de predicción usando el álgebra 173 66,94889 65,73125 68,16653
de matrices con R. 174 58,10550 56,64868 59,56233
175 61,96166 60,79312 63,13021

La expresión que buscamos es: Y i ±t1−  , n−k S ∙  [1X X X 
'
i
' −1
X i] . SALIDA Nº23
2
Obtengamos los valores de 
[1X 'i X ' X −1 X i] utilizando el álgebra de matrices en R.
[ 1X  X X
'
i
' −1
Xi ]
El resultado de esta operación lo obtenemos en la salida Nº23.
1,0218950
>a < read.table('a.txt') 1,0056750
>am<as.matrix(a) 1,0032120
>x< cbind(1, am[,2],am[,3]) 1,0042970
>xt < t(x) 1,0059350
>sqrt(1+x%*%solve(xt%*%x)%*%xt) ∙
>ad<diag(sqrt(1+x%*%solve(xt%*%x)%*%xt)) ∙
>adt<t(ad) ∙
>adt 1,0039520
En la tabla Nº16 hemos hecho los cálculos para obtener algebraicamente los valores de 1,0050970
los intervalos de predicción para la variable respuesta estimada Y i : 1,0051500
1,0073640
1,0047440
TABLA Nº16

PAÍS Yi X 1i X 2i Y i [ 1X  X X 
'
i
' −1 
 −1
 ' ' −1
X i ] Y i −t1−  ,n −k S [1X i  X X  X i ] Y i t1−  ,n −k  S [1X i  X X  X i ]
' '
La instrucción
2 2
en R para obtener
Afghanistan 43,6 1054 0,35 49,963 1,022 37,720 62,207 los intervalos de
Albania 76,5 7041 0,89 70,535 1,006 58,486 82,584 confianza bajo el
Algeria 72,2 7740 0,75 65,603 1,003 53,583 77,623
contexto de un
Angola 46,5 5385 0,67 62,212 1,004 50,179 74,244
Argentina 75,2 13238 0,95 73,846 1,006 61,793 85,898 ARM al 95% de
∙ ∙ ∙ ∙ ∙ ∙ ∙ confianza es:
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
Vanuatu 69,9 3666 0,73 64,139 1,004 52,110 76,168
Venezuela 73,6 12156 0,92 72,735 1,005 60,693 84,778
Viet Nam 74,3 2600 0,81 66,953 1,005 54,910 78,996
Yemen 62,5 2335 0,57 58,256 1,007 46,186 70,326
Zambia 44,5 1358 0,68 62,039 1,005 50,001 74,077
SALIDA Nº24
>predict.lm(a1,interval="p", level = 0.95) fit lwr upr

1 49,81284 37,56866 62,05702
Comparemos con los resultados que ya hemos obtenido 2 70,67753 58,62769 82,72736
previamente: 3 65,67201 53,65169 77,69234
4 62,31759 50,28426 74,35092
>a < read.table('a.txt') 5 73,98820 61,93525 86,04115
>a1 < (lm(a$V1~a$V2+a$V3)) ∙ ∙ ∙ ∙
>predict.lm(a1,interval="p", level = 0.95) ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
171 64,20817 52,17897 76,23737
172 72,69461 60,65170 84,73752
173 66,94889 54,90533 78,99244
174 58,10550 46,03542 70,17559
175 61,96166 49,92297 74,00035
37
2.5 EL TEST DE SIGNIFICACIÓN GENERAL DE LA REGRESIÓN: LA ESTADÍSTICA F
2.5.1 La estadística F.
La significación global para la regresión puede ser probada con la proporción de varianza explicada
respecto a la inexplicada. Ésta sigue una distribución F con (k1) y (nk) grados de libertad donde:
∑ y 2i R2
k−1 k−1 demostremos la última igualdad. (72)
Fk−1, n−k= 2
= 2
∑ i
e 1−R
n−k n−k
xi = X i − 
X

Consideremos las variables en forma de desviación: y i = Yi − Y

y i = Yi − Y

2
2
∑ y i ∑ i n−k
y

R2
2 2
k−1 ∑ y i  n−k = ∑ y i R2 n−k  k−1
Resulta así que: = = =
∑ e i ∑ e i k−1 ∑ ei  k−1  1−R2   k−1  1−R2 
2 2 2
n−k ∑ y 2i n−k
2 2
2 ∑ y i = SCR SCE ∑ e i = 1−R 2
Recordemos que: R = 2 y =
∑ yi STC STC ∑ y 2i
donde:
n: número de observaciones.
k: número de parámetros estimados.
Se establece el siguiente set de hipótesis: H0 : b 1= b2 = ...= bk = 0
La hipótesis nula H0 implica que ninguna de las variables independientes ayuda a explicar la variación
de la variable dependiente (referida a su media).
La hipótesis alternativa resulta entonces H1 : bi ≠ 0 al menos para un valor de bi
Un valor alto de F sugiere una relación significativa entre la variable dependiente y las independientes, lo
que nos lleva a rechazar H0 .
Fórmulas para las varianzas explicada e inexplicada (esta última también llamada varianza residual):
Varianza Explicada:
∑  Y i −Y 2 = SCR
=
∑ y 2i (73)
k−1 k−1 k−1
Varianza Inexplicada:
∑  Yi −Y i 2 = SCE
=
∑ e 2i (74)
n−k n−k n−k
Ejemplo Nº8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU
El embarazo adolescente es un problema mundial que acarrea múltiples consecuencias. Una de las más
dramáticas es que éstas jóvenes en su gran mayoría deberán tener la responsabilidad de mantener solas a sus
hijos bajo condiciones económicas muchas veces precarias, negando su propia adolescencia.
El bajo nivel educativo de los padres, las limitadas aspiraciones profesionales de las jóvenes, las actitudes
ambivalentes o positivas hacia el embarazo de las adolescentes, las estudiantes con las calificaciones más bajas
y aquellas quienes se involucran en actividades delictivas han sido identificadas como factores claves al
momento de la iniciación sexual y el primer embarazo.
38
BASE DE DATOS Nº8
Sin embargo, nosotros relacionaremos la tasa de embarazo
adolescente con otros dos factores quizás más relevantemente asociados: el ESTADO Yi X 1i X 2i
consumo de alcohol y las familias monoparentales, pues se ha demostrado
que vivir en un hogar con un solo padre o la ausencia del padre aumenta el Alabama 90 15,73 37
riesgo de embarazo prematuro mientras que los hijos criados por ambos Alaska 73 15,61 30
padres disfrutan de estándares de bienestar más altos en casi cualquier Arizona 104 18,47 33
Arkansas 93 15,65 35
aspecto. Por otro lado, asimismo el consumo inadecuado de alcohol es uno
California 96 15,24 31
de los factores claramente asociados al inicio temprano de relaciones
∙ ∙ ∙ ∙
sexuales y por lo tanto al embarazo adolescente. ∙ ∙ ∙ ∙
La base de datos Nº8 nos entrega los valores de la tasa de embarazo ∙ ∙ ∙ ∙
adolescente para mujeres entre los 15 y los 19 años para el año 2000 (cada Virginia 72 18,28 29
1000 habitantes)  Y i  , el % de personas entre los 12 y 17 años que reportó Washington 75 16,26 29
haber consumido alcohol el mes pasado para el año 2002  X 1i , y el % de West Virginia 67 20,12 62
Wisconsin 55 18,70 31
niños bajo los 18 años viviendo en familias con un solo padre al 2004  X 2i  , Wyoming 77 18,99 28
para los 50 estados FUENTES:
norteamericanos más Washington Tasa de embarazo adolescente en mujeres de 15 a 19 a ños, 2000 (tasa por 1,000)
D.C. http://www.thenationalcampaign.org/statedata/statecomparisions.asp?id=3&sID=18
Primero ejecutemos una % de personas entre los 12 y 17 años que reportó haber consumido alcohol el pasado mes el a ño 2002
http://www.drugabusestatistics.samhsa.gov/2k2State/html/appA.htm
regresión lineal para obtener los Porcentaje de niños bajo 18 años viviendo con familias lideradas por un solo padre 2004
parámetros estimados: http://www.thenationalcampaign.org/statedata/statecomparisions.asp?id=8&sID=5
SALIDA Nº25 >a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1)
Call:
lm(formula = a$V1 ~ a$V2 + a$V3) Nuestra ecuación de regresión múltiple queda como:
Residuals:
Y= 88,5012−2,7093 ∙ X11,1986 ∙ X 2
41.3044 7.1242 0.5424 11.4843 34.3829  4,714 −3,311 4,416
Coefficients:
∑ y2i 8107.66
(Intercept) 88.5012 18.7750 4.714 2.12e05 *** k−1 2
Fk−1, n−k= = F2,48= = 18,766
a$V2 2.7093 0.8183 3.311 0.00177 ** ∑ e 2i 10368.736
a$V3 1.1986 0.2714 4.416 5.69e05 *** 48

n−k
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Que vemos coincide con el resultado entregado por R:
TABLA Nº17
ESTADO Yi X 1i X 2i Y i  Y i− Y2  Y i− Y i 2  Y i− Y2
Verifiquemos Alabama 90 15,73 37 90,232 153,490 0,054 147,793

algebraicamente las relaciones de F Alaska 73 15,61 30 82,167 18,697 84,034 23,455
para nuestro ejemplo (Tabla Nº17). Arizona 104 18,47 33 78,014 0,029 675,260 684,189
Arkansas 93 15,65 35 88,052 104,217 24,486 229,735
California 96 15,24 31 84,368 42,577 135,302 329,677
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Virginia 72 18,28 29 73,735 16,879 3,009 34,141
Washington 75 16,26 29 79,207 1,862 17,702 8,083
West Virginia 67 20,12 62 108,303 927,829 1705,961 117,571
Wisconsin 55 18,7 31 74,994 8,117 399,756 521,803
Wyoming 77 18,99 28 70,612 52,282 40,802 0,711
Y = 77,843
∑ 8107,660 10368,736 18476,745
39
Si el valor F calculado excede el valor tabulado de la F específica al nivel de significación elegido y los
grados de libertad dados, se acepta H1 . En nuestro ejemplo, el valor F calculado para un 95% de significación
con 2 y 48 grados de libertad es:
>qf(0.95,2,48)
[1] 3.190727 3,191 < 18,766 con lo que aceptamos la hipótesis alternativa.
F puede ser grande y sin embargo ninguno de los parámetros estimados ser estadísticamente
significativos. Esto puede ocurrir cuando las variables independientes están altamente correlacionadas las unas
con las otras (este problema, denominado multicolinealidad, lo estudiaremos en la sección 3, capítulo 4:
Multicolinealidad).
2.5.2 Tabla ANOVA para el modelo lineal general.
TABLA Nº18
variación libertad Cuadrados Medios F
2
∑ Y i  SCR
Regresión k−1 SCR= b' X' Y−' SCR
n k−1
k−1 CMR
=
SCE SCE CME
Error n−k SCE= Y ' Y−b' X 'Y  n−k 
n−k 
2
∑ Y i 
Total n−1 STC= Y 'Y −
n
2.5.3 Cálculo de la tabla ANOVA utilizando el álgebra de matrices en R.
TABLA Nº19
Calculemos la matriz X, la Y, la traspuesta de X, la transpuesta de Y, b
y la transpuesta de b: Suma de los
cuadrados
>a < read.table('a.txt') 2
∑ Y i 
>am<as.matrix(a) SCR= b' X' Y ' − = 8109,135
>x< cbind(1, am[,2],am[,3]) n
>y<cbind(am[,1])
>xt < t(x) SCE= Y ' Y−b' X ' Y = 10368,74
>yt < t(y)
>b<solve(xt%*%x)%*%xt%*%y 2
>bt < t(b) ∑ Y i 
STC= Y 'Y − = 18477,835
n
Calculemos las siguientes expresiones para obtener los cuadrados medios:
Y'Yb'X'Y = yt%*%y bt%*%xt%*%y = 10368.74

b'X'Y = bt%*%xt%*%y = 317145.3
Y'Y = yt%*%y = 327514
2
∑ Yi 
Y como por otro lado obtenemos que: = 309036,165
n
TABLA Nº20
variación libertad Cuadrados Medios F
317026,486
Regresión 2 8109,135
2 CMR
= 18,77
CME
10368,74
Error 48 10368,74
48
Total 50 18477,835
40
Si un valor de F es lo suficientemente grande, entonces una porción considerable de la variación en las
observaciones puede atribuirse a la regresión de Y sobre las variables de predicción tal como se encuentran
definidas por el modelo.
∑ y2i R2
k−1 k−1
Hemos visto que F se relaciona con R de la siguiente manera: F= 2
= 2
∑ i
e 1−R
n−k n−k
R2 0,439
 
k−1 2 0,2195
Para nuestro ejemplo: R2 = 0,439 = = = 18,781= F
1−R 2 0,561 0,0116875
 
n−k 48
La estadística F como una prueba de significación del poder explicativo de todas las variables
independientes conjuntamente, es aproximadamente equivalente a probar la significación de la estadística
R2 . Si H1 es aceptada podríamos esperar que R2 y por lo tanto F sean altas.
2.6 LOS COEFICIENTES DE CORRELACIÓN PARCIAL (CCP)
Los CCP miden la correlación entre la variable dependiente y una variable independiente después de
excluir la influencia común de las otras variables independientes en el modelo (manteniéndolas constantes). Los
CCP son usados en el análisis de regresión múltiple para determinar la importancia relativa de cada variable
independiente en el modelo. La variable independiente con el mayor CCP con respecto a la variable
dependiente es la que más contribuye al poder explicativo del modelo.
Por ejemplo, rY X X es la correlación parcial entre Y y X 1 después de remover la influencia de X 2
1 2
tanto de Y como de X 1 .
Para el caso de un modelo con dos variables independientes:
r Y X −r Y X r X X2 r YX −r Y X r X X2
rY X X = rY X X =
1 2 1 2 1 1
y Donde: (75)
1 2
1−r 1−r2
X 1 X2
2
YX 2
2 1
1−r 1−r2
X 1 X2
2
YX 1
rY X
es el coeficiente de correlación simple entre Y y X 1 ,
1
rY X
es el coeficiente de correlación simple entre Y y X 2 y
2
r X X es el coeficiente de correlación simple entre X 1 y X 2
1 2
Los coeficientes de correlación parcial varían de 1 a 1 (la misma variación que los coeficientes de
correlación simple) y tienen el signo del parámetro estimado correspondiente ( r Y X X tiene el mismo signo que 1 2
b y r Y X X tiene el mismo signo que b ) La suma de los CCP entre las variables independientes y la
1 2 1 2
variable dependiente en el modelo no debe superar el valor de 1.
Para nuestro ejemplo calculemos los coeficientes de correlación parcial:
La siguiente instrucción en R calcula una matriz de correlaciones con 1 en la diagonal, las correlaciones
simples en el triángulo inferior y las correlaciones parciales en el triángulo superior. (Debemos bajar y llamar la
librería ggm)
SALIDA Nº26
>a < read.table('a.txt') V1 V2 V3 V4
>library(ggm) V1 1,0000000 0,5982236 0,6741887 0,3800718
>correlations(a) V2 0,7392548 1,0000000 0,2122357 0,0010714
V3 0,8006118 0,5062053 1,0000000 0,0127640
V4 0,6750090 0,4970814 0,5462974 1,0000000
rY X
= 1 Se refiere al caso donde hay una perfecta relación lineal negativa entre Y y X 1 después de
1 X2
remover la influencia común de X 2 sobre Y y X 1 .
41
r Y X X = 1 Se refiere al caso donde hay una perfecta relación lineal positiva entre Y y X 1 después de
1 2
remover la influencia común de X 2 sobre Y y X 1 .
r Y X X = 0 Se refiere al caso en el que no existe una relación lineal entre Y y X 1 después de remover la
1 2
influencia común de X 2 sobre Y y X 1 . Por consiguiente X 1 puede ser omitido en la regresión.
Existe un método para remover la influencia de X 2 tanto de Y como de X 1 al encontrar r Y X X . 1 2
Para remover la influencia de X 2 sobre Y, hacemos una regresión de Y sobre X 2 y encontramos el

residuo e 1= Y . Para remover la influencia de X 2 sobre X 1 , hacemos una regresión de X 1 sobre X 2 y
✳
encontramos el residuo e 2= X 1
✳
Y y X 1 representan las variaciones en Y y X 1 respectivamente sin la influencia de X 2 . Por lo

✳ ✳
tanto, el coeficiente de correlación parcial es simplemente el coeficiente de correlación simple entre los residuos
Y ✳ y X 1 esto es, r Y X X = rY X .
✳
✳ ✳
1 2 1
2.7 ANÁLISIS DE LOS RESIDUOS
El análisis de los residuos es el estudio más importante dentro del modelo de regresión, pues de una
manera muy efectiva podemos detectar sus posibles deficiencias. Asimismo, con este análisis podemos descubrir
violaciones de las suposiciones subyacentes al modelo.
4 son las deficiencias más comunes en el análisis de regresión:
1. Que estemos en presencia de una relación no lineal.
2. Que la varianza del error 2 no sea constante (heterocedasticidad).
3. Que una o más de las variables de predicción que ejercen una influencia importante no estén incluídas
en el modelo.
4. Que existan observaciones discrepantes o aberrantes (aquellas cuyos valores se encuentran alejados del
comportamiento general del resto de los datos).
Recordemos que un residuo se define como: e i = Y i − Y i ∀ i= 1,2,... n donde e i es una estimación
del verdadero error no observable i
ei
Se grafican los valores de Y i versus los residuos estandarizados: e s= dado que la media de los
S
residuos es igual a cero y S es la desviación standard residual:  CME (el error cuadrático medio es la varianza
2
de los residuos, que es una estimación de i )
El análisis de los residuos es un análisis de sus gráficas. Una ecuación de regresión correcta no develará
ningún patrón entre los e s y los Y i , los e s tenderán a encontrarse dentro de una banda horizontal centrada
alrededor del cero, sin ninguna tendencia a los positivos o los negativos y muy raramente más allá de ±3 . Si n
es muy grande, la distribución de los e s deberá encontrarse aproximada a una distribución normal standard.
Situación contraria indicará una deficiencia en el modelo.
Examinemos tres casos: GRÁFICA Nª 20

1. Acá existe un efecto cuadrático presente en una
variable de predicción, por lo cual, esa variable
independiente debe introducirse como un término
cuadrático en el modelo.
42
GRÁFICA Nª 21
2. Modelos con varianza del error no constante

(heterocedáticos)
Deben emplearse mínimos cuadrados con factores de

peso (donde los pesos son inversamente proporcionales a la
varianza de los errores) para estimar los coeficientes de
regresión.
GRÁFICA Nª 22

3. Cuando una variable que se ha eliminado muestra
una fuerte asociación lineal con los residuos debe incluirse
en el modelo de regresión.
Dos ideas importantes:
1. Una de las suposiciones de la estimación por
mínimos cuadrados es que el conjunto de datos con los que
se trabaja es típico de la situación para la cual se intenta
identificar una buena ecuación de predicción.
2. En una ausencia clara de evidencia de error, la
observación discrepante (aberrante) puede ser la única
información con respecto a la respuesta y ser vital para el
entendimiento del fenómeno.
43
3.1 AUTOCORRELACIÓN GRÁFICA Nº23

3.1.1 ¿QUÉ ES LA AUTOCORRELACIÓN?
Si se observa la tasa de desempleo o las

semanas promedio en el desempleo en el mercado del
trabajo en una economía, es común encontrar que esos
indicadores suban o bajen a lo largo de los meses en
sucesión. La gráfica nº23 nos entrega la tasa de
desempleo y la duración en semanas del mismo para
EE.UU entre Enero de 1980 y Julio del 2009. Obviamente
en situaciones como ésta, el supuesto de no correlación
serial de los errores subyacente al método de MCO no se
cumple.
El supuesto de no correlación serial de los errores
establece que éstos (o sus estimaciones, los residuos)
deben estar distribuidos aleatoriamente, esto es, cada
i e i  no está influenciado por el error (el residuo)
de cualquier otra observación (Gráfica nº24). En
lenguaje formal, esto supone que la covarianza1 entre
cualquier par de errores es 0:
E t  t s= 0 ∀ s ≠0 (76)
GRÁFICA Nº24 Si estos errores (residuos) presentan algún tipo de patrón, se dice
que existe autocorrelación, simbólicamente expresada como:
E t  t s≠ 0 ∀ s ≠0 (77)
pudiendo existir tanto en series de tiempo (correlación temporal),

como en datos de sección transversal (correlación espacial), siendo
el primer caso mucho mas común que el segundo.
El problema es que cuando los estimadores de los parámetros
son obtenidos en presencia de autocorrelación, dejan de ser
eficientes, es decir, dejan de ser los que más cercanos están a ser
estadísticamente significativos que cualquier otro estimador (gráfica
nº 25).
GRÁFICA Nº25

Se generan así errores standard sesgados2 y por lo

tanto pruebas estadísticas e intervalos de confianza
incorrectos.
Cuando el supuesto de no autocorrelación es violado
es necesario formular el modelo de regresión de modo más
general prescindiendo de esta hipótesis. Este modelo se
denominará modelo de regresión lineal generalizado y su
estimación se hará aplicando métodos distintos a los de los
MCO.
1 La covarianza refleja la relación lineal que existe entre dos variables y se define como: Cov  XY=

∑ x i y i = ∑  X i − X Y i − Y 
n−1 n−1
2 Esto es porque : 
E b≠ b
44
Problemas en el análisis de regresión: Autocorrelación
3.1.1.1 Autocorrelación en datos de sección transversal.
La autocorrelación espacial ocurre cuando los errores están geográficamente relacionados. Por ejemplo,
una ciudad ve un repunte en sus tasas de criminalidad por lo que decide aumentar su dotación policiaca. Al año
siguiente su tasa de criminalidad baja notoriamente. Una ciudad vecina, que no aumentó su dotación policial,
encuentra que presenta un repunte de su tasa de criminalidad sobre el mismo periodo.
Otro ejemplo: tenemos datos de corte transversal que consideran el gasto en consumo sobre el ingreso
familiar. Un incremento del gasto de una familia puede afectar el gasto en consumo de otra, al estimular a esta
familia a incrementar sus gastos si quiere 'mantenerse a la altura' de la otra.
Es importante recordar que en los análisis de sección transversal, el orden de los datos debe obedecer a
cierta lógica para darle sentido sociológico a cualquier decisión de si hay presencia de autocorrelación espacial
o no.
3.1.1.2 Autocorrelación en series de tiempo.
Consideremos la serie temporal del número de homicidios en una ciudad en un lapso de tiempo. Existen
razones para creer que la cantidad de estos delitos está influenciado por los que se han cometido en el pasado.
(una sociedad puede volverse mas 'anómica' en con el transcurso del tiempo). Para tablas en las cuales los datos
siguen un orden natural sobre el tiempo, las observaciones sucesivas tienen una alta probabilidad de exhibir
intercorrelación, especialmente cuando el intervalo entre las sucesivas observaciones es corto, como un día, una
semana o un mes.
3.1.1.3 Algunos patrones de autocorrelación:
Tendencia cuadrática. Tendencia cíclica.
Tendencia ascendente. Tendencias lineales y cuadráticas.
45
3.1.2 ¿POR QUÉ OCURRE LA AUTOCORRELACIÓN?
1. Por inercia: En sociología prácticamente no existen variables que cambien inmediatamente a medida
que cambia otra relacionada a ella. Existe una tendencia que se opone al cambio, una 'inercia' que hace que
valores pasados de un regresor influyan sobre los valores actuales del mismo, ya sea temporal o espacialmente.
2. Cuando variables fundamentales en un modelo de regresión son excluídas. Al inicio de un análisis de
regresión el investigador debe poseer un modelo verosímil, pero que muchas veces resulta no ser el mejor. Si al
graficar los residuos e i  obtenidos de la regresión ajustada, se observan patrones de autocorrelación, esto
puede sugerir que importantes variables que quizás fueron candidatas pero que no fueron incluidas en el modelo
(por cualquier razón) deben ser incluídas.
A menudo la inclusión de aquellas variables remueve el patrón de correlación observado entre los
residuos.
Por ejemplo, supongamos que tenemos el siguiente modelo válido en una serie de tiempo (por ello el
subíndice t):
Y t = b 0b1 X 1t b2 X 2t b 3 X3t  t pero que por alguna razón consideramos el siguiente:
Y t = b 0b1 X 1t b 2 X 2t  t donde t = b3 X 3t t
El error t revelará un patrón sistemático, ya que los valores de X 3t afectan a Y t , creando una
autocorrelación falsa que desaparece al correr el modelo correcto.
3. Cuando no aplicamos una forma funcional correcta. Consideremos el siguiente modelo de regresión
lineal:
Y t = b 0b1 X 1t b2 X 21t t pero erróneamente ajustamos el modelo siguiente: Y t = b 0b1 X 1t t
2
GRÁFICA Nº30 donde t = b 2 X 1t  t
La curva que corresponde al modelo verdadero se muestra junto a la
errónea recta de regresión asociada (gráfica nº30).
Entre A y B la la recta de regresión sobreestima el valor Y t , como así
más allá de esos puntos lo subestima. Esto es esperado, puesto que el error
2
es t = b 2 X 1t  t y por lo tanto captura el efecto sistemático del término
b X 2 en el valor de Y t . En este caso, t presentará
2 1t
autocorrelación por el uso de una incorrecta forma funcional.
4. Decisiones implementadas en el regresando, producto de la influencia del comportamiento de los
regresores3. Consideremos el modelo:
Q t = b0 b1 P t−1 t donde Q es la cantidad y P es el precio de una mercancía.
Supóngase que al final del periodo t, el precio P t resulta ser inferior al P t−1 , por lo tanto, en el periodo

t+1 los productores pueden decidir producir menos de lo que produjeron en el periodo t.
Obviamente, en esta situación no se espera que los errores t estén distribuidos aleatoriamente porque
si los productores sobreproducen en el año t es probable que reduzcan su producción en t+1, lo que lleva a un
patrón autorregresivo4.
5. Rezagos: Se ha observado que las ventas de una mercancía dependen, además del gasto en
publicidad, de las ventas del periodo previo, esto es: V t = b0b 1 Pt b 2 V t−1 t donde V t y Pt son las ventas
y el gasto en publicidad en el periodo t, y V t−1 las ventas en el periodo t1. (Esquema autorregresivo)
Si no consideramos el término retrasado, el error resultante reflejará un patrón sistemático debido a la
influencia de la propaganda de las ventas pasadas sobre las ventas actuales.
3 Este fenómeno es conocido como el efecto cobweb.
4 En modelos autorregresivos el error del modelo de regresión lineal esta relacionado con su valor pasado de la manera::  t=  t−1
46
6. 'Manipulación' de los datos.
En análisis empíricos, los datos en bruto son a menudo 'manipulados'. Por ejemplo, en regresiones de

series de tiempo que involucran datos trimestrales, tales datos son usualmente derivados desde los datos
mensuales por la suma simple de tres observaciones mensuales divididas por 3.
Este promedio introduce suavizamientos en las fluctuaciones existentes en los meses. Por lo tanto, el
gráfico de los datos trimestrales luce mucho mas suave que los datos mensuales y este suavizamiento podrá
provocar un patrón sistemático en los errores, introduciendo así autocorrelación.
Otra forma de manipulación es la interpolación o extrapolación de datos. Por ejemplo, cada 10 años se
practica un censo de población. Supongamos el último en el 2000 y el anterior en 1990. Si hay necesidad de
obtener datos de algunos de los años del periodo intercensal (1990; 2000) una práctica común es interpolar sobre
la base de un supuesto adhoc.
Todas estas técnicas de manipulación de datos pueden imponer sobre los datos patrones sistemáticos
que podrían no existir en los datos originales.
7. La autocorrelación puede ser inducida como resultado de la transformación del modelo original.
Consideremos el siguiente modelo:
Y t = b 0b1 X t t donde: Y t = Gastos en consumo y X t = Ingreso (78)

Si la ecuación planteada resulta válida, también lo será para un periodo anterior, esto es, para (t1).
Entonces la ecuación queda como:
Y t−1= b 0b1 X t−1 t−1 (Forma de nivel) (79)

Si restamos a la primera expresión la segunda tenemos:
Y t − Y t−1 = b1  X t −X t−1 t − t−1 =  Y t= b1  X t  t (Primera forma de diferencia), donde:

 : Primer operador de diferencia.
Para nuestros propósitos podemos escribir lo anterior como:  Y t = b1  X t t
Si en Y t−1= b 0b1 X t−1t−1 X e Y representan los logaritmos del gasto en consumo e ingreso, entonces

en:  Y t = b1  X t  t ,  Y y  X representarán cambios en sus respectivos logaritmos. Pero un cambio en
el logaritmo de una variable es un cambio relativo o porcentual, si aquel es multiplicado por 100. Así en vez de
estudiar relaciones entre variables en la forma de nivel, quizás estemos más interesados en sus relaciones en la
forma de diferencia.
Si el término del error en Y t = b0 b 1 X t t satisface los supuestos standard del método de MCO
(específicamente el de no autocorrelación) puede demostrarse que el error t está autocorrelacionado5.
Modelos como  Y t = b1  X t t son conocidos como modelos de regresión dinámicos, esto es,
modelos que incluyen regresandos rezagados.
3.1.3 ¿CÓMO SE IDENTIFICA UNA AUTOCORRELACIÓN?
Recordemos que el supuesto de no autocorrelación del modelo clásico de regresión lineal se refiere a los
errores t , los cuales no son directamente observables. Con lo que contamos en vez de ellos son sus
estimaciones, los residuos e t , que obtenemos por el procedimiento usual de MCO.
A pesar de no ser los e t lo mismo que los t , muy a menudo un examen visual de los residuos nos da
algunas pistas sobre la probable presencia de autocorrelación en los t . Incluso, un examen visual de los e t o
2
e t puede entregar información útil no solamente de autocorrelación, sino que también de heterocedasticidad
(que veremos en el próximo capítulo) y sesgo de especificación6.
3.1.3.1 La estadística d de DurbinWatson.
El test mas famoso para detectar autocorrelación es el DurbinWatson, cuya gran ventaja es que se basa
en los е t . Se define como como:
5 La demostración de esto excede los propósitos de este libro.
6 Es el sesgo causado por la omisión de variables relevantes.
47
n
∑  e t −e t−12
d= t=2
(80)
n
2
∑e t
t=1
∑  е t −е t−12 = ∑ е2t ∑ е 2t−1 −2∑ е t е t−1

d= Como ∑ е 2t y ∑ е 2t−1 difieren sólo en una observación,
∑ е 2t ∑ е2t
podemos considerarlos aproximadamente iguales, por lo que:
d≈ 2 1−
∑ е t еt−1  ∑ еt е t−1
2 . Definamos:  = como un estimador del coeficiente de autocorrelación
∑ еt ∑ е2t
de primer orden  , entonces: d≈ 2 1−   y como −1≤≤1 , esto implica que 0≤d≤4
Si no hay correlación lineal de primer orden  =0 y d= 2.
Si existe perfecta autocorrelación de primer orden positiva  =1 y d= 0
Si existe perfecta autocorrelación de primer orden negativa  =−1 y d= 4
Debemos comparar la d que obtenemos con el valor tabulado de ella a los correspondientes grados de
libertad dados y significación elegida.
Existen ciertos supuestos subyacentes a la estadística d:
1. El modelo de regresión incluye el término de intersección. Si este no está presente como en el caso de
una regresión a través del origen, es esencial correr de nuevo la regresión incluyendo el término de intersección
para obtener la suma de los cuadrados del error (SCE)
2. Las variables independientes son no estocásticas o ajustadas en muestras repetidas.
3. Los errores t son generados por un patrón autorregresivo de primer orden:
t =  t−1t (81)
Por lo tanto, la estadística d no puede ser usada para detectar esquemas autorregresivos de

orden superior.
4. Se supone que los errores t están normalmente distribuidos.
5. El modelo de regresión no incluye el valor atrasado de la variable dependiente como una de las
variables de predicción. Así el test es inaplicable a modelos de regresión dinámicos del tipo:
Y t = b 0b1 X 1t b2 X 2t ...bk X kt  Y t−1t (82)
donde Y t−1 es el valor de un atraso de Y t
6. No hay observaciones perdidas en los datos.
A diferencia de t, F o 2 , no existe un único valor crítico para aceptar o rechazar la hipótesis nula de
que no existe correlación serial de primer orden en los errores i .
Estos límites sólo dependen del número de observaciones n y el número de variables independientes k.
Si existe autocorrelación positiva, los е t estarán agrupados y sus diferencias por lo tanto tenderán a ser
pequeñas. Por el contrario, si existe autocorrelación negativa, un е t positivo será seguido por un е t−1 negativo
con mucho mas frecuencia que en el caso anterior, lo que haría más grande el numerador que el denominador.
Recordemos que d=
∑  е t− еt−12
∑ е2t
48
3.1.3.1.1 Los pasos para aplicar la prueba d:
1. Se corre una regresión por MCO y se obtienen los residuos.
2. Se calcula d.
3. Para el tamaño de la muestra y el número de variables independiente dados, se encuentran los valores
críticos dInferior y dSuperior
4. Se toman decisiones de acuerdo a los siguientes sets de hipótesis:
H0 : = 0
4.1. Se rechaza H0 al nivel  si 0 d dinferior , esto es, si hay evidencia estadísticamente
H1 :  0
significativa de una autocorrelación positiva.
H0 : = 0
4.2. Se rechaza H0 al nivel  si 4−dinferior  d 4 , esto es, si hay evidencia
H1 :  0
estadísticamente significativa de una autocorrelación negativa.
Notemos que la zona de indecisión donde d no es concluyente se estrecha medida que el tamaño de la
muestra se incrementa.
Si bien el test DurbinWatson es un test cuantitativo para determinar la presencia de autocorrelación de
primer orden, el método gráfico es poderoso y sugestivo aunque por naturaleza subjetivo.
3.1.3.2 Método informal (gráfico) para la autocorrelación de primer orden negativa.
Al graficar los residuos versus el tiempo, si éstos están autocorrelacionados negativamente, se obtendrá
una gráfica como la que muestra la figura nº31:
Autocorrelación negativa:
Los signos de los residuos en el tiempo cambian

continuamente.
Si los residuos están
correlacionados
negativamente, al graficar
los e t contra los e t−1
obtendremos una gráfica
como la que muestra la
figura nº32:
Notemos del gráfico lo
siguiente: en el cuadrante I
se ubican los residuos que
en el tiempo pasan de ser negativos a positivos y en el III, los
que pasan de positivos a negativos.
La tabla nº21 nos entrega los valores de residuos que
están autocorrelacionados negativamente.
Asumamos que estos residuos están estandarizados7,
para así trabajar con números puros8. Grafiquemos estos
residuos contra el tiempo (gráfica nº33):
>plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos autocorrelacionados ","negativamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>lines(a$V1, lwd=3, col=4)
>x < seq( 0, 30, length = 100)
>lines(x, xx, type="l", lwd=3, col= 'red')
et
7 Los residuos estandarizados son simplemente los et divididos por el error standard de la regresión, es decir:

8 Tengamos en cuenta que e t y  están medidos en las unidades en las cuales el regresando Y i es medido, por lo que los residuos
estandarizados son números puros (desprovistos de unidad de medida) y pueden ser comparados con los residuos estandarizados de otras
regresiones.
49
GRÁFICA Nº33
TABLA Nº21 Observemos que el signo de los residuos cambia
sucesivamente.
et t Ahora grafiquemos los e t versus los e t−1 para
0,7 1
nuestro ejemplo (tabla nº22) nótese que perdemos
2,0 2 una observación:

1,9 3
2,8 4
1,8 5 >par(bg = "Ivory 2")
∙ ∙ >plot(a$V2, a$V1, col=3, xlab='e t1', ylab='e t',
∙ ∙ cex.lab=1,family='NewCenturySchoolbook')
∙ ∙ >title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),
1,6 19 font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
1,2 20 >x < seq( 3, 3, length = 100)
2,2 21 >lines(x, xx, type="l", lwd=3, col= 'red')
1,1 22 >lines(xx, x, type="l", lwd=3, col= 'red')
2,4 23
GRÁFICA Nº34
TABLA Nº23
TABLA Nº22
t e t−1 et e 2t e t−e t− 12
t et e t− 1
1 0,7 0,49
2 2,0 0,7 4,00 7,29 1 0,7
3 1,9 2,0 3,61 15,21 2 2,0 0,7
4 2,8 1,9 7,84 22,09 3 1,9 2,0
5 1,8 2,8 3,24 21,16 4 2,8 1,9
∙ ∙ ∙ ∙ ∙ 5 1,8 2,8
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
19 1,6 2,1 2,56 13,69 ∙ ∙ ∙
20 1,2 1,6 1,44 7,84 19 1,6 2,1
21 2,2 1,2 4,84 11,56 20 1,2 1,6
22 1,1 2,2 1,21 10,89 21 2,2 1,2
23 2,4 1,1 5,76 12,25 22 1,1 2,2
2,4 23 2,4 1,1
∑ 67,85 187,23 2,4

Calculemos la estadística DurbinWatson para determinar la existencia de autocorrelación en forma

algebraica (tabla nº23):
n
∑  e t−e t−12 187,23

t=2
d= n
= = 2,759
67,85
∑ e 2t
t=1
Ahora, el valor tabulado de DW para el tamaño n, el número de parámetros estimados y el nivel de
significación elegido es:
n= 23, k= 1 al 95% de significación: dinf = 1,257 y dS up= 1,437
0 1,257 1,437 2,563 2,743 4

Como 2,743 < 2.759 existe autocorrelación negativa.
50
3.1.3.3 Método informal (gráfico) para la autocorrelación de primer orden positiva.
GRÁFICA Nº35
Al graficar los residuos versus el tiempo, si éstos están autocorrelacionados

positivamente, se obtendrá una gráfica como la que muestra la nº35:

GRÁFICA Nº36
Autocorrelación positiva:
Los signos de los residuos en el tiempo cambian pocas
veces.
Si los residuos están correlacionados positivamente, al
graficar los e t contra los e t−1 obtendremos una gráfica
como la nº36:
Notemos del gráfico lo siguiente: en el cuadrante II se
ubican los residuos que permanecen positivos
secuencialmente y en el IV, los que permanecen negativos
secuencialmente.
La tabla nº24 nos entrega los valores de residuos que
están autocorrelacionados positivamente. Asumamos que
están estandarizados. Grafiquemos estos residuos contra el
tiempo (gráfica nº37):
>plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos autocorrelacionados", "positivamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>lines(a$V1, lwd=3, col=4)
>x < seq( 0, 30, length = 100)
GRÁFICA Nº37
TABLA Nº25
TABLA Nº24
t et e t−1
Observemos et t
que el signo de los 1 1,2
residuos permanece 1,2 1 2 1,9 1,2
1,9 2
agrupado a 3 2,4 1,9
2,4 3
intervalos. 4 0,3 2,4
0,3 4
Ahora 5 1,6 0,3
1,6 5
∙ ∙ ∙
grafiquemos los e t ∙
∙ ∙ ∙
∙
versus los e t−1 para ∙ ∙ ∙
∙
nuestro ejemplo 2,2 19 19 2,2 0,6
(Tabla nº25): 1,3 20 20 1,3 2,2
0,9 21 21 0,9 1,3
2,1 22 22 2,1 0,9
0,3 23 23 0,3 2,1
0,3
51
>plot(a$V2, a$V1, col=3, xlab='e t1', ylab='e t', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x < seq( 3, 3, length = 100)
>lines(xx, x, type="l", lwd=3, col= 'red')
GRÁFICA Nº38
TABLA Nº26

Calculemos t et e t− 1 e 2t e t−e t− 12
algebraicamente la
estadística DurbinWatson 1 1,2 1,44
para determinar la existencia 2 1,9 1,2 3,61 0,49
3 2,4 1,9 5,76 0,25
de autocorrelación (tabla
4 0,3 2,4 0,09 4,41
nº26): 5 1,6 0,3 2,56 1,69
∙ ∙ ∙ ∙ ∙
n
∙ ∙ ∙ ∙ ∙
∑  e t −e t−12 56,49 ∙ ∙ ∙ ∙ ∙
t=2
d= n
= 19 2,2 0,6 4,84 2,56
2 62,57
∑e t
20 1,3 2,2 1,69 0,81
t=1 21 0,9 1,3 0,81 0,16
22 2,1 0,9 4,41 1,44
d= 0,903 23 0,3 2,1 0,09 3,24
0,3
∑ 62,57 56,49
Ahora, el valor tabulado de DW para el tamaño n, el número de parámetros estimados y el nivel de
significación elegido es:
n= 23, k= 1 al 95% de significación: dinf = 1,257 y dS up= 1,437
0 1,257 1,437 2,563 2,743 4
Como 0,903 < 1,257 existe autocorrelación positiva.
Ejemplo Nº9: Suicidio y desempleo en Japón (19532004)
BASE DE DATOS Nº3
El suicidio en Japón, al contrario que en occidente, no es tratado como un tabú,
es más, muchas veces es considerado como un acto honorable, sobre todo en hombres Año Xi
Yi
de mediana edad que ya no son capaces de mantener económicamente a sus familias,
pues en esta sociedad la vergüenza y la falta de prestigio asociadas al el hecho de no 1948 18,7 0,7
tener trabajo es enorme. 1949 20,9 1,1
Como causas del suicidio en este país se pueden consideran las recesiones 1950 24,1 1,3
económicas que generan desempleo, el fin del modelo japonés de bienestar, la crisis en 1951 21,8 1,1
1952 21,8 1,3
las estructuras familiares y la influencia de la cultura budista imperante entre los
∙ ∙ ∙
japoneses que no estigmatiza el suicidio.
∙ ∙ ∙
La base de datos nº3 nos entrega los valores la tasa de suicidio en hombres por ∙ ∙ ∙
cada 100.000 habitantes  Yi  y la tasa de cesantía en % de la fuerza laboral para 2000 35,2 4.9
hombres mayores de 15 años  Xi  para Japón entre los años 1948 y 2004. 2001 34,2 5.2
2002 35,2 5.5
Para orientarnos, grafiquemos estas variables y la recta de regresión asociada a
2003 38,0 5,5
ellas (gráfica nº39):
2004 35,6 4,9
FUENTE:
http://www.stat.go.jp/english/data/chouki/index.htm
52
>plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre las tasas de suicidio", "y desempleo en
Japón",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº39
SALIDA Nº27
Call:
Residuals:
4.4460 2.2741 0.7309 1.8405 7.5832
Coefficients:
(Intercept) 14.6590 0.8453 17.34 <2e16 ***
a$V2 4.1432 0.3242 12.78 <2e16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Multiple Rsquared: 0.748,Adjusted Rsquared: 0.7434
SALIDA Nº28
Y determinemos la presencia de autocorrelación:
DurbinWatson test
>library(lmtest)
>library(MASS)
>a1 < (lm(a$V1~a$V2)) data: lm(a$V1 ~ a$V2)
>summary(a1) DW = 0.4026, pvalue = 2.934e15
>dwtest (lm(a$V1~a$V2)) alternative hypothesis: true autocorrelation is greater than 0
El valor tabulado para los valores límites de la estadística DurbinWatson es para 50 grados de libertad, 1
variable independiente al 95% de significación:

0 1,503 1.585 2,597 2,415 4
Como 0,4026 < 1,503 existe autocorrelación positiva.
Grafiquemos los residuos estandarizados versus el tiempo (gráfica nº40):
>a < read.table('a.txt')9
>a1 < (lm(a$V1~a$V2))
>plot(a$V2, stdres(a1), col=3, xlab='Tasa de desempleo', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook')
>lines(a$V2,stdres(a1), lwd=3, col=4)
>x < seq( 0, 5.7, length = 100)
>title(main=paste("Tasa de desempleo", "versus residuos estandarizados",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

Ahora grafiquemos los e t versus los e t−1 para la base datos nº3 (gráfica nº41):
Para esto convirtamos nuestros datos que contienen los residuos en una matriz:
9 Para trazar las lineas entre los puntos según un orden ascendente del valor X y no sobre el orden cronológico de años sucesivos, debemos
ordenar los datos según las X en orden ascendente, sino las líneas se unirán por año consecutivo.
53
>a1 < (lm(a$V1~a$V2))
>m<as.matrix(stdres(a1))
Creemos dos vectores, uno que excluya la primera observación y el otro que excluya la última:
>m1<m[c(1)]
>m2<m[c(50)]
Y grafiquemos:
>plot(m1,m2, xlab='e t1', ylab='e t', col=3, cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x < seq( 2, 3, length = 100)
>lines(xx, x, type="l", col= 'red', lwd=3)

3.1.4 SOLUCIONANDO LA AUTOCORRELACIÓN
Tenemos 2 opciones dependiendo del caso:
¿La autocorrelación surge por errores en el modelo o es pura?
1. A veces se observan patrones en los residuos porque el modelo es erróneo esto es, se han
excluído importantes variables o porque la forma funcional es incorrecta.
2. Si se trata de autocorrelación pura, podemos hacer las transformaciones apropiadas al modelo
original, para hacer que este modelo transformado no presente el problema de autocorrelación (pura). Usamos
para esto el método de mínimos cuadrados generalizados (MCG).
La solución depende del conocimiento que tengamos de la naturaleza de la interdependencia entre los
errores, esto es, sobre la estructura de la autocorrelación.
Consideremos el siguiente modelo de regresión de 2 variables:
Y t = b 0b1 X t t y asumamos que t sigue el siguiente patrón autorregresivo de primer orden :

t =  t−1t −1  1
Consideraremos sólo el caso cuando  es conocido:
Acá, el problema de la autocorrelación es fácil de resolver. Si Y t = b 0b1 X t t es cierto, también lo es

que: Y t−1= b 0b1 X t−1 t−1
54
nuestro sistema de ecuaciones resulta entonces: Y t = b 0b1 X t t

Y t−1= b 0b1 X t−1 t−1
multipliquemos esta última expresión por  y restémosela a la primera. Nos queda:
Y t − Y t−1= b0  1−b 1 X t −X t−1t donde: t =  t− t−1 (83)
La expresión anterior puede escribirse como:
Y ✴t = b ✴0 b 1 X ✴t t (ecuación de diferencias generalizada) (84)
Ya que t satisface los supuestos usuales del método de MCO, podemos aplicar este método las
variables transformadas Y ✳ y X ✳ y obtener los mejores estimadores lineales insesgados (MELI).
En el proceso de diferencias perdemos una observación, pues la primera no tiene un antecedente. Para
evitar perder esta primera observación, las primeras Y t y X t se transforman como sigue (transformaciones
∗ ∗
de PraisWinsten):
Y ✴1 = Y 1  1−2 y X 1✴= X 1  1−2 (85)
3.1.4.1 Corrección de la autocorrelación de primer orden positiva.
Método Durbin de dos etapas (un caso de mínimos cuadrados generalizados).
1 Se estima  aplicando una regresión:
Y t = b 0 1− Y t−1 b1 X t −b 1  X t−1  t
2 Se reestima la regresión con las variables transformadas:
Y t −  Y t−1= b0  1−  b 1 X t −  X t−1t −   t−1 
Solución de la autocorrelación de nuestro ejemplo.
Corramos una regresión con los valores Y t , Y t−1 , X t y X t−1 de la tabla nº27:
>a1 < (lm(a$V1~a$V2+a$V3+a$V4))
>summary(a1)
SALIDA Nº29
TABLA Nº27
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4) Yt Y t−1 Xt X t−1
Residuals: 18,7 0,7

Min 1Q Median 3Q Max 20,9 18,7 1,1 0,7
3.1328 1.1761 0.4511 0.7820 6.2941 24,1 20,9 1,3 1,1
21,8 24,1 1,1 1,3
Coefficients: 21,8 21,8 1,3 1,1
Estimate Std. Error t value Pr(>|t|) ∙ ∙ ∙ ∙
(Intercept) 2.71385 1.34622 2.016 0.048991 * ∙ ∙ ∙ ∙
a$V2 0.80148 0.08354 9.594 4.27e13 *** ∙ ∙ ∙ ∙
a$V3 4.52956 0.81830 5.535 1.03e06 *** 35,2 36,5 4.9 4.8
a$V4 3.63840 0.93665 3.884 0.000291 *** 34,2 35,2 5.2 4.9
35,2 34,2 5.5 5.2
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 38,0 35,2 5,5 5.5
35,6 38,0 4,9 5,5
Residual standard error: 1.797 on 52 degrees of freedom 35,6 4,9
Nuestra ecuación de regresión estimada resulta entonces:
Y t = 2,71390.8015 Y t−1 4,5297 X t −3,6384 X t−1  t

 9,594  5.535 −3,884 
55
TABLA Nº28 Estimemos 
Yt Y t−1 Xt X t−1 Y ✴= Y t−  Y t−1 X ✴= X t−  X t−1 Y t = b0 1−    Y t−1  b1 X t −b 1  X t−1  t
 = 0,8015
18,7 0,7
20,9 18,7 1,1 0,7 5,912 0,539
24,1 20,9 1,3 1,1 7,349 0,418 Reestimemos la regresión con las variables
21,8 24,1 1,1 1,3 2,484 0,058 transformadas:
21,8 21,8 1,3 1,1 4,327 0,418
∙ ∙ ∙ ∙ ∙ ∙ Y ✴= Y t −  Y t−1
∙ ∙ ∙ ∙ ∙ ∙ X ✴= X t −  X t−1
∙ ∙ ∙ ∙ ∙ ∙
35,2 36,5 4.9 4.8 5,945 1,053
34,2 35,2 5.2 4.9 5,987 1,273 Para obtener las primeras observaciones que se pierden,
35,2 34,2 5.5 5.2 7,789 1,332 apliquemos la transformación de PraisWinsten:
38,0 35,2 5,5 5.5 9,787 1,092
35,6 38,0 4,9 5,5 5,143 0,492
35,6 4,9
✴

Y 1 ≈ Y 1 1− 
2 18,7  1−0,8015 2= 11,1825
X ✴≈ X 1− 2
1 1  0,7  1−0,8015 2 = 0,4186
Ahora apliquemos una regresión lineal a la tabla nº29:
>a1 < (lm(a$V1~a$V2))
>summary(a1)
SALIDA Nº30
TABLA Nº29
Call:
Y ✴= Y t−  Y t− 1 X ✴= X t− X
 t− 1 lm(formula = a$V1 ~ a$V2)
11,1825 0,4186 Residuals:

5,9120 0,5390 Min 1Q Median 3Q Max
7,3487 0,4184 3.2466 1.3106 0.5588 0.6792 6.4643
2,4839 0,0581
4,3273 0,4184 Coefficients:
∙ ∙ Estimate Std. Error t value Pr(>|t|)
∙ ∙ (Intercept) 2.8666 0.4526 6.334 4.62e08 ***
∙ ∙ a$V2 4.4233 0.7076 6.251 6.31e08 ***
5,9453 1,0528
5,9872 1,2727 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
7,7887 1,3322
9,7872 1,0918 Residual standard error: 1.956 on 55 degrees of freedom
5,1430 0,4918 Multiple Rsquared: 0.4154,Adjusted Rsquared: 0.4047
El valor tabulado para los valores límites de la estadística DurbinWatson es para 57 grados de libertad, 1
variable independiente al 95% de significación es:

0 1,528 1,601 2,399 2,472 4
Determinemos la estadística d para la tabla nº29 con R:
SALIDA Nº31
>library(lmtest)
>library(MASS) DurbinWatson test
>dwtest (lm(a$V1~a$V2))
data: lm(a$V1 ~ a$V2)
DW = 1.6798, pvalue = 0.09426
Como 1,601 < 1,6798 ya no existe autocorrelación. alternative hypothesis: true autocorrelation is greater than 0
56
Problemas en el análisis de regresión: Heterocedasticidad
3.2 HETEROCEDASTICIDAD
3.2.1 ¿QUÉ ES LA HETEROCEDASTICIDAD?
Un supuesto básico del modelo clásico de regresión lineal señala que los errores i deben ser
homocedáticos, esto es, deben poseer igual varianza:
Var  i =  2 ∀ i= 1,2,... , n (86)

GRÁFICA Nº42
Para un modelo de regresión de 2 variables:

Y i = b0 b1 X i i en el que a medida que X aumenta, Y en
promedio también, la homocedasticidad es representada por la
gráfica nº 42, donde la varianza condicional de Y i (la cual es igual
a la de i ) sobre una X i dada, permanece constante a lo largo
de todas las X i . En otras palabras, la dispersión de los puntos sobre
la recta de regresión permanece constante.
En contraste, una situación heterocedática: Var  i ≠  2 ∀ i= 1,2,... , n (87)

se representa en las gráficas nº43 y nº44:
La varianza de Y i se incrementa La varianza de Y i decrece

a medida que aumenta X i . a medida que aumenta X i .
3.2.1.1 Razones por las que puede ocurrir la heterocedasticidad.
2
Hay varias razones por las que Var  i ≠  , como por ejemplo:
1. En modelos de medición del aprendizaje: En un proceso de aprendizaje, los errores de las personas
disminuyen a medida que avanza el tiempo; la dispersión de los errores tiende a disminuir. En este sentido, se
espera que Var  i  decrezca (gráfica nº43).
2. En modelos econométricos del tipo: Y i = b0 b1 X i i donde Y i representa el ahorro y X i
representa los ingresos, a medida que el ingreso aumenta, las personas tienen mayor amplitud de decisión sobre
2
si ahorrar o gastar, por lo tanto, es probable que i se incremente a mayor ingreso. En este ejemplo, la propia
teoría sugiere la forma o pauta de la heterocedasticidad: la varianza del error depende positivamente de la
renta (gráfica nº44).
3. A medida que las técnicas de recolección de datos hacen que estos aumenten, es probable que
2i decrezca.
4. La heterocedasticidad también se puede producir como resultado de la presencia de datos anómalos.
Un dato anómalo es aquel que difiere mucho en relación al resto de los datos de la muestra.
La inclusión o exclusión de aquella observación, especialmente si el tamaño de la muestra es pequeño,
57
puede cambiar sustancialmente los resultados del análisis de regresión.
5. Una forma funcional incorrecta puede ser una fuerte fuente de heterocedasticidad. Este problema
muy a menudo tiene que ver con el hecho de que variables importantes sean excluídas en el modelo. Así en una
función de demanda de una mercancía si no se incluyen los precios de las mercancías complementarias con la
mercancía en cuestión (sesgo de la variable omitida), los residuos obtenidos de la regresión quizás den la
impresión de que la varianza del error no sea constante. Pero si las variables que han sido omitidas son incluídas
en el modelo, esa impresión probablemente desaparecerá.
En las formas funcionales vimos que, por ejemplo, si en una regresión de Y i sobre X i podemos
2
observar un patrón, pero al hacerla de Y i sobre X i y X i podemos ver otro, concluímos que es una forma
2
cuadrática, por lo que X i debe incluirse en el modelo.
6. Otra fuente de heterocedasticidad es la asimetría en la distribución de uno o más regresores incluidos
en el modelo. Ejemplos de esto son las variables económicas como el ingreso, la salud y la educación. Es bien
conocida la desigualdad del ingreso o la calidad de la salud en la mayoría de las sociedades, con el grueso del
ingreso y calidad de salud agrupándose en los quintiles más acomodados.
El problema de la heterocedasticidad se da más comúnmente en datos de sección transversal que en
series de tiempo.
3.2.2 ¿CÓMO SE IDENTIFICA LA HETEROCEDASTICIDAD?
No se posee una única y efectiva herramienta para detectar heterocedasticidad, sino unos cuantos
2
métodos parciales. Ésta situación es inevitable, porque i sólo puede ser conocida si conocemos toda la
población Y i correspondiente a las X i elegidas. Pero esta situación es mas bien la excepción que la regla en
sociología.
3.2.2.1 Método informal (gráfico).
En estudios de corte transversal que involucran unidades heterogéneas es muy común encontrar
heterocedasticidad, como es el caso de la regresión entre ingresos y escolaridad.
Si no hay información empírica o a priori sobre la naturaleza de la heterocedasticidad, en la práctica
podemos hacer un análisis de regresión sobre la base de que no existe y entonces examinar el patrón en la
relación de los residuos al cuadrado1 con Y i para ver si exhiben alguna sistematicidad.
En la gráfica nº 45 no se aprecia la existencia de una evidente heterocedasticidad, al contrario de lo que
muestran las gráficas nº46, 47 y 48.
GRÁFICA Nº45 GRÁFICA Nº46 GRÁFICA Nº47 GRÁFICA Nº48
GRÁFICA Nº49
2
También se puede graficar e i versus X, que para el caso de una variable
independiente exhibe el mismo patrón que e i versus Y i . Para el caso de dos o
2
2
más variables independientes e i se puede graficar con cualquier regresor. Por
ejemplo, la gráfica nº49 sugiere que la varianza heterocedática quizás sea
proporcional a la X i en cuestión. Saber esto nos puede ayudar para transformar los
datos de manera tal en la regresión, que en una nueva regresión sobre estos datos
transformados la varianza de los errores se vuelva homocedática.
1 Utilizamos el cuadrado de los residuos para evitar consideraciones sobre sus posibles valores negativos.
58
3.2.2.2 Métodos formales.
3.2.2.2.1 El test de Park.
2
Park formalizó el método gráfico sugiriendo que i es alguna función de las variables independientes
Xi . La forma funcional que propuso fué:
Vi 2 2
2i = 2 X i e o bien ln i = ln  ln X i V i donde V i es el error. (88)
2 2
Como en general  i es desconocido, Park sugirió usar e i como una aproximación y correr la
2 2
siguiente regresión: ln e = ln   ln X i V i =  ln X i V i
i (89)
Si  resulta ser estadísticamente significativo, se presume que hay presencia de heterocedasticidad en
los datos. Si no lo es, podemos aceptar el supuesto de homocedasticidad.
El test de Park es entonces un procedimiento de dos etapas. En la primera corremos la regresión por MCO
no considerando el problema de la heterocedasticidad. Obtenemos e i de esta regresión y en la segunda
2
etapa corremos la regresión siguiente: ln e i =  ln X i V i
Ejemplo Nº10: Relación entre la tasa de robos y de robo de vehículos cada 100.000 habitantes en EE.UU
entre 1960 y el 2007.
BASE DE DATOS Nº9
La base de datos nº9 nos entrega como variable dependiente  Yi  la
cantidad total de robos de vehículos y como variable independiente  Xi  la Año Yi Xi
cantidad total de robos para EE.UU. entre los años 1960 y 2007.
1960 328200 107840
Grafiquemos los datos, la recta de regresión a ellos asociada y los residuos
1961 336000 106670
versus la variable independiente:
1962 366800 110860
1963 408300 116470
1964 472800 130390
∙ ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Robos', ylab='Robo de vehículos', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red') ∙ ∙ ∙
>title(main=paste("Relación de robos", "y robos de vehículos entre 1960 y el 2007 en ∙ ∙ ∙
EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 2003 1261226 414235
2004 1237851 401470
>library(lmtest) 2005 1235859 417438
>library(MASS) 2006 1192809 447403
>par(bg = "Ivory 2") 2007 1095769 445125
>a1 < (lm(a$V1~a$V2)) FUENTE:
>plot(a$V2, stdres(a1), col=3, xlab='Robos', ylab='Residuos estandarizados', http://www.disastercenter.com/crime/uscrime.htm
>title(main=paste("Residuos estandarizados versus robos", "entre 1960 y el 2007 en
EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x < seq( 100000, 700000, length = 100)
GRÁFICA Nº 50 GRÁFICA Nº 51
59
SALIDA Nº32
Obtengamos nuestra recta estimada:
Call:
>summary(a1) lm(formula = a$V1 ~ a$V2)
 2003002,051 X
Y= R 2=0,8625 Residuals:
3,719 17,198 Min 1Q Median 3Q Max
328441 83459 11419 99699 214231
2
Obtengamos los valores de e i , X i , ln e i y
Coefficients:
ln X i (tabla nº30) y corramos una regresión de ln e 2i Estimate Std. Error t value Pr(>|t|)
sobre ln X i : (Intercept) 2.003e+05 5.384e+04 3.719 0.000542 ***
a$V2 2.051e+00 1.193e01 17.198 < 2e16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>a1 < lm(a$V1~a$V2)
>summary(a1)
Residual standard error: 130500 on 46 degrees of freedom
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,46)
[1] 2.012896 por lo que nuestro parámetro estimado es significativo al 5%: hay heterocedasticidad.
SALIDA Nº33
TABLA Nº30
Call:
ei Xi lne 2i ln X i lm(formula = a$V1 ~ a$V2)
83018,57 106670 22,654 11,577 Residuals:

93218,1 107840 22,885 11,588 Min 1Q Median 3Q Max
60811,78 110860 22,031 11,616 4.9030 0.4599 0.2472 1.1756 2.3182
30817,25 116470 20,672 11,665
5134,42 130390 17,087 11,778 Coefficients:
∙ ∙ ∙ ∙ Estimate Std. Error t value Pr(>|t|)
∙ ∙ ∙ ∙ (Intercept) 5.422 6.120 0.886 0.3803
∙ ∙ ∙ ∙ a$V2 1.329 0.476 2.792 0.0076 **
69653,62 618950 22,303 13,336
124579,61 639270 23,465 13,368 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
9531,37 659870 18,325 13,400
31369,69 672480 20,707 13,419 Residual standard error: 1.718 on 46 degrees of freedom
50993,68 687730 21,679 13,441 Multiple Rsquared: 0.1449,Adjusted Rsquared: 0.1263
Fstatistic: 7.795 on 1 and 46 DF, pvalue: 0.007607
Aunque empíricamente atractivo, el test de Park adolece de ciertos problemas. Goldfeld y Quandt han
argumentado que el error V i puede no satisfacer los supuestos del método de MCO y puede ser él mismo
heterocedático. No obstante, como un método estrictamente exploratorio, el test de Park puede ser utilizado.
3.2.2.2.2 El test de GoldfeldQuandt.
El contraste de GoldfeldQuant se utiliza para contrastar la homocedasticidad cuando la forma de la
2
heterocedasticidad no es conocida, aunque se intuye que la varianza heterocedática i guarda una relación
monótona –creciente o decreciente– respecto a alguna variable exógena.
Por simplicidad consideremos el modelo de 2 variables usual: Y i = b0 b1 X i i
2 2 2 2
Supongamos que i está relacionada positivamente con X i como sigue: i =  X i donde 2
es una constante.
2
El supuesto anterior postula que i es proporcional al cuadrado de X.
Para hacer este test explícito, Goldfeld y Quandt sugieren seguir los siguientes pasos:
60
1. Hacer un ranking de las observaciones X i comenzando con su menor valor. Si estamos en presencia
de un modelo de regresión con 2 o más variables independientes, el primer paso del test, el orden por ranking,
puede hacerse tomando cualquier X i . Si no estamos seguros cuál variable X i es apropiada, podemos hacer
el test para cada una de las variables independientes.
2. Omitir c observaciones centrales, donde c se especifica a priori y divide las restantes (nc)
observaciones en dos grupos, cada uno con (nc)/2 observaciones. Las observaciones c son omitidas para
agudizar la diferencia entre el grupo de menor varianza SCR 1 y el grupo de mayor varianza SCR 2 . La
capacidad de éxito del test GoldfeldQuandt depende de como sea elegido el valor c. c=4 si n=30 y c=10 si n=60
ha sido en la práctica satisfactoriamente encontrado.
3. Aplicar regresiones por el método de MCO a ambos grupos y obtener las respectivas sumas de los
cuadrados de los residuos SCR1 (referido a los menores valores de X i el grupo de menor varianza) y
SCR 2 (referido a los mayores valores de X i el grupo de mayor varianza)
n−c
SCR1 y SCR 2 tienen −k grados de libertad (g.l.) siendo k es el número de parámetros a ser
2
estimado incluyendo la intercepción y n el número de casos.
SCR 2
4 Calcular la siguiente fracción: = (90)
SCR1
Si suponemos a i normalmente distribuido (lo que suele suceder), entonces puede demostrarse que
n−c 
 sigue una distribución F con −k grados de libertad tanto para el numerador como para el
2
denominador.
Si existe heterocedasticidad, con la ordenación de la muestra, la varianza del error será mayor hacia el
final de la muestra que al principio de la misma. Como el cuadrado de los residuos está asociado con la varianza
de los mismos, entonces SCR 2 debería ser sensiblemente mayor que SCR 1 . Por ello, se rechazará la
hipótesis nula de homocedasticidad siempre que el valor de  exceda el valor tabulado al nivel de
significación elegido y a los grados de libertad dados para F. en este caso se puede afirmar la existencia de
heterocedasticidad.
Ejemplo Nº11: Tasa de crímenes violentos versus crímenes contra la propiedad para los departamentos
de policía de California durante el año 2007
La base de datos nº10 nos entrega como variable dependiente  Yi  la tasa de crímenes violentos y
como variable independiente  Xi  la tasa de crímenes contra la propiedad por cada 100.000 habitantes entre
los años 1960 y 2007 para 396 agencias de policía del Estado de Texas.
Grafiquemos los datos y la recta de regresión a ellos asociada y también los residuos versus la variable
independiente:
>a < read.table('a.txt') BASE DE DATOS Nº10
>plot(a$V2, a$V1, col=3, xlab='Tasa de crímenes contra la propiedad', ylab='Tasa de Agencia Yi Xi
crímenes violentos', cex.lab=1,family='NewCenturySchoolbook')
Adelanto Police Dept 532,7 2639,4
>title(main=paste("Tasa de crímenes violentos", "versus crímenes contra la
Agoura Hills 213,4 1515,3
propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Alameda County Sheriff Dept 562,1 2357,2
>library(lmtest) Alameda Police Dept 291 2805
>library(MASS) Albany Police Dept 283,2 4883,9
>a1 < (lm(a$V1~a$V2)) ∙ ∙ ∙
>par(bg = "Ivory 2") ∙ ∙ ∙
>plot(a$V2, stdres(a1), col=3, xlab='Tasa de crímenes contra la propiedad', ylab='Residuos ∙ ∙ ∙
estandarizados', cex.lab=1,family='NewCenturySchoolbook') Yorba Linda 66,4 1556,2
>title(main=paste("Residuos estandarizados versus ", "tasa de crímenes contra la Yuba County Sheriff Dept 398,6 2043,4
propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Yuba City Police Dept 395,9 3091,4
>x < seq( 0, 9000, length = 100)
Yucaipa 100,7 1770,5
Yucca Valley 354,7 2698,3
FUENTE:
http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm
61
Hagamos un ranking de las observaciones X i comenzando con sus menores valores (tabla nº31) y
omitamos un sexto de las observaciones centrales (c=66) estableciendo dos grupos con 165 observaciones cada
uno ((nc)/2).
Obtengamos las respectivas sumas de los cuadrados de los residuos SCR1 referida a los menores
valores de X i el grupo de menor varianza, y SCR 2 , referida a los mayores valores de X i el grupo de
mayor varianza) (tabla nº32 y nº33 respectivamente):
TABLA Nº31 TABLA Nº32 TABLA Nº33
Agencia Yi Xi Agencia Yi Xi Agencia Yi Xi
Laguna Woods 16,4 502,4 Laguna Woods 16,4 502,4 Loma Linda 129,4 2832,6

Avenal 256,2 774,4 Avenal 256,2 774,4 Temecula 221 2833,5
Hillsborough Police Dept 18,7 888,1 Hillsborough Police Dept 18,7 888,1 Auburn Police Dept 374,8 2853,4
Nevada County Sheriff Dept 197,1 891,3 Nevada County Sheriff Dept 197,1 891,3 Paradise Police Dept 208,5 2861,9
Corcoran Police Dept 189,8 910,8 Corcoran Police Dept 189,8 910,8 Redding Police Dept 498,2 2896,2
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Desert Hot Springs 1155,3 7191,3 Duarte 377,4 2350 Desert Hot Springs 1155,3 7191,3
Palm Springs Police Dept 632,4 7249,4 Fontana Police Dept 507,7 2352,5 Palm Springs Police Dept 632,4 7249,4
Oroville Police Dept 1458,1 7570,5 Ridgecrest Police Dept 576,8 2356,6 Oroville Police Dept 1458,1 7570,5
Commerce 1089,8 8316,3 Alameda County Sheriff Dept 562,1 2357,2 Commerce 1089,8 8316,3
Santa Fe Springs 796,2 8804,6 Farmersville Police Dept 538,2 2377,9 Santa Fe Springs 796,2 8804,6
SALIDA Nº34
Para SCR1 :
Analysis of Variance Table
>a< read.table('a.txt') Response: a$V1
>a1 < (lm(a$V1~a$V2))
Df Sum Sq Mean Sq F value Pr(>F)
>anova(a1)
a$V2 1 1235655 1235655 43.577 5.468e10 ***
Residuals 163 4621964 28356

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
62
SALIDA Nº35
Analysis of Variance Table Para SCR 2 :
Response: a$V1 >a< read.table('a.txt')
Df Sum Sq Mean Sq F value Pr(>F) >a1 < (lm(a$V1~a$V2))
a$V2 1 3179031 3179031 41.884 1.085e09 *** >anova(a1)
Residuals 163 12371907 75901

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
n−c 396−66 
siendo los grados de libertad de cada SCR: −k= −2= 163
2 2
SCR 2 12371907
Calculemos la siguiente fracción: = = = 2,677
SCR1 4621964
Calculemos F con R con (k1) y (nk) grados de libertad:
>qf(0.95,1,394)
[1] 3.865169 2,677< 3,8652
Así, con un 95% de confianza, no se puede afirmar la existencia de heteroscedasticidad.
3.2.2.2.3 El test de KoenkerBassett.
2
El test de KB se basa en el cuadrado de los residuos e i , pero en vez de correr la regresión sobre uno o
más regresores, se hace sobre el cuadrado del valor estimado del regresando Y2 . i
Así, si el modelo original es: Y i = b0 b1 X 1i b2 X 2i...b k X kii
Corremos una regresión obteniendo: Y i = b0  b1 X 1i  b2 X 2i... b k X kie i
Y corremos una regresión nuevamente pero de e sobre Y2 obteniendo:
2
i i
e2i =  1 2 Y i 2V i (91)

La hipótesis nula es  2= 0 . Si esta es rechazada entonces podemos concluir que hay
heterocedasticidad. Para el caso de una regresión lineal simple, la H0 puede ser probada con los test t o F
2
(recordemos que F1, k = tk )
Una ventaja del test de KB es que es aplicable incluso si el error en el modelo original i  no está
normalmente distribuído.
Ejemplo Nº12: Obesos versus actividad física.
BASE DE DATOS Nº 11
La base de datos nº11 nos entrega como variable dependiente, el
porcentaje de población obesa  Yi  y como independiente, el porcentaje de Estado Yi Xi
población que en una encuesta responde hacer ejercicios  Xi  para 53 Estados
Alabama 32,2 70,5
Norteamericanos2 para el año 2008.
Alaska 27 75,9
Grafiquemos los datos, la recta de regresión a ellos asociada y los residuos Arizona 25,5 76,8
versus la variable independiente: Arkansas 29,5 70,2
California 24,2 76,6
>a < read.table('a.txt') ∙ ∙ ∙
>par(bg = "Ivory 2") ∙ ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Cantidad de gente que hace ejercicios %', ylab='Cantidad de obesos %',
∙ ∙ ∙
Virgin Islands 26,5 66,8
>title(main=paste("Relación ejercicio Washington 26 80,6
obesidad"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') West Virginia 31,9 68,9
Wisconsin 26 77,9
>a1 < (lm(a$V1~a$V2)) Wyoming 25,2 75,6
>plot(a$V2,residuals(a1), col=3, xlab='% de población que hace ejercicios', ylab='Residuos', FUENTE:
main='Residuos versus % de población que hace ejercicios') http://apps.nccd.cdc.gov/brfss
2 Excluímos el Estado libre asociado de Puerto Rico.
63
SALIDA Nº36 2
Determinemos los e i y los TABLA Nº34
Call: Y2 (tabla nº34):

i e 2i 2
Yi
>residuals(a1)*residuals(a1) 8,817 854,428
Residuals: >fitted(a1)*fitted(a1) 0,934 677,735
Min 1Q Median 3Q Max 0,000 650,273
4.696 3.512 2.346 1.772 19.032 2
Corramos una regresión de e i 0,008 864,844
2,013 656,327
Coefficients: sobre Y2 : i ∙ ∙
Estimate Std. Error t value Pr(>|t|) ∙ ∙
(Intercept) 1.137880 4.669830 0.244 0.808 >a < read.table('a.txt') ∙ ∙
a$V2 0.004101 0.006468 0.634 0.529 >a1 < (lm(a$V1~a$V2)) 24,219 987,299
>summary(a1) 7,560 540,587
2,965 910,708
1,324 617,481
1,022 687,014
>qt(0.975,51)
[1] 2.007584 Nuestro parámetro estimado no es significativo al 5%, por lo que hay homocedasticidad.
3.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD
GRÁFICA Nº56
La heterocedasticidad no acaba con las propiedades
insesgadas y consistentes de los estimadores por MCO, pero no los
hace los más eficientes, ni siquiera asintóticamente (por ejemplo
en una muestra de gran tamaño). Esta ausencia de eficiencia
produce estimaciones sesgadas de los errores standard (lo que
provoca pruebas estadísticas e intervalos de confianza
incorrectos), por lo que esta situación debe ser remediada.
Consideremos el modelo de regresión de dos variables

cuando la varianza no es conocida:
Y i = b0 b1 X i i
2 2 2
Supongamos que el patrón de heterocedasticidad sigue la forma: E i =  X i , esto es, la varianza
2
del error es proporcional a X i (gráfica nº57).
64
GRÁFICA Nº 57
Entonces podemos transformar el modelo original como sigue:
Yi b 0  b
Y i = b0 b1 X i i /X i = b 1 i = 0 b1 V i (92)
Xi Xi Xi Xi
i
donde V i es el término del error transformado, igual a
Xi
2
2 1 i
Resulta fácil verificar que: E V i = E  2
E 2i =  2
=
Xi Xi
Por lo tanto ahora V i es homocedática y podemos aplicar el método
de MCO a la ecuación:
Yi b 0 i Yi 1
= b 1 corriendo una regresión de sobre
Xi Xi Xi Xi Xi
Ejemplo Nº13: Solución de la heterocedasticidad del ejemplo 10.
Hemos ya comprobado la existencia de heterocedasticidad en el ejemplo nº10. Apliquemos la

transformación de variables propuesta para solucionar este problema (tabla nº35) y, con el test de Park
verifiquemos que ahora éstas variables (tabla nº36) son homocedáticas.
2 2
Obtengamos los valores de e i , X i , ln e i y ln X i (tabla nº36) para la tabla nº35 y corramos una
2
nueva regresión de ln e i sobre ln X i para obtener la salida nº37:
>a < read.table('a.txt') # Leemos los datos de la tabla nº35 #
>a1 < lm(a$V1~a$V2)
>residuals(a1)*residuals(a1) # Obtenemos los residuos al cuadrado#
>a < read.table('a.txt') # Leemos las dos últimas columnas de la tabla nº36 #
>a1 < lm(a$V1~a$V2)
>summary(a1)
BASE DE DATOS Nº9 TABLA Nº35 TABLA Nº36

Yi 1
Año Yi Xi 2
ei Xi
2
lne i ln X i
Xi Xi
1960 328200 107840 3,04339763 0,00000927 0,25904500 0,00000927 1,35075349 11,58840393

1961 336000 106670 3,14990157 0,00000937 0,17397260 0,00000937 1,74885746 11,57749524
1962 366800 110860 3,30867761 0,00000902 0,04288449 0,00000902 3,14924506 11,61602342
1963 408300 116470 3,50562377 0,00000859 0,00278896 0,00000859 5,88208651 11,66538901
1964 472800 130390 3,62604494 0,00000767 0,09481216 0,00000767 2,35585761 11,77828524
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
2003 1261226 414235 3,04471134 0,00000241 0,24663510 0,00000241 1,39984536 12,93418872
2004 1237851 401470 3,08329639 0,00000249 0,27404920 0,00000249 1,29444763 12,90288809
2005 1235859 417438 2,96058097 0,00000240 0,17136060 0,00000240 1,76398517 12,94189131
2006 1192809 447403 2,66607287 0,00000224 0,02041255 0,00000224 3,89160537 13,01121503
2007 1095769 445125 2,46171076 0,00000225 0,00396315 0,00000225 5,53071586 13,00611042
SALIDA Nº37
Call:
Nuestro valor crítico t para un 95% de significación es: Residuals:
>qt(0.975,46) 5.5803 0.3668 0.3399 1.0647 2.7727
[1] 2.012896 por lo que nuestro parámetro estimado no es
Coefficients:
significativo al 5% y las variables no presentan
heterocedasticidad. (Intercept) 9.6211 6.8371 1.407 0.1661
a$V2 1.0072 0.5317 1.894 0.0645 .

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
65
3.3 MULTICOLINEALIDAD
3.3.1 ¿QUÉ ES LA MULTICOLINEALIDAD?
Un supuesto importante del modelo de regresión lineal por MCO establece que no existen relaciones
lineales exactas entre los regresores o variables independientes (los regresores no son exactamente colineales).
De haberlas, surge un problema llamado multicolinealidad perfecta1. Éste supuesto es necesario para el cálculo
del vector de estimadores de los parámetros verdaderos, ya que en caso contrario X ' X será singular (no
tendrá inversa) y nos resultará imposible determinar b=  X ' X−1 X ' Y . Los coeficientes así resultantes serán
indeterminados y sus errores standard infinitos. Cuando dos o más regresores están altamente correlacionados en
la muestra, se hace muy difícil separar el efecto parcial de cada uno de ellos sobre la variable dependiente.
Un conjunto k de variables predictoras X 1i , X 2i , ..., Xki son perfectamente multicolineales si para k
constantes C0 , C 1 , C 2 , ..., Ck que no son cero simultáneamente, se cumple la siguiente condición:
C1 X 1i C2 X 2i ...Ck X ki= C0 (93)
Asumamos que Ck ≠ 0 , entonces, para el caso de perfecta multicolinealidad:
j=k−1

C0− ∑ Cj X j 
(94)
j=1
X ki=
Ck
La expresión anterior muestra que X ki es combinación lineal de todos los demás regresores. Se hace
entonces así imposible calcular las estimaciones por MCO de los parámetros, porque el sistema de ecuaciones
normales contendrá una o más ecuaciones que no son independientes.
GRÁFICA Nº58
La multicolinealidad perfecta casi no ocurre en la
práctica. Lo que si suele suceder es la existencia de una relación
aproximadamente lineal, no exacta, entre dos o más variables
exógenas. Cuando esto ocurre, los estimadores obtenidos son
poco precisos, aunque sus propiedades de insesgadez, eficiencia
y consistencia no se ven afectadas, esto es, los estimadores por
MCO siguen siendo los MELI. Sin embargo, a pesar de que las
varianzas de los estimadores por MCO son las mínimas posibles
(son eficientes) son mayores que las que se lograrían en ausencia
del problema de multicolinealidad.
En los siguientes gráficos los círculos representan las
variaciones tanto de las variables dependientes, como de la
independiente. El grado de colinealidad puede medirse por la
extensión de las intersecciones entre los círculos X 1 y X 2 .
GRÁFICAS Nº 59
No existe colinealidad Existe una baja colinealidad Existe una alta colinealidad Casi perfecta colinealidad
1 El efecto totalmente contrario a la multicolinealidad perfecta es la ortogonalidad, en el que el coeficiente de correlación simple entre dos
variables es cero. En la ortogonalidad, el efecto que una variable tiene sobre la respuesta se mide de manera totalmente independiente del
efecto individual que otra variable tenga sobre la misma.
66
Problemas en el análisis de regresión: Multicolinealidad
La multicolinealidad puede afectar a dos regresores (el caso más simple de todos), a un subconjunto o
incluso a todos, estando frecuentemente presente en series de tiempo (por ejemplo, la población y el PIB suelen
estar altamente correlacionados)
3.3.1.1 ¿Por qué se produce?
La multicolinealidad es, en cierto sentido, un fenómeno inevitable. En un sistema social es muy difícil
suponer la ausencia de relación entre sus distintos elementos. Por el contrario, la sociología se apoya en la idea
de la existencia de interrelaciones entre las variables de los sistemas sociales analizados.
Suele aparecer cuando:
1. Ocurre un error en la especificación (los regresores no son importantes en la explicación del

regresando: se omiten variables relevantes o bien se integran aquellas que no lo son) cometido por el
investigador que ignora una igualdad o combinación lineal entre las variables independientes.
2. Se cae en la 'trampa de las dummies' que consiste en incluir un número tal de variables ficticias que
todas ellas acaben por generar una combinación lineal entre sí. Si una variable independiente cualitativa tiene m
categorías, debe representarse por medio de m1 variables dummy, asignando a cada una de ellas los valores de
0 ó 12.
3. Se recolecta un limitado rango de los valores tomados por los regresores en la población.
4. El modelo tiene más variables independientes que número de observaciones.
5. Especialmente en series de tiempo, los regresores incluidos en el modelo presentan tendencias
comunes, esto es, se incrementan o decrecen a medida que transcurre el tiempo.
3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD.
Teniendo en consideración que las consecuencias de la multicolinealidad están directamente

relacionadas con la magnitud con que se presenta, las más importantes son:
1. Se hace difícil cuantificar con precisión el efecto que cada regresor ejerce sobre el regresando,
debido a que los errores estándar de los coeficientes estimados son elevados, es decir, tienden a ser mayores de
lo que serían si no hubiera multicolinealidad.
Producto de lo anterior, el valor del estadístico para realizar contrastes de significación individual:
b j −b j b j
t=  (95)
S b j  Sb j 
tiende a ser pequeño, aumentando así la probabilidad de no rechazar la hipótesis nula. Es así que se suele
concluir que los coeficientes estimados no son significativas individualmente y llegar a la conclusión errónea de
que la variable independiente X i no es importante en el modelo.. El problema no reside en que los contrastes
no sean correctos estadísticamente, sino en que no estimamos con suficiente precisión esos efectos individuales.
2
En presencia de multicolinealidad es común obtener valores altos de R j aún cuando los valores de los
estadísticos t de significación individual sean bajos. El problema reside en la identificación del efecto individual
de cada variable explicativa, no tanto en su conjunto. Por eso, si se realiza un contraste de significación conjunta
de las variables explicativas, el resultado normalmente será rechazar la hipótesis nula aunque individualmente
cada una de ellas no sea significativa.
2. En el caso de existencia de multicolinealidad exacta, los parámetros no pueden estimarse ya
que, al existir dentro de la matriz X de observaciones de variables exógenas una combinación lineal de éstas,
no puede ser invertida, de esta manera, X ' X tampoco tendrá inversa haciendo imposible calcular la expresión
del estimador mínimo cuadrático: b=   X ' X −1 X ' Y
3. Pequeños cambios en los datos o en la especificación provocan grandes cambios en las
estimaciones de los coeficientes. Los parámetros sean muy inestables y fluctúan de forma importante al introducir
nueva información. Efectivamente, al ser el parámetro más imperfecto, al presentar mayor rango de variación,
una nueva estimación puede arrojar valores muy diferentes al anterior.
4. Las estimaciones de los coeficientes suelen presentar signo distintos a los esperados y magnitudes
poco razonables.
2 Esta situación la estudiaremos en detalle en la sección 4, capítulo 1: '' Variables Dummy'.
67
3.3.3 ¿CÓMO SE IDENTIFICA LA MULTICOLINEALIDAD?
La multicolinealidad es una característica de la muestra (está asociada a la configuración concreta de
la matriz X ) y no de la población, por lo tanto, no existe un contraste estadístico que sea aplicable para su
detección. Además, como hemos visto, la multicolinealidad es una cuestión de grado y no de presencia o
ausencia. No obstante, podemos detectarla con algunas reglas prácticas (aunque no siempre fiables) o medirla
para una muestra particular con el Factor de inflación de la varianza.
Debemos sospechar la existencia de multicolinealidad cuando:
1. Hay coeficientes de regresión significativos con valores muy grandes o de signo opuesto al esperado.
2. Los coeficientes estimados asociados a las variables independientes que se esperaba fuesen
importantes, tienen valores de t pequeños aunque F informe que 'existe modelo' y R 2 sea alta. Este es un signo
clásico de multicolinealidad.
3. La incorporación o eliminación de una fila o columna de la matriz X produce grandes cambios en la
magnitud de los coeficientes.
4. Los coeficientes de correlación muestral simples entre todas las parejas de variables predictoras son
muy altas. Las correlaciones entre variables deben ser bajas, aunque no hay un límite fijo a partir del cual
podamos hablar de multicolinealidad; ese límite debe establecerse desde el sentido común y según las
circunstancias de análisis específicas. Así por ejemplo un mismo valor de un coeficiente de correlación implica
distinto grado de correlación según el tamaño muestral; en muestras de tamaño elevado, una correlación
aparentemente pequeña (0,30,4) implica la existencia de una evidente multicolinealidad o bien una correlación
moderada pero no esperada a priori desde el punto de vista teórico puede estar avisando de algún defecto en
la especificación o el tratamiento de los datos.
En todo caso, si se desea una regla general, una práctica habitual consiste en establecer la R 2 del
modelo original como límite de la correlación observada entre dos o más variables: diremos que existe
multicolinealidad cuando existan correlaciones entre las variables superiores al coeficiente de determinación del
modelo. Sin embargo, debemos recordar nuevamente las limitaciones de cualquier 'receta' de este tipo. Por
2
ejemplo, lógicamente diremos que existe multicolinealidad cuando, aún sin superar la R j del modelo, las
correlaciones sean mayores de un 0,7.
Aunque es condición suficiente para que exista multicolinealidad el que todos estos coeficientes sean
altos, lo contrario no es necesariamente cierto. Se puede dar el caso de tener una relación lineal casi perfecta
entre tres o más variables y sin embargo las correlaciones simples entre pares de variables no ser mayores que 0,5.
Supongamos que tenemos un modelo de 4 variables:
Y i = b0 b1 X 1i b2 X 2ib 3 X 3i i y supongamos que: X 3i = 1 X 1i 2 X 2i donde 2 y 3 son

constantes distintas de cero.
X 3 es una combinación lineal exacta de X 1 y X 2 dando R 23.12= 1
2
r 231r 232−2 r 31 r 32 r 12 2
Podemos escribir este R 2 como: R 3.12= pero como: R 3.12= 1 , a causa de una
1−r 212
r 231r 232−2 r 31 r32 r 12
colinealidad perfecta, obtenemos: 1= condición que puede ser satisfecha si:
1−r 212
r 31= 0,5 , r 32= 0,5 y r 12= −0,5 los cuales no son valores altos.
Por lo tanto, en modelos que involucran más de dos variables independientes, la correlación simple
puede no proveer una infalible vía para detectar la presencia de multicolinealidad. Por supuesto, si solo existen
dos variables independientes en el modelo, la correlación de orden cero es suficiente.
5. Realizando la regresión de cada una de los regresores sobre el resto (regresión auxiliar) y analizar los
coeficientes de determinación de cada regresión. Alguno o algunos de estos coeficientes de determinación
R 2j  altos, estarían señalando la posible existencia de un problema de multicolinealidad.
3.3.3.1 El Factor de inflación de la varianza.
El factor de inflación de la varianza cuantifica la severidad de la multicolinealidad en un análisis de
regresión lineal por MCO. Provee un índice que mide en cuánto la varianza de un coeficiente de regresión
estimado se incrementa debido a la multicolinealidad.
68
Si consideramos el modelo de regresión lineal múltiple: Y i = b0 b1 X 1i ...b j X ji ...b k X ki i

entonces se puede demostrar que la varianza del jésimo coeficiente de regresión estimado es:
2
 1
Var b j =   (96)
S ii 1−R 2j
2
Donde R j es el coeficiente de determinación (no ajustado) de la regresión lineal de X ji contra todas
n
las demás variables predictoras y Sii = ∑  X − X 
j=1
ij i
2
La ecuación (101) separa las influencias de los distintos factores que intervienen en la varianza de
coeficiente estimado. Así:
1. Cuanto mayor es 2 , esto es, cuanto mayor es la dispersión, mayor será la varianza del estimador.
2. Al aumentar el tamaño de la muestra, se reduce la varianza del estimador.
3. Cuanto menor sea la varianza muestral del regresor, mayor será la varianza del correspondiente
coeficiente estimado.
2
4. Cuanto mayor sea R j , es decir, cuanto mayor sea la correlación del regresor con el resto de lo
regresores, mayor será la varianza de b j
1
FIV j = Se denomina jésimo factor de inflación de la varianza y representa el (97)
1−R2j
incremento en la varianza debido a la presencia de multicolinealidad. Es la razón entre la varianza observada y la
que habría sido en caso de que X j no estuviera correlacionada con el resto de regresores del modelo. Muestra
en que medida se agranda la varianza del estimador como consecuencia de la no ortogonalidad de los
regresores. Debe tenerse presente que el FIV j  no suministra ninguna información que pueda utilizarse para
corregir el problema.
Si las variables independientes no son redundantes (ortogonales), entonces FIV j = 1 R 2j = 0  3. Si los
2
regresores son multicolineales, FIV j = ∞ R j = 1 .
Si el FIV j  es grande (mayor que 10), entonces puede haber multicolinealidad.
1
La tolerancia se define como: TOL j= = 1−R2j (98)
FIV j
La utilización de los coeficientes TOL j y VIF j para detectar la presencia de multicolinealidad ha
recibido múltiples críticas, porque la conclusión obtenida con estos valores no siempre recoge adecuadamente
la información de y problemas existentes en los datos. Tal y como hemos visto anteriormente, las varianzas de los
2 2
estimadores depende del VIF j ,  y ∑ X ji− X j  , por lo que un alto VIF j no es condición suficiente ni
necesaria para que dichas varianzas sean elevadas.
Ejemplo Nº14 Índice de marginación, población indígena y BASE DE DATOS Nº12
% de analfabetismo en los municipios del Estado de Chiapas,
México. Municipio Yi X 1i X 2i
Acacoyagua 0.483 0.41 18

La base de datos Nº12 nos entrega el índice de
Acala 0.356 9.93 27
marginación por municipio para 2005 como variable dependiente Acapetahua 0.672 0.35 21
 Yi  y como independientes el % de población hablante de Altamirano 0.984 40.75 38
lengua indígena de 5 años en adelante en el 2000  X1i  y el % de Amatán 1.745 14.76 34
∙ ∙ ∙ ∙
analfabetismo  X 2i para el 2000, para los 118 Municipios del
∙ ∙ ∙ ∙
Estado de Chiapas (México). ∙ ∙ ∙ ∙
Grafiquemos las variables (gráfica nº60) y obtengamos el Maravilla Tenejapa 1.518 33.12 31
resultado de aplicar una regresión de  Yi  sobre  X1i  y  X 2i Marqués de Comillas 1.602 30.1 30
(salida nº38). Montecristo de Guerrero 1.118 0.71 28
San Andres Duraznal 1.489 66.9 46
>a < read.table('a.txt') Santiago el Pinar 2.209 63.57 68
>plot(a, col=3) FUENTE:
>a1 < (lm(a$V1~a$V2+a$V3)) http://www.elocal.gob.mx/work/templates/enciclo/chiapas
>summary(a1)
3 Recordemos que R2 indica la existencia de una relación lineal.
69
GRÁFICA Nº 60
SALIDA Nº 38
Call:
Residuals:
1.23973 0.27460 0.05131 0.25093 1.63512
Coefficients:
(Intercept) 0.347757 0.113054 3.076 0.00262 **
a$V2 0.003411 0.002227 1.532 0.12828
a$V3 0.039641 0.004997 7.932 1.56e12 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>qt(0.975,115)
[1] 1.980808
Determinemos la existencia de multicolinealidad.
En primer lugar ejecutemos regresiones de  Yi  sobre  X1i  (salida nº39) y de  Yi  sobre  X 2i
(salida nº40)
>a1 < (lm(a$V1~a$V2)) >a1 < (lm(a$V1~a$V3))
>summary(a1) >summary(a1)
SALIDA Nº39 SALIDA Nº40
Call: Call:
lm(formula = a$V1 ~ a$V2) lm(formula = a$V1 ~ a$V3)
Residuals: Residuals:
Min 1Q Median 3Q Max Min 1Q Median 3Q Max
1.74628 0.30991 0.02496 0.24031 2.12295 1.19279 0.29527 0.02594 0.26905 1.72302
Coefficients: Coefficients:
Estimate Std. Error t value Pr(>|t|) Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.446136 0.065111 6.852 3.72e10 *** (Intercept) 0.435657 0.097975 4.447 2.01e05 ***
a$V2 0.017329 0.001698 10.207 < 2e16 *** a$V3 0.045674 0.003095 14.759 < 2e16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5289 on 116 degrees of freedom Residual standard error: 0.4296 on 116 degrees of freedom
Multiple Rsquared: 0.4731,Adjusted Rsquared: 0.4686 Multiple Rsquared: 0.6525,Adjusted Rsquared: 0.6495
Fstatistic: 104.2 on 1 and 116 DF, pvalue: < 2.2e16 Fstatistic: 217.8 on 1 and 116 DF, pvalue: < 2.2e16
Podemos sospechar la existencia de multicolinealidad, ya que los coeficientes estimados de las variables
independientes son muy significativos a un 95% en las regresiones de  Yi  sobre  X1i  y de  Yi  sobre  X 2i
(10,207 y 14,759 respectivamente), pero en la regresión múltiple original (salida nº38), el parámetro estimado de
 X1i  resulta no ser significativo, siendo R 2 relativamente alta (0,6595) y F= 111,3 informándonos la 'existencia'
de modelo.
70
Analicemos los coeficientes de correlación simple entre todas las parejas de variables predictoras:
>cor(a) SALIDA Nº41
La correlación entre las variables es alta (0.808), superando el
2 V1 V2 V3
R = 0,6595 del modelo original. V1 1.0000000 0.6878547 0.8077816
V2 0.6878547 1.0000000 0.7879961
V3 0.8077816 0.7879961 1.0000000
Encontremos el factor de inflación de la varianza.
SALIDA Nº42
>a1 < (lm(a$V1~a$V2+a$V3))
>library(car)4 a$V2 a$V3
>vif(a1) 2.638090 2.638090
Ejemplo Nº15: Función CobbDouglas de la economía chilena (19862000).
BASE DE DATOS Nº13

La base de datos Nº13 nos entrega los valores del PIB  Yi  , Año Yi X 1i X 2i
stock de capital  X1i  (ambos en miles de millones de pesos al año

1986 3419 8658 4269,674
1986) y la fuerza de trabajo  X 2i  en miles de personas para Chile entre 1987 3645 8852 4372,610
los años 1986 y 2000. 1988 3911 9144 4569,370
Grafiquemos las variables (gráfica nº61) y obtengamos el 1989 4324 9586 4727,218
1990 4484 10133 4822,836
resultado de aplicar una regresión de  Yi  sobre  X1i  y  X 2i (salida
∙ ∙ ∙ ∙
nº43). ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
>a < read.table('a.txt') 1996 7305 15383 5522,817
>plot(a, col=3)
1997 7845 16778 5625,843
1998 8153 18228 5734,213
>a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1) 1999 8060 19381 5829,013
2000 8493 20256 5845,905
FUENTES:
PIB y stock de capital.
http://www.bcentral.cl/estudios/documentostrabajo/pdf/dtbc133.pdf Pp16
Fuerza de trabajo.
GRÁFICA Nº 61 http://www.ine.cl/canales/chile_estadistico/mercado_del_trabajo/empleo/situacionfuerzatrabajo/sitexcel/ttpais.htm
SALIDA Nº43
Call:
Residuals:
362.53 140.95 25.47 139.97 356.03
Coefficients:
(Intercept) 5.697e+03 1.062e+03 5.365 0.000169 ***
a$V2 2.290e01 3.957e02 5.788 8.64e05 ***
a$V3 1.661e+00 2.957e01 5.617 0.000113 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>qt(0.975,12)
[1] 2.178813
4 Debemos instalar el paquete car. En R escribimos >install.packages(), seleccionamos un espejo desde el cual bajarlo y lo llamamos con
>library(car).
71
Determinemos la existencia de multicolinealidad.
SALIDA Nº44
Analicemos los coeficientes de correlación muestral simples entre
V1 V2 V3
todas las parejas de variables predictoras:
V1 1.0000000 0.9775036 0.9764859
V2 0.9775036 1.0000000 0.9327449
>cor(a)
V3 0.9764859 0.9327449 1.0000000
El valor 0,976 es menor que R 2= 0,988 lo que nos indica una ausencia de multicolinealidad.

SALIDA Nº45
Ejecutemos una regresión de  X1i  sobre  X 2i y
Call:
analicemos el coeficiente de determinación (salida
nº45).
Residuals:
>a < read.table ('a.txt')
>a1 < (lm(a$V2~a$V3))
2251.4 909.9 221.7 1206.8 2399.6
Coefficients: Encontremos el factor de inflación de la varianza.
(Intercept) 2.289e+04 3.885e+03 5.891 5.31e05 *** >a1 < (lm(a$V1~a$V2+a$V3)) SALIDA Nº46
a$V3 6.969e+00 7.471e01 9.328 4.01e07 *** >library(car)
>vif(a1) a$V2 a$V3

7.693082 7.693082
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1488 on 13 degrees of freedom Acá podemos apreciar la relatividad de los test para

2
Multiple Rsquared: 0.87,Adjusted Rsquared: 0.86 detectar multicolinealidad. Aunque el FIV, el Ri y la
correlación entre regresores son altos, la salida nº43 nos
indica una casi perfecta relación lineal R2 = 0,9877 y valores de lo parámetros estimados coherentes. La
decisión final debe ser tomada por el sentido común del investigador.
Ejemplo Nº16: Crímenes contra la propiedad y crímenes violentos en el Estado de Nevada, EE.UU. (1960
1980).
BASE DE DATOS Nº14
Se puede especular que la tasa de crímenes contra la Año Yi X 1i X 2i X 3i X 4i

propiedad está determinada en cierta medida, por el grado de
'anomia' de una sociedad, expresada ésta en las tasas de crímenes 1960 3294.7 8.8 12.6 74 50.5
violentos. 1961 3436.8 7 8 106 62.5
La base de datos nº14 nos entrega información de la tasa de 1962 3496.1 8.1 19.7 106.6 77.9
1963 4385.1 7.9 16.3 118.8 62.2
crímenes contra la propiedad  Yi  , la tasa de asesinato no
1964 4015 7.8 13.2 109.8 110
negligente y homicidio involuntario  X1i  , la tasa de violación ∙ ∙ ∙ ∙ ∙ ∙
forzada  X 2i , la tasa de robo  X 3i y la tasa de asalto agravado ∙ ∙ ∙ ∙ ∙ ∙
 X 4i  en el Estado de Nevada por cada 100.000 habitantes entre ∙ ∙ ∙ ∙ ∙ ∙
1960 y 1980. 1976 7615.1 11.5 47.2 294.9 337.4

1977 7225 15.8 49.1 323.1 355
Grafiquemos las variables (gráfica nº62) y obtengamos el
1978 7506.1 15.5 53.9 359.5 351.8
resultado de aplicar una regresión de  Yi  sobre  X1i  ,  X 2i , 1979 7996 17.5 59.5 407.5 351
 X 3i y  X 4i  (salida nº47). 1980 7941.4 20 67.2 460.6 364.9
FUENTE:
http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm
>plot(a, col=3)
>a1 < (lm(a$V1~a$V2+a$V3+a$V4+a$V5))
>summary(a1)

>qt(0.975,16)
[1] 2.119905
Resulta que sólo el coeficiente que acompaña a  X 4i  es significativo y más sorprendente aún, el que
acompaña a  X1i  tiene signo negativo. Esto no parece tener sentido al ver la gráfica nº62.
72
GRÁFICA Nº 62
SALIDA Nº47
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4 + a$V5)
Residuals:
324.76 226.37 60.68 191.86 706.62
Coefficients:
(Intercept) 2806.063 275.315 10.192 2.11e08 ***
a$V2 65.081 42.701 1.524 0.146999
a$V3 13.036 19.776 0.659 0.519152
a$V4 4.698 2.963 1.586 0.132395
a$V5 9.903 2.092 4.734 0.000224 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Ejecutemos regresiones de  Yi  sobre  X1i  ,  X 2i ,  X 3i y  X 4i  individualmente (salidas nº48, 49,

50 y 51 respectivamente).
>a1 < (lm(a$V1~a$V2)) >a1 < (lm(a$V1~a$V3))
SALIDA Nª48 SALIDA Nª49
Call: Call:
1713.4 737.1 102.3 406.8 2147.4 917.30 278.33 55.66 277.33 960.79
(Intercept) 1041.59 673.24 1.547 0.138 (Intercept) 2642.57 216.69 12.20 1.97e10 ***
a$V2 384.88 56.51 6.811 1.67e06 *** a$V3 89.89 6.09 14.76 7.31e12 ***

Fstatistic: 46.39 on 1 and 19 DF, pvalue: 1.674e06 Fstatistic: 217.8 on 1 and 19 DF, pvalue: 7.314e12
>a1 < (lm(a$V1~a$V4)) >a1 < (lm(a$V1~a$V5))

SALIDA Nª50 SALIDA Nª51
Call: Call:
1134.04 260.49 67.28 256.49 954.38 572.29 130.76 13.15 181.92 927.54
(Intercept) 2363.1800 221.4738 10.67 1.83e09 *** (Intercept) 2562.0368 146.8661 17.45 3.76e13 ***
a$V4 14.5729 0.9368 15.56 2.90e12 *** a$V5 14.3974 0.6433 22.38 4.09e15 ***

Fstatistic: 242 on 1 and 19 DF, pvalue: 2.898e12 Fstatistic: 500.9 on 1 and 19 DF, pvalue: 4.087e15
73
Podemos sospechar la existencia de multicolinealidad, ya que los coeficientes de las variables
independientes son muy significativos a un 95% en las 4 regresiones anteriores (6.811, 14.76, 15.56 Y 22.38
respectivamente).
Analicemos los coeficientes de correlación simples entre todas las parejas de variables predictoras
(salida nº52):
SALIDA Nº52
>cor(a)
V1 V2 V3 V4 V5
La correlación entre los regresores es alta, V1 1.0000000 0.8422917 0.9590489 0.9629110 0.9815558
superando las correlaciones entre X 2i y X 3i el R 2 V2 0.8422917 1.0000000 0.9044769 0.8938066 0.8612384
del modelo original. V3 0.9590489 0.9044769 1.0000000 0.9767272 0.9562189
V4 0.9629110 0.8938066 0.9767272 1.0000000 0.9537829
V5 0.9815558 0.8612384 0.9562189 0.9537829 1.0000000
Encontremos el factor de inflación de la varianza
SALIDA Nº53
>a1 < (lm(a$V1~a$V2+a$V3+a$V4+a$V5))
>library(car) a$V2 a$V3 a$V4 a$V5
>vif(a1) 5.59514 28.52305 24.55465 13.03072
Los regresores X 2i X 3i y X 4i presentan gran multicolinealidad.
3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD
Ya hemos señalado que el problema de la multicolinealidad es un problema de grados, por lo que las
medidas que aquí se proponen deben tomarse siempre y cuando su severidad sea tan importante como para
que una o varias variables del modelo de regresión que se supone sean relevantes, se presenten como
estadísticamente no significativas. Si existe multicolinealidad en un grado leve, puede continuarse el trabajo de
análisis sin adoptar medidas para corregir el problema.
Si se trata de un problema de multicolinealidad casi perfecta, es razonable pensar que ésta se debe a la
incorporación de dos regresores que miden el mismo concepto pero de forma alternativa o bien están indicando
un concepto más abstracto que el que se supone hacen independientemente cada una de ellas 5. En el primer
caso se sugiere revisar el proceso de operacionalización de los conceptos y suprimir la redundancia hallada, en
el segundo, determinar un índice mediante alguna técnica, desde la más simple, como un índice sumatorio
simple, hasta uno más complejo, como un índice calculado sobre la base de un análisis factorial para suprimir
esta multicolinealidad.

Los métodos más comunes son6:
1. Eliminación de variables: Cuando nos encontramos con una fuerte multicolinealidad, una de las cosas más
simples que se pueden hacer es desechar las variables más colineales 7. El inconveniente es que ésta es una
medida que puede provocar otro tipo de problemas, ya que si la variables que eliminamos del modelo realmente
sí son significativas8, estamos omitiendo una variable relevante. Por consiguiente, los estimadores de los
coeficientes del modelo y de su varianza serían sesgados y así la inferencia realizada no sería válida.
Si estamos ante un problema de información repetida, una solución resulta transformar dos o más
variables correlacionadas en una combinación de las mismas. A este respecto es útil la técnica del análisis
multivariable factorial.
2. Aumento del tamaño de la muestra o cambiar de muestra: Teniendo en cuenta que un cierto grado de
multicolinealidad acarrea problemas cuando aumenta ostensiblemente la varianza muestral de los estimadores,
las soluciones deben ir encaminadas a reducir esta varianza introduciendo observaciones adicionales. Solución
no siempre viable.
Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede ser que con
nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea consiste en conseguir datos menos
correlacionados que los anteriores. De todas formas, no siempre resulta fácil obtener mejores datos por lo que
muy probablemente debamos convivir con el problema teniendo cuidado con la inferencia realizada y las
5 Por ejemplo, las variables independientes como alfabetización, urbanización, empleo en el sector el servicios, teléfonos por habitante,
mortalidad infantil, etc., en el análisis de una región determinada, pueden presentar fuerte multicolinealidad porque representan conjuntamente
el concepto más abstracto de “modernización”.
6 La elección de estas alternativas depende de la severidad de la multicolinealidad encontrada.
7 En presencia de multicolinealidad, una medida para resolver este problema bastante lógica puede ser quitar del modelo aquellas variables con
más alto VIF ( o más baja tolerancia).
8 Son variables que deben estar incluídas en el modelo de regresión.
74
conclusiones de la misma.
3. Utilización de ratios: En lugar del regresando y los regresores del modelo original, se pueden utilizar ratios con
respecto al regresor que posea mayor colinealidad. Esto puede hacer que la correlación entre los regresores del
modelo disminuya. Pero se debe tener cuidado: estos ratios pueden ser heterocedáticos.
4. Utilizando información a priori.
Consideremos el modelo: Y i = b0 b1 X 1i b2 X 2i i

Supongamos a X 1 y X 2 altamente colineales y supongamos que creemos que b2 = 0,1b1
Entonces: Y i = b0 b1 X 1i 0,1 b1 X 2ii = b 0b1 X ii donde: X i = X i1 0,1 X 2i
Una vez que obtenemos b1 podemos estimar b2 de la relación postulada entre b1 y b2 .
¿De donde obtenemos la información a priori? Puede provenir de trabajos empíricos previos en los que el
problema de la colinealidad parezca ser menos serio o de teoría relevante subyacente al campo de estudio
(como en el caso de los retornos a escala constantes).
75
4.1 FORMAS FUNCIONALES
4.1.1 INTRODUCCIÓN
Frecuentemente en las ciencias sociales nos encontramos con variables cuyas relaciones entre sí no son
lineales. Este es el caso por ejemplo, de la relación entre el PIB per cápita y la esperanza de vida en los países del
mundo o la tasa de crecimiento demográfico en los países en vías de desarrollo durante el siglo XX. Al
encontrarnos con estos casos, muchas veces podremos transformar las variables para obtener funciones lineales
en los parámetros, sobre las cuales podremos aplicar el método de MCO y así obtener una ecuación de
regresión lineal.
Es importante señalar que el primer paso para escoger la forma funcional adecuada para una relación
no lineal entre variables es recurrir a lo que la teoría social bajo la cual estudiamos nuestras variables señala.
Algunas de las relaciones no lineales más comunes entre variables y sus transformaciones son las
siguientes:
b1
4.1.2 FORMA DOBLELOG: Y= b 0 X e  (99)
Esta forma aparece cuando nos encontramos con variables que crecen a un ritmo exponencial.
Aplicando logaritmos la forma (76): ln Y= ln b 0b1 ln X o bien: Y= elnb b ln X 0 1
Si hacemos: ln Y= Y ✳ , ln b0 = b0 y ln X= X ✳ la expresión anterior nos queda Y = b0 b1 X  ,

✳ ✳ ✳ ✳
ecuación a la que ya podemos aplicar el método de MCO ya conocidos. La ecuación de regresión así obtenida
será:
Y✳ = b ✳0 b1 X ✳ o bien lnY= ln b 0 b1 ln X Aplicando un exponencial obtenemos:
  b ln X
 lnb

Y= e 0 1
(100)
Aspectos teóricos.
TABLA Nº37
Supongamos que nos encontramos con una relación matemática perfecta entre dos
variables de la forma Y= e 1−ln X , función que nos es desconocida. Tenemos sin embargo, los
Yi Xi
valores que estas dos variables asumen y que se muestran en la tabla Nº37. Grafiquemos con R
2,718 1 los puntos y la recta de regresión lineal aplicada a ellos:
1,359 2
0,906 3 >a < read.table('a.txt')
0,680 4
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')
0,544 5
∙ >title(main=paste("Forma doblelog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
∙ >jpeg(file='a.jpeg', width=500, height=500)
∙ >par(bg = "Ivory 2")
0,170 16 >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')
0,160 17 >abline(lm(a$V1~a$V2), lwd=3, col='red')
0,151 18 >title(main=paste("Forma doblelog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
0,143 19 >dev.off()
0,136 20
y obtengamos los parámetros estimados de la regresión:
>a1 < (lm(a$V1~a$V2))
>summary(a1)
 1,2519 −0,0727 X
Y= R 2= 0,473
 6,111  −4,249 
Sospechamos que nos encontramos en presencia de una relación doble log. Lo que tenemos que hacer
por lo tanto, es transformar ambas variables en sus respectivos logaritmos y correr una regresión sobre ellas.
76
Problemas en el análisis de regresión: Formas funcionales
GRÁFICA Nº63
SALIDA Nº54
Call:
Residuals:
0.3630 0.2853 0.1130 0.1592 1.5390
Coefficients:
(Intercept) 1.25194 0.20487 6.111 8.99e06 ***
a$V2 0.07266 0.01710 4.249 0.000483 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
TABLA Nº38
Grafiquemos las nuevas variables (tabla nº38), la recta de regresión lineal aplicada sobre ln Y i ln X i
ellas y apliquemos una regresión para obtener los coeficientes:
1.000 0.000
>a < read.table('a.txt') 0.307 0.693
>par(bg = "Ivory 2") 0.099 1.099
>plot(a$V2, a$V1, col=3, xlab='LnX', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook') 0.386 1.386
>abline(lm(a$V1~a$V2), lwd=3, col='red') 0.609 1.609
>title(main=paste("Forma doblelog:", "LnY versus LnX",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
∙ ∙
∙ ∙
>a1 < (lm(a$V1~a$V2))
∙ ∙
>summary(a1)
1.773 2.773
1.833 2.833
1.890 2.890
GRÁFICA Nº64 1.944 2.944
1.996 2.996
SALIDA Nº55
Call:
Residuals:
3.045e16 9.394e17 4.092e17 6.958e17 3.105e16
Coefficients:
(Intercept) 1 1.094e16 9.143e+15 <2e16 ***
a$V2 1 4.839e17 2.066e+16 <2e16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.714e16 on 18 degrees of freedom
Multiple Rsquared: 1, Adjusted Rsquared: 1
Fstatistic: 4.27e+32 on 1 and 18 DF, pvalue: < 2.2e16
Obtenemos la ecuación: Y✳ = 1 − X✳ R 2=1

 9,143e+15  −2,066e+16 
77
Como Y✳ = b ✳0b1 X ✳ es equivalente a Y=
  b ln X
 lnb
 e , tenemos para nuestro ejemplo que
0 1
Y= e 1−ln X= e / X

GRÁFICA Nº65
TABLA Nº39 Si graficamos nuestras variables

originales y esta curva, observamos que
Y i = e/X i Xi coinciden perfectamente (gráfica nº65):

2,718 1
1,359 2 >a < read.table('a.txt')
0,906 3 >par(bg = "Ivory 2")
0,680 4 >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y',
0,544 5 cex.lab=1,family='NewCenturySchoolbook')
>x < seq( 0 ,20,length = 100)
∙
>lines(x, exp(1log(x)), type='l', col= 'red', lwd=3)
∙
>title(main=paste("Forma doblelog:", "Y versus
∙ X",sep="\n"),font.main=1,cex.main=1.5,family
0,170 16 ='NewCenturySchoolbook')
0,160 17
0,151 18
0,143 19
0,136 20

4.1.2.1 La función CobbDouglas.
En economía, una forma funcional clásica es la función CobbDouglas. Es de las más usadas por ser una
de las que más se acerca a la realidad económica.
Esta función resultó de la observación empírica de la distribución del PIB entre capital y trabajo en los
EE.UU. Los datos mostraron evidencia de una relación de la forma:
Q= A ∙K b ∙L b ∙ e donde:
1 2
Q = Producción total (el valor monetario de todos los bienes y servicios producidos durante un año o
PIB).
K = Stock de capital.
L = Stock de trabajo.
A = Productividad total de los factores (o la tecnología en un momento dado en un sociedad), y
b1 y b2 = Elasticidades del producto en relación al capital y al trabajo, respectivamente.
(La función CobbDouglas también aparece en la relación entre la cantidad demandada de una
b b
mercancía (Q), su precio (P) y el ingreso de los consumidores (Y): Q= b0 ∙P ∙ Y ∙e  ) 1 2
4.1.2.2 La definición de la elasticidad.
Al aplicar una regresión lineal a un modelo CobbDouglas, obtenemos que los parámetros estimados de
la ecuación de regresión corresponden a las elasticidades de la variable dependiente respecto a las
independientes. Derivemos las fórmulas de las elasticidades para la relación entre la cantidad demandada de
b b
una mercancía (Q), su precio (P) y el ingreso de los consumidores (Y): Q= b0 ∙P ∙ Y ∙e  . 1 2
a) b1 es la elasticidad de la demanda respecto al precio o P
∂Q P
Por definición: P= ∙
∂P Q
∂Q b −1 b  b b Q
La derivada parcial de la función Q respecto a P es = b1  b0 P Y e = b1 b 0 P Y e   P−1= b1
1 2 1 2
∂P P
∂Q Q P
sustituyendo el valor de dentro de la fórmula para P obtenemos: P= b 1 ∙ = b1
∂P P Q
78
b) b2 es la elasticidad de la demanda respecto al ingreso o Y
∂Q Y
Por definición Y = ∙
∂Y Q
∂Q b b −1  b b Q
La derivada parcial de la función Q respecto a Y es = b 2 b0 P Y e = b 2 b0 P Y e  Y −1 = b2
1 2 1 2
∂Y Y
∂Q Q Y
sustituyendo el valor de dentro de la fórmula para Y obtenemos: Y = b2 ∙ = b2
∂Y Y Q
Si para la función CobbDouglas, b2 = 0,15 , un aumento del 1% en la cantidad de trabajo, provocaría

un incremento aproximado del 0,15% en el volumen del producto.
Si esta función cumple el principio de los rendimientos constantes a escala, entonces si K y L aumentan
cada uno el 20%, Q aumenta también el 20%. Lo anterior se expresa en términos de elasticidades como:
b1b 2= 1 . Por otro lado, si b1b 2 1 , hay retornos crecientes a escala esto es, un incremento de K y L de
un 10% implicará que la salida se incremente un b1 b 2 ∙10 %
Ejemplo Nº17: Función CobbDouglas de la economía chilena (19862000).
La base de datos Nº13 nos entrega los valores del PIB  Yi  , stock de capital X1i  (ambos en miles de

millones de pesos al año 1986) y la fuerza de trabajo  X 2i  en miles de personas para Chile entre los años 1986 y
2000. Consideremos la aplicación de una función CobbDouglas para estos datos de la economía chilena.
Apliquemos una regresión a los logaritmos de estos datos dados por la tabla Nº40:
BASE DE DATOS Nº13

Año Yi X 1i X 2i
>a1 < (lm(a$V1~a$V2+a$V3)) 1986 3419 8658 4269,674
>summary(a1) 1987 3645 8852 4372,610
1988 3911 9144 4569,370
Nuestra ecuación de regresión resulta: 1989 4324 9586 4727,218
1990 4484 10133 4822,836
∙ ∙ ∙ ∙
Q ✳= −10,62520,4425 K ✳1,7653 L ✳ R 2= 0,9896 ∙ ∙ ∙ ∙
4,735   6,747 
∙ ∙ ∙ ∙
1996 7305 15383 5522,817
1997 7845 16778 5625,843
1998 8153 18228 5734,213
1999 8060 19381 5829,013
2000 8493 20256 5845,905
SALIDA Nº56
TABLA Nº40
ln Y i ln X1i ln X 2i
Residuals:
8,137 9,066 8,359 Nuestro valor crítico t para un 95%
8,201 9,088 8,383 de significación es:
0.057389 0.016945 0.001807 0.022291 0.042643
8,272 9,121 8,427
8,372 9,168 8,461 >qt(0.975,13)
8,408 9,224 8,481 [1] 2.160369 Coefficients:
∙ ∙ ∙ Estimate Std. Error t value Pr(>|t|)
∙ ∙ ∙
por lo que todos nuestros (Intercept) 10.62516 1.42407 7.461 7.62e06 ***
∙ ∙ ∙ parámetros estimados son a$V2 0.44246 0.09345 4.735 0.000485 ***
8,896 9,641 8,617 significativos al 5%. a$V3 1.76534 0.26166 6.747 2.05e05 ***
8,968 9,728 8,635
9,006 9,811 8,654 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
8,995 9,872 8,671
9,047 9,916 8,673 Residual standard error: 0.03204 on 12 degrees of freedom
Consideremos: Q ✳= b✳  b K ✳ b L ✳ o lo que es lo mismo: lnQ= lnb b ln K b ln L por lo que:

0 1 2 0 1 2
lnb0 = −10,6252 y b0 = e = 0,000024296
−10,6252
79
 b b
Como Q= b0 ∙K ∙ L nuestra ecuación de regresión final resulta: Q=
1 2  0,000024296 ∙K 0,4425 ∙ L 1,7653
Notemos que 0,4425+1,7653 > 1 por lo que nuestra economía para el periodo señalado presentó
rendimientos a escala crecientes.
4.1.3 FORMA SEMILOG: ln Y= b 0b1 X (101)
Esta forma funcional representa un crecimiento exponencial simple, con lo que la podemos asociar de
una manera intuitivamente directa (si la variable independiente es el tiempo) a fenómenos como la oferta de
mercancías con nuevas tecnologías en países desarrollados, el inicio de la expansión de una enfermedad
infecciosa, etc.
Si ln Y= Y ✳ , Y = b0 b1 X con lo que nuestra ecuación de regresión queda de la siguiente
✳
manera: Y✳ = b 0 b1 X o bien, aplicando un exponencial Y=  e

 b  b X 
0 1
(102)

b mide el cambio relativo producido en Y, por unidad de cambio en X.
1
Aspectos teóricos.
TABLA Nº41
X
variables de la forma: Y= e2 10  , función que nos es desconocida. Tenemos sin embargo, los Yi Xi
valores que estas dos variables asumen y se muestran en la tabla Nº41: 7,389 0
8,166 1
Grafiquemos con R los puntos y la recta de regresión lineal aplicada sobre ellos: 9,025 2
9,974 3
>a < read.table('a.txt') 11,023 4
>par(bg = "Ivory 2") ∙
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') ∙
>abline(lm(a$V1~a$V2), lwd=3, col='red') ∙
>title(main=paste("Forma semilog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 36,598 16
40,447 17
y obtengamos los parámetros estimados de la regresión: 44,701 18
49,402 19
>a1 < (lm(a$V1~a$V2)) 54,598 20
>summary(a1)
Nuestra ecuación de regresión resulta:
 − 0,00830,4175 X 2
Y= R = 0,9306 GRÁFICA Nº66
−0,012  16,408
SALIDA Nº57
Call:
lm(formula = AAR2a$V1 ~ AAR2a$V2)
Residuals:
3.0762 1.1554 0.3879 1.4216 1.7673
Coefficients:
(Intercept) 0.008332 0.706595 0.012 0.99
AAR2a$V2 0.417446 0.025442 16.408 1.12e12 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Multiple Rsquared: 0.9341 Adjusted Rsquared: 0.9306
 b  b X  
Podemos especular que la función entre las variables es de la forma: Y=
 e , por lo que
0 1
grafiquemos estas variables transformadas, la recta de regresión a ellas asociadas y apliquemos una regresión
para obtener los coeficientes:
80
TABLA Nº42
ln Y i Xi
>plot(a$V2, a$V1, col=3, xlab='X', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Forma semilog:", "LnY versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 2,0 0
2,1 1
>a1 < (lm(a$V1~a$V2)) 2,2 2
>summary(a1) 2,3 3
2,4 4
Obtenemos la ecuación: ∙
 2 ∙
ln Y= 2  X/ 10 R =1
∙
 1,884e+16 1,102e+16
3,6 16
3,7 17
X
la cual es equivalente a Y=  2  3,8 18
 e 10 3,9 19
4,0 20
GRÁFICA Nº67
SALIDA Nº58
Call:
Residuals:
3.972e16 1.709e16 2.150e17 1.594e16 7.472e16
Coefficients:
(Intercept) 2 1.061e16 1.884e+16 <2e16 ***
a$V2 0,1 9.078e18 1.102e+16 <2e16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.519e16 on 19 degrees of freedom
Por último grafiquemos nuestras variables originales (tabla nº41) con esta recta de regresión:
GRÁFICA Nº68
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y',
>x < seq( 0 ,20,length = 100)
>lines(x, exp(2+(x/10)), type='l', col= 'red', lwd=3)
>title(main=paste("Forma semilog:", "Y versus
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

81
Ejemplo Nº18: La explosión demográfica en EE.UU. entre 1790 y 1960.
BASE DE DATOS Nº15
En el siglo XX Estados Unidos experimentó una de las explosiones demográficas
más grandes del mundo, que se explica, entre otras cosas, por una enorme inmigración. Yi Xi
La base de datos Nº15 nos entrega los valores de la cantidad de población
 Y i  y el año  X 2i  en EE.UU. entre 1790 y 1690. 3929214 1790
5308483 1800
7239881 1810
Grafiquemos las variables, la recta de regresión a ellas asociada y calculemos los 9638453 1820
coeficientes sobre estos datos: 12860702 1830
∙ ∙
>a < read.table('a.txt') ∙ ∙
>par(bg = "Ivory 2") ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de habitantes', cex.lab=1,family='NewCenturySchoolbook')
106021537 1920
123202624 1930
>title(main=paste("Forma semilog:", "Número de habitantes versus
Años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 132164569 1940
151325798 1950
>a1 < (lm(a$V1~a$V2)) 179323175 1960
>summary(a1) FUENTE:
http://www.census.gov/
Obtenemos la ecuación:
 −1,83e+091,009e+06
Y=
2
R = 0.9206
−13,6   14.07
GRÁFICA Nº69
SALIDA Nº59
Call:
Residuals:
18776884 13317773 2941158 9177445 31141520
Coefficients:
(Intercept) 1.830e+09 1.345e+08 13.60 3.28e10 ***
a$V2 1.009e+06 7.173e+04 14.07 1.98e10 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Fstatistic: 198 on 1 and 16 DF, pvalue: 1.982e10
TABLA Nº43
 b  b X  
Podemos especular que la función entre las variables es de la forma: Y=  e , por 0 1
lo que corramos una regresión entre las siguientes variables transformadas (tabla nº43) y ln Y i Xi
grafiquemos la ecuación de regresión obtenida junto a las variables originales:
15.184 1790
15.485 1800
>a1 < (lm(a$V1~a$V2))
>summary(a1) 15.795 1810
16.081 1820
16.370 1830
>plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de habitantes', cex.lab=1,family='NewCenturySchoolbook') ∙ ∙
>x < seq( 1780, 1970, length = 100) ∙ ∙
>lines(x, exp(25.19 + 0.0227*(x)), type="l", col= 'red', lwd=3) 18.479 1920
>title(main=paste("Forma semilog:", "Número de habitantes versus 18.629 1930
Años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 18.700 1940
18.835 1950
Nuestra ecuación de regresión resulta entonces: Y=
 e
 b
b  X
0 1 
Y= e
−25,190,0227 X
19.005 1960
82
GRÁFICA Nº70
SALIDA Nº60
Call:
Residuals:
0.31942 0.15824 0.02600 0.17855 0.22418
Coefficients:
(Intercept) 2.519e+01 1.653e+00 15.24 6.00e11 ***
a$V2 2.271e02 8.811e04 25.78 1.85e14 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
4.1.4 FORMA POLINOMIAL Y= b 0b1 Xb2 X 2 (103)
Si hacemos W = X 2 la forma polinomial queda linealizada como: Y= b 0b1 Xb2 W

y nuestra ecuación de regresión queda como :  b  b X b W
Y= (104)
0 1 2
Aspectos teóricos. TABLA Nº44
Yi Xi
variables de la forma: Y=22 X3 X 3 , función que nos es desconocida. Tenemos sin 3018 10
embargo, los valores de estas dos variables asumen y que se muestran en la tabla nº44: 2203 9
1550 8
Grafiquemos estos datos con R, junto con la recta de regresión y obtengamos los 1041 7
parámetros estimados: 658 6
∙ ∙
>a < read.table('a.txt') ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') 662 6
>abline(lm(a$V1~a$V2), lwd=3, col='red') 1045 7
>title(main=paste("Forma polinomial:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 1554 8
2207 9
SALIDA Nº61 3022 10
Call:
lm(formula = AAR7a$V2 ~ AAR7a$V1)
Residuals: >a1 < (lm(a$V1~a$V2))
Min 1Q Median 3Q Max >summary(a1)
1.026e+03 4.104e+02 5.476e14 4.104e+02 1.026e+03
Coefficients: La ecuación que obtenemos resulta:
(Intercept) 2.00 118.54 0.017 0.987 
Y= 2  199,4 X R 2= 0,8371
AAR7a$V1 199.40 19.58 10.186 3.91e09 ***  0,017 10,186 

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
83
GRÁFICA Nº71
Podemos especular que la función entre las variables es
de la forma: Y=  b  b X b W , por lo que grafiquemos las
0 1 2
variables originales junto con la recta de regresión asociada a
esta función .
Corramos una regresión sobre las variables señaladas en
la tabla nº45 y grafiquemos la ecuación de regresión obtenida
junto a los datos originales (tabla nº44):
>a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1)
>x < seq( 10, 10, length = 100)
>lines(x, 2+2*x+3*x*x*x, type="l", lwd=3, col= 'red')
>title(main=paste("Forma polinomial:", "Y versus
SALIDA Nº62
TABLA Nº45 Call:
Yi Xi X 2i
Residuals:
3018 10 1000 Min 1Q Median 3Q Max
2203 9 729 1.727e13 4.891e14 1.020e14 6.577e14 1.344e13
1550 8 512
1041 7 343 Coefficients:
658 6 216 Estimate Std. Error t value Pr(>|t|)
∙ ∙ ∙ (Intercept) 2.000e+00 1.921e14 1.041e+14 <2e16 ***
∙ ∙ ∙ a$V2 2.000e+00 7.997e15 2.501e+14 <2e16 ***
∙ ∙ ∙ a$V3 3.000e+00 1.116e16 2.689e+16 <2e16 ***
662 6 216
1045 7 343 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
1554 8 512
2207 9 729 Residual standard error: 8.805e14 on 18 degrees of freedom
3022 10 1000 Multiple Rsquared: 1, Adjusted Rsquared: 1

GRÁFICA Nº72
Y i = 2  2 Xi  3X 2i R 2= 1
 2,501e+14 2,2,689e+14 
Y obtenemos exactamente la función que determina la
relación entre las variables originales: Y= 22 X3 W
84
Ejemplo Nº19: Diagnosticados con VIH en Norteamérica entre 1987 y el 2000.
BASE DE DATOS Nº16
Se estima que actualmente más de un millón de personas han sido
diagnosticadas con VIH en los EE.UU., constituyendo este virus uno de los problemas de Yi Xi
salud pública más importantes que afecta a ese país. No obstante, con el descubrimiento
de terapias más eficaces, el mayor conocimiento por parte de la comunidad médica de 29105 1987
las infecciones oportunistas y las campañas de uso del preservativo, a partir de 1995 tanto 36126 1988
43499 1989
las defunciones por SIDA como los diagnosticados con VIH se han reducido
49546 1990
notablemente.
60573 1991
La base de datos nº16 nos entrega los valores del número de diagnosticados con ∙ ∙
VIH  Y i  entre 1987 y el 2000  Xi  en EE.UU. ∙ ∙
Grafiquemos estos datos con R, y la recta de regresión a ellos asociada. ∙ ∙
61124 1996
>a < read.table('a.txt') 49379 1997
>par(bg = "Ivory 2") 43225 1998
>plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de diagnoticados con VIH', 41356 1999
cex.lab=1,family='NewCenturySchoolbook') 39513 2000
FUENTE:
>title(main=paste("Forma polinomial:", "Número de diagnoticados con VIH versus http://www.avert.org/usastaty.htm
años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº73
Podemos especular que la función entre las variables es
 b  b X b W , por lo que corremos una
de la forma: Y= 0 1 2
regresión entre las variables de la tabla nº46:
>a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1)
SALIDA Nº63
TABLA Nº46 Call:
Yi Xi X 2i
Residuals:
29105 1 1 Min 1Q Median 3Q Max
36126 2 4 9863 4650 1131 3372 12036
43499 3 9
49546 4 16 Coefficients:
60573 5 25 Estimate Std. Error t value Pr(>|t|)
∙ ∙ ∙ (Intercept) 11054.0 7020.3 1.575 0.144
∙ ∙ ∙ a$V2 15484.2 2153.1 7.191 1.77e05 ***
∙ ∙ ∙ a$V3 1009.4 139.6 7.229 1.69e05 ***
61124 10 100
49379 11 121 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
43225 12 144
41356 13 169 Residual standard error: 7535 on 11 degrees of freedom
39513 14 196 Multiple Rsquared: 0.8274, Adjusted Rsquared: 0.796
85
GRÁFICA Nº74
Obtenemos:
Y i = 1105415484,2 X i −1009,4 X i
2
R 2= 0,796
 7,191 −7,229
Grafiquemos la ecuación de regresión obtenida junto
a los datos originales ( Y i y X i de la tabla)1.
>plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de diagnoticados con VIH',
>x < seq(1,14, length = 100)
>lines(x, 11054 +15484.2*x1009.4*x*x, type="l", col= 'red',lwd=3)
>title(main=paste("Forma polinomial:", "Número de diagnoticados con VIH
versus
Ejemplo Nº20: Evolución de los detenidos por drogas por la DEA en los EE.UU (19942004).
BASE DE DATOS Nº17
Yi Xi En ningún otro país del mundo el problema de las drogas es tan extendido e intenso
como en los EE.UU. Graves problemas sociales como la criminalidad y el contagio de VIH
23135 1994
se asocian a él.
25279 1995
Un gran porcentaje del dinero gastado en el combate a las drogas se destina a la
29269 1996
34068 1997 represión, en particular en arrestos, procesos judiciales y encarcelamiento de traficantes
38468 1998 de poca monta. Aproximadamente 500.000 personas están encarceladas por delitos de
∙ ∙ drogas en los EE.UU. Las medidas vinculadas a la prevención o al tratamiento, han tenido
∙ ∙ poco éxito.
∙ ∙ La base de datos Nº17 nos entrega los valores del número de arrestos por drogas  Y i 
39743 2000
34471 2001
entre 1994 y el 2004  Xi  en EE.UU.
30270 2002
28549 2003 GRÁFICA Nº75
27053 2004
Fuente:
http://www.usdoj.gov/dea/statistics.html
Grafiquemos estos datos con R y la recta de regresión
a ellos asociada.
>plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de arrestos relacionados
con drogas', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Forma polinomial: Número de arrestos", "relacionados con
drogas versus años",sep="\n"),font.main=1,cex.main=1.5,
family='NewCenturySchoolbook')
1 Es importante señalar que no es razonable incluir el valor de los años como variable independiente en la regresión, pues a este nivel la curva
generada entre X y X 2 es prácticamente una recta, con lo que las variables independientes presentarán una multicolinealidad total.
Cambiamos por esto el valor de los años por números del 1 al 14.
86
TABLA Nº47
Podemos especular que la función entre las variables es de la forma:
 b  b X b W , por lo que corremos una regresión entre las variables de la tabla
Y= 0 1 2 Yi Xi X 2i
nº47:
23135 1 1
>a < read.table('a.txt') 25279 2 4
>a1 < (lm(a$V1~a$V2+a$V3)) 29269 3 9
>summary(a1) 34068 4 16
38468 5 25
Obtenemos: ∙ ∙ ∙
∙ ∙ ∙
Y i = 14394,637501,46 X i −596,52 X i
2
R 2= 0,8278 ∙ ∙ ∙
39743 7 49
7,074 −6,931 34471 8 64
30270 9 81
Grafiquemos la ecuación de regresión obtenida junto a los datos originales. 28549 10 100
27053 11 121
>plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de arrestos relacionados con drogas', cex.lab=1,family='NewCenturySchoolbook')
>x < seq(1,11, length = 100)
>lines(x, 14394.63 +7501.46*x596.52*x*x, type="l", col= 'red',lwd=3)
>title(main=paste("Forma polinomial: Número de arrestos", " relacionados con drogas versus
GRÁFICA Nº76
SALIDA Nº64
Call:
Residuals:
3319.6 1745.2 788.1 1951.5 3364.3
Coefficients:
(Intercept) 14394.63 2768.63 5.199 0.000823 ***
a$V2 7501.46 1060.41 7.074 0.000105 ***
a$V3 596.52 86.07 6.931 0.000121 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
b1
4.1.5 FORMA RECÍPROCA Y= b 0  (105)
X
GRÁFICA Nº77
b1
Si Z= la ecuación transformada queda Y= b 0b1 Z ,
X
con lo que nuestra ecuación de regresión resulta:
 b  b Z
Y= (106)
0 1
Este modelo tiene las siguientes características: A medida que X
crece indefinidamente, el término b1 Z se aproxima a cero e Y se
aproxima al límite asintótico b . 0
Por lo tanto en estos modelos se constituye una asíntota o valor
límite que la variable dependiente toma cuando cuando el valor de
X crece indefinidamente, tal como se muestra en la gráfica Nº77.
87
Aspectos teóricos.
TABLA Nº48 TABLA Nº49
Supongamos que nos encontramos con una relación matemática Yi Xi Yi Zi

1
perfecta entre dos variables de la forma: Y= 52  , función que nos es
X 7,000 1 7,000 1,000
desconocida. Tenemos sin embargo, los valores que estas dos variables asumen 6,000 2 6,000 0,500
y se muestran en la tabla nº48: 5,667 3 5,667 0,333
5,500 4 5,500 0,250
5,400 5 5,400 0,200
Grafiquemos estos datos con R y la recta de regresión a ellos asociada.
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
5,125 16 5,125 0,063
>plot(a$V2,a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red') 5,118 17 5,118 0,059
>title(main=paste("Forma recíproca:", "Y versus 5,111 18 5,111 0,056
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 5,105 19 5,105 0,053
5,100 20 5,100 0,050
b1
Podemos especular que la función entre las variables es de la forma: Y= b 0  , por lo que
X
corremos una regresión entre las variables de la tabla nº49:
GRÁFICA Nº78
>a1 < (lm(a$V1~a$V2))
>summary(a1)
La ecuación que obtenemos resulta:

Y= 5  2∙ Z R 2= 1
26536   2999
Grafiquemos las variables originales (tabla nº48) junto

con la recta de regresión aquí obtenida.
>x < seq( 1, 20, length = 100)
>lines(x, 5+2*(1/x), type="l", lwd=3, col= 'red')
>title(main=paste("Forma recíproca:", "Y versus
GRÁFICA Nº79

SALIDA Nº65
Call:
Residuals:
0.0008940 0.0004211 0.0001214 0.0001499 0.0011506
Coefficients:
(Intercept) 4.9998164 0.0001884 26536 <2e16 ***
a$V2 2.0004648 0.0006670 2999 <2e16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
88
Ejemplo Nº21: Tasa de mortalidad infantil y el PIB per cápita ajustado a paridad de poder adquisitivo
para 42 países.
BASE DE DATOS Nº18
La base de datos Nº18 nos entrega los valores la tasa de mortalidad
Yi Xi infantil por cada 100 nacidos vivos  Y i  al 2009 y el PIB PPA per cápita  Xi  al
2008 para 219 países. Suponemos que a mayor PIB PPA baja dramáticamente la
Afghanistan 151,95 800
Albania 18,62 6000
mortalidad infantil.
Algeria 27,73 6900
American Samoa 10,18 8000
Andorra 3,76 42500 Grafiquemos estos puntos y la recta de regresión a ellos asociada:
∙ ∙ ∙
∙ ∙ ∙ >a < read.table('a.txt')
∙ ∙ ∙ >par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Tasa de mortalidad infantil',
West Bank 15,96 2900
Western Sahara 69,66 2500
Yemen 54,7 2500 >title(main=paste("Forma recíproca:", "Tasa de mortalidad infantil versus PIB PPA per
Zambia 101,2 1500 cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Zimbabwe 32,31 200
Fuente:
http://www.cia.gov GRÁFICA Nº80
Nuestra suposición resulta verdadera porque a mayor
PIB PPA la gente puede disponer de más recursos para el
cuidado de la salud, asumiendo que los demás factores
permanecen constantes. Observemos que a medida que el
PIB PPA per cápita se incrementa, hay inicialmente una
drástica caída de la mortalidad infantil pero que se estabiliza
a medida que el PIB PPA per cápita continúa creciendo.
Podemos especular que la función entre las variables
b
es de la forma: Y= b 0 1  , por lo que corremos una
X
regresión entre las variables de la tabla 50:
>a1 < (lm(a$V1~a$V2))
>summary(a1)
La ecuación que obtenemos resulta:

Y= 19,35132177,613∙ Z R 2= 0,3516
10,13 10,92
TABLA Nº50
Yi 1/X i Grafiquemos las variables originales junto con la recta de regresión aquí
obtenida.
Afghanistan 151,95 0,001250
Albania 18,62 0,000167
Algeria 27,73 0,000145
American Samoa 10,18 0,000125
>plot(a$V2,a$V1, col=3, xlab='PIB PPA per cápita', ylab='Tasa de mortalidad infantil',
Andorra 3,76 0,000024 cex.lab=1,family='NewCenturySchoolbook')
∙ ∙ ∙ >x < seq( 0, 120000, length = 100)
∙ ∙ ∙ >lines(x, 19.351+32177*(1/x), type="l", lwd=3, col= 'red')
∙ ∙ ∙ >title(main=paste("Forma recíproca:", "Tasa de mortalidad infantil versus PIB PPA per
West Bank 15,96 0,000345 cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Western Sahara 69,66 0,000400
Yemen 54,7 0,000400

Zambia 101,2 0,000667
Zimbabwe 32,31 0,005000
89
GRÁFICA Nº81
SALIDA Nº66
Call:
Residuals:
147.929 14.768 7.359 10.422 99.330
Coefficients:
(Intercept) 19.351 1.911 10.13 <2e16 ***
a$V2 32177.613 2947.032 10.92 <2e16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
90
Aplicaciones del análisis de regresión: Variables Dummy
4.2 VARIABLES DUMMY1

4.2.1 INTRODUCCIÓN
Hasta el momento, en el análisis de regresión lineal sólo hemos considerado variables cuantitativas
continuas las cuales pueden tomar cualquier valor dentro de un intervalo específico de números tanto para los
regresores como para el regresando. Sin embargo, en muchos casos, variables de naturaleza cualitativa pueden
influenciar de manera decisiva a la variable dependiente2 (consideremos por ejemplo el sexo, la etnicidad, la
religión, etc.) Para estudiar estos casos dentro del modelo de regresión lineal introduciremos variables
independientes cualitativas, llamadas también variables dummy.
Estas variables funcionan como un dispositivo de clasificación en categorías mutuamente excluyentes y
se tratan como a cualquier otra variable cuantitativa. Son tantas como el número de categorías en que se divida
la variable menos 1. Por ejemplo, si una variable posee dos categorías, como en el caso del sexo (hombre o
mujer) se construye una variable dummy en la que 1 indica mujer y 0 hombre. Si utilizamos una variable que
posee 3 categorías, como en el caso de la religión (católico, protestante o judío, por ejemplo) construimos dos
variables dummy: (1 0) en el caso de católico, (0 1) en el caso de protestante y (0 0) en el caso de judío y así
sucesivamente. En general diremos que a k categorías, utilizamos k1 variables dummy.
Las variables dummy pueden ser incorporadas en los modelos de regresión tan fácilmente como las
variables cuantitativas. De hecho, un modelo de regresión puede poseer regresores exclusivamente dummy. Estos
modelos son llamados modelos de Análisis de Varianza (ANOVA) y los estudiaremos a continuación.
4.2.2 MODELOS SÓLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA).
4.2.2.1 Modelos con solo una variable predictora cualitativa.
La población latina en Texas.
Se proyecta que para el 2020 la población blanca en el Estado de Texas dejará de ser la mayoría
absoluta pasando a constituir solo el 47%, mientras la población latina será el 37% por lejos, la segunda mayoría
relativa3, dándose en esta población los índices más altos de pobreza. 'En 1999, más de 1.6 millones (25.4 por
ciento) de hispanos en Texas eran pobres. Su ingreso familiar promedio era de $29,873, muy por debajo del
promedio de Texas de $39,927'4.
Es así que a medida que pasa el tiempo, debido a la cada vez mayor cantidad de población hispana en
Texas, una también cantidad cada vez mayor de población tejana se hará pobre.
Texas debe reducir las disparidades económicas que subyacen aún en su población si desea un porvenir
sustentable.
Ejemplo Nº22: % de población latina y su ubicación geográfica en el Estado de Texas, EE.UU.
Para comenzar a caracterizar a la población latina de Texas, supongamos que queremos saber si el
porcentaje de ésta sobre el total difiere en forma significativa entre tres zonas seleccionadas arbitrariamente de
los 254 condados del Estado.
Para esto, creamos dos variables dummy que nos indican la ubicación geográfica (gráfica nº82). De esta
manera:
D1i D2i
1: Frontera con México (1 0)

2: Centrooeste y este (0 1)
3: El resto del Estado (0 0)
La base de datos nº19 muestra el porcentaje de población latina como variable dependiente  Yi  ,
como variables dummy D1i y D2i la ubicación geográfica para los 254 condados del Estado de Texas y el %
promedio de población latina dentro de estos tres grupos.
1 Estas variables también se conocen como indicadoras, categóricas, mudas o ficticias.
2 Por ejemplo, existe evidencia empírica de que las mujeres ganan menos que los hombres por la misma actividad en el mercado del trabajo.
3 http://www.cis.org/TexasImmigration19702020
4 http://www.dallasfed.org/entrada/articles/2005/sp_fotexas_petersen.html
91

BASE DE DATOS Nº19 %
Población GRÁFICA Nº 82
Condado Yi D1i D2i latina
promedio
Starr County 98,10 1 0
Maverick County 95,33 1 0
Webb County 94,40 1 0
Brooks County 92,00 1 0
Zavala County 91,39 1 0
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
Brewster County 43,72 1 0
Live Oak County 37,95 1 0
Jeff Davis County 35,48 1 0
McMullen County 34,43 1 0
Real County 21,63 1 0 69,08
Castro County 51,83 0 1
Parmer County 49,83 0 1
Crosby County 48,84 0 1
Dawson County 48,09 0 1
Hale County 47,99 0 1
∙ ∙ ∙ ∙ Fuente:
∙ ∙ ∙ ∙ http://geology.com/
∙ ∙ ∙ ∙
Los promedios de población latina para estas tres
Hardin County 2,45 0 1
Cass County 1,62 0 1
regiones son:
Sabine County 1,60 0 1 Población
Marion County 1,40 0 1 latina
Delta County 0,81 0 1 17,93
1: Frontera con México : 69,08 %
Atascosa County 58,70 0 0 2: Centrooeste y este : 17,93 %
Deaf Smith County 57,71 0 0 3: El resto del Estado : 22,15 %
Bexar County 54,35 0 0
Sutton County 51,73 0 0
Reagan County 49,67 0 0
¿Son estos resultados significativamente diferentes unos
∙ ∙ ∙ ∙ de otros?
∙ ∙ ∙ ∙ Existen varias técnicas estadísticas para comparar dos o
∙ ∙ ∙ ∙ más promedios, las cuales son generalmente llamadas análisis
Montague County 5,49 0 0 de varianza, pero el mismo objetivo puede lograrse dentro del
Llano County 5,14 0 0 contexto de un análisis de regresión.
Armstrong County 3,91 0 0
Clay County 3,07 0 0
Para ver esto, supongamos el siguiente modelo:
Roberts County 1,35 0 0 22,15
FUENTE:
http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.html
Y i = b0 b1 D1i b 2 D2i i (107)
y hagamos una regresión (salida nº67):
>a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1)
Obtenemos la siguiente ecuación:
Y i = 22,1546,935 D1i −4,225D2i R 2= 0,5766

16,882 −2,052
>qt(0.975,251)
[1] 1.969460 por lo que nuestros parámetros estimados son significativos al 5%.
92
b0 es nuestro punto de control correspondiente SALIDA Nº67

a los valores de las variables dummy: (0 0) y nos entrega el
promedio del % de población latina para los condados Call:
que se encuentran 'en el resto del Estado': 22,15%. lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Reemplacemos los valores de las correspondientes Min 1Q Median 3Q Max
dummy: 47.454 10.079 4.160 9.534 36.550
D1i : 1 y D2i : 0 El condado se encuentra Coefficients:

en la frontera y nuestra ecuación queda: Estimate Std. Error t value Pr(>|t|)
(Intercept) 22.150 1.351 16.399 <2e16 ***
Y i = 22,1546,935= 69,085
a$V2 46.935 2.780 16.882 <2e16 ***
a$V3 4.225 2.058 2.052 0.0412 *
D1i : 0 y D2i : 1 El condado se encuentra
en el centrooeste y este y nuestra ecuación queda: Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Y i = 22,15−4,225= 17,925
Vemos que hay una tremenda concentración de Fstatistic: 173.3 on 2 and 251 DF, pvalue: < 2.2e16
población latina en la frontera con México.
Los valores de b1 y b2 nos dicen en cuanto los porcentajes promedio de latinos en los condados de

la frontera y del centrooeste y el este difieren del promedio del porcentaje de latinos del 'resto del Estado'.
4.2.2.2 Modelos con dos variables predictoras cualitativas
Ejemplo Nº23: % de pobreza, ubicación geográfica y densidad de población latina en el Estado de
Texas.
La base de datos nª20 nos entrega como variable dependiente  Yi  el % de población pobre para los
condados del Estado de Texas y como regresores, las dos variables dummy de ubicación espacial vistas en el
ejemplo anterior ( D1i y D2i )y una nueva variable dummy que categoriza la densidad de la población
hispana:
1: D3i = 1 condados con más del 30% de su población latina.

2: D3i = 0 condados con menos del 30% de su población latina.
Supongamos un modelo del tipo:
Y i = b0 b1 D1i b 2 D2i b3 D3i i (108)
BASE DE DATOS Nº20 Y hagamos un análisis de regresión (salida nº68):
Condado Yi D1i D2i D3i >a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3+a$V4))
Anderson County 14,32 0 1 0 >summary(a1)
Andrews County 15,29 0 1 1
Angelina County 19,34 0 1 0 Nuestra ecuación resulta:
Aransas County 19,63 0 0 0
Archer County 8,21 0 1 0
Y i = 14,43318,9935 D1i 1,5022 D2i 1,383 D3i
∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙  9,018 2,4  1,906
∙ ∙ ∙ ∙ ∙ Nuestro valor crítico t para un 95% de significación es:
Wood County 12,99 0 1 0
Yoakum County 17,17 0 1 1 >qt(0.95,252)
Young County 16,29 0 1 0
[1] 1.650923 por lo que nuestros parámetros estimados son
Zapata County 37,19 1 0 1
Zavala County 39,71 1 0 1
significativos al 5%.
FUENTES:
http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.html
http://www.ers.usda.gov/Data/PovertyRates/PovListNum.asp?ST=TX&view=Number&Longname=TX
93
Acá nuestro punto de referencia son los condados que
SALIDA Nº68
se encuentran 'en el resto del Estado' y tienen menos de
Call: un 30% de su población latina. Siendo así, todas las
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4) comparaciones deben ser hechas en torno a este grupo.
El % de población pobre para este grupo es, por lo tanto
Residuals: b = 14,4331 Ahora, si en nuestra categoría 'resto del
0
Estado' consideramos los condados que tienen más del
11.8096 2.3544 0.1607 2.3598 17.1004
30% de su población latina, el % promedio de pobreza
Coefficients: sube a: Y i = 14,43311,383= 15,8161
Estimate Std. Error t value Pr(>|t|) Observemos ahora nuestra categoría centrooeste y
(Intercept) 14.4331 0.4471 32.284 <2e16 *** este. Para los condados con menos del 30% de su
a$V2 8.9935 0.9973 9.018 <2e16 *** población latina el promedio de % de pobreza es:
a$V3 1.5022 0.6260 2.400 0.0171 *
a$V4 1.3830 0.7258 1.906 0.0579 .
Y i = 14,43311,5022= 15,9353 . Si consideramos los
condados de esta categoría que poseen más del 30%
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 de su población latina el porcentaje de población pobre
aumenta a: Y i = 14,43311,50221,383= 17,3183
Los condados de la categoría 'frontera con México'
Fstatistic: 48.68 on 3 and 250 DF, pvalue: < 2.2e16 poseen todos más del 30% de su población latina y el
promedio de pobreza en ellos es de
Y i = 14,43318,99351,50221,383= 26,3118
4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA)
Ejemplo Nº24: % de pobreza, ubicación geográfica y % de población latina en el Estado de Texas
Las bases de datos nº19 y nº20 nos entregan el % de población pobre  Yi  y el % de población latina
 Xi  . Consideremos también la ubicación espacial de los condados de Texas tal como ya los hemos
clasificado en los ejemplos anteriores.
Supongamos el siguiente modelo: Y i = b0 b1 X 1b 2 D1i b 3 D2i i (109)
y hagamos una regresión del % de población pobre sobre las demás variables (salida nº69):
>a1 < (lm(a$V1~a$V2+a$V3+a$V4))
>summary(a1)
BASES DE DATOS Nº19 y Nº20
Obtenemos la siguiente recta de regresión:
Condado Yi X 1i D1i D2i
Anderson County 14,32 12,00 0 1

Y i = 11,96710,1266 X i 4,0627 D1i1,997D2i
Andrews County 15,29 40,11 0 1 7,196   3,589 3,453
Angelina County 19,34 14,08 0 1
Aransas County 19,63 20,42 0 0 Nuestro valor crítico t para un 95% de significación es:
Archer County 8,21 4,57 0 1
∙ ∙ ∙ ∙ ∙ >qt(0.975,252)
∙ ∙ ∙ ∙ ∙ [1] 1.969422, por lo que nuestros parámetros estimados son
∙ ∙ ∙ ∙ ∙ significativos al 5%.
Wood County 12,99 5,38 0 1
Yoakum County 17,17 45,92 0 1
Young County 16,29 10,50 0 1 Obtengamos nuestras rectas de regresión asociadas a cada
Zapata County 37,19 84,94 1 0 categoría de la variable cualitativa: 'ubicación geográfica'.
Zavala County 39,71 91,39 1 0
Si el condado se encuentra en la frontera D1i =1 y D2i= 0 : Y i = 16,0298 0,1266 X i

Si el condado se encuentra en el centrooeste y este D1i =0 y D2i =1 : Y i = 13,96410,1266 X i
Si el condado se encuentra en el resto del Estado D1i =0 y D2i =0 : Y i = 11,96710,1266 X i
94
SALIDA Nº69
Grafiquemos con R las tres ecuaciones anteriores Call:
y nuestros datos de % promedio de población pobre y % lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
promedio de población latina para los condados de Texas
(gráfica nº 83): Residuals:
>x < seq( 0 ,100,length = 100) 11.9327 2.6806 0.2313 2.3717 14.6897
>plot(a$V2, a$V1, col=3, xlab='% promedio de población latina', ylab='% Coefficients:
promedio de población pobre', Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.96711 0.54169 22.092 < 2e16 ***
>lines(x, 16.0298+0.1266*(x), type='l', col= 'blue', lwd=2)
a$V2 0.12656 0.01759 7.196 7.23e12 ***
>lines(x, 13.9641+0.1266*(x), type='l', col= 'red', lwd=3)
>lines(x, 11.9671+0.1266*(x), type='l', col= 'Magenta 4', lwd=2) a$V3 4.06270 1.13208 3.589 0.000400 ***
>title(main=paste("Población pobre versus", "población latina en los a$V4 1.99695 0.57837 3.453 0.000652 ***
condados de Texas",sep="\n"),
font.main=1,cex.main=1.5,family='NewCenturySchoolbook') Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
GRÁFICA Nº 83
Las tres rectas de regresión representan a las 3 regiones
en que hemos dividido el Estado de Texas.
El gráfico se interpreta como sigue: La línea violeta
representa 'el resto del Estado', la línea roja representa el
centrooeste y el este, y la azul los condados que se
encuentran en la frontera con México.
Vemos que consecutivamente a medida que aumenta
el % promedio de población latina es mayor el valor del % de
población pobre, poseyendo los condados que se ubican en la
frontera con México los más altos índices de pobreza.
4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL
Las variables dummy permiten determinar si ha habido un cambio en los parámetros del modelo de
regresión, ya sea en la intercepción o en la pendiente. Para esto sólo debemos saber si los parámetros estimados
asociados a las variables dummy son estadísticamente significativos.
Consideremos el modelo general con una variable dummy: Y i = b0 b1 X 1i b2 X i D1i b3 D1i (110)
donde: i= 1,...,n y definamos: D1i = 0 para la categoría o y D1i = 1 para la categoría p.
De esta manera una vez ejecutada la regresión:
Y i = b0  b1 X i para la categoría o.
Y i = b0  b3 b1 b2 Xi para la categoría p.
Hay cuatro casos posibles de acuerdo a que posean o no significación estadística cada uno de los
parámetros estimados:
95
GRÁFICA Nº 84
1. b3 y b2 no son significativas, por lo que no hay
cambio estructural. Las regresiones para las dos categorías son
idénticas: Y i = b0  b1 X i para todo i.
2. b es significativa, pero b no. Existen dos
3 2
regresiones con la misma pendiente pero con distintas
intercepciones.

Y i = b0  b3  b1 X i para la categoría p.

GRÁFICA Nº 85
3. b3 no es significativa, pero b2 si. Hay dos

regresiones con una misma intercepción (concurrente) pero
con diferentes pendientes.

Y i = b0  b1 b2  X i para la categoría p.
GRÁFICA Nº 86
4. b3 y b2 son ambas estadísticamente significativas.

Existen dos regresiones por completo distintas.

Y i = b0  b3 b1 b2 Xi para la categoría p.
Ilustremos este último caso con un ejemplo:
Ejemplo Nº25: Los efectos diferenciados para África y el resto del mundo de la correlación entre
la esperanza de vida y el PIB.
Se supone la existencia de cierta correlación entre la esperanza de vida y el PIB per cápita a valores de
paridad de poder adquisitivo en los países del mundo, como lo vimos en el ejemplo nº1 de este trabajo. Como
África posee los más bajos PIB per cápita mundiales, para considerar los efectos regionales en la regresión, se
introducirá una variable dummy: Di= 1 si el país es africano y Di = 0 si no lo es.
La tabla nº2 vista en la primera sección de este trabajo Análisis de Regresión Simple nos muestra la
esperanza de vida en años al 2005  Y i  y el logaritmo del PIB per cápita a paridad de poder adquisitivo al 2005
 Xi  . Añadamos la variable dummy definida anteriormente Di  y esta misma multiplicada por la variable
independiente Di X i  para 164 países del mundo, 39 de los cuales son africanos.
96
(excluímos los siguientes datos aberrantes todos países TABLA Nº2

africanos: Angola, Botswana, Gabon, Lesotho, Namibia, South
Africa, Swaziland y Zimbabwe) PAÍS Yi Xi Di X i Di
Apliquemos una regresión de la esperanza de vida sobre el
logaritmo del PIB per cápita a paridad de poder adquisitivo: Albania 76,2 8,580 0 0,000
Algeria 71,7 8,878 1 8,878
>a < read.table('a.txt') Antigua y Barbuda 73,9 9,359 0 0,000
>a1 < (lm(a$V1~a$V2)) Argentina 74,8 9,484 0 0,000
>summary(a1) Armenia 71,7 8,306 0 0,000
∙ ∙ ∙ ∙ ∙
SALIDA Nº70 ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙
Call: Vanuatu 69,3 8,136 0 0,000
lm(formula = a$V1 ~ a$V2) Venezuela 73,2 8,666 0 0,000
Vietnam 73,7 7,931 0 0,000
Residuals:
Yemen 61,5 6,614 0 0,000
14.2331 2.4979 0.2952 3.2149 11.0504
Zambia 40,5 6,815 1 6,815
Coefficients: Nuestra ecuación de regresión nos da:
Estimate Std. Error t value Pr(>|t|)  1,9627,652X
Y= R 2=0,764
(Intercept) 1.9619 2.9153 0.673 0.502
a$V2 7.6520 0.3329 22.987 <2e16 ***
22,987

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Nuestro valor crítico t para un 95% de significación es:
Residual standard error: 4.88 on 162 degrees of freedom >qt(0.975,160)
Multiple Rsquared: 0.7653,Adjusted Rsquared: 0.7639 [1] 1.974902, por lo que nuestros parámetros estimados son
Apliquemos una regresión de la esperanza de vida, sobre el resto de variables independientes incluyendo
las dummies:
SALIDA Nº71 >a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3+a$V4))
Call: >summary(a1)
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Nuestra ecuación de regresión nos da:
Residuals:
10.8277 1.9444 0.3835 2.3447 9.6967  25,4825,178X− 47,501D5,256 X ∙D
Y=
2
R =0,852
14,015 −6,454  5,51
Coefficients:
Siendo todos nuestros parámetros estimados son
(Intercept) 25.4817 3.3735 7.554 3.06e12 ***
a$V2 5.1782 0.3695 14.015 < 2e16 ***
Las ecuaciones resultan respectivamente:
a$V3 47.5010 7.3604 6.454 1.24e09 ***
a$V4 5.2558 0.9540 5.510 1.41e07 ***  1,9627,652X para las variables originales
Y=
 − 22,01910,434 X
Y= para África y
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Y= 25,4825,178X para el resto del mundo.
Residual standard error: 3.903 on 160 degrees of freedom Grafiquemos esta rectas (gráfica nº 87):
>x < seq( 5, 12, length = 1000)
>plot(a$V2, a$V1, col=3, xlab='Ln del PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>lines(x, 22.019 +10.434*(x), type="l", col= 'Magenta 4')
>lines(x, 25.482 +5.178*(x), type="l", col= 'blue')
>title(main=paste("Esperanza de vida", "versus ln del PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
La columna gruesa azul nos muestra la recta de regresión original. La línea verde representa al conjunto
de países excluyendo África. Se aprecia con una pendiente menor y una intersección con el eje Y mayor. Lo
anterior implica que la esperanza de vida parte siendo alta para valores bajos del PIB y se incrementa
suavemente a través del aumento del ln del PIB de los países.
La línea roja interpreta a los países africanos, y muestra que la esperanza de vida para éstos se
incrementa dramáticamente a medida que aumenta el PIB de los mismos.
97
GRÁFICA Nº 87
4.2.5 ALGUNAS PRECAUCIONES EN EL USO DE VARIABLES
DUMMY

1. Si una variable cualitativa tiene m categorías, debe
representarse por medio de m1 variables dummy, asignando a
cada una los valores de 0 ó 1. De no ser así ocurre el problema
de la multicolinealidad (que hemos analizado en la sección
precedente)5.
Las siguientes precauciones están referidas a modelos
ANOVA.
2. La categoría para la cual no es asignada ninguna
variable dummy es denominada punto de referencia o
categoría omitida. Todas las comparaciones están hechas en
relación al punto de referencia.
3. El valor de intercepción b0 representa el valor
promedio del punto de referencia.
Por ejemplo, consideremos la base de datos Nº1
restringida al los valores de la esperanza de vida  Yi  junto
con la dummy antes definida Di  .
Ejecutemos una regresión de  Y i  sobre Di  : BASE DE DATOS Nº1
>a < read.table('a.txt') PAÍS Yi Di
>a1 < (lm(a$V1~a$V2))
>summary(a1) Albania 76.2 0
Algeria 71.7 1
La recta de regresión obtenida es: Antigua y Barbuda 73.9 0
Argentina 74.8 0
 72.507−17,271 ∙D
Y= R 2=0,5365 Armenia 71.7 0
i
∙ ∙ ∙
−13,77
∙ ∙ ∙
∙ ∙ ∙
SALIDA Nº72
Para los países no Vanuatu 69.3 0
Call:
africanos Di = 0  el Venezuela 73.2 0
valor promedio de la Vietnam 73.7 0
esperanza de vida es Yemen 61.5 0
Zambia 40.5 1
Residuals: 72,507.
Min 1Q Median 3Q Max 4. Los coeficientes b i son conocidos como los
18.6072 4.1394 0.0572 4.9678 18.2641
coeficientes de intercepción diferencial. Nos dicen en
Coefficients: cuanto varía el valor de la variable dependiente para la
Estimate Std. Error t value Pr(>|t|) correspondiente categoría respecto al punto de
(Intercept) 72.5072 0.6115 118.56 <2e16 *** referencia.
a$V2 17.2713 1.2540 13.77 <2e16 *** En nuestro ejemplo, 72,50717,271= 55,236 es el valor
promedio de la esperanza de vida para los países
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 africanos.
5. Si la variable cualitativa tienen más que una
categoría, la elección del 'punto de referencia' queda a
Fstatistic: 189.7 on 1 and 162 DF, pvalue: < 2.2e16 estricta elección del investigador.
5 Es posible evitar el problema de la multicolinealidad al tener m variables dummy para m categorías de una variables cualitativa omitiendo el
término de intercepción y corriendo una regresión bajo el siguiente modelo supuesto: Y i = b 1 D1ib1 D 2ib1 D3i  i . Suprimiendo la intercepción
y utilizando una variable dummy para cada categoría, se obtienen directamente los valores medios para cada una de las categorías.
98
Aplicaciones del análisis de regresión: Modelos de elección binarios
4.3 MODELOS DE ELECCIÓN BINARIOS

4.3.1 INTRODUCCIÓN
Hasta ahora, hemos considerado modelos de regresión en los que el regresando (variable dependiente o
respuesta) es cuantitativa, mientras las variables independientes son cuantitativas, cualitativas (dummy) o una
mezcla de ambas. Sin embargo, algunas veces en el análisis de regresión sólo estamos interesados en el valor
dicotómico que pueda adoptar la variable respuesta, como por ejemplo, en regresiones donde deseamos
averiguar de qué manera influye un set de variables independientes en el hecho de que una persona esté
ocupada o desempleada, sea alfabeta o analfabeta, sea solvente o insolvente para un préstamo, etc.
Existe una importante diferencia entre un modelo de regresión donde la variable dependiente es
cuantitativa y otro en la que es cualitativa. En el primer caso, nuestro objetivo es estimar la media del regresando,
dados los valores de los regresores. En el segundo, nuestro objetivo es encontrar la probabilidad de que algo
ocurra o no. Es por esto que los modelos de regresión con variable dependiente cualitativa se denominan
también modelos de probabilidad.
Si en un modelo de regresión lineal la variable dependiente es una variable dicotómica1 (que adopta
sólo los valores 0 ó 1), una regresión por el método de MCO no es apropiada, pues éste puede permitir
predicciones mayores que 1 o menores que 0 dando un resultado absurdo.
En este capítulo abordaremos dos metodologías para estudiar los modelos de respuesta cualitativa: el
Logit y el Probit.
4.3.2 EL MODELO LOGIT
La función de distribución logística puede expresarse como:
Z
1 1 e i
Pi = E Y= 1 / Xi = − b b X  o bien, si Z i= b0 b1 X i ; Pi = −Z

= Z (111)
1e 0 1 i
1e 1e i i
donde Z i se denomina logit.
Zi
e
Z i varía de −∞ a ∞ , por lo que Pi = Z varía de 0 a 1. Lo que se intenta es llevar
1e i
rápidamente a 0 ó a 1 los valores de Pi .
GRÁFICA Nº88
Existe un problema de estimación, porque Pi no es
lineal ni en los X i ni en los bi , por lo que no podemos
utilizar el método de MCO para estimar los parámetros.
Debemos utilizar el logit.
Z
e i
Si Pi = Z es la probabilidad de poseer cierto

1e i
atributo, entonces 1−Pi  es la probabilidad de no

Zi
e 1
poseerlo: 1−Pi = 1− Z
= Z (112)
1e i
1e i
Definamos como Oportunidad Relativa2 la razón entre la
probabilidad de poseer un atributo y no poseerlo : 3
Z
Pi e Z 1e i   i
Op Rel= = Z
∙ = e Z = e b b X  i 0 1 i
(113)
1−Pi 1e 1 i
Pi
Aplicando logaritmos al odds ratio obtenemos Z i= ln  = b0 b1 X i (114)
1−P i
Siendo ahora el logit lineal en X y en los parámetros. Analicemos el siguiente ejemplo:
1 Tengamos presente que en el caso general, la variable respuesta puede ser politómica (poseer múltiples categorías).
2 También llamada odds ratio.
4/5 4 /5 4
3 Así, si P i= 0,8 esto significa que: Odds Ratio= = = esto es, que las probabilidades son 4 a 1 a favor de que encontremos la
1−4/ 5 1/ 5 1
presencia del atributo buscado.
99
Ejemplo Nº26: Pobreza y religión en Irlanda del Norte. BASE DE DATOS Nº21
DISTRITO Yi Xi
La base de datos nº21 nos da información para los 26 distritos de
gobierno local de Irlanda del norte, siendo Y i una variable dependiente Antrim 0 34,382
dicotómica que asume los valores Y i = 1 si el porcentaje de niños que viven Ards 1 12,191
bajo el 60% del ingreso medio es mayor del 25% para el 2008, Y i = 0 si no, y Armagh 0 47,297
Ballymena 1 19,081
X i es el porcentaje de población católica para la respectiva provincia para
Ballymoney 0 31,405
1991. Podemos establecer el supuesto de que las provincias con alto predominio ∙ ∙ ∙
católico son las más pobres. ∙ ∙ ∙
∙ ∙ ∙
Apliquemos un análisis de regresión Logit a esta tabla (salida nº73): Newry & Mourne 1 76,988
Newtownabbey 0 14,054
>a < read.table('a.txt') North Down 0 9,736
>a1 < glm(a$V1 ~ a$V2,family=binomial(link=logit)) Omagh 1 66,812
>summary(a1) Strabane 1 63,712
FUENTES:
Nuestra ecuación logit queda 25% o más de niños que viven bajo el 60% del ingreso medio 2008
entonces: http://www.niassembly.gov.uk/centre/2007mandate/reports/Report08_07_08r_vol1.htm
% de población católica 1991
http://www.wesleyjohnston.com/users/ireland/past/protestants_1861_1991.html
Z i= −2,164970,07013 X i
Obtengamos el valor crítico para z al 95% de significación:
>qnorm(0.975)
[1] 1.959964
Ambos coeficientes son estadísticamente significativos.
Grafiquemos los valores del logit  Zi  y sus valores ajustados P i sobre la variable independiente
dados en la tabla nº51 (gráficas nº89 y nº90) .
SALIDA Nº73
Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = logit)) TABLA Nº51
Deviance Residuals: DISTRITO Yi Xi Zi Pi
1.6891 0.7115 0.4149 0.5790 1.7600 Antrim 0 34,382 0,246 0,561
Ards 1 12,191 1,310 0,212
Coefficients: Armagh 0 47,297 1,152 0,760
Estimate Std. Error z value Pr(>|z|) Ballymena 1 19,081 0,827 0,304
(Intercept) 2.16497 1.08133 2.002 0.0453 * Ballymoney 0 31,405 0,037 0,509
a$V2 0.07013 0.02753 2.548 0.0108 * ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ∙ ∙ ∙ ∙ ∙
Newry & Mourne 1 76,988 3,234 0,962
(Dispersion parameter for binomial family taken to be 1) Newtownabbey 0 14,054 1,179 0,235
North Down 0 9,736 1,482 0,185
Null deviance: 34.646 on 25 degrees of freedom Omagh 1 66,812 2,521 0,926
Strabane 1 63,712 2,303 0,909
Residual deviance: 25.326 on 24 degrees of freedom
AIC: 29.326
Number of Fisher Scoring iterations: 4
>plot(a$V2, predict(a1), col='3', xlab='% de población católica', ylab='Valores del Logit', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre los valores del Logit", "y el % de población
católica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>plot(a$V2, fitted(a1), col='3', xlab='% de población católica', ylab='Valores ajustados del Logit', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre los valores ajustados del Logit", "y el % de población
católica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
100
4.3.2.1 Interpretación de los coeficientes: Z i= −2,164970,07013 X i
El parámetro estimado de pendiente en la ecuación de salida es un coeficiente de pendiente parcial y
mide el cambio en el Logit estimado para el cambio de 1 unidad en el valor del regresor dado (manteniendo
todos los demás constantes).
La interpretación de los coeficientes logit puede ser difícil. En nuestro ejemplo, para el incremento de un
1% en X i , el logaritmo del odds ratio de que una provincia sea pobre se incrementa en 0,07. Es preferible elevar
a e los coeficientes e interpretarlos como oddratios.
SALIDA Nº74
>exp(a1$coefficients) (Intercept) a$V2

0.1147539 1.0726478
Así para el incremento de un 1% en X i , el odds ratio de que una provincia sea pobre se incrementa en
un factor de 1,0726.
4.3.2.2 Intervalos de confianza para los coeficientes estimados
SALIDA Nº75
Notemos que el intervalo de confianza que nos entrega R está
2.5 % 97.5 %
referido a los parámetros estimados del logit. (Intercept) 4.60906435 0.2316007
a$V2 0.02276608 0.1344598
>confint(a1)
4.3.2.3 Significación estadística de los coeficientes.
La significación estadística de cada uno de los coeficientes estimados la obtenemos de la división del
respectivo coeficiente por su desviación estándar. Éste valor sigue una distribución normal:
b i
Z i= (115)
Sb i 
b0 2,16497 b1 0,07013

Z 0= =− = −2,002 y Z 1= = = 2,547

Sb 0 1.08133 
S b1  0,02753
El valor Pr(|z|) nos da el límite de la significación del parámetro estimado. Para b1 el valor límite de

significación es: Pr(|z|)= 0,0108, esto quiere decir que 10,0108/2= 0,9946 es el valor de la significación exacta.
101
Verifiquémoslo:
>qnorm(0.9946)
[1] 2.549104 el cual es el valor de Z 1
4.3.2.4 Contraste de hipótesis el modelo.
4.3.2.4.1 La función de verosimilitud.
Observemos dos datos que nos entrega la salida nº73: Null deviance y Residual deviance. La primera es
2 veces4 el logaritmo de la verosimilitud del modelo denominado nulo −2Ln L 0  , en el cual no se considera
regresor alguno y cuyas probabilidades Pi son las probabilidades simples de que el evento ocurra o no; la
segunda es 2 veces el logaritmo de la verosimilitud del modelo incluyendo los regresores −2Ln L .
El logaritmo de la función de verosimilitud se
TABLA Nº52
define como:
DISTRITO Yi Pi 1−P i Y i ∙ lnP i 1−Y i ∙ln 1−P i
N
∑ [Y i ∙ln Pi Z i 1−Y i ∙ln 1−Pi Z i ] (116)

Antrim 0 0,615 0,385 0,000 0,956
i=1
Ards 1 0,615 0,385 0,486 0,000
Armagh 0 0,615 0,385 0,000 0,956
Ballymena 1 0,615 0,385 0,486 0,000 Calculemos el logaritmo de la verosimilitud del
Ballymoney 0 0,615 0,385 0,000 0,956 modelo nulo para nuestro ejemplo:
∙ ∙ ∙ ∙ ∙ ∙ −7,768− 9,555= −17,323
∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙
Calculemos el logaritmo de la verosimilitud del
Newry & Mourne 1 0,615 0,385 0,486 0,000
Newtownabbey 0 0,615 0,385 0,000 0,956
modelo para nuestro ejemplo:
North Down 0 0,615 0,385 0,000 0,956 −6,349 −6,314= −12,663 Este último valor también lo
Omagh 1 0,615 0,385 0,486 0,000 obtenemos con la siguiente instrucción:
Strabane 1 0,615 0,385 0,486 0,000
>logLik(a1)
∑ 7,768 9,555 'log Lik.' 12.66264 (df=2)
TABLA Nº53
DISTRITO Yi Xi Zi −Z i P i Z i  1−P i Z i  Y i ∙ lnP i  Zi  1 −Y i ∙ln 1−P i Z i 
Antrim 0 34,382 0,246 0,246 0,561 0,439 0,000 0,824

Ards 1 12,191 1,310 1,310 0,212 0,788 1,549 0,000
Verifiquemos que los Armagh 0 47,297 1,152 1,152 0,760 0,240 0,000 1,427
datos entregados por las tablas Ballymena 1 19,081 0,827 0,827 0,304 0,696 1,190 0,000
nº52 y nº53 coinciden con los Ballymoney 0 31,405 0,037 0,037 0,509 0,491 0,000 0,712
entregados por la salida nº73: ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
−2 ∙−12,663= 25,326 y Newry & Mourne 1 76,988 3,234 3,234 0,962 0,038 0,039 0,000
Newtownabbey 0 14,054 1,179 1,179 0,235 0,765 0,000 0,268
−2 ∙−17,323= 34,646 North Down 0 9,736 1,482 1,482 0,185 0,815 0,000 0,205
Omagh 1 66,812 2,521 2,521 0,926 0,074 0,077 0,000
Strabane 1 63,712 2,303 2,303 0,909 0,091 0,095 0,000
∑ 6,349 6,314
4.3.2.4.2Estadístico de la Razón de Verosimilitud o chi2.
Para evaluar la significación global del modelo (para el conjunto de coeficientes estimados) se utiliza el
Estadístico de la Razón de Verosimilitud, definido como: ERV= −2 lnL 0−L = 34,646−25,326= 9,32 (117)
que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que
este caso es 1.
Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora
sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.
4 Pues la verosimilitud es un valor pequeño.
102
Calculemos chi2
>qchisq(0.95, df=1)
[1] 3.841459
3.841459 < 9,32 y concluímos que la inclusión del regresor mejora ostensiblemente la verosimilitud del modelo.
4.3.2.4.3Bondad del ajuste.
Una medida de la bondad del ajuste es un 'estadísticoresumen' que indica la precisión con la cual un
modelo se aproxima a los datos observados. Evalúa la idoneidad del modelo de regresión logística.
Podemos estimar la bondad de ajuste mediante la comparación del número de casos observados con
los esperados por el modelo estimado (eI porcentaje de distritos que coinciden con la alternativa predicha por el
modelo).
En nuestro ejemplo los casos totales son 26 y los predichos por nuestro modelo correctamente (tomando
como punto de corte 0,5) son 18, entonces:
18
X= ∙ 100%= 69,231 % y el modelo seleccionado ajusta los datos con un 69,231% de precisión.
26
4.3.2.5 Características del modelo Logit. GRÁFICA Nº91
1. Si Pi varía de 0 a 1, el Logit Z i varía de −∞ a ∞ ,

esto es, mientras las probabilidades yacen entre 0 y 1, los Logit
no tienen límites.
2. Si bien Z i es lineal sobre X, las probabilidades Pi sobre
X i no.
3. Podemos agregar tantos regresores (o variables
independientes) al modelo como nos lo indique la teoría.
4. Si Z i es negativo y se incrementa en magnitud, el odds
decrece de 1 a 0 y por el contrario, si se incrementa
positivamente, el odds ratio se incrementa de 1 al infinito.
(gráfica nº91)
5. b1 , la pendiente, mide el cambio en Z i producido por
el cambio de 1 unidad en X, esto es, nos dice cómo los
logaritmos de los odds ratio en favor de Pi = 1 cambian a
medida que la variable independiente se incrementa en una
unidad.
La intercepción b0 es el valor del logaritmo del odds
ratio a favor de Pi = 1 si la variable independiente es cero.
6. Dado un cierto valor de la variable independiente, si deseamos no estimar los odds ratio a favor de Pi = 1
sino la probabilidad Pi = 1 , ésta se puede obtener directamente de:
Z
1 i
e
Pi = −Z
= Z una vez que los estimadores de b0 y b1 estén disponibles.
1e i
1e i
7. El modelo Logit asume que el logaritmo de los odds ratio está linealmente relacionado con X i
4.3.2.6 Algunas observaciones para el modelo Logit.
1. Como usamos el método de máxima verosimilitud, el cual es generalmente un método de muestras grandes,
los errores standard estimados son asintóticos. Como resultado, en vez de usar la estadística t para evaluar la
significación estadística de un coeficiente, usamos la estadística z (normal standard). Recordemos que si el
tamaño de la muestra es razonablemente grande, la distribución t converge a la distribución normal.
2. En modelos de regresión binario, la bondad del ajuste tiene una importancia secundaria. Lo que importa son
los signos esperados de los coeficientes de la regresión y su significación estadística.
103
4.3.3 EL MODELO PROBIT GRÁFICA Nº92
La función de distribución acumulativa normal es

también utilizada para explicar el comportamiento de una
variable dependiente dicotómica. El modelo de estimación
que así surge se denomina modelo Probit o Normit.
En el modelo Probit, P es una función de distribución
acumulada de la normal standard que se expresa como
integral.
Pi = P Y= 1 /X i  es la probabilidad de que un
evento ocurra dado los valores de la(s) variable(s)
independiente(s) X i siendo Z i la variable normal standard
Z N0, 2  tal que si Z i= b0 b1 X i entonces:
2
−z i
1 2
por lo que
zi
(118) (119)
 Zi = e
 
2 P Zi = ∫
−∞
 v  dv
es la función de distribución acumulativa normal.
La probabilidad de que un evento a ocurra P a está representada por el área definida bajo la curva
normal de −∞ a Z a .
Ejemplo 27: Satisfacción con la vida y PIB PPA per cápita para 30 países.
La base de datos nº22 nos muestra un set de datos para 30 países, que nos indica los datos del puntaje
de satisfacción con la vida, como variable dependiente. El promedio de este indicador es 222,33. Categorizemos
esta variable como Y i = 1 si el país supera esta media y Y i = 0 si no. Como variable independiente X i
tenemos los datos del PIB PPA per cápita para los mismos.
BASE DE DATOS Nº22
Apliquemos un análisis de regresión Probit de Di sobre X i (salida
PAÍS Yi Di Xi
nº76):
Australia 243,33 1 39300 >a < read.table('a.txt')

Austria 260,00 1 39600 >a1 < glm(a$V1~a$V2,family=binomial(link=probit))
>summary(a1)
Bahrain 240,00 1 37200
Belarus 133,33 0 12000
Belgium 243,33 1 38300 Nuestra ecuación de regresión Probit resulta: Z i= − 4,720,0001594 X i
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ Obtengamos el valor crítico para z al 95% de significación:
∙ ∙ ∙ ∙
Spain 233,33 1 34100 >qnorm(0.975)
Sweden 256,67 1 39600 TABLA Nº54
[1] 1.959964
Switzerland 273,33 1 40900
United Kingdom 236,67 1 37400 Ambos coeficientes son PAÍS Yi Xi Zi Pi
United States
FUENTES: 246,67 1 48000
estadísticamente
PIB PPA per cápita 2005: Australia 1 39300 1,544 0,939
significativos. Austria 1 39600 1,592 0,944
http://www.imf.org/external/data.htm
Índice de satisfacción con la vida 2006: Bahrain 1 37200 1,210 0,887
Adrian G. White. University of Leicester Belarus 0 12000 2,807 0,002
Belgium 1 38300 1,385 0,917
∙ ∙ ∙ ∙ ∙
Grafiquemos los valores ajustados del Probit y de Pi sobre ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙
la variable independiente que aparecen en la tabla nº54 (gráficas
Spain 1 34100 0,716 0,763
nº92 y nº 93): Sweden 1 39600 1,592 0,944
Switzerland 1 40900 1,799 0,964
United Kingdom 1 37400 1,242 0,893
United States 1 48000 2,931 0,998
104
SALIDA Nº76
Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = probit))
Deviance Residuals: >plot(a$V2, predict(a1), col='3', xlab='PIB PPA per cápita', ylab='Valores
Min 1Q Median 3Q Max del Probit', cex.lab=1,family='NewCenturySchoolbook')
1.8455 0.3624 0.2337 0.4610 1.8103 >title(main=paste("Relación entre los valores del Probit", "y el PIB PPA per
cápita",sep="\n"),font.main=1,cex.main=1.5,
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 4.720e+00 1.565e+00 3.017 0.00255 **
>plot(a$V2, fitted(a1), col='3', xlab='PIB PPA per cápita', ylab='Valores
a$V2 1.594e04 4.891e05 3.259 0.00112 ** ajustados del Probit', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre los valores ajustados del Probit", "y el
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 40.381 on 29 degrees of freedom
AIC: 25.404
Con el siguiente comando obtenemos los Pi del modelo de regresión probit.
> fitted.values(a1)
4.3.3.1 Interpretación de los coeficientes.
En este tipo de modelos no resulta posible interpretar directamente las estimaciones de los parámetros, ya
que son modelos no lineales. Lo que haremos es fijarnos en el signo de los estimadores. Si el estimador es positivo,
significará que incrementos en la variable asociada causan incrementos en P(Y = 1) (aunque desconocemos la
magnitud de los mismos). Por el contrario, si el estimador muestra un signo negativo, ello supondrá que
incrementos en la variable asociada causarán disminuciones en P(Y = 1).
El PIB PPA per cápita tiene un impacto positivo en el Probit. Aunque el hecho de que valga
aproximadamente cero, induce a pensar que un aumento unitario en el PIB PPA per cápita no causará un efecto
apreciable sobre su la satisfacción con la vida consideremos que hablamos de dólares, por lo que tiene mas
sentido decir que un aumento de diez mil dólares en el PIB PPA per cápita aumentael probit un 1,59.
105
4.3.3.2 Intervalos de confianza para los coeficientes estimados
Los intervalos de confianza se obtienen con la siguiente SALIDA Nº77
instrucción en R:
2.5% 97.5%
(Intercept) 8.554748e+00 2.0497822717
>confint(a1)
a$V2 7.561091e05 0.0002806858
4.3.3.3 Contraste de hipótesis el modelo.
TABLA Nº64
Al igual que en el modelo Logit, para el Probit
PAÍS Yi Pi 1−P i Y i ∙ lnP i 1−Y i ∙ln 1−P i Z i 
el logaritmo de la función de verosimilitud se define
como: Australia 1 0,6 0,4 0,511 0,000
Austria 1 0,6 0,4 0,511 0,000
N
Bahrain 1 0,6 0,4 0,511 0,000
∑ [Y i ∙ln Pi Z i 1−Y i  ∙ln 1−Pi Z i ] Belarus 0 0,6 0,4 0,000 0,916
i=1
Belgium 1 0,6 0,4 0,511 0,000
∙ ∙ ∙ ∙ ∙ ∙
Calculemos el logaritmo de la verosimilitud del ∙ ∙ ∙ ∙ ∙ ∙
modelo nulo para nuestro ejemplo: ∙ ∙ ∙ ∙ ∙ ∙
Spain 1 0,6 0,4 0,511 0,000
−9,195−10,995= − 20,19 Sweden 1 0,6 0,4 0,511 0,000
Switzerland 1 0,6 0,4 0,511 0,000
United Kingdom 1 0,6 0,4 0,511 0,000
Calculemos el logaritmo de la verosimilitud del
United States 1 0,6 0,4 0,511 0,000
modelo para nuestro ejemplo:
9,195 10,995
−4,99− 5,712= −10,702
TABLA Nº65 Este último valor

también lo obtenemos con
PAÍS Yi Xi Zi P i Z i  1−P i Z i  Y i ∙ lnP i  Zi  1−Y i ∙ln 1−P i Z i 
−Z i la siguiente instrucción:
Australia 1 39300 1,544 1,544 0,939 0,061 0,063 0,000
>logLik(a1)
Austria 1 39600 1,592 1,592 0,944 0,056 0,057 0,000
'log Lik.' 10.70192 (df=2)
Bahrain 1 37200 1,210 1,210 0,887 0,113 0,120 0,000
Belarus 0 12000 2,807 2,807 0,002 0,998 0,000 0,003
Belgium 1 38300 1,385 1,385 0,917 0,083 0,087 0,000 Verifiquemos que los
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ datos entregados por las
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ tablas nº64 y nº65 coinciden
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ con los entregados por la
Spain 1 34100 0,716 0,716 0,763 0,237 0,271 0,000 salida nº76:
Sweden 1 39600 1,592 1,592 0,944 0,056 0,057 0,000
Switzerland 1 40900 1,799 1,799 0,964 0,036 0,037 0,000
−2 ∙−20,19= 40,38 y
United Kingdom 1 37400 1,242 1,242 0,893 0,107 0,113 0,000
United States 1 48000 2,931 2,931 0,998 0,002 0,002 0,000
−2 ∙−10,702= 21,404
4,990 5,712
Para evaluar la significación global del modelo (para el conjunto de coeficientes estimados) se utiliza el
Estadístico de la Razón de Verosimilitud, definido como: ERV= −2 lnL 0−L = 40,38−21,404= 18,976 (120)
que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que
este caso es 1.
Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora
sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.
Calculemos chi2
>qchisq(0.95, df=1)
[1] 3.841459
3.841459 < 18,976 y concluímos que la inclusión del regresor mejora ostensiblemente la verosimilitud del modelo.
106
4.3.4 Modelos logit y probit. ¿Cuál es preferible?
Para muchas aplicaciones, los modelos son muy similares. La principal diferencia consiste en que la
distribución logística se aproxima más lentamente a 0 y a 1 a medida que el logit se desplaza de ∞ a ∞
respectivamente (gráfica nº95). Por consiguiente no existe una razón de peso para elegir entre una u otra.
En la práctica, muchos investigadores eligen el modelo Logit por su comparativamente mayor sencillez
matemática (la facilidad de los cálculos cuando no están las tablas necesarias para encontrar la probabilidad
acumulada).
>a1 < glm(a$V1~a$V2,family=binomial(link=logit))
>summary(a1)
SALIDA Nº76 GRÁFICA Nº95
Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = logit))
Deviance Residuals:
1.8423 0.3925 0.2852 0.4796 1.8135
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 7.805e+00 2.900e+00 2.691 0.00712 **
a$V2 2.634e04 9.127e05 2.886 0.00390 **

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 40.381 on 29 degrees of freedom
AIC: 25.841
Aunque los modelos son similares, debemos tener cuidado al interpretar los coeficientes estimados en
ambos modelos.
Pueden ser diferentes. La razón de esto es que aunque las distribuciones logística standard (la base del
modelo Logit) y normal standard (la base del modelo probit) tienen media 0 y sus varianzas son diferentes: 1 para
2
la normal standard y para la distribución logística.
3

Por lo tanto, si multiplicamos el coeficiente Probit por , obtendremos aproximadamente el
3
coeficiente Logit.
bProbit ∙  = bLogit bProbit ∙1,81= bLogit bProbit = 0,55 ∙b Logit (121)

3
Otros autores sugieren utilizar un coeficiente 0,625. Así:
bLogit ∙ 0,625= bProbit 1,6 ∙b Probit= b Logit
107
Bibliografía
5. BIBLIOGRAFÍA
1. Bernstein, Stephen; Bernstein Ruth. Elements of Statistics II: Inferential Statistics, Mc GrawHill, 1999, Cap.
19: 'Regression and correlation', págs: 333378.
2. Canavos, George. Estadística y Probabilidades (Aplicaciones y Métodos), McGrawHill, 1988, Cap. 13:

'Análisis de regresión: el modelo lineal simple', págs: 443502; Cap. 14: 'Análisis de regresión: el modelo lineal
general', págs: 503571.
3. Chambers, John M. Software for Data Analysis Programming with R , Springer, 2008.
4. Chatterjee, Samprit; Hadi, Ali S. Regression Analysis by Example, Fourth Edition, John Wiley & Sons, 2006,
Cap. 2: 'Simple Linear Regression', págs: 2152; Cap. 3: 'Multiple Linear Regression', págs: 5384; Cap. 5: 'Qualitative
Variables as Predictors', págs: 121150; Cap. 6: 'Transformation of Variables', págs: 151178; Cap. 8: 'The Problem of
Correlated Errors ', págs:197220; Cap. 9: 'Analysis of Collinear Data ', págs: 221258; Cap. 12: 'Logistic Regression ',
págs: 317340.
5. Crawley, Michael J. The R Book, John Wiley & Sons, 2007. Cap. 10: 'Regression ', págs: 387448.
6. Gujarati, Damodar. Basic Econometrics, Fourth Edition, McGrawHill, 2004, Cap. 9: 'Dummy variable
regression models', págs: 297333; Cap. 10: 'Multicollinearity: what happens if the regressors are correlated?', págs:
341386; Cap. 11: 'Heteroscedasticity: what happens if the error variance is nonconstant?', págs: 387440; Cap. 12:
'Autocorrelation: what happens if the error terms are correlated?', págs: 441505; Cap. 15: 'Qualitative response
regression models', págs: 580635.
7. Montgomery, Douglas C; Runger, George C. Applied Statistics and Probability for Engineers, Third
Edition, John Wiley & Sons, 2003, Cap 11: 'Simple Linear Regression and Correlation'; págs: 372409; Cap. 12:
'Multiple Linear Regression', págs: 410467.
8. Salvatore, Dominick; Reagle, Derrick. Theory and problems of Statistics and Econometrics, McGrawHill,
2002, Cap. 6: 'Simple regression analysis', págs: 128153; Cap 7: 'Multiple regression analysis', págs: 154180; Cap 8:
'Further techniques and applications in regression analysis', págs: 181205, Cap 9: 'Problems in regression analysis',
págs: 206227.
9. Marques de Sá, Joaquim P. Applied Statistics Using SPSS, STATISTICA, MATLAB and R , Second Edition,

Springer, 2007, Cap 7: 'Data Regression', págs: 271328.
10. Verzani, John. Using R for Introductory Statistics, Chapman & Hall/CRC, 2005, Cap. 10: 'Linear
regression', págs: 264297.
108
Bases de datos
6. ANEXO: BASES DE DATOS.

BASE DE DATOS Nº1
PAÍS Y X
Albania 76,2 5323,118

Algeria 71,7 7175,777
Angola 41,7 2828,850
Antigua y Barbuda 73,9 11604,383
Argentina 74,8 13153,390
Armenia 71,7 4048,132
Australia 80,9 31317,558
Austria 79,4 32802,003
Azerbaijan 67,1 4500,316
Bahamas, The 72,3 18725,849
Bahrain 75,2 19748,035
Bangladesh 63,1 1997,948
Barbados 76,6 17169,758
Belarus 68,7 7229,542
Belgium 78,8 31158,621
Belize 75,9 7635,294
Benin 55,4 1147,382
Bhutan 64,7 3329,786
Bolivia 64,7 2839,524
Bosnia and Herzegovina 74,5 5827,264
Botswana 48,1 10866,083
Brazil 71,7 8452,691
Brunei Darussalam 76,7 24825,708
Bulgaria 72,7 9204,530
Burkina Faso 51,4 1326,183
Burundi 48,5 753,236
Côte d'Ivoire 47,4 1492,703
Cambodia 58 2116,041
Cameroon 49,8 2283,608
Canada 80,3 34550,246
Cape Verde 71 6287,127
Central African Republic 43,7 1163,041
Chad 50,4 1744,093
Chile 78,3 11536,519
China 72,5 6193,421
Colombia 72,3 7309,397
Comoros 64,1 1716,934
Congo, Democratic Republic of 45,8 675,290
Congo, Republic of 54 1379,278
Costa Rica 78,5 10316,297
Croatia 75,3 12364,02
Cyprus 79 20668,584
Czech Republic 75,9 19488,401
Denmark 77,9 34717,573
Djibouti 53,9 1957,463
Dominica 75,6 6250,069
Dominican Republic 71,5 7042,452
Ecuador 74,7 4296,540
Egypt 70,7 4281,929
El Salvador 71,3 4525,095
Equatorial Guinea 50,4 50473,514
Eritrea 56,6 916,821
Estonia 71,2 16461,257
Ethiopia 51,8 859,202
Fiji 68,3 6282,052
Finland 78,9 30817,570
i
France 80,2 29019,288
Gabon 56,2 6976,653
Gambia, The 58,8 1999,430
Georgia 70,7 3037,713
Germany 79,1 30149,652
Ghana 59,1 2600,915
Greece 78,9 21529,166
Grenada 68,2 8410,763
Guatemala 69,7 4135,536
Guinea 54,8 1985,822
GuineaBissau 45,8 755,526
Guyana 65,2 4680,530
Haiti 59,5 1687,716
Honduras 69,4 2793,077
Hong Kong SAR 81,9 32292,182
Hungary 72,9 16627,455
Iceland 81,5 35686,217
India 63,7 3315,702
Indonesia 69,7 3939,515
Iran, Islamic Republic of 70,2 8065,119
Ireland 78,4 40002,741
Israel 80,3 22944,118
Italy 80,3 29218,079
Jamaica 72,2 4470,846
Japan 82,3 31405,673
Jordan 71,9 4614,515
Kazakhstan 65,9 8252,367
Kenya 52,1 1108,224
Korea 77,9 22665,654
Kuwait 77,3 16297,267
Kyrgyz Republic 65,6 2061,020
Lao People's Democratic Republic 63,2 2049,032
Latvia 72 13059,487
Lebanon 71,5 6205,325
Lesotho 42,6 2162,916
Libya 73,4 11353,605
Lithuania 72,5 14337,639
Luxembourg 78,4 66820,651
Macedonia, Former Yugoslav Republic of 73,8 7749,249
Madagascar 58,4 910,766
Malawi 46,3 595,857
Malaysia 73,7 11159,608
Maldives 67 7639,500
Mali 53,1 1084,444
Malta 79,1 20015,440
Mauritania 63,2 2307,076
Mauritius 72,4 13028,798
Mexico 75,6 10090,420
Moldova 68,4 2261,605
Mongolia 65,9 2045,544
Morocco 70,4 4578,292
Mozambique 42,8 1335,140
Myanmar 60,8 1417,007
Namibia 51,6 6657,765
Nepal 62,6 1471,227
Netherlands 79,2 30573,938
New Zealand 79,8 24881,583
Nicaragua 71,9 2778,888
Niger 55,8 896,472
Nigeria 46,5 1187,952
Norway 79,8 41940,513
Oman 75 16299,602
Pakistan 64,6 2549,284
Panama 75,1 7052,058
ii
Bases de datos
Papua New Guinea 56,9 2414,236

Paraguay 71,3 4663,165
Peru 70,7 5872,232
Philippines 71 4770,234
Poland 75,2 13439,814
Portugal 77,7 19388,399
Qatar 75 29606,696
Romania 71,9 8257,719
Russia 65 11209,393
Rwanda 45,2 1430,504
Samoa 70,8 6389,850
Sao Tome and Principe 64,9 1638,174
Saudi Arabia 72,2 14592,097
Senegal 62,3 1914,089
St. Kitts and Nevis 70 15049,644
St. Lucia 73,1 5516,483
St. Vincent and the Grenadines 71,1 7042,385
Seychelles 72,7 12135,151
Sierra Leone 41,8 900,777
Singapore 79,4 28227,954
Slovak Republic 74,2 16110,216
Slovenia 77,4 21694,983
Solomon Islands 63 1922,463
South Africa 50,8 11345,534
Spain 80,5 24803,458
Sri Lanka 71,6 4144,734
Sudan 57,4 2416,980
Suriname 69,6 5725,517
Swaziland 40,9 5181,153
Sweden 80,5 29536,787
Switzerland 81,3 33168,045
Syrian Arab Republic 73,6 3870,846
Tajikistan 66,3 1373,340
Tanzania 51 720,154
Thailand 69,6 8542,395
Togo 57,8 1599,533
Tonga 72,8 7689,927
Trinidad and Tobago 69,2 13957,584
Tunisia 73,5 8223,289
Turkey 71,4 7958,134
Turkmenistan 62,6 7853,975
Uganda 49,7 1817,451
Ukraine 67,7 7181,610
United Arab Emirates 78,3 23722,875
United Kingdom 79 30277,126
United States 77,9 41571,061
Uruguay 75,9 9619,364
Uzbekistan 66,8 1834,398
Vanuatu 69,3 3415,355
Venezuela 73,2 5801,392
Vietnam 73,7 2782,199
Yemen 61,5 745,176
Zambia 40,5 911,352
Zimbabwe 40,9 2412,635
BASE DE DATOS Nº2
CONDADO Y X
Adams County 0,285 11,324

Boone County 0,150 9,790
DeKalb County 0,428 10,454
DuPage County 0,277 4,725
Kane County 0,538 7,782
iii
Kankakee County 1,121 12,419
Kendall County 0,104 3,669
La Salle County 0,143 10,099
Lake County 0,504 6,167
Macon County 1,371 15,390
Madison County 0,610 11,113
McHenry County 0,137 5,265
McLean County 0,782 11,615
Ogle County 0,109 7,857
Peoria County 2,290 13,079
Rock Island County 0,952 12,816
Sangamon County 1,800 12,667
St. Clair County 2,436 15,506
Tazewell County 0,267 7,789
Vermilion County 1,762 17,839
Whiteside County 0,237 10,982
Will County 0,504 5,821
Winnebago County 2,329 13,624
BASE DE DATOS Nº3
AÑO Y X
1955 31,27 2,6

1956 29,85 2,3
1957 29,72 1,9
1958 30,82 2,2
1959 26,76 2,3
1960 24,85 1,6
1961 22,32 1,3
1962 20,42 1,2
1963 18,90 1,2
1964 17,47 1,1
1965 17,11 1,1
1966 17,38 1,2
1967 16,14 1,2
1968 16,43 1,2
1969 16,37 1,2
1970 17,06 1,2
1971 17,58 1,3
1972 19,37 1,5
1973 20,02 1,3
1974 19,72 1,4
1975 21,32 2,0
1976 21,10 2,2
1977 21,89 2,1
1978 21,89 2,4
1979 22,49 2,1
1980 22,17 2,0
1981 21,91 2,3
1982 22,61 2,4
1983 28,71 2,7
1984 27,47 2,7
1985 25,81 2,6
1986 27,60 2,7
1987 25,44 2,9
1988 23,70 2,5
1989 21,38 2,2
1990 20,29 2,0
1991 20,48 2,0
1992 22,10 2,1
1993 22,08 2,4
1994 22,88 2,8
1995 23,11 3,1
iv
Bases de datos
1996 24,07 3,3

1997 25,72 3,4
1998 36,07 4,2
1999 36,12 4,8
2000 34,87 4,9
2001 33,86 5,2
2002 34,80 5,5
2003 37,51 5,5
2004 35,20 4,9
BASE DE DATOS Nº4
ESTADO Y X
Alabama 8,3 37
Alaska 5,4 30
Arizona 7,5 33
Arkansas 7,3 35
California 6,8 31
Colorado 3,3 28
Connecticut 3,1 28
Delaware 4,9 34
Florida 6,2 35
Georgia 6,4 36
Hawaii 1,6 27
Idaho 2,5 21
Illinois 6,1 31
Indiana 5,8 32
Iowa 1,8 26
Kansas 4,6 28
Kentucky 4,0 33
Louisiana 12,4 41
Maine 1,7 31
Maryland 9,7 32
Massachusetts 2,9 28
Michigan 7,1 32
Minnesota 2,4 25
Mississippi 7,7 45
Missouri 6,3 32
Montana 1,8 25
Nebraska 2,8 25
Nevada 9,0 34
New Hampshire 1,0 25
New Jersey 4,9 28
New Mexico 6,8 37
New York 4,8 34
North Carolina 6,1 35
North Dakota 1,3 24
Ohio 4,7 33
Oklahoma 5,8 34
Oregon 2,3 29
Pennsylvania 5,9 31
Rhode Island 2,6 35
South Carolina 8,3 40
South Dakota 1,2 27
Tennessee 6,8 35
Texas 5,9 33
Utah 1,8 18
Vermont 1,9 29
Virginia 5,2 29
Washington 3,0 29
West Virginia 4,1 31
Wisconsin 3,0 28
Wyoming 1,7 27
v
BASE DE DATOS Nº5
COMUNA Y X
Santiago 7,3 13,1

Cerrillos 8,3 10,4
Cerro Navia 17,5 9,1
Conchalí 8,0 10,1
El Bosque 15,8 9,7
Estación Central 7,3 10,5
Huechuraba 14,5 9,9
Independencia 6,0 11,3
La Cisterna 8,6 11,6
La Florida 9,6 11,3
La Granja 14,2 9,5
La Pintana 17,2 8,8
La Reina 7,8 12,4
Las Condes 2,3 14,3
Lo Barnechea 8,1 11,1
Lo Espejo 20,1 9,7
Lo Prado 11,6 10,1
Macul 13,4 10,9
Maipú 9,1 11,4
Ñuñoa 4,3 13,4
Pedro Aguirre Cerda 6,3 9,8
Peñalolén 8,7 9,9
Providencia 3,5 13,8
Pudahuel 7,1 10,3
Puente Alto 10,6 10,7
Quinta Normal 10,8 10,5
Quilicura 6,7 11,1
Recoleta 12,4 10,2
Renca 19,2 10,0
San Bernardo 20,9 9,7
San Joaquín 7,4 10,7
San Miguel 2,5 12,3
San Ramón 16,7 9,6
Vitacura 4,4 14,6
BASE DE DATOS Nº6
COMUNA Y X X X
Santiago 13,1 7,3 283 6,2

Cerrillos 10,4 8,3 259 9,3
Cerro Navia 9,1 17,5 215 9,4
Conchalí 10,1 8,0 236 4,9
El Bosque 9,7 15,8 231 10,3
Estación Central 10,5 7,3 251 8,8
Huechuraba 9,9 14,5 238 9,1
Independencia 11,3 6,0 225 5,9
La Cisterna 11,6 8,6 237 7,8
La Florida 11,3 9,6 259 5,7
La Granja 9,5 14,2 240 10,2
La Pintana 8,8 17,2 233 11
La Reina 12,4 7,8 286 8,3
Las Condes 14,3 2,3 314 3,8
Lo Barnechea 11,1 8,1 296 3,4
Lo Espejo 9,7 20,1 205 6,8
Lo Prado 10,1 11,6 209 9,5
Macul 10,9 13,4 250 6,5
Maipú 11,4 9,1 261 7,3
Ñuñoa 13,4 4,3 265 5,3
vi
Bases de datos
BASE DE DATOS Nº6
Pedro Aguirre Cerda 9,8 6,3 235 11,6
Peñalolén 9,9 8,7 244 6,5
Providencia 13,8 3,5 319 5,5
Pudahuel 10,3 7,1 220 6,1
Puente Alto 10,7 10,6 246 6,3
Quinta Normal 10,5 10,8 237 8,9
Quilicura 11,1 6,7 243 7,9
Recoleta 10,2 12,4 242 6,6
Renca 10,0 19,2 250 6,7
San Bernardo 9,7 20,9 246 8,6
San Joaquín 10,7 7,4 233 7,4
San Miguel 12,3 2,5 237 4,6
San Ramón 9,6 16,7 245 7,9
Vitacura 14,6 4,4 325 3,2
BASE DE DATOS Nº7
PAÍS Y X X
Afghanistan 43,6 1054 0,35

Albania 76,5 7041 0,89
Algeria 72,2 7740 0,75
Angola 46,5 5385 0,67
Argentina 75,2 13238 0,95
Armenia 73,6 5693 0,91
Australia 81,4 34923 0,99
Austria 79,9 37370 0,96
Azerbaijan 70 7851 0,88
Bahamas 73,2 20253 0,88
Bahrain 75,6 29723 0,89
Bangladesh 65,7 1241 0,53
Barbados 77 17956 0,98
Belarus 69 10841 0,96
Belgium 79,5 34935 0,97
Belize 76 6734 0,76
Benin 61 1312 0,45
Bhutan 65,7 4837 0,53
Bolivia 65,4 4206 0,89
Bosnia and Herzegovina 75,1 7764 0,87
Botswana 53,4 13604 0,79
Brazil 72,2 9567 0,89
Brunei Darussalam 77 50200 0,89
Bulgaria 73,1 11222 0,93
Burkina Faso 52,7 1124 0,3
Burundi 50,1 341 0,56
CÃ´te d'Ivoire 56,8 1690 0,45
Cambodia 60,6 1802 0,7
Cameroon 50,9 2128 0,63
Canada 80,6 35812 0,99
Cape Verde 71,1 3041 0,79
Central African Republic 46,7 713 0,42
Chad 48,6 1477 0,33
Chile 78,5 13880 0,92
China 72,9 5383 0,85
Colombia 72,7 8587 0,88
Comoros 64,9 1143 0,66
Congo 53,5 3511 0,74
Congo (Democratic Republic of the) 47,6 298 0,61
Costa Rica 78,7 10842 0,88
Croatia 76 16027 0,92
Cuba 78,5 6876 0,99
Cyprus 79,6 24789 0,91
Czech Republic 76,4 24144 0,94
vii
BASE DE DATOS Nº7
Denmark 78,2 36130 0,99
Djibouti 55,1 2061 0,55
Dominican Republic 72,4 6706 0,84
Ecuador 75 7449 0,87
Egypt 69,9 5349 0,7
El Salvador 71,3 5804 0,79
Equatorial Guinea 49,9 30627 0,79
Eritrea 59,2 626 0,54
Estonia 72,9 20361 0,96
Ethiopia 54,7 779 0,4
Fiji 68,7 4304 0,87
Finland 79,5 34526 0,99
France 81 33674 0,98
Gabon 60,1 15167 0,84
Gambia 55,7 1225 0,44
Georgia 71,6 4662 0,92
Germany 79,8 34401 0,95
Ghana 56,5 1334 0,62
Greece 79,1 28517 0,98
Grenada 75,3 7344 0,88
Guatemala 70,1 4562 0,72
Guinea 57,3 1140 0,36
GuineaBissau 47,5 477 0,55
Guyana 66,5 2782 0,94
Haiti 61 1155 0,59
Honduras 72 3796 0,81
Hong Kong, China (SAR) 82,2 42306 0,88
Hungary 73,3 18755 0,96
Iceland 81,7 35742 0,98
India 63,4 2753 0,64
Indonesia 70,5 3712 0,84
Iran (Islamic Republic of) 71,2 10955 0,79
Ireland 79,7 44613 0,99
Israel 80,7 26315 0,95
Italy 81,1 30353 0,97
Jamaica 71,7 6079 0,83
Japan 82,7 33632 0,95
Jordan 72,4 4901 0,87
Kazakhstan 64,9 10863 0,97
Kenya 53,6 1542 0,69
Korea (Republic of) 79,2 24801 0,99
Kuwait 77,5 47812 0,87
Kyrgyzstan 67,6 2006 0,92
Lao People's Democratic Republic 64,6 2165 0,68
Latvia 72,3 16377 0,96
Lebanon 71,9 10109 0,86
Lesotho 44,9 1541 0,75
Liberia 57,9 362 0,56
Libyan Arab Jamahiriya 73,8 14364 0,9
Lithuania 71,8 17575 0,97
Luxembourg 79,4 79485 0,98
Macedonia (the Former Yugoslav Rep. of) 74,1 9096 0,88
Madagascar 59,9 932 0,68
Malawi 52,4 761 0,69
Malaysia 74,1 13518 0,85
Maldives 71,1 5196 0,89
Mali 48,1 1083 0,33
Malta 79,6 23080 0,89
Mauritania 56,6 1927 0,54
Mauritius 72,1 11296 0,84
Mexico 76 14104 0,89
Moldova 68,3 2551 0,9
Mongolia 66,2 3236 0,91
viii
Bases de datos
BASE DE DATOS Nº7
Montenegro 74 11699 0,89
Morocco 71 4108 0,57
Mozambique 47,8 802 0,48
Myanmar 61,2 904 0,79
Namibia 60,4 5155 0,81
Nepal 66,3 1049 0,58
Netherlands 79,8 38694 0,99
New Zealand 80,1 27336 0,99
Nicaragua 72,7 2570 0,76
Niger 50,8 627 0,28
Nigeria 47,7 1969 0,66
Norway 80,5 53433 0,99
Oman 75,5 22816 0,79
Pakistan 66,2 2496 0,49
Panama 75,5 11391 0,89
Papua New Guinea 60,7 2084 0,52
Paraguay 71,7 4433 0,87
Peru 73 7836 0,89
Philippines 71,6 3406 0,89
Poland 75,5 15987 0,95
Portugal 78,6 22765 0,93
Qatar 75,5 74882 0,89
Romania 72,5 12369 0,92
Russian Federation 66,2 14690 0,93
Rwanda 49,7 866 0,61
Saint Lucia 73,6 9786 0,89
Saint Vincent and the Grenadines 71,4 7691 0,82
Samoa 71,4 4467 0,91
Sao Tome and Principe 65,4 1638 0,81
Saudi Arabia 72,7 22935 0,83
Senegal 55,4 1666 0,42
Serbia 73,9 10248 0,89
Sierra Leone 47,3 679 0,4
Singapore 80,2 49704 0,91
Slovakia 74,6 20076 0,93
Slovenia 78,2 26753 0,97
Solomon Islands 65,8 1725 0,68
South Africa 51,5 9757 0,84
Spain 80,7 31560 0,98
Sri Lanka 74 4243 0,83
Sudan 57,9 2086 0,54
Suriname 68,8 7813 0,85
Swaziland 45,3 4789 0,73
Sweden 80,8 36712 0,97
Switzerland 81,7 40658 0,94
Syrian Arab Republic 74,1 4511 0,77
Tajikistan 66,4 1753 0,9
Tanzania (United Republic of) 55 1208 0,67
Thailand 68,7 8135 0,89
TimorLeste 60,7 717 0,55
Togo 62,2 788 0,53
Tonga 71,7 3748 0,92
Trinidad and Tobago 69,2 23507 0,86
Tunisia 73,8 7520 0,77
Turkey 71,7 12955 0,83
Turkmenistan 64,6 4953 0,91
Uganda 51,9 1059 0,7
Ukraine 68,2 6914 0,96
United Arab Emirates 77,3 54626 0,84
United Kingdom 79,3 35130 0,96
United States 79,1 45592 0,97
Uruguay 76,1 11216 0,96
Uzbekistan 67,6 2425 0,89
ix
BASE DE DATOS Nº7
Vanuatu 69,9 3666 0,73
Venezuela 73,6 12156 0,92
Viet Nam 74,3 2600 0,81
Yemen 62,5 2335 0,57
Zambia 44,5 1358 0,68
BASE DE DATOS Nº8
ESTADO Y X X
Alabama 90 15,73 37
Alaska 73 15,61 30
Arizona 104 18,47 33
Arkansas 93 15,65 35
California 96 15,24 31
Colorado 82 19,47 28
Connecticut 70 17,21 28
Delaware 93 18,26 34
District of Columbia 128 13,68 62
Florida 97 17,75 35
Georgia 95 14,36 36
Hawaii 93 16,11 27
Idaho 62 16,56 21
Illinois 87 18,95 31
Indiana 73 18,92 32
Iowa 55 20,50 26
Kansas 69 20,63 28
Kentucky 76 17,59 33
Louisiana 87 19,04 41
Maine 52 17,02 31
Maryland 91 18,33 32
Massachusetts 60 20,16 28
Michigan 75 19,57 32
Minnesota 50 19,45 25
Mississippi 103 17,18 45
Missouri 74 19,53 32
Montana 60 23,15 25
Nebraska 59 21,64 25
Nevada 113 18,69 34
New Hampshire 47 18,41 25
New Jersey 90 17,99 28
New Mexico 103 20,00 37
New York 91 19,13 34
North Carolina 95 17,27 35
North Dakota 42 24,67 24
Ohio 74 17,62 33
Oklahoma 86 15,42 34
Oregon 79 15,95 29
Pennsylvania 60 18,26 31
Rhode Island 67 23,22 35
South Carolina 89 14,68 40
South Dakota 54 23,22 27
Tennessee 89 14,04 35
Texas 101 17,57 33
Utah 53 11,79 18
Vermont 44 21,46 29
Virginia 72 18,28 29
Washington 75 16,26 29
West Virginia 67 20,12 62
Wisconsin 55 18,70 31
Wyoming 77 18,99 28
x
Bases de datos
BASE DE DATOS Nº9
Año Y X
1960 328200 107840

1961 336000 106670
1962 366800 110860
1963 408300 116470
1964 472800 130390
1965 496900 138690
1966 561200 157990
1967 659800 202910
1968 783600 262840
1969 878500 298850
1970 928400 349860
1971 948200 387700
1972 887200 376290
1973 928800 384220
1974 977100 442400
1975 1009600 470500
1976 966000 427810
1977 977700 412610
1978 1004100 426930
1979 1112800 480700
1980 1131700 565840
1981 1087800 592910
1982 1062400 553130
1983 1007900 506570
1984 1032200 485010
1985 1102900 497870
1986 1224137 542775
1987 1288674 517704
1988 1432900 542970
1989 1564800 578330
1990 1635900 639270
1991 1661700 687730
1992 1610800 672480
1993 1563100 659870
1994 1539300 618950
1995 1472400 580510
1996 1394200 535590
1997 1354189 498534
1998 1240754 446625
1999 1152075 409371
2000 1160002 408016
2001 1228391 423557
2002 1246646 420806
2003 1261226 414235
2004 1237851 401470
2005 1235859 417438
2006 1192809 447403
2007 1095769 445125
BASE DE DATOS Nº10
Y X
Agencia
Adelanto Police Dept 532,7 2639,4

Agoura Hills 213,4 1515,3
Alameda County Sheriff Dept 562,1 2357,2
Alameda Police Dept 291 2805
Albany Police Dept 283,2 4883,9
Alhambra Police Dept 324,9 2416,5
Aliso Viejo 74,4 1261,7
xi
BASE DE DATOS Nº10
American Canyon 299,1 2539,1
Anaheim Police Dept 424,6 2625,2
Anderson Police Dept 423,4 4120,8
Antioch Police Dept 843,4 3061,6
Apple Valley 377,8 2670,9
Arcadia Police Dept 273,8 2991,2
Arcata Police Dept 301,3 3095,3
Arroyo Grande Police Dept 157,7 2220,2
Artesia 517,9 2077,4
Arvin Police Dept 689,5 4222,5
Atascadero Police Dept 385,9 2057,2
Atwater Police Dept 371 3677,7
Auburn Police Dept 374,8 2853,4
Avenal 256,2 774,4
Azusa Police Dept 434,6 2685,5
Bakersfield Police Dept 615,2 5037,9
Baldwin Park Police Dept 356 2424,5
Banning Police Dept 692,9 2549,5
Barstow Police Dept 1406,7 5046,5
Beaumont Police Dept 152,9 2193,2
Bell Police Dept 467,7 1552,6
Bell Gardens Police Dept 479,6 1896,5
Bellflower 680,1 3385,9
Belmont Police Dept 97,5 1450,9
Benicia Police Dept 214,7 1789,5
Berkeley Police Dept 630,5 7021,7
Beverly Hills Police Dept 446,9 3327,4
Blythe Police Dept 436,2 2612,8
Brawley Police Dept 282,4 5126,6
Brea Police Dept 197,2 3875,4
Brentwood Police Dept 237,4 2433,1
Buena Park Police Dept 396,8 2576
Burbank Police Dept 261,3 2638,5
Burlingame Police Dept 207,4 3084,9
Butte County Sheriff Department 230,9 1598,6
Calabasas 70,5 1731,8
Calaveras County Sheriff Department 107,9 1422,7
Calexico Police Dept 241,5 3283
California City Police Dept 453,8 2239,1
Camarillo 148,6 1679,4
Campbell Police Dept 269,8 4045
Canyon Lake 199,2 1472,6
Carslbad Police Dept 334,5 2575,3
Carpinteria 209,1 1695
Carson 724,9 2760,7
Cathedral City Police Dept 378,1 3312,1
Ceres Dept Of Public Safety 442,1 4732,1
Cerritos 263 3583,5
Chico Police Dept 518,3 3303,4
Chino Police Dept 287,5 3097,9
Chino Hills 96,8 1452,6
Chowchilla Police Dept 111,9 1726
Chula Vista Police Dept 421,1 3328
Claremont Police Dept 246,8 2766
Clayton Police Dept 80 1466,4
Clearlake Police Dept 442,7 4321,7
Clovis Police Dept 143,6 3070,5
Coachella Police Dept 782,3 4041
Coalinga Police Dept 522,4 2797,6
Colton Police Dept 471,8 3715
Commerce 1089,8 8316,3
Compton Police Dept 1690,8 2922,2
Concord Police Dept 402,6 4089,9
xii
Bases de datos
BASE DE DATOS Nº10
Contra Costa County Sheriff Department 428,5 2253,5
Corcoran Police Dept 189,8 910,8
Corona Police Dept 221,5 2619,9
Coronado Police Dept 96,7 1989,7
Costa Mesa Police Dept 234,9 3037,3
Covina Police Dept 450,4 3846,9
Cudahy 573,1 2236,2
Culver City Police Dept 458,5 3696,1
Cupertino 100 1579,2
Cypress Police Dept 201,1 1925
Daly City Police Dept 291,2 2097,7
Dana Point 130,4 1531,2
Danville 53 1549,3
Davis Police Dept 276 3463,5
Delano Police Dept 541,8 3579,2
Desert Hot Springs 1155,3 7191,3
Diamond Bar 229,5 1825,6
Dinuba Police Dept 662,5 4762,6
Dixon Police Dept 408,2 4585,4
Downey Police Dept 470,6 3553,4
Duarte 377,4 2350
Dublin 173,7 1728
East Palo Alto Police Dept 785,9 2071,7
El Cajon Police Dept 541,1 4328,5
El Centro Police Dept 649,5 5059
El Cerrito Police Dept 786,2 5085,7
El Dorado County Sheriff Department 161,8 1394,5
El Monte Police Dept 552,4 2262,8
El Segundo Police Dept 217,7 4693,6
Encinitas 267,6 1925,1
Escondido Police Dept 492,4 3244,4
Eureka Police Dept 998,1 5984,9
Exeter Police Dept 203,7 3095
Fairfield Police Dept 595,7 4101,9
Farmersville Police Dept 538,2 2377,9
Fillmore 341,7 2010,6
Folsom Police Dept 143,4 2333,1
Fontana Police Dept 507,7 2352,5
Fortuna Police Dept 212,2 3332,7
Foster City Police Dept 76 1661
Fountain Valley Police Dept 198,3 2578
Fremont Police Dept 301 2569,6
Fresno County Sheriff Department 329,5 3464,3
Fresno Police Dept 644,5 4441
Fullerton Police Dept 348,9 3083,9
Galt Police Dept 392,2 3705,1
Garden Grove Police Dept 387,6 2495
Gardena Police Dept 747,3 2381,9
Gilroy Dept Of Public Safety 508,7 4085,7
Glendale Police Dept 187,5 1833,1
Glendora Police Dept 164,4 2958,7
Goleta 181,2 1289,2
Grand Terrace 178,4 1962,1
Grass Valley Police Dept 526,9 2938,1
Greenfield Police Dept 911,4 3728,3
Grover Beach Police Dept 697,4 2162,8
Half Moon Bay Police Dept 169,8 2069,5
Hanford Police Dept 303,9 3368,6
Hawaiian Gardens Police Dept 960,7 2624,1
Hawthorne Police Dept 893,6 2326,9
Hayward Police Dept 626,6 3319,3
Healdsburg Police Dept 173,4 2546,8
Hemet Police Dept 666,9 4339,7
xiii
BASE DE DATOS Nº10
Hercules Police Dept 198,9 1911,4
Hermosa Beach Police Dept 340,5 2805,4
Hesperia 371,2 2326,2
Highland 618,1 2540,8
Hillsborough Police Dept 18,7 888,1
Hollister Police Dept 541,7 2465,7
Humboldt County Sheriff Department 199,9 1313,8
Huntington Beach Police Dept 192,8 2068,5
Huntington Park Police Dept 968,4 4459,7
Imperial County Sheriff Department 338,1 3014,2
Imperial Police Dept 40 1663,2
Indio Police Dept 427,3 3455,1
Inglewood Police Dept 899,1 2592,4
Irvine Police Police 70,8 1612,9
Kerman Police Dept 218,8 2743,3
Kern County Sheriff Department 571,2 3276,3
King City Police Dept 676,3 3096,9
Kings County Sheriff Department 337,7 1374,6
Kingsburg Police Dept 121,9 3849,2
La CanadaFlintridge 118,6 2044,7
La Habra Police Dept 352,5 2447,3
Lamesa Police Dept 450,7 4231
La Mirada 229,3 2153,8
La Palma Police Dept 284,4 1870,9
La Puente 533,9 1806,1
La Quinta 469,3 3637,8
La Verne Police Dept 244,4 2447,2
Lafayette 100 1731,5
Laguna Beach Police Dept 202,4 2044,2
Laguna Hills 171 1998,6
Laguena Niguel 72,3 1022,4
Laguna Woods 16,4 502,4
Lake County Sheriff Department 318,8 1635
Lake Elsinore 383,8 3456,6
Lake Forest 121,8 1377,7
Lakewood 570,3 3092,2
Lancaster 909,1 3506
Lawndale 770,6 1553,7
Lemon Grove 670,3 2491,5
Lemoore Police Dept 336,7 3124,3
Lincoln Police Dept 114,3 965,4
Lindsay Police Dept 686,5 3716,2
Livermore Police Dept 210,6 2578,1
Livingston Police Dept 730,1 3003,2
Lodi Police Dept 363,8 4369
Loma Linda 129,4 2832,6
Lomita 603,7 2088,7
Lompoc Police Dept 685,2 2194,1
Long Beach Police Dept 722,8 2738,4
Los Alamitos Police Dept 290 2899,8
Los Altos Police Dept 65,6 1067,4
Los Angeles County Sheriff Department 784,3 2067,2
Los Angeles Police Dept 718,4 2621,3
Los Banos Dept Of Public Safety 393,1 2618,8
Los Gatos Police Dept 123,6 2206,9
Lynwood 1012,4 2593,5
Madera County Sheriff Department 423,5 1751,5
Madera Police Dept 730,7 2239,6
Malibu 218,7 2435,3
Manhattan Beach Police Dept 145,7 2771,1
Manteca Police Dept 367,5 4019,3
Marin County Sheriff Department 199,3 1260
Marina Dept Of Public Safety 277 3246,9
xiv
Bases de datos
BASE DE DATOS Nº10
Martinez Police Dept 343,3 3326
Marysville Police Dept 1403 4864,3
Maywood Police Dept 607,7 1548,8
Mendocino County Sheriff Department 527,5 1184
Menlo Park Police Dept 247,8 1875
Merced County Sheriff Department 540,7 2685,3
Merced Police Dept 781,5 4887,1
Mill Valley Police Dept 120,5 1385,5
Millbrae Police Dept 190,9 1684,2
Milpitas Police Dept 277,5 3262,1
Mission Viejo 86,2 1380,7
Modesto Police Dept 716,1 5781,8
Monrovia Police Dept 353,9 2951,7
Montclair Police Dept 654,7 6536,1
Montebello Police Dept 383,7 3088,6
Monterey County Sheriff Department 222,5 1983,6
Monterey Police Dept 578,9 4453,5
Monterey Park Police Dept 313,7 2064,9
Moorpark 113,1 1597
Moraga Police Dept 88,1 1497
Moreno Valley 538,2 3348,8
Morgan Hill Police Dept 230,7 2435,8
Morro Bay Police Dept 207,9 1514,9
Mountain View Police Dept 340 2170
City Of Murrieta Police Dept 120,3 1993,9
Napa County Sheriff Department 291,9 2076,8
Napa Police Dept 382,6 3123,6
National City Police Dept 683,9 3498,6
Nevada County Sheriff Department 197,1 891,3
Newark Police Dept 536,1 4119,1
Newman Police Dept 345 3162,1
Newport Beach Police Dept 214 2771,9
Norco 345,8 3429,3
Norwalk 576,3 2497,9
Novato Police Dept 301,5 2289,4
Oakdale Police Dept 246,4 5233,8
Oakland Police Dept 1917,8 5967,6
Oakley 399,3 2518,6
Oceanside 546,8 2756,8
Ontario Police Dept 486,5 3332,6
Orange County Sheriff Department 161,9 1347,3
Orange Police Dept 195,9 2244,9
Orinda 70,5 1669,5
Oroville Police Dept 1458,1 7570,5
Oxnard Police Dept 453,4 2293,9
Pacific Grove Police Dept 155,7 2626,6
Pacifica Police Dept 199,1 1683,9
Palm Desert 192,1 6083,1
Palm Springs Police Dept 632,4 7249,4
Palmdale 733,9 3027
Palo Alto Police Dept 110,9 2495,8
Palos Verdes Estates Police Dept 28,9 1178,8
Paradise Police Dept 208,5 2861,9
Paramount 854,7 3426,1
Parlier Police Dept 926 3278,3
Pasadena Police Dept 511,2 2957
Paso Robles Police Dept 372,1 3267,8
Patterson Police Dept 265 3109,1
Perris 625,6 4201,4
Petaluma Police Dept 413,7 1892,9
Pico Rivera 397,2 2418,9
Piedmont Police Dept 95,4 1975,6
Pinole Police Dept 594,4 4202,9
xv
BASE DE DATOS Nº10
Pittsburg Police Dept 391,2 3758,2
Placentia Police Dept 178,5 1407,9
Placer County Sheriff Department 227,8 1784
Placerville Police Dept 700,1 2317,1
Pleasant Hill Police Dept 376,1 4835,6
Pleasanton Police Dept 94,4 1939,8
Pomona Police Dept 795,9 3358,4
Port Hueneme Police Dept 426,5 1825,4
Porterville Police Dept 619,9 5038,5
Poway 212 1561,2
Rancho Cucamonga 211,6 2211,8
Rancho Mirage 156,1 6170,1
Rancho Palos Verdes 98 1283,3
Rancho Santa Margari 58,8 1054,4
Red Bluff Police Dept 970,9 4790,6
Redding Police Dept 498,2 2896,2
Redlands Police Dept 424,6 3510,5
Redondo Beach Police Dept 301,9 2406,2
Redwood City Police Dept 457,5 2300
Reedley Police Dept 588,8 3026,2
Rialto Police Dept 743,6 2270,8
Richmond Police Dept 1190,6 5374,2
Ridgecrest Police Dept 576,8 2356,6
Ripon Police Dept 245,2 2608,5
Riverbank 303,4 3967,6
Riverside County Sheriff Department 407 2709,7
Riverside Police Dept 632,5 3726,5
Rocklin Police Dept 193 2094,5
Rohnert Park Dept Of Public Safety 579,9 2322
Rosemead 456,6 2524,1
Roseville Police Dept 347,1 3551,7
Sacramento County Sheriff Department 465,4 2147,8
Sacramento Police Dept 1113,5 5297,8
Salinas Police Dept 794,5 4735,3
San Anselmo Police Dept 216,8 2342,6
San Bernardino County Sheriff Department 445,2 2274,1
San Bernardino Police Dept 1070,7 5024,7
San Bruno Police Dept 270,3 2057,1
San Carlos Police Dept 130,1 1676,5
San Clemente 132,3 1242
San Diego County Sheriff Department 393,8 1753,4
San Diego Police Dept 502,1 3502
San Dimas 229 2507,7
San Fernando Police Dept 533,3 1938,9
San Francisco Police Dept 874,1 4695,6
San Gabriel Police Dept 473,5 1869,6
San Jacinto Police Dept 426,4 3278,8
San Joaquin County Sheriff Department 711,7 3469
San Jose Police Dept 402,2 2574,7
San Juan Capistrano 191,6 1401
San Leandro Police Dept 703,2 5114,1
San Luis Obispo County Sheriff Department 217,4 1233,6
San Luis Obispo Police Dept 392,7 4315
San Marino Police Dept 122 2036,3
San Mateo County Sheriff Department 369,8 2483,2
San Mateo Police Dept 334,6 2267
San Pablo Police Dept 1008,3 5436,2
San Rafael Police Dept 500,1 3148,9
San Ramon 107,4 2091,7
Sanger Police Dept 367,4 2814
Santa Ana Police Dept 572,3 2291,7
Santa Barbara County Sheriff Department 150,7 1251,3
Santa Barbara Police Dept 522,7 2674,4
xvi
Bases de datos
BASE DE DATOS Nº10
Santa Clara County Sheriff Department 382,1 2091,5
Santa Clara Police Dept 211,1 3134,7
Santa Clarita 218,3 2219,1
Santa Cruz County Sheriff Department 208,6 1952,3
Santa Cruz Police Dept 880,5 4452,1
Santa Fe Springs 796,2 8804,6
Santa Maria Police Dept 704,1 3049,6
Santa Monica Police Dept 672,8 3508,5
Santa Paula Police Dept 347,1 2514,2
Santa Rosa Police Dept 497,6 2408,5
Santee 280,2 2172,9
Saratoga 96,5 997,8
Scotts Valley Police Dept 99 2420,4
Seal Beach Police Beach 151,7 1665,1
Seaside Police Dept 637,4 2081,6
Selma Police Dept 384 4595,5
Shafter Police Dept 446,9 4009,2
Shasta County Sheriff Department 441,6 1224,9
Sierra Madre Police Dept 99,7 1541,1
Signal Hill Police Dept 532,4 4037,3
Simi Valley Police Dept 147,5 1942,5
Solana Beach 206,3 2150,6
Soledad Police Dept 306 1614,4
Sonoma County Sheriff Department 364,1 1199,3
South El Monte 663,7 2954,5
South Gate Police Dept 584,6 2959,4
South Lake Tahoe Police Dept 682,8 2526
South Pasadena Police Dept 144,2 1746,3
South San Francisco Police Dept 288 2549,7
Stanislaus County Sheriff Department 715,4 3513,7
Stanton 448,7 1959,3
Stockton Police Dept 1418,7 6285
Suisun City Police Dept 533,1 2713,8
Sunnyvale Dept Of Public Safety 118,2 2017,2
Susanville Police Dept 373,8 2088,8
Sutter County Sheriff Department 403,8 3054,7
Tehama County Sheriff Department 473,1 1025,1
Temecula 221 2833,5
Temple City 220,5 1808,2
Thousand Oaks 116,6 1551,2
Torrance Police Dept 239,9 2229,1
Tracy Police Dept 161,6 3016
Truckee 359,7 1902
Tulare County Sheriff Department 327,7 1894,4
Tulare Police Dept 809,7 4202,3
Tuolumne County Sheriff Department 207,5 1680,9
Turlock Police Dept 708,9 5090,5
Tustin Police Dept 195,9 2251,8
TwentyNine Palms 311,4 1599
Twin Cities Police Dept 90,3 2636,6
Ukiah Dept Of Public Safety 872 3084,5
Union City Police Dept 643,6 2898,1
Upland Police Dept 393 3688,1
Vacaville Police Dept 282,3 2185,3
Vallejo Police Dept 932,7 5192,6
Ventura County Sheriff Department 208,6 1477,1
Ventura Police Dept 352,1 3661,4
Victorville 629,3 3851,4
Visalia Police Dept 571,2 4456,8
Walnut 177,9 1747,7
Walnut Creek Police Dept 141,6 4068,1
Watsonville Police Dept 809,7 4642
West Covina Police Dept 362,6 3575,5
xvii
BASE DE DATOS Nº10
West Hollywood 923,4 3906,7
West Sacramento Police Dept 802,2 2997,1
Westminster Police Dept 395,8 2962,1
Whittier Police Dept 404,6 2770,2
Windsor 339,4 1283,5
Woodland Police Dept 299,9 3518,6
Yorba Linda 66,4 1556,2
Yuba County Sheriff Dept 398,6 2043,4
Yuba City Police Dept 395,9 3091,4
Yucaipa 100,7 1770,5
Yucca Valley 354,7 2698,3
Estado Y X
Alabama 32,2 70,5

Alaska 27 75,9
Arizona 25,5 76,8
Arkansas 29,5 70,2
California 24,2 76,6
Colorado 19,1 81,1
Connecticut 21,4 77,5
Delaware 27,7 75,8
District of Columbia 22,3 78,8
Florida 25,1 74
Georgia 27,8 76,9
Guam 27 73,6
Hawaii 23,1 80,4
Idaho 25,1 78,8
Illinois 26,8 72
Indiana 26,9 72,2
Iowa 26,7 74,9
Kansas 28 74,4
Kentucky 30,2 69,5
Louisiana 28,9 70,1
Maine 25,8 77,1
Maryland 26,6 76
Massachusetts 21,4 77,9
Michigan 29,5 74,8
Minnesota 25,1 81,9
Mississippi 33,3 67,4
Missouri 29 72,4
Montana 24,2 76,8
Nebraska 27,2 75,3
Nevada 25,6 72,4
New Hampshire 24,8 78,5
New Jersey 23,5 73
New Mexico 25,7 76
New York 25,1 73,6
North Carolina 29,5 75,3
North Dakota 27,7 74,4
Ohio 29,2 73,9
Oklahoma 30,9 68,5
Oregon 24,9 80,9
Pennsylvania 28,3 74,2
Rhode Island 22 75,7
South Carolina 30,6 72,8
South Dakota 28,1 73,1
Tennessee 31,2 71
Texas 28,9 71,5
Utah 23,1 80,2
Vermont 23,2 80,5
xviii
Bases de datos
Virginia 25,7 76,4
Virgin Islands 26,5 66,8
Washington 26 80,6
West Virginia 31,9 68,9
Wisconsin 26 77,9
Wyoming 25,2 75,6
BASE DE DATOS Nº12
Municipio Y X X
Acacoyagua 0.483 0.41 18

Acala 0.356 9.93 27
Acapetahua 0.672 0.35 21
Altamirano 0.984 40.75 38
Amatán 1.745 14.76 34
Amatenango de la Frontera 0.723 2.91 25
Amatenango del Valle 2.002 53.48 47
Angel Albino Corzo 0.868 2.91 27
Arriaga 0.298 1.22 15
Bejucal de Ocampo 1.279 0.84 19
Bella Vista 0.761 1.11 13
Berriozábal 0.170 3.62 22
Bochil 0.470 42.07 30
El Bosque 1.065 63.79 43
Cacahoatán 0.091 1.8 19
Catazajá 0.494 1.8 20
Cintalapa 0.147 5.23 18
Coapilla 0.912 13.81 24
Comitán de Domínguez 0.422 3.58 18
La Concordia 1.082 5.24 28
Copainalá 0.443 9.17 17
Chalchihuitán 2.344 80.89 51
Chamula 1.872 82.74 58
Chanal 1.686 72.81 47
Chapultenango 0.815 66.62 30
Chenalho 1.781 69.35 43
Chiapa de Corzo 0.014 4.38 20
Chiapilla 0.781 4.39 37
Chicoasén 0.054 9.57 18
Chicomuselo 1.042 0.34 25
Chilón 2.143 64.86 46
Escuintla 0.595 0.56 19
Francisco León 1.589 64.3 36
Frontera Comalapa 0.130 1.72 16
Frontera Hidalgo 0.508 0.26 23
La Grandeza 0.915 1.46 15
Huehuetán 0.577 0.28 21
Huixtán 1.569 76.46 37
Huitiupan 1.653 58.59 38
Huixtla 0.157 0.62 15
La Independencia 0.636 3.77 22
Ixhuatan 0.864 35.34 30
Ixtacomitán 0.630 16.73 20
Ixtapa 0.493 20.36 26
Ixtapangajoya 1.218 11 24
Jiquipilas 0.258 4.42 17
Jitotol 0.946 60.31 35
Juarez 0.273 4.26 19
Larrainzar 1.654 63.04 41
La Libertad 0.489 1.38 16
Mapastepec 0.227 0.51 21
Las Margaritas 1.126 40.38 35
xix
BASE DE DATOS Nº12
Mazapa de Madero 0.689 3.61 12
Mazatán 0.626 0.44 19
Metapa 0.124 0.42 18
Mitontic 2.039 78.97 62
Motozintla 0.575 2.08 15
Nicolas Ruiz 1.287 0 0
Ocosingo 1.448 49.76 34
Ocotepec 1.609 80.11 49
Ocozocoautla de espinosa 0.419 14.54 21
Ostuacán 1.127 4.81 26
Osumacinta 0.055 8.72 13
Oxchuc 1.779 80.75 31
Palenque 0.597 33.6 24
Pantelhó 2.252 68.23 52
Pantepec 1.364 44.35 45
Pichucalco 0.250 1.64 21
Pijijiapan 0.487 1.11 20
El Porvenir 1.176 6.32 15
Villa Comaltitlán 0.764 0.73 21
Pueblo Nuevo Solistahuacán 1.176 39.75 42
Rayón 0.714 33.41 34
Reforma 0.780 0.97 12
Las Rosas 1.073 7.01 39
Sabanilla 1.510 63.72 36
Salto de Agua 1.683 69.18 40
San Cristobal de las Casas 0.626 32.02 18
San Fernando 0.279 1.77 23
Siltepec 1.290 0.44 25
Simojovel 1.344 48.61 45
Sitalá 3.345 44.77 60
Socoltenango 1.011 7.03 32
Solosuchiapa 0.906 13.18 26
Soyaló 0.545 26.32 31
Suchiapa 0.018 0.51 24
Suchiate 0.454 0.37 22
Sunuapa 1.046 0.83 26
Tapachula 0.442 1.18 12
Tapalapa 0.739 81.89 23
Tapilula 0.272 10.57 26
Tecpatán 0.807 18.97 22
Tenejapa 1.370 76.12 35
Teopisca 1.096 35.43 41
Tila 1.414 78.27 39
Tonalá 0.082 0.59 16
Totolapa 1.241 6.87 44
La Trinitaria 0.497 8.13 21
Tumbalá 1.814 74.13 45
Tuxtla Gutiérrez 1.263 2.14 8
Tuxtla Chico 0.420 0.22 22
Tuzantán 0.703 0.79 17
Tzimol 0.632 1.12 29
Unión Juárez 0.303 1.68 19
Venustiano Carranza 0.728 17.97 32
Villa Corzo 0.668 4.83 25
Villaflores 0.142 1.46 19
Yajalón 0.914 52.98 35
San Lucas 1.247 10.72 37
Zinacantán 1.797 82.34 54
San Juan Cancuc 1.966 76.42 52
Aldama 2.319 68.45 58
Benemérito de las Américas 1.120 25.95 27
Maravilla Tenejapa 1.518 33.12 31
Marqués de Comillas 1.602 30.1 30
xx
Bases de datos
BASE DE DATOS Nº12
Montecristo de Guerrero 1.118 0.71 28
San Andres Duraznal 1.489 66.9 46
Santiago el Pinar 2.209 63.57 68
BASE DE DATOS Nº13

Año Y X X
1986 3419 8658 4269,674

1987 3645 8852 4372,610
1988 3911 9144 4569,370
1989 4324 9586 4727,218
1990 4484 10133 4822,836
1991 4841 10664 4918,510
1992 5436 11285 5059,528
1993 5816 12101 5343,141
1994 6148 13019 5465,013
1995 6801 14103 5499,544
1996 7305 15383 5522,817
1997 7845 16778 5625,843
1998 8153 18228 5734,213
1999 8060 19381 5829,013
2000 8493 20256 5845,905
BASE DE DATOS Nº14
Año Y X X X X
1960 3294.7 8.8 12.6 74 50.5

1961 3436.8 7 8 106 62.5
1962 3496.1 8.1 19.7 106.6 77.9
1963 4385.1 7.9 16.3 118.8 62.2
1964 4015 7.8 13.2 109.8 110
1965 3537.5 8.4 15.5 97.5 95.2
1966 3407.9 10.6 11.5 96.9 98.5
1967 4056.3 10.8 14.4 117.8 104.7
1968 4183.7 5.5 17.4 142.8 112.6
1969 4786.4 9 20.6 170.9 158.9
1970 5365.2 8.8 19.6 188.4 181.7
1971 5089.3 11.4 26.6 171.2 162.9
1972 5420.5 13.5 34 190.1 192
1973 6060 12.2 46 262 251.8
1974 7144.7 14.8 45.2 277.8 344.5
1975 7474.2 13 47.1 302.5 316
1976 7615.1 11.5 47.2 294.9 337.4
1977 7225 15.8 49.1 323.1 355
1978 7506.1 15.5 53.9 359.5 351.8
1979 7996 17.5 59.5 407.5 351
1980 7941.4 20 67.2 460.6 364.9
BASE DE DATOS Nº15
Y X
3929214 1790
5308483 1800
7239881 1810
9638453 1820
12860702 1830
17063353 1840
23191876 1850
31443321 1860
38558371 1870
xxi
BASE DE DATOS Nº15
50189209 1880
62979766 1890
76212168 1900
92228496 1910
106021537 1920
123202624 1930
132164569 1940
151325798 1950
179323175 1960
BASE DE DATOS Nº16
Y X
29105 1987
36126 1988
43499 1989
49546 1990
60573 1991
79657 1992
79879 1993
73086 1994
69984 1995
61124 1996
49379 1997
43225 1998
41356 1999
39513 2000
BASE DE DATOS Nº17
Y X
23135 1994
25279 1995
29269 1996
34068 1997
38468 1998
41293 1999
39743 2000
34471 2001
30270 2002
28549 2003
27053 2004
BASE DE DATOS Nº18
PAÍS Y X
Afghanistan 151,95 800

Albania 18,62 6000
Algeria 27,73 6900
American Samoa 10,18 8000
Andorra 3,76 42500
Anguilla 3,52 8800
Antigua and Barbuda 16,25 19400
Argentina 11,44 14200
Armenia 20,21 6300
Aruba 13,79 21800
Australia 4,75 38200
Austria 4,42 40400
Azerbaijan 54,6 9500
Bahamas, The 23,17 30700
xxii
Bases de datos
BASE DE DATOS Nº18
Bahrain 15,25 37400
Bangladesh 59,02 1500
Barbados 12,29 18900
Belarus 6,43 11800
Belgium 4,44 37500
Belize 23,07 8400
Benin 64,64 1500
Bermuda 2,46 69900
Bhutan 49,36 5200
Bolivia 44,66 4500
Bosnia and Herzegovina 9,1 6500
Botswana 12,59 13900
Brazil 22,58 10200
British Virgin Islands 14,65 38500
Brunei 12,27 51300
Bulgaria 17,87 12900
Burkina Faso 84,49 1200
Burma 47,61 1200
Burundi 59,64 300
Cambodia 54,79 2000
Cameroon 63,34 2300
Canada 5,04 39200
Cape Verde 41,35 3800
Cayman Islands 6,94 43800
Central African Republic 80,62 700
Chad 98,69 1600
Chile 7,71 14900
China 20,25 6000
Colombia 18,9 9200
Comoros 66,57 1000
Congo, Democratic Republic of the 81,21 300
Congo, Republic of the 79,78 3900
Cook Islands 16,9 9100
Costa Rica 8,77 11600
Cote d'Ivoire 68,06 1700
Croatia 6,37 18400
Cuba 5,82 9500
Cyprus 6,6 21300
Czech Republic 3,79 25900
Denmark 4,34 37200
Djibouti 97,51 2700
Dominica 13,65 10000
Dominican Republic 25,96 8200
Ecuador 20,9 7500
Egypt 27,26 5800
El Salvador 21,52 6200
Eritrea 43,33 700
Estonia 7,32 21400
Ethiopia 80,8 900
European Union 5,72 33700
Faroe Islands 6,32 31000
Fiji 11,58 3800
Finland 3,47 37000
France 3,33 33300
French Polynesia 7,55 18000
Gabon 51,78 14200
Gambia, The 67,33 1300
Gaza Strip 18,35 2900
Georgia 16,22 4700
Germany 3,99 35500
Ghana 51,09 1500
Gibraltar 4,83 38200
Greece 5,16 32100
xxiii
BASE DE DATOS Nº18
Greenland 10,72 20000
Grenada 13,23 13200
Guatemala 27,84 5300
Guernsey 4,47 44600
Guinea 65,22 1100
GuineaBissau 99,82 600
Guyana 29,65 3900
Haiti 59,69 1300
Honduras 24,03 4400
Hong Kong 2,92 43800
Hungary 7,86 19800
Iceland 3,23 42300
India 30,15 2900
Indonesia 29,97 3900
Iran 35,78 12800
Iraq 43,82 3200
Ireland 5,05 45500
Isle of Man 5,37 35000
Israel 4,22 28600
Italy 5,51 31400
Jamaica 15,22 8600
Japan 2,79 34100
Jersey 4,73 57000
Jordan 14,97 5200
Kazakhstan 25,73 11500
Kenya 54,7 1600
Kiribati 43,48 5300
Korea, North 51,34 1800
Korea, South 4,26 27700
Kuwait 8,96 57500
Kyrgyzstan 31,26 2200
Laos 77,82 2100
Latvia 8,77 17300
Lebanon 21,82 11100
Lesotho 77,4 1600
Liberia 138,24 500
Libya 21,05 14200
Lithuania 6,47 17800
Luxembourg 4,56 81200
Macau 3,22 30000
Macedonia 9,01 9100
Madagascar 54,2 1000
Malawi 89,05 800
Malaysia 15,87 15200
Maldives 29,53 4500
Mali 102,05 1100
Malta 3,75 24600
Marshall Islands 25,45 2500
Mauritania 63,42 2100
Mauritius 12,2 12100
Mayotte 56,29 4900
Mexico 18,42 14300
Micronesia, Federated States of 26,1 2200
Moldova 13,13 2500
Monaco 5 30000
Mongolia 39,88 3200
Montserrat 16,08 3400
Morocco 36,88 4500
Mozambique 105,8 900
Namibia 45,51 6400
Nauru 9,25 5000
Nepal 47,46 1100
Netherlands 4,73 40500
xxiv
Bases de datos
BASE DE DATOS Nº18
Netherlands Antilles 9,09 16000
New Caledonia 7,05 15000
New Zealand 4,92 27900
Nicaragua 25,02 2900
Niger 116,66 700
Nigeria 94,35 2300
Northern Mariana Islands 6,59 12500
Norway 3,58 59500
Oman 16,88 20200
Pakistan 65,14 2500
Palau 13,14 8100
Panama 12,67 11800
Papua New Guinea 45,23 2300
Paraguay 24,68 4200
Peru 28,62 8500
Philippines 20,56 3300
Poland 6,8 17400
Portugal 4,78 22200
Puerto Rico 8,42 17800
Romania 22,9 12200
Russia 10,56 16100
Rwanda 81,61 900
Saint Helena 17,63 2500
Saint Kitts and Nevis 13,94 19100
Saint Lucia 13,43 11100
Saint Pierre and Miquelon 6,87 7000
Saint Vincent and the Grenadines 15,14 10200
Samoa 24,22 4700
San Marino 5,34 41900
Sao Tome and Principe 37,12 1300
Saudi Arabia 11,57 20500
Senegal 58,94 1600
Serbia 6,75 10800
Seychelles 12,3 21000
Sierra Leone 154,43 900
Singapore 2,31 51600
Slovakia 6,84 22000
Slovenia 4,25 29600
Solomon Islands 19,03 2700
Somalia 109,19 600
South Africa 44,42 10100
Spain 4,21 34600
Sri Lanka 18,57 4400
Sudan 82,43 2200
Suriname 18,81 8900
Swaziland 68,63 4400
Sweden 2,75 38200
Switzerland 4,18 42000
Syria 25,87 4600
Taiwan 5,35 31100
Tajikistan 41,03 1800
Tanzania 69,28 1400
Thailand 17,63 8400
TimorLeste 40,65 2300
Togo 56,24 900
Tonga 11,58 4600
Trinidad and Tobago 29,93 23600
Tunisia 22,57 7900
Turkey 25,78 11900
Turkmenistan 45,36 6500
Turks and Caicos Islands 13,89 11500
Tuvalu 18,43 1600
Uganda 64,82 1300
xxv
BASE DE DATOS Nº18
Ukraine 8,98 7400
United Arab Emirates 12,7 44600
United Kingdom 4,85 36700
United States 6,26 47500
Uruguay 11,32 12400
Uzbekistan 23,43 2600
Vanuatu 49,45 4600
Venezuela 21,54 13500
Vietnam 22,88 2800
Virgin Islands 7,56 14500
Wallis and Futuna 5,02 3800
West Bank 15,96 2900
Western Sahara 69,66 2500
Yemen 54,7 2500
Zambia 101,2 1500
Zimbabwe 32,31 200
BASE DE DATOS Nº19
Condado Y D D
Starr County 98,10 1 0
Maverick County 95,33 1 0
Webb County 94,40 1 0
Brooks County 92,00 1 0
Zavala County 91,39 1 0
Jim Hogg County 90,63 1 0
Hidalgo County 88,42 1 0
Duval County 88,16 1 0
Willacy County 86,11 1 0
Kenedy County 85,99 1 0
Dimmit County 85,31 1 0
Zapata County 84,94 1 0
Presidio County 84,76 1 0
Cameron County 84,47 1 0
El Paso County 78,27 1 0
La Salle County 77,29 1 0
Jim Wells County 75,92 1 0
Val Verde County 75,75 1 0
Hudspeth County 75,45 1 0
Frio County 73,92 1 0
Reeves County 73,59 1 0
Culberson County 72,34 1 0
Uvalde County 66,12 1 0
Kleberg County 65,56 1 0
Pecos County 61,09 1 0
Nueces County 55,71 1 0
Crockett County 55,09 1 0
Bee County 53,95 1 0
Terrell County 51,34 1 0
Kinney County 50,10 1 0
San Patricio County 49,40 1 0
Edwards County 45,61 1 0
Medina County 45,49 1 0
Brewster County 43,72 1 0
Live Oak County 37,95 1 0
Jeff Davis County 35,48 1 0
McMullen County 34,43 1 0
Real County 21,63 1 0
Castro County 51,83 0 1
Parmer County 49,83 0 1
Crosby County 48,84 0 1
Dawson County 48,09 0 1
xxvi
Bases de datos
BASE DE DATOS Nº19
Hale County 47,99 0 1
Bailey County 47,73 0 1
Floyd County 46,03 0 1
Yoakum County 45,92 0 1
Cochran County 45,04 0 1
Lynn County 44,32 0 1
Terry County 43,99 0 1
Lamb County 43,71 0 1
Martin County 41,49 0 1
Andrews County 40,11 0 1
Howard County 37,56 0 1
Hockley County 37,21 0 1
Garza County 37,15 0 1
Gaines County 35,79 0 1
Swisher County 35,37 0 1
Mitchell County 31,33 0 1
Titus County 28,40 0 1
Nolan County 27,90 0 1
Scurry County 27,82 0 1
Hall County 27,55 0 1
Lubbock County 27,44 0 1
Knox County 25,53 0 1
Dickens County 23,39 0 1
Briscoe County 22,74 0 1
Fisher County 21,71 0 1
Jones County 21,10 0 1
Haskell County 20,61 0 1
Wilbarger County 20,46 0 1
Childress County 20,32 0 1
Cottle County 18,91 0 1
Borden County 18,24 0 1
Taylor County 17,54 0 1
Foard County 16,21 0 1
Hardeman County 15,09 0 1
Camp County 14,45 0 1
Stephens County 14,17 0 1
Angelina County 14,08 0 1
Motley County 13,53 0 1
Cherokee County 13,25 0 1
Wichita County 12,13 0 1
Anderson County 12,00 0 1
Stonewall County 11,99 0 1
Nacogdoches County 11,32 0 1
Rockwall County 11,13 0 1
Smith County 11,10 0 1
Liberty County 10,92 0 1
Eastland County 10,75 0 1
Jefferson County 10,58 0 1
Young County 10,50 0 1
Kent County 10,24 0 1
Collin County 10,22 0 1
Polk County 9,65 0 1
Shelby County 9,48 0 1
Hopkins County 9,26 0 1
Baylor County 9,14 0 1
Gregg County 8,86 0 1
Franklin County 8,78 0 1
Rusk County 8,30 0 1
Shackelford County 8,24 0 1
Hunt County 8,19 0 1
Throckmorton County 7,84 0 1
Houston County 7,59 0 1
Henderson County 6,75 0 1
xxvii
BASE DE DATOS Nº19
Van Zandt County 6,73 0 1
Callahan County 6,22 0 1
King County 6,18 0 1
Fannin County 5,66 0 1
Harrison County 5,40 0 1
Wood County 5,38 0 1
Red River County 5,11 0 1
Archer County 4,57 0 1
Rains County 4,56 0 1
San Jacinto County 4,49 0 1
Bowie County 4,27 0 1
Trinity County 4,07 0 1
Jasper County 3,96 0 1
Upshur County 3,79 0 1
Newton County 3,71 0 1
Tyler County 3,65 0 1
Lamar County 3,54 0 1
Orange County 3,50 0 1
Morris County 3,46 0 1
Panola County 3,23 0 1
San Augustine County 2,96 0 1
Hardin County 2,45 0 1
Cass County 1,62 0 1
Sabine County 1,60 0 1
Marion County 1,40 0 1
Delta County 0,81 0 1
Atascosa County 58,70 0 0
Deaf Smith County 57,71 0 0
Bexar County 54,35 0 0
Sutton County 51,73 0 0
Reagan County 49,67 0 0
Karnes County 47,71 0 0
Moore County 47,39 0 0
Refugio County 44,69 0 0
Crane County 44,09 0 0
Winkler County 44,03 0 0
Schleicher County 43,61 0 0
Upton County 42,45 0 0
Ward County 42,41 0 0
Ector County 42,39 0 0
Concho County 41,65 0 0
Calhoun County 40,71 0 0
Caldwell County 40,60 0 0
Gonzales County 39,88 0 0
Victoria County 39,22 0 0
Wilson County 36,48 0 0
Goliad County 35,13 0 0
Guadalupe County 33,16 0 0
Harris County 32,95 0 0
Menard County 32,63 0 0
Hansford County 31,83 0 0
Ochiltree County 31,69 0 0
Matagorda County 31,30 0 0
Sterling County 31,30 0 0
Wharton County 31,23 0 0
Tom Green County 30,65 0 0
Dallas County 29,89 0 0
Glasscock County 29,87 0 0
Hays County 29,45 0 0
Runnels County 29,40 0 0
Midland County 28,93 0 0
Dallam County 28,48 0 0
Travis County 28,21 0 0
xxviii
Bases de datos
BASE DE DATOS Nº19
Potter County 28,18 0 0
Sherman County 27,97 0 0
DeWitt County 27,31 0 0
McCulloch County 26,63 0 0
Jackson County 25,07 0 0
Irion County 24,68 0 0
Bastrop County 23,99 0 0
Brazoria County 22,76 0 0
Comal County 22,60 0 0
San Saba County 21,66 0 0
Mason County 21,21 0 0
Fort Bend County 21,10 0 0
Comanche County 21,06 0 0
Kimble County 20,97 0 0
Collingsworth County 20,59 0 0
Aransas County 20,42 0 0
Colorado County 19,76 0 0
Tarrant County 19,73 0 0
Waller County 19,43 0 0
Lipscomb County 19,20 0 0
Kerr County 19,16 0 0
Milam County 18,98 0 0
Lee County 18,27 0 0
Ellis County 18,24 0 0
Galveston County 18,05 0 0
McLennan County 17,93 0 0
Loving County 17,91 0 0
Brazos County 17,86 0 0
Kendall County 17,73 0 0
Williamson County 17,21 0 0
Coke County 16,95 0 0
Bell County 16,68 0 0
Grimes County 16,25 0 0
Austin County 16,06 0 0
Gillespie County 15,99 0 0
Navarro County 15,89 0 0
Falls County 15,87 0 0
Madison County 15,80 0 0
Blanco County 15,29 0 0
Brown County 15,22 0 0
Hemphill County 15,10 0 0
Lampasas County 15,05 0 0
Erath County 14,98 0 0
Burnet County 14,76 0 0
Burleson County 14,64 0 0
Robertson County 14,56 0 0
Hutchinson County 14,47 0 0
Walker County 14,02 0 0
Hartley County 13,78 0 0
Somervell County 13,56 0 0
Bandera County 13,45 0 0
Hill County 13,44 0 0
Coleman County 13,43 0 0
Palo Pinto County 13,22 0 0
Gray County 12,98 0 0
Limestone County 12,98 0 0
Oldham County 12,81 0 0
Fayette County 12,65 0 0
Montgomery County 12,62 0 0
Coryell County 12,53 0 0
Mills County 12,48 0 0
Wheeler County 12,40 0 0
Bosque County 12,33 0 0
xxix
BASE DE DATOS Nº19
Denton County 12,09 0 0
Johnson County 12,01 0 0
Lavaca County 11,41 0 0
Kaufman County 11,12 0 0
Chambers County 10,89 0 0
Wise County 10,76 0 0
Randall County 10,28 0 0
Cooke County 9,82 0 0
Washington County 8,97 0 0
Freestone County 8,43 0 0
Jack County 7,92 0 0
Leon County 7,86 0 0
Hamilton County 7,50 0 0
Hood County 6,99 0 0
Parker County 6,96 0 0
Carson County 6,81 0 0
Grayson County 6,39 0 0
Donley County 5,80 0 0
Montague County 5,49 0 0
Llano County 5,14 0 0
Armstrong County 3,91 0 0
Clay County 3,07 0 0
Roberts County 1,35 0 0
BASE DE DATOS Nº20
Condado Y D D D
Anderson County 14,32 0 1 0
Andrews County 15,29 0 1 1
Angelina County 19,34 0 1 0
Aransas County 19,63 0 0 0
Archer County 8,21 0 1 0
Armstrong County 8,8 0 0 0
Atascosa County 20,13 0 0 1
Austin County 12,15 0 0 0
Bailey County 18,84 0 1 1
Bandera County 15,18 0 0 0
Bastrop County 15,27 0 0 0
Baylor County 16,74 0 1 0
Bee County 16,97 1 0 1
Bell County 15,2 0 0 0
Bexar County 18,3 0 0 1
Blanco County 11,11 0 0 0
Borden County 6,45 0 1 0
Bosque County 19,89 0 0 0
Bowie County 16,97 0 1 0
Brazoria County 11,42 0 0 0
Brazos County 27,1 0 0 0
Brewster County 16,95 1 0 1
Briscoe County 12,79 0 1 0
Brooks County 28,51 1 0 1
Brown County 18,13 0 0 0
Burleson County 15,62 0 0 0
Burnet County 12,5 0 0 0
Caldwell County 18,14 0 0 1
Calhoun County 15,28 0 0 1
Callahan County 13,79 0 1 0
Cameron County 39,11 1 0 1
Camp County 18,7 0 1 0
Carson County 8,18 0 0 0
Cass County 18,23 0 1 0
Castro County 17,31 0 1 1
xxx
Bases de datos
BASE DE DATOS Nº20
Chambers County 9,4 0 0 0
Cherokee County 18,12 0 1 0
Childress County 17,51 0 1 0
Clay County 11,98 0 0 0
Cochran County 19,54 0 1 1
Coke County 11,65 0 0 0
Coleman County 19,87 0 0 0
Collin County 9,13 0 1 0
Collingsworth County 17,75 0 0 0
Colorado County 14,43 0 0 0
Comal County 13,04 0 0 0
Comanche County 16,5 0 0 0
Concho County 13,46 0 0 1
Cooke County 14,26 0 0 0
Coryell County 11,23 0 0 0
Cottle County 17,38 0 1 0
Crane County 9,91 0 0 1
Crockett County 13,61 1 0 1
Crosby County 21,05 0 1 1
Culberson County 20,2 1 0 1
Dallam County 12,89 0 0 0
Dallas County 17,75 0 0 0
Dawson County 19,69 0 1 1
Deaf Smith County 20,31 0 0 1
Delta County 17,44 0 1 0
Denton County 9,87 0 0 0
DeWitt County 17,39 0 0 0
Dickens County 17,13 0 1 0
Dimmit County 31,08 1 0 1
Donley County 15,57 0 0 0
Duval County 23,52 1 0 1
Eastland County 17,72 0 1 0
Ector County 16,26 0 0 1
Edwards County 21,88 1 0 1
El Paso County 30,15 1 0 1
Ellis County 13,6 0 0 0
Erath County 16,02 0 0 0
Falls County 22,57 0 0 0
Fannin County 15,53 0 1 0
Fayette County 12,47 0 0 0
Fisher County 14,41 0 1 0
Floyd County 18,39 0 1 1
Foard County 15,47 0 1 0
Fort Bend County 11,91 0 0 0
Franklin County 16,55 0 1 0
Freestone County 13,12 0 0 0
Frio County 24,91 1 0 1
Gaines County 18,77 0 1 1
Galveston County 13,83 0 0 0
Garza County 18,04 0 1 1
Gillespie County 10,91 0 0 0
Glasscock County 8,61 0 0 0
Goliad County 16,05 0 0 1
Gonzales County 18,8 0 0 1
Gray County 13,51 0 0 0
Grayson County 13,12 0 0 0
Gregg County 16,48 0 1 0
Grimes County 16,4 0 0 0
Guadalupe County 11,95 0 0 1
Hale County 16,36 0 1 1
Hall County 23,8 0 1 0
Hamilton County 13,95 0 0 0
Hansford County 12,91 0 0 1
xxxi
BASE DE DATOS Nº20
Hardeman County 14,48 0 1 0
Hardin County 11,84 0 1 0
Harris County 18,62 0 0 1
Harrison County 16,35 0 1 0
Hartley County 7,28 0 0 0
Haskell County 17,66 0 1 0
Hays County 18,7 0 0 0
Hemphill County 8,71 0 0 0
Henderson County 16,41 0 1 0
Hidalgo County 41,91 1 0 1
Hill County 17,99 0 0 0
Hockley County 16,21 0 1 1
Hood County 12,57 0 0 0
Hopkins County 15,12 0 1 0
Houston County 20,39 0 1 0
Howard County 21,2 0 1 1
Hudspeth County 31,55 1 0 1
Hunt County 17,16 0 1 0
Hutchinson County 12,22 0 0 0
Irion County 7,96 0 0 0
Jack County 11,46 0 0 0
Jackson County 13,96 0 0 0
Jasper County 19,57 0 1 0
Jeff Davis County 13 1 0 1
Jefferson County 15,33 0 1 0
Jim Hogg County 21,23 1 0 1
Jim Wells County 22,76 1 0 1
Johnson County 13,04 0 0 0
Jones County 14,02 0 1 0
Karnes County 19,59 0 0 1
Kaufman County 14,58 0 0 0
Kendall County 11,11 0 0 0
Kenedy County 14,98 1 0 1
Kent County 7,33 0 1 0
Kerr County 17,19 0 0 0
Kimble County 17,57 0 0 0
King County 11,52 0 1 0
Kinney County 20,72 1 0 1
Kleberg County 22,46 1 0 1
Knox County 16,34 0 1 0
La Salle County 26,41 1 0 1
Lamar County 16,05 0 1 0
Lamb County 17,91 0 1 1
Lampasas County 15,69 0 0 0
Lavaca County 12,62 0 0 0
Lee County 12,31 0 0 0
Leon County 16,42 0 0 0
Liberty County 14,31 0 1 0
Limestone County 19,84 0 0 0
Lipscomb County 13,9 0 0 0
Live Oak County 14,24 1 0 1
Llano County 13,22 0 0 0
Loving County 16,42 0 0 0
Lubbock County 17,98 0 1 0
Lynn County 17,88 0 1 1
Madison County 17,28 0 0 0
Marion County 24,21 0 1 0
Martin County 15,63 0 1 1
Mason County 14,98 0 0 0
Matagorda County 21,57 0 0 1
Maverick County 32,49 1 0 1
McCulloch County 21,39 0 0 0
McLennan County 19,57 0 0 0
xxxii
Bases de datos
BASE DE DATOS Nº20
McMullen County 14,22 1 0 1
Medina County 15,81 1 0 1
Menard County 19,03 0 0 1
Midland County 15,42 0 0 0
Milam County 17,38 0 0 0
Mills County 15,98 0 0 0
Mitchell County 16,53 0 1 1
Montague County 15,02 0 0 0
Montgomery County 13,69 0 0 0
Moore County 12,38 0 0 1
Morris County 17,28 0 1 0
Motley County 14,45 0 1 0
Nacogdoches County 20,65 0 1 0
Navarro County 19,55 0 0 0
Newton County 17,87 0 1 0
Nolan County 19,47 0 1 0
Nueces County 19,24 1 0 1
Ochiltree County 13,35 0 0 1
Oldham County 19,91 0 0 0
Orange County 12,91 0 1 0
Palo Pinto County 15,77 0 0 0
Panola County 13,59 0 1 0
Parker County 10,17 0 0 0
Parmer County 14,15 0 1 1
Pecos County 17,94 1 0 1
Polk County 18,2 0 1 0
Potter County 25,15 0 0 0
Presidio County 24,92 1 0 1
Rains County 18,95 0 1 0
Randall County 9,62 0 0 0
Reagan County 8,66 0 0 1
Real County 19,3 1 0 0
Red River County 16,92 0 1 0
Reeves County 27,85 1 0 1
Refugio County 14,72 0 0 1
Roberts County 5,75 0 0 0
Robertson County 19,14 0 0 0
Rockwall County 8,45 0 1 0
Runnels County 16,89 0 0 0
Rusk County 12,62 0 1 0
Sabine County 15,39 0 1 0
San Augustine County 20,22 0 1 0
San Jacinto County 19,03 0 1 0
San Patricio County 17,55 1 0 1
San Saba County 17,36 0 0 0
Schleicher County 13,8 0 0 1
Scurry County 14,86 0 1 0
Shackelford County 11,63 0 1 0
Shelby County 19,47 0 1 0
Sherman County 12,62 0 0 0
Smith County 15,87 0 1 0
Somervell County 10,25 0 0 0
Starr County 36,81 1 0 1
Stephens County 16,74 0 1 0
Sterling County 11,2 0 0 1
Stonewall County 14,06 0 1 0
Sutton County 14,72 0 0 1
Swisher County 15,6 0 1 1
Tarrant County 14,21 0 0 0
Taylor County 15,47 0 1 0
Terrell County 17,3 1 0 1
Terry County 20,23 0 1 1
Throckmorton County 12,76 0 1 0
xxxiii
BASE DE DATOS Nº20
Titus County 14,93 0 1 0
Tom Green County 15,56 0 0 1
Travis County 17,1 0 0 0
Trinity County 18,19 0 1 0
Tyler County 16,89 0 1 0
Upshur County 16,62 0 1 0
Upton County 13,48 0 0 1
Uvalde County 23,94 1 0 1
Val Verde County 26,37 1 0 1
Van Zandt County 15,15 0 1 0
Victoria County 16,27 0 0 1
Walker County 17,99 0 0 0
Waller County 20,02 0 0 0
Ward County 14,11 0 0 1
Washington County 14,21 0 0 0
Webb County 36,08 1 0 1
Wharton County 15,28 0 0 1
Wheeler County 10,9 0 0 0
Wichita County 13,83 0 1 0
Wilbarger County 13,82 0 1 0
Willacy County 38,51 1 0 1
Williamson County 8,77 0 0 0
Wilson County 13,05 0 0 1
Winkler County 14,04 0 0 1
Wise County 11,2 0 0 0
Wood County 12,99 0 1 0
Yoakum County 17,17 0 1 1
Young County 16,29 0 1 0
Zapata County 37,19 1 0 1
Zavala County 39,71 1 0 1
BASE DE DATOS Nº21
DISTRITO Y X
Antrim 0 34,382
Ards 1 12,191
Armagh 0 47,297
Ballymena 1 19,081
Ballymoney 0 31,405
Banbridge 0 29,552
Belfast 1 41,977
Carrickfergus 0 7,645
Castlereagh 0 10,197
Coleraine 1 23,810
Cookstown 1 55,305
Craigavon 0 43,333
Derry 1 72,642
Down 1 60,345
Dungannon 1 57,930
Fermanagh 1 56,667
Larne 1 23,810
Limavady 1 55,068
Lisburn 0 28,643
Magherafelt 1 61,433
Moyle 1 54,730
Newry & Mourne 1 76,988
Newtownabbey 0 14,054
North Down 0 9,736
Omagh 1 66,812
Strabane 1 63,712
xxxiv
Bases de datos
BASE DE DATOS Nº22
PAÍS Y X X
Australia 243,33 1 39300

Austria 260,00 1 39600
Bahrain 240,00 1 37200
Belarus 133,33 0 12000
Belgium 243,33 1 38300
Canada 253,33 1 40200
Czech Republic 213,33 0 26800
Estonia 170,00 0 21900
Finland 256,67 1 38400
France 220,00 0 32700
Germany 240,00 1 34800
Greece 210,00 0 32800
Hungary 190,00 0 20500
Iceland 260,00 1 42600
Ireland 253,33 1 47800
Israel 223,33 1 28900
Italy 230,00 1 31000
Japan 206,67 0 35300
Latvia 156,67 0 18500
Lithuania 156,67 0 18400
Malta 250,00 1 24200
New Zealand 246,67 1 28500
Portugal 203,33 0 22000
Russia 143,33 0 15800
Slovenia 220,00 0 30800
Spain 233,33 1 34100
Sweden 256,67 1 39600
Switzerland 273,33 1 40900
United Kingdom 236,67 1 37400
United States 246,67 1 48000
xxxv

Análisis de Regresión para Sociólogos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Regresión para Sociólogos

Cargado por

Copyright:

Formatos disponibles

Análisis de regresión para

1 EL ANÁLISIS DE REGRESIÓN SIMPLE (ARS) 1

2 EL ANÁLISIS DE REGRESIÓN MÚLTIPLE (ARM) 27

4.1 FORMAS FUNCIONALES 76

4.2 VARIABLES DUMMY 91

4.3 MODELOS DE ELECCIÓN BINARIOS 99

EL ANÁLISIS DE REGRESIÓN SIMPLE (ARS)

residuos. Lo que se busca es ajustar la mejor línea recta a la

7 La covarianza refleja la relación lineal que existe entre dos variables y se define como: Cov  XY=

Albania 76,2 5323,118

1. Los valores que nos entrega R como coeficientes

4. La estadística F es un método para probar la hipótesis nula : H0 : b1= 0 , esto es, que no existe una

5. Los valores Pr(>|t|) nos indican el nivel de significación que posee cada parámetro estimado. Por

Observemos que TABLA Nº1

Grafiquemos los puntos de la tabla Nº2 y la recta de regresión a ella PAÍS Yi ln X i

Grafiquemos nuestras variables originales (excluyendo

Consideremos un modelo de la forma Y i = b0 b 1 X i i donde i= 1,2,... , n y b0 y b1 son los

∑ 2i = ∑  Y i −b 0−b1 X i 2 (3)

Los estimadores por MCO de b0 y b1 se obtienen derivando parcialmente la ecuación anterior

∑ Y i = n b 0 b1 ∑ X i  b0 = ∑ i −b 1 ∑ i Esta expresión también puede escribir:

1.3.2 La varianza residual o cuadrado medio del

Adams County 0,285 11,324 0,986 0,701 7,944 0,692

∑ 19,135 19,135 0,000 0,001 0,000

Para comenzar debemos obtener la varianza de b0 y de b1

1.4.1 Varianza de los estimadores por MCO de los parámetros estimados b0 y de b1

Definamos: x i= X i− X y yi= Y i−Y

Donde 2 es la varianza del error en la relación real entre Y i y X i que como hemos visto puede

∑ Yi − X C Y ]= Var [  Y i −X C Y ]= Var[  1 − X C  Y ]= 2

Puesto que: Var [ ∑ X ∙ Y ]= ∑ X 2 Var Y (13)

Var b 0=  2 

∑ X 3i Y i − Y ∑ X 3i − X ∑ X 2i Y i X Y ∑ X 2i − X ∑ X2i Y i X Y ∑ Xi2 X2 ∑ Xi Y i− X2 Y ∑ X i = [ ∑ X 2i − X ∑ X i][ ∑ X i Y i− Y ∑ X i − X ∑ Y i X Y ] =

Nótese que las varianzas de b0 y b1 son funciones de la variable X.

Ejemplo Nº3: Suicidio y desempleo en Japón (1953­2004). BASE DE DATOS Nº3

b0 13,799 b1 4,29

Si t i −t o t ti , nuestro bi es estadísticamente significativo al nivel elegido, lo cual es nuestro

a) Demostración de que b1 es un estimador no sesgado de b1 : E b1= b1 (20)

1 Que b1 es combinación lineal de Y 1 , ..., Y n

b) Demostración de que b0 es un estimador no sesgado de b0 Eb0= b 0 (21)

Dado que el estimador de MCO de b0 es: b0 = Y−  b X

E b0 = E Y − b1 X  E b1 =

b0 ± t ∙ Sb0 y b1± t ∙S b1  (22)

Así nuestro intervalo es b1± t1− / 2, n−2 ∙ Sb 1 (23)

Así: b1± t1 −/2, n−2 ∙ S b1= 0,39705± 2,010635∙ 0,04786 ­> [0,301; 0,493]

2.­ De R obtenemos que b0 = −7,50664 y S b0 = 1,49841

Ya hemos visto que b1= ∑ Ci y i ∑ Yi  X −X  1

Tenemos entonces que Y i es un estimador no sesgado de la media de Y i que tiene una distribución

Y i  Superior , Inferior= −7,506640,39705∙ X i± 2,010635 ∙1,669  10,02

SCR SCE 2 SCE SCE

COMUNA Yi Xi Y i  Y i− Y2  Y i− Y2  Y i− Y i 2

Santiago 7,3 13,1 4,726 8,651 30,419 6,626

Y = 10,241 ∑ 860,802 470,436 390,376

Santiago 7,3 13,1 4,686 8,651 ­6,367

Para nuestro ejemplo: R2 = 0,5465 R = −0,739

∑ Y i  Y i −Y i = ∑  b0b1 X i  Y i−Y i = b0 ∑ e i  b1 ∑ X i e i = 0

Notemos que también podemos calcular STC como: STC= ∑  Yi − Y  2= ∑ Y 2−n Y 2 ya que:

∑ Y i −Y  = ∑  Yi −2 Y i Y  Y = ∑ Y i −2 Y ∑ Y in Y = ∑ Yi −2n Y n Y 2= ∑ Y 2i −n Y2

La estadística F es utilizada en el análisis de regresión

Un valor grande de CME comparado con CMR SALIDA Nº12

Error n−2 ∑  Y i− Y i 2 ∑  Y i− Y i2

Total n−1 ∑  Y i− Y2

Regresión 1 470,436 470,436 38,563

Error 32 390,376 12,199

1.7 PROPIEDADES DE LOS PARÁMETROS ESTIMADOS BAJO EL MÉTODO DE MÍNIMOS CUADRADOS

Ejemplo Nº3: Suicidio y desempleo en Japón (19532004). BASE DE DATOS Nº3

Así: b1± t1 −/2, n−2 ∙ S b1= 0,39705± 2,010635∙ 0,04786 > [0,301; 0,493]

2. De R obtenemos que b0 = −7,50664 y S b0 = 1,49841

Santiago 7,3 13,1 4,686 8,651 6,367

>(yt%%ybt%%xt%*%y)/30 obteniendo: [,1]

>sqrt((yt%% ybt%%xt%*%y)/30) obteniendo: [,1]

Y'Yb'X'Y = yt%%y bt%%xt%*%y = 10368.74

Calculemos la estadística DurbinWatson para determinar la existencia de autocorrelación en forma