Documentos de Académico
Documentos de Profesional
Documentos de Cultura
sociólogos
con aplicaciones en R
Registro de propiedad intelectual Nº 192374, CHILE.
Christian Castro Navarro
Sociólogo U. de Chile
Santiago, 11 de Junio del 2010
christiancastro@vtr.net
Prefacio.
El análisis de regresión es una herramienta estadística tradicionalmente utilizada por los economistas. Sin
embargo, la utilidad de esta técnica trasciende disciplinas y resulta clave para el sociólogoinvestigador al
ayudarlo a predecir dentro de cierto rango de probabilidad la ocurrencia de alguna situación social o bien,
determinar la influencia que múltiples variables ejercen sobre otra. La utilidad del análisis de regresión en
sociología es amplia, siendo aplicable al estudio de los mercados, del comportamiento desviado, la ciencia
política, la demografía, la epidemiología y la pobreza, entre otros (gran parte de los ejemplos se han hecho sobre
estos temas).
Siendo esto así, este texto intenta ser una referencia para estudiantes y profesionales de las ciencias
sociales que en sus investigaciones necesiten aplicar un análisis de regresión a la multiplicidad de problemas que
el complejo mundo social nos ofrece.
El presente trabajo se divide en cuatro secciones. La primera aborda el análisis de regresión simple,
explicándolo paso a paso junto con los diferentes test asociados a él. La segunda sección generaliza este análisis
al modelo de regresión múltiple. La tercera sección está dedicada al estudio de los problemas que con más
frecuencia se presentan en el análisis de regresión (autocorrelación, heterocedasticidad y multicolinealidad) y la
final, desarrolla 3 aplicaciones (formas funcionales, variables dummy y modelos de regresión con respuesta
cualitativa).
El único requisito para comprender a cabalidad este texto es el conocimiento de las matemáticas y
estadística elemental entregado en la enseñanza media (herramientas de cálculo sólo han sido utilizadas al
derivar las ecuaciones normales y al describir la distribución acumulativa normal como la integral de la función
gaussiana).
Hemos utilizado para el tratamiento computacional de datos el paquete estadístico R (de libre
distribución en la página http://www.rproject.org). Se ha elegido porque es tanto un paquete estadístico como
un lenguaje de programación, con lo que su versatilidad es amplia, su capacidad para generar gráficas de
calidad es enorme y es gratuito. En negrita de color azul se han señalado todas las instrucciones con R así como
también los ejemplos.
Christian Castro Navarro
Santiago, 11 de Junio del 2010
A G.N.S., G.C.T. y G.C.N.
Índice
ÍNDICE Pp
1.1 INTRODUCCIÓN 1
1.1.1 Las presunciones del modelo de regresión. 1
1.2 PRIMERAS CONSIDERACIONES 2
Ejemplo Nº1: Esperanza de vida y su relación con el PIB PPA para el año 2005 en 174 países. 2
1.2.1 Primera interpretación de resultados. 3
1.2.2 Linealización de variables. 4
1.3 ESTIMACIÓN DE LOS PARÁMETROS POR EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MCO)
PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES 7
Ejemplo Nº2: Robos por cada 1000 habitantes y % de población viviendo bajo la pobreza en condados
con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. 7
1.3.1 Graficando los residuos estandarizados. 9
1.3.2 La varianza residual o cuadrado medio del error (CME): S2 9
1.3.3 Algunas propiedades de la regresión obtenida por MCO. 10
1.4 TEST DE SIGNIFICACIÓN PARA LOS PARÁMETROS ESTIMADOS 10
1.4.1 Varianza de los estimadores por MCO de los parámetros estimados b0 y de b1 10
Ejemplo Nº3: Suicidio y desempleo en Japón (19532004). 12
1.4.2 Test de significación para los parámetros estimados. 13
1.4.3 Demostración de que los parámetros estimados por MCO son estimadores no sesgados de
los parámetros reales. 14
1.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE 14
1.5.1 Intervalos de confianza para los parámetros estimados. 14
Ejemplo Nº4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporción de niños
viviendo en familias lideradas por un solo padre (2004). 15
1.5.2 Estimación del intervalo de confianza para los valores promedios de la variable respuesta. 16
1.5.3 Estimación del intervalo de predicción de los valores particulares de la variable respuesta. 18
1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIÓN 19
1.6.1 El coeficiente de determinación: R 2 19
Ejemplo Nº5: Nivel de pobreza y años de escolaridad para las comunas del Gran Santiago (2006). 20
1.6.2 El coeficiente de correlación r. 21
1.6.3 Uso del análisis de varianza. 21
1.6.4 La estadística F. 22
1.7 PROPIEDADES DE LOS PARÁMETROS ESTIMADOS BAJO EL MÉTODO DE MÍNIMOS CUADRADOS
ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia. 24
1.7.1 Sesgo. 24
1.7.2 Eficiencia. 24
1.7.3 Consistencia. 25
1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE 25
2.1 INTRODUCCIÓN 27
2.1.1 Obtención de los estimadores por MCO de los parámetros con dos variables
independientes o explicativas. 28
2.1.2 Desarrollo de técnicas de regresión para el ARM utilizando el álgebra de matrices. 29
2.1.3 Ejemplo y trabajo con matrices en R. 30
Ejemplo Nº6: Regresión lineal de los años de escolaridad sobre el % de pobreza, el resultado del SIMCE
en matemáticas para los segundos medios y el % de desocupación para las comunas de
Santiago el año 2006. 30
2.2 INTERVALOS DE CONFIANZA 31
2
2.2.1 La varianza residual: S 31
2.2.2 La varianza de los parámetros estimados. 32
2.2.3 Los valores t de los parámetros estimados. 32
2.2.4 Construcción de los intervalos de confianza para los parámetros estimados. 33
2.3 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE 33
2.3.1 R 2 ajustado o R 2 34
2.4 PREDICCIÓN 35
2.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de predicción
toman los valores específicos [1, X 1i , X 2i , ∙∙∙ , X ki ] 35
2.4.1.1 Cálculo de los intervalos de confianza usando el álgebra de matrices con R. 35
Ejemplo Nº7: El índice de desarrollo humano. 35
2.4.2 Intervalo de predicción para la respuesta particular cuando las k variables de predicción
toman los valores específicos [1, X 1i , X 2i ,∙ ∙∙ , X ki ] 36
2.4.2.1 Cálculo de los intervalos de predicción usando el álgebra de matrices con R. 37
i
2.5 EL TEST DE SIGNIFICACIÓN GENERAL DE LA REGRESIÓN: LA ESTADÍSTICA F 38
2.5.1 La estadística F. 38
Ejemplo Nº8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU. 38
2.5.2 Tabla ANOVA para el modelo lineal general. 40
2.5.3 Cálculo de la tabla ANOVA utilizando el álgebra de matrices en R. 40
2.6 LOS COEFICIENTES DE CORRELACIÓN PARCIAL (CCP) 41
2.7 ANÁLISIS DE LOS RESIDUOS 42
3.1 AUTOCORRELACIÓN 44
3.1.1 ¿QUÉ ES LA AUTOCORRELACIÓN? 44
3.1.1.1 Autocorrelación en datos de sección transversal. 45
3.1.1.2 Autocorrelación en series de tiempo. 45
3.1.1.3 Algunos patrones de autocorrelación. 45
3.1.2 ¿POR QUÉ OCURRE LA AUTOCORRELACIÓN? 46
3.1.3 ¿CÓMO SE IDENTIFICA UNA AUTOCORRELACIÓN? 47
3.1.3.1 La estadística d de DurbinWatson. 47
3.1.3.1.1 Los pasos para aplicar la prueba d. 49
3.1.3.2 Método informal (gráfico) para la autocorrelación de primer orden negativa. 49
3.1.3.3 Método informal (gráfico) para la autocorrelación de primer orden positiva. 51
Ejemplo Nº9: Suicidio y desempleo en Japón (19532004). 52
3.1.4 SOLUCIONANDO LA AUTOCORRELACIÓN 54
3.1.4.1 Corrección de la autocorrelación de primer orden positiva. 55
3.2 HETEROCEDASTICIDAD 57
3.2.1 ¿QUÉ ES LA HETEROCEDASTICIDAD? 57
3.2.1.1 Razones por las que puede ocurrir la heterocedasticidad. 57
3.2.2 ¿CÓMO SE IDENTIFICA LA HETEROCEDASTICIDAD? 58
3.2.2.1 Método informal (gráfico). 58
3.2.2.2 Métodos formales. 59
3.2.2.2.1 El test de Park. 59
Ejemplo Nº10 Relación entre la tasa de robos y de robo de vehículos cada 100.000 habitantes en EE.UU
entre 1960 y el 2007. 59
3.2.2.2.2 El test de GoldfeldQuandt. 60
Ejemplo Nº11: Tasa de crímenes violentos versus crímenes contra la propiedad para los departamentos
de policía de California durante el año 2007. 61
3.2.2.2.3 El test de KoenkerBassett. 63
Ejemplo Nº12: Obesos versus actividad física. 63
3.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD 64
Ejemplo Nº13: Solución de la heterocedasticidad del ejemplo 10. 65
3.3 MULTICOLINEALIDAD 66
3.3.1 ¿QUÉ ES LA MULTICOLINEALIDAD? 66
3.3.1.1 ¿Por qué se produce? 67
3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD. 67
3.3.3 ¿CÓMO SE IDENTIFICA LA MULTICOLINEALIDAD? 68
3.3.3.1 El factor de inflación de la varianza. 68
Ejemplo Nº14: Índice de marginación, población indígena y % de analfabetismo en los municipios del
Estado de Chiapas, México. 69
Ejemplo Nº15: Función CobbDouglas de la economía chilena (19862000). 71
Ejemplo Nº16: Crímenes contra la propiedad y crímenes violentos en el Estado de Nevada, EE.UU. (19601980). 72
3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD 74
4.1.1 INTRODUCCIÓN 76
4.1.2 FORMA DOBLELOG 76
4.1.2.1 La función CobbDouglas. 78
4.1.2.2 La definición de la elasticidad. 78
Ejemplo Nº17: Función CobbDouglas de la economía chilena (19862000). 79
4.1.3 FORMA SEMILOG 80
Ejemplo Nº18: La explosión demográfica en EE.UU. entre 1790 y 1960. 82
4.1.4 FORMA POLINOMIAL 83
Ejemplo Nº19: Diagnosticados con VIH en Norteamérica entre 1987 y el 2000. 85
Ejemplo Nº20: Evolución de los detenidos por drogas por la DEA en los EE.UU (19942004). 86
4.1.5 FORMA RECÍPROCA 87
Ejemplo Nº21: Tasa de mortalidad infantil y el PIB per cápita ajustado a paridad de poder adquisitivo
para 42 países. 89
ii
Índice
4.2.1 INTRODUCCIÓN 91
4.2.2 MODELOS SÓLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA). 91
4.2.2.1 Modelos con solo una variable predictora cualitativa. 91
Ejemplo Nº22: % de población latina y su ubicación geográfica en el Estado de Texas, EE.UU. 91
4.2.2.2 Modelos con dos variables predictoras cualitativas. 93
Ejemplo Nº23: % de pobreza, ubicación geográfica y densidad de población latina en el Estado de Texas. 93
4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA) 94
Ejemplo Nº24: % de pobreza, ubicación geográfica y % de población latina en el Estado de Texas. 94
4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL 95
Ejemplo Nº25: Los efectos diferenciados para África y el resto del mundo de la correlación entre
la esperanza de vida y el PIB. 96
4.2.5 ALGUNAS PRECAUCIONES EN EL USO DE VARIABLES DUMMY 98
4.3.1 INTRODUCCIÓN 99
4.3.2 EL MODELO LOGIT 99
Ejemplo Nº26: Pobreza y religión en Irlanda del Norte. 100
4.3.2.1 Interpretación de los coeficientes. 101
4.3.2.2 Intervalos de confianza para los coeficientes estimados. 101
4.3.2.3 Significación estadística de los coeficientes. 101
4.3.2.4 Contraste de hipótesis para los coeficientes. 102
4.3.2.4.1 La función de verosimilitud. 102
4.3.2.4.2 Estadístico de la Razón de Verosimilitud o chi2. 102
4.3.2.4.3 Bondad del ajuste. 103
4.3.2.5 Características del modelo Logit. 103
4.3.2.6 Algunas observaciones para el modelo Logit. 103
4.3.3 EL MODELO PROBIT 104
Ejemplo 27: Satisfacción con la vida y PIB PPA per cápita para 30 países. 104
4.3.3.1 Interpretación de los coeficientes. 105
4.3.3.2 Intervalos de confianza para los parámetros estimados. 106
4.3.3.3 Contraste de hipótesis del modelo. 106
4.3.4 Modelos logit y probit. ¿Cuál es preferible? 107
5 BIBLIOGRAFÍA 108
6 BASE DE DATOS i
iii
Análisis de regresión simple
El Análisis de Regresión Simple es el estudio de la influencia cuantitativa que sobre una variable
dependiente (regresando o respuesta) denominada Y1, ejerce otra independiente X (regresor o estímulo).
De lo que se trata es extraer de grandes cantidades de datos las características esenciales de una
relación que no es evidente, ajustando a ellos una ecuación empírica que sea razonablemente precisa para
entre otras cosas, poder predecir el comportamiento de Y según varíe el de X.
Suponemos esta relación lineal (asume la forma de la ecuación clásica de una línea recta) a la cual le
adjuntamos un error asociado.
Como no se espera que estas variables hayan sido observadas bajo condiciones completamente
controladas, para el análisis de regresión existen una multiplicidad de tests que prueban la confiabilidad de los
resultados obtenidos. En esta sección y en la siguiente, dedicada al Análisis de Regresión Múltiple, los
estudiaremos uno a uno.
La ecuación de regresión simple se define de la siguiente manera: Y i = b0 b 1 X i i (1)
GRÁFICA Nº1
Ésta es la ecuación real a la cual sin embargo sólo nos
podemos aproximar aplicando una metodología. Ésta son los
Mínimos Cuadrados Ordinarios (MCO), con los cuales podemos
hacer una estimación de los parámetros o coeficientes reales
b y b . Estos parámetros estimados se denominan b
0 1 0
y b1 .
La ecuación de regresión estimada resulta entonces:
Y = b b X e (2)
i 0 1 i i
donde e i se denomina residuo. Más adelante lo estudiaremos
en profundidad.
El método de MCO es una técnica que nos permite
encontrar las estimaciones de los parámetros en la ecuación de
regresión, minimizando la suma de los cuadrados2 de las
diferencias entre los valores observados de la variable respuesta
Y i y aquellos proporcionados por la ecuación de predicción
Y , esto es, minimizando la sumatoria de los cuadrados de los
i
1.1.1 Las presunciones del modelo de regresión.
El modelo de regresión lineal clásico (MRLC) necesita de 10 presunciones básicas:
Supuesto 1: El modelo de regresión es lineal en los parámetros (los bi de la ecuación de regresión), esto
es, ningún parámetro en el modelo aparece como un exponente ni es multiplicado o dividido por cualquier otro
parámetro.
Supuesto 2: Se asume que X no es aleatorio.
Supuesto 3: El error i correspondiente a cualquier valor X i , posee media condicional cero. De esta
manera, Y i = b0 b 1 X i nos da el valor promedio de Y.
Supuesto 4: Existe homocedasticidad, esto es, dado un valor de X i , la varianza condicional de i es
1 El estudio de la regresión sobre una variable dependiente cualitativa lo haremos en la sección 4, capítulo 3: 'Modelos de elección binarios'.
2 Consideramos los cuadrados en el método de MCO, pues de lo contrario las desviaciones de igual tamaño pero opuestas en signo se anularían.
Además, con esto a las grandes desviaciones les entregamos un mayor peso que a las pequeñas.
3 Se consideran las desviaciones verticales porque intentamos explicar o predecir los movimientos en la variable dependiente Y, los cuales se
miden a lo largo del eje vertical.
4 Con la instrucción segments graficamos en R las líneas de los puntos a la recta de regresión estimada:
>a1<lm(a$V2~ a$V1)
>segments(a$V1, fitted(a1), a$V1, a$V2, col="red")
1
la misma para todas las observaciones. Las poblaciones Y i correspondientes a los diversos valores X i tienen
2
la misma varianza: Var i = con lo que los coeficientes de la regresión son eficientes 5 y los test de hipótesis
estadísticas sobre ellos no sesgados6.
Los supuestos 3 y 4 nos indican que el error i se distribuye normalmente: N 0 ; 2 . Esto implica
que también Y i y los parámetros de la regresión se distribuyen normalmente, lo que nos permite hacer pruebas
de significación estadística.
Supuesto 5: No existe autocorrelación entre los errores. Esto es, dado dos valores X cualquiera X i y X j
, la covarianza7 entre i y j es cero: Ei j = 0 ∀ i≠ j
Supuesto 6: i y X i no están correlacionados. Así suponemos que cada Y se compone de un valor
real y otro aleatorio no observable.
Supuesto 7: El número de observaciones n debe ser mayor que el número de parámetros a ser estimados.
Alternativamente, el número de observaciones n debe ser mayor que el número de variables independientes.
Supuesto 8: Debe existir una suficiente variabilidad en los valores tomados por los regresores.
Supuesto 9: El modelo de regresión está correctamente especificado, esto es, posee una forma funcional
correcta. Así, cualquier variación en Y que no pueda explicarse por medio de la ecuación de regresión es
exclusiva responsabilidad de un error aleatorio.
Supuesto 10: No existe ninguna relación lineal casi perfecta entre ningún regresor con otro. Caso contrario
estamos en presencia de multicolinealidad, que implica una casi perfecta relación lineal entre las variables
independientes. Esto es un problema del análisis de regresión con varias variables independientes que veremos
en detalle en la sección 3, capítulo 4: 'Problemas en el análisis de regresión: Multicolinealidad'.
1.2 PRIMERAS CONSIDERACIONES
Supongamos dos conjuntos: {Y1, Y 2 , ..., Yn } y {X1, X 2 , ..., Xn } que representan n mediciones de una
variable respuesta Yi que se han observado bajo un grupo de n mediciones de una variable de predicción
Xi . El ARS se inicia con la conjetura de que existe linealidad en la relación entre Y i y X i , por lo que lo
primero que haremos en el ARS, ya que nos es posible8, será graficar las Y i versus las X i para verificar este
supuesto inicial y fundamental9.
Ejemplo Nº1: Esperanza de vida y su relación con el PIB PPA para el año 2005 en 174 países.
Existe una relación entre el Producto Interno Bruto (PIB) per cápita de un país y la esperanza de vida para
el mismo en periodos de tiempo próximos, pues a mayor PIB per cápita, y suponiendo una distribución
razonablemente justa del ingreso, tenemos razones para creer que existe una mejor calidad y cobertura de la
atención médica, que las condiciones de salubridad son mayores y que las necesidades de alimentación están
bien cubiertas para una amplia mayoría de la población.
La base de datos Nº1 nos entrega los valores de la esperanza de vida en años al momento de nacer
Yi y el PIB (corregido a paridad de poder adquisitivo) per cápita en US$ Xi al 2005 para 174 países.
Leamos los datos en R (que hemos almacenado bajo un editor de textos con el nombre a.txt en C:) y
grafiquemos la esperanza de vida como variable dependiente y el PIB PPA per cápita como variable
independiente:
Los parámetros a$V1 y a$V2 representan las variables de las columnas Y y X respectivamente, col lo
usamos para asignar a los puntos color, xlab e ylab los utilizamos para asignar nombres a las variables del gráfico
y main lo utilizamos para el título del mismo.
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>jpeg(file='a.jpeg', width=500, height=500)
5 Sus varianzas son mínimas en torno al valor verdadero bi .
6 El promedio de los b i nos da el valor de bi .
2
Análisis de regresión simple
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>dev.off()10
GRÁFICA Nº2
BASE DE DATOS Nº1
PAÍS Yi Xi
GRÁFICA Nª3
Observemos que tenemos dos datos aberrantes:
Guinea Ecuatorial y Luxemburgo
Excluyámoslos, grafiquemos nuevamente, tracemos la
línea de regresión asociada a las variables y apliquemos nuestro
primer análisis de regresión a estos datos (con la instrucción lwd
asignamos el grosor a una línea):
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<lm(a$V1~ a$V2)
>summary(a1)
1.2.1 Primera interpretación de resultados.
10 De ahora en adelante omitiremos las últimas 3 líneas, pues sólo nos sirven para guardar nuestros gráficos en C:.
11 nk donde n es el número de casos y k el número de parámetros a estimar.
3
Para nuestro ejemplo, a un 95% de significación y
SALIDA Nº1
con 172 grados de libertad (Hacemos un test de dos
colas, con lo que 1−/2 = 1 – 0,05/2 = 0,975) Call:
calculando con R obtenemos: lm(formula = a$V1 ~ a$V2)
>qt(0.975,172) Residuals:
[1] 1.973852 Min 1Q Median 3Q Max
22.904 3.692 1.841 5.999 12.295
Vemos que ambos valores de t (69,51 y 11,9),
superan este valor, siendo por tanto ambos parámetros Coefficients:
Estimate Std. Error t value Pr(>|t|)
estimados significativos al 95%
(Intercept) 6.015e+01 8.653e01 69.51 <2e16 ***
3. El valor R2 (Multiple Rsquared) mide el grado a$V2 7.062e04 5.933e05 11.90 <2e16 ***
de asociación lineal entre variables. Si todos los puntos de
yacieran sobre la línea de regresión estimada este valor Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
valdría 1. Para nuestro ejemplo: R2 = 0,4546
De ahora en adelante asociaremos los tres Residual standard error: 8.072 on 170 degrees of freedom
Multiple Rsquared: 0.4546, Adjusted Rsquared: 0.4514
primeros resultados de la siguiente manera:
Fstatistic: 141.7 on 1 and 170 DF, pvalue: < 2.2e16
Y= 60,150,0007062 X R2 = 0,4546
69,51 11,9
>qf(0.95,1,172)
[1] 3.896092 3,896 141,7 con lo que rechazamos la hipótesis nula.
1.2.2 Linealización de variables.
Podemos solucionar el problema de la no linealidad de los datos de este ejemplo, transformándolos
b1
según alguna forma funcional del tipo recíproco Y= b 0 o bien del tipo semilog: Y= b 0b1 ln X ,
X
pues el patrón de los puntos así nos lo sugiere.
En el primer capítulo de la sección tercera: 'Formas funcionales' trataremos con detalle estas
transformaciones. Por el momento, sólo realicemos regresiones lineales según las dos transformaciones expuestas
e interpretémoslas. Decidiremos cuál de las dos resulta la mejor forma funcional.
b1
a) Y= b 0 Forma funcional recíproca.
X
Grafiquemos los puntos de la tabla Nº1 y la recta de regresión a ellos asociada:
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='1/PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre 1/PIB PPA per cápita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
4
Análisis de regresión simple
GRÁFICA Nº4
>a1<lm(a$V1~ a$V2)
>summary(a1)
SALIDA Nº2
Nuestra ecuación de regresión resulta entonces:
74,74 −23790 Z Call:
Y= i R2 = 0,5703
lm(formula = a$V1 ~ a$V2)
101,89 −15,02
Residuals:
1 Min 1Q Median 3Q Max
Donde Z i=
Xi 29.249 2.076 1.453 4.588 18.680
Coefficients:
El valor R2 está mas cerca de 1 (0,5703), por lo Estimate Std. Error t value Pr(>|t|)
que concluímos que la forma funcional recíproca (Intercept) 7.474e+01 7.336e01 101.89 <2e16 ***
propone una mejor linealización de las variables que el a$V2 2.379e+04 1.584e+03 15.02 <2e16 ***
caso original, pero continúa siendo regular.
Grafiquemos nuestras variables originales Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(excluyendo los dos datos aberrantes) y la curva que se
Residual standard error: 7.164 on 170 degrees of freedom
1
obtiene de la expresión: Y= 74,74−23790∙ Multiple Rsquared: 0.5703, Adjusted Rsquared: 0.5678
Xi Fstatistic: 225.6 on 1 and 170 DF, pvalue: < 2.2e16
GRÁFICA Nº5
>a < read.table('a.txt')
>x < seq( 0 ,50000,length = 100)
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida',
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>lines(x, 74.74 23790* 1/x, type='l', col= 'red', lwd=3)
La curva obtenida nos da información precisa del
comportamiento de Y i a medida que varían las X i . Existe
una línea asintótica representada por la recta Y= 74,74 b 0
sobre la cual el valor de la esperanza de vida no es superado.
5
b) Y= b 0b1 ln X Forma funcional semilog. TABLA Nº2
GRÁFICA Nº6
SALIDA Nº3
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
25.5378 2.2021 0.8045 4.0142 12.0787
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2074 3.8633 0.054 0.957
a$V2 7.7435 0.4416 17.535 <2e16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.522 on 170 degrees of freedom
Multiple Rsquared: 0.644, Adjusted Rsquared: 0.6419
Fstatistic: 307.5 on 1 and 170 DF, pvalue: < 2.2e16
GRÁFICA Nº7
Nuestra ecuación de regresión resulta entonces:
R = 0,644 Donde Z i= ln Xi
2
Y= 0,20747,7435 Z i
0,054 17,535
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida',
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>lines(x, 0.2074+7.7435*log(x), type='l', col= 'red', lwd=3)
El valor R2 está más cerca que el ejemplo anterior a 1
(0,644), por lo que concluímos que la forma funcional semilog
es una mejor linealización del modelo original que la recíproca.
6
Análisis de regresión simple
1.3 ESTIMACIÓN DE LOS PARÁMETROS POR EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MCO)
PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES
Primera ecuación normal:
2 2
∂ ∑ i ∂ ∑ Y i−b0 −b1 X i
= = 0 −2 ∑ Yi − b0− b1 X i = 0 ∑ Y i= n b0 b1 ∑ X i (4)
∂ b 0 ∂ b0
Segunda ecuación normal:
∂ ∑ 2i ∂ ∑ Y i−b0 −b1 X i 2
= = 0 −2 ∑ Xi Y i − b0− b1 X i = 0 ∑ Xi Y i= b0 ∑ X i b1 ∑ X 2i (5)
∂ b 1 ∂ b1
Sustituyendo una ecuación normal dentro de la otra obtenemos el valor de los parámetros estimados.
Despejemos b0 de la primera ecuación normal:
∑ Yi ∑ X i
∑ X i Y i− n
b1= 2 (7)
2
∑ X i
∑X − i
n
Ejemplo Nº2: Robos por cada 1000 habitantes y % de población viviendo bajo la pobreza en
condados con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. (excluyendo
los 6 condados más atípicos) (23 casos).
La Teoría de la Economía Alternativa Informal e ilegal (Cooper: 2000), afirma que los trabajos informales
alternativos e ilegales surgen en la medida en que la economía formal no es capaz de otorgar los puestos
laborales formales necesarios para un número importante de personas. Es así que la economía informal
alternativa e ilegal es una forma de obtener ingresos que permiten una subsistencia inalcanzable por otros
medios, esto al menos, en el caso de los ladrones comunes.
La base de datos Nª2 nos entrega información del número de robos cada 1000 habitantes Y i y el %
de población pobre Xi en condados con una población superior a 50.000 personas en el Estado de Illinois,
EE.UU. en el 2007. (excluyendo los 6 condados más atípicos)
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión
lineal de la tasa de delitos sobre el % de población pobre.
7
BASE DE DATOS Nº2
>a < read.table('a.txt')
>par(bg = "Ivory 2")
CONDADO Yi Xi
>plot(a$V2, a$V1, col=3, xlab='% de población pobre', ylab='Tasa de robos',
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre el % de población pobre", "y la tasa de Adams County 0,285 11,324
robos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') Boone County 0,150 9,790
>abline(lm(a$V1~a$V2), lwd=3, col='red') DeKalb County 0,428 10,454
DuPage County 0,277 4,725
>a1<lm(a$V1~ a$V2) Kane County 0,538 7,782
>summary(a1) ∙ ∙ ∙
∙ ∙ ∙
FUENTES: ∙ ∙ ∙
Poblaci ón viviendo bajo el nivel de la pobreza al 2007 en el Estado de Illinois: Tazewell County 0,267 7,789
http://www.ers.usda.gov/Data/PovertyRates/Povlistnum.asp?TheState=IL%2CIllinois Vermilion County 1,762 17,839
Tasa de robos por cada 100.000 en el Estado de Illinois al 2007:
Whiteside County 0,237 10,982
http://www.isp.state.il.us/crime/cii2007.cfm
Estimaci ón de la poblaci ón de los condados de Illinois al 1 de Julio del 2007: Will County 0,504 5,821
http://www.census.gov/popest/counties/COEST200801.html Winnebago County 2,329 13,624
GRÁFICA Nº8
SALIDA Nº4
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
0.7010 0.3391 0.1666 0.3231 1.0298
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.78355 0.33377 2.348 0.0288 *
a$V2 0.15626 0.03045 5.132 4.39e05 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5321 on 21 degrees of freedom
Multiple Rsquared: 0.5564, Adjusted Rsquared: 0.5353
Fstatistic: 26.34 on 1 and 21 DF, pvalue: 4.391e05
Calculemos los coeficientes con nuestras fórmulas:
TABLA Nº3
∑ Yi ∑ X i
∑ X i Y i− n CONDADO Yi Xi Xi Y i X 2i
b1= 2
∑ X i Adams County 0,285 11,324 3,222 128,243
∑ X 2i −
n Boone County 0,150 9,790 1,471 95,838
19,135 ∙237,79 DeKalb County 0,428 10,454 4,473 109,296
245,555− DuPage County 0,277 4,725 1,311 22,322
23
b1= Kane County 0,538 7,782 4,187 60,555
237,79 2 ∙ ∙ ∙ ∙ ∙
2763,834−
23 ∙ ∙ ∙ ∙ ∙
245,555−197,831 47,724 ∙ ∙ ∙ ∙ ∙
b1= b1= Tazewell County 0,267 7,789 2,083 60,664
2763,83−2458,438 305,392
Vermilion County 1,762 17,839 31,428 318,213
b1= 0,156 Whiteside County 0,237 10,982 2,605 120,596
Will County 0,504 5,821 2,933 33,880
b0 = 0,832−0,156∙ 10,339 b0 = −0,781 Winnebago County 2,329 13,624 31,727 185,605
b0 = Y
− b1 X
∑ 19,135 237,790 245,555 2763,834
Y i = 0,832 X i = 10,339
Y vemos que coinciden con los datos
entregados por R.
8
Análisis de regresión simple
1.3.1 Graficando los residuos estandarizados.
Los residuos e i son muy importantes debido a que proporcionan abundante información sobre lo que
puede fallar en el modelo de regresión estimado.
Con el siguiente comando graficamos los residuos estandarizados, pero antes debemos descargar la
librería MASS e instalarla12:
>library(MASS)
>a1 < (lm(a$V1~a$V2))
>par(bg = "Ivory 2")
>plot(a$V2,stdres(a1), col=3, xlab='% de población pobre', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos estandarizados", "versus variable
independiente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x < seq( 3, 19, length = 100)
>lines(x, xx, type="l", col= 'red', lwd=3)
GRÁFICA Nº9
El valor residual es la distancia vertical que existe entre
una observación determinada y el punto sobre la recta
estimada de regresión para la misma observación.
Un residuo representa la cantidad en la que un valor
estimado falla para predecir la media de la correspondiente
observación. Por lo tanto, entre mayor sea un residuo, mayor
tendería a ser el efecto de la componente aleatoria en el
modelo.
Según los supuestos iniciales, la varianza de la variable
2
respuesta Var Y i = es igual a la varianza del error, que es
constante para todos los valores de la variable de predicción
X i . El estimador de esta varianza 2 es S 2 y se
denomina varianza residual o cuadrado medio del error. Se
define formalmente como la sumatoria del cuadrado de los
residuos, dividido por la cantidad de datos menos los
parámetros a estimar (los grados de libertad). En el caso del ARS, el denominador es n2 ya que se pierden dos
grados de libertad al tener que estimar los dos parámetros b0 y b1 antes de obtener Y i :
S 2=
∑ Yi − Y i 2 = ∑ e 2i (8) TABLA Nº4
n−2 n−2
CONDADO Yi Xi Y i ei e 2i
(donde S se denomina desviación standard residual)
Calculemos el cuadrado medio del error para el Adams County 0,285 11,324 0,986 0,701 0,492
ejemplo ya visto: Boone County 0,150 9,790 0,746 0,596 0,355
DeKalb County 0,428 10,454 0,850 0,422 0,178
S 2=
∑ e 2i = 5,946 = 0,283 S= 0,532 Que vemos DuPage County 0,277 4,725 0,045 0,323 0,104
n−2 21 Kane County 0,538 7,782 0,432 0,106 0,011
coincide con la salida en R llamada error standard ∙ ∙ ∙ ∙ ∙ ∙
residual. ∙ ∙ ∙ ∙ ∙ ∙
Como Y i estima la media de Y i , Y i − Y i (el ∙ ∙ ∙ ∙ ∙ ∙
Tazewell County 0,267 7,789 0,434 0,166 0,028
residuo) es la desviación de Y i respecto a su propia Vermilion County 1,762 17,839 2,004 0,242 0,059
media. Por lo anterior es que S 2 es una medida absoluta Whiteside County 0,237 10,982 0,932 0,695 0,483
de que tan bien se ajusta la recta estimada de regresión a Will County 0,504 5,821 0,126 0,378 0,143
las medias de la observaciones de la variable respuesta. Winnebago County 2,329 13,624 1,345 0,983 0,967
Mientras más pequeño sea el valor de S 2 , mayor ajuste ∑ e 2i = 5,946
tendrá el modelo.
12 Para instalar paquetes que aún no se tienen en las librerías de R, escribimos >install.packages(), seleccionamos un espejo desde el cual bajar
los paquetes y lo llamamos con >library(packages).
9
S 2 es un estimador no sesgado de 2 mientras la forma del modelo de regresión sea la correcta.
1.3.3 Algunas propiedades de la regresión obtenida por MCO.
1 ∑ e i = 0
pues ∑ e i = ∑ Y i−Y i = ∑ Y i−b 0−b1 Xi = ∑ Yi −n b0− b1 ∑ X i= nY − b1 X − b1 n X
−n Y = 0
2 ∑ Y i = ∑ Y i
ya que ∑ Y i = ∑ b0 b1 X i = n b0 b1 ∑ X i y como ya hemos visto que la primera ecuación normal es
∑ Y i = n b0b1 ∑ X i , ∑ Y i = ∑ Y i
3 ∑ X i e i= 0
pues ∑ X i e i= ∑ X i Y i − Y i = ∑ X i Y i− ∑ X i Y i = ∑ X i Y i −∑ X i b 0 b1 X i
= ∑ Xi Yi −b0 ∑ X i− b1 ∑ X i 2 Recordemos que la forma de la segunda ecuación normal es:
2
∑ X i Y i = b0 ∑ X ib1 ∑ X i , por lo que ∑ X i ei = 0
4 ∑ Y i e i= 0
∑ Y i ei = ∑ b0 b1 Xi e i= b0 ∑ e i b1 ∑ X i ei y ya hemos visto que estas dos últimas expresiones son cero.
Las dos últimas propiedades implican que los residuos no están correlacionados ni con las variables
predictoras ni con la predicha.
TABLA Nº5
Verifiquemos estas propiedades en nuestro
CONDADO Yi Xi Y i ei X i ei Y i e i
ejemplo:
1.4 TEST DE SIGNIFICACIÓN PARA LOS PARÁMETROS ESTIMADOS
En el modelo de regresión simple resulta más o menos evidente saber si los parámetros estimados son
coherentes comparando la recta de regresión obtenida con los puntos de las variables originales. Sin embargo,
en el análisis de regresión múltiple que trataremos en la siguiente sección el problema no es tan trivial. En estos
casos no tenemos una representación gráfica con la cual comparar, por lo que debemos establecer un test que
evalúe la significación estadística de los estimadores de la regresión. Veamos esto para el caso del modelo lineal
simple. La pregunta clave es: ¿son las estimaciones de los coeficientes obtenidos estadísticamente relevantes?
entonces:
10
Análisis de regresión simple
2 ∑ Xi2 2 ∑ X 2i
a) Var b 0= 2 o bien Var b 0= 2 (10)
n ∑ X i −
X n ∑ xi
Demostración:
∑ Yi ∑ X i
∑ X i Y i−
b1=
n ∑ Xi −X Y i−Y
Hemos obtenido que: 2 , pero lo anterior es equivalente a: 13
2
∑ X i ∑ Xi −X 2
[∑ X − i ]
n
X
X i −
Entonces, si definimos: Ci= b i = ∑ Ci Y i (11)
∑ X i− X 2
(Notemos que en la expresión anterior da lo mismo utilizar Yi − Y = y i o Y i , pues
∑ Xi −X Y i− Y = ∑ X i −X Yi −Y ∑ X i− X = ∑ X i −X Yi Ya que ∑ X i −X = 0 .
Por otro lado b0 = Y
− b1 X , entonces Var b 0= Var Y − b1 X (12)
1 2X Ci 2 X ∑ Ci
Var b 0= 2 ∑ 2 − 2 C2i = 2 ∑ 12 −
X X2 ∑ C2i
n n n n
1
Si ∑ Ci= 0 (Recordemos que ∑ X i −X = 0 ) y ∑ C2i = y puesto que: ∑ a= n siendo
∑ X i− X 2
1 1 1 1
a una constante: ∑ = 2 ∑ 1= 2 n=
n
n2 n n
1
Var b 0= 2
2
X
= 2
∑ Xi −X 2n X 2
2
n ∑ X i − X n ∑ X i−X 2
Ya que: ∑ X i −X 2= ∑ Xi2−2 X i X X 2 = ∑ Xi2−2 X ∑ X i ∑ X 2= ∑ X2i −2n X 2n X 2= ∑ X 2i −n X2
2 2 2 2
13 Hagamos:
∑ Y i ∑ Xi ][ ∑ X i
[∑ Xi Yi −
n
∑ Xi− X 2 ] = [ ∑ X i− X Yi − Y ][ ∑ X 2i −
n
]
Desarrollemos la primera expresión para llegar a la segunda:
[ ∑ Xi Y i−∑ Xi X2 ]
Y ][ ∑ X2i −2 Xi X = ∑ X3i Y i − Y ∑ X3i −2 X∑ X 2i Y i2 X Y ∑ X2i X2 ∑ Xi Y i − X2 Y ∑ Xi =
2 2
∑ X i ∑ X i
= 2
[ ∑ Xi − ][ ∑ X i Y i − Y X i− X Y i X Y ]
][ ∑ Xi− X = 2
[ ∑ Xi −
Y i− Y ]
n n
14 La demostración de esta importante ecuación excede los propósitos de este texto.
11
Como 2 es la varianza del error en la relación real entre X i y Y i que puede estimarse como
S
2
, un estimador de la desviación standard de b0 es: S b0 = S
∑ X2i
n ∑ X i−
X
2
(14)
2 2
b) Var b 1= o bien Var b 1= (15)
∑ x 2i ∑ X i −X 2
Demostración:
2 ∑ X i−X 2 ]= 2
Var b 1= Var ∑ Ci Y i = ∑ C2i Var Y i = 2 ∑ C2i ∑ C2i = 2
[ 2
2
∑ X i− X ∑ X i −X 2
S
Entonces: S b1 = (16)
∑ X i −X 2
es la desviación standard del estimador de mínimos cuadrados de la pendiente.
S 2 ∑ X 2i ∑ e 2i ∑ X 2i
S 2 b0 = 2
=
n ∑ xi n−2 n ∑ x2i
Tenemos así que: (17)
2
S b 1=
S2
=
∑ e 2i
2
∑ xi n−2 ∑ x 2i
Calculemos las varianzas de los parámetros estimados para el siguiente ejemplo:
Xi AÑO Y
Es conocido que el deterioro de algunos factores económicos como la caída del i
empleo o las recesiones pueden contribuir a un aumento de la tasa de suicidios. 1955 31,27 2,6
Wasserman (1984) mostró que en los Estados Unidos desde 1947 a 1977 los periodos 1956 29,85 2,3
recesivos se asocian a un aumento de tasa de suicidios y que existe una correlación 1957 29,72 1,9
estadística entre los suicidios y la duración promedio del desempleo. Stuckler (2009) halló 1958 30,82 2,2
que por cada 1 por ciento de aumento del desempleo, existe casi un 0,8 por ciento de 1959 26,76 2,3
incremento en las tasas de suicidio en menores de 65 años estudiando 26 países de la ∙ ∙ ∙
∙ ∙ ∙
Unión Europea.
∙ ∙ ∙
Se debe tener en consideración sin embargo, que si bien es probado que el 2000 34,87 4,9
desempleo es un factor en la evolución de la tasa de suicidio también es cierto que entre 2001 33,86 5,2
los cesantes está sobrerepresentada la población de enfermos mentales y drogadictos, 2002 34,80 5,5
dado que ellos tienen mas dificultades para conservar su trabajo. 2003 37,51 5,5
La base de datos Nº3 nos entrega información de la tasa de suicidios de hombres 2004 35,20 4,9
Yi y la tasa de desempleo Xi entre los FUENTES:
Número de suicidios de hombres en Japón (19532003):
años 1953 y el 2003 en Japón. http://www.stat.go.jp/english/data/chouki/02.htm
Para orientarnos, grafiquemos los Población japonesa entre (19532003):
puntos, la recta de regresión a ellos asociada y http://www.stat.go.jp/english/data/chouki/02.htm
% de desempleo en Japón: (19532003) :
ejecutemos una regresión lineal de la tasa de http://lysander.sourceoecd.org/vl=4326714/cl=22/nw=1/rpsv/factbook2009/06/02/01/index.htm
suicidios sobre la tasa de desempleo en Japón.
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre la tasa de desempleo", "y la tasa de suicidios en
Japón",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<lm(a$V1~ a$V2)
>summary(a1)
12
Análisis de regresión simple
TABLA Nº6
AÑO Yi Xi X i2 x 2i
Calculemos S b0 y S b1
1955 31,27 2,6 6,76 0,024 De la salida de R tenemos que S 2= 8,398 y como n= 50:
1956 29,85 2,3 5,29 0,021
1957 29,72 1,9 3,61 0,296
S 2 ∑ X 2i 8,398 ∙ 371,04
S b0 =
2
1958 30,82 2,2 4,84 0,060
2
= = 0,861 S b0 = 0,928
1959 26,76 2,3 5,29 0,021 n ∑ xi 50∙ 72,38
∙ ∙ ∙ ∙ ∙ 2
S 8,398
∙ ∙ ∙ ∙ ∙ S 2 b1 = 2
= = 0,116 S b1 = 0,341
∙ ∙ ∙ ∙ ∙ ∑ xi 72,38
2000 34,87 4,9 24,01 6,032
2001 33,86 5,2 27,04 7,596
2002 34,80 5,5 30,25 9,339
2003 37,51 5,5 30,25 9,339
2004 35,20 4,9 24,01 6,032
2,444
X=
∑ 371,04 72,38
GRÁFICA Nº10
SALIDA Nº5
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
3.9885 1.9864 0.8444 1.3186 7.7696
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.7994 0.9280 14.87 <2e16 ***
a$V2 4.2900 0.3407 12.59 <2e16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.898 on 48 degrees of freedom
Multiple Rsquared: 0.7676, Adjusted Rsquared: 0.7628
Fstatistic: 158.6 on 1 and 48 DF, pvalue: < 2.2e16
1.4.2 Test de significación para los parámetros estimados.
El test de significación de los parámetros estimados consiste en comparar el valor del cuociente entre el
parámetro estimado y su respectiva desviación standard con el valor de la t de student correspondiente a los
grados de libertad y el nivel de significación elegido. El parámetro clave del modelo es b1 ; la significación
estadística del parámetro estimado de la intersección con Y no tiene mayor relevancia.
Nuestra hipótesis alternativa la establecemos así:
Si Y se encuentra relacionada en forma lineal con X, entonces b1≠ 0
b0−b 0 b 1−b1
Las variables aleatorias t 0= y t 1= (18)
S b0 Sb 1
tienen una distribución t de student con n2 grados de libertad, por lo que si queremos probar las hipótesis nulas
b0 b 1
H0 : b 0= 0 y H0 : b 1= 0 , debemos comparar t 0= y t 1= (19)
S b0 Sb 1
13
con la t correspondiente a los grados de libertad y el nivel de significación elegido.
A un 95% de significación y con 48 grados de libertad (hacemos un test de dos colas, con lo que
1−/2 = 1 – 0,05/2 = 0,975) calculando con R obtenemos nuestro t:
>qt(0.975,48)
[1] 2.010635
Así que se rechaza la hipótesis nula.
1.4.3 Demostración de que los parámetros estimados por MCO son estimadores no sesgados de los
parámetros reales.
Se deben demostrar dos cosas:
∑ X i −X =
2.1 ∑ Ci= 0
∑ X i− X 2
∑ X i− X X i = ∑ Xi2−X X i = 1 ya que X = ∑ X i X = n X y
2.2 ∑ Ci X i= ∑ i
∑ X i −X 2 ∑ X 2i −2 n X 2n X 2 n
∑ X i −X 2= ∑ Xi2−2 X i X X 2 = ∑ Xi2−2 X ∑ X i ∑ X 2= ∑ X2i −2n X 2n X 2= ∑ X 2i −n X2
Entonces queda así demostrado que E b1= b1
1.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE
1.5.1 Intervalos de confianza para los parámetros estimados.
14
Análisis de regresión simple
Un intervalo de confianza para los parámetros verdaderos b0 y b1 esto es, la región donde con
cierta probabilidad se encuentran, al nivel de significación establecido y para cierto grado de libertad se
construye sumando y restando al parámetro estimado su propia desviación standard multiplicada por la
estadística t asociada.
Para b0 y b1 los intervalos de confianza entonces quedan como:
b1
Como ya lo hemos visto, la variable aleatoria tiene una distribución t de student con n2 grados
S b1
de libertad, por lo que la probabilidad de que b1 se encuentre dentro del intervalo
[ b1− t 1−/2, n−2 ∙ S b1 ; b1 t 1−/ 2,n−2 ∙S b1 ] es P[ b 1− t 1− / 2, n−2 ∙S b1 b1 b1 t 1−/2, n−2 ∙ S b1 ]= 1−
Para el caso de b0 procedemos de manera análoga.
Consideremos el siguiente ejemplo:
Ejemplo Nº4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporción de niños
(bajo 18 años) viviendo en familias lideradas por un solo padre (2004).
La presencia o ausencia relativa de figuras paternas en una comunidad, parece estar fuertemente
correlacionada con la tasa de criminalidad.
En los Estados Unidos el 70% de los delincuentes juveniles, de los homicidas menores de 20 años y de los
individuos arrestados por violación y otras ofensas sexuales graves crecieron sin padre.
La relación entre ausencia del padre y delincuencia surge de numerosos trabajos de investigación
(Adams, Milner & Schrepf, 1984; Anderson, 1968; Chilton & Markle, 1972; Monahan, 1972; Mosher, 1969; Robins & Hill,
1966; Stevenson & Black, 1988; Wilson & Herrnstein, 1985; Bohman, 1971; Kellam, Ensminger & Turner, 1977).
La base de datos Nº4 nos entrega la tasa de asesinatos por cada 100.000 habitantes al 2006 Y i y la
proporción de niños (menores de 18 años) viviendo en familias uniparentales al 2004 Xi para los 50 Estados
norteamericanos (excluímos Washington D.C.)
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión
de la tasa de asesinatos sobre la proporción de familias uniparentales:
BASE DE DATOS Nº4
ESTADO Yi Xi
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Tasa de familias uniparentales', ylab='Tasa de homicidios', Alabama 8,3 37
cex.lab=1,family='NewCenturySchoolbook') Alaska 5,4 30
>title(main=paste("Relación entre la tasa de familias uniparentales", "y la tasa de Arizona 7,5 33
homicidios",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') Arkansas 7,3 35
>abline(lm(a$V1~a$V2), lwd=3, col='red') California 6,8 31
∙ ∙ ∙
>a1<lm(a$V1~ a$V2) ∙ ∙ ∙
>summary(a1)
∙ ∙ ∙
Virginia 5,2 29
Washington 3,0 29
West Virginia 4,1 31
Wisconsin 3,0 28
Wyoming 1,7 27
FUENTES:
Proporción de niños (bajo 18 años) viviendo en familias lideradas por un solo padre (2004):
http://www.thenationalcampaign.org/
Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU:
http://www.infoplease.com/ipa/A0004912.html
15
GRÁFICA Nº11
SALIDA Nº6
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
3.7899 1.0143 0.2414 1.1005 4.5012
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.50664 1.49841 5.010 7.80e06 ***
a$V2 0.39705 0.04786 8.297 7.87e11 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.669 on 48 degrees of freedom
Multiple Rsquared: 0.5892, Adjusted Rsquared: 0.5806
Fstatistic: 68.83 on 1 and 48 DF, pvalue: 7.873e11
Ahora calculemos los intervalos de confianza para los parámetros estimados según R:
SALIDA Nº7
>confint(a1, level= 0.95) 2,5% 97,5%
(Intercept) 10,5193867 4,4938931
a$V2 0,3008243 0,4932663
Hagamos nuestros propios cálculos y verifiquémoslo:
Hemos visto que para un 95% de significación y con 48 grados de libertad, calculando con R obtenemos:
>qt(0.975,48)
[1] 2.010635
Vemos que ambos resultados coinciden con los entregados por R.
1.5.2 Estimación del intervalo de confianza para los valores promedios de la variable respuesta.
Un intervalo de confianza para los valores promedios de la variable respuesta es una región, donde a un
nivel de significación determinado, la variable independiente yace.
Para el modelo lineal simple, la recta de regresión estimada permite obtener un estimador para la media
de la variable respuesta para cada valor de la variable de predicción X i : Y i = b0 b1 X i , por otro lado
= b 0 b1 X implica que b0 = Y − b1 X por lo que Y i = Y − b1 X
Y b1 X i Así: Y i = Y b1 X i − X
2
Entonces la varianza del estimador de la variable respuesta es: Var Y i = S Y i = Var [ Y b1 X i − X ]
16
Análisis de regresión simple
1 2
1 X −X
∑ [ n Ci X i −X ] Var Yi = 2 [∑
2
2 i ∑ Ci Xi −X 2 ∑ C2i ] Recordemos que ∑ Ci= 0 y
n n
X i−X 2
Xi − X ∑ X i −X 2 = 1
2
Ci= entonces: ∑ Ci = ∑ [ ]=
∑ X i −X 2 ∑ X i −X 4 ∑ X i− X 4 ∑ X i− X 2
1 2
Xi − X
Es así que la varianza del estimador de la variable respuesta resulta: S 2 Y i = 2 [ ] (24)
n ∑ Xi −X 2
1 2
X i− X
por lo que un estimador de la desviación standard de Y i está dado por: S Y i =S [ ] (25)
n ∑ Xi − X 2
[ Y i −E Y i ]
Por otro lado, la distribución de muestreo de (26)
S Y
i
es la t de student con n 2 grados de libertad. Por lo anterior, la probabilidad de que E Y i se encuentre dentro
del intervalo aleatorio: [ Y i − t 1−/ 2, n−2 ∙ S Y i ; Y i t1−/ 2, n−2 ∙ S Y i ] es 1− o bien, el intervalo de confianza
del 100 1−% para Y es: Y ± t i i ∙S Y
1− / 2,n−2 i (27)
Calculemos estos intervalos para el ejemplo Nº4:
SALIDA Nº8
Con la siguiente instrucción obtenemos los valores numéricos de
fit lwr upr
los límites superior e inferior del intervalo de confianza para el valor 1 7,1840353 6,4308025 7,9372681
promedio de Y al 95% de significación: 2 4,4047183 3,9220763 4,8873604
3 5,5958542 5,0809145 6,1107938
>predict(a1,interval="confidence", level = 0.95)
4 6,3899447 5,7741304 7,0057591
5 4,8017636 4,3272468 5,2762805
Corroboraremos lo anterior calculando los Y i ± t 1−/2, n−2 ∙ S Y i y ∙ ∙ ∙ ∙
graficando las curvas: ∙ ∙ ∙ ∙
2 ∙ ∙ ∙ ∙
1 X i− X
Y i Superior , Inferior= b0 b1 ∙ X i± t ∙S para el rango de 46 4,0076731 3,4985194 4,5168267
n ∑ X i− X 2 47 4,0076731 3,4985194 4,5168267
X(15 ; 50). Como b = −7,50664 ; b = 0,39705 ; t= 2.010635; S= 1,669;
0 1
48 4,8017636 4,3272468 5,2762805
49 3,6106278 3,0592219 4,1620337
= 30,92 y ∑ X i − X
n= 50; X 2= 1215,68 , los límites superiores e 50 3,2135825 2,6074666 3,8196984
inferiores del intervalo de confianza para Y i son:
TABLA Nº7
Y i Inf Y i Sup
6,431
3,922
7,938
4,888
Y i Superior , Inferior= −7,506640,39705∙ X i ± 2,010635∙ 1,669 0,02
X i−30,92 2
1215,68
5,081 6,111
5,774 7,006
Introduciendo los datos de X i en la ecuación anterior obtenemos los valores de la
3,499 4,517 tabla Nº7.
∙ ∙
∙ ∙ Grafiquemos estos intervalos haciendo los X i continuos:
∙ ∙
3,499 4,517 >x < seq( 15 ,50,length = 100)
3,499 4,517 >lines(x, 7.50664+0.39705 * x + 2.010635 * 1.669* ((0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3)
4,327 5,277 >lines(x, 7.50664+0.39705 * x 2.010635 * 1.669* ((0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3)
3,059 4,162
2,607 3,820
17
GRÁFICA Nº12
1.5.3 Estimación del intervalo de predicción de los
valores particulares de la variable respuesta.
Un intervalo de predicción para los valores de la variable
respuesta es una región, donde a un nivel de significación
determinado, la variable independiente yace, pero esto,
ampliado a cualquier valor de la variable independiente.
Supongamos que un nuevo valor es observado después
de que la regresión se ha ejecutado. Como la nueva
observación es independiente de las observaciones que se
utilizaron para ajustar el modelo, el intervalo deberá incluir el
error del modelo ajustado y el error asociado con
observaciones futuras, con lo que la varianza de este
estimador será mayor. Los intervalos de predicción para las
observaciones individuales de la respuesta son mas grandes
que los correspondientes intervalos de confianza para la media
de las mismas.
El valor estimado de la variable dependiente es el mismo
que para la estimación del promedio y está dado por
Y i = b0 b 1 X i , pero la varianza incluye la variación de una
observación independiente.
1 2
Xi − X 1 X i− X 2
Var YP = 22 [ 2
]= 2 [1 ] (28)
n ∑ Xi − X n ∑ X i− X 2
1 2
Xi − X
Y así: S Yp = S [ 1 ] (29)
n ∑ Xi − X 2
[ Y p−E Y p ]
Entonces, bajo la teoría normal, (30)
S Y
p
SALIDA Nº9
tiene una distribución t de student con n 2 grados de libertad, por lo que
fit lwr upr para un dado, el intervalo de predicción para la observación Y p
1 7,1840353 3,7456187 10,6224520 será: P[ Y − t
p 1− / 2, n−2 ∙S Yp Y p Y p t1− / 2, n−2 ∙ S Y p] = 1−
2 4,4047183 1,0152800 7,7941570
3 5,5958542 2,2016662 8,9900420
Un intervalo de predicción es análogo a un intervalo de confianza. Uno
4 6,3899447 2,9789953 9,8008940 del 100 1−% para una observación particular Y p es:
5 4,8017636 1,4134728 8,1900540 Y ± t
∙ S Y (31)
p 1− / 2, n−2 p
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ Con la siguiente instrucción obtenemos los valores
∙ ∙ ∙ ∙ numéricos de los límites superior e inferior del intervalo de TABLA Nº8
46 4,0076731 0,6143581 7,4009880 confianza para el valor promedio de Y. Calculémoslo
Y i Inf Y i Sup
47 4,0076731 0,6143581 7,4009880 para nuestro ejemplo:
48 4,8017636 1,4134728 8,1900540
49 3,6106278 0,2107164 7,0105390 3,745 10,623
>predict.lm(a1,interval="prediction", level = 0.95) 1,015 7,795
50 3,2135825 0,1956293 6,6227940
2,201 8,991
2,978 9,802
Los límites superiores e inferiores del intervalo de predicción para Y i son: 1,413 8,191
∙ ∙
18
Análisis de regresión simple
Grafiquemos estos intervalos haciendo los X i continuos (Gráfico Nº13):
>x < seq( 15 ,50,length = 100)
>lines(x, 7.50664+0.39705 * x + 2.010635 * 1.669* ((1+0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3)
>lines(x, 7.50664+0.39705 * x 2.010635 * 1.669* ((1+0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3)
Graficando los intervalos de confianza y de predicción tenemos (Gráfico Nº14):
GRÁFICA Nº13 GRÁFICA Nº14
1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIÓN
1.6.1 El coeficiente de determinación: R 2
Consideremos la ecuación fundamental del análisis de regresión:
Variación Variación Variación
total en Y explicada de Y residual de Y
∑ Yi− Y2 = 2
∑ Y i−Y ∑ Y i−Y i 2 (32)
Suma total Suma de los Suma de los
de los cuadrados cuadrados de cuadrados
la regresión del error
STC SCR SCE /: STC
SCR es la porción de la variación atribuíble a un efecto lineal de X sobre Y y R 2 es la proporción de la
variación en Y explicada por la regresión de Y sobre X.
∑ y i2 = SCR = 1 − ∑ ei2 = 1 − SCE donde:
2
Por otro lado: R =
∑ y i2 STC ∑ y2i STC
y 2i = 2
Y i −Y ∑ ∑
2
0 ≤ R ≤ 1
La ecuación de Todos los puntos
regresión estimada coinciden en la
no explica ninguna línea de regresión
variación en Y
R2 no mide la validez del modelo de regresión propuesto, sino cuanto se explica de la variación total
mediante la ecuación de regresión estimada.
2
R ∙100 nos da el porcentaje en que la ecuación de regresión explica la variación total.
Calculemos R para el siguiente ejemplo. Para esto determinemos primero la suma total de los cuadrados
(STC), la suma de los cuadrados de la regresión (SCR) y la suma de los cuadrados del error (SCE).
19
Ejemplo Nº5: Nivel de pobreza y años de escolaridad para las comunas BASE DE DATOS Nº5
del Gran Santiago (2006)
COMUNA Yi Xi
Diversos estudios han establecido la clara correlación entre el nivel
educativo de las personas con sus ingresos. Santiago 7,3 13,1
En América Latina, los datos históricos son contundentes sobre la incidencia Cerrillos 8,3 10,4
de la educación en la distribución del ingreso. En Brasil, el 10 por ciento de la Cerro Navia 17,5 9,1
Conchalí 8,0 10,1
población con más ingresos gana casi 60 veces más que el 10 por ciento con
El Bosque 15,8 9,7
menos ingresos; en Uruguay, el país con menor desigualdad, esa relación es de 18
∙ ∙ ∙
veces y en México es de 40 veces. Todos los países con menor desigualdad relativa ∙ ∙ ∙
–entre ellos Argentina, a pesar de la concentración del ingreso. son aquellos que ∙ ∙ ∙
hicieron de la expansión educativa una prioridad política por lo menos durante los San Bernardo 20,9 9,7
últimos 50 años. San Joaquín 7,4 10,7
La base de datos Nº5 nos entrega información del % de pobres Yi y los San Miguel 2,5 12,3
San Ramón 16,7 9,6
años de escolaridad X i , para las comunas del gran Santiago al año 2006.
Vitacura 4,4 14,6
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos FUENTES:
asociada y corramos una regresión lineal de la tasa de % de pobres sobre los % de pobres 2006 y a ños de escolaridad 2006:
años de escolaridad. http://www.bcn.cl/siit/comunas_cifras
SALIDA Nº10
>a <read.table('a.txt')
Call: >par(bg = "Ivory 2")
lm(formula = a$V1 ~ a$V2) >plot(a$V2, a$V1, col=3, xlab='Años de escolaridad', ylab='% de población
pobre', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre los años de escolaridad", "y el % de
Residuals: población pobre",
Min 1Q Median 3Q Max sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
6.8335 3.2591 0.2868 2.2141 7.5117 >abline(lm(a$V1~a$V2), lwd=3, col='red')
Coefficients: >a1<lm(a$V1~ a$V2)
Estimate Std. Error t value Pr(>|t|) >summary(a1)
(Intercept) 38.1007 4.5262 8.418 1.28e09 ***
a$V2 2.5477 0.4103 6.210 5.92e07 *** Calculemos la suma total de los cuadrados (STC), la
suma de los cuadrados de la regresión (SCR) y la suma de
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 los cuadrados del error (SCE) (Tabla Nº9).
Ahora calculemos R2 :
Residual standard error: 3.493 on 32 degrees of freedom
Multiple Rsquared: 0.5465, Adjusted Rsquared: 0.5323
SCE 390,376
Fstatistic: 38.56 on 1 and 32 DF, pvalue: 5.921e07 R2 = 1 − = 1 − = 0,546 o bien
STC 860,802
2 SCR 470,436
R= = = 0,546 que coincide con el 0,5465 que obtuvimos en nuestra salida en R.
STC 860,802
GRÁFICA Nº15
TABLA Nº9
20
Análisis de regresión simple
1.6.2 El coeficiente de correlación r.
El coeficiente de correlación mide el grado de asociación entre variables. Supone que tanto X como Y
son variables aleatorias.
Sea la distribución conjunta de X e Y la normal bivariada y sea X1 , Y 1; X 2 , Y 2 ; ...;X n , Yn una muestra
aleatoria de tamaño n de esta distribución. En el caso de dos variables r es:
r X , Y=
∑ X i −X Y i− Y −1 ≤ r ≤ 1 (34)
∑ X i−X 2 ∑ Y i−Y 2
Para nuestro ejemplo:
TABLA Nº10
r X , Y=
∑ X i −X Y i− Y = −184,649
= −0,739 COMUNA Yi Xi Xi− X 2 Y i− Y2 X i− X Y i− Y
∑ Xi−X ∑ Y i−Y 72,478 860,802
2 2
b1=
∑ Yi − Y2
∑ Xi −X 2
∙r ya que
∑ Y i− Y2 ∑ X i− X Y i −Y = ∑ X i− X Y i −Y =
∑ X i− X2 ∑ X i− X 2 ∑ Yi −Y 2 ∑ Xi −X 2
b1 (35)
El cuadrado del coeficiente de correlación es el coeficiente de determinación r= R 2
donde:
r=1: perfecta correlación lineal negativa.
r= 1: perfecta correlación lineal positiva.
Si bien r no indica causalidad o dependencia, no es sólo un medida del grado de asociación lineal entre
dos variables, sino que puede emplearse una función de r como una medida de la bondad del ajuste para una
ecuación estimada de regresión.
r 0 Implica que X e Y se mueven en direcciones contrarias, mientras que r0 Implica que X e Y se
mueven en la misma dirección.
r por sí mismo no puede ni probar ni desmentir una relación causal entre X e Y, aún si r=±1 , lo cual es
sólo posible a través de la comprensión de la relación natural que existente entre X e Y.
1.6.3 Uso del análisis de varianza.
Esta técnica es utilizada para probar la hipótesis nula de que la pendiente es cero, sin embargo, además
permite una comprensión natural del problema, con lo que facilita el análisis de modelos mucho más
complicados que la regresión simple.
El objetivo es que la recta estimada de regresión explique la mayor cantidad posible de la variación total,
por lo que la contribución del término b0 b 1 X i debe ser substancial.
Consideremos la desviación de Y i respecto a Y . Si la magnitud de Y i − Y 0 , esta magnitud
debería atribuirse a las componentes del modelo.
21
Deduzcamos la ecuación fundamental del análisis de varianza:
Y i−Y
= Yi − Y Yi − Y i / 2 Yi − Y
Y i − Y i = Y i − Y 2 = Y i − Y 22 Y i − Y
Y i− Y i Y i − Y i 2 / ∑
∑ Y i −Y 2= ∑ Y i −Y 22 ∑ Y i − Y Yi −Y i ∑ Yi −Y i 2 Pero ya que ∑ Y i −Y Y i −Y i = 0 puesto que
∑ Y −Y Y −Y = ∑ Y Y −Y −Y ∑ Y −Y = ∑ Y Y − Y (ya hemos visto que la segunda expresión es 0) y
i i i i i i i i i i i
∑ Yi −Y 2= ∑ Y i− Y 2 ∑ Y i− Y i 2
STC SCR SCE
Suma total de Suma de los Suma de los
los cuadrados cuadrados de cuadrados del
la regresión error
SCR representa la variación de la observación que es atribuible al efecto lineal de X sobre Y. Si la
pendiente de la recta estimada de regresión es cero, entonces SCR=0
SCE es la variación de las observaciones con respecto a la recta de regresión estimada. Si todas las
observaciones se encuentran sobre esta recta, SCE=0
GRÁFICA Nº16
Grados de libertad.
Para STC es n1, para SCE es n2 y y como los grados de
libertad son aditivos:
gl (SCR) = gl(STC) gl(SCE) lo que implica que el grado
de libertad de SCR es 1.
1.6.4 La estadística F
Por lo anterior, puede demostrarse que:
SCR SCE
y son dos variables aleatorias independientes con una distribución 2 con 1 y n2
2 2
grados de libertad respectivamente. De esta manera, la variable aleatoria:
SCR/ 2
1 SCR / 1 CMR
= = = F (36)
SCE/ 2 SCE/n−2 CME
n−2
tiene una distribución F con 1 y n2 grados de libertad.
(CMR: Cuadrado medio de la regresión; CME: Cuadrado medio del error.) Notemos que el cuadrado
medio del error es igual a la varianza residual.
22
Análisis de regresión simple
Tabla ANOVA para el modelo lineal simple:
TABLA Nº11
Fuente de Grado de Suma de los Cuadrados
F
variación libertad Cuadrados Medios
∑ Y i− Y2 ∑ Y i− Y2
Regresión 1 ∑ Y i− Y2
∑ Y i− Y i2 /n−2
Tabla ANOVA para nuestro ejemplo:
TABLA Nº12
Fuente de Grado de Suma de los Cuadrados
F
variación libertad Cuadrados Medios
Total 33 860,802
SALIDA Nº13
Analysis of Variance Table
Aplicación en R: Response: a$V1
Df Sum Sq Mean Sq F value Pr(>F)
>anova(a1)
a$V2 1 470.43 470.43 38.562 5.921e07 ***
Residuals 32 390.38 12.20
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
23
Existe una relación entre F con 1 y n1 grados de libertad y la correspondiente estadística t de student
para una hipótesis alternativa bilateral.
Considerando que la recta estimada es: Y i = Y b1 X i − X = b1 X i − X / ∑ 2
Y i − Y
2 2 2 2 2
∑ Y i −Y = b1 ∑ X i −X SCR= bi ∑ Xi − X
2 S2 CME SCE/ n−2
y que por otro lado: S b1 = = = (pues el cuadrado medio del error es
∑ X i− X 2 ∑ Xi −X 2 ∑ X i −X 2
igual a la varianza residual) tenemos que nuestra estadística F es:
CMR SCR/1 b2 ∑ X i− X
2 / 1 b1 2
F= = = 21 = Verifiquemos esto en nuestro ejemplo: (37)
CME SCE/n−2 S b1 ∑ Xi − X 2 S b1
b 1 2 −2,5477 2
Tenemos que: S b1= 0,4103 y b1= −2,5477 por lo tanto = = 38,556
Sb 1 0,4103
De acuerdo con lo anterior, si una variable aleatoria tiene una distribución F con 1 y n2 grados de
libertad, entonces: F= t2 Donde t es una variable aleatoria t de student con n2 grados de libertad. La relación
En nuestro ejemplo t para b es 6.210, Así t 2= 38,564
2
es: F = t
1− , 1,n−2 1− / 2, n−2 1 (38)
Consideremos todos los estimadores no sesgados de b0 y b1 ( b0 y b1 ) los cuales son
combinaciones lineales de las observaciones Y 1, Y 2 , ..., Y n . Si entre todos estos estimadores existen algunos
cuyas varianzas son las más pequeñas de entre todos los demás estimadores no sesgados de b0 y b1 , éstos
son denominados los mejores estimadores lineales insesgados (MELI) de b0 y b1 . Ahora, bajo los 10 supuestos
requeridos y expuestos al inicio de este capítulo, los estimadores por MCO son los MELI. Lo anterior es conocido
como el teorema de GaussMarkov y representa la justificación más importante para usar MCO.
1.7.1 Sesgo.
GRÁFICA Nº17
Esto es:
E b=b (39)
El sesgo es definido como la diferencia entre el valor esperado
del estimador y el parámetro verdadero, así:
sesgo=E b−b (40)
GRÁFICA Nº18
1.7.2 Eficiencia.
El estimador eficiente o mejor insesgado se refiere al que tiene
la menor varianza de entre los estimadores insesgados. Otra manera de
decir esto es que un estimador eficiente tiene el menor intervalo de
confianza y está más cercano a ser estadísticamente significativo que
cualquier otro estimador.
La gráfica Nº18 muestra la distribución de dos estimadores
insesgados, uno de los cuales es eficiente:
El estimador por MCO es frecuentemente usado porque es el
mejor estimador lineal insesgado, esto es, entre todos los estimadores
lineales insesgados, es el que tiene la menor varianza. Sin embargo, los
estimadores no lineales pueden ser superiores a los MCO.
24
Análisis de regresión simple
1.7.3 Consistencia.
GRÁFICA Nº19
Un estimador es considerado consistente cuando ocurre que:
2 Cuando el tamaño de la muestra se aproxima al infinito en el
límite, la distribución muestral del estimador debe colapsar o
hacerse una línea vertical de altura 1 sobre el valor del parámetro
verdadero.
1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE
Y 1 = b0 b 1 X 1 1
Y 2 = b0b 1 X 2 2
Y i =b0b 1 X i i i=1,2 ,... ,n son n ecuaciones lineales de la forma:
Y n = b0b 1 X n n
Si definimos:
[] [ ] [ ]
Y1 1 X1 b 0 b1 X 1
Y
Y= 2
⋮
Yn
; X=
1 X2
⋮ ⋮
1 Xn
; b=
[]
b0
b1
; entonces: Y = X b=
b 0 b1 X 2
⋮ ⋮
b 0 b1 Xn
Si asumimos la presencia de la normalidad, es un vector de variables aleatorias normales tales que:
2
E =0 ; Var = I Donde:
I : vector de identidad
2 : varianza del error constante.
Las ecuaciones normales son:
∑ Yi =n b0b1 ∑ X i
∑ Xi Yi =b0 ∑ X i b 1 ∑ X i 2 lo que expresado en términos matriciales resultaría:
[ ] [ ] [∑
∑ Yi
∑ Xi Yi
=
b 0
b1
n
Xi
∑ Xi
∑ X 2i ] notemos que: (41)
[ ]
1 X1
[∑n
Xi
∑ Xi
∑ X 2i ] [
=
1 1 ... 1
X 1 X 2... Xn
X1 X 2 ... X n
X21 X 22 ... X 2n ] [
=
1
X1
1 ⋯ 1
X2 ⋯ Xn ] 1 X2
⋮ ⋮
1 Xn
= X ' X
[]
Y1
Además notemos de que:
[ ] [
∑ Yi
∑ Xi Yi
=
Y 1Y 2...Y n
X1 Y 1X 2 Y 2... Xn Y n ] [
=
1
X1
1 ⋯ 1
X2 ⋯ Xn ] Y2
⋮
Yn
= X ' Y
25
Tenemos entonces que las ecuaciones normales en forma matricial son: X ' X b= X' Y
I b= X ' X−1 X ' Y y el vector de parámetros estimados queda entonces como:
b= X ' X−1 X' Y (42)
Y la ecuación de regresión queda: Y = X b (43)
26
Análisis de regresión múltiple
El análisis de regresión múltiple (ARM) se utiliza para comprender la influencia de dos o más variables
independientes X ki sobre una variable dependiente Y i . Es el caso general del ARS.
El modelo de regresión lineal con dos regresores puede escribirse como sigue:
Y i = b0 b 1 X 1i b2 X 2ii i= 1,2,... , n (44)
En términos generales: sean [ X 1i , X 2i , ... , X ki ] k variables de predicción y Y i la iésima observación
respuesta asociada a ellas, i el error aleatorio no observable asociado con Y i y [ b 0 , b1 , ..., bk ] k
parámetros lineales desconocidos. Entonces el modelo de regresión lineal múltiple (de primer orden) para k
variables de predicción independientes es:
Y i = b0 b 1 X 1i b2 X 2i...bk X kii i= 1,2,... , n (45)
Y 1= b 0b1 X 11b2 X 21...bk X k11
Y 2= b 0b1 X 12b2 X 22...bk X k2 2
.
Lo anterior es una forma abreviada de la expresión:
.
.
Y n = b0 b 1 X 1n b2 X 2n...bk X knn
Si suponemos presencia de normalidad, las Y i son variables aleatorias independientes con medias y
varianzas: E Y i = b0b 1 X 1i ...b k X ki Var Y i = 2 i= 1,2,... , n (46)
2
y los errores aleatorios i se distribuyen según una curva normal N 0, siendo independientes
los unos de otros.
Los parámetros bk representan el cambio en la respuesta promedio para un cambio igual a una
unidad de la correspondiente variable de predicción X ki , cuando todos los demás regresores se mantienen
constantes. bk representa el efecto parcial de X ki sobre la respuesta.
Si por ejemplo estamos en presencia de un modelo: Y i = b0 b 1 X 1i b2 X 2ib 3 X 1i X 2i i , b3 refleja la
influencia sobre la variable respuesta ejercida por la interacción entre X 1i y X 2i .
El modelo lineal general necesita sólo una restricción funcional: que sea lineal en los parámetros
desconocidos.
Así surgen muchas alternativas de modelos. Por ejemplo, si se define: X 3i = X1i X 2i i= 1,2,... , n la
ecuación Y i = b0 b X
1 1i b X
2 2ib X X
3 1i 2i i puede reescribirse como un modelo de primer orden:
Y i = b0 b 1 X 1i b2 X 2ib3 X 3i i .
j
Otro caso se da cuando X ji= Xi i= 1,2,... , n j= 1,2,... , k . Así el modelo lineal general toma la
forma:
Y i = b0 b 1 X i b2 X 2i ...bk Xki i que es llamado modelo polinomial. (47)
En el modelo polinomial lo que se busca es el grado k que mejor se ajusta la curva de regresión.
Muchas veces el modelo más preciso es el que incluye estas dos características, la forma polinomial y la
interacción entre las múltiples variables de predicción. Por ejemplo, para 2 variables de predicción tenemos:
Y i = b0 b 1 X 1i b2 X 2ib 3 X 21i b4 X 22i b 5 X1i X 2ii (48)
que se denomina ecuación completa de segundo orden.
Para k≥2 variables de predicción distintas, una ecuación de regresión completa de segundo orden
k k−1
consiste en un término constante, k términos lineales, k términos cuadráticos y términos de interacción.
2
Para el ARM existe un supuesto adicional que para el análisis de regresión simple: no debe existir una
relación lineal exacta entre las X i , pues de lo contrario las ecuaciones que constituyen el sistema de
ecuaciones normales construido por MCO no son independientes.
Si dos o más X i están alta pero no perfectamente correlacionados, los b i pueden ser calculados por
MCO pero los efectos de cada X k respecto a Y no pueden ser aislados.
27
2.1.1 Obtención de los estimadores por MCO de los parámetros con dos variables independientes o
explicativas.
El método de MCO para obtener los parámetros estimados en el ARM opera, al igual que en el ARS,
minimizando la suma del cuadrado de los residuos:
2 2
∂ ∑ ei ∂ ∑ Y i −b0− b1 X 1i− b2 X 2i
2 = = 0 −2 ∑ X1i Yi −b0 −b 1 X 1i − b2 X 2i = 0
∂ b 1
∂ b 1
Para el caso del análisis de regresión múltiple con dos variables independientes, b0 es el término
constante de la intersección de la regresión y está dado por el valor estimado para Y i cuando X 1i = X 2i = 0 .
b1 mide el cambio en Y i para cada cambio de 1 unidad en X 1i , mientras X 2i se mantiene constante. El
parámetro b1 es un coeficiente de regresión parcial porque corresponde a la derivada parcial de Y con
∂Y
respecto a X 1i . El caso de b2 es análogo a b1 .
∂ X 1i
Al expresar las ecuaciones normales en forma de desviación podemos obtener los parámetros estimados
un poco más fácilmente:
Tenemos que Y i = b0 b 1 X 1i b2 X 2i y Y = b0 b1 X
1 b2 X 2 , definamos y i y y i :
y i = Yi −Y = b 1 X 1i − X 2 o lo que es lo mismo y i = b1 x1i b2 x2i y y i = Yi −Y
1 b2 X 2i − X (53)
Por otro lado e i = y i − y i = y i − b1 x1i −b 2 x 2i . Entonces la suma del cuadrado de los residuos es:
∑ e 2i = ∑ yi−b1 x1i −b2 x2i 2 (54)
Los parámetros estimados se obtienen derivando la expresión anterior respecto a b1 y b2 e
igualando a 0:
1.
∑ e 2 ∑ yi−b1 x1i −b2 x2i 2 = 0
∂ i= ∂ −2 ∑ x1i y i−b1 x1i − b2 x2i = 0
∂b 1
∂ b 1
b1=
∑ x1i y i −b2 ∑ x1i x2i
∑ x 1i y i= b 1 ∑ x21i b2 ∑ x1i x2i Primera ecuación normal (55)
∑ x 21i
2. ∂
∑ e 2i = ∂ ∑ yi−b1 x1i −b2 x2i 2 = 0 −2 ∑ x2i y i −b 1 x 1i− b2 x2i = 0
∂ b2 ∂ b2
b2=
∑ x 2i yi−b1 ∑ x1i x2i
∑ x 2i y i= b2 ∑ x 22i b1 ∑ x1i x 2i Segunda ecuación normal (56)
∑ x22i
∑ x1i y i −b2 ∑ x1i x2i
Sustituyamos b1= en ∑ x 2i y i= b2 ∑ x 22i b1 ∑ x1i x 2i y obviemos los subi:
∑ x 21i
28
Análisis de regresión múltiple
b2 ∑ x22
∑ x1 y −b 2 ∑ x 1 x 2 x x
∑ x2y = ∑ 1 2 ∑ x 2 y ∑ x21= b2 ∑ x 22 ∑ x 21 ∑ x 1 y− b2 ∑ x1 x2 ∑ x1 x2
∑ x21
2
b2=
∑ x 2 y ∑ x21−∑ x 1 y ∑ x1 x2
∑ x 2 y ∑ x = ∑ x1 y ∑ x1 x2 −b2 [∑ x1 x2 ∑ x21 ∑ x22 ]
2
1
Y así: 2 (57)
∑ x21 ∑ x 22− ∑ x1 x2
∑ x 2i y i−b1 ∑ x1i x2i
Sustituyamos b2=
2
2 en ∑ x 1i y i= b 1 ∑ x1i b2 ∑ x1i x2i y obviemos los subi:
∑ 2i x
2 ∑ x 2 y− b1 ∑ x 1 x2 2
∑ x 1 y= b 1 ∑ x1 2
∑ x1 x2 ∑ x 1 y ∑ x22= b 1 ∑ x12 ∑ x22 ∑ x2 y ∑ x 1 x 2−b1 ∑ x1 x 2
∑ 2 x
2 2 2 2 b ∑ x1 y ∑ x 22−∑ x 2 y ∑ x1 x2
∑ x 1 y ∑ x2= ∑ x2 y ∑ x 1 x2 −b 1 [ ∑ x1 x2 −∑ x1 ∑ x2 ] Y así: 1 = 2 (58)
∑ x 21 ∑ x 22− ∑ x1 x2
Hacer estos cálculos suele ser un proceso engorroso. El álgebra de matrices simplifica enormemente la
situación. Así, lo anterior usando matrices en R se puede resumir con las siguientes instrucciones:
>a < read.table('a.txt')
>am<as.matrix(a)
>x< cbind(1, am[,2],am[,3],am[,4])
>y<cbind(am[,1])
>xt < t(x)
>b<solve(xt%*%x)%*%xt%*%y
>b
Más adelante aplicaremos estas instrucciones en el ejemplo Nº6.
2.1.2 Desarrollo de técnicas de regresión para el ARM utilizando el álgebra de matrices.
[] [ ] [] []
Y1 1 X11 X 21 ⋯ X k1 b0 1
Y = Y2 X= 1 X12 X 22 ⋯ X k2 b= b1 = 2
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
Yn 1 X 1n X 2n ⋯ X kn bk n
Si suponemos presencia de normalidad:
Y N Xb, 2 I y N 0, 2 I donde: Var Y= Var= 2 I (60)
1 Matrices de sólo una columna.
29
Es así que la ecuación estimada de regresión es: Y = X b (62)
2.1.3 Ejemplo y trabajo con matrices en R.
Ejemplo Nº6: Regresión lineal de los años de escolaridad sobre el % de pobreza, el resultado del
SIMCE en matemáticas para los segundos medios y el % de desocupación para las comunas de Santiago el año
2006.
Los años de escolaridad son un indicador importante del nivel BASE DE DATOS Nº6
de progreso cultural y económico de una sociedad. Suponemos que COMUNA
Yi X 1i X 2i X 3i
existen diversos factores que influyen en que una persona continúe sus
estudios o los detenga, entre otros, el nivel de pobreza, los resultados Santiago 13,1 7,3 283 6,2
académicos a nivel de enseñanza media y el porcentaje de Cerrillos 10,4 8,3 259 9,3
desocupación en una población. Cerro Navia 9,1 17,5 215 9,4
La base de datos Nº6 nos entrega información de los años de Conchalí 10,1 8,0 236 4,9
escolaridad Yi , el % de población pobre X1i , los resultados de El Bosque 9,7 15,8 231 10,3
∙ ∙ ∙ ∙ ∙
la prueba SIMCE en matemáticas para los 2º medios X 2i y el % de ∙ ∙ ∙ ∙ ∙
desocupación X 3i para las comunas del gran Santiago el año 2006. ∙ ∙ ∙ ∙ ∙
San Bernardo 9,7 20,9 246 8,6
San Joaquín 10,7 7,4 233 7,4
San Miguel 12,3 2,5 237 4,6
Aplicaremos una regresión lineal de los años de escolaridad
San Ramón 9,6 16,7 245 7,9
sobre las variables ya enunciadas. Vitacura 14,6 4,4 325 3,2
FUENTE:
Obtengamos los coeficientes de la regresión: Años de escolaridad, % de población pobre,
resultados simce en matemáticas para los 2º medios y % desocupados al 2006:
http://www.bcn.cl/siit/comunas_cifras
SALIDA Nº14 >a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3+a$V4))
Call: >summary(a1)
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Con lo que nuestra ecuación de regresión múltiple
Residuals: queda como:
Min 1Q Median 3Q Max
1.7851 0.3802 0.0646 0.3693 1.1437 Y i = 7,004−0,112∙ X 1i 0,025∙ X 2i −0,152X 3i
−4,089 5 −2,251
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.004017 1.572577 4.454 0.000108 *** Probemos la significación estadística de nuestros
a$V2 0.111553 0.027281 4.089 0.000299 *** parámetros estimados:
a$V3 0.024663 0.004933 5.000 2.33e05 *** Para un 95% de significación2 y con 30 grados de libertad
a$V4 0.151626 0.067370 2.251 0.031895 * (nk= 344= 30), calculando con R obtenemos:
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 >qt(0.975,30)
[1] 2.042272
Residual standard error: 0.6573 on 30 degrees of freedom
Multiple Rsquared: 0.8212, Adjusted Rsquared: 0.8033
Fstatistic: 45.91 on 3 and 30 DF, pvalue: 2.504e11
Por lo que nuestros tres coeficientes son significativos al
95%.
Calcularemos ahora los parámetros estimados utilizando el álgebra de matrices en R, esto es,
Construimos la matriz X. Para esto convertimos el data.frame que se forma mediante la instrucción
read.table en una matriz con la instrucción as.matrix y añadimos una primera columna de 1's, tal como hemos
2 Hacemos un test de dos colas, con lo que 1− = 1 – 0,05/2 = 0,975.
2
30
Análisis de regresión múltiple
definido nuestra matriz X:
>am<as.matrix(a)
>x< cbind(1, am[,2],am[,3],am[,4])
Construimos la matriz Y:
>y<cbind(am[,1])
Calculamos la transpuesta de X:
>xt < t(x)
Y conociendo que la inversa de una matriz la obtenemos con la instrucción solve, la expresión
X ' X−1 X ' Y tiene su equivalente en R como sigue:
b=
SALIDA Nº 15
>b<solve(xt%*%x)%*%xt%*%y
[,1]
Y llamamos al objeto b, obteniendo (Salida nº15): [1,] 7.00401718
[2,] 0.11155272
>b [3,] 0.02466273
Que como vemos coincide con los resultados ya obtenidos. [4,] 0.15162602
2.2 INTERVALOS DE CONFIANZA
2
2.2.1 La varianza residual: S
Y ' Y −b ' X ' Y
La varianza residual en términos matriciales se define como: S 2 = (63)
n−k
X ' Y es la suma del cuadrado de los residuos y nk es igual al
donde de manera análoga al ARS, Y ' Y− b'
número de observaciones menos el número de parámetros que figuran en el modelo.
Según R, el error standard residual del ejemplo Nº6 es: 0,6573.
Según la forma algebraica S 2=
∑ e 2i 2
. Verifiquémoslo: S =
12,963
= 0,432 con lo que S= 0,657
n−k 34−4
Calculemos lo mismo pero en forma matricial con R:
TABLA Nº13
∑ e 2i = 12,963
SALIDA Nº16
3 R también es una calculadora.
31
y SALIDA Nº17
2.2.2 La varianza de los parámetros estimados
Como vemos, todas las desviaciones standard de los parámetros estimados coinciden con los
entregados por R.
2.2.3 Los valores t de los parámetros estimados.
b j −b j
para j= 0,1,2,... , k (65)
Sb j
es una variable aleatoria t de student con nk grados de libertad.
La estadística apropiada para probar la hipótesis nula: H0 : b j =0 contra cualquier hipótesis alternativa,
b j −b j b j
es la t de student: t= para j= 0,1,2,... , k con nk grados de libertad.
Sb j S b j
Calculemos y observemos que coinciden los valores obtenidos con R:
4 Para evitar errores de redondeo utilizaremos 8 decimales.
32
Análisis de regresión múltiple
2.2.4 Construcción de los intervalos de confianza para los parámetros estimados.
b0 ±t ∙ Sb0=
1−
0,05
, 30 7,00401718±2,042272∙ 1,57257658= [ 3,792 ;10,216 ]
2
>confint(a, level= 0.95)
2,5% 97,5%
(Intercept) 3,79238725 10,21564712
a$V2 0,16726880 0,05583663
Vemos que ambos resultados coinciden. a$V3 0,01458882 0,03473665
a$V4 0,28921469 0,01403736
2.3 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
Es definido como la proporción de la variación total en Y i explicada por la regresión múltiple de Y
sobre X 1i y X 2i (para el caso de dos variables independientes) y se calcula de la siguiente manera:
Establezcamos las variables en forma de desviación:
xi = X i − X
R2 = 1−
∑ e2i
Sean: y i = Yi − Y y
2 2
R se define como 0≤ R ≤ 1 (67)
y i = Y i − Y
∑ y2i
Existen varias equivalencias:
R2 =
∑ Y i −Y 2 = ∑ y2i = SCR
= 1−
∑ Yi −Y i 2 = 1− SCE = b1 ∑ Y X 1b 2 ∑ Y X 2 (68)
∑ Yi −Y 2 ∑ y 2i STC ∑ Y i −Y 2 STC ∑ Yi2
Demostremos la última relación por ser la menos evidente:
33
La inclusión de variables independientes adicionales probablemente incremente el valor SCR para el
mismo STC lo que hace que R2 aumente.
R2 mide la proporción de la variación total de las observaciones con respecto a su media, atribuible a
la ecuación de regresión estimada.
Por si solo, R 2 no puede validar el modelo propuesto, como tampoco un R2 ≈ 1 implica
necesariamente que la ecuación de regresión estimada sea apropiada para predecir.
TABLA Nº14
Para nuestro ejemplo:
COMUNA Yi X 1i X 2i X 3i Y i Y i− Y2 Y i− Y i 2 Y i− Y2
Tenemos entonces que: Santiago 13,1 7,3 283 6,2 12,229 1,674 0,758 211,785
R2 =
∑ yi2 = SCR = 1− SCE equivale Cerrillos 10,4 8,3 259 9,3 11,056 0,015 0,430 53,816
Cerro Navia 9,1 17,5 215 9,4 8,929 4,025 0,029 186,898
∑ yi2 STC STC Conchalí 10,1 8,0 236 4,9 11,189 0,064 1,186 84,227
para nuestro ejemplo a: El Bosque 9,7 15,8 231 10,3 9,377 2,429 0,104 125,055
59,516 12,963 ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
= 1− = 0,821 que ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
72,477 72,477 ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
coincide con el valor entregado por R. San Bernardo 9,7 20,9 246 8,6 9,436 2,249 0,070 125,055
San Joaquín 10,7 7,4 233 7,4 10,803 0,018 0,011 23,585
San Miguel 12,3 2,5 237 4,6 11,873 0,879 0,183 134,608
San Ramón 9,6 16,7 245 7,9 9,986 0,902 0,149 135,312
Vitacura 14,6 4,4 325 3,2 14,043 9,661 0,310 353,041
2.3.1 2
R 2 ajustado o R
2
2= 1− 1−R n−1 = 1− 1−0,821 33 = 0,803 que coincide con el resultado
Para nuestro ejemplo: R
n−k 30
de R cuadrado ajustado entregado por R.
2 es:
El rango de valores para R
n−1
cuando k=1, = 1 y R2 = R
2 ;
n−k
n−1
cuando k>1, 1 y R2 R
2 ;
n−k
n−1
cuando n es grande, frente a un k dado, ≈ 1 y R2 ≈ R
2 y
n−k
2
cuando k es grande en relación a n, R será mucho menor que R2 , pudiendo incluso ser negativo.
2
(aún cuando 0≤ R ≤ 1 )
2
La suma del cuadrado de los residuos ∑ e i , requerido para realizar los test de significación, puede
2 b1 ∑ Y i X 1i b2 ∑ Y i X 2i ∑ e2i
ser determinado sin antes encontrar Y i : Siendo R = , como R2
= 1− ;
∑ Y 2i ∑ y2i
∑ e 2i = 1−R 2 ∑ y 2i Este método implica muchos menos cálculos que utilizando Y i .
34
Análisis de regresión múltiple
2.4 PREDICCIÓN
2.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de predicción toman
los valores específicos [1, X 1i , X 2i , ∙∙∙ , X ki ]
Si X es la matriz de los valores de las variables independientes, la cual da origen a la ecuación de
regresión estimada, entonces un vector particular X i se puede denotar como [1, X 1i , X 2i , ∙∙∙ , X ki ] .
La respuesta promedio estimada Y i= X i b será por lo tanto: b0 b 1 X 1 b 2 X 2... b k X k y la estimación
2 ' '
de la varianza real Var Y i= I será: S 2 ∙ [X i X X X i] donde S 2 es , como ya hemos visto, la varianza
−1
residual.
Asumiendo normalidad, un intervalo de confianza del 1001− % para la respuesta promedio en
X i es: Y i ±t 1− , n−k S ∙
[ X'i X ' X−1 Xi ] (70)
2
2.4.1.1 Cálculo de los intervalos de confianza usando el álgebra de matrices con R.
La expresión que buscamos es: Y i ±t1− , n−k S ∙ [ X X X
'
i
' −1
Xi ] . Consideremos el siguiente ejemplo:
2
Ejemplo Nº7: El índice de desarrollo humano
El índice de desarrollo humano (IDH) mide el nivel que ha alcanzado un país en tres indicadores básicos
de bienestar: una vida larga, educación (ponderado en dos tercios la tasa de alfabetización y un tercio el
promedio de las tasas brutas de matrícula primaria, secundaria y terciaria) y un nivel de vida digno, medido por el
PIB per cápita5 (estandarizado en paridad de poder adquisitivo en dólares norteamericanos). El valor de cada
componente se expresa como un valor entre 0 y 1 y se calcula el IDH como el promedio simple de estos
indicadores.
La base de datos Nº7 nos entrega los valores de la espectativa de vida al nacer en años Yi , el PIB
PPA per capita (US$) X1i , y el índice de educación X 2i para 175 países al 2007.
Ejecutemos una regresión lineal de la espectativa de vida al nacer sobre el PIB PPA per capita y el índice
de educación.
SALIDA Nº20 BASE DE DATOS Nº7
Call: PAÍS Yi X 1i X 2i
lm(formula = a$V1 ~ a$V2 + a$V3)
Afghanistan 43,6 1054 0,35
Residuals: Albania 76,5 7041 0,89
Min 1Q Median 3Q Max Algeria 72,2 7740 0,75
21.344 2.199 1.216 3.632 12.576 Angola 46,5 5385 0,67
Argentina 75,2 13238 0,95
Coefficients: ∙ ∙ ∙ ∙
Estimate Std. Error t value Pr(>|t|) ∙ ∙ ∙ ∙
(Intercept) 3.680e+01 2.283e+00 16.120 < 2e16 *** ∙ ∙ ∙ ∙
a$V2 1.794e04 3.701e05 4.847 2.79e06 *** Vanuatu 69,9 3666 0,73
a$V3 3.665e+01 3.107e+00 11.794 < 2e16 *** Venezuela 73,6 12156 0,92
Viet Nam 74,3 2600 0,81
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Yemen 62,5 2335 0,57
Zambia 44,5 1358 0,68
Residual standard error: 6.07 on 172 degrees of freedom FUENTE:
Multiple Rsquared: 0.6573,Adjusted Rsquared: 0.6533 http://hdrstats.undp.org/es/indicators
Fstatistic: 164.9 on 2 and 172 DF, pvalue: < 2.2e16
>a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1)
5 Se ajusta el ingreso debido a que para lograr un nivel digno de desarrollo humano no se requiere un ingreso ilimitado. En consecuencia, se utiliza
su logaritmo.
35
Nuestra ecuación de regresión múltiple queda como:
Calculemos la estadística t al 95% de significación:
>qt(0.975,172)
[1] 1.973852
Con lo que nuestros parámetros estimados son estadísticamente significativos al 95%.
SALIDA Nº21
Obtengamos los valores de
[ X'i X ' X−1 Xi ] utilizando el álgebra de matrices en R. El
[ X X X
' ' −1
Xi ]
resultado de estas operaciones lo obtenemos en la salida Nº21. i
0,2104009
>a < read.table('a.txt') 0,1066846
>am<as.matrix(a) 0,0802109
>x< cbind(1, am[,2],am[,3]) 0,0928063
>xt < t(x)
0,1091066
>sqrt(x%*%solve(xt%*%x)%*%xt)
∙
>ad<diag(sqrt(x%*%solve(xt%*%x)%*%xt))
∙
>adt<t(ad)
>adt ∙
0,0889951
0,1010908
Y conociendo que la inversa de una matriz la obtenemos con la instrucción solve, la
0,1016238
X ' X−1 X ' Y tiene su equivalente en R como sigue:
expresión b= 0,1215859
Hemos obtenido que t 1− 0.05 , 172= 1.973852 y de la salida de R S= 6,07 0,0975262
2
En la tabla Nº15 hemos hecho los cálculos para obtener algebraicamente los valores de los intervalos de
confianza para la variable respuesta estimada Y i :
TABLA Nº15
PAÍS Yi X 1i X 2i Y i [ X X X
' ' −1
Xi ] Y i −t
S [ X 'i X ' X− 1 X i ] Y i t
S [ X 'i X ' X−1 X i ]
i
1− ,n −k 1− ,n −k
2 2
La instrucción en R para obtener los intervalos de confianza bajo el contexto de un ARM al 95% de
confianza es: predict.lm(a1,interval="confidence", level = 0.95)
Comparemos con los resultados que ya hemos obtenido previamente:
>a< read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3))
>predict.lm(a1,interval="confidence", level = 0.95)
2.4.2 Intervalo de predicción para la respuesta particular cuando las k variables de predicción toman
los valores específicos [1, X 1i , X 2i ,∙ ∙∙ , X ki ]
Si X es la matriz de los valores de las variables independientes, la cual da origen a la ecuación de
regresión estimada, entonces un vector particular X i se puede denotar como [1, X 1i , X 2i , ∙∙∙ , X ki ] .
36
Análisis de regresión múltiple
[1X X X
'
i
' −1
X i] (71) ∙
171
∙
64,20817
∙
63,14185
∙
65,27450
172 72,69461 71,48336 73,90586
2.4.2.1 Cálculo de los intervalos de predicción usando el álgebra 173 66,94889 65,73125 68,16653
de matrices con R. 174 58,10550 56,64868 59,56233
175 61,96166 60,79312 63,13021
La expresión que buscamos es: Y i ±t1− , n−k S ∙ [1X X X
'
i
' −1
X i] . SALIDA Nº23
2
Obtengamos los valores de
[1X 'i X ' X −1 X i] utilizando el álgebra de matrices en R.
[ 1X X X
'
i
' −1
Xi ]
El resultado de esta operación lo obtenemos en la salida Nº23.
1,0218950
>a < read.table('a.txt') 1,0056750
>am<as.matrix(a) 1,0032120
>x< cbind(1, am[,2],am[,3]) 1,0042970
>xt < t(x) 1,0059350
>sqrt(1+x%*%solve(xt%*%x)%*%xt) ∙
>ad<diag(sqrt(1+x%*%solve(xt%*%x)%*%xt)) ∙
>adt<t(ad) ∙
>adt 1,0039520
En la tabla Nº16 hemos hecho los cálculos para obtener algebraicamente los valores de 1,0050970
los intervalos de predicción para la variable respuesta estimada Y i : 1,0051500
1,0073640
1,0047440
TABLA Nº16
PAÍS Yi X 1i X 2i Y i [ 1X X X
'
i
' −1
−1
' ' −1
X i ] Y i −t1− ,n −k S [1X i X X X i ] Y i t1− ,n −k S [1X i X X X i ]
' '
La instrucción
2 2
en R para obtener
Afghanistan 43,6 1054 0,35 49,963 1,022 37,720 62,207 los intervalos de
Albania 76,5 7041 0,89 70,535 1,006 58,486 82,584 confianza bajo el
Algeria 72,2 7740 0,75 65,603 1,003 53,583 77,623
contexto de un
Angola 46,5 5385 0,67 62,212 1,004 50,179 74,244
Argentina 75,2 13238 0,95 73,846 1,006 61,793 85,898 ARM al 95% de
∙ ∙ ∙ ∙ ∙ ∙ ∙ confianza es:
∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙
Vanuatu 69,9 3666 0,73 64,139 1,004 52,110 76,168
Venezuela 73,6 12156 0,92 72,735 1,005 60,693 84,778
Viet Nam 74,3 2600 0,81 66,953 1,005 54,910 78,996
Yemen 62,5 2335 0,57 58,256 1,007 46,186 70,326
Zambia 44,5 1358 0,68 62,039 1,005 50,001 74,077
SALIDA Nº24
37
2.5 EL TEST DE SIGNIFICACIÓN GENERAL DE LA REGRESIÓN: LA ESTADÍSTICA F
2.5.1 La estadística F.
La significación global para la regresión puede ser probada con la proporción de varianza explicada
respecto a la inexplicada. Ésta sigue una distribución F con (k1) y (nk) grados de libertad donde:
∑ y 2i R2
k−1 k−1 demostremos la última igualdad. (72)
Fk−1, n−k= 2
= 2
∑ i
e 1−R
n−k n−k
xi = X i −
X
Consideremos las variables en forma de desviación: y i = Yi − Y
y i = Yi − Y
2
2
∑ y i ∑ i n−k
y
R2
2 2
k−1 ∑ y i n−k = ∑ y i R2 n−k k−1
Resulta así que: = = =
∑ e i ∑ e i k−1 ∑ ei k−1 1−R2 k−1 1−R2
2 2 2
n−k ∑ y 2i n−k
2 2
2 ∑ y i = SCR SCE ∑ e i = 1−R 2
Recordemos que: R = 2 y =
∑ yi STC STC ∑ y 2i
donde:
n: número de observaciones.
k: número de parámetros estimados.
Se establece el siguiente set de hipótesis: H0 : b 1= b2 = ...= bk = 0
La hipótesis nula H0 implica que ninguna de las variables independientes ayuda a explicar la variación
de la variable dependiente (referida a su media).
La hipótesis alternativa resulta entonces H1 : bi ≠ 0 al menos para un valor de bi
Un valor alto de F sugiere una relación significativa entre la variable dependiente y las independientes, lo
que nos lleva a rechazar H0 .
Fórmulas para las varianzas explicada e inexplicada (esta última también llamada varianza residual):
Varianza Explicada:
∑ Y i −Y 2 = SCR
=
∑ y 2i (73)
k−1 k−1 k−1
Varianza Inexplicada:
∑ Yi −Y i 2 = SCE
=
∑ e 2i (74)
n−k n−k n−k
Ejemplo Nº8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU
El embarazo adolescente es un problema mundial que acarrea múltiples consecuencias. Una de las más
dramáticas es que éstas jóvenes en su gran mayoría deberán tener la responsabilidad de mantener solas a sus
hijos bajo condiciones económicas muchas veces precarias, negando su propia adolescencia.
El bajo nivel educativo de los padres, las limitadas aspiraciones profesionales de las jóvenes, las actitudes
ambivalentes o positivas hacia el embarazo de las adolescentes, las estudiantes con las calificaciones más bajas
y aquellas quienes se involucran en actividades delictivas han sido identificadas como factores claves al
momento de la iniciación sexual y el primer embarazo.
38
Análisis de regresión múltiple
BASE DE DATOS Nº8
Sin embargo, nosotros relacionaremos la tasa de embarazo
adolescente con otros dos factores quizás más relevantemente asociados: el ESTADO Yi X 1i X 2i
consumo de alcohol y las familias monoparentales, pues se ha demostrado
que vivir en un hogar con un solo padre o la ausencia del padre aumenta el Alabama 90 15,73 37
riesgo de embarazo prematuro mientras que los hijos criados por ambos Alaska 73 15,61 30
padres disfrutan de estándares de bienestar más altos en casi cualquier Arizona 104 18,47 33
Arkansas 93 15,65 35
aspecto. Por otro lado, asimismo el consumo inadecuado de alcohol es uno
California 96 15,24 31
de los factores claramente asociados al inicio temprano de relaciones
∙ ∙ ∙ ∙
sexuales y por lo tanto al embarazo adolescente. ∙ ∙ ∙ ∙
La base de datos Nº8 nos entrega los valores de la tasa de embarazo ∙ ∙ ∙ ∙
adolescente para mujeres entre los 15 y los 19 años para el año 2000 (cada Virginia 72 18,28 29
1000 habitantes) Y i , el % de personas entre los 12 y 17 años que reportó Washington 75 16,26 29
haber consumido alcohol el mes pasado para el año 2002 X 1i , y el % de West Virginia 67 20,12 62
Wisconsin 55 18,70 31
niños bajo los 18 años viviendo en familias con un solo padre al 2004 X 2i , Wyoming 77 18,99 28
para los 50 estados FUENTES:
norteamericanos más Washington Tasa de embarazo adolescente en mujeres de 15 a 19 a ños, 2000 (tasa por 1,000)
D.C. http://www.thenationalcampaign.org/statedata/statecomparisions.asp?id=3&sID=18
Primero ejecutemos una % de personas entre los 12 y 17 años que reportó haber consumido alcohol el pasado mes el a ño 2002
http://www.drugabusestatistics.samhsa.gov/2k2State/html/appA.htm
regresión lineal para obtener los Porcentaje de niños bajo 18 años viviendo con familias lideradas por un solo padre 2004
parámetros estimados: http://www.thenationalcampaign.org/statedata/statecomparisions.asp?id=8&sID=5
>a < read.table('a.txt')
SALIDA Nº25 >a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1)
Call:
lm(formula = a$V1 ~ a$V2 + a$V3) Nuestra ecuación de regresión múltiple queda como:
Residuals:
Min 1Q Median 3Q Max
Y= 88,5012−2,7093 ∙ X11,1986 ∙ X 2
41.3044 7.1242 0.5424 11.4843 34.3829 4,714 −3,311 4,416
Coefficients:
Estimate Std. Error t value Pr(>|t|)
∑ y2i 8107.66
(Intercept) 88.5012 18.7750 4.714 2.12e05 *** k−1 2
Fk−1, n−k= = F2,48= = 18,766
a$V2 2.7093 0.8183 3.311 0.00177 ** ∑ e 2i 10368.736
a$V3 1.1986 0.2714 4.416 5.69e05 *** 48
n−k
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Que vemos coincide con el resultado entregado por R:
Residual standard error: 14.7 on 48 degrees of freedom
Multiple Rsquared: 0.4388, Adjusted Rsquared: 0.4154
Fstatistic: 18.77 on 2 and 48 DF, pvalue: 9.515e07
TABLA Nº17
Y = 77,843
∑ 8107,660 10368,736 18476,745
39
Si el valor F calculado excede el valor tabulado de la F específica al nivel de significación elegido y los
grados de libertad dados, se acepta H1 . En nuestro ejemplo, el valor F calculado para un 95% de significación
con 2 y 48 grados de libertad es:
>qf(0.95,2,48)
[1] 3.190727 3,191 < 18,766 con lo que aceptamos la hipótesis alternativa.
F puede ser grande y sin embargo ninguno de los parámetros estimados ser estadísticamente
significativos. Esto puede ocurrir cuando las variables independientes están altamente correlacionadas las unas
con las otras (este problema, denominado multicolinealidad, lo estudiaremos en la sección 3, capítulo 4:
Multicolinealidad).
2.5.2 Tabla ANOVA para el modelo lineal general.
TABLA Nº18
Fuente de Grado de Suma de los Cuadrados
variación libertad Cuadrados Medios F
2
∑ Y i SCR
Regresión k−1 SCR= b' X' Y−' SCR
n k−1
k−1 CMR
=
SCE SCE CME
Error n−k SCE= Y ' Y−b' X 'Y n−k
n−k
2
∑ Y i
Total n−1 STC= Y 'Y −
n
2.5.3 Cálculo de la tabla ANOVA utilizando el álgebra de matrices en R.
TABLA Nº19
Calculemos la matriz X, la Y, la traspuesta de X, la transpuesta de Y, b
y la transpuesta de b: Suma de los
cuadrados
>a < read.table('a.txt') 2
∑ Y i
>am<as.matrix(a) SCR= b' X' Y ' − = 8109,135
>x< cbind(1, am[,2],am[,3]) n
>y<cbind(am[,1])
>xt < t(x) SCE= Y ' Y−b' X ' Y = 10368,74
>yt < t(y)
>b<solve(xt%*%x)%*%xt%*%y 2
>bt < t(b) ∑ Y i
STC= Y 'Y − = 18477,835
n
Calculemos las siguientes expresiones para obtener los cuadrados medios:
2
∑ Yi
Y como por otro lado obtenemos que: = 309036,165
n
TABLA Nº20
Fuente de Grado de Suma de los Cuadrados
variación libertad Cuadrados Medios F
317026,486
Regresión 2 8109,135
2 CMR
= 18,77
CME
10368,74
Error 48 10368,74
48
Total 50 18477,835
40
Análisis de regresión múltiple
Si un valor de F es lo suficientemente grande, entonces una porción considerable de la variación en las
observaciones puede atribuirse a la regresión de Y sobre las variables de predicción tal como se encuentran
definidas por el modelo.
∑ y2i R2
k−1 k−1
Hemos visto que F se relaciona con R de la siguiente manera: F= 2
= 2
∑ i
e 1−R
n−k n−k
R2 0,439
k−1 2 0,2195
Para nuestro ejemplo: R2 = 0,439 = = = 18,781= F
1−R 2 0,561 0,0116875
n−k 48
La estadística F como una prueba de significación del poder explicativo de todas las variables
independientes conjuntamente, es aproximadamente equivalente a probar la significación de la estadística
R2 . Si H1 es aceptada podríamos esperar que R2 y por lo tanto F sean altas.
2.6 LOS COEFICIENTES DE CORRELACIÓN PARCIAL (CCP)
Los CCP miden la correlación entre la variable dependiente y una variable independiente después de
excluir la influencia común de las otras variables independientes en el modelo (manteniéndolas constantes). Los
CCP son usados en el análisis de regresión múltiple para determinar la importancia relativa de cada variable
independiente en el modelo. La variable independiente con el mayor CCP con respecto a la variable
dependiente es la que más contribuye al poder explicativo del modelo.
Por ejemplo, rY X X es la correlación parcial entre Y y X 1 después de remover la influencia de X 2
1 2
tanto de Y como de X 1 .
Para el caso de un modelo con dos variables independientes:
r Y X −r Y X r X X2 r YX −r Y X r X X2
rY X X = rY X X =
1 2 1 2 1 1
y Donde: (75)
1 2
1−r 1−r2
X 1 X2
2
YX 2
2 1
1−r 1−r2
X 1 X2
2
YX 1
rY X
es el coeficiente de correlación simple entre Y y X 1 ,
1
rY X
es el coeficiente de correlación simple entre Y y X 2 y
2
r X X es el coeficiente de correlación simple entre X 1 y X 2
1 2
Los coeficientes de correlación parcial varían de 1 a 1 (la misma variación que los coeficientes de
correlación simple) y tienen el signo del parámetro estimado correspondiente ( r Y X X tiene el mismo signo que 1 2
b y r Y X X tiene el mismo signo que b ) La suma de los CCP entre las variables independientes y la
1 2 1 2
variable dependiente en el modelo no debe superar el valor de 1.
Para nuestro ejemplo calculemos los coeficientes de correlación parcial:
La siguiente instrucción en R calcula una matriz de correlaciones con 1 en la diagonal, las correlaciones
simples en el triángulo inferior y las correlaciones parciales en el triángulo superior. (Debemos bajar y llamar la
librería ggm)
SALIDA Nº26
>a < read.table('a.txt') V1 V2 V3 V4
>library(ggm) V1 1,0000000 0,5982236 0,6741887 0,3800718
>correlations(a) V2 0,7392548 1,0000000 0,2122357 0,0010714
V3 0,8006118 0,5062053 1,0000000 0,0127640
V4 0,6750090 0,4970814 0,5462974 1,0000000
rY X
= 1 Se refiere al caso donde hay una perfecta relación lineal negativa entre Y y X 1 después de
1 X2
remover la influencia común de X 2 sobre Y y X 1 .
41
r Y X X = 1 Se refiere al caso donde hay una perfecta relación lineal positiva entre Y y X 1 después de
1 2
remover la influencia común de X 2 sobre Y y X 1 .
r Y X X = 0 Se refiere al caso en el que no existe una relación lineal entre Y y X 1 después de remover la
1 2
encontramos el residuo e 2= X 1
✳
tanto, el coeficiente de correlación parcial es simplemente el coeficiente de correlación simple entre los residuos
Y ✳ y X 1 esto es, r Y X X = rY X .
✳
✳ ✳
1 2 1
2.7 ANÁLISIS DE LOS RESIDUOS
El análisis de los residuos es el estudio más importante dentro del modelo de regresión, pues de una
manera muy efectiva podemos detectar sus posibles deficiencias. Asimismo, con este análisis podemos descubrir
violaciones de las suposiciones subyacentes al modelo.
4 son las deficiencias más comunes en el análisis de regresión:
1. Que estemos en presencia de una relación no lineal.
2. Que la varianza del error 2 no sea constante (heterocedasticidad).
3. Que una o más de las variables de predicción que ejercen una influencia importante no estén incluídas
en el modelo.
4. Que existan observaciones discrepantes o aberrantes (aquellas cuyos valores se encuentran alejados del
comportamiento general del resto de los datos).
Recordemos que un residuo se define como: e i = Y i − Y i ∀ i= 1,2,... n donde e i es una estimación
del verdadero error no observable i
ei
Se grafican los valores de Y i versus los residuos estandarizados: e s= dado que la media de los
S
residuos es igual a cero y S es la desviación standard residual: CME (el error cuadrático medio es la varianza
2
de los residuos, que es una estimación de i )
El análisis de los residuos es un análisis de sus gráficas. Una ecuación de regresión correcta no develará
ningún patrón entre los e s y los Y i , los e s tenderán a encontrarse dentro de una banda horizontal centrada
alrededor del cero, sin ninguna tendencia a los positivos o los negativos y muy raramente más allá de ±3 . Si n
es muy grande, la distribución de los e s deberá encontrarse aproximada a una distribución normal standard.
Situación contraria indicará una deficiencia en el modelo.
Examinemos tres casos: GRÁFICA Nª 20
1. Acá existe un efecto cuadrático presente en una
variable de predicción, por lo cual, esa variable
independiente debe introducirse como un término
cuadrático en el modelo.
42
Análisis de regresión múltiple
GRÁFICA Nª 21
GRÁFICA Nª 22
3. Cuando una variable que se ha eliminado muestra
una fuerte asociación lineal con los residuos debe incluirse
en el modelo de regresión.
Dos ideas importantes:
1. Una de las suposiciones de la estimación por
mínimos cuadrados es que el conjunto de datos con los que
se trabaja es típico de la situación para la cual se intenta
identificar una buena ecuación de predicción.
2. En una ausencia clara de evidencia de error, la
observación discrepante (aberrante) puede ser la única
información con respecto a la respuesta y ser vital para el
entendimiento del fenómeno.
43
3.1 AUTOCORRELACIÓN GRÁFICA Nº23
3.1.1 ¿QUÉ ES LA AUTOCORRELACIÓN?
E t t s= 0 ∀ s ≠0 (76)
GRÁFICA Nº24 Si estos errores (residuos) presentan algún tipo de patrón, se dice
que existe autocorrelación, simbólicamente expresada como:
44
Problemas en el análisis de regresión: Autocorrelación
3.1.1.1 Autocorrelación en datos de sección transversal.
La autocorrelación espacial ocurre cuando los errores están geográficamente relacionados. Por ejemplo,
una ciudad ve un repunte en sus tasas de criminalidad por lo que decide aumentar su dotación policiaca. Al año
siguiente su tasa de criminalidad baja notoriamente. Una ciudad vecina, que no aumentó su dotación policial,
encuentra que presenta un repunte de su tasa de criminalidad sobre el mismo periodo.
Otro ejemplo: tenemos datos de corte transversal que consideran el gasto en consumo sobre el ingreso
familiar. Un incremento del gasto de una familia puede afectar el gasto en consumo de otra, al estimular a esta
familia a incrementar sus gastos si quiere 'mantenerse a la altura' de la otra.
Es importante recordar que en los análisis de sección transversal, el orden de los datos debe obedecer a
cierta lógica para darle sentido sociológico a cualquier decisión de si hay presencia de autocorrelación espacial
o no.
3.1.1.2 Autocorrelación en series de tiempo.
Consideremos la serie temporal del número de homicidios en una ciudad en un lapso de tiempo. Existen
razones para creer que la cantidad de estos delitos está influenciado por los que se han cometido en el pasado.
(una sociedad puede volverse mas 'anómica' en con el transcurso del tiempo). Para tablas en las cuales los datos
siguen un orden natural sobre el tiempo, las observaciones sucesivas tienen una alta probabilidad de exhibir
intercorrelación, especialmente cuando el intervalo entre las sucesivas observaciones es corto, como un día, una
semana o un mes.
3.1.1.3 Algunos patrones de autocorrelación:
Tendencia cuadrática. Tendencia cíclica.
GRÁFICA Nº26 GRÁFICA Nº27
Tendencia ascendente. Tendencias lineales y cuadráticas.
GRÁFICA Nº28 GRÁFICA Nº29
45
3.1.2 ¿POR QUÉ OCURRE LA AUTOCORRELACIÓN?
1. Por inercia: En sociología prácticamente no existen variables que cambien inmediatamente a medida
que cambia otra relacionada a ella. Existe una tendencia que se opone al cambio, una 'inercia' que hace que
valores pasados de un regresor influyan sobre los valores actuales del mismo, ya sea temporal o espacialmente.
2. Cuando variables fundamentales en un modelo de regresión son excluídas. Al inicio de un análisis de
regresión el investigador debe poseer un modelo verosímil, pero que muchas veces resulta no ser el mejor. Si al
graficar los residuos e i obtenidos de la regresión ajustada, se observan patrones de autocorrelación, esto
puede sugerir que importantes variables que quizás fueron candidatas pero que no fueron incluidas en el modelo
(por cualquier razón) deben ser incluídas.
A menudo la inclusión de aquellas variables remueve el patrón de correlación observado entre los
residuos.
Por ejemplo, supongamos que tenemos el siguiente modelo válido en una serie de tiempo (por ello el
subíndice t):
El error t revelará un patrón sistemático, ya que los valores de X 3t afectan a Y t , creando una
autocorrelación falsa que desaparece al correr el modelo correcto.
3. Cuando no aplicamos una forma funcional correcta. Consideremos el siguiente modelo de regresión
lineal:
Y t = b 0b1 X 1t b2 X 21t t pero erróneamente ajustamos el modelo siguiente: Y t = b 0b1 X 1t t
2
GRÁFICA Nº30 donde t = b 2 X 1t t
La curva que corresponde al modelo verdadero se muestra junto a la
errónea recta de regresión asociada (gráfica nº30).
Entre A y B la la recta de regresión sobreestima el valor Y t , como así
más allá de esos puntos lo subestima. Esto es esperado, puesto que el error
2
es t = b 2 X 1t t y por lo tanto captura el efecto sistemático del término
b X 2 en el valor de Y t . En este caso, t presentará
2 1t
autocorrelación por el uso de una incorrecta forma funcional.
4. Decisiones implementadas en el regresando, producto de la influencia del comportamiento de los
regresores3. Consideremos el modelo:
5. Rezagos: Se ha observado que las ventas de una mercancía dependen, además del gasto en
publicidad, de las ventas del periodo previo, esto es: V t = b0b 1 Pt b 2 V t−1 t donde V t y Pt son las ventas
y el gasto en publicidad en el periodo t, y V t−1 las ventas en el periodo t1. (Esquema autorregresivo)
Si no consideramos el término retrasado, el error resultante reflejará un patrón sistemático debido a la
influencia de la propaganda de las ventas pasadas sobre las ventas actuales.
3 Este fenómeno es conocido como el efecto cobweb.
4 En modelos autorregresivos el error del modelo de regresión lineal esta relacionado con su valor pasado de la manera:: t= t−1
46
Problemas en el análisis de regresión: Autocorrelación
6. 'Manipulación' de los datos.
7. La autocorrelación puede ser inducida como resultado de la transformación del modelo original.
Consideremos el siguiente modelo:
3.1.3 ¿CÓMO SE IDENTIFICA UNA AUTOCORRELACIÓN?
Recordemos que el supuesto de no autocorrelación del modelo clásico de regresión lineal se refiere a los
errores t , los cuales no son directamente observables. Con lo que contamos en vez de ellos son sus
estimaciones, los residuos e t , que obtenemos por el procedimiento usual de MCO.
A pesar de no ser los e t lo mismo que los t , muy a menudo un examen visual de los residuos nos da
algunas pistas sobre la probable presencia de autocorrelación en los t . Incluso, un examen visual de los e t o
2
e t puede entregar información útil no solamente de autocorrelación, sino que también de heterocedasticidad
(que veremos en el próximo capítulo) y sesgo de especificación6.
3.1.3.1 La estadística d de DurbinWatson.
El test mas famoso para detectar autocorrelación es el DurbinWatson, cuya gran ventaja es que se basa
en los е t . Se define como como:
5 La demostración de esto excede los propósitos de este libro.
6 Es el sesgo causado por la omisión de variables relevantes.
47
n
∑ e t −e t−12
d= t=2
(80)
n
2
∑e t
t=1
d≈ 2 1−
∑ е t еt−1 ∑ еt е t−1
2 . Definamos: = como un estimador del coeficiente de autocorrelación
∑ еt ∑ е2t
de primer orden , entonces: d≈ 2 1− y como −1≤≤1 , esto implica que 0≤d≤4
Si no hay correlación lineal de primer orden =0 y d= 2.
Si existe perfecta autocorrelación de primer orden positiva =1 y d= 0
Si existe perfecta autocorrelación de primer orden negativa =−1 y d= 4
Debemos comparar la d que obtenemos con el valor tabulado de ella a los correspondientes grados de
libertad dados y significación elegida.
Existen ciertos supuestos subyacentes a la estadística d:
1. El modelo de regresión incluye el término de intersección. Si este no está presente como en el caso de
una regresión a través del origen, es esencial correr de nuevo la regresión incluyendo el término de intersección
para obtener la suma de los cuadrados del error (SCE)
2. Las variables independientes son no estocásticas o ajustadas en muestras repetidas.
3. Los errores t son generados por un patrón autorregresivo de primer orden:
t = t−1t (81)
6. No hay observaciones perdidas en los datos.
A diferencia de t, F o 2 , no existe un único valor crítico para aceptar o rechazar la hipótesis nula de
que no existe correlación serial de primer orden en los errores i .
Estos límites sólo dependen del número de observaciones n y el número de variables independientes k.
Si existe autocorrelación positiva, los е t estarán agrupados y sus diferencias por lo tanto tenderán a ser
pequeñas. Por el contrario, si existe autocorrelación negativa, un е t positivo será seguido por un е t−1 negativo
con mucho mas frecuencia que en el caso anterior, lo que haría más grande el numerador que el denominador.
Recordemos que d=
∑ е t− еt−12
∑ е2t
48
Problemas en el análisis de regresión: Autocorrelación
3.1.3.1.1 Los pasos para aplicar la prueba d:
1. Se corre una regresión por MCO y se obtienen los residuos.
2. Se calcula d.
3. Para el tamaño de la muestra y el número de variables independiente dados, se encuentran los valores
críticos dInferior y dSuperior
4. Se toman decisiones de acuerdo a los siguientes sets de hipótesis:
H0 : = 0
4.1. Se rechaza H0 al nivel si 0 d dinferior , esto es, si hay evidencia estadísticamente
H1 : 0
significativa de una autocorrelación positiva.
H0 : = 0
4.2. Se rechaza H0 al nivel si 4−dinferior d 4 , esto es, si hay evidencia
H1 : 0
estadísticamente significativa de una autocorrelación negativa.
Notemos que la zona de indecisión donde d no es concluyente se estrecha medida que el tamaño de la
muestra se incrementa.
Si bien el test DurbinWatson es un test cuantitativo para determinar la presencia de autocorrelación de
primer orden, el método gráfico es poderoso y sugestivo aunque por naturaleza subjetivo.
3.1.3.2 Método informal (gráfico) para la autocorrelación de primer orden negativa.
Al graficar los residuos versus el tiempo, si éstos están autocorrelacionados negativamente, se obtendrá
una gráfica como la que muestra la figura nº31:
Autocorrelación negativa:
GRÁFICA Nº31 GRÁFICA Nº32
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos autocorrelacionados ","negativamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>lines(a$V1, lwd=3, col=4)
>x < seq( 0, 30, length = 100)
>lines(x, xx, type="l", lwd=3, col= 'red')
et
7 Los residuos estandarizados son simplemente los et divididos por el error standard de la regresión, es decir:
8 Tengamos en cuenta que e t y están medidos en las unidades en las cuales el regresando Y i es medido, por lo que los residuos
estandarizados son números puros (desprovistos de unidad de medida) y pueden ser comparados con los residuos estandarizados de otras
regresiones.
49
GRÁFICA Nº33
TABLA Nº21 Observemos que el signo de los residuos cambia
sucesivamente.
et t Ahora grafiquemos los e t versus los e t−1 para
0,7 1
nuestro ejemplo (tabla nº22) nótese que perdemos
2,0 2 una observación:
1,9 3
2,8 4
>a < read.table('a.txt')
1,8 5 >par(bg = "Ivory 2")
∙ ∙ >plot(a$V2, a$V1, col=3, xlab='e t1', ylab='e t',
∙ ∙ cex.lab=1,family='NewCenturySchoolbook')
∙ ∙ >title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),
1,6 19 font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
1,2 20 >x < seq( 3, 3, length = 100)
2,2 21 >lines(x, xx, type="l", lwd=3, col= 'red')
1,1 22 >lines(xx, x, type="l", lwd=3, col= 'red')
2,4 23
GRÁFICA Nº34
TABLA Nº23
TABLA Nº22
t e t−1 et e 2t e t−e t− 12
t et e t− 1
1 0,7 0,49
2 2,0 0,7 4,00 7,29 1 0,7
3 1,9 2,0 3,61 15,21 2 2,0 0,7
4 2,8 1,9 7,84 22,09 3 1,9 2,0
5 1,8 2,8 3,24 21,16 4 2,8 1,9
∙ ∙ ∙ ∙ ∙ 5 1,8 2,8
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
19 1,6 2,1 2,56 13,69 ∙ ∙ ∙
20 1,2 1,6 1,44 7,84 19 1,6 2,1
21 2,2 1,2 4,84 11,56 20 1,2 1,6
22 1,1 2,2 1,21 10,89 21 2,2 1,2
23 2,4 1,1 5,76 12,25 22 1,1 2,2
2,4 23 2,4 1,1
∑ 67,85 187,23 2,4
0 1,257 1,437 2,563 2,743 4
Como 2,743 < 2.759 existe autocorrelación negativa.
50
Problemas en el análisis de regresión: Autocorrelación
3.1.3.3 Método informal (gráfico) para la autocorrelación de primer orden positiva.
GRÁFICA Nº35
GRÁFICA Nº36
Autocorrelación positiva:
Los signos de los residuos en el tiempo cambian pocas
veces.
Si los residuos están correlacionados positivamente, al
graficar los e t contra los e t−1 obtendremos una gráfica
como la nº36:
Notemos del gráfico lo siguiente: en el cuadrante II se
ubican los residuos que permanecen positivos
secuencialmente y en el IV, los que permanecen negativos
secuencialmente.
La tabla nº24 nos entrega los valores de residuos que
están autocorrelacionados positivamente. Asumamos que
están estandarizados. Grafiquemos estos residuos contra el
tiempo (gráfica nº37):
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos autocorrelacionados", "positivamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>lines(a$V1, lwd=3, col=4)
>x < seq( 0, 30, length = 100)
>lines(x, xx, type="l", lwd=3, col= 'red')
GRÁFICA Nº37
TABLA Nº25
TABLA Nº24
t et e t−1
Observemos et t
que el signo de los 1 1,2
residuos permanece 1,2 1 2 1,9 1,2
1,9 2
agrupado a 3 2,4 1,9
2,4 3
intervalos. 4 0,3 2,4
0,3 4
Ahora 5 1,6 0,3
1,6 5
∙ ∙ ∙
grafiquemos los e t ∙
∙ ∙ ∙
∙
versus los e t−1 para ∙ ∙ ∙
∙
nuestro ejemplo 2,2 19 19 2,2 0,6
(Tabla nº25): 1,3 20 20 1,3 2,2
0,9 21 21 0,9 1,3
2,1 22 22 2,1 0,9
0,3 23 23 0,3 2,1
0,3
51
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='e t1', ylab='e t', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x < seq( 3, 3, length = 100)
>lines(x, xx, type="l", lwd=3, col= 'red')
>lines(xx, x, type="l", lwd=3, col= 'red')
GRÁFICA Nº38
TABLA Nº26
Calculemos t et e t− 1 e 2t e t−e t− 12
algebraicamente la
estadística DurbinWatson 1 1,2 1,44
para determinar la existencia 2 1,9 1,2 3,61 0,49
3 2,4 1,9 5,76 0,25
de autocorrelación (tabla
4 0,3 2,4 0,09 4,41
nº26): 5 1,6 0,3 2,56 1,69
∙ ∙ ∙ ∙ ∙
n
∙ ∙ ∙ ∙ ∙
∑ e t −e t−12 56,49 ∙ ∙ ∙ ∙ ∙
t=2
d= n
= 19 2,2 0,6 4,84 2,56
2 62,57
∑e t
20 1,3 2,2 1,69 0,81
t=1 21 0,9 1,3 0,81 0,16
22 2,1 0,9 4,41 1,44
d= 0,903 23 0,3 2,1 0,09 3,24
0,3
∑ 62,57 56,49
Ahora, el valor tabulado de DW para el tamaño n, el número de parámetros estimados y el nivel de
significación elegido es:
0 1,257 1,437 2,563 2,743 4
Como 0,903 < 1,257 existe autocorrelación positiva.
Ejemplo Nº9: Suicidio y desempleo en Japón (19532004)
BASE DE DATOS Nº3
El suicidio en Japón, al contrario que en occidente, no es tratado como un tabú,
es más, muchas veces es considerado como un acto honorable, sobre todo en hombres Año Xi
Yi
de mediana edad que ya no son capaces de mantener económicamente a sus familias,
pues en esta sociedad la vergüenza y la falta de prestigio asociadas al el hecho de no 1948 18,7 0,7
tener trabajo es enorme. 1949 20,9 1,1
Como causas del suicidio en este país se pueden consideran las recesiones 1950 24,1 1,3
económicas que generan desempleo, el fin del modelo japonés de bienestar, la crisis en 1951 21,8 1,1
1952 21,8 1,3
las estructuras familiares y la influencia de la cultura budista imperante entre los
∙ ∙ ∙
japoneses que no estigmatiza el suicidio.
∙ ∙ ∙
La base de datos nº3 nos entrega los valores la tasa de suicidio en hombres por ∙ ∙ ∙
cada 100.000 habitantes Yi y la tasa de cesantía en % de la fuerza laboral para 2000 35,2 4.9
hombres mayores de 15 años Xi para Japón entre los años 1948 y 2004. 2001 34,2 5.2
2002 35,2 5.5
Para orientarnos, grafiquemos estas variables y la recta de regresión asociada a
2003 38,0 5,5
ellas (gráfica nº39):
2004 35,6 4,9
FUENTE:
http://www.stat.go.jp/english/data/chouki/index.htm
52
Problemas en el análisis de regresión: Autocorrelación
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Relación entre las tasas de suicidio", "y desempleo en
Japón",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº39
SALIDA Nº27
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
4.4460 2.2741 0.7309 1.8405 7.5832
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.6590 0.8453 17.34 <2e16 ***
a$V2 4.1432 0.3242 12.78 <2e16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.914 on 55 degrees of freedom
Multiple Rsquared: 0.748,Adjusted Rsquared: 0.7434
Fstatistic: 163.3 on 1 and 55 DF, pvalue: < 2.2e16
SALIDA Nº28
Y determinemos la presencia de autocorrelación:
DurbinWatson test
>library(lmtest)
>library(MASS)
>a1 < (lm(a$V1~a$V2)) data: lm(a$V1 ~ a$V2)
>summary(a1) DW = 0.4026, pvalue = 2.934e15
>dwtest (lm(a$V1~a$V2)) alternative hypothesis: true autocorrelation is greater than 0
El valor tabulado para los valores límites de la estadística DurbinWatson es para 50 grados de libertad, 1
variable independiente al 95% de significación:
0 1,503 1.585 2,597 2,415 4
Como 0,4026 < 1,503 existe autocorrelación positiva.
Grafiquemos los residuos estandarizados versus el tiempo (gráfica nº40):
>a < read.table('a.txt')9
>a1 < (lm(a$V1~a$V2))
>par(bg = "Ivory 2")
>plot(a$V2, stdres(a1), col=3, xlab='Tasa de desempleo', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook')
>lines(a$V2,stdres(a1), lwd=3, col=4)
>x < seq( 0, 5.7, length = 100)
>lines(x, xx, type="l", col= 'red', lwd=3)
>title(main=paste("Tasa de desempleo", "versus residuos estandarizados",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Ahora grafiquemos los e t versus los e t−1 para la base datos nº3 (gráfica nº41):
Para esto convirtamos nuestros datos que contienen los residuos en una matriz:
9 Para trazar las lineas entre los puntos según un orden ascendente del valor X y no sobre el orden cronológico de años sucesivos, debemos
ordenar los datos según las X en orden ascendente, sino las líneas se unirán por año consecutivo.
53
>a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2))
>m<as.matrix(stdres(a1))
Creemos dos vectores, uno que excluya la primera observación y el otro que excluya la última:
>m1<m[c(1)]
>m2<m[c(50)]
Y grafiquemos:
>par(bg = "Ivory 2")
>plot(m1,m2, xlab='e t1', ylab='e t', col=3, cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x < seq( 2, 3, length = 100)
>lines(x, xx, type="l", col= 'red', lwd=3)
>lines(xx, x, type="l", col= 'red', lwd=3)
GRÁFICA Nº40 GRÁFICA Nº41
3.1.4 SOLUCIONANDO LA AUTOCORRELACIÓN
Tenemos 2 opciones dependiendo del caso:
¿La autocorrelación surge por errores en el modelo o es pura?
1. A veces se observan patrones en los residuos porque el modelo es erróneo esto es, se han
excluído importantes variables o porque la forma funcional es incorrecta.
2. Si se trata de autocorrelación pura, podemos hacer las transformaciones apropiadas al modelo
original, para hacer que este modelo transformado no presente el problema de autocorrelación (pura). Usamos
para esto el método de mínimos cuadrados generalizados (MCG).
La solución depende del conocimiento que tengamos de la naturaleza de la interdependencia entre los
errores, esto es, sobre la estructura de la autocorrelación.
Consideremos el siguiente modelo de regresión de 2 variables:
Consideraremos sólo el caso cuando es conocido:
54
Problemas en el análisis de regresión: Autocorrelación
multipliquemos esta última expresión por y restémosela a la primera. Nos queda:
Y t − Y t−1= b0 1−b 1 X t −X t−1t donde: t = t− t−1 (83)
La expresión anterior puede escribirse como:
Y ✴t = b ✴0 b 1 X ✴t t (ecuación de diferencias generalizada) (84)
Ya que t satisface los supuestos usuales del método de MCO, podemos aplicar este método las
variables transformadas Y ✳ y X ✳ y obtener los mejores estimadores lineales insesgados (MELI).
En el proceso de diferencias perdemos una observación, pues la primera no tiene un antecedente. Para
evitar perder esta primera observación, las primeras Y t y X t se transforman como sigue (transformaciones
∗ ∗
de PraisWinsten):
Y ✴1 = Y 1 1−2 y X 1✴= X 1 1−2 (85)
3.1.4.1 Corrección de la autocorrelación de primer orden positiva.
Método Durbin de dos etapas (un caso de mínimos cuadrados generalizados).
1 Se estima aplicando una regresión:
Y t = b 0 1− Y t−1 b1 X t −b 1 X t−1 t
2 Se reestima la regresión con las variables transformadas:
Y t − Y t−1= b0 1− b 1 X t − X t−1t − t−1
Solución de la autocorrelación de nuestro ejemplo.
>a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3+a$V4))
>summary(a1)
SALIDA Nº29
TABLA Nº27
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4) Yt Y t−1 Xt X t−1
Nuestra ecuación de regresión estimada resulta entonces:
55
TABLA Nº28 Estimemos
Yt Y t−1 Xt X t−1 Y ✴= Y t− Y t−1 X ✴= X t− X t−1 Y t = b0 1− Y t−1 b1 X t −b 1 X t−1 t
= 0,8015
18,7 0,7
20,9 18,7 1,1 0,7 5,912 0,539
24,1 20,9 1,3 1,1 7,349 0,418 Reestimemos la regresión con las variables
21,8 24,1 1,1 1,3 2,484 0,058 transformadas:
21,8 21,8 1,3 1,1 4,327 0,418
∙ ∙ ∙ ∙ ∙ ∙ Y ✴= Y t − Y t−1
∙ ∙ ∙ ∙ ∙ ∙ X ✴= X t − X t−1
∙ ∙ ∙ ∙ ∙ ∙
35,2 36,5 4.9 4.8 5,945 1,053
34,2 35,2 5.2 4.9 5,987 1,273 Para obtener las primeras observaciones que se pierden,
35,2 34,2 5.5 5.2 7,789 1,332 apliquemos la transformación de PraisWinsten:
38,0 35,2 5,5 5.5 9,787 1,092
35,6 38,0 4,9 5,5 5,143 0,492
35,6 4,9
✴
Y 1 ≈ Y 1 1−
2 18,7 1−0,8015 2= 11,1825
X ✴≈ X 1− 2
1 1 0,7 1−0,8015 2 = 0,4186
Ahora apliquemos una regresión lineal a la tabla nº29:
>a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2))
>summary(a1)
SALIDA Nº30
TABLA Nº29
Call:
Y ✴= Y t− Y t− 1 X ✴= X t− X
t− 1 lm(formula = a$V1 ~ a$V2)
El valor tabulado para los valores límites de la estadística DurbinWatson es para 57 grados de libertad, 1
variable independiente al 95% de significación es:
0 1,528 1,601 2,399 2,472 4
Determinemos la estadística d para la tabla nº29 con R:
SALIDA Nº31
>library(lmtest)
>library(MASS) DurbinWatson test
>a < read.table('a.txt')
>dwtest (lm(a$V1~a$V2))
data: lm(a$V1 ~ a$V2)
DW = 1.6798, pvalue = 0.09426
Como 1,601 < 1,6798 ya no existe autocorrelación. alternative hypothesis: true autocorrelation is greater than 0
56
Problemas en el análisis de regresión: Heterocedasticidad
3.2 HETEROCEDASTICIDAD
3.2.1 ¿QUÉ ES LA HETEROCEDASTICIDAD?
Un supuesto básico del modelo clásico de regresión lineal señala que los errores i deben ser
homocedáticos, esto es, deben poseer igual varianza:
GRÁFICA Nº43 GRÁFICA Nº44
3.2.1.1 Razones por las que puede ocurrir la heterocedasticidad.
2
Hay varias razones por las que Var i ≠ , como por ejemplo:
1. En modelos de medición del aprendizaje: En un proceso de aprendizaje, los errores de las personas
disminuyen a medida que avanza el tiempo; la dispersión de los errores tiende a disminuir. En este sentido, se
espera que Var i decrezca (gráfica nº43).
2. En modelos econométricos del tipo: Y i = b0 b1 X i i donde Y i representa el ahorro y X i
representa los ingresos, a medida que el ingreso aumenta, las personas tienen mayor amplitud de decisión sobre
2
si ahorrar o gastar, por lo tanto, es probable que i se incremente a mayor ingreso. En este ejemplo, la propia
teoría sugiere la forma o pauta de la heterocedasticidad: la varianza del error depende positivamente de la
renta (gráfica nº44).
3. A medida que las técnicas de recolección de datos hacen que estos aumenten, es probable que
2i decrezca.
4. La heterocedasticidad también se puede producir como resultado de la presencia de datos anómalos.
Un dato anómalo es aquel que difiere mucho en relación al resto de los datos de la muestra.
La inclusión o exclusión de aquella observación, especialmente si el tamaño de la muestra es pequeño,
57
puede cambiar sustancialmente los resultados del análisis de regresión.
5. Una forma funcional incorrecta puede ser una fuerte fuente de heterocedasticidad. Este problema
muy a menudo tiene que ver con el hecho de que variables importantes sean excluídas en el modelo. Así en una
función de demanda de una mercancía si no se incluyen los precios de las mercancías complementarias con la
mercancía en cuestión (sesgo de la variable omitida), los residuos obtenidos de la regresión quizás den la
impresión de que la varianza del error no sea constante. Pero si las variables que han sido omitidas son incluídas
en el modelo, esa impresión probablemente desaparecerá.
En las formas funcionales vimos que, por ejemplo, si en una regresión de Y i sobre X i podemos
2
observar un patrón, pero al hacerla de Y i sobre X i y X i podemos ver otro, concluímos que es una forma
2
cuadrática, por lo que X i debe incluirse en el modelo.
6. Otra fuente de heterocedasticidad es la asimetría en la distribución de uno o más regresores incluidos
en el modelo. Ejemplos de esto son las variables económicas como el ingreso, la salud y la educación. Es bien
conocida la desigualdad del ingreso o la calidad de la salud en la mayoría de las sociedades, con el grueso del
ingreso y calidad de salud agrupándose en los quintiles más acomodados.
El problema de la heterocedasticidad se da más comúnmente en datos de sección transversal que en
series de tiempo.
3.2.2 ¿CÓMO SE IDENTIFICA LA HETEROCEDASTICIDAD?
No se posee una única y efectiva herramienta para detectar heterocedasticidad, sino unos cuantos
2
métodos parciales. Ésta situación es inevitable, porque i sólo puede ser conocida si conocemos toda la
población Y i correspondiente a las X i elegidas. Pero esta situación es mas bien la excepción que la regla en
sociología.
3.2.2.1 Método informal (gráfico).
En estudios de corte transversal que involucran unidades heterogéneas es muy común encontrar
heterocedasticidad, como es el caso de la regresión entre ingresos y escolaridad.
Si no hay información empírica o a priori sobre la naturaleza de la heterocedasticidad, en la práctica
podemos hacer un análisis de regresión sobre la base de que no existe y entonces examinar el patrón en la
relación de los residuos al cuadrado1 con Y i para ver si exhiben alguna sistematicidad.
En la gráfica nº 45 no se aprecia la existencia de una evidente heterocedasticidad, al contrario de lo que
muestran las gráficas nº46, 47 y 48.
GRÁFICA Nº49
2
También se puede graficar e i versus X, que para el caso de una variable
independiente exhibe el mismo patrón que e i versus Y i . Para el caso de dos o
2
2
más variables independientes e i se puede graficar con cualquier regresor. Por
ejemplo, la gráfica nº49 sugiere que la varianza heterocedática quizás sea
proporcional a la X i en cuestión. Saber esto nos puede ayudar para transformar los
datos de manera tal en la regresión, que en una nueva regresión sobre estos datos
transformados la varianza de los errores se vuelva homocedática.
1 Utilizamos el cuadrado de los residuos para evitar consideraciones sobre sus posibles valores negativos.
58
Problemas en el análisis de regresión: Heterocedasticidad
3.2.2.2 Métodos formales.
3.2.2.2.1 El test de Park.
2
Park formalizó el método gráfico sugiriendo que i es alguna función de las variables independientes
Xi . La forma funcional que propuso fué:
Vi 2 2
2i = 2 X i e o bien ln i = ln ln X i V i donde V i es el error. (88)
2 2
Como en general i es desconocido, Park sugirió usar e i como una aproximación y correr la
2 2
siguiente regresión: ln e = ln ln X i V i = ln X i V i
i (89)
Si resulta ser estadísticamente significativo, se presume que hay presencia de heterocedasticidad en
los datos. Si no lo es, podemos aceptar el supuesto de homocedasticidad.
El test de Park es entonces un procedimiento de dos etapas. En la primera corremos la regresión por MCO
no considerando el problema de la heterocedasticidad. Obtenemos e i de esta regresión y en la segunda
2
etapa corremos la regresión siguiente: ln e i = ln X i V i
Ejemplo Nº10: Relación entre la tasa de robos y de robo de vehículos cada 100.000 habitantes en EE.UU
entre 1960 y el 2007.
BASE DE DATOS Nº9
La base de datos nº9 nos entrega como variable dependiente Yi la
cantidad total de robos de vehículos y como variable independiente Xi la Año Yi Xi
cantidad total de robos para EE.UU. entre los años 1960 y 2007.
1960 328200 107840
Grafiquemos los datos, la recta de regresión a ellos asociada y los residuos
1961 336000 106670
versus la variable independiente:
1962 366800 110860
1963 408300 116470
>a < read.table('a.txt')
1964 472800 130390
>par(bg = "Ivory 2")
∙ ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Robos', ylab='Robo de vehículos', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red') ∙ ∙ ∙
>title(main=paste("Relación de robos", "y robos de vehículos entre 1960 y el 2007 en ∙ ∙ ∙
EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 2003 1261226 414235
2004 1237851 401470
>library(lmtest) 2005 1235859 417438
>library(MASS) 2006 1192809 447403
>par(bg = "Ivory 2") 2007 1095769 445125
>a1 < (lm(a$V1~a$V2)) FUENTE:
>plot(a$V2, stdres(a1), col=3, xlab='Robos', ylab='Residuos estandarizados', http://www.disastercenter.com/crime/uscrime.htm
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos estandarizados versus robos", "entre 1960 y el 2007 en
EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x < seq( 100000, 700000, length = 100)
>lines(x, xx, type="l", col= 'red', lwd=3)
GRÁFICA Nº 50 GRÁFICA Nº 51
59
SALIDA Nº32
Obtengamos nuestra recta estimada:
Call:
>summary(a1) lm(formula = a$V1 ~ a$V2)
2003002,051 X
Y= R 2=0,8625 Residuals:
3,719 17,198 Min 1Q Median 3Q Max
328441 83459 11419 99699 214231
2
Obtengamos los valores de e i , X i , ln e i y
Coefficients:
ln X i (tabla nº30) y corramos una regresión de ln e 2i Estimate Std. Error t value Pr(>|t|)
sobre ln X i : (Intercept) 2.003e+05 5.384e+04 3.719 0.000542 ***
a$V2 2.051e+00 1.193e01 17.198 < 2e16 ***
>a < read.table('a.txt')
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>a1 < lm(a$V1~a$V2)
>summary(a1)
Residual standard error: 130500 on 46 degrees of freedom
Multiple Rsquared: 0.8654,Adjusted Rsquared: 0.8625
Fstatistic: 295.8 on 1 and 46 DF, pvalue: < 2.2e16
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,46)
[1] 2.012896 por lo que nuestro parámetro estimado es significativo al 5%: hay heterocedasticidad.
SALIDA Nº33
TABLA Nº30
Call:
ei Xi lne 2i ln X i lm(formula = a$V1 ~ a$V2)
Aunque empíricamente atractivo, el test de Park adolece de ciertos problemas. Goldfeld y Quandt han
argumentado que el error V i puede no satisfacer los supuestos del método de MCO y puede ser él mismo
heterocedático. No obstante, como un método estrictamente exploratorio, el test de Park puede ser utilizado.
3.2.2.2.2 El test de GoldfeldQuandt.
El contraste de GoldfeldQuant se utiliza para contrastar la homocedasticidad cuando la forma de la
2
heterocedasticidad no es conocida, aunque se intuye que la varianza heterocedática i guarda una relación
monótona –creciente o decreciente– respecto a alguna variable exógena.
Por simplicidad consideremos el modelo de 2 variables usual: Y i = b0 b1 X i i
2 2 2 2
Supongamos que i está relacionada positivamente con X i como sigue: i = X i donde 2
es una constante.
2
El supuesto anterior postula que i es proporcional al cuadrado de X.
Para hacer este test explícito, Goldfeld y Quandt sugieren seguir los siguientes pasos:
60
Problemas en el análisis de regresión: Heterocedasticidad
1. Hacer un ranking de las observaciones X i comenzando con su menor valor. Si estamos en presencia
de un modelo de regresión con 2 o más variables independientes, el primer paso del test, el orden por ranking,
puede hacerse tomando cualquier X i . Si no estamos seguros cuál variable X i es apropiada, podemos hacer
el test para cada una de las variables independientes.
2. Omitir c observaciones centrales, donde c se especifica a priori y divide las restantes (nc)
observaciones en dos grupos, cada uno con (nc)/2 observaciones. Las observaciones c son omitidas para
agudizar la diferencia entre el grupo de menor varianza SCR 1 y el grupo de mayor varianza SCR 2 . La
capacidad de éxito del test GoldfeldQuandt depende de como sea elegido el valor c. c=4 si n=30 y c=10 si n=60
ha sido en la práctica satisfactoriamente encontrado.
3. Aplicar regresiones por el método de MCO a ambos grupos y obtener las respectivas sumas de los
cuadrados de los residuos SCR1 (referido a los menores valores de X i el grupo de menor varianza) y
SCR 2 (referido a los mayores valores de X i el grupo de mayor varianza)
n−c
SCR1 y SCR 2 tienen −k grados de libertad (g.l.) siendo k es el número de parámetros a ser
2
estimado incluyendo la intercepción y n el número de casos.
SCR 2
4 Calcular la siguiente fracción: = (90)
SCR1
Si suponemos a i normalmente distribuido (lo que suele suceder), entonces puede demostrarse que
n−c
sigue una distribución F con −k grados de libertad tanto para el numerador como para el
2
denominador.
Si existe heterocedasticidad, con la ordenación de la muestra, la varianza del error será mayor hacia el
final de la muestra que al principio de la misma. Como el cuadrado de los residuos está asociado con la varianza
de los mismos, entonces SCR 2 debería ser sensiblemente mayor que SCR 1 . Por ello, se rechazará la
hipótesis nula de homocedasticidad siempre que el valor de exceda el valor tabulado al nivel de
significación elegido y a los grados de libertad dados para F. en este caso se puede afirmar la existencia de
heterocedasticidad.
Ejemplo Nº11: Tasa de crímenes violentos versus crímenes contra la propiedad para los departamentos
de policía de California durante el año 2007
La base de datos nº10 nos entrega como variable dependiente Yi la tasa de crímenes violentos y
como variable independiente Xi la tasa de crímenes contra la propiedad por cada 100.000 habitantes entre
los años 1960 y 2007 para 396 agencias de policía del Estado de Texas.
Grafiquemos los datos y la recta de regresión a ellos asociada y también los residuos versus la variable
independiente:
>a < read.table('a.txt') BASE DE DATOS Nº10
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Tasa de crímenes contra la propiedad', ylab='Tasa de Agencia Yi Xi
crímenes violentos', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
Adelanto Police Dept 532,7 2639,4
>title(main=paste("Tasa de crímenes violentos", "versus crímenes contra la
Agoura Hills 213,4 1515,3
propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Alameda County Sheriff Dept 562,1 2357,2
>library(lmtest) Alameda Police Dept 291 2805
>library(MASS) Albany Police Dept 283,2 4883,9
>a1 < (lm(a$V1~a$V2)) ∙ ∙ ∙
>par(bg = "Ivory 2") ∙ ∙ ∙
>plot(a$V2, stdres(a1), col=3, xlab='Tasa de crímenes contra la propiedad', ylab='Residuos ∙ ∙ ∙
estandarizados', cex.lab=1,family='NewCenturySchoolbook') Yorba Linda 66,4 1556,2
>title(main=paste("Residuos estandarizados versus ", "tasa de crímenes contra la Yuba County Sheriff Dept 398,6 2043,4
propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Yuba City Police Dept 395,9 3091,4
>x < seq( 0, 9000, length = 100)
Yucaipa 100,7 1770,5
>lines(x, xx, type="l", col= 'red', lwd=3)
Yucca Valley 354,7 2698,3
FUENTE:
http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm
61
GRÁFICA Nº 52 GRÁFICA Nº 53
Hagamos un ranking de las observaciones X i comenzando con sus menores valores (tabla nº31) y
omitamos un sexto de las observaciones centrales (c=66) estableciendo dos grupos con 165 observaciones cada
uno ((nc)/2).
Obtengamos las respectivas sumas de los cuadrados de los residuos SCR1 referida a los menores
valores de X i el grupo de menor varianza, y SCR 2 , referida a los mayores valores de X i el grupo de
mayor varianza) (tabla nº32 y nº33 respectivamente):
SALIDA Nº34
Para SCR1 :
Analysis of Variance Table
>a< read.table('a.txt') Response: a$V1
>a1 < (lm(a$V1~a$V2))
Df Sum Sq Mean Sq F value Pr(>F)
>anova(a1)
a$V2 1 1235655 1235655 43.577 5.468e10 ***
Residuals 163 4621964 28356
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
62
Problemas en el análisis de regresión: Heterocedasticidad
SALIDA Nº35
Response: a$V1 >a< read.table('a.txt')
Df Sum Sq Mean Sq F value Pr(>F) >a1 < (lm(a$V1~a$V2))
a$V2 1 3179031 3179031 41.884 1.085e09 *** >anova(a1)
Residuals 163 12371907 75901
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
n−c 396−66
siendo los grados de libertad de cada SCR: −k= −2= 163
2 2
SCR 2 12371907
Calculemos la siguiente fracción: = = = 2,677
SCR1 4621964
Calculemos F con R con (k1) y (nk) grados de libertad:
>qf(0.95,1,394)
[1] 3.865169 2,677< 3,8652
Así, con un 95% de confianza, no se puede afirmar la existencia de heteroscedasticidad.
3.2.2.2.3 El test de KoenkerBassett.
2
El test de KB se basa en el cuadrado de los residuos e i , pero en vez de correr la regresión sobre uno o
más regresores, se hace sobre el cuadrado del valor estimado del regresando Y2 . i
Así, si el modelo original es: Y i = b0 b1 X 1i b2 X 2i...b k X kii
Corremos una regresión obteniendo: Y i = b0 b1 X 1i b2 X 2i... b k X kie i
Y corremos una regresión nuevamente pero de e sobre Y2 obteniendo:
2
i i
Ejemplo Nº12: Obesos versus actividad física.
BASE DE DATOS Nº 11
La base de datos nº11 nos entrega como variable dependiente, el
porcentaje de población obesa Yi y como independiente, el porcentaje de Estado Yi Xi
población que en una encuesta responde hacer ejercicios Xi para 53 Estados
Alabama 32,2 70,5
Norteamericanos2 para el año 2008.
Alaska 27 75,9
Grafiquemos los datos, la recta de regresión a ellos asociada y los residuos Arizona 25,5 76,8
versus la variable independiente: Arkansas 29,5 70,2
California 24,2 76,6
>a < read.table('a.txt') ∙ ∙ ∙
>par(bg = "Ivory 2") ∙ ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Cantidad de gente que hace ejercicios %', ylab='Cantidad de obesos %',
∙ ∙ ∙
cex.lab=1,family='NewCenturySchoolbook')
Virgin Islands 26,5 66,8
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Relación ejercicio Washington 26 80,6
obesidad"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') West Virginia 31,9 68,9
Wisconsin 26 77,9
>a1 < (lm(a$V1~a$V2)) Wyoming 25,2 75,6
>plot(a$V2,residuals(a1), col=3, xlab='% de población que hace ejercicios', ylab='Residuos', FUENTE:
main='Residuos versus % de población que hace ejercicios') http://apps.nccd.cdc.gov/brfss
2 Excluímos el Estado libre asociado de Puerto Rico.
63
GRÁFICA Nº 54 GRÁFICA Nº 55
SALIDA Nº36 2
Determinemos los e i y los TABLA Nº34
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,51)
[1] 2.007584 Nuestro parámetro estimado no es significativo al 5%, por lo que hay homocedasticidad.
3.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD
GRÁFICA Nº56
La heterocedasticidad no acaba con las propiedades
insesgadas y consistentes de los estimadores por MCO, pero no los
hace los más eficientes, ni siquiera asintóticamente (por ejemplo
en una muestra de gran tamaño). Esta ausencia de eficiencia
produce estimaciones sesgadas de los errores standard (lo que
provoca pruebas estadísticas e intervalos de confianza
incorrectos), por lo que esta situación debe ser remediada.
Y i = b0 b1 X i i
2 2 2
Supongamos que el patrón de heterocedasticidad sigue la forma: E i = X i , esto es, la varianza
2
del error es proporcional a X i (gráfica nº57).
64
Problemas en el análisis de regresión: Heterocedasticidad
GRÁFICA Nº 57
Entonces podemos transformar el modelo original como sigue:
Yi b 0 b
Y i = b0 b1 X i i /X i = b 1 i = 0 b1 V i (92)
Xi Xi Xi Xi
i
donde V i es el término del error transformado, igual a
Xi
2
2 1 i
Resulta fácil verificar que: E V i = E 2
E 2i = 2
=
Xi Xi
Por lo tanto ahora V i es homocedática y podemos aplicar el método
de MCO a la ecuación:
Yi b 0 i Yi 1
= b 1 corriendo una regresión de sobre
Xi Xi Xi Xi Xi
Ejemplo Nº13: Solución de la heterocedasticidad del ejemplo 10.
>a < read.table('a.txt') # Leemos los datos de la tabla nº35 #
>a1 < lm(a$V1~a$V2)
>residuals(a1)*residuals(a1) # Obtenemos los residuos al cuadrado#
>a < read.table('a.txt') # Leemos las dos últimas columnas de la tabla nº36 #
>a1 < lm(a$V1~a$V2)
>summary(a1)
SALIDA Nº37
Call:
lm(formula = a$V1 ~ a$V2)
Nuestro valor crítico t para un 95% de significación es: Residuals:
Min 1Q Median 3Q Max
>qt(0.975,46) 5.5803 0.3668 0.3399 1.0647 2.7727
[1] 2.012896 por lo que nuestro parámetro estimado no es
Coefficients:
significativo al 5% y las variables no presentan
Estimate Std. Error t value Pr(>|t|)
heterocedasticidad. (Intercept) 9.6211 6.8371 1.407 0.1661
a$V2 1.0072 0.5317 1.894 0.0645 .
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.919 on 46 degrees of freedom
Multiple Rsquared: 0.07237,Adjusted Rsquared: 0.0522
Fstatistic: 3.589 on 1 and 46 DF, pvalue: 0.06447
65
3.3 MULTICOLINEALIDAD
3.3.1 ¿QUÉ ES LA MULTICOLINEALIDAD?
Un supuesto importante del modelo de regresión lineal por MCO establece que no existen relaciones
lineales exactas entre los regresores o variables independientes (los regresores no son exactamente colineales).
De haberlas, surge un problema llamado multicolinealidad perfecta1. Éste supuesto es necesario para el cálculo
del vector de estimadores de los parámetros verdaderos, ya que en caso contrario X ' X será singular (no
tendrá inversa) y nos resultará imposible determinar b= X ' X−1 X ' Y . Los coeficientes así resultantes serán
indeterminados y sus errores standard infinitos. Cuando dos o más regresores están altamente correlacionados en
la muestra, se hace muy difícil separar el efecto parcial de cada uno de ellos sobre la variable dependiente.
Un conjunto k de variables predictoras X 1i , X 2i , ..., Xki son perfectamente multicolineales si para k
constantes C0 , C 1 , C 2 , ..., Ck que no son cero simultáneamente, se cumple la siguiente condición:
Asumamos que Ck ≠ 0 , entonces, para el caso de perfecta multicolinealidad:
j=k−1
C0− ∑ Cj X j
(94)
j=1
X ki=
Ck
La expresión anterior muestra que X ki es combinación lineal de todos los demás regresores. Se hace
entonces así imposible calcular las estimaciones por MCO de los parámetros, porque el sistema de ecuaciones
normales contendrá una o más ecuaciones que no son independientes.
GRÁFICA Nº58
La multicolinealidad perfecta casi no ocurre en la
práctica. Lo que si suele suceder es la existencia de una relación
aproximadamente lineal, no exacta, entre dos o más variables
exógenas. Cuando esto ocurre, los estimadores obtenidos son
poco precisos, aunque sus propiedades de insesgadez, eficiencia
y consistencia no se ven afectadas, esto es, los estimadores por
MCO siguen siendo los MELI. Sin embargo, a pesar de que las
varianzas de los estimadores por MCO son las mínimas posibles
(son eficientes) son mayores que las que se lograrían en ausencia
del problema de multicolinealidad.
En los siguientes gráficos los círculos representan las
variaciones tanto de las variables dependientes, como de la
independiente. El grado de colinealidad puede medirse por la
extensión de las intersecciones entre los círculos X 1 y X 2 .
GRÁFICAS Nº 59
No existe colinealidad Existe una baja colinealidad Existe una alta colinealidad Casi perfecta colinealidad
1 El efecto totalmente contrario a la multicolinealidad perfecta es la ortogonalidad, en el que el coeficiente de correlación simple entre dos
variables es cero. En la ortogonalidad, el efecto que una variable tiene sobre la respuesta se mide de manera totalmente independiente del
efecto individual que otra variable tenga sobre la misma.
66
Problemas en el análisis de regresión: Multicolinealidad
La multicolinealidad puede afectar a dos regresores (el caso más simple de todos), a un subconjunto o
incluso a todos, estando frecuentemente presente en series de tiempo (por ejemplo, la población y el PIB suelen
estar altamente correlacionados)
3.3.1.1 ¿Por qué se produce?
La multicolinealidad es, en cierto sentido, un fenómeno inevitable. En un sistema social es muy difícil
suponer la ausencia de relación entre sus distintos elementos. Por el contrario, la sociología se apoya en la idea
de la existencia de interrelaciones entre las variables de los sistemas sociales analizados.
Suele aparecer cuando:
3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD.
1. Se hace difícil cuantificar con precisión el efecto que cada regresor ejerce sobre el regresando,
debido a que los errores estándar de los coeficientes estimados son elevados, es decir, tienden a ser mayores de
lo que serían si no hubiera multicolinealidad.
Producto de lo anterior, el valor del estadístico para realizar contrastes de significación individual:
b j −b j b j
t= (95)
S b j Sb j
tiende a ser pequeño, aumentando así la probabilidad de no rechazar la hipótesis nula. Es así que se suele
concluir que los coeficientes estimados no son significativas individualmente y llegar a la conclusión errónea de
que la variable independiente X i no es importante en el modelo.. El problema no reside en que los contrastes
no sean correctos estadísticamente, sino en que no estimamos con suficiente precisión esos efectos individuales.
2
En presencia de multicolinealidad es común obtener valores altos de R j aún cuando los valores de los
estadísticos t de significación individual sean bajos. El problema reside en la identificación del efecto individual
de cada variable explicativa, no tanto en su conjunto. Por eso, si se realiza un contraste de significación conjunta
de las variables explicativas, el resultado normalmente será rechazar la hipótesis nula aunque individualmente
cada una de ellas no sea significativa.
2. En el caso de existencia de multicolinealidad exacta, los parámetros no pueden estimarse ya
que, al existir dentro de la matriz X de observaciones de variables exógenas una combinación lineal de éstas,
no puede ser invertida, de esta manera, X ' X tampoco tendrá inversa haciendo imposible calcular la expresión
del estimador mínimo cuadrático: b= X ' X −1 X ' Y
3. Pequeños cambios en los datos o en la especificación provocan grandes cambios en las
estimaciones de los coeficientes. Los parámetros sean muy inestables y fluctúan de forma importante al introducir
nueva información. Efectivamente, al ser el parámetro más imperfecto, al presentar mayor rango de variación,
una nueva estimación puede arrojar valores muy diferentes al anterior.
4. Las estimaciones de los coeficientes suelen presentar signo distintos a los esperados y magnitudes
poco razonables.
2 Esta situación la estudiaremos en detalle en la sección 4, capítulo 1: '' Variables Dummy'.
67
3.3.3 ¿CÓMO SE IDENTIFICA LA MULTICOLINEALIDAD?
La multicolinealidad es una característica de la muestra (está asociada a la configuración concreta de
la matriz X ) y no de la población, por lo tanto, no existe un contraste estadístico que sea aplicable para su
detección. Además, como hemos visto, la multicolinealidad es una cuestión de grado y no de presencia o
ausencia. No obstante, podemos detectarla con algunas reglas prácticas (aunque no siempre fiables) o medirla
para una muestra particular con el Factor de inflación de la varianza.
Debemos sospechar la existencia de multicolinealidad cuando:
1. Hay coeficientes de regresión significativos con valores muy grandes o de signo opuesto al esperado.
2. Los coeficientes estimados asociados a las variables independientes que se esperaba fuesen
importantes, tienen valores de t pequeños aunque F informe que 'existe modelo' y R 2 sea alta. Este es un signo
clásico de multicolinealidad.
3. La incorporación o eliminación de una fila o columna de la matriz X produce grandes cambios en la
magnitud de los coeficientes.
4. Los coeficientes de correlación muestral simples entre todas las parejas de variables predictoras son
muy altas. Las correlaciones entre variables deben ser bajas, aunque no hay un límite fijo a partir del cual
podamos hablar de multicolinealidad; ese límite debe establecerse desde el sentido común y según las
circunstancias de análisis específicas. Así por ejemplo un mismo valor de un coeficiente de correlación implica
distinto grado de correlación según el tamaño muestral; en muestras de tamaño elevado, una correlación
aparentemente pequeña (0,30,4) implica la existencia de una evidente multicolinealidad o bien una correlación
moderada pero no esperada a priori desde el punto de vista teórico puede estar avisando de algún defecto en
la especificación o el tratamiento de los datos.
En todo caso, si se desea una regla general, una práctica habitual consiste en establecer la R 2 del
modelo original como límite de la correlación observada entre dos o más variables: diremos que existe
multicolinealidad cuando existan correlaciones entre las variables superiores al coeficiente de determinación del
modelo. Sin embargo, debemos recordar nuevamente las limitaciones de cualquier 'receta' de este tipo. Por
2
ejemplo, lógicamente diremos que existe multicolinealidad cuando, aún sin superar la R j del modelo, las
correlaciones sean mayores de un 0,7.
Aunque es condición suficiente para que exista multicolinealidad el que todos estos coeficientes sean
altos, lo contrario no es necesariamente cierto. Se puede dar el caso de tener una relación lineal casi perfecta
entre tres o más variables y sin embargo las correlaciones simples entre pares de variables no ser mayores que 0,5.
Supongamos que tenemos un modelo de 4 variables:
Por lo tanto, en modelos que involucran más de dos variables independientes, la correlación simple
puede no proveer una infalible vía para detectar la presencia de multicolinealidad. Por supuesto, si solo existen
dos variables independientes en el modelo, la correlación de orden cero es suficiente.
5. Realizando la regresión de cada una de los regresores sobre el resto (regresión auxiliar) y analizar los
coeficientes de determinación de cada regresión. Alguno o algunos de estos coeficientes de determinación
R 2j altos, estarían señalando la posible existencia de un problema de multicolinealidad.
3.3.3.1 El Factor de inflación de la varianza.
El factor de inflación de la varianza cuantifica la severidad de la multicolinealidad en un análisis de
regresión lineal por MCO. Provee un índice que mide en cuánto la varianza de un coeficiente de regresión
estimado se incrementa debido a la multicolinealidad.
68
Problemas en el análisis de regresión: Multicolinealidad
las demás variables predictoras y Sii = ∑ X − X
j=1
ij i
2
La ecuación (101) separa las influencias de los distintos factores que intervienen en la varianza de
coeficiente estimado. Así:
1. Cuanto mayor es 2 , esto es, cuanto mayor es la dispersión, mayor será la varianza del estimador.
2. Al aumentar el tamaño de la muestra, se reduce la varianza del estimador.
3. Cuanto menor sea la varianza muestral del regresor, mayor será la varianza del correspondiente
coeficiente estimado.
2
4. Cuanto mayor sea R j , es decir, cuanto mayor sea la correlación del regresor con el resto de lo
regresores, mayor será la varianza de b j
1
FIV j = Se denomina jésimo factor de inflación de la varianza y representa el (97)
1−R2j
incremento en la varianza debido a la presencia de multicolinealidad. Es la razón entre la varianza observada y la
que habría sido en caso de que X j no estuviera correlacionada con el resto de regresores del modelo. Muestra
en que medida se agranda la varianza del estimador como consecuencia de la no ortogonalidad de los
regresores. Debe tenerse presente que el FIV j no suministra ninguna información que pueda utilizarse para
corregir el problema.
Si las variables independientes no son redundantes (ortogonales), entonces FIV j = 1 R 2j = 0 3. Si los
2
regresores son multicolineales, FIV j = ∞ R j = 1 .
Si el FIV j es grande (mayor que 10), entonces puede haber multicolinealidad.
1
La tolerancia se define como: TOL j= = 1−R2j (98)
FIV j
La utilización de los coeficientes TOL j y VIF j para detectar la presencia de multicolinealidad ha
recibido múltiples críticas, porque la conclusión obtenida con estos valores no siempre recoge adecuadamente
la información de y problemas existentes en los datos. Tal y como hemos visto anteriormente, las varianzas de los
2 2
estimadores depende del VIF j , y ∑ X ji− X j , por lo que un alto VIF j no es condición suficiente ni
necesaria para que dichas varianzas sean elevadas.
Ejemplo Nº14 Índice de marginación, población indígena y BASE DE DATOS Nº12
% de analfabetismo en los municipios del Estado de Chiapas,
México. Municipio Yi X 1i X 2i
3 Recordemos que R2 indica la existencia de una relación lineal.
69
GRÁFICA Nº 60
SALIDA Nº 38
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
1.23973 0.27460 0.05131 0.25093 1.63512
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.347757 0.113054 3.076 0.00262 **
a$V2 0.003411 0.002227 1.532 0.12828
a$V3 0.039641 0.004997 7.932 1.56e12 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4271 on 115 degrees of freedom
Multiple Rsquared: 0.6595,Adjusted Rsquared: 0.6535
Fstatistic: 111.3 on 2 and 115 DF, pvalue: < 2.2e16
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,115)
[1] 1.980808
Determinemos la existencia de multicolinealidad.
En primer lugar ejecutemos regresiones de Yi sobre X1i (salida nº39) y de Yi sobre X 2i
(salida nº40)
>a1 < (lm(a$V1~a$V2)) >a1 < (lm(a$V1~a$V3))
>summary(a1) >summary(a1)
SALIDA Nº39 SALIDA Nº40
Call: Call:
lm(formula = a$V1 ~ a$V2) lm(formula = a$V1 ~ a$V3)
Residuals: Residuals:
Min 1Q Median 3Q Max Min 1Q Median 3Q Max
1.74628 0.30991 0.02496 0.24031 2.12295 1.19279 0.29527 0.02594 0.26905 1.72302
Coefficients: Coefficients:
Estimate Std. Error t value Pr(>|t|) Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.446136 0.065111 6.852 3.72e10 *** (Intercept) 0.435657 0.097975 4.447 2.01e05 ***
a$V2 0.017329 0.001698 10.207 < 2e16 *** a$V3 0.045674 0.003095 14.759 < 2e16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5289 on 116 degrees of freedom Residual standard error: 0.4296 on 116 degrees of freedom
Multiple Rsquared: 0.4731,Adjusted Rsquared: 0.4686 Multiple Rsquared: 0.6525,Adjusted Rsquared: 0.6495
Fstatistic: 104.2 on 1 and 116 DF, pvalue: < 2.2e16 Fstatistic: 217.8 on 1 and 116 DF, pvalue: < 2.2e16
Podemos sospechar la existencia de multicolinealidad, ya que los coeficientes estimados de las variables
independientes son muy significativos a un 95% en las regresiones de Yi sobre X1i y de Yi sobre X 2i
(10,207 y 14,759 respectivamente), pero en la regresión múltiple original (salida nº38), el parámetro estimado de
X1i resulta no ser significativo, siendo R 2 relativamente alta (0,6595) y F= 111,3 informándonos la 'existencia'
de modelo.
70
Problemas en el análisis de regresión: Multicolinealidad
Analicemos los coeficientes de correlación simple entre todas las parejas de variables predictoras:
>cor(a) SALIDA Nº41
La correlación entre las variables es alta (0.808), superando el
2 V1 V2 V3
R = 0,6595 del modelo original. V1 1.0000000 0.6878547 0.8077816
V2 0.6878547 1.0000000 0.7879961
V3 0.8077816 0.7879961 1.0000000
Encontremos el factor de inflación de la varianza.
SALIDA Nº42
>a1 < (lm(a$V1~a$V2+a$V3))
>library(car)4 a$V2 a$V3
>vif(a1) 2.638090 2.638090
Ejemplo Nº15: Función CobbDouglas de la economía chilena (19862000).
BASE DE DATOS Nº13
La base de datos Nº13 nos entrega los valores del PIB Yi , Año Yi X 1i X 2i
SALIDA Nº43
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
362.53 140.95 25.47 139.97 356.03
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.697e+03 1.062e+03 5.365 0.000169 ***
a$V2 2.290e01 3.957e02 5.788 8.64e05 ***
a$V3 1.661e+00 2.957e01 5.617 0.000113 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 212.3 on 12 degrees of freedom
Multiple Rsquared: 0.9877,Adjusted Rsquared: 0.9857
Fstatistic: 483.5 on 2 and 12 DF, pvalue: 3.393e12
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,12)
[1] 2.178813
4 Debemos instalar el paquete car. En R escribimos >install.packages(), seleccionamos un espejo desde el cual bajarlo y lo llamamos con
>library(car).
71
Determinemos la existencia de multicolinealidad.
SALIDA Nº44
Analicemos los coeficientes de correlación muestral simples entre
V1 V2 V3
todas las parejas de variables predictoras:
V1 1.0000000 0.9775036 0.9764859
V2 0.9775036 1.0000000 0.9327449
>cor(a)
V3 0.9764859 0.9327449 1.0000000
Coefficients: Encontremos el factor de inflación de la varianza.
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.289e+04 3.885e+03 5.891 5.31e05 *** >a1 < (lm(a$V1~a$V2+a$V3)) SALIDA Nº46
a$V3 6.969e+00 7.471e01 9.328 4.01e07 *** >library(car)
>vif(a1) a$V2 a$V3
7.693082 7.693082
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Ejemplo Nº16: Crímenes contra la propiedad y crímenes violentos en el Estado de Nevada, EE.UU. (1960
1980).
BASE DE DATOS Nº14
>a1 < (lm(a$V1~a$V2+a$V3+a$V4+a$V5))
>summary(a1)
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,16)
[1] 2.119905
Resulta que sólo el coeficiente que acompaña a X 4i es significativo y más sorprendente aún, el que
acompaña a X1i tiene signo negativo. Esto no parece tener sentido al ver la gráfica nº62.
72
Problemas en el análisis de regresión: Multicolinealidad
GRÁFICA Nº 62
SALIDA Nº47
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4 + a$V5)
Residuals:
Min 1Q Median 3Q Max
324.76 226.37 60.68 191.86 706.62
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2806.063 275.315 10.192 2.11e08 ***
a$V2 65.081 42.701 1.524 0.146999
a$V3 13.036 19.776 0.659 0.519152
a$V4 4.698 2.963 1.586 0.132395
a$V5 9.903 2.092 4.734 0.000224 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 305.3 on 16 degrees of freedom
Multiple Rsquared: 0.975,Adjusted Rsquared: 0.9688
Fstatistic: 156.2 on 4 and 16 DF, pvalue: 1.331e12
>a1 < (lm(a$V1~a$V2)) >a1 < (lm(a$V1~a$V3))
>summary(a1) >summary(a1)
SALIDA Nª48 SALIDA Nª49
Call: Call:
lm(formula = a$V1 ~ a$V2) lm(formula = a$V1 ~ a$V3)
Residuals: Residuals:
Min 1Q Median 3Q Max Min 1Q Median 3Q Max
1713.4 737.1 102.3 406.8 2147.4 917.30 278.33 55.66 277.33 960.79
Coefficients: Coefficients:
Estimate Std. Error t value Pr(>|t|) Estimate Std. Error t value Pr(>|t|)
(Intercept) 1041.59 673.24 1.547 0.138 (Intercept) 2642.57 216.69 12.20 1.97e10 ***
a$V2 384.88 56.51 6.811 1.67e06 *** a$V3 89.89 6.09 14.76 7.31e12 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 955.5 on 19 degrees of freedom Residual standard error: 502.1 on 19 degrees of freedom
Multiple Rsquared: 0.7095,Adjusted Rsquared: 0.6942 Multiple Rsquared: 0.9198,Adjusted Rsquared: 0.9156
Fstatistic: 46.39 on 1 and 19 DF, pvalue: 1.674e06 Fstatistic: 217.8 on 1 and 19 DF, pvalue: 7.314e12
>a1 < (lm(a$V1~a$V4)) >a1 < (lm(a$V1~a$V5))
>summary(a1) >summary(a1)
SALIDA Nª50 SALIDA Nª51
Call: Call:
lm(formula = a$V1 ~ a$V4) lm(formula = a$V1 ~ a$V5)
Residuals: Residuals:
Min 1Q Median 3Q Max Min 1Q Median 3Q Max
1134.04 260.49 67.28 256.49 954.38 572.29 130.76 13.15 181.92 927.54
Coefficients: Coefficients:
Estimate Std. Error t value Pr(>|t|) Estimate Std. Error t value Pr(>|t|)
(Intercept) 2363.1800 221.4738 10.67 1.83e09 *** (Intercept) 2562.0368 146.8661 17.45 3.76e13 ***
a$V4 14.5729 0.9368 15.56 2.90e12 *** a$V5 14.3974 0.6433 22.38 4.09e15 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 478.3 on 19 degrees of freedom Residual standard error: 338.9 on 19 degrees of freedom
Multiple Rsquared: 0.9272,Adjusted Rsquared: 0.9234 Multiple Rsquared: 0.9635,Adjusted Rsquared: 0.9615
Fstatistic: 242 on 1 and 19 DF, pvalue: 2.898e12 Fstatistic: 500.9 on 1 and 19 DF, pvalue: 4.087e15
73
Podemos sospechar la existencia de multicolinealidad, ya que los coeficientes de las variables
independientes son muy significativos a un 95% en las 4 regresiones anteriores (6.811, 14.76, 15.56 Y 22.38
respectivamente).
Analicemos los coeficientes de correlación simples entre todas las parejas de variables predictoras
(salida nº52):
SALIDA Nº52
>cor(a)
V1 V2 V3 V4 V5
La correlación entre los regresores es alta, V1 1.0000000 0.8422917 0.9590489 0.9629110 0.9815558
superando las correlaciones entre X 2i y X 3i el R 2 V2 0.8422917 1.0000000 0.9044769 0.8938066 0.8612384
del modelo original. V3 0.9590489 0.9044769 1.0000000 0.9767272 0.9562189
V4 0.9629110 0.8938066 0.9767272 1.0000000 0.9537829
V5 0.9815558 0.8612384 0.9562189 0.9537829 1.0000000
Encontremos el factor de inflación de la varianza
SALIDA Nº53
>a1 < (lm(a$V1~a$V2+a$V3+a$V4+a$V5))
>library(car) a$V2 a$V3 a$V4 a$V5
>vif(a1) 5.59514 28.52305 24.55465 13.03072
Los regresores X 2i X 3i y X 4i presentan gran multicolinealidad.
3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD
Ya hemos señalado que el problema de la multicolinealidad es un problema de grados, por lo que las
medidas que aquí se proponen deben tomarse siempre y cuando su severidad sea tan importante como para
que una o varias variables del modelo de regresión que se supone sean relevantes, se presenten como
estadísticamente no significativas. Si existe multicolinealidad en un grado leve, puede continuarse el trabajo de
análisis sin adoptar medidas para corregir el problema.
Si se trata de un problema de multicolinealidad casi perfecta, es razonable pensar que ésta se debe a la
incorporación de dos regresores que miden el mismo concepto pero de forma alternativa o bien están indicando
un concepto más abstracto que el que se supone hacen independientemente cada una de ellas 5. En el primer
caso se sugiere revisar el proceso de operacionalización de los conceptos y suprimir la redundancia hallada, en
el segundo, determinar un índice mediante alguna técnica, desde la más simple, como un índice sumatorio
simple, hasta uno más complejo, como un índice calculado sobre la base de un análisis factorial para suprimir
esta multicolinealidad.
Los métodos más comunes son6:
1. Eliminación de variables: Cuando nos encontramos con una fuerte multicolinealidad, una de las cosas más
simples que se pueden hacer es desechar las variables más colineales 7. El inconveniente es que ésta es una
medida que puede provocar otro tipo de problemas, ya que si la variables que eliminamos del modelo realmente
sí son significativas8, estamos omitiendo una variable relevante. Por consiguiente, los estimadores de los
coeficientes del modelo y de su varianza serían sesgados y así la inferencia realizada no sería válida.
Si estamos ante un problema de información repetida, una solución resulta transformar dos o más
variables correlacionadas en una combinación de las mismas. A este respecto es útil la técnica del análisis
multivariable factorial.
2. Aumento del tamaño de la muestra o cambiar de muestra: Teniendo en cuenta que un cierto grado de
multicolinealidad acarrea problemas cuando aumenta ostensiblemente la varianza muestral de los estimadores,
las soluciones deben ir encaminadas a reducir esta varianza introduciendo observaciones adicionales. Solución
no siempre viable.
Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede ser que con
nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea consiste en conseguir datos menos
correlacionados que los anteriores. De todas formas, no siempre resulta fácil obtener mejores datos por lo que
muy probablemente debamos convivir con el problema teniendo cuidado con la inferencia realizada y las
5 Por ejemplo, las variables independientes como alfabetización, urbanización, empleo en el sector el servicios, teléfonos por habitante,
mortalidad infantil, etc., en el análisis de una región determinada, pueden presentar fuerte multicolinealidad porque representan conjuntamente
el concepto más abstracto de “modernización”.
6 La elección de estas alternativas depende de la severidad de la multicolinealidad encontrada.
7 En presencia de multicolinealidad, una medida para resolver este problema bastante lógica puede ser quitar del modelo aquellas variables con
más alto VIF ( o más baja tolerancia).
8 Son variables que deben estar incluídas en el modelo de regresión.
74
Problemas en el análisis de regresión: Multicolinealidad
conclusiones de la misma.
3. Utilización de ratios: En lugar del regresando y los regresores del modelo original, se pueden utilizar ratios con
respecto al regresor que posea mayor colinealidad. Esto puede hacer que la correlación entre los regresores del
modelo disminuya. Pero se debe tener cuidado: estos ratios pueden ser heterocedáticos.
4. Utilizando información a priori.
¿De donde obtenemos la información a priori? Puede provenir de trabajos empíricos previos en los que el
problema de la colinealidad parezca ser menos serio o de teoría relevante subyacente al campo de estudio
(como en el caso de los retornos a escala constantes).
75
4.1 FORMAS FUNCIONALES
4.1.1 INTRODUCCIÓN
Frecuentemente en las ciencias sociales nos encontramos con variables cuyas relaciones entre sí no son
lineales. Este es el caso por ejemplo, de la relación entre el PIB per cápita y la esperanza de vida en los países del
mundo o la tasa de crecimiento demográfico en los países en vías de desarrollo durante el siglo XX. Al
encontrarnos con estos casos, muchas veces podremos transformar las variables para obtener funciones lineales
en los parámetros, sobre las cuales podremos aplicar el método de MCO y así obtener una ecuación de
regresión lineal.
Es importante señalar que el primer paso para escoger la forma funcional adecuada para una relación
no lineal entre variables es recurrir a lo que la teoría social bajo la cual estudiamos nuestras variables señala.
Algunas de las relaciones no lineales más comunes entre variables y sus transformaciones son las
siguientes:
b1
4.1.2 FORMA DOBLELOG: Y= b 0 X e (99)
Esta forma aparece cuando nos encontramos con variables que crecen a un ritmo exponencial.
Aplicando logaritmos la forma (76): ln Y= ln b 0b1 ln X o bien: Y= elnb b ln X 0 1
ecuación a la que ya podemos aplicar el método de MCO ya conocidos. La ecuación de regresión así obtenida
será:
Y✳ = b ✳0 b1 X ✳ o bien lnY= ln b 0 b1 ln X Aplicando un exponencial obtenemos:
b ln X
lnb
Y= e 0 1
(100)
Aspectos teóricos.
TABLA Nº37
Supongamos que nos encontramos con una relación matemática perfecta entre dos
variables de la forma Y= e 1−ln X , función que nos es desconocida. Tenemos sin embargo, los
Yi Xi
valores que estas dos variables asumen y que se muestran en la tabla Nº37. Grafiquemos con R
2,718 1 los puntos y la recta de regresión lineal aplicada a ellos:
1,359 2
0,906 3 >a < read.table('a.txt')
>par(bg = "Ivory 2")
0,680 4
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')
0,544 5
>abline(lm(a$V1~a$V2), lwd=3, col='red')
∙ >title(main=paste("Forma doblelog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
∙ >jpeg(file='a.jpeg', width=500, height=500)
∙ >par(bg = "Ivory 2")
0,170 16 >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')
0,160 17 >abline(lm(a$V1~a$V2), lwd=3, col='red')
0,151 18 >title(main=paste("Forma doblelog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
0,143 19 >dev.off()
0,136 20
y obtengamos los parámetros estimados de la regresión:
>a1 < (lm(a$V1~a$V2))
>summary(a1)
1,2519 −0,0727 X
Y= R 2= 0,473
6,111 −4,249
Sospechamos que nos encontramos en presencia de una relación doble log. Lo que tenemos que hacer
por lo tanto, es transformar ambas variables en sus respectivos logaritmos y correr una regresión sobre ellas.
76
Problemas en el análisis de regresión: Formas funcionales
GRÁFICA Nº63
SALIDA Nº54
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
0.3630 0.2853 0.1130 0.1592 1.5390
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.25194 0.20487 6.111 8.99e06 ***
a$V2 0.07266 0.01710 4.249 0.000483 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.441 on 18 degrees of freedom
Multiple Rsquared: 0.5007, Adjusted Rsquared: 0.473
Fstatistic: 18.05 on 1 and 18 DF, pvalue: 0.000483
TABLA Nº38
Grafiquemos las nuevas variables (tabla nº38), la recta de regresión lineal aplicada sobre ln Y i ln X i
ellas y apliquemos una regresión para obtener los coeficientes:
1.000 0.000
>a < read.table('a.txt') 0.307 0.693
>par(bg = "Ivory 2") 0.099 1.099
>plot(a$V2, a$V1, col=3, xlab='LnX', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook') 0.386 1.386
>abline(lm(a$V1~a$V2), lwd=3, col='red') 0.609 1.609
>title(main=paste("Forma doblelog:", "LnY versus LnX",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
∙ ∙
∙ ∙
>a1 < (lm(a$V1~a$V2))
∙ ∙
>summary(a1)
1.773 2.773
1.833 2.833
1.890 2.890
GRÁFICA Nº64 1.944 2.944
1.996 2.996
SALIDA Nº55
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
3.045e16 9.394e17 4.092e17 6.958e17 3.105e16
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1 1.094e16 9.143e+15 <2e16 ***
a$V2 1 4.839e17 2.066e+16 <2e16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.714e16 on 18 degrees of freedom
Multiple Rsquared: 1, Adjusted Rsquared: 1
Fstatistic: 4.27e+32 on 1 and 18 DF, pvalue: < 2.2e16
77
Como Y✳ = b ✳0b1 X ✳ es equivalente a Y=
b ln X
lnb
e , tenemos para nuestro ejemplo que
0 1
4.1.2.1 La función CobbDouglas.
En economía, una forma funcional clásica es la función CobbDouglas. Es de las más usadas por ser una
de las que más se acerca a la realidad económica.
Esta función resultó de la observación empírica de la distribución del PIB entre capital y trabajo en los
EE.UU. Los datos mostraron evidencia de una relación de la forma:
Q= A ∙K b ∙L b ∙ e donde:
1 2
Q = Producción total (el valor monetario de todos los bienes y servicios producidos durante un año o
PIB).
K = Stock de capital.
L = Stock de trabajo.
A = Productividad total de los factores (o la tecnología en un momento dado en un sociedad), y
b1 y b2 = Elasticidades del producto en relación al capital y al trabajo, respectivamente.
(La función CobbDouglas también aparece en la relación entre la cantidad demandada de una
b b
mercancía (Q), su precio (P) y el ingreso de los consumidores (Y): Q= b0 ∙P ∙ Y ∙e ) 1 2
4.1.2.2 La definición de la elasticidad.
Al aplicar una regresión lineal a un modelo CobbDouglas, obtenemos que los parámetros estimados de
la ecuación de regresión corresponden a las elasticidades de la variable dependiente respecto a las
independientes. Derivemos las fórmulas de las elasticidades para la relación entre la cantidad demandada de
b b
una mercancía (Q), su precio (P) y el ingreso de los consumidores (Y): Q= b0 ∙P ∙ Y ∙e . 1 2
a) b1 es la elasticidad de la demanda respecto al precio o P
∂Q P
Por definición: P= ∙
∂P Q
∂Q b −1 b b b Q
La derivada parcial de la función Q respecto a P es = b1 b0 P Y e = b1 b 0 P Y e P−1= b1
1 2 1 2
∂P P
∂Q Q P
sustituyendo el valor de dentro de la fórmula para P obtenemos: P= b 1 ∙ = b1
∂P P Q
78
Problemas en el análisis de regresión: Formas funcionales
b) b2 es la elasticidad de la demanda respecto al ingreso o Y
∂Q Y
Por definición Y = ∙
∂Y Q
∂Q b b −1 b b Q
La derivada parcial de la función Q respecto a Y es = b 2 b0 P Y e = b 2 b0 P Y e Y −1 = b2
1 2 1 2
∂Y Y
∂Q Q Y
sustituyendo el valor de dentro de la fórmula para Y obtenemos: Y = b2 ∙ = b2
∂Y Y Q
Ejemplo Nº17: Función CobbDouglas de la economía chilena (19862000).
SALIDA Nº56
TABLA Nº40
lm(formula = a$V1 ~ a$V2 + a$V3)
ln Y i ln X1i ln X 2i
Residuals:
8,137 9,066 8,359 Nuestro valor crítico t para un 95%
Min 1Q Median 3Q Max
8,201 9,088 8,383 de significación es:
0.057389 0.016945 0.001807 0.022291 0.042643
8,272 9,121 8,427
8,372 9,168 8,461 >qt(0.975,13)
8,408 9,224 8,481 [1] 2.160369 Coefficients:
∙ ∙ ∙ Estimate Std. Error t value Pr(>|t|)
∙ ∙ ∙
por lo que todos nuestros (Intercept) 10.62516 1.42407 7.461 7.62e06 ***
∙ ∙ ∙ parámetros estimados son a$V2 0.44246 0.09345 4.735 0.000485 ***
8,896 9,641 8,617 significativos al 5%. a$V3 1.76534 0.26166 6.747 2.05e05 ***
8,968 9,728 8,635
9,006 9,811 8,654 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
8,995 9,872 8,671
9,047 9,916 8,673 Residual standard error: 0.03204 on 12 degrees of freedom
Multiple Rsquared: 0.9911, Adjusted Rsquared: 0.9896
Fstatistic: 664.8 on 2 and 12 DF, pvalue: 5.123e13
79
b b
Como Q= b0 ∙K ∙ L nuestra ecuación de regresión final resulta: Q=
1 2 0,000024296 ∙K 0,4425 ∙ L 1,7653
Notemos que 0,4425+1,7653 > 1 por lo que nuestra economía para el periodo señalado presentó
rendimientos a escala crecientes.
Esta forma funcional representa un crecimiento exponencial simple, con lo que la podemos asociar de
una manera intuitivamente directa (si la variable independiente es el tiempo) a fenómenos como la oferta de
mercancías con nuevas tecnologías en países desarrollados, el inicio de la expansión de una enfermedad
infecciosa, etc.
Si ln Y= Y ✳ , Y = b0 b1 X con lo que nuestra ecuación de regresión queda de la siguiente
✳
Aspectos teóricos.
TABLA Nº41
Supongamos que nos encontramos con una relación matemática perfecta entre dos
X
variables de la forma: Y= e2 10 , función que nos es desconocida. Tenemos sin embargo, los Yi Xi
valores que estas dos variables asumen y se muestran en la tabla Nº41: 7,389 0
8,166 1
Grafiquemos con R los puntos y la recta de regresión lineal aplicada sobre ellos: 9,025 2
9,974 3
>a < read.table('a.txt') 11,023 4
>par(bg = "Ivory 2") ∙
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') ∙
>abline(lm(a$V1~a$V2), lwd=3, col='red') ∙
>title(main=paste("Forma semilog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 36,598 16
40,447 17
y obtengamos los parámetros estimados de la regresión: 44,701 18
49,402 19
>a1 < (lm(a$V1~a$V2)) 54,598 20
>summary(a1)
Nuestra ecuación de regresión resulta:
− 0,00830,4175 X 2
Y= R = 0,9306 GRÁFICA Nº66
−0,012 16,408
SALIDA Nº57
Call:
lm(formula = AAR2a$V1 ~ AAR2a$V2)
Residuals:
Min 1Q Median 3Q Max
3.0762 1.1554 0.3879 1.4216 1.7673
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.008332 0.706595 0.012 0.99
AAR2a$V2 0.417446 0.025442 16.408 1.12e12 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.634 on 19 degrees of freedom
Multiple Rsquared: 0.9341 Adjusted Rsquared: 0.9306
Fstatistic: 269.2 on 1 and 19 DF, pvalue: 1.125e12
b b X
Podemos especular que la función entre las variables es de la forma: Y=
e , por lo que
0 1
grafiquemos estas variables transformadas, la recta de regresión a ellas asociadas y apliquemos una regresión
para obtener los coeficientes:
80
Problemas en el análisis de regresión: Formas funcionales
TABLA Nº42
>a < read.table('a.txt')
>par(bg = "Ivory 2")
ln Y i Xi
>plot(a$V2, a$V1, col=3, xlab='X', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma semilog:", "LnY versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 2,0 0
2,1 1
>a1 < (lm(a$V1~a$V2)) 2,2 2
>summary(a1) 2,3 3
2,4 4
Obtenemos la ecuación: ∙
2 ∙
ln Y= 2 X/ 10 R =1
∙
1,884e+16 1,102e+16
3,6 16
3,7 17
X
la cual es equivalente a Y= 2 3,8 18
e 10 3,9 19
4,0 20
GRÁFICA Nº67
SALIDA Nº58
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
3.972e16 1.709e16 2.150e17 1.594e16 7.472e16
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2 1.061e16 1.884e+16 <2e16 ***
a$V2 0,1 9.078e18 1.102e+16 <2e16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.519e16 on 19 degrees of freedom
Multiple Rsquared: 1, Adjusted Rsquared: 1
Fstatistic: 1.213e+32 on 1 and 19 DF, pvalue: < 2.2e16
Por último grafiquemos nuestras variables originales (tabla nº41) con esta recta de regresión:
GRÁFICA Nº68
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y',
cex.lab=1,family='NewCenturySchoolbook')
>x < seq( 0 ,20,length = 100)
>lines(x, exp(2+(x/10)), type='l', col= 'red', lwd=3)
>title(main=paste("Forma semilog:", "Y versus
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
81
Ejemplo Nº18: La explosión demográfica en EE.UU. entre 1790 y 1960.
BASE DE DATOS Nº15
En el siglo XX Estados Unidos experimentó una de las explosiones demográficas
más grandes del mundo, que se explica, entre otras cosas, por una enorme inmigración. Yi Xi
La base de datos Nº15 nos entrega los valores de la cantidad de población
Y i y el año X 2i en EE.UU. entre 1790 y 1690. 3929214 1790
5308483 1800
7239881 1810
Grafiquemos las variables, la recta de regresión a ellas asociada y calculemos los 9638453 1820
coeficientes sobre estos datos: 12860702 1830
∙ ∙
>a < read.table('a.txt') ∙ ∙
>par(bg = "Ivory 2") ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de habitantes', cex.lab=1,family='NewCenturySchoolbook')
106021537 1920
>abline(lm(a$V1~a$V2), lwd=3, col='red')
123202624 1930
>title(main=paste("Forma semilog:", "Número de habitantes versus
Años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 132164569 1940
151325798 1950
>a1 < (lm(a$V1~a$V2)) 179323175 1960
>summary(a1) FUENTE:
http://www.census.gov/
Obtenemos la ecuación:
−1,83e+091,009e+06
Y=
2
R = 0.9206
−13,6 14.07
GRÁFICA Nº69
SALIDA Nº59
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
18776884 13317773 2941158 9177445 31141520
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.830e+09 1.345e+08 13.60 3.28e10 ***
a$V2 1.009e+06 7.173e+04 14.07 1.98e10 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 15790000 on 16 degrees of freedom
Multiple Rsquared: 0.9252, Adjusted Rsquared: 0.9206
Fstatistic: 198 on 1 and 16 DF, pvalue: 1.982e10
TABLA Nº43
b b X
Podemos especular que la función entre las variables es de la forma: Y= e , por 0 1
lo que corramos una regresión entre las siguientes variables transformadas (tabla nº43) y ln Y i Xi
grafiquemos la ecuación de regresión obtenida junto a las variables originales:
15.184 1790
15.485 1800
>a1 < (lm(a$V1~a$V2))
>summary(a1) 15.795 1810
16.081 1820
16.370 1830
>a < read.table('a.txt')
>par(bg = "Ivory 2") ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de habitantes', cex.lab=1,family='NewCenturySchoolbook') ∙ ∙
>x < seq( 1780, 1970, length = 100) ∙ ∙
>lines(x, exp(25.19 + 0.0227*(x)), type="l", col= 'red', lwd=3) 18.479 1920
>title(main=paste("Forma semilog:", "Número de habitantes versus 18.629 1930
Años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 18.700 1940
18.835 1950
Nuestra ecuación de regresión resulta entonces: Y=
e
b
b X
0 1
Y= e
−25,190,0227 X
19.005 1960
82
Problemas en el análisis de regresión: Formas funcionales
GRÁFICA Nº70
SALIDA Nº60
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
0.31942 0.15824 0.02600 0.17855 0.22418
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.519e+01 1.653e+00 15.24 6.00e11 ***
a$V2 2.271e02 8.811e04 25.78 1.85e14 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1939 on 16 degrees of freedom
Multiple Rsquared: 0.9765, Adjusted Rsquared: 0.975
Fstatistic: 664.4 on 1 and 16 DF, pvalue: 1.855e14
Aspectos teóricos. TABLA Nº44
Yi Xi
Supongamos que nos encontramos con una relación matemática perfecta entre dos
variables de la forma: Y=22 X3 X 3 , función que nos es desconocida. Tenemos sin 3018 10
embargo, los valores de estas dos variables asumen y que se muestran en la tabla nº44: 2203 9
1550 8
Grafiquemos estos datos con R, junto con la recta de regresión y obtengamos los 1041 7
parámetros estimados: 658 6
∙ ∙
>a < read.table('a.txt') ∙ ∙
>par(bg = "Ivory 2") ∙ ∙
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') 662 6
>abline(lm(a$V1~a$V2), lwd=3, col='red') 1045 7
>title(main=paste("Forma polinomial:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 1554 8
2207 9
SALIDA Nº61 3022 10
Call:
lm(formula = AAR7a$V2 ~ AAR7a$V1)
Residuals: >a1 < (lm(a$V1~a$V2))
Min 1Q Median 3Q Max >summary(a1)
1.026e+03 4.104e+02 5.476e14 4.104e+02 1.026e+03
Coefficients: La ecuación que obtenemos resulta:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.00 118.54 0.017 0.987
Y= 2 199,4 X R 2= 0,8371
AAR7a$V1 199.40 19.58 10.186 3.91e09 *** 0,017 10,186
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 543.2 on 19 degrees of freedom
Multiple Rsquared: 0.8452, Adjusted Rsquared: 0.8371
Fstatistic: 103.7 on 1 and 19 DF, pvalue: 3.910e09
83
GRÁFICA Nº71
Podemos especular que la función entre las variables es
de la forma: Y= b b X b W , por lo que grafiquemos las
0 1 2
variables originales junto con la recta de regresión asociada a
esta función .
Corramos una regresión sobre las variables señaladas en
la tabla nº45 y grafiquemos la ecuación de regresión obtenida
junto a los datos originales (tabla nº44):
>a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1)
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y',
cex.lab=1,family='NewCenturySchoolbook')
>x < seq( 10, 10, length = 100)
>lines(x, 2+2*x+3*x*x*x, type="l", lwd=3, col= 'red')
>title(main=paste("Forma polinomial:", "Y versus
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
SALIDA Nº62
TABLA Nº45 Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Yi Xi X 2i
Residuals:
3018 10 1000 Min 1Q Median 3Q Max
2203 9 729 1.727e13 4.891e14 1.020e14 6.577e14 1.344e13
1550 8 512
1041 7 343 Coefficients:
658 6 216 Estimate Std. Error t value Pr(>|t|)
∙ ∙ ∙ (Intercept) 2.000e+00 1.921e14 1.041e+14 <2e16 ***
∙ ∙ ∙ a$V2 2.000e+00 7.997e15 2.501e+14 <2e16 ***
∙ ∙ ∙ a$V3 3.000e+00 1.116e16 2.689e+16 <2e16 ***
662 6 216
1045 7 343 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
1554 8 512
2207 9 729 Residual standard error: 8.805e14 on 18 degrees of freedom
3022 10 1000 Multiple Rsquared: 1, Adjusted Rsquared: 1
Fstatistic: 2.336e+33 on 2 and 18 DF, pvalue: < 2.2e16
GRÁFICA Nº72
Nuestra ecuación de regresión resulta entonces:
Y i = 2 2 Xi 3X 2i R 2= 1
2,501e+14 2,2,689e+14
Y obtenemos exactamente la función que determina la
relación entre las variables originales: Y= 22 X3 W
84
Problemas en el análisis de regresión: Formas funcionales
Ejemplo Nº19: Diagnosticados con VIH en Norteamérica entre 1987 y el 2000.
BASE DE DATOS Nº16
Se estima que actualmente más de un millón de personas han sido
diagnosticadas con VIH en los EE.UU., constituyendo este virus uno de los problemas de Yi Xi
salud pública más importantes que afecta a ese país. No obstante, con el descubrimiento
de terapias más eficaces, el mayor conocimiento por parte de la comunidad médica de 29105 1987
las infecciones oportunistas y las campañas de uso del preservativo, a partir de 1995 tanto 36126 1988
43499 1989
las defunciones por SIDA como los diagnosticados con VIH se han reducido
49546 1990
notablemente.
60573 1991
La base de datos nº16 nos entrega los valores del número de diagnosticados con ∙ ∙
VIH Y i entre 1987 y el 2000 Xi en EE.UU. ∙ ∙
Grafiquemos estos datos con R, y la recta de regresión a ellos asociada. ∙ ∙
61124 1996
>a < read.table('a.txt') 49379 1997
>par(bg = "Ivory 2") 43225 1998
>plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de diagnoticados con VIH', 41356 1999
cex.lab=1,family='NewCenturySchoolbook') 39513 2000
>abline(lm(a$V1~a$V2), lwd=3, col='red')
FUENTE:
>title(main=paste("Forma polinomial:", "Número de diagnoticados con VIH versus http://www.avert.org/usastaty.htm
años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº73
Podemos especular que la función entre las variables es
b b X b W , por lo que corremos una
de la forma: Y= 0 1 2
regresión entre las variables de la tabla nº46:
>a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1)
SALIDA Nº63
TABLA Nº46 Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Yi Xi X 2i
Residuals:
29105 1 1 Min 1Q Median 3Q Max
36126 2 4 9863 4650 1131 3372 12036
43499 3 9
49546 4 16 Coefficients:
60573 5 25 Estimate Std. Error t value Pr(>|t|)
∙ ∙ ∙ (Intercept) 11054.0 7020.3 1.575 0.144
∙ ∙ ∙ a$V2 15484.2 2153.1 7.191 1.77e05 ***
∙ ∙ ∙ a$V3 1009.4 139.6 7.229 1.69e05 ***
61124 10 100
49379 11 121 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
43225 12 144
41356 13 169 Residual standard error: 7535 on 11 degrees of freedom
39513 14 196 Multiple Rsquared: 0.8274, Adjusted Rsquared: 0.796
Fstatistic: 26.37 on 2 and 11 DF, pvalue: 6.362e05
85
GRÁFICA Nº74
Obtenemos:
Y i = 1105415484,2 X i −1009,4 X i
2
R 2= 0,796
7,191 −7,229
Grafiquemos la ecuación de regresión obtenida junto
a los datos originales ( Y i y X i de la tabla)1.
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de diagnoticados con VIH',
cex.lab=1,family='NewCenturySchoolbook')
>x < seq(1,14, length = 100)
>lines(x, 11054 +15484.2*x1009.4*x*x, type="l", col= 'red',lwd=3)
>title(main=paste("Forma polinomial:", "Número de diagnoticados con VIH
versus
años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Ejemplo Nº20: Evolución de los detenidos por drogas por la DEA en los EE.UU (19942004).
BASE DE DATOS Nº17
Yi Xi En ningún otro país del mundo el problema de las drogas es tan extendido e intenso
como en los EE.UU. Graves problemas sociales como la criminalidad y el contagio de VIH
23135 1994
se asocian a él.
25279 1995
Un gran porcentaje del dinero gastado en el combate a las drogas se destina a la
29269 1996
34068 1997 represión, en particular en arrestos, procesos judiciales y encarcelamiento de traficantes
38468 1998 de poca monta. Aproximadamente 500.000 personas están encarceladas por delitos de
∙ ∙ drogas en los EE.UU. Las medidas vinculadas a la prevención o al tratamiento, han tenido
∙ ∙ poco éxito.
∙ ∙ La base de datos Nº17 nos entrega los valores del número de arrestos por drogas Y i
39743 2000
34471 2001
entre 1994 y el 2004 Xi en EE.UU.
30270 2002
28549 2003 GRÁFICA Nº75
27053 2004
Fuente:
http://www.usdoj.gov/dea/statistics.html
Grafiquemos estos datos con R y la recta de regresión
a ellos asociada.
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de arrestos relacionados
con drogas', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma polinomial: Número de arrestos", "relacionados con
drogas versus años",sep="\n"),font.main=1,cex.main=1.5,
family='NewCenturySchoolbook')
1 Es importante señalar que no es razonable incluir el valor de los años como variable independiente en la regresión, pues a este nivel la curva
generada entre X y X 2 es prácticamente una recta, con lo que las variables independientes presentarán una multicolinealidad total.
Cambiamos por esto el valor de los años por números del 1 al 14.
86
Problemas en el análisis de regresión: Formas funcionales
TABLA Nº47
Podemos especular que la función entre las variables es de la forma:
b b X b W , por lo que corremos una regresión entre las variables de la tabla
Y= 0 1 2 Yi Xi X 2i
nº47:
23135 1 1
>a < read.table('a.txt') 25279 2 4
>a1 < (lm(a$V1~a$V2+a$V3)) 29269 3 9
>summary(a1) 34068 4 16
38468 5 25
Obtenemos: ∙ ∙ ∙
∙ ∙ ∙
Y i = 14394,637501,46 X i −596,52 X i
2
R 2= 0,8278 ∙ ∙ ∙
39743 7 49
7,074 −6,931 34471 8 64
30270 9 81
Grafiquemos la ecuación de regresión obtenida junto a los datos originales. 28549 10 100
27053 11 121
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de arrestos relacionados con drogas', cex.lab=1,family='NewCenturySchoolbook')
>x < seq(1,11, length = 100)
>lines(x, 14394.63 +7501.46*x596.52*x*x, type="l", col= 'red',lwd=3)
>title(main=paste("Forma polinomial: Número de arrestos", " relacionados con drogas versus
años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº76
SALIDA Nº64
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
3319.6 1745.2 788.1 1951.5 3364.3
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14394.63 2768.63 5.199 0.000823 ***
a$V2 7501.46 1060.41 7.074 0.000105 ***
a$V3 596.52 86.07 6.931 0.000121 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2521 on 8 degrees of freedom
Multiple Rsquared: 0.8622, Adjusted Rsquared: 0.8278
Fstatistic: 25.04 on 2 and 8 DF, pvalue: 0.0003601
b1
4.1.5 FORMA RECÍPROCA Y= b 0 (105)
X
GRÁFICA Nº77
b1
Si Z= la ecuación transformada queda Y= b 0b1 Z ,
X
con lo que nuestra ecuación de regresión resulta:
b b Z
Y= (106)
0 1
Este modelo tiene las siguientes características: A medida que X
crece indefinidamente, el término b1 Z se aproxima a cero e Y se
aproxima al límite asintótico b . 0
Por lo tanto en estos modelos se constituye una asíntota o valor
límite que la variable dependiente toma cuando cuando el valor de
X crece indefinidamente, tal como se muestra en la gráfica Nº77.
87
Aspectos teóricos.
TABLA Nº48 TABLA Nº49
b1
Podemos especular que la función entre las variables es de la forma: Y= b 0 , por lo que
X
corremos una regresión entre las variables de la tabla nº49:
GRÁFICA Nº78
>a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2))
>summary(a1)
La ecuación que obtenemos resulta:
Y= 5 2∙ Z R 2= 1
26536 2999
>a < read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y',
cex.lab=1,family='NewCenturySchoolbook')
>x < seq( 1, 20, length = 100)
>lines(x, 5+2*(1/x), type="l", lwd=3, col= 'red')
>title(main=paste("Forma recíproca:", "Y versus
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº79
SALIDA Nº65
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
0.0008940 0.0004211 0.0001214 0.0001499 0.0011506
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.9998164 0.0001884 26536 <2e16 ***
a$V2 2.0004648 0.0006670 2999 <2e16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.0006496 on 18 degrees of freedom
Multiple Rsquared: 1, Adjusted Rsquared: 1
Fstatistic: 8.996e+06 on 1 and 18 DF, pvalue: < 2.2e16
88
Problemas en el análisis de regresión: Formas funcionales
Ejemplo Nº21: Tasa de mortalidad infantil y el PIB per cápita ajustado a paridad de poder adquisitivo
para 42 países.
BASE DE DATOS Nº18
La base de datos Nº18 nos entrega los valores la tasa de mortalidad
Yi Xi infantil por cada 100 nacidos vivos Y i al 2009 y el PIB PPA per cápita Xi al
2008 para 219 países. Suponemos que a mayor PIB PPA baja dramáticamente la
Afghanistan 151,95 800
Albania 18,62 6000
mortalidad infantil.
Algeria 27,73 6900
American Samoa 10,18 8000
Andorra 3,76 42500 Grafiquemos estos puntos y la recta de regresión a ellos asociada:
∙ ∙ ∙
∙ ∙ ∙ >a < read.table('a.txt')
∙ ∙ ∙ >par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Tasa de mortalidad infantil',
West Bank 15,96 2900
cex.lab=1,family='NewCenturySchoolbook')
Western Sahara 69,66 2500
>abline(lm(a$V1~a$V2), lwd=3, col='red')
Yemen 54,7 2500 >title(main=paste("Forma recíproca:", "Tasa de mortalidad infantil versus PIB PPA per
Zambia 101,2 1500 cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Zimbabwe 32,31 200
Fuente:
http://www.cia.gov GRÁFICA Nº80
Nuestra suposición resulta verdadera porque a mayor
PIB PPA la gente puede disponer de más recursos para el
cuidado de la salud, asumiendo que los demás factores
permanecen constantes. Observemos que a medida que el
PIB PPA per cápita se incrementa, hay inicialmente una
drástica caída de la mortalidad infantil pero que se estabiliza
a medida que el PIB PPA per cápita continúa creciendo.
Podemos especular que la función entre las variables
b
es de la forma: Y= b 0 1 , por lo que corremos una
X
regresión entre las variables de la tabla 50:
>a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2))
>summary(a1)
La ecuación que obtenemos resulta:
Y= 19,35132177,613∙ Z R 2= 0,3516
10,13 10,92
TABLA Nº50
Yi 1/X i Grafiquemos las variables originales junto con la recta de regresión aquí
obtenida.
Afghanistan 151,95 0,001250
Albania 18,62 0,000167
>a < read.table('a.txt')
Algeria 27,73 0,000145
>par(bg = "Ivory 2")
American Samoa 10,18 0,000125
>plot(a$V2,a$V1, col=3, xlab='PIB PPA per cápita', ylab='Tasa de mortalidad infantil',
Andorra 3,76 0,000024 cex.lab=1,family='NewCenturySchoolbook')
∙ ∙ ∙ >x < seq( 0, 120000, length = 100)
∙ ∙ ∙ >lines(x, 19.351+32177*(1/x), type="l", lwd=3, col= 'red')
∙ ∙ ∙ >title(main=paste("Forma recíproca:", "Tasa de mortalidad infantil versus PIB PPA per
West Bank 15,96 0,000345 cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Western Sahara 69,66 0,000400
Yemen 54,7 0,000400
Zambia 101,2 0,000667
Zimbabwe 32,31 0,005000
89
GRÁFICA Nº81
SALIDA Nº66
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
147.929 14.768 7.359 10.422 99.330
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 19.351 1.911 10.13 <2e16 ***
a$V2 32177.613 2947.032 10.92 <2e16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 24.39 on 217 degrees of freedom
Multiple Rsquared: 0.3546,Adjusted Rsquared: 0.3516
Fstatistic: 119.2 on 1 and 217 DF, pvalue: < 2.2e16
90
Aplicaciones del análisis de regresión: Variables Dummy
Hasta el momento, en el análisis de regresión lineal sólo hemos considerado variables cuantitativas
continuas las cuales pueden tomar cualquier valor dentro de un intervalo específico de números tanto para los
regresores como para el regresando. Sin embargo, en muchos casos, variables de naturaleza cualitativa pueden
influenciar de manera decisiva a la variable dependiente2 (consideremos por ejemplo el sexo, la etnicidad, la
religión, etc.) Para estudiar estos casos dentro del modelo de regresión lineal introduciremos variables
independientes cualitativas, llamadas también variables dummy.
Estas variables funcionan como un dispositivo de clasificación en categorías mutuamente excluyentes y
se tratan como a cualquier otra variable cuantitativa. Son tantas como el número de categorías en que se divida
la variable menos 1. Por ejemplo, si una variable posee dos categorías, como en el caso del sexo (hombre o
mujer) se construye una variable dummy en la que 1 indica mujer y 0 hombre. Si utilizamos una variable que
posee 3 categorías, como en el caso de la religión (católico, protestante o judío, por ejemplo) construimos dos
variables dummy: (1 0) en el caso de católico, (0 1) en el caso de protestante y (0 0) en el caso de judío y así
sucesivamente. En general diremos que a k categorías, utilizamos k1 variables dummy.
Las variables dummy pueden ser incorporadas en los modelos de regresión tan fácilmente como las
variables cuantitativas. De hecho, un modelo de regresión puede poseer regresores exclusivamente dummy. Estos
modelos son llamados modelos de Análisis de Varianza (ANOVA) y los estudiaremos a continuación.
4.2.2 MODELOS SÓLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA).
4.2.2.1 Modelos con solo una variable predictora cualitativa.
La población latina en Texas.
Se proyecta que para el 2020 la población blanca en el Estado de Texas dejará de ser la mayoría
absoluta pasando a constituir solo el 47%, mientras la población latina será el 37% por lejos, la segunda mayoría
relativa3, dándose en esta población los índices más altos de pobreza. 'En 1999, más de 1.6 millones (25.4 por
ciento) de hispanos en Texas eran pobres. Su ingreso familiar promedio era de $29,873, muy por debajo del
promedio de Texas de $39,927'4.
Es así que a medida que pasa el tiempo, debido a la cada vez mayor cantidad de población hispana en
Texas, una también cantidad cada vez mayor de población tejana se hará pobre.
Texas debe reducir las disparidades económicas que subyacen aún en su población si desea un porvenir
sustentable.
Ejemplo Nº22: % de población latina y su ubicación geográfica en el Estado de Texas, EE.UU.
Para comenzar a caracterizar a la población latina de Texas, supongamos que queremos saber si el
porcentaje de ésta sobre el total difiere en forma significativa entre tres zonas seleccionadas arbitrariamente de
los 254 condados del Estado.
Para esto, creamos dos variables dummy que nos indican la ubicación geográfica (gráfica nº82). De esta
manera:
D1i D2i
La base de datos nº19 muestra el porcentaje de población latina como variable dependiente Yi ,
como variables dummy D1i y D2i la ubicación geográfica para los 254 condados del Estado de Texas y el %
promedio de población latina dentro de estos tres grupos.
1 Estas variables también se conocen como indicadoras, categóricas, mudas o ficticias.
2 Por ejemplo, existe evidencia empírica de que las mujeres ganan menos que los hombres por la misma actividad en el mercado del trabajo.
3 http://www.cis.org/TexasImmigration19702020
4 http://www.dallasfed.org/entrada/articles/2005/sp_fotexas_petersen.html
91
BASE DE DATOS Nº19 %
Población GRÁFICA Nº 82
Condado Yi D1i D2i latina
promedio
Starr County 98,10 1 0
Maverick County 95,33 1 0
Webb County 94,40 1 0
Brooks County 92,00 1 0
Zavala County 91,39 1 0
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
∙ ∙ ∙ ∙
Brewster County 43,72 1 0
Live Oak County 37,95 1 0
Jeff Davis County 35,48 1 0
McMullen County 34,43 1 0
Real County 21,63 1 0 69,08
Castro County 51,83 0 1
Parmer County 49,83 0 1
Crosby County 48,84 0 1
Dawson County 48,09 0 1
Hale County 47,99 0 1
∙ ∙ ∙ ∙ Fuente:
∙ ∙ ∙ ∙ http://geology.com/
∙ ∙ ∙ ∙
Los promedios de población latina para estas tres
Hardin County 2,45 0 1
Cass County 1,62 0 1
regiones son:
Sabine County 1,60 0 1 Población
Marion County 1,40 0 1 latina
Delta County 0,81 0 1 17,93
1: Frontera con México : 69,08 %
Atascosa County 58,70 0 0 2: Centrooeste y este : 17,93 %
Deaf Smith County 57,71 0 0 3: El resto del Estado : 22,15 %
Bexar County 54,35 0 0
Sutton County 51,73 0 0
Reagan County 49,67 0 0
¿Son estos resultados significativamente diferentes unos
∙ ∙ ∙ ∙ de otros?
∙ ∙ ∙ ∙ Existen varias técnicas estadísticas para comparar dos o
∙ ∙ ∙ ∙ más promedios, las cuales son generalmente llamadas análisis
Montague County 5,49 0 0 de varianza, pero el mismo objetivo puede lograrse dentro del
Llano County 5,14 0 0 contexto de un análisis de regresión.
Armstrong County 3,91 0 0
Clay County 3,07 0 0
Para ver esto, supongamos el siguiente modelo:
Roberts County 1,35 0 0 22,15
FUENTE:
http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.html
Y i = b0 b1 D1i b 2 D2i i (107)
y hagamos una regresión (salida nº67):
>a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3))
>summary(a1)
Obtenemos la siguiente ecuación:
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,251)
[1] 1.969460 por lo que nuestros parámetros estimados son significativos al 5%.
92
Aplicaciones del análisis de regresión: Variables Dummy
Residuals:
Reemplacemos los valores de las correspondientes Min 1Q Median 3Q Max
dummy: 47.454 10.079 4.160 9.534 36.550
4.2.2.2 Modelos con dos variables predictoras cualitativas
Ejemplo Nº23: % de pobreza, ubicación geográfica y densidad de población latina en el Estado de
Texas.
La base de datos nª20 nos entrega como variable dependiente Yi el % de población pobre para los
condados del Estado de Texas y como regresores, las dos variables dummy de ubicación espacial vistas en el
ejemplo anterior ( D1i y D2i )y una nueva variable dummy que categoriza la densidad de la población
hispana:
Supongamos un modelo del tipo:
BASE DE DATOS Nº20 Y hagamos un análisis de regresión (salida nº68):
Condado Yi D1i D2i D3i >a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3+a$V4))
Anderson County 14,32 0 1 0 >summary(a1)
Andrews County 15,29 0 1 1
Angelina County 19,34 0 1 0 Nuestra ecuación resulta:
Aransas County 19,63 0 0 0
Archer County 8,21 0 1 0
Y i = 14,43318,9935 D1i 1,5022 D2i 1,383 D3i
∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙ 9,018 2,4 1,906
∙ ∙ ∙ ∙ ∙ Nuestro valor crítico t para un 95% de significación es:
Wood County 12,99 0 1 0
Yoakum County 17,17 0 1 1 >qt(0.95,252)
Young County 16,29 0 1 0
[1] 1.650923 por lo que nuestros parámetros estimados son
Zapata County 37,19 1 0 1
Zavala County 39,71 1 0 1
significativos al 5%.
FUENTES:
http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.html
http://www.ers.usda.gov/Data/PovertyRates/PovListNum.asp?ST=TX&view=Number&Longname=TX
93
Acá nuestro punto de referencia son los condados que
SALIDA Nº68
se encuentran 'en el resto del Estado' y tienen menos de
Call: un 30% de su población latina. Siendo así, todas las
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4) comparaciones deben ser hechas en torno a este grupo.
El % de población pobre para este grupo es, por lo tanto
Residuals: b = 14,4331 Ahora, si en nuestra categoría 'resto del
0
Min 1Q Median 3Q Max
Estado' consideramos los condados que tienen más del
11.8096 2.3544 0.1607 2.3598 17.1004
30% de su población latina, el % promedio de pobreza
Coefficients: sube a: Y i = 14,43311,383= 15,8161
Estimate Std. Error t value Pr(>|t|) Observemos ahora nuestra categoría centrooeste y
(Intercept) 14.4331 0.4471 32.284 <2e16 *** este. Para los condados con menos del 30% de su
a$V2 8.9935 0.9973 9.018 <2e16 *** población latina el promedio de % de pobreza es:
a$V3 1.5022 0.6260 2.400 0.0171 *
a$V4 1.3830 0.7258 1.906 0.0579 .
Y i = 14,43311,5022= 15,9353 . Si consideramos los
condados de esta categoría que poseen más del 30%
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 de su población latina el porcentaje de población pobre
aumenta a: Y i = 14,43311,50221,383= 17,3183
Residual standard error: 4.553 on 250 degrees of freedom
Multiple Rsquared: 0.3688,Adjusted Rsquared: 0.3612
Los condados de la categoría 'frontera con México'
Fstatistic: 48.68 on 3 and 250 DF, pvalue: < 2.2e16 poseen todos más del 30% de su población latina y el
promedio de pobreza en ellos es de
Y i = 14,43318,99351,50221,383= 26,3118
4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA)
Ejemplo Nº24: % de pobreza, ubicación geográfica y % de población latina en el Estado de Texas
Las bases de datos nº19 y nº20 nos entregan el % de población pobre Yi y el % de población latina
Xi . Consideremos también la ubicación espacial de los condados de Texas tal como ya los hemos
clasificado en los ejemplos anteriores.
y hagamos una regresión del % de población pobre sobre las demás variables (salida nº69):
>a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3+a$V4))
>summary(a1)
BASES DE DATOS Nº19 y Nº20
Obtenemos la siguiente recta de regresión:
Condado Yi X 1i D1i D2i
94
Aplicaciones del análisis de regresión: Variables Dummy
SALIDA Nº69
Grafiquemos con R las tres ecuaciones anteriores Call:
y nuestros datos de % promedio de población pobre y % lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
promedio de población latina para los condados de Texas
(gráfica nº 83): Residuals:
Min 1Q Median 3Q Max
>x < seq( 0 ,100,length = 100) 11.9327 2.6806 0.2313 2.3717 14.6897
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='% promedio de población latina', ylab='% Coefficients:
promedio de población pobre', Estimate Std. Error t value Pr(>|t|)
cex.lab=1,family='NewCenturySchoolbook')
(Intercept) 11.96711 0.54169 22.092 < 2e16 ***
>lines(x, 16.0298+0.1266*(x), type='l', col= 'blue', lwd=2)
a$V2 0.12656 0.01759 7.196 7.23e12 ***
>lines(x, 13.9641+0.1266*(x), type='l', col= 'red', lwd=3)
>lines(x, 11.9671+0.1266*(x), type='l', col= 'Magenta 4', lwd=2) a$V3 4.06270 1.13208 3.589 0.000400 ***
>title(main=paste("Población pobre versus", "población latina en los a$V4 1.99695 0.57837 3.453 0.000652 ***
condados de Texas",sep="\n"),
font.main=1,cex.main=1.5,family='NewCenturySchoolbook') Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.174 on 250 degrees of freedom
Multiple Rsquared: 0.4695,Adjusted Rsquared: 0.4631
Fstatistic: 73.74 on 3 and 250 DF, pvalue: < 2.2e16
GRÁFICA Nº 83
Las tres rectas de regresión representan a las 3 regiones
en que hemos dividido el Estado de Texas.
El gráfico se interpreta como sigue: La línea violeta
representa 'el resto del Estado', la línea roja representa el
centrooeste y el este, y la azul los condados que se
encuentran en la frontera con México.
Vemos que consecutivamente a medida que aumenta
el % promedio de población latina es mayor el valor del % de
población pobre, poseyendo los condados que se ubican en la
frontera con México los más altos índices de pobreza.
4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL
Las variables dummy permiten determinar si ha habido un cambio en los parámetros del modelo de
regresión, ya sea en la intercepción o en la pendiente. Para esto sólo debemos saber si los parámetros estimados
asociados a las variables dummy son estadísticamente significativos.
Consideremos el modelo general con una variable dummy: Y i = b0 b1 X 1i b2 X i D1i b3 D1i (110)
De esta manera una vez ejecutada la regresión:
Hay cuatro casos posibles de acuerdo a que posean o no significación estadística cada uno de los
parámetros estimados:
95
GRÁFICA Nº 84
1. b3 y b2 no son significativas, por lo que no hay
cambio estructural. Las regresiones para las dos categorías son
idénticas: Y i = b0 b1 X i para todo i.
2. b es significativa, pero b no. Existen dos
3 2
regresiones con la misma pendiente pero con distintas
intercepciones.
GRÁFICA Nº 85
GRÁFICA Nº 86
Ilustremos este último caso con un ejemplo:
Ejemplo Nº25: Los efectos diferenciados para África y el resto del mundo de la correlación entre
la esperanza de vida y el PIB.
Se supone la existencia de cierta correlación entre la esperanza de vida y el PIB per cápita a valores de
paridad de poder adquisitivo en los países del mundo, como lo vimos en el ejemplo nº1 de este trabajo. Como
África posee los más bajos PIB per cápita mundiales, para considerar los efectos regionales en la regresión, se
introducirá una variable dummy: Di= 1 si el país es africano y Di = 0 si no lo es.
La tabla nº2 vista en la primera sección de este trabajo Análisis de Regresión Simple nos muestra la
esperanza de vida en años al 2005 Y i y el logaritmo del PIB per cápita a paridad de poder adquisitivo al 2005
Xi . Añadamos la variable dummy definida anteriormente Di y esta misma multiplicada por la variable
independiente Di X i para 164 países del mundo, 39 de los cuales son africanos.
96
Aplicaciones del análisis de regresión: Variables Dummy
Coefficients: Nuestra ecuación de regresión nos da:
Estimate Std. Error t value Pr(>|t|) 1,9627,652X
Y= R 2=0,764
(Intercept) 1.9619 2.9153 0.673 0.502
a$V2 7.6520 0.3329 22.987 <2e16 ***
22,987
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Nuestro valor crítico t para un 95% de significación es:
Residual standard error: 4.88 on 162 degrees of freedom >qt(0.975,160)
Multiple Rsquared: 0.7653,Adjusted Rsquared: 0.7639 [1] 1.974902, por lo que nuestros parámetros estimados son
Fstatistic: 528.4 on 1 and 162 DF, pvalue: < 2.2e16
significativos al 5%.
Apliquemos una regresión de la esperanza de vida, sobre el resto de variables independientes incluyendo
las dummies:
SALIDA Nº71 >a < read.table('a.txt')
>a1 < (lm(a$V1~a$V2+a$V3+a$V4))
Call: >summary(a1)
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Nuestra ecuación de regresión nos da:
Residuals:
Min 1Q Median 3Q Max
10.8277 1.9444 0.3835 2.3447 9.6967 25,4825,178X− 47,501D5,256 X ∙D
Y=
2
R =0,852
14,015 −6,454 5,51
Coefficients:
Siendo todos nuestros parámetros estimados son
Estimate Std. Error t value Pr(>|t|)
(Intercept) 25.4817 3.3735 7.554 3.06e12 ***
significativos al 5%.
a$V2 5.1782 0.3695 14.015 < 2e16 ***
Las ecuaciones resultan respectivamente:
a$V3 47.5010 7.3604 6.454 1.24e09 ***
a$V4 5.2558 0.9540 5.510 1.41e07 *** 1,9627,652X para las variables originales
Y=
− 22,01910,434 X
Y= para África y
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Y= 25,4825,178X para el resto del mundo.
Residual standard error: 3.903 on 160 degrees of freedom Grafiquemos esta rectas (gráfica nº 87):
Multiple Rsquared: 0.8518,Adjusted Rsquared: 0.849
Fstatistic: 306.4 on 3 and 160 DF, pvalue: < 2.2e16
>a < read.table('a.txt')
>x < seq( 5, 12, length = 1000)
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Ln del PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>lines(x, 22.019 +10.434*(x), type="l", col= 'Magenta 4')
>lines(x, 25.482 +5.178*(x), type="l", col= 'blue')
>title(main=paste("Esperanza de vida", "versus ln del PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
La columna gruesa azul nos muestra la recta de regresión original. La línea verde representa al conjunto
de países excluyendo África. Se aprecia con una pendiente menor y una intersección con el eje Y mayor. Lo
anterior implica que la esperanza de vida parte siendo alta para valores bajos del PIB y se incrementa
suavemente a través del aumento del ln del PIB de los países.
La línea roja interpreta a los países africanos, y muestra que la esperanza de vida para éstos se
incrementa dramáticamente a medida que aumenta el PIB de los mismos.
97
GRÁFICA Nº 87
4.2.5 ALGUNAS PRECAUCIONES EN EL USO DE VARIABLES
DUMMY
1. Si una variable cualitativa tiene m categorías, debe
representarse por medio de m1 variables dummy, asignando a
cada una los valores de 0 ó 1. De no ser así ocurre el problema
de la multicolinealidad (que hemos analizado en la sección
precedente)5.
Las siguientes precauciones están referidas a modelos
ANOVA.
2. La categoría para la cual no es asignada ninguna
variable dummy es denominada punto de referencia o
categoría omitida. Todas las comparaciones están hechas en
relación al punto de referencia.
3. El valor de intercepción b0 representa el valor
promedio del punto de referencia.
Por ejemplo, consideremos la base de datos Nº1
restringida al los valores de la esperanza de vida Yi junto
con la dummy antes definida Di .
Ejecutemos una regresión de Y i sobre Di : BASE DE DATOS Nº1
>a < read.table('a.txt') PAÍS Yi Di
>a1 < (lm(a$V1~a$V2))
>summary(a1) Albania 76.2 0
Algeria 71.7 1
La recta de regresión obtenida es: Antigua y Barbuda 73.9 0
Argentina 74.8 0
72.507−17,271 ∙D
Y= R 2=0,5365 Armenia 71.7 0
i
∙ ∙ ∙
−13,77
∙ ∙ ∙
∙ ∙ ∙
SALIDA Nº72
Para los países no Vanuatu 69.3 0
Call:
africanos Di = 0 el Venezuela 73.2 0
valor promedio de la Vietnam 73.7 0
lm(formula = a$V1 ~ a$V2)
esperanza de vida es Yemen 61.5 0
Zambia 40.5 1
Residuals: 72,507.
Min 1Q Median 3Q Max 4. Los coeficientes b i son conocidos como los
18.6072 4.1394 0.0572 4.9678 18.2641
coeficientes de intercepción diferencial. Nos dicen en
Coefficients: cuanto varía el valor de la variable dependiente para la
Estimate Std. Error t value Pr(>|t|) correspondiente categoría respecto al punto de
(Intercept) 72.5072 0.6115 118.56 <2e16 *** referencia.
a$V2 17.2713 1.2540 13.77 <2e16 *** En nuestro ejemplo, 72,50717,271= 55,236 es el valor
promedio de la esperanza de vida para los países
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 africanos.
5. Si la variable cualitativa tienen más que una
Residual standard error: 6.837 on 162 degrees of freedom
categoría, la elección del 'punto de referencia' queda a
Multiple Rsquared: 0.5394,Adjusted Rsquared: 0.5365
Fstatistic: 189.7 on 1 and 162 DF, pvalue: < 2.2e16 estricta elección del investigador.
5 Es posible evitar el problema de la multicolinealidad al tener m variables dummy para m categorías de una variables cualitativa omitiendo el
término de intercepción y corriendo una regresión bajo el siguiente modelo supuesto: Y i = b 1 D1ib1 D 2ib1 D3i i . Suprimiendo la intercepción
y utilizando una variable dummy para cada categoría, se obtienen directamente los valores medios para cada una de las categorías.
98
Aplicaciones del análisis de regresión: Modelos de elección binarios
Hasta ahora, hemos considerado modelos de regresión en los que el regresando (variable dependiente o
respuesta) es cuantitativa, mientras las variables independientes son cuantitativas, cualitativas (dummy) o una
mezcla de ambas. Sin embargo, algunas veces en el análisis de regresión sólo estamos interesados en el valor
dicotómico que pueda adoptar la variable respuesta, como por ejemplo, en regresiones donde deseamos
averiguar de qué manera influye un set de variables independientes en el hecho de que una persona esté
ocupada o desempleada, sea alfabeta o analfabeta, sea solvente o insolvente para un préstamo, etc.
Existe una importante diferencia entre un modelo de regresión donde la variable dependiente es
cuantitativa y otro en la que es cualitativa. En el primer caso, nuestro objetivo es estimar la media del regresando,
dados los valores de los regresores. En el segundo, nuestro objetivo es encontrar la probabilidad de que algo
ocurra o no. Es por esto que los modelos de regresión con variable dependiente cualitativa se denominan
también modelos de probabilidad.
Si en un modelo de regresión lineal la variable dependiente es una variable dicotómica1 (que adopta
sólo los valores 0 ó 1), una regresión por el método de MCO no es apropiada, pues éste puede permitir
predicciones mayores que 1 o menores que 0 dando un resultado absurdo.
En este capítulo abordaremos dos metodologías para estudiar los modelos de respuesta cualitativa: el
Logit y el Probit.
4.3.2 EL MODELO LOGIT
La función de distribución logística puede expresarse como:
Z
1 1 e i
donde Z i se denomina logit.
Zi
e
Z i varía de −∞ a ∞ , por lo que Pi = Z varía de 0 a 1. Lo que se intenta es llevar
1e i
rápidamente a 0 ó a 1 los valores de Pi .
GRÁFICA Nº88
Existe un problema de estimación, porque Pi no es
lineal ni en los X i ni en los bi , por lo que no podemos
utilizar el método de MCO para estimar los parámetros.
Debemos utilizar el logit.
Z
e i
Definamos como Oportunidad Relativa2 la razón entre la
probabilidad de poseer un atributo y no poseerlo : 3
Z
Pi e Z 1e i i
Op Rel= = Z
∙ = e Z = e b b X i 0 1 i
(113)
1−Pi 1e 1 i
Pi
Aplicando logaritmos al odds ratio obtenemos Z i= ln = b0 b1 X i (114)
1−P i
Siendo ahora el logit lineal en X y en los parámetros. Analicemos el siguiente ejemplo:
1 Tengamos presente que en el caso general, la variable respuesta puede ser politómica (poseer múltiples categorías).
2 También llamada odds ratio.
4/5 4 /5 4
3 Así, si P i= 0,8 esto significa que: Odds Ratio= = = esto es, que las probabilidades son 4 a 1 a favor de que encontremos la
1−4/ 5 1/ 5 1
presencia del atributo buscado.
99
Ejemplo Nº26: Pobreza y religión en Irlanda del Norte. BASE DE DATOS Nº21
DISTRITO Yi Xi
La base de datos nº21 nos da información para los 26 distritos de
gobierno local de Irlanda del norte, siendo Y i una variable dependiente Antrim 0 34,382
dicotómica que asume los valores Y i = 1 si el porcentaje de niños que viven Ards 1 12,191
bajo el 60% del ingreso medio es mayor del 25% para el 2008, Y i = 0 si no, y Armagh 0 47,297
Ballymena 1 19,081
X i es el porcentaje de población católica para la respectiva provincia para
Ballymoney 0 31,405
1991. Podemos establecer el supuesto de que las provincias con alto predominio ∙ ∙ ∙
católico son las más pobres. ∙ ∙ ∙
∙ ∙ ∙
Apliquemos un análisis de regresión Logit a esta tabla (salida nº73): Newry & Mourne 1 76,988
Newtownabbey 0 14,054
>a < read.table('a.txt') North Down 0 9,736
>a1 < glm(a$V1 ~ a$V2,family=binomial(link=logit)) Omagh 1 66,812
>summary(a1) Strabane 1 63,712
FUENTES:
Nuestra ecuación logit queda 25% o más de niños que viven bajo el 60% del ingreso medio 2008
entonces: http://www.niassembly.gov.uk/centre/2007mandate/reports/Report08_07_08r_vol1.htm
% de población católica 1991
http://www.wesleyjohnston.com/users/ireland/past/protestants_1861_1991.html
Z i= −2,164970,07013 X i
Obtengamos el valor crítico para z al 95% de significación:
>qnorm(0.975)
[1] 1.959964
Ambos coeficientes son estadísticamente significativos.
Grafiquemos los valores del logit Zi y sus valores ajustados P i sobre la variable independiente
dados en la tabla nº51 (gráficas nº89 y nº90) .
SALIDA Nº73
Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = logit)) TABLA Nº51
Deviance Residuals: DISTRITO Yi Xi Zi Pi
Min 1Q Median 3Q Max
1.6891 0.7115 0.4149 0.5790 1.7600 Antrim 0 34,382 0,246 0,561
Ards 1 12,191 1,310 0,212
Coefficients: Armagh 0 47,297 1,152 0,760
Estimate Std. Error z value Pr(>|z|) Ballymena 1 19,081 0,827 0,304
(Intercept) 2.16497 1.08133 2.002 0.0453 * Ballymoney 0 31,405 0,037 0,509
a$V2 0.07013 0.02753 2.548 0.0108 * ∙ ∙ ∙ ∙ ∙
∙ ∙ ∙ ∙ ∙
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ∙ ∙ ∙ ∙ ∙
Newry & Mourne 1 76,988 3,234 0,962
(Dispersion parameter for binomial family taken to be 1) Newtownabbey 0 14,054 1,179 0,235
North Down 0 9,736 1,482 0,185
Null deviance: 34.646 on 25 degrees of freedom Omagh 1 66,812 2,521 0,926
Strabane 1 63,712 2,303 0,909
Residual deviance: 25.326 on 24 degrees of freedom
AIC: 29.326
Number of Fisher Scoring iterations: 4
>par(bg = "Ivory 2")
>plot(a$V2, predict(a1), col='3', xlab='% de población católica', ylab='Valores del Logit', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre los valores del Logit", "y el % de población
católica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>par(bg = "Ivory 2")
>plot(a$V2, fitted(a1), col='3', xlab='% de población católica', ylab='Valores ajustados del Logit', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre los valores ajustados del Logit", "y el % de población
católica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
100
Aplicaciones del análisis de regresión: Modelos de elección binarios
GRÁFICA Nº89 GRÁFICA Nº90
El parámetro estimado de pendiente en la ecuación de salida es un coeficiente de pendiente parcial y
mide el cambio en el Logit estimado para el cambio de 1 unidad en el valor del regresor dado (manteniendo
todos los demás constantes).
La interpretación de los coeficientes logit puede ser difícil. En nuestro ejemplo, para el incremento de un
1% en X i , el logaritmo del odds ratio de que una provincia sea pobre se incrementa en 0,07. Es preferible elevar
a e los coeficientes e interpretarlos como oddratios.
SALIDA Nº74
Así para el incremento de un 1% en X i , el odds ratio de que una provincia sea pobre se incrementa en
un factor de 1,0726.
4.3.2.2 Intervalos de confianza para los coeficientes estimados
SALIDA Nº75
Notemos que el intervalo de confianza que nos entrega R está
2.5 % 97.5 %
referido a los parámetros estimados del logit. (Intercept) 4.60906435 0.2316007
a$V2 0.02276608 0.1344598
>confint(a1)
4.3.2.3 Significación estadística de los coeficientes.
La significación estadística de cada uno de los coeficientes estimados la obtenemos de la división del
respectivo coeficiente por su desviación estándar. Éste valor sigue una distribución normal:
b i
Z i= (115)
Sb i
Para nuestro ejemplo:
101
Verifiquémoslo:
>qnorm(0.9946)
[1] 2.549104 el cual es el valor de Z 1
4.3.2.4 Contraste de hipótesis el modelo.
4.3.2.4.1 La función de verosimilitud.
Observemos dos datos que nos entrega la salida nº73: Null deviance y Residual deviance. La primera es
2 veces4 el logaritmo de la verosimilitud del modelo denominado nulo −2Ln L 0 , en el cual no se considera
regresor alguno y cuyas probabilidades Pi son las probabilidades simples de que el evento ocurra o no; la
segunda es 2 veces el logaritmo de la verosimilitud del modelo incluyendo los regresores −2Ln L .
El logaritmo de la función de verosimilitud se
TABLA Nº52
define como:
DISTRITO Yi Pi 1−P i Y i ∙ lnP i 1−Y i ∙ln 1−P i
N
∑ 6,349 6,314
4.3.2.4.2Estadístico de la Razón de Verosimilitud o chi2.
Para evaluar la significación global del modelo (para el conjunto de coeficientes estimados) se utiliza el
Estadístico de la Razón de Verosimilitud, definido como: ERV= −2 lnL 0−L = 34,646−25,326= 9,32 (117)
que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que
este caso es 1.
Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora
sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.
4 Pues la verosimilitud es un valor pequeño.
102
Aplicaciones del análisis de regresión: Modelos de elección binarios
Calculemos chi2
>qchisq(0.95, df=1)
[1] 3.841459
3.841459 < 9,32 y concluímos que la inclusión del regresor mejora ostensiblemente la verosimilitud del modelo.
4.3.2.4.3Bondad del ajuste.
Una medida de la bondad del ajuste es un 'estadísticoresumen' que indica la precisión con la cual un
modelo se aproxima a los datos observados. Evalúa la idoneidad del modelo de regresión logística.
Podemos estimar la bondad de ajuste mediante la comparación del número de casos observados con
los esperados por el modelo estimado (eI porcentaje de distritos que coinciden con la alternativa predicha por el
modelo).
En nuestro ejemplo los casos totales son 26 y los predichos por nuestro modelo correctamente (tomando
como punto de corte 0,5) son 18, entonces:
18
X= ∙ 100%= 69,231 % y el modelo seleccionado ajusta los datos con un 69,231% de precisión.
26
7. El modelo Logit asume que el logaritmo de los odds ratio está linealmente relacionado con X i
4.3.2.6 Algunas observaciones para el modelo Logit.
1. Como usamos el método de máxima verosimilitud, el cual es generalmente un método de muestras grandes,
los errores standard estimados son asintóticos. Como resultado, en vez de usar la estadística t para evaluar la
significación estadística de un coeficiente, usamos la estadística z (normal standard). Recordemos que si el
tamaño de la muestra es razonablemente grande, la distribución t converge a la distribución normal.
2. En modelos de regresión binario, la bondad del ajuste tiene una importancia secundaria. Lo que importa son
los signos esperados de los coeficientes de la regresión y su significación estadística.
103
4.3.3 EL MODELO PROBIT GRÁFICA Nº92
2
−z i
1 2
por lo que
zi
(118) (119)
Zi = e
2 P Zi = ∫
−∞
v dv
es la función de distribución acumulativa normal.
La probabilidad de que un evento a ocurra P a está representada por el área definida bajo la curva
normal de −∞ a Z a .
Ejemplo 27: Satisfacción con la vida y PIB PPA per cápita para 30 países.
La base de datos nº22 nos muestra un set de datos para 30 países, que nos indica los datos del puntaje
de satisfacción con la vida, como variable dependiente. El promedio de este indicador es 222,33. Categorizemos
esta variable como Y i = 1 si el país supera esta media y Y i = 0 si no. Como variable independiente X i
tenemos los datos del PIB PPA per cápita para los mismos.
BASE DE DATOS Nº22
Apliquemos un análisis de regresión Probit de Di sobre X i (salida
PAÍS Yi Di Xi
nº76):
104
Aplicaciones del análisis de regresión: Modelos de elección binarios
SALIDA Nº76
Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = probit))
>par(bg = "Ivory 2")
Deviance Residuals: >plot(a$V2, predict(a1), col='3', xlab='PIB PPA per cápita', ylab='Valores
Min 1Q Median 3Q Max del Probit', cex.lab=1,family='NewCenturySchoolbook')
1.8455 0.3624 0.2337 0.4610 1.8103 >title(main=paste("Relación entre los valores del Probit", "y el PIB PPA per
cápita",sep="\n"),font.main=1,cex.main=1.5,
family='NewCenturySchoolbook')
Coefficients:
Estimate Std. Error z value Pr(>|z|)
>par(bg = "Ivory 2")
(Intercept) 4.720e+00 1.565e+00 3.017 0.00255 **
>plot(a$V2, fitted(a1), col='3', xlab='PIB PPA per cápita', ylab='Valores
a$V2 1.594e04 4.891e05 3.259 0.00112 ** ajustados del Probit', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relación entre los valores ajustados del Probit", "y el
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,
family='NewCenturySchoolbook')
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 40.381 on 29 degrees of freedom
Residual deviance: 21.404 on 28 degrees of freedom
AIC: 25.404
Number of Fisher Scoring iterations: 7
GRÁFICA Nº93 GRÁFICA Nº94
Con el siguiente comando obtenemos los Pi del modelo de regresión probit.
> fitted.values(a1)
4.3.3.1 Interpretación de los coeficientes.
En este tipo de modelos no resulta posible interpretar directamente las estimaciones de los parámetros, ya
que son modelos no lineales. Lo que haremos es fijarnos en el signo de los estimadores. Si el estimador es positivo,
significará que incrementos en la variable asociada causan incrementos en P(Y = 1) (aunque desconocemos la
magnitud de los mismos). Por el contrario, si el estimador muestra un signo negativo, ello supondrá que
incrementos en la variable asociada causarán disminuciones en P(Y = 1).
El PIB PPA per cápita tiene un impacto positivo en el Probit. Aunque el hecho de que valga
aproximadamente cero, induce a pensar que un aumento unitario en el PIB PPA per cápita no causará un efecto
apreciable sobre su la satisfacción con la vida consideremos que hablamos de dólares, por lo que tiene mas
sentido decir que un aumento de diez mil dólares en el PIB PPA per cápita aumentael probit un 1,59.
105
4.3.3.2 Intervalos de confianza para los coeficientes estimados
instrucción en R:
2.5% 97.5%
(Intercept) 8.554748e+00 2.0497822717
>confint(a1)
a$V2 7.561091e05 0.0002806858
4.3.3.3 Contraste de hipótesis el modelo.
TABLA Nº64
Al igual que en el modelo Logit, para el Probit
PAÍS Yi Pi 1−P i Y i ∙ lnP i 1−Y i ∙ln 1−P i Z i
el logaritmo de la función de verosimilitud se define
como: Australia 1 0,6 0,4 0,511 0,000
Austria 1 0,6 0,4 0,511 0,000
N
Bahrain 1 0,6 0,4 0,511 0,000
∑ [Y i ∙ln Pi Z i 1−Y i ∙ln 1−Pi Z i ] Belarus 0 0,6 0,4 0,000 0,916
i=1
Belgium 1 0,6 0,4 0,511 0,000
∙ ∙ ∙ ∙ ∙ ∙
Calculemos el logaritmo de la verosimilitud del ∙ ∙ ∙ ∙ ∙ ∙
modelo nulo para nuestro ejemplo: ∙ ∙ ∙ ∙ ∙ ∙
Spain 1 0,6 0,4 0,511 0,000
−9,195−10,995= − 20,19 Sweden 1 0,6 0,4 0,511 0,000
Switzerland 1 0,6 0,4 0,511 0,000
United Kingdom 1 0,6 0,4 0,511 0,000
Calculemos el logaritmo de la verosimilitud del
United States 1 0,6 0,4 0,511 0,000
modelo para nuestro ejemplo:
9,195 10,995
−4,99− 5,712= −10,702
Para evaluar la significación global del modelo (para el conjunto de coeficientes estimados) se utiliza el
Estadístico de la Razón de Verosimilitud, definido como: ERV= −2 lnL 0−L = 40,38−21,404= 18,976 (120)
que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que
este caso es 1.
Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora
sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.
Calculemos chi2
>qchisq(0.95, df=1)
[1] 3.841459
3.841459 < 18,976 y concluímos que la inclusión del regresor mejora ostensiblemente la verosimilitud del modelo.
106
Aplicaciones del análisis de regresión: Modelos de elección binarios
4.3.4 Modelos logit y probit. ¿Cuál es preferible?
Para muchas aplicaciones, los modelos son muy similares. La principal diferencia consiste en que la
distribución logística se aproxima más lentamente a 0 y a 1 a medida que el logit se desplaza de ∞ a ∞
respectivamente (gráfica nº95). Por consiguiente no existe una razón de peso para elegir entre una u otra.
En la práctica, muchos investigadores eligen el modelo Logit por su comparativamente mayor sencillez
matemática (la facilidad de los cálculos cuando no están las tablas necesarias para encontrar la probabilidad
acumulada).
>a1 < glm(a$V1~a$V2,family=binomial(link=logit))
>summary(a1)
SALIDA Nº76 GRÁFICA Nº95
Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = logit))
Deviance Residuals:
Min 1Q Median 3Q Max
1.8423 0.3925 0.2852 0.4796 1.8135
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 7.805e+00 2.900e+00 2.691 0.00712 **
a$V2 2.634e04 9.127e05 2.886 0.00390 **
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 40.381 on 29 degrees of freedom
Residual deviance: 21.841 on 28 degrees of freedom
AIC: 25.841
Number of Fisher Scoring iterations: 5
Aunque los modelos son similares, debemos tener cuidado al interpretar los coeficientes estimados en
ambos modelos.
Pueden ser diferentes. La razón de esto es que aunque las distribuciones logística standard (la base del
modelo Logit) y normal standard (la base del modelo probit) tienen media 0 y sus varianzas son diferentes: 1 para
2
la normal standard y para la distribución logística.
3
Por lo tanto, si multiplicamos el coeficiente Probit por , obtendremos aproximadamente el
3
coeficiente Logit.
107
Bibliografía
5. BIBLIOGRAFÍA
1. Bernstein, Stephen; Bernstein Ruth. Elements of Statistics II: Inferential Statistics, Mc GrawHill, 1999, Cap.
19: 'Regression and correlation', págs: 333378.
3. Chambers, John M. Software for Data Analysis Programming with R , Springer, 2008.
4. Chatterjee, Samprit; Hadi, Ali S. Regression Analysis by Example, Fourth Edition, John Wiley & Sons, 2006,
Cap. 2: 'Simple Linear Regression', págs: 2152; Cap. 3: 'Multiple Linear Regression', págs: 5384; Cap. 5: 'Qualitative
Variables as Predictors', págs: 121150; Cap. 6: 'Transformation of Variables', págs: 151178; Cap. 8: 'The Problem of
Correlated Errors ', págs:197220; Cap. 9: 'Analysis of Collinear Data ', págs: 221258; Cap. 12: 'Logistic Regression ',
págs: 317340.
5. Crawley, Michael J. The R Book, John Wiley & Sons, 2007. Cap. 10: 'Regression ', págs: 387448.
6. Gujarati, Damodar. Basic Econometrics, Fourth Edition, McGrawHill, 2004, Cap. 9: 'Dummy variable
regression models', págs: 297333; Cap. 10: 'Multicollinearity: what happens if the regressors are correlated?', págs:
341386; Cap. 11: 'Heteroscedasticity: what happens if the error variance is nonconstant?', págs: 387440; Cap. 12:
'Autocorrelation: what happens if the error terms are correlated?', págs: 441505; Cap. 15: 'Qualitative response
regression models', págs: 580635.
7. Montgomery, Douglas C; Runger, George C. Applied Statistics and Probability for Engineers, Third
Edition, John Wiley & Sons, 2003, Cap 11: 'Simple Linear Regression and Correlation'; págs: 372409; Cap. 12:
'Multiple Linear Regression', págs: 410467.
8. Salvatore, Dominick; Reagle, Derrick. Theory and problems of Statistics and Econometrics, McGrawHill,
2002, Cap. 6: 'Simple regression analysis', págs: 128153; Cap 7: 'Multiple regression analysis', págs: 154180; Cap 8:
'Further techniques and applications in regression analysis', págs: 181205, Cap 9: 'Problems in regression analysis',
págs: 206227.
10. Verzani, John. Using R for Introductory Statistics, Chapman & Hall/CRC, 2005, Cap. 10: 'Linear
regression', págs: 264297.
108
Bases de datos
PAÍS Y X
i
France 80,2 29019,288
Gabon 56,2 6976,653
Gambia, The 58,8 1999,430
Georgia 70,7 3037,713
Germany 79,1 30149,652
Ghana 59,1 2600,915
Greece 78,9 21529,166
Grenada 68,2 8410,763
Guatemala 69,7 4135,536
Guinea 54,8 1985,822
GuineaBissau 45,8 755,526
Guyana 65,2 4680,530
Haiti 59,5 1687,716
Honduras 69,4 2793,077
Hong Kong SAR 81,9 32292,182
Hungary 72,9 16627,455
Iceland 81,5 35686,217
India 63,7 3315,702
Indonesia 69,7 3939,515
Iran, Islamic Republic of 70,2 8065,119
Ireland 78,4 40002,741
Israel 80,3 22944,118
Italy 80,3 29218,079
Jamaica 72,2 4470,846
Japan 82,3 31405,673
Jordan 71,9 4614,515
Kazakhstan 65,9 8252,367
Kenya 52,1 1108,224
Korea 77,9 22665,654
Kuwait 77,3 16297,267
Kyrgyz Republic 65,6 2061,020
Lao People's Democratic Republic 63,2 2049,032
Latvia 72 13059,487
Lebanon 71,5 6205,325
Lesotho 42,6 2162,916
Libya 73,4 11353,605
Lithuania 72,5 14337,639
Luxembourg 78,4 66820,651
Macedonia, Former Yugoslav Republic of 73,8 7749,249
Madagascar 58,4 910,766
Malawi 46,3 595,857
Malaysia 73,7 11159,608
Maldives 67 7639,500
Mali 53,1 1084,444
Malta 79,1 20015,440
Mauritania 63,2 2307,076
Mauritius 72,4 13028,798
Mexico 75,6 10090,420
Moldova 68,4 2261,605
Mongolia 65,9 2045,544
Morocco 70,4 4578,292
Mozambique 42,8 1335,140
Myanmar 60,8 1417,007
Namibia 51,6 6657,765
Nepal 62,6 1471,227
Netherlands 79,2 30573,938
New Zealand 79,8 24881,583
Nicaragua 71,9 2778,888
Niger 55,8 896,472
Nigeria 46,5 1187,952
Norway 79,8 41940,513
Oman 75 16299,602
Pakistan 64,6 2549,284
Panama 75,1 7052,058
ii
Bases de datos
BASE DE DATOS Nº2
CONDADO Y X
iii
Kankakee County 1,121 12,419
Kendall County 0,104 3,669
La Salle County 0,143 10,099
Lake County 0,504 6,167
Macon County 1,371 15,390
Madison County 0,610 11,113
McHenry County 0,137 5,265
McLean County 0,782 11,615
Ogle County 0,109 7,857
Peoria County 2,290 13,079
Rock Island County 0,952 12,816
Sangamon County 1,800 12,667
St. Clair County 2,436 15,506
Tazewell County 0,267 7,789
Vermilion County 1,762 17,839
Whiteside County 0,237 10,982
Will County 0,504 5,821
Winnebago County 2,329 13,624
BASE DE DATOS Nº3
AÑO Y X
iv
Bases de datos
BASE DE DATOS Nº4
ESTADO Y X
Alabama 8,3 37
Alaska 5,4 30
Arizona 7,5 33
Arkansas 7,3 35
California 6,8 31
Colorado 3,3 28
Connecticut 3,1 28
Delaware 4,9 34
Florida 6,2 35
Georgia 6,4 36
Hawaii 1,6 27
Idaho 2,5 21
Illinois 6,1 31
Indiana 5,8 32
Iowa 1,8 26
Kansas 4,6 28
Kentucky 4,0 33
Louisiana 12,4 41
Maine 1,7 31
Maryland 9,7 32
Massachusetts 2,9 28
Michigan 7,1 32
Minnesota 2,4 25
Mississippi 7,7 45
Missouri 6,3 32
Montana 1,8 25
Nebraska 2,8 25
Nevada 9,0 34
New Hampshire 1,0 25
New Jersey 4,9 28
New Mexico 6,8 37
New York 4,8 34
North Carolina 6,1 35
North Dakota 1,3 24
Ohio 4,7 33
Oklahoma 5,8 34
Oregon 2,3 29
Pennsylvania 5,9 31
Rhode Island 2,6 35
South Carolina 8,3 40
South Dakota 1,2 27
Tennessee 6,8 35
Texas 5,9 33
Utah 1,8 18
Vermont 1,9 29
Virginia 5,2 29
Washington 3,0 29
West Virginia 4,1 31
Wisconsin 3,0 28
Wyoming 1,7 27
v
BASE DE DATOS Nº5
COMUNA Y X
BASE DE DATOS Nº6
COMUNA Y X X X
vi
Bases de datos
BASE DE DATOS Nº6
Pedro Aguirre Cerda 9,8 6,3 235 11,6
Peñalolén 9,9 8,7 244 6,5
Providencia 13,8 3,5 319 5,5
Pudahuel 10,3 7,1 220 6,1
Puente Alto 10,7 10,6 246 6,3
Quinta Normal 10,5 10,8 237 8,9
Quilicura 11,1 6,7 243 7,9
Recoleta 10,2 12,4 242 6,6
Renca 10,0 19,2 250 6,7
San Bernardo 9,7 20,9 246 8,6
San Joaquín 10,7 7,4 233 7,4
San Miguel 12,3 2,5 237 4,6
San Ramón 9,6 16,7 245 7,9
Vitacura 14,6 4,4 325 3,2
BASE DE DATOS Nº7
PAÍS Y X X
vii
BASE DE DATOS Nº7
Denmark 78,2 36130 0,99
Djibouti 55,1 2061 0,55
Dominican Republic 72,4 6706 0,84
Ecuador 75 7449 0,87
Egypt 69,9 5349 0,7
El Salvador 71,3 5804 0,79
Equatorial Guinea 49,9 30627 0,79
Eritrea 59,2 626 0,54
Estonia 72,9 20361 0,96
Ethiopia 54,7 779 0,4
Fiji 68,7 4304 0,87
Finland 79,5 34526 0,99
France 81 33674 0,98
Gabon 60,1 15167 0,84
Gambia 55,7 1225 0,44
Georgia 71,6 4662 0,92
Germany 79,8 34401 0,95
Ghana 56,5 1334 0,62
Greece 79,1 28517 0,98
Grenada 75,3 7344 0,88
Guatemala 70,1 4562 0,72
Guinea 57,3 1140 0,36
GuineaBissau 47,5 477 0,55
Guyana 66,5 2782 0,94
Haiti 61 1155 0,59
Honduras 72 3796 0,81
Hong Kong, China (SAR) 82,2 42306 0,88
Hungary 73,3 18755 0,96
Iceland 81,7 35742 0,98
India 63,4 2753 0,64
Indonesia 70,5 3712 0,84
Iran (Islamic Republic of) 71,2 10955 0,79
Ireland 79,7 44613 0,99
Israel 80,7 26315 0,95
Italy 81,1 30353 0,97
Jamaica 71,7 6079 0,83
Japan 82,7 33632 0,95
Jordan 72,4 4901 0,87
Kazakhstan 64,9 10863 0,97
Kenya 53,6 1542 0,69
Korea (Republic of) 79,2 24801 0,99
Kuwait 77,5 47812 0,87
Kyrgyzstan 67,6 2006 0,92
Lao People's Democratic Republic 64,6 2165 0,68
Latvia 72,3 16377 0,96
Lebanon 71,9 10109 0,86
Lesotho 44,9 1541 0,75
Liberia 57,9 362 0,56
Libyan Arab Jamahiriya 73,8 14364 0,9
Lithuania 71,8 17575 0,97
Luxembourg 79,4 79485 0,98
Macedonia (the Former Yugoslav Rep. of) 74,1 9096 0,88
Madagascar 59,9 932 0,68
Malawi 52,4 761 0,69
Malaysia 74,1 13518 0,85
Maldives 71,1 5196 0,89
Mali 48,1 1083 0,33
Malta 79,6 23080 0,89
Mauritania 56,6 1927 0,54
Mauritius 72,1 11296 0,84
Mexico 76 14104 0,89
Moldova 68,3 2551 0,9
Mongolia 66,2 3236 0,91
viii
Bases de datos
BASE DE DATOS Nº7
Montenegro 74 11699 0,89
Morocco 71 4108 0,57
Mozambique 47,8 802 0,48
Myanmar 61,2 904 0,79
Namibia 60,4 5155 0,81
Nepal 66,3 1049 0,58
Netherlands 79,8 38694 0,99
New Zealand 80,1 27336 0,99
Nicaragua 72,7 2570 0,76
Niger 50,8 627 0,28
Nigeria 47,7 1969 0,66
Norway 80,5 53433 0,99
Oman 75,5 22816 0,79
Pakistan 66,2 2496 0,49
Panama 75,5 11391 0,89
Papua New Guinea 60,7 2084 0,52
Paraguay 71,7 4433 0,87
Peru 73 7836 0,89
Philippines 71,6 3406 0,89
Poland 75,5 15987 0,95
Portugal 78,6 22765 0,93
Qatar 75,5 74882 0,89
Romania 72,5 12369 0,92
Russian Federation 66,2 14690 0,93
Rwanda 49,7 866 0,61
Saint Lucia 73,6 9786 0,89
Saint Vincent and the Grenadines 71,4 7691 0,82
Samoa 71,4 4467 0,91
Sao Tome and Principe 65,4 1638 0,81
Saudi Arabia 72,7 22935 0,83
Senegal 55,4 1666 0,42
Serbia 73,9 10248 0,89
Sierra Leone 47,3 679 0,4
Singapore 80,2 49704 0,91
Slovakia 74,6 20076 0,93
Slovenia 78,2 26753 0,97
Solomon Islands 65,8 1725 0,68
South Africa 51,5 9757 0,84
Spain 80,7 31560 0,98
Sri Lanka 74 4243 0,83
Sudan 57,9 2086 0,54
Suriname 68,8 7813 0,85
Swaziland 45,3 4789 0,73
Sweden 80,8 36712 0,97
Switzerland 81,7 40658 0,94
Syrian Arab Republic 74,1 4511 0,77
Tajikistan 66,4 1753 0,9
Tanzania (United Republic of) 55 1208 0,67
Thailand 68,7 8135 0,89
TimorLeste 60,7 717 0,55
Togo 62,2 788 0,53
Tonga 71,7 3748 0,92
Trinidad and Tobago 69,2 23507 0,86
Tunisia 73,8 7520 0,77
Turkey 71,7 12955 0,83
Turkmenistan 64,6 4953 0,91
Uganda 51,9 1059 0,7
Ukraine 68,2 6914 0,96
United Arab Emirates 77,3 54626 0,84
United Kingdom 79,3 35130 0,96
United States 79,1 45592 0,97
Uruguay 76,1 11216 0,96
Uzbekistan 67,6 2425 0,89
ix
BASE DE DATOS Nº7
Vanuatu 69,9 3666 0,73
Venezuela 73,6 12156 0,92
Viet Nam 74,3 2600 0,81
Yemen 62,5 2335 0,57
Zambia 44,5 1358 0,68
BASE DE DATOS Nº8
ESTADO Y X X
Alabama 90 15,73 37
Alaska 73 15,61 30
Arizona 104 18,47 33
Arkansas 93 15,65 35
California 96 15,24 31
Colorado 82 19,47 28
Connecticut 70 17,21 28
Delaware 93 18,26 34
District of Columbia 128 13,68 62
Florida 97 17,75 35
Georgia 95 14,36 36
Hawaii 93 16,11 27
Idaho 62 16,56 21
Illinois 87 18,95 31
Indiana 73 18,92 32
Iowa 55 20,50 26
Kansas 69 20,63 28
Kentucky 76 17,59 33
Louisiana 87 19,04 41
Maine 52 17,02 31
Maryland 91 18,33 32
Massachusetts 60 20,16 28
Michigan 75 19,57 32
Minnesota 50 19,45 25
Mississippi 103 17,18 45
Missouri 74 19,53 32
Montana 60 23,15 25
Nebraska 59 21,64 25
Nevada 113 18,69 34
New Hampshire 47 18,41 25
New Jersey 90 17,99 28
New Mexico 103 20,00 37
New York 91 19,13 34
North Carolina 95 17,27 35
North Dakota 42 24,67 24
Ohio 74 17,62 33
Oklahoma 86 15,42 34
Oregon 79 15,95 29
Pennsylvania 60 18,26 31
Rhode Island 67 23,22 35
South Carolina 89 14,68 40
South Dakota 54 23,22 27
Tennessee 89 14,04 35
Texas 101 17,57 33
Utah 53 11,79 18
Vermont 44 21,46 29
Virginia 72 18,28 29
Washington 75 16,26 29
West Virginia 67 20,12 62
Wisconsin 55 18,70 31
Wyoming 77 18,99 28
x
Bases de datos
BASE DE DATOS Nº9
Año Y X
BASE DE DATOS Nº10
Y X
Agencia
xi
BASE DE DATOS Nº10
American Canyon 299,1 2539,1
Anaheim Police Dept 424,6 2625,2
Anderson Police Dept 423,4 4120,8
Antioch Police Dept 843,4 3061,6
Apple Valley 377,8 2670,9
Arcadia Police Dept 273,8 2991,2
Arcata Police Dept 301,3 3095,3
Arroyo Grande Police Dept 157,7 2220,2
Artesia 517,9 2077,4
Arvin Police Dept 689,5 4222,5
Atascadero Police Dept 385,9 2057,2
Atwater Police Dept 371 3677,7
Auburn Police Dept 374,8 2853,4
Avenal 256,2 774,4
Azusa Police Dept 434,6 2685,5
Bakersfield Police Dept 615,2 5037,9
Baldwin Park Police Dept 356 2424,5
Banning Police Dept 692,9 2549,5
Barstow Police Dept 1406,7 5046,5
Beaumont Police Dept 152,9 2193,2
Bell Police Dept 467,7 1552,6
Bell Gardens Police Dept 479,6 1896,5
Bellflower 680,1 3385,9
Belmont Police Dept 97,5 1450,9
Benicia Police Dept 214,7 1789,5
Berkeley Police Dept 630,5 7021,7
Beverly Hills Police Dept 446,9 3327,4
Blythe Police Dept 436,2 2612,8
Brawley Police Dept 282,4 5126,6
Brea Police Dept 197,2 3875,4
Brentwood Police Dept 237,4 2433,1
Buena Park Police Dept 396,8 2576
Burbank Police Dept 261,3 2638,5
Burlingame Police Dept 207,4 3084,9
Butte County Sheriff Department 230,9 1598,6
Calabasas 70,5 1731,8
Calaveras County Sheriff Department 107,9 1422,7
Calexico Police Dept 241,5 3283
California City Police Dept 453,8 2239,1
Camarillo 148,6 1679,4
Campbell Police Dept 269,8 4045
Canyon Lake 199,2 1472,6
Carslbad Police Dept 334,5 2575,3
Carpinteria 209,1 1695
Carson 724,9 2760,7
Cathedral City Police Dept 378,1 3312,1
Ceres Dept Of Public Safety 442,1 4732,1
Cerritos 263 3583,5
Chico Police Dept 518,3 3303,4
Chino Police Dept 287,5 3097,9
Chino Hills 96,8 1452,6
Chowchilla Police Dept 111,9 1726
Chula Vista Police Dept 421,1 3328
Claremont Police Dept 246,8 2766
Clayton Police Dept 80 1466,4
Clearlake Police Dept 442,7 4321,7
Clovis Police Dept 143,6 3070,5
Coachella Police Dept 782,3 4041
Coalinga Police Dept 522,4 2797,6
Colton Police Dept 471,8 3715
Commerce 1089,8 8316,3
Compton Police Dept 1690,8 2922,2
Concord Police Dept 402,6 4089,9
xii
Bases de datos
BASE DE DATOS Nº10
Contra Costa County Sheriff Department 428,5 2253,5
Corcoran Police Dept 189,8 910,8
Corona Police Dept 221,5 2619,9
Coronado Police Dept 96,7 1989,7
Costa Mesa Police Dept 234,9 3037,3
Covina Police Dept 450,4 3846,9
Cudahy 573,1 2236,2
Culver City Police Dept 458,5 3696,1
Cupertino 100 1579,2
Cypress Police Dept 201,1 1925
Daly City Police Dept 291,2 2097,7
Dana Point 130,4 1531,2
Danville 53 1549,3
Davis Police Dept 276 3463,5
Delano Police Dept 541,8 3579,2
Desert Hot Springs 1155,3 7191,3
Diamond Bar 229,5 1825,6
Dinuba Police Dept 662,5 4762,6
Dixon Police Dept 408,2 4585,4
Downey Police Dept 470,6 3553,4
Duarte 377,4 2350
Dublin 173,7 1728
East Palo Alto Police Dept 785,9 2071,7
El Cajon Police Dept 541,1 4328,5
El Centro Police Dept 649,5 5059
El Cerrito Police Dept 786,2 5085,7
El Dorado County Sheriff Department 161,8 1394,5
El Monte Police Dept 552,4 2262,8
El Segundo Police Dept 217,7 4693,6
Encinitas 267,6 1925,1
Escondido Police Dept 492,4 3244,4
Eureka Police Dept 998,1 5984,9
Exeter Police Dept 203,7 3095
Fairfield Police Dept 595,7 4101,9
Farmersville Police Dept 538,2 2377,9
Fillmore 341,7 2010,6
Folsom Police Dept 143,4 2333,1
Fontana Police Dept 507,7 2352,5
Fortuna Police Dept 212,2 3332,7
Foster City Police Dept 76 1661
Fountain Valley Police Dept 198,3 2578
Fremont Police Dept 301 2569,6
Fresno County Sheriff Department 329,5 3464,3
Fresno Police Dept 644,5 4441
Fullerton Police Dept 348,9 3083,9
Galt Police Dept 392,2 3705,1
Garden Grove Police Dept 387,6 2495
Gardena Police Dept 747,3 2381,9
Gilroy Dept Of Public Safety 508,7 4085,7
Glendale Police Dept 187,5 1833,1
Glendora Police Dept 164,4 2958,7
Goleta 181,2 1289,2
Grand Terrace 178,4 1962,1
Grass Valley Police Dept 526,9 2938,1
Greenfield Police Dept 911,4 3728,3
Grover Beach Police Dept 697,4 2162,8
Half Moon Bay Police Dept 169,8 2069,5
Hanford Police Dept 303,9 3368,6
Hawaiian Gardens Police Dept 960,7 2624,1
Hawthorne Police Dept 893,6 2326,9
Hayward Police Dept 626,6 3319,3
Healdsburg Police Dept 173,4 2546,8
Hemet Police Dept 666,9 4339,7
xiii
BASE DE DATOS Nº10
Hercules Police Dept 198,9 1911,4
Hermosa Beach Police Dept 340,5 2805,4
Hesperia 371,2 2326,2
Highland 618,1 2540,8
Hillsborough Police Dept 18,7 888,1
Hollister Police Dept 541,7 2465,7
Humboldt County Sheriff Department 199,9 1313,8
Huntington Beach Police Dept 192,8 2068,5
Huntington Park Police Dept 968,4 4459,7
Imperial County Sheriff Department 338,1 3014,2
Imperial Police Dept 40 1663,2
Indio Police Dept 427,3 3455,1
Inglewood Police Dept 899,1 2592,4
Irvine Police Police 70,8 1612,9
Kerman Police Dept 218,8 2743,3
Kern County Sheriff Department 571,2 3276,3
King City Police Dept 676,3 3096,9
Kings County Sheriff Department 337,7 1374,6
Kingsburg Police Dept 121,9 3849,2
La CanadaFlintridge 118,6 2044,7
La Habra Police Dept 352,5 2447,3
Lamesa Police Dept 450,7 4231
La Mirada 229,3 2153,8
La Palma Police Dept 284,4 1870,9
La Puente 533,9 1806,1
La Quinta 469,3 3637,8
La Verne Police Dept 244,4 2447,2
Lafayette 100 1731,5
Laguna Beach Police Dept 202,4 2044,2
Laguna Hills 171 1998,6
Laguena Niguel 72,3 1022,4
Laguna Woods 16,4 502,4
Lake County Sheriff Department 318,8 1635
Lake Elsinore 383,8 3456,6
Lake Forest 121,8 1377,7
Lakewood 570,3 3092,2
Lancaster 909,1 3506
Lawndale 770,6 1553,7
Lemon Grove 670,3 2491,5
Lemoore Police Dept 336,7 3124,3
Lincoln Police Dept 114,3 965,4
Lindsay Police Dept 686,5 3716,2
Livermore Police Dept 210,6 2578,1
Livingston Police Dept 730,1 3003,2
Lodi Police Dept 363,8 4369
Loma Linda 129,4 2832,6
Lomita 603,7 2088,7
Lompoc Police Dept 685,2 2194,1
Long Beach Police Dept 722,8 2738,4
Los Alamitos Police Dept 290 2899,8
Los Altos Police Dept 65,6 1067,4
Los Angeles County Sheriff Department 784,3 2067,2
Los Angeles Police Dept 718,4 2621,3
Los Banos Dept Of Public Safety 393,1 2618,8
Los Gatos Police Dept 123,6 2206,9
Lynwood 1012,4 2593,5
Madera County Sheriff Department 423,5 1751,5
Madera Police Dept 730,7 2239,6
Malibu 218,7 2435,3
Manhattan Beach Police Dept 145,7 2771,1
Manteca Police Dept 367,5 4019,3
Marin County Sheriff Department 199,3 1260
Marina Dept Of Public Safety 277 3246,9
xiv
Bases de datos
BASE DE DATOS Nº10
Martinez Police Dept 343,3 3326
Marysville Police Dept 1403 4864,3
Maywood Police Dept 607,7 1548,8
Mendocino County Sheriff Department 527,5 1184
Menlo Park Police Dept 247,8 1875
Merced County Sheriff Department 540,7 2685,3
Merced Police Dept 781,5 4887,1
Mill Valley Police Dept 120,5 1385,5
Millbrae Police Dept 190,9 1684,2
Milpitas Police Dept 277,5 3262,1
Mission Viejo 86,2 1380,7
Modesto Police Dept 716,1 5781,8
Monrovia Police Dept 353,9 2951,7
Montclair Police Dept 654,7 6536,1
Montebello Police Dept 383,7 3088,6
Monterey County Sheriff Department 222,5 1983,6
Monterey Police Dept 578,9 4453,5
Monterey Park Police Dept 313,7 2064,9
Moorpark 113,1 1597
Moraga Police Dept 88,1 1497
Moreno Valley 538,2 3348,8
Morgan Hill Police Dept 230,7 2435,8
Morro Bay Police Dept 207,9 1514,9
Mountain View Police Dept 340 2170
City Of Murrieta Police Dept 120,3 1993,9
Napa County Sheriff Department 291,9 2076,8
Napa Police Dept 382,6 3123,6
National City Police Dept 683,9 3498,6
Nevada County Sheriff Department 197,1 891,3
Newark Police Dept 536,1 4119,1
Newman Police Dept 345 3162,1
Newport Beach Police Dept 214 2771,9
Norco 345,8 3429,3
Norwalk 576,3 2497,9
Novato Police Dept 301,5 2289,4
Oakdale Police Dept 246,4 5233,8
Oakland Police Dept 1917,8 5967,6
Oakley 399,3 2518,6
Oceanside 546,8 2756,8
Ontario Police Dept 486,5 3332,6
Orange County Sheriff Department 161,9 1347,3
Orange Police Dept 195,9 2244,9
Orinda 70,5 1669,5
Oroville Police Dept 1458,1 7570,5
Oxnard Police Dept 453,4 2293,9
Pacific Grove Police Dept 155,7 2626,6
Pacifica Police Dept 199,1 1683,9
Palm Desert 192,1 6083,1
Palm Springs Police Dept 632,4 7249,4
Palmdale 733,9 3027
Palo Alto Police Dept 110,9 2495,8
Palos Verdes Estates Police Dept 28,9 1178,8
Paradise Police Dept 208,5 2861,9
Paramount 854,7 3426,1
Parlier Police Dept 926 3278,3
Pasadena Police Dept 511,2 2957
Paso Robles Police Dept 372,1 3267,8
Patterson Police Dept 265 3109,1
Perris 625,6 4201,4
Petaluma Police Dept 413,7 1892,9
Pico Rivera 397,2 2418,9
Piedmont Police Dept 95,4 1975,6
Pinole Police Dept 594,4 4202,9
xv
BASE DE DATOS Nº10
Pittsburg Police Dept 391,2 3758,2
Placentia Police Dept 178,5 1407,9
Placer County Sheriff Department 227,8 1784
Placerville Police Dept 700,1 2317,1
Pleasant Hill Police Dept 376,1 4835,6
Pleasanton Police Dept 94,4 1939,8
Pomona Police Dept 795,9 3358,4
Port Hueneme Police Dept 426,5 1825,4
Porterville Police Dept 619,9 5038,5
Poway 212 1561,2
Rancho Cucamonga 211,6 2211,8
Rancho Mirage 156,1 6170,1
Rancho Palos Verdes 98 1283,3
Rancho Santa Margari 58,8 1054,4
Red Bluff Police Dept 970,9 4790,6
Redding Police Dept 498,2 2896,2
Redlands Police Dept 424,6 3510,5
Redondo Beach Police Dept 301,9 2406,2
Redwood City Police Dept 457,5 2300
Reedley Police Dept 588,8 3026,2
Rialto Police Dept 743,6 2270,8
Richmond Police Dept 1190,6 5374,2
Ridgecrest Police Dept 576,8 2356,6
Ripon Police Dept 245,2 2608,5
Riverbank 303,4 3967,6
Riverside County Sheriff Department 407 2709,7
Riverside Police Dept 632,5 3726,5
Rocklin Police Dept 193 2094,5
Rohnert Park Dept Of Public Safety 579,9 2322
Rosemead 456,6 2524,1
Roseville Police Dept 347,1 3551,7
Sacramento County Sheriff Department 465,4 2147,8
Sacramento Police Dept 1113,5 5297,8
Salinas Police Dept 794,5 4735,3
San Anselmo Police Dept 216,8 2342,6
San Bernardino County Sheriff Department 445,2 2274,1
San Bernardino Police Dept 1070,7 5024,7
San Bruno Police Dept 270,3 2057,1
San Carlos Police Dept 130,1 1676,5
San Clemente 132,3 1242
San Diego County Sheriff Department 393,8 1753,4
San Diego Police Dept 502,1 3502
San Dimas 229 2507,7
San Fernando Police Dept 533,3 1938,9
San Francisco Police Dept 874,1 4695,6
San Gabriel Police Dept 473,5 1869,6
San Jacinto Police Dept 426,4 3278,8
San Joaquin County Sheriff Department 711,7 3469
San Jose Police Dept 402,2 2574,7
San Juan Capistrano 191,6 1401
San Leandro Police Dept 703,2 5114,1
San Luis Obispo County Sheriff Department 217,4 1233,6
San Luis Obispo Police Dept 392,7 4315
San Marino Police Dept 122 2036,3
San Mateo County Sheriff Department 369,8 2483,2
San Mateo Police Dept 334,6 2267
San Pablo Police Dept 1008,3 5436,2
San Rafael Police Dept 500,1 3148,9
San Ramon 107,4 2091,7
Sanger Police Dept 367,4 2814
Santa Ana Police Dept 572,3 2291,7
Santa Barbara County Sheriff Department 150,7 1251,3
Santa Barbara Police Dept 522,7 2674,4
xvi
Bases de datos
BASE DE DATOS Nº10
Santa Clara County Sheriff Department 382,1 2091,5
Santa Clara Police Dept 211,1 3134,7
Santa Clarita 218,3 2219,1
Santa Cruz County Sheriff Department 208,6 1952,3
Santa Cruz Police Dept 880,5 4452,1
Santa Fe Springs 796,2 8804,6
Santa Maria Police Dept 704,1 3049,6
Santa Monica Police Dept 672,8 3508,5
Santa Paula Police Dept 347,1 2514,2
Santa Rosa Police Dept 497,6 2408,5
Santee 280,2 2172,9
Saratoga 96,5 997,8
Scotts Valley Police Dept 99 2420,4
Seal Beach Police Beach 151,7 1665,1
Seaside Police Dept 637,4 2081,6
Selma Police Dept 384 4595,5
Shafter Police Dept 446,9 4009,2
Shasta County Sheriff Department 441,6 1224,9
Sierra Madre Police Dept 99,7 1541,1
Signal Hill Police Dept 532,4 4037,3
Simi Valley Police Dept 147,5 1942,5
Solana Beach 206,3 2150,6
Soledad Police Dept 306 1614,4
Sonoma County Sheriff Department 364,1 1199,3
South El Monte 663,7 2954,5
South Gate Police Dept 584,6 2959,4
South Lake Tahoe Police Dept 682,8 2526
South Pasadena Police Dept 144,2 1746,3
South San Francisco Police Dept 288 2549,7
Stanislaus County Sheriff Department 715,4 3513,7
Stanton 448,7 1959,3
Stockton Police Dept 1418,7 6285
Suisun City Police Dept 533,1 2713,8
Sunnyvale Dept Of Public Safety 118,2 2017,2
Susanville Police Dept 373,8 2088,8
Sutter County Sheriff Department 403,8 3054,7
Tehama County Sheriff Department 473,1 1025,1
Temecula 221 2833,5
Temple City 220,5 1808,2
Thousand Oaks 116,6 1551,2
Torrance Police Dept 239,9 2229,1
Tracy Police Dept 161,6 3016
Truckee 359,7 1902
Tulare County Sheriff Department 327,7 1894,4
Tulare Police Dept 809,7 4202,3
Tuolumne County Sheriff Department 207,5 1680,9
Turlock Police Dept 708,9 5090,5
Tustin Police Dept 195,9 2251,8
TwentyNine Palms 311,4 1599
Twin Cities Police Dept 90,3 2636,6
Ukiah Dept Of Public Safety 872 3084,5
Union City Police Dept 643,6 2898,1
Upland Police Dept 393 3688,1
Vacaville Police Dept 282,3 2185,3
Vallejo Police Dept 932,7 5192,6
Ventura County Sheriff Department 208,6 1477,1
Ventura Police Dept 352,1 3661,4
Victorville 629,3 3851,4
Visalia Police Dept 571,2 4456,8
Walnut 177,9 1747,7
Walnut Creek Police Dept 141,6 4068,1
Watsonville Police Dept 809,7 4642
West Covina Police Dept 362,6 3575,5
xvii
BASE DE DATOS Nº10
West Hollywood 923,4 3906,7
West Sacramento Police Dept 802,2 2997,1
Westminster Police Dept 395,8 2962,1
Whittier Police Dept 404,6 2770,2
Windsor 339,4 1283,5
Woodland Police Dept 299,9 3518,6
Yorba Linda 66,4 1556,2
Yuba County Sheriff Dept 398,6 2043,4
Yuba City Police Dept 395,9 3091,4
Yucaipa 100,7 1770,5
Yucca Valley 354,7 2698,3
BASE DE DATOS Nº 11
Estado Y X
xviii
Bases de datos
BASE DE DATOS Nº 11
Virginia 25,7 76,4
Virgin Islands 26,5 66,8
Washington 26 80,6
West Virginia 31,9 68,9
Wisconsin 26 77,9
Wyoming 25,2 75,6
BASE DE DATOS Nº12
Municipio Y X X
xix
BASE DE DATOS Nº12
Mazapa de Madero 0.689 3.61 12
Mazatán 0.626 0.44 19
Metapa 0.124 0.42 18
Mitontic 2.039 78.97 62
Motozintla 0.575 2.08 15
Nicolas Ruiz 1.287 0 0
Ocosingo 1.448 49.76 34
Ocotepec 1.609 80.11 49
Ocozocoautla de espinosa 0.419 14.54 21
Ostuacán 1.127 4.81 26
Osumacinta 0.055 8.72 13
Oxchuc 1.779 80.75 31
Palenque 0.597 33.6 24
Pantelhó 2.252 68.23 52
Pantepec 1.364 44.35 45
Pichucalco 0.250 1.64 21
Pijijiapan 0.487 1.11 20
El Porvenir 1.176 6.32 15
Villa Comaltitlán 0.764 0.73 21
Pueblo Nuevo Solistahuacán 1.176 39.75 42
Rayón 0.714 33.41 34
Reforma 0.780 0.97 12
Las Rosas 1.073 7.01 39
Sabanilla 1.510 63.72 36
Salto de Agua 1.683 69.18 40
San Cristobal de las Casas 0.626 32.02 18
San Fernando 0.279 1.77 23
Siltepec 1.290 0.44 25
Simojovel 1.344 48.61 45
Sitalá 3.345 44.77 60
Socoltenango 1.011 7.03 32
Solosuchiapa 0.906 13.18 26
Soyaló 0.545 26.32 31
Suchiapa 0.018 0.51 24
Suchiate 0.454 0.37 22
Sunuapa 1.046 0.83 26
Tapachula 0.442 1.18 12
Tapalapa 0.739 81.89 23
Tapilula 0.272 10.57 26
Tecpatán 0.807 18.97 22
Tenejapa 1.370 76.12 35
Teopisca 1.096 35.43 41
Tila 1.414 78.27 39
Tonalá 0.082 0.59 16
Totolapa 1.241 6.87 44
La Trinitaria 0.497 8.13 21
Tumbalá 1.814 74.13 45
Tuxtla Gutiérrez 1.263 2.14 8
Tuxtla Chico 0.420 0.22 22
Tuzantán 0.703 0.79 17
Tzimol 0.632 1.12 29
Unión Juárez 0.303 1.68 19
Venustiano Carranza 0.728 17.97 32
Villa Corzo 0.668 4.83 25
Villaflores 0.142 1.46 19
Yajalón 0.914 52.98 35
San Lucas 1.247 10.72 37
Zinacantán 1.797 82.34 54
San Juan Cancuc 1.966 76.42 52
Aldama 2.319 68.45 58
Benemérito de las Américas 1.120 25.95 27
Maravilla Tenejapa 1.518 33.12 31
Marqués de Comillas 1.602 30.1 30
xx
Bases de datos
BASE DE DATOS Nº12
Montecristo de Guerrero 1.118 0.71 28
San Andres Duraznal 1.489 66.9 46
Santiago el Pinar 2.209 63.57 68
BASE DE DATOS Nº13
Año Y X X
BASE DE DATOS Nº14
Año Y X X X X
BASE DE DATOS Nº15
Y X
3929214 1790
5308483 1800
7239881 1810
9638453 1820
12860702 1830
17063353 1840
23191876 1850
31443321 1860
38558371 1870
xxi
BASE DE DATOS Nº15
50189209 1880
62979766 1890
76212168 1900
92228496 1910
106021537 1920
123202624 1930
132164569 1940
151325798 1950
179323175 1960
BASE DE DATOS Nº16
Y X
29105 1987
36126 1988
43499 1989
49546 1990
60573 1991
79657 1992
79879 1993
73086 1994
69984 1995
61124 1996
49379 1997
43225 1998
41356 1999
39513 2000
BASE DE DATOS Nº17
Y X
23135 1994
25279 1995
29269 1996
34068 1997
38468 1998
41293 1999
39743 2000
34471 2001
30270 2002
28549 2003
27053 2004
BASE DE DATOS Nº18
PAÍS Y X
xxii
Bases de datos
BASE DE DATOS Nº18
Bahrain 15,25 37400
Bangladesh 59,02 1500
Barbados 12,29 18900
Belarus 6,43 11800
Belgium 4,44 37500
Belize 23,07 8400
Benin 64,64 1500
Bermuda 2,46 69900
Bhutan 49,36 5200
Bolivia 44,66 4500
Bosnia and Herzegovina 9,1 6500
Botswana 12,59 13900
Brazil 22,58 10200
British Virgin Islands 14,65 38500
Brunei 12,27 51300
Bulgaria 17,87 12900
Burkina Faso 84,49 1200
Burma 47,61 1200
Burundi 59,64 300
Cambodia 54,79 2000
Cameroon 63,34 2300
Canada 5,04 39200
Cape Verde 41,35 3800
Cayman Islands 6,94 43800
Central African Republic 80,62 700
Chad 98,69 1600
Chile 7,71 14900
China 20,25 6000
Colombia 18,9 9200
Comoros 66,57 1000
Congo, Democratic Republic of the 81,21 300
Congo, Republic of the 79,78 3900
Cook Islands 16,9 9100
Costa Rica 8,77 11600
Cote d'Ivoire 68,06 1700
Croatia 6,37 18400
Cuba 5,82 9500
Cyprus 6,6 21300
Czech Republic 3,79 25900
Denmark 4,34 37200
Djibouti 97,51 2700
Dominica 13,65 10000
Dominican Republic 25,96 8200
Ecuador 20,9 7500
Egypt 27,26 5800
El Salvador 21,52 6200
Eritrea 43,33 700
Estonia 7,32 21400
Ethiopia 80,8 900
European Union 5,72 33700
Faroe Islands 6,32 31000
Fiji 11,58 3800
Finland 3,47 37000
France 3,33 33300
French Polynesia 7,55 18000
Gabon 51,78 14200
Gambia, The 67,33 1300
Gaza Strip 18,35 2900
Georgia 16,22 4700
Germany 3,99 35500
Ghana 51,09 1500
Gibraltar 4,83 38200
Greece 5,16 32100
xxiii
BASE DE DATOS Nº18
Greenland 10,72 20000
Grenada 13,23 13200
Guatemala 27,84 5300
Guernsey 4,47 44600
Guinea 65,22 1100
GuineaBissau 99,82 600
Guyana 29,65 3900
Haiti 59,69 1300
Honduras 24,03 4400
Hong Kong 2,92 43800
Hungary 7,86 19800
Iceland 3,23 42300
India 30,15 2900
Indonesia 29,97 3900
Iran 35,78 12800
Iraq 43,82 3200
Ireland 5,05 45500
Isle of Man 5,37 35000
Israel 4,22 28600
Italy 5,51 31400
Jamaica 15,22 8600
Japan 2,79 34100
Jersey 4,73 57000
Jordan 14,97 5200
Kazakhstan 25,73 11500
Kenya 54,7 1600
Kiribati 43,48 5300
Korea, North 51,34 1800
Korea, South 4,26 27700
Kuwait 8,96 57500
Kyrgyzstan 31,26 2200
Laos 77,82 2100
Latvia 8,77 17300
Lebanon 21,82 11100
Lesotho 77,4 1600
Liberia 138,24 500
Libya 21,05 14200
Lithuania 6,47 17800
Luxembourg 4,56 81200
Macau 3,22 30000
Macedonia 9,01 9100
Madagascar 54,2 1000
Malawi 89,05 800
Malaysia 15,87 15200
Maldives 29,53 4500
Mali 102,05 1100
Malta 3,75 24600
Marshall Islands 25,45 2500
Mauritania 63,42 2100
Mauritius 12,2 12100
Mayotte 56,29 4900
Mexico 18,42 14300
Micronesia, Federated States of 26,1 2200
Moldova 13,13 2500
Monaco 5 30000
Mongolia 39,88 3200
Montserrat 16,08 3400
Morocco 36,88 4500
Mozambique 105,8 900
Namibia 45,51 6400
Nauru 9,25 5000
Nepal 47,46 1100
Netherlands 4,73 40500
xxiv
Bases de datos
BASE DE DATOS Nº18
Netherlands Antilles 9,09 16000
New Caledonia 7,05 15000
New Zealand 4,92 27900
Nicaragua 25,02 2900
Niger 116,66 700
Nigeria 94,35 2300
Northern Mariana Islands 6,59 12500
Norway 3,58 59500
Oman 16,88 20200
Pakistan 65,14 2500
Palau 13,14 8100
Panama 12,67 11800
Papua New Guinea 45,23 2300
Paraguay 24,68 4200
Peru 28,62 8500
Philippines 20,56 3300
Poland 6,8 17400
Portugal 4,78 22200
Puerto Rico 8,42 17800
Romania 22,9 12200
Russia 10,56 16100
Rwanda 81,61 900
Saint Helena 17,63 2500
Saint Kitts and Nevis 13,94 19100
Saint Lucia 13,43 11100
Saint Pierre and Miquelon 6,87 7000
Saint Vincent and the Grenadines 15,14 10200
Samoa 24,22 4700
San Marino 5,34 41900
Sao Tome and Principe 37,12 1300
Saudi Arabia 11,57 20500
Senegal 58,94 1600
Serbia 6,75 10800
Seychelles 12,3 21000
Sierra Leone 154,43 900
Singapore 2,31 51600
Slovakia 6,84 22000
Slovenia 4,25 29600
Solomon Islands 19,03 2700
Somalia 109,19 600
South Africa 44,42 10100
Spain 4,21 34600
Sri Lanka 18,57 4400
Sudan 82,43 2200
Suriname 18,81 8900
Swaziland 68,63 4400
Sweden 2,75 38200
Switzerland 4,18 42000
Syria 25,87 4600
Taiwan 5,35 31100
Tajikistan 41,03 1800
Tanzania 69,28 1400
Thailand 17,63 8400
TimorLeste 40,65 2300
Togo 56,24 900
Tonga 11,58 4600
Trinidad and Tobago 29,93 23600
Tunisia 22,57 7900
Turkey 25,78 11900
Turkmenistan 45,36 6500
Turks and Caicos Islands 13,89 11500
Tuvalu 18,43 1600
Uganda 64,82 1300
xxv
BASE DE DATOS Nº18
Ukraine 8,98 7400
United Arab Emirates 12,7 44600
United Kingdom 4,85 36700
United States 6,26 47500
Uruguay 11,32 12400
Uzbekistan 23,43 2600
Vanuatu 49,45 4600
Venezuela 21,54 13500
Vietnam 22,88 2800
Virgin Islands 7,56 14500
Wallis and Futuna 5,02 3800
West Bank 15,96 2900
Western Sahara 69,66 2500
Yemen 54,7 2500
Zambia 101,2 1500
Zimbabwe 32,31 200
BASE DE DATOS Nº19
Condado Y D D
Starr County 98,10 1 0
Maverick County 95,33 1 0
Webb County 94,40 1 0
Brooks County 92,00 1 0
Zavala County 91,39 1 0
Jim Hogg County 90,63 1 0
Hidalgo County 88,42 1 0
Duval County 88,16 1 0
Willacy County 86,11 1 0
Kenedy County 85,99 1 0
Dimmit County 85,31 1 0
Zapata County 84,94 1 0
Presidio County 84,76 1 0
Cameron County 84,47 1 0
El Paso County 78,27 1 0
La Salle County 77,29 1 0
Jim Wells County 75,92 1 0
Val Verde County 75,75 1 0
Hudspeth County 75,45 1 0
Frio County 73,92 1 0
Reeves County 73,59 1 0
Culberson County 72,34 1 0
Uvalde County 66,12 1 0
Kleberg County 65,56 1 0
Pecos County 61,09 1 0
Nueces County 55,71 1 0
Crockett County 55,09 1 0
Bee County 53,95 1 0
Terrell County 51,34 1 0
Kinney County 50,10 1 0
San Patricio County 49,40 1 0
Edwards County 45,61 1 0
Medina County 45,49 1 0
Brewster County 43,72 1 0
Live Oak County 37,95 1 0
Jeff Davis County 35,48 1 0
McMullen County 34,43 1 0
Real County 21,63 1 0
Castro County 51,83 0 1
Parmer County 49,83 0 1
Crosby County 48,84 0 1
Dawson County 48,09 0 1
xxvi
Bases de datos
BASE DE DATOS Nº19
Hale County 47,99 0 1
Bailey County 47,73 0 1
Floyd County 46,03 0 1
Yoakum County 45,92 0 1
Cochran County 45,04 0 1
Lynn County 44,32 0 1
Terry County 43,99 0 1
Lamb County 43,71 0 1
Martin County 41,49 0 1
Andrews County 40,11 0 1
Howard County 37,56 0 1
Hockley County 37,21 0 1
Garza County 37,15 0 1
Gaines County 35,79 0 1
Swisher County 35,37 0 1
Mitchell County 31,33 0 1
Titus County 28,40 0 1
Nolan County 27,90 0 1
Scurry County 27,82 0 1
Hall County 27,55 0 1
Lubbock County 27,44 0 1
Knox County 25,53 0 1
Dickens County 23,39 0 1
Briscoe County 22,74 0 1
Fisher County 21,71 0 1
Jones County 21,10 0 1
Haskell County 20,61 0 1
Wilbarger County 20,46 0 1
Childress County 20,32 0 1
Cottle County 18,91 0 1
Borden County 18,24 0 1
Taylor County 17,54 0 1
Foard County 16,21 0 1
Hardeman County 15,09 0 1
Camp County 14,45 0 1
Stephens County 14,17 0 1
Angelina County 14,08 0 1
Motley County 13,53 0 1
Cherokee County 13,25 0 1
Wichita County 12,13 0 1
Anderson County 12,00 0 1
Stonewall County 11,99 0 1
Nacogdoches County 11,32 0 1
Rockwall County 11,13 0 1
Smith County 11,10 0 1
Liberty County 10,92 0 1
Eastland County 10,75 0 1
Jefferson County 10,58 0 1
Young County 10,50 0 1
Kent County 10,24 0 1
Collin County 10,22 0 1
Polk County 9,65 0 1
Shelby County 9,48 0 1
Hopkins County 9,26 0 1
Baylor County 9,14 0 1
Gregg County 8,86 0 1
Franklin County 8,78 0 1
Rusk County 8,30 0 1
Shackelford County 8,24 0 1
Hunt County 8,19 0 1
Throckmorton County 7,84 0 1
Houston County 7,59 0 1
Henderson County 6,75 0 1
xxvii
BASE DE DATOS Nº19
Van Zandt County 6,73 0 1
Callahan County 6,22 0 1
King County 6,18 0 1
Fannin County 5,66 0 1
Harrison County 5,40 0 1
Wood County 5,38 0 1
Red River County 5,11 0 1
Archer County 4,57 0 1
Rains County 4,56 0 1
San Jacinto County 4,49 0 1
Bowie County 4,27 0 1
Trinity County 4,07 0 1
Jasper County 3,96 0 1
Upshur County 3,79 0 1
Newton County 3,71 0 1
Tyler County 3,65 0 1
Lamar County 3,54 0 1
Orange County 3,50 0 1
Morris County 3,46 0 1
Panola County 3,23 0 1
San Augustine County 2,96 0 1
Hardin County 2,45 0 1
Cass County 1,62 0 1
Sabine County 1,60 0 1
Marion County 1,40 0 1
Delta County 0,81 0 1
Atascosa County 58,70 0 0
Deaf Smith County 57,71 0 0
Bexar County 54,35 0 0
Sutton County 51,73 0 0
Reagan County 49,67 0 0
Karnes County 47,71 0 0
Moore County 47,39 0 0
Refugio County 44,69 0 0
Crane County 44,09 0 0
Winkler County 44,03 0 0
Schleicher County 43,61 0 0
Upton County 42,45 0 0
Ward County 42,41 0 0
Ector County 42,39 0 0
Concho County 41,65 0 0
Calhoun County 40,71 0 0
Caldwell County 40,60 0 0
Gonzales County 39,88 0 0
Victoria County 39,22 0 0
Wilson County 36,48 0 0
Goliad County 35,13 0 0
Guadalupe County 33,16 0 0
Harris County 32,95 0 0
Menard County 32,63 0 0
Hansford County 31,83 0 0
Ochiltree County 31,69 0 0
Matagorda County 31,30 0 0
Sterling County 31,30 0 0
Wharton County 31,23 0 0
Tom Green County 30,65 0 0
Dallas County 29,89 0 0
Glasscock County 29,87 0 0
Hays County 29,45 0 0
Runnels County 29,40 0 0
Midland County 28,93 0 0
Dallam County 28,48 0 0
Travis County 28,21 0 0
xxviii
Bases de datos
BASE DE DATOS Nº19
Potter County 28,18 0 0
Sherman County 27,97 0 0
DeWitt County 27,31 0 0
McCulloch County 26,63 0 0
Jackson County 25,07 0 0
Irion County 24,68 0 0
Bastrop County 23,99 0 0
Brazoria County 22,76 0 0
Comal County 22,60 0 0
San Saba County 21,66 0 0
Mason County 21,21 0 0
Fort Bend County 21,10 0 0
Comanche County 21,06 0 0
Kimble County 20,97 0 0
Collingsworth County 20,59 0 0
Aransas County 20,42 0 0
Colorado County 19,76 0 0
Tarrant County 19,73 0 0
Waller County 19,43 0 0
Lipscomb County 19,20 0 0
Kerr County 19,16 0 0
Milam County 18,98 0 0
Lee County 18,27 0 0
Ellis County 18,24 0 0
Galveston County 18,05 0 0
McLennan County 17,93 0 0
Loving County 17,91 0 0
Brazos County 17,86 0 0
Kendall County 17,73 0 0
Williamson County 17,21 0 0
Coke County 16,95 0 0
Bell County 16,68 0 0
Grimes County 16,25 0 0
Austin County 16,06 0 0
Gillespie County 15,99 0 0
Navarro County 15,89 0 0
Falls County 15,87 0 0
Madison County 15,80 0 0
Blanco County 15,29 0 0
Brown County 15,22 0 0
Hemphill County 15,10 0 0
Lampasas County 15,05 0 0
Erath County 14,98 0 0
Burnet County 14,76 0 0
Burleson County 14,64 0 0
Robertson County 14,56 0 0
Hutchinson County 14,47 0 0
Walker County 14,02 0 0
Hartley County 13,78 0 0
Somervell County 13,56 0 0
Bandera County 13,45 0 0
Hill County 13,44 0 0
Coleman County 13,43 0 0
Palo Pinto County 13,22 0 0
Gray County 12,98 0 0
Limestone County 12,98 0 0
Oldham County 12,81 0 0
Fayette County 12,65 0 0
Montgomery County 12,62 0 0
Coryell County 12,53 0 0
Mills County 12,48 0 0
Wheeler County 12,40 0 0
Bosque County 12,33 0 0
xxix
BASE DE DATOS Nº19
Denton County 12,09 0 0
Johnson County 12,01 0 0
Lavaca County 11,41 0 0
Kaufman County 11,12 0 0
Chambers County 10,89 0 0
Wise County 10,76 0 0
Randall County 10,28 0 0
Cooke County 9,82 0 0
Washington County 8,97 0 0
Freestone County 8,43 0 0
Jack County 7,92 0 0
Leon County 7,86 0 0
Hamilton County 7,50 0 0
Hood County 6,99 0 0
Parker County 6,96 0 0
Carson County 6,81 0 0
Grayson County 6,39 0 0
Donley County 5,80 0 0
Montague County 5,49 0 0
Llano County 5,14 0 0
Armstrong County 3,91 0 0
Clay County 3,07 0 0
Roberts County 1,35 0 0
BASE DE DATOS Nº20
Condado Y D D D
Anderson County 14,32 0 1 0
Andrews County 15,29 0 1 1
Angelina County 19,34 0 1 0
Aransas County 19,63 0 0 0
Archer County 8,21 0 1 0
Armstrong County 8,8 0 0 0
Atascosa County 20,13 0 0 1
Austin County 12,15 0 0 0
Bailey County 18,84 0 1 1
Bandera County 15,18 0 0 0
Bastrop County 15,27 0 0 0
Baylor County 16,74 0 1 0
Bee County 16,97 1 0 1
Bell County 15,2 0 0 0
Bexar County 18,3 0 0 1
Blanco County 11,11 0 0 0
Borden County 6,45 0 1 0
Bosque County 19,89 0 0 0
Bowie County 16,97 0 1 0
Brazoria County 11,42 0 0 0
Brazos County 27,1 0 0 0
Brewster County 16,95 1 0 1
Briscoe County 12,79 0 1 0
Brooks County 28,51 1 0 1
Brown County 18,13 0 0 0
Burleson County 15,62 0 0 0
Burnet County 12,5 0 0 0
Caldwell County 18,14 0 0 1
Calhoun County 15,28 0 0 1
Callahan County 13,79 0 1 0
Cameron County 39,11 1 0 1
Camp County 18,7 0 1 0
Carson County 8,18 0 0 0
Cass County 18,23 0 1 0
Castro County 17,31 0 1 1
xxx
Bases de datos
BASE DE DATOS Nº20
Chambers County 9,4 0 0 0
Cherokee County 18,12 0 1 0
Childress County 17,51 0 1 0
Clay County 11,98 0 0 0
Cochran County 19,54 0 1 1
Coke County 11,65 0 0 0
Coleman County 19,87 0 0 0
Collin County 9,13 0 1 0
Collingsworth County 17,75 0 0 0
Colorado County 14,43 0 0 0
Comal County 13,04 0 0 0
Comanche County 16,5 0 0 0
Concho County 13,46 0 0 1
Cooke County 14,26 0 0 0
Coryell County 11,23 0 0 0
Cottle County 17,38 0 1 0
Crane County 9,91 0 0 1
Crockett County 13,61 1 0 1
Crosby County 21,05 0 1 1
Culberson County 20,2 1 0 1
Dallam County 12,89 0 0 0
Dallas County 17,75 0 0 0
Dawson County 19,69 0 1 1
Deaf Smith County 20,31 0 0 1
Delta County 17,44 0 1 0
Denton County 9,87 0 0 0
DeWitt County 17,39 0 0 0
Dickens County 17,13 0 1 0
Dimmit County 31,08 1 0 1
Donley County 15,57 0 0 0
Duval County 23,52 1 0 1
Eastland County 17,72 0 1 0
Ector County 16,26 0 0 1
Edwards County 21,88 1 0 1
El Paso County 30,15 1 0 1
Ellis County 13,6 0 0 0
Erath County 16,02 0 0 0
Falls County 22,57 0 0 0
Fannin County 15,53 0 1 0
Fayette County 12,47 0 0 0
Fisher County 14,41 0 1 0
Floyd County 18,39 0 1 1
Foard County 15,47 0 1 0
Fort Bend County 11,91 0 0 0
Franklin County 16,55 0 1 0
Freestone County 13,12 0 0 0
Frio County 24,91 1 0 1
Gaines County 18,77 0 1 1
Galveston County 13,83 0 0 0
Garza County 18,04 0 1 1
Gillespie County 10,91 0 0 0
Glasscock County 8,61 0 0 0
Goliad County 16,05 0 0 1
Gonzales County 18,8 0 0 1
Gray County 13,51 0 0 0
Grayson County 13,12 0 0 0
Gregg County 16,48 0 1 0
Grimes County 16,4 0 0 0
Guadalupe County 11,95 0 0 1
Hale County 16,36 0 1 1
Hall County 23,8 0 1 0
Hamilton County 13,95 0 0 0
Hansford County 12,91 0 0 1
xxxi
BASE DE DATOS Nº20
Hardeman County 14,48 0 1 0
Hardin County 11,84 0 1 0
Harris County 18,62 0 0 1
Harrison County 16,35 0 1 0
Hartley County 7,28 0 0 0
Haskell County 17,66 0 1 0
Hays County 18,7 0 0 0
Hemphill County 8,71 0 0 0
Henderson County 16,41 0 1 0
Hidalgo County 41,91 1 0 1
Hill County 17,99 0 0 0
Hockley County 16,21 0 1 1
Hood County 12,57 0 0 0
Hopkins County 15,12 0 1 0
Houston County 20,39 0 1 0
Howard County 21,2 0 1 1
Hudspeth County 31,55 1 0 1
Hunt County 17,16 0 1 0
Hutchinson County 12,22 0 0 0
Irion County 7,96 0 0 0
Jack County 11,46 0 0 0
Jackson County 13,96 0 0 0
Jasper County 19,57 0 1 0
Jeff Davis County 13 1 0 1
Jefferson County 15,33 0 1 0
Jim Hogg County 21,23 1 0 1
Jim Wells County 22,76 1 0 1
Johnson County 13,04 0 0 0
Jones County 14,02 0 1 0
Karnes County 19,59 0 0 1
Kaufman County 14,58 0 0 0
Kendall County 11,11 0 0 0
Kenedy County 14,98 1 0 1
Kent County 7,33 0 1 0
Kerr County 17,19 0 0 0
Kimble County 17,57 0 0 0
King County 11,52 0 1 0
Kinney County 20,72 1 0 1
Kleberg County 22,46 1 0 1
Knox County 16,34 0 1 0
La Salle County 26,41 1 0 1
Lamar County 16,05 0 1 0
Lamb County 17,91 0 1 1
Lampasas County 15,69 0 0 0
Lavaca County 12,62 0 0 0
Lee County 12,31 0 0 0
Leon County 16,42 0 0 0
Liberty County 14,31 0 1 0
Limestone County 19,84 0 0 0
Lipscomb County 13,9 0 0 0
Live Oak County 14,24 1 0 1
Llano County 13,22 0 0 0
Loving County 16,42 0 0 0
Lubbock County 17,98 0 1 0
Lynn County 17,88 0 1 1
Madison County 17,28 0 0 0
Marion County 24,21 0 1 0
Martin County 15,63 0 1 1
Mason County 14,98 0 0 0
Matagorda County 21,57 0 0 1
Maverick County 32,49 1 0 1
McCulloch County 21,39 0 0 0
McLennan County 19,57 0 0 0
xxxii
Bases de datos
BASE DE DATOS Nº20
McMullen County 14,22 1 0 1
Medina County 15,81 1 0 1
Menard County 19,03 0 0 1
Midland County 15,42 0 0 0
Milam County 17,38 0 0 0
Mills County 15,98 0 0 0
Mitchell County 16,53 0 1 1
Montague County 15,02 0 0 0
Montgomery County 13,69 0 0 0
Moore County 12,38 0 0 1
Morris County 17,28 0 1 0
Motley County 14,45 0 1 0
Nacogdoches County 20,65 0 1 0
Navarro County 19,55 0 0 0
Newton County 17,87 0 1 0
Nolan County 19,47 0 1 0
Nueces County 19,24 1 0 1
Ochiltree County 13,35 0 0 1
Oldham County 19,91 0 0 0
Orange County 12,91 0 1 0
Palo Pinto County 15,77 0 0 0
Panola County 13,59 0 1 0
Parker County 10,17 0 0 0
Parmer County 14,15 0 1 1
Pecos County 17,94 1 0 1
Polk County 18,2 0 1 0
Potter County 25,15 0 0 0
Presidio County 24,92 1 0 1
Rains County 18,95 0 1 0
Randall County 9,62 0 0 0
Reagan County 8,66 0 0 1
Real County 19,3 1 0 0
Red River County 16,92 0 1 0
Reeves County 27,85 1 0 1
Refugio County 14,72 0 0 1
Roberts County 5,75 0 0 0
Robertson County 19,14 0 0 0
Rockwall County 8,45 0 1 0
Runnels County 16,89 0 0 0
Rusk County 12,62 0 1 0
Sabine County 15,39 0 1 0
San Augustine County 20,22 0 1 0
San Jacinto County 19,03 0 1 0
San Patricio County 17,55 1 0 1
San Saba County 17,36 0 0 0
Schleicher County 13,8 0 0 1
Scurry County 14,86 0 1 0
Shackelford County 11,63 0 1 0
Shelby County 19,47 0 1 0
Sherman County 12,62 0 0 0
Smith County 15,87 0 1 0
Somervell County 10,25 0 0 0
Starr County 36,81 1 0 1
Stephens County 16,74 0 1 0
Sterling County 11,2 0 0 1
Stonewall County 14,06 0 1 0
Sutton County 14,72 0 0 1
Swisher County 15,6 0 1 1
Tarrant County 14,21 0 0 0
Taylor County 15,47 0 1 0
Terrell County 17,3 1 0 1
Terry County 20,23 0 1 1
Throckmorton County 12,76 0 1 0
xxxiii
BASE DE DATOS Nº20
Titus County 14,93 0 1 0
Tom Green County 15,56 0 0 1
Travis County 17,1 0 0 0
Trinity County 18,19 0 1 0
Tyler County 16,89 0 1 0
Upshur County 16,62 0 1 0
Upton County 13,48 0 0 1
Uvalde County 23,94 1 0 1
Val Verde County 26,37 1 0 1
Van Zandt County 15,15 0 1 0
Victoria County 16,27 0 0 1
Walker County 17,99 0 0 0
Waller County 20,02 0 0 0
Ward County 14,11 0 0 1
Washington County 14,21 0 0 0
Webb County 36,08 1 0 1
Wharton County 15,28 0 0 1
Wheeler County 10,9 0 0 0
Wichita County 13,83 0 1 0
Wilbarger County 13,82 0 1 0
Willacy County 38,51 1 0 1
Williamson County 8,77 0 0 0
Wilson County 13,05 0 0 1
Winkler County 14,04 0 0 1
Wise County 11,2 0 0 0
Wood County 12,99 0 1 0
Yoakum County 17,17 0 1 1
Young County 16,29 0 1 0
Zapata County 37,19 1 0 1
Zavala County 39,71 1 0 1
BASE DE DATOS Nº21
DISTRITO Y X
Antrim 0 34,382
Ards 1 12,191
Armagh 0 47,297
Ballymena 1 19,081
Ballymoney 0 31,405
Banbridge 0 29,552
Belfast 1 41,977
Carrickfergus 0 7,645
Castlereagh 0 10,197
Coleraine 1 23,810
Cookstown 1 55,305
Craigavon 0 43,333
Derry 1 72,642
Down 1 60,345
Dungannon 1 57,930
Fermanagh 1 56,667
Larne 1 23,810
Limavady 1 55,068
Lisburn 0 28,643
Magherafelt 1 61,433
Moyle 1 54,730
Newry & Mourne 1 76,988
Newtownabbey 0 14,054
North Down 0 9,736
Omagh 1 66,812
Strabane 1 63,712
xxxiv
Bases de datos
BASE DE DATOS Nº22
PAÍS Y X X
xxxv