Listoimprimir PDF

MODELOS DE REGRESIÓN LINEALES Y NO LINEALES
CON APOYO COMPUTACIONAL
Presentado por
CLARENA PATRICIA ARRIETA ARRIETA
Trabajo de grado presentado como requisito parcial para

optar al título de Estadístico
Director
GUILLERMO MARTÍNEZ FLÓREZ
Universidad de Córdoba
Facultad de Ciencias Básicas
Departamento de Matemáticas y Estadística
Junio 16
2015
UNIVERSIDAD DE CÓRDOBA
FACULTAD DE CIENCIAS BÁSICAS
DEPARTAMENTO DE MATEMÁTICAS Y ESTADÍSTICA
Los jurados abajo firmantes certifican que han leido y que aprueban el traba-
jo titulado MODELOS DE REGRESIÓN LINEALES Y NO LINEALES
CON APOYO COMPUTACIONAL presentado por la estudiante CLARE-
NA ARRIETA ARRIETA
Fecha: 16-06-2015
Director:
Guillermo Martínez
Jurado:
Javier Ramírez
Jurado:
Jessica Rojas
i
A mis padres Darys y Orlando.
ii
Agradecimientos
Le doy gracias a Dios por la sabiduría, el entendimiento, por llevarme de la mano y

permitirme culminar este trabajo.
Agradezco enormemente a mis padres, y a mis hermanos, los que me apoyaron en
todo momento.
Gracias a la Universidad de Córdoba por convertirme en una profesional.
Al profesor Guillermo Martínez mi director de trabajo de grado, que hizo valiosos
aportes y sugerencias, gracias por su dedicación a este trabajo.
Gracias a Yecid Baltazar por su apoyo en este trabajo. Gracias a los profesores
Mario Morales, Javier Ramírez y Jessicca Rojas por todas sus contribuciones y
correcciones.
iii
Contenido
Resumen viii
Introducción ix
1. Regresión en R 1
1.1. Estadística con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Creación de Vectores en R . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Lectura de datos de un archivo . . . . . . . . . . . . . . . . . . . . . 3
1.3.1. La Función read.table() . . . . . . . . . . . . . . . . . . . . 3
1.3.2. Función attach() . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. La Función lm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4.1. Otras funciones . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2. Modelos de regresión 6
2.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. Análisis de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. Coeficiente de correlación lineal de Pearson . . . . . . . . . . . . . . . 8
2.3.1. Prueba de Hipótesis para el Coeficiente de Correlación . . . . 9
2.3.2. Medidas de asociación no paramétricas . . . . . . . . . . . . . 10
3. Regresión lineal múltiple 15

3.1. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.1. Mínimos cuadrados ordinarios . . . . . . . . . . . . . . . . . . 17
3.1.2. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . 18
3.1.3. Propiedades de β̂ y S 2 . . . . . . . . . . . . . . . . . . . . . . 20
iv
3.2. Análisis de varianza (ANAVA) . . . . . . . . . . . . . . . . . . . . . . 24
3.2.1. Particionamiento de la suma de cuadrados total . . . . . . . . 25
3.2.2. Coeficiente de determinación R2 . . . . . . . . . . . . . . . . 27
3.3. Distribución de las formas cuadráticas . . . . . . . . . . . . . . . . . 27
3.4. Distribuciónes F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.5. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6. ANAVA Parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.7. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.8. Validación de Supuestos . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.8.1. Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.8.2. Homogeneidad de Varianzas de los errores . . . . . . . . . . . 41
3.8.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.8.4. Prueba de Rachas . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.9. Selección de variables y mejor modelo . . . . . . . . . . . . . . . . . . 46
3.9.1. Criterio Cp de Mallows . . . . . . . . . . . . . . . . . . . . . . 46
3.9.2. Criterio AIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.9.3. Regresión paso a paso . . . . . . . . . . . . . . . . . . . . . . 46
3.9.4. Backward elimination . . . . . . . . . . . . . . . . . . . . . . . 47
3.9.5. Forward elimination . . . . . . . . . . . . . . . . . . . . . . . 47
3.10. Análisis de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.10.1. Medidas de influencia . . . . . . . . . . . . . . . . . . . . . . . 49
3.11. Predicción en el modelo lineal . . . . . . . . . . . . . . . . . . . . . . 54
3.11.1. Predicción para valores observados . . . . . . . . . . . . . . . 54
3.11.2. Predicción para valores futuros (no observados) . . . . . . . . 57
3.12. Modelos Polinomiales . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4. Variables dicotómicas. 73
4.1. Interpretación del modelo con variables dicotómicas . . . . . . . . . . 75
4.2. Variables dicotómicas para mas de dos grupos . . . . . . . . . . . . . 75
4.3. Variables dicotómicas en presencia de interacción . . . . . . . . . . . 76
v
5. Modelos de regresión no lineal 83
5.1. Modelos no lineales más usuales . . . . . . . . . . . . . . . . . . . . . 84
5.1.1. Modelos Exponenciales(log-lin) . . . . . . . . . . . . . . . . . 84
5.1.2. Modelos Logarítmicos (lin-log) . . . . . . . . . . . . . . . . . . 91
5.1.3. Modelos Potenciales (log-log) . . . . . . . . . . . . . . . . . . 97
5.1.4. Modelo inverso . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Apéndice A. Estadística descriptiva 113

A.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.2. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.3. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
A.3.1. Medidas de posición no central . . . . . . . . . . . . . . . . . 118
A.3.2. Medidas de posición central . . . . . . . . . . . . . . . . . . . 119
A.4. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . 120
A.5. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Apéndice B. Estadística inferencial 122

B.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
B.2. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
B.3. Estadísticos y Estimadores . . . . . . . . . . . . . . . . . . . . . . . . 123
B.4. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . 124
B.5. Distribución de los estadísticos muestrales . . . . . . . . . . . . . . . 125
B.5.1. Resultados principales . . . . . . . . . . . . . . . . . . . . . . 125
B.6. Intervalos de confianza (I.C.) . . . . . . . . . . . . . . . . . . . . . . 127
B.6.1. Intervalos de confianza para la media poblacional . . . . . . . 127
B.6.2. Intervalos de confianza para la varianza . . . . . . . . . . . . 128
B.6.3. Intervalo de confianza para la diferencia entre dos medias po-
blacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
B.7. Prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
B.7.1. Pruebas de hipótesis para una población normal . . . . . . . . 132
B.7.2. Pruebas de hipótesis para una proporción . . . . . . . . . . . 132
vi
B.7.3. Pruebas de hipótesis para dos poblaciones normales indepen-
dientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
B.7.4. Prueba de Hipótesis para Comparar Proporciones: . . . . . . . 135
Bibliografía 136
vii
Resumen
Este trabajo se realizó con el objetivo de implementar el análisis de regresión li-

neal y no lineal con apoyo computacional a través del software Estadístico R. El
método de estimación para los parámetros de el modelo que se trabajo fue el de
los mínimos cuadrados ordinarios el cual se implementa en R utilizando la función
lm; este método se usa debido a todas las propiedades que tienen los estimadores
que se encuentran a través de este método. Mediante esta implementación compu-
tacional se realizaron varios ejemplos los cuales son plasmados en el blog de acceso
libre http://regresionlinealynolinealenr.blogspot.com.br/ para que toda la comunidad
que necesite esta información pueda acceder a ella y puedan utilizarla para resol-
ver situaciones relacionadas con la utilización de estos modelos, en la solución de
problemas reales.
P alabras claves :Correlación lineal, Modelos de Regresión, Mínimos
Cuadrados dos Ordinarios, Entorno R, Blog.
viii
Introducción
Los modelos de regresión son una técnica estadística utilizada para estudiar la re-
lación entre variables. Se adapta a una amplia variedad de situaciones, por ejemplo
en la investigación social, los modelos de regresión se utilizan para predecir un am-
plio rango de fenómenos, desde medidas económicas hasta diferentes aspectos del
comportamiento humano, también en otros campos como la medicina, la ingenie-
ría,la biología,la informática entre otros; en el caso de una variables independiente
(regresión simple) y en múltiples variables independientes (regresión múltiple). Los
modelos de regresión se usan para explorar y cuantificar la relación entre una variable
llamada dependiente (o explicada) Y y una o más variable llamadas independientes
(o predictoras) X1 , X2 , · · · , Xp−1 ; con el objetivo de desarrollar una ecuación con
fines predictivos. Los modelos de regresión llevan asociados una serie de procedi-
mientos de diagnóstico (análisis de los residuos, análisis de influencia) que informan
sobre el modelo estadístico que sigue el termino aleatorio (errores) y la influencia
que tiene una observación o grupo de observaciones sobre la estimación de los pará-
metros ó sobre la validación de los supuestos con los que deben cumplir el modelo
ajustado.
Gujarati (2004) señala que, entre los modelos de regresión que existen se encuentran
los modelos lineales y no lineales. Los modelos de regresión lineal son aquellos en
los cuales la(s) variable(s) predictora(s) y la variable dependiente se relacionan en
forma lineal, así el modelo es de la forma
yi = β0 + β1 xi + i en caso simple,
yi = β0 + β1 x1i + β2 x2i + · · · + βp−1 x(p−1)i + i en caso múltiple
ix
para i = 1, 2, . . . , n. En general estos modelos se puede escribir en forma matricial
de la siguiente manera
Y = Xβ +
Donde Y es un vector de tamaño n × 1 de las variables explicada o dependiente

X es una matriz de tamaño n × p de las variables explicativas o independientes
β = β0 , β1 , β2 , · · · , βp−1 es un vector de tamaño p − 1 que contiene los coeficientes
del modelo (o parámetros).
es un vector de n × 1 de errores aleatorios.
El principal objetivo de un modelo de regresión es la predicción (o inferencia).Para

poder hacer estas predicciones es necesario que los errores del modelo cumplan con
los siguientes supuestos:
Sean variables independientes.
Que tengan varianza constante (σ 2 ).
Que tengan una esperanza matemática igual a cero.
Deben seguir una distribución normal.
Todos estos criterios se sintetizan escribiendo:

iid
i ∼ N (0, σ 2 )
Los modelos de regresión lineal proporcionan un marco abundante y flexible que

se adapta a las necesidades de muchos analistas, sin embargo, los modelos de re-
gresión lineal no son adecuados para todas las situaciones. Hay muchos problemas
en ingeniería y las ciencias por ejemplo donde la variable de respuesta y las varia-
bles predictoras se relacionan a través de una función no lineal, esto conduce a un
modelo de regresión no lineal; entre estos modelos tenemos los Potenciales, Expo-
nenciales, Polinomiales, Logarítmico, Inverso, etc. De los cuales algunos pueden ser
linealizados usando una transformación adecuada dichos modelos se conocen como
intrinsicamente lineales, estos modelos se definirán mas adelante.
x
Capítulo 1
Regresión en R
R es un Programa integrado para la manipulación de datos, cálculo y procedimientos

gráficos. Los principales aspectos que este ofrece son:
Un lenguaje de programación simple y efectivo que incluye las estructuras de

control clásicas, funciones recursivas y facilidades para la entrada de datos y
salida de resultados.
Facilidad para el manejo y el almacenamiento de datos.
Multitud de opciones gráficas.
Un conjunto de operadores para cálculo con matrices y vectores.
Una colección extensa e integrada de herramientas intermedias para el análisis

de datos.
R es un entorno altamente dinámico, y a menudo se concibe como un vehículo para

desarrollar (nuevos) métodos interactivos de análisis de datos.
1.1. Estadística con R

Muchas de las siguientes funciones pueden aplicarse no sólo a variables individuales,
sino a data.frames completos.
1
table(x): Tabla de frecuencias de x.
prop.table(table(x)): Tabla de frecuencias relativas
table(x,y): Tabla de frecuencias cruzadas de x por y.
prop.table(table(x),margin=i): Tabla de frecuencias relativas. Las frecuencias
relativas se calculan por fila si margin=1, por columna si margin=2 o globales si no
se especifica margin.
mean(x): Media de los elementos de x
median(x): Mediana de los elementos de x.
quantile(x,probs=): Cuantiles muestrales correspondientes a las probabilidades
especificadas, por ejemplo si hacemos
probs=c(0.25, 0.5,0.75,0.95).
weighted.mean(x, w): Media de x ponderada por w.
rank(x): Rangos de los elementos de x.
var(x): Varianza muestral de x (se usa n − 1 como divisor);
sd(x): Desviación típica de x.
summary(x): Muestra un resumen de estadísticos descriptivos: mínimo, máximo, me-
dia, mediana y primer y tercer cuartil para variables continuas; tabla de frecuencias
para variables discretas (factores).
cov(x,y): Covarianza entre las variables x e y.
cov(A): Matriz de varianzas-covarianzas del data.frame A.
cor(x, y, method, use): Correlación lineal entre las variables x e y. Como método
se puede elegir “pearson”, “spearman”o “kendall”. Por defecto se calcula la correlación
de Pearson. El parámetro use permite especificar la acción a realizar en presencia
de valores perdidos.
cor(A): Matriz de correlaciones de las variables del data.frame A.
scale(x): Tipificación de los valores de x (se les resta su media y se dividen por
su desviación típica); si se añade la opción center=FALSE sólo se cambian de esca-
la, dividiendo por la desviación típica; si se añade scale=FALSE sólo se les resta la
media.
2
1.2. Creación de Vectores en R
R utiliza diferentes estructuras de datos. La estructura más simple es el vector,
que es una colección ordenada de números. Para crear un vector, por ejemplo X,
consistente en cinco números, por ejemplo 10.4, 5.6, 3.1, 6.4 y 21.7, use la orden
> X <- c(10.4, 5.6, 3.1, 6.4, 21.7)
Esta es una asignación "<-" con la que se usa la función c() que, en este contexto,
puede tener un número arbitrario de vectores como argumento y cuyo valor es el
vector obtenido mediante la unión de todos estos. Un número, por sí mismo, se
considera un vector de longitud uno.
1.3. Lectura de datos de un archivo

Los datos suelen leerse desde archivos externos y no teclearse de modo interactivo.
Las capacidades de lectura de archivos de R son sencillas y sus requisitos son bastante
estrictos cuando no inflexibles. Se presupone que el usuario es capaz de modificar los
archivos de datos con otras herramientas, por ejemplo con editores de texto, para
ajustarlos a las necesidades de R. Generalmente esta tarea es muy sencilla.
1.3.1. La Función read.table()
Para poder leer una hoja de datos directamente, el archivo externo debe reunir las
condiciones adecuadas. La forma más sencilla es:
La primera línea del archivo debe contener el nombre de cada variable de la

hoja de datos.
En cada una de las siguientes líneas, el primer elemento es la etiqueta de la

fila, y a continuación deben aparecer los valores de cada variable.
Si el archivo tiene un elemento menos en la primera línea que en las restantes,

obligatoriamente será el diseño anterior el que se utilice.
3
1.3.2. Función attach()
La función attach() es una función genérica, que permite conectar en la trayectoria

de búsqueda no sólo directorios y hojas de datos, sino también otros tipos de objetos,
en particular cualquier lista, como en
> attach(cualquier.lista)
Posteriormente podrá desconectar el objeto utilizando la función detach(), usando

como argumento el número de posición o, preferiblemente, su nombre.
1.4. La Función lm
Existe una gran gamma de funciones para estimar modelos de regresión como lo son
lm, nls, aov, lme, nlme, lmer; entre otras, pero en este trabajo nos enfocare-
mos en la función lm, la cual es un mecanismo fuerte y cómodo de utilizar para el
análisis de regresión lineal. Puede utilizarse con tan solo dos argumentos una fórmu-
la y una dataframe que suministra los valores para evaluar las expresiones en dicha
fórmula. Por ejemplo, así:
ajuste <-lm(y ∼ x1 + x2 + x4, data=datos)
La función lm construye entonces la matriz de diseño mediante la función model.matrix

y estima el modelo deseado, suministrando un calculo de información sobre la esti-
mación.
1.4.1. Otras funciones
glm(formula,family=, ...): Ajuste de modelos lineales generalizados. family=

especifica la función de enlace y la distribución del tipo de error. Ver ?family para
las funciones disponibles.
step() Selección paso a paso de variables en modelos lineales (lm,glm) median-

te el criterio de Akaike.
4
textttgam(formula,family=, . . . ): Ajuste de modelos aditivos generalizados. Debe
cargarse el paquete mgcv.
lme(formula, ...): Ajuste de modelos lineales de efectos mixtos (fijos y alea-

torios), permitiendo además efectos anidados. Los errores intragrupos pueden ser
correlados o/y heteroscedásticos. Requiere el paquete nlme.
nls(formula, ...): Estimación por mínimos cuadrados de funciones no lineales.
nlme(formula, ...): Ajuste de modelos no lineales de efectos mixtos (fijos y alea-

torios), permitiendo además efectos anidados. Los errores intragrupos pueden ser
correlados o/y heteroscedísticos. Requiere el paquete nlme.
gls(modelo,data, ...): Ajuste de modelos lineales mediante mínimos cuadrados

generalizados. Los residuos pueden estar correlados y ser heteroscedásticos (paquete
nlme).
approx(x,y, ...): Interpolación lineal dados un conjunto de puntos x, y.
spline(x,y, ...): Interpolación mediante splines cúbicos.
loess(formula, ...): Interpolación mediante ajuste polinómico local
5
Capítulo 2
Modelos de regresión
En la investigación social, política, económica, ingeniería, entre otras el análisis de

regresión se utiliza para predecir un amplio rango de fenómenos desde medidas eco-
nómicas hasta diferentes aspectos del comportamiento humano. El objetivo es en-
contrar la mejor relación entre la variable dependiente y las variables independientes
seleccionadas. Si sólo se utiliza una variable independiente esta técnica se denomi-
na regresión simple mientras que si se emplea más de una variable independiente,
se denomina análisis regresión múltiple. Entre los modelos de regresión existentes
encontramos los lineales y no lineales.
2.1. Conceptos básicos

Variable independiente o regresora
Una variable independiente es aquella cuyo valor no depende de otra (u otras)
variable(s). La variable independiente se representa en el eje de abscisas;estas
son las que el investigador escoge para establecer agrupaciones en el estudio,
clasificando intrínsecamente a los casos del mismo. Un tipo especial son las
variables de control, que modifican al resto de las variables independientes y
que de no tenerse en cuenta adecuadamente pueden alterar los resultados por
medio de un sesgo.
6
Variable dependiente o predicha
Una variable dependiente es aquella cuyos valores dependen de los que tome
otra variable. La variable dependiente en una función se suele representar por
Y . La variable dependiente se representan en el eje de las ordenadas. Las va-
riables de respuesta que se observan en el estudio y que podrían estar influidas
por los valores de las variables independientes.
Hayman(1974) la define como propiedad o característica que se trata de cam-
biar mediante la manipulación des las variables independientes.
Otros la consideran como la variable de cierto factor que es observado y medido

para determinar el efecto de la variable independiente.
Error de estimación o residual

El error de estimación residual o simplemente error de un valor observado es
la diferencia entre el valor estimado a través del modelo y el valor observado
en la muestra.
2.2. Análisis de correlación

Antes de llevar a cabo un análisis de regresión entre dos variables X y Y , nos interesa
saber si existe una relación entre ellas, ya sea por que tienen algo en común o porque
una depende de otra. Para examinar estos casos estudiamos a continuación el análisis
de correlación lineal.
El análisis de correlación lineal se realiza para detectar si hay relación o asociación
lineal entre dos variables X e Y . No se necesita que una de las variables sea depen-
diente y la otra independiente, las dos pueden ser dependientes o independientes.
Para medir cuál es el grado de asociación entre estas variables se utiliza el coeficiente
de correlación lineal de Pearson (ρ) el cual se estudiará a continuación. Véase Searle
(1971)
7
2.3. Coeficiente de correlación lineal de Pearson
El coeficiente de correlación lineal de Pearson mide el grado de asociación lineal que
existe entre dos variables X y Y , viene dado por:
σXY
ρ= (2.1)
σX σY
donde σXY es la covarianza de (X, Y ) y σX , σY sus respectivas desviaciones estándar.

Por ser un coeficiente de correlación lineal, él sólo mide relaciones lineales y no otro
tipo de relación, es decir que sí entre X y Y existe una relación, cuadrática, cúbica,
exponencial, o de otro tipo que no sea lineal, entonces no tiene sentido calcular este
coeficiente.
Algunas propiedades de ρ son
1. −1 ≤ ρ ≤ 1. El valor r = −1 índica una relación lineal negativa o inversa

perfecta entre X y Y, mientras que un valor r = 1 índica una relación lineal
positiva o directa perfecta entre X y Y.
2. ρ(X, Y ) = ρ(Y, X), (es una relación simétrica)
3. ρ es independiente de la escala, es decir, ρ(aX +c, bY +d) = ρ(X, Y ) si a, b > 0.
4. Si X e Y son independientes, entonces ρ(X, Y ) = 0, lo contrario no es cierto.
5. Aunque es una medida de asociación lineal entre dos variables, esto no implica
necesariamente alguna relación causa-efecto.
A continuación mostramos un gráfico donde se observa la tendencia entre dos
variables y su respectivo coeficiente de correlación.
8
Tendencias y Correlaciones
Para dos variables X e Y , el estimador de ρ se obtiene con la expresión.
1 P n
(xi − x) (yi − y)
n − 1 i=1
r = ρb = (2.2)
Sx Sy
Realizando los productos respectivos y aplicando las propiedades de la sumatoria
llegamos a la siguiente expresión.
n
P
xi yi − nx y
i=1
r= 1/2 1/2 (2.3)
n n
2 2
x2i yi2
P P
− nx − ny
i=1 i=1
2.3.1. Prueba de Hipótesis para el Coeficiente de Correlación
Después de calcular la estimación del coefieciente de correlación de Pearson (ρ̂) a

tráves de la muestra que con la que contamos, es de interés saber si el verdadero
valor (ρ) es significativo o no, esto es. Para una muestra aleatoria de n pares de
9
puntos (Xi ,Yi ) se puede llevar a cabo la prueba de hipótesis:
H0 : ρ = 0 contra H1 : ρ 6= 0, (2.4)
al nivel de significancia α, en la cual se trata de determinar, si la relación obtenida

con los datos muéstrales se debe al azar, o sí la relación entre las variable realmente
existe, es decir, que ρ sea distinto de cero.
Para llevar a cabo esta prueba de hipótesis se utiliza el estadístico de prueba
√
r n−2
tc = √ ∼ tn−2 . (2.5)
1 − r2
También se puede conseguir un intervalo de confianza, al 100 (1 − α) % de confia-
bilidad para ρ, mediante la expresión:
e2l1 − 1 e2l2 − 1
< ρ < (2.6)
e2l1 + 1 e2l2 + 1
Z1−α/2
donde el límite inferior l1 = Zr − √ ; mientras que el límite superior l2 =
n−3
Z1−α/2 1+r
Zr + √ y Zr = 12 ln .
n−3 1−r
2.3.2. Medidas de asociación no paramétricas
El coeficiente de correlación de Pearson solo mide relaciones lineales, además se ve

afecto por valores extremos, asimetría u otras desviaciones de la distribución normal,
en estos casos este coeficiente no es óptimo para medir relación entre variables; para
estas situaciones existen métodos no paramétricos entre los cuales están el Coefi-
ciente de correlación de Spearman y el Coeficiente de correlación Tau de Kendall.
El coeficiente de Pearson utiliza directamente los valores de las variables, mientras
que los coeficientes de Spearman y Kendall utilizan los rangos de las mismas.
Coeficiente de correlación de Spearman.

El coeficiente de correlación de Spearman es un coeficiente no paramétrico al-
ternativo al coeficiente de correlación de Pearson cuando no existe una relación
de tipo lineal entre las variables X e Y . Se define el coeficiente de correlación
de rangos de Spearman como el coeficiente de correlación lineal entre los ran-
gos Ri (x) y Ri (y), en la fórmula de Pearson se reemplaza Xi por Ri (x) y Yi
10
por Ri (y) quedando:
Pn
[(Ri (x) − Ri (x)) − (Ri (y) − Ri (y))]
rs = q P i=1
[ 2i=1 (Ri (x) − Ri (x))2 ][ 2i=1 (Ri (y) − Ri (y))2 ]
P
Coeficiente de correlación Tau de Kendall.

Es una prueba no paramétrica que mide la fuerza de la dependencia entre dos
variables. Si tenemos en cuenta dos muestras, X e Y , donde cada muestra
es de tamaño n, sabemos que el número total de parejas (X, Y ) es n(n−1)
2
. La
siguiente fórmula se utiliza para calcular el coeficiente de correlación de rangos
de Kendall:
Nc − Nd
τ=
n(n − 1)/2
donde
Nc : El número de concordantes (ordenado de la misma manera)
Nd : El número de discordantes (un orden diferente).
En el siguiente ejemplo vemos la aplicación de los coeficientes de Spearman y Kendall
Ejemplo 2.1 En experimentación agrícola en un plátano se ensayaron 12 diferentes

dosis de nitrógeno (N ), en kilogramos por hectárea, una de las variables de interés
es el peso de la primera mano (PM1), de cada racimo de plátano en gramos, al
finalizar el experimento se obtuvieron los siguientes resultados de PM1 para cada
dosis.
Tabla #1: Peso de la primera mano(gr)

i 1 2 3 4 5 6 7 8 9 10 11 12
N 0 50 100 200 350 400 600 700 800 900 1000 1200
PM1 350 363 371 360 400 421 452 440 450 469 477 497
11
Preámbulo en R para el cálculo de los coeficientes de correlación
# Por comodidad llamaremos X=N e Y=PM1

> N=X=c(0,50,100,200,350,400,600,700,800,900,1000,1200)
> PM1=Y=c(350,363,371,360,400,421,452,440, 450,469,477,497)
# Realizamos un diagrama de dispersion para observar el
comportamiento de las variables
> plot(X,Y)
Mediante el diagrama de dispersión notamos una posible relación lineal directa entre
las variables X e Y . Para el cálculo del coeficiente de correlación de Pearson en R
se usa la función cor()
> cor(X,Y,method="pearson")
0.977135
Es decir, que existe una asociación lineal directa del 97.7 % entre las variables dosis
de nitrógeno y peso de la primera mano, lo que indica que el peso de la primera
mano está asociado directamente con la dosis de nitrógeno aplicada. Para probar la
hipótesis:
H0 : ρ = 0 vs H1 : ρ 6= 0 usamos la función cor.test() en la siguiente forma
12
> cor.test(X,Y,method="pearson")
Pearson’s product-moment correlation
data: X and Y
t = 14.5329, df = 10, p-value = 4.737e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9180659 0.9937578
sample estimates:
cor
0.977135
Para la prueba de independencia entre las variables X e Y tenemos que p − valor =

4.737e − 08 < 0.05 por lo que se rechaza la hipótesis lineal entre las variables, esto
es, existe relación lineal entre estas variables. También se obtiene el intervalo de
confianza para ρ al 95 % para ρ es:
0.918 ≤ ρ ≤ 0.993
Para el calcular el coeficiente de correlación de Spearman támbien se usa la función

cor() y le damos la opción method="spearman"
> cor(X,Y,method="spearman")
0.958042
Mediante el coeficiente de correlación de Spearman tenemos que existe una asocia-

ción positiva del 95.8 % entre las variables dosis de nitrógeno y peso de la primera
mano, lo que indica que el peso de la primera mano está asociado directamente con
la dosis de nitrógeno aplicada.
> cor.test(X,Y,method="spearman")
Spearman’s rank correlation rho
data: X and Y
S = 12, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
13
sample estimates:
rho
0.958042
Tenemos que existe dependencia entre las variables X e Y , ya que tenemos un

p − valor < 0.05 por lo que se rechaza la hipótesis de independencia.
Para el calcular el coeficiente de correlación de Spearman también se usa la función
cor() y le damos la opción method="kendall"
> cor(X,Y,method="kendall")
0.8787879
> cor.test(X,Y,method="kendall")
Kendall’s rank correlation tau
data: X and Y
T = 62, p-value = 5.319e-06
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.8787879
14
Capítulo 3
Regresión lineal múltiple
El análisis de regresión lineal múltiple permite establecer la relación que existe entre
una variable dependiente Y y un conjunto de variables (X1 , X2 , . . . , Xp−1 ), indepen-
dientes. El análisis de regresión lineal múltiple, a se aproxima más a situaciones de
análisis real puesto que los fenómenos, hechos y procesos sociales, por definición,
son complejos y, en consecuencia, deben ser explicados en la medida de lo posible
por la serie de variables que, directa e indirectamente, participan en su concreción.
Al aplicar el análisis de regresión múltiple lo más frecuente es que tanto la variable
dependiente como las independientes sean variables continuas medidas en escala de
intervalo o razón.
El modelo de regresión lineal múltiple se define por
Y = Xβ +
donde X es una matriz de constantes de tamaño n × p, β = (β0 , β1 , β2 , · · · , βp−1 )

es un vector p de parámetros desconocidos, Y, son vectores aleatorios de tamaño
n×1, que contienen las observaciones de la variable respuesta y los errores aleatorios
15
asociados con éstas, respectivamente.consideran puras. En forma más detallada
      
y 1 x11 · · · x1j · · · x1(p−1) β e
 1    0   1
 y2  1 x21 · · · x2j · · · x2(p−1)   β1   e2 
      
 ..   .. .. .. ..   ..   .. 
      
 .  . . . .  .   . 
 =  + 
 yi  1 xi1 · · · xij · · · xi(p−1)   βj   ei 
      
 ..   .. .. .. ..   ..   .. 
      
 .  . . . .  .   . 
      
yn 1 xn1 · · · xnj · · · xn(p−1) βp−1 en
iid
Para el modelo de regresión lineal se deben satisfacer i ∼ N (0, σ 2 ). Esto es,
E() = µ = 0 y V ar() = σ 2 I, luego Y = Xβ + satisface
E(Y) = µY = E(Xβ + ) = E(Xβ) + E() = Xβ,
2
V ar(Y) = σY = V ar(Xβ + ) = V ar() = σ 2 I.
Suponiendo que ∼ N (0, σ 2 I), como Y = Xβ + es una combinación lineal,

entonces Y ∼ N (Xβ, σ 2 I).
Para la estimación del vector de parámetros β se quiere encontrar β̂ tal que la
varianza de los errores sea mínima, para realizar esta estimación existen dos métodos
muy importantes que son: El método de los Mínimos Cuadrados Ordinarios y el
de Máxima Verosimilitud los cuales serán estudiados en la siguiente sección. En
particular cuando p = 2 el modelo se conoce como regresión lineal simple:
yi = β0 + β1 xi + i , para i = 1, 2, . . . , n (3.1)
donde yi representa el valor de la variable respuesta para un valor de xi en el i-ésimo

individuo, β0 y β1 son parámetros a estimar, llamados intercepto y pendiente,
respectivamente, del modelo lineal; mientras que i es el error del modelo para el
i-ésimo individuo, de donde i ∼ N (0, σ 2 ) y yi ∼ N (β0 + β1 xi , σ 2 ).
3.1. Estimación de parámetros

Existen varios métodos para la estimación de parámetros en los modelos de regresión
lineal; dentro de estos métodos se encuentran los mínimos cuadrados ordinarios
(MCO) y estimación por máxima verosimilitud (MLE). Véase Searle (1971).
16
3.1.1. Mínimos cuadrados ordinarios
El método de mínimos cuadrados ordinarios (MCO) se atribuye a Carl Friedrich

Gauss. Bajo ciertos supuestos, el método de mínimos cuadrados tiene algunas pro-
piedades estadísticas muy atractivas que lo han convertido en uno de los mas eficaces
y populares del análisis de regresión. El MCO busca minimizar la suma de cuadrados
de lo residuales del modelo, esto es, se desea minimizar
n
X
2i = 0 ,
i=1
del modelo Y = Xβ + se tiene que = Y − Xβ, así
0 =(Y − Xβ)0 (Y − Xβ) = Y0 Y − Y0 Xβ − β 0 X0 Y + β 0 X0 Xβ
=Y0 Y − 2β 0 X0 Y + β 0 X0 Xβ,
considerando esta última cantidad como una función de β, digamos f (β) y aplicando
diferenciación matricial derivamos f (β) con respecto a β obteniendo:
∂f
= −2X0 Y + 2X0 Xβ (3.2)
∂β
Igualando a cero la ecuación (3.2) se tiene que:
X0 Xβ̂ = X0 Y (3.3)
Suponiendo que la matriz X0 X de tamaño p × p es invertible, multiplicamos ambos

miembros de la ecuación (3.3) por (X0 X)−1 , entonces se tiene que el estimador de
β por MCO es:
β̂ = (X0 X)−1 X0 Y. (3.4)
Sobre la teoría clásica, se supone que los errores cumplen ciertos supuestos, los cuales
son fundamentales para la estimación de los parámetros. Estos supuestos para el caso
particular p = 2 son:
a. Los errores son i.i.d., luego Cov (i , j ) = 0 para i 6= j.
b. Los errores están idénticamente distribuidos con distribución normal, de media

cero y varianza constante, es decir de parámetros E () = 0 y V () = σ 2 , lo cual se
17
iid
puede resumir mediante la expresión i ∼ N (0, σ 2 ). Esto implica que la esperanza
de la variable respuesta y dado la variable explicativa x, o la recta promedio, viene
determinada por µyi |xi = E (yi |xi ) = β0 +β1 xi , el cual representa el valor promedio
de la variable dependiente y, para un valor de la variable independiente x.
El modelo estimado, a partir de una muestra, es:
µ
byi |xi = ybi = βb0 + βb1 xi para i = 1, 2, . . . , n (3.5)
es decir que b
i = ei = yi − ybi donde βb0 y βb1 son, respectivamente, los mejores
estimadores lineales insesgados de β0 y β1 . Para llegar a una expresión con la cual
se logre estimar estos parámetros se aplica el método de los mínimos cuadrados
ordinarios, el cual consiste en minimizar la suma de cuadrados de los errores, es
decir minimizar la expresión
n
X n
X
e2i = (yi − β0 − β1 xi )2 . (3.6)
i=1 i=1
Luego derivando respecto a β1 y β0 se llega a la ecuaciones normales

n
X
(yi − β0 − β1 xi )xi = 0 (3.7)
i=1
n
X
(yi − β0 − β1 xi ) = 0 (3.8)
i=1
de las ecuaciones (3.7) y (3.8) se obtiene

n n
n n
P P 1 P P
(xi − x) (yi − y) xi y i − xi yi
i=1 i=1 n i=1 i=1
β1 =
b
n = n 2 (3.9)
n 1 P
(xi − x)2
P
2
P
xi − xi
i=1 i=1 n i=1
y
βb0 = y − βb1 x. (3.10)
3.1.2. Máxima verosimilitud
Con la estimación de mínimos cuadrados no se hace ninguna suposición acerca de

la distribución de los términos de error aleatorios en el modelo. Con la estimación
18
de máxima verosimilitud se hace alguna suposición acerca de esta distribución (a
menudo se supone que es normal) y se maximiza la verosimilitud de las observaciones
muéstrales representadas por los datos. Asumiendo que
i ∼ N (0, σ 2 ), i = 1, 2, . . . , n.
La función de verosimilitud es
n
" n
#
Y 1 1 X
L(β; Y) = f (i ) = n exp − 2 (i −
E(i ))
2
, pero E(i ) = 0
i=1
(2π) 2 σ n 2σ i=1
 !2 
n p
1 − 1
X X
= n exp yi − xij βj 
(2πσ 2 ) 2 2σ 2 i=1 j=0

1 1 0
= n exp − (Y − Xβ) (Y − Xβ)
(2πσ 2 ) 2 2σ 2

1 1 0
= n exp − .
(2πσ 2 ) 2 2σ 2
Maximizar ésta función equivale a maximizar log(L(β; Y)),de acuerdo a resultados
conocidos en el cálculo diferencial entonces haciendo diferenciación matricial con
respecto al vector de parámetros β obtenemos:
n n 1
log(L(β; Y)) = − log(2π) − log(σ 2 ) − 2 (Y − Xβ)0 (Y − Xβ)
2 2 2σ
n n 1
= − log(2π) − log(σ 2 ) − 2 (Y0 Y − 2β 0 X0 Y + β 0 X0 Xβ).
2 2 2σ
∂ log(L) 1
= − 2 (−2X0 Y + 2X0 Xβ) (3.11)
∂β 2σ
Igualando a cero la ecuación (3.11) se tiene:
X0 Xβ̂ = X0 Y
Suponiendo que la matriz X0 X es invertible nuevamente llegamos a la expresión
β̂ = (X0 X)−1 X0 Y. (3.12)
Para el caso particular p = 2 se tiene que la función de verosimilitud es:

n
Y
L(β0 , β1 , y) = f (ei )
i=1
n
Y 1 1 2
= √ exp − 2 ei
i=1
2πσ 2σ
n
!
1 1 X 2
= exp − 2 e .
(2π)n/2 σ n 2σ i=1 i
19
Maximizar esta última expresión es equivalente a minimizar
n
X n
X n
X
e2i = (yi − ŷi )2 = (yi − β0 − β1 xi )2
i=1 i=1 i=1
Haciendo el análisis similar de los MCO se llega a

n n
n n
P P 1 P P
(xi − x) (yi − y) xi y i − xi yi
i=1 i=1 n i=1 i=1
β1 =
b
n = n 2 (3.13)
n 1 P
(xi − x)2
P
2
P
xi − xi
i=1 i=1 n i=1
y
βb0 = y − βb1 x. (3.14)
Nota 3.1 Notamos que por el método de los Mínimos cuadrados Ordinarios y por
el de Máxima Verosimilitud obtenemos el mismo estimador para β, esto se debe a
que maximizar la función exp(− 2σ1 2 0 ) equivale a minimizar 0 , lo cual conduce a
obtener el mismo estimador por los dos métodos.
Podemos utilizar este método también para encontrar un estimador de σ 2 , derivando

esta vez con respecto al segundo parámetro, de la siguiente manera:
∂ log(L) n 1 1
= − (1) + (Y − Xβ)0 (Y − Xβ)
∂σ 2 2 σ2 2σ 4
1 1 0
= 2 −n + 2 (Y − Xβ) (Y − Xβ) .
2σ σ
(Y − Xβ̂)0 (Y − Xβ̂)
Igualando a cero y definiendo S 2 = , obtenemos el estimador
n−p
n−p 2 1
σ̂ 2 = S = (Y − Xβ̂)0 (Y − Xβ̂).
n n
3.1.3. Propiedades de β̂ y S 2
Primero estudiaremos propiedades del estimador β̂ = (X0 X)−1 X0 Y. Recordemos

que estamos bajo el supuesto que e ∼ N (0, σ 2 I).
Insesgamiento: β̂ es un estimador insesgado para β. En efecto:

E(β̂) = E((X0 X)−1 X0 Y) = (X0 X)−1 X0 E(Y) = (X0 X)−1 X0 Xβ = β.
20
Varianza: Para β̂ tenemos la siguiente matriz de varianzas y covarianzas:
V ar(β̂) = V ar (X0 X)−1 X0 Y

= (X0 X)−1 X0 V ar(Y)X(X0 X)−1
= σ 2 (X0 X)−1 X0 X(X0 X)−1
= σ 2 (X0 X)−1 X0 X(X0 X)−1
= σ 2 (X0 X)−1 .
Distribución: Como Y ∼ N (Xβ, σ 2 I) y β̂ = (X0 X)−1 X0 Y es combinación

lineal de Y, tenemos que β̂ también distribuye normal esto es:
β̂ ∼ N (β, σ 2 (X0 X)−1 ).
Definicion 3.1 Considerando el modelo y el estimador β̂, definimos
1. El vector de predicción Ŷ = Xβ̂.
2. El vector de residuales ê = Y − Xβ̂.
3. La matriz Hat H = X(X0 X)−1 X0 .
Notemos que X0 Ŷ = X0 Xβ̂ = X0 X[(X0 X)−1 X0 Y] = X0 Y,

luego X0 ê = X0 [Y − Xβ̂] = X0 [Y − Ŷ] = X0 Y − X0 Ŷ = 0.
Esto quiere decir que X0 es ortogonal a ê. Además podemos reescribir
Ŷ = Xβ̂ = X(X0 X)−1 X0 Y = HY
ê = (Y − Xβ̂) = Y − Ŷ = (I − H)Y
ê0 ê = Y0 (I − H)(I − H)Y = Y0 (I − H)Y.
La matriz H recibe el nombre matriz Hat porque HY = Ŷ, es fácil verificar que:
1. La matriz I − H es simétrica e idempotente.
2. [I − H]X = 0n×p
3. X0 [I − H] = 0p×n
21
Para finalizar esta sección tenemos un teorema que resume lo obtenido hasta ahora
y nos brinda aún mas información, por ejemplo asegura la independencia de los
estimadores β̂ y S 2 , y además nos dice la distribución que sigue cada uno de estos.
Como veremos en la prueba, E(S 2 ) = σ 2 , lo cual implica que el estimador de máxima
verosimilitud obtenido para σ 2 es sesgado ya que:

2 n−p 2 n − p 2 n − p 2
E[σ̂ ] = E S = E S = σ 6= σ 2 .
n n n
Teorema 3.1 (Gauss-Markov) Para el modelo lineal Y = Xβ + e donde Xn×p

es de rango p y e ∼ N (0, σ 2 I), los estimadores insesgados de mínima varianza de β
y σ 2 son
(Y − Xβ̂)0 (Y − Xβ̂)
β̂ = (X0 X)−1 X0 Y y S 2 = .
n−p
Y se distribuyen independientemente como
σ2 2
β̂ ∼ N (β, σ 2 (X0 X)−1 ) y S 2 ∼ χ .
n − p (n−p)
Prueba. Ya sabemos que E(β̂) = β, V [β̂] = σ 2 (X0 X)−1 , y β̂ ∼ N (β, σ 2 ((X0 X)−1 )).
Ahora, sea γ = ê = (I − H)Y, así
E[γ] = (I − H)E[X] = (I − H)Xβ = (X − X(X0 X)−1 X0 X)β
= 0,
V (γ) = (I − H)V (Y)(I − H)0 = (I − H)σ 2 I(I − H)0
= σ 2 (I − H)(I − H)0 .
Además
H 0 = [X(X0 X)−1 X0 ]0 = X(X0 X)−1 X0 = H,
HH = [X(X0 X)−1 X0 ][X(X0 X)−1 X0 ] = X(X0 X)−1 X0 = H.
esto es, H es simétrica e idempotente. Entonces
V (γ) = σ 2 (I − H − H + HH) = σ 2 (I − 2H + H) = σ 2 (I − H),
22
γ
luego γ ∼ N (0, (I − H)σ 2 ) y ∼ N (0, I − H).
σ
Ahora bien, como I − H también es idempotente
ran(I − H) = tr(I − H) = tr(I − X(X0 X)−1 X0 ) = tr(In ) − tr(X0 X(X0 X)−1 )
= tr(In ) − tr(Ip ) = n − p.
γ 0γ

1 1
2
E[S ] = E = E[γ 0 γ] = E[Y0 (I − H)Y]
n−p n−p n−p
1
= {tr[(I − H)σ 2 I] + E[Y]0 (I − H)E[Y]}
n−p
1
= {σ 2 (n − p) + β 0 X0 (I − H)Xβ}
n−p
(n − p)
= σ2 = σ2.
(n − p)
Entonces S 2 es un estimador insesgado de σ 2 . Por tanto
1 σ2 2
S2 = γγ 0 ∼ χ .
n−p n − p (n−p)
1
Ahora, β̂ = (X0 X)−1 X0 Y y S 2 = Y0 (I − H)Y, donde
n−p
[(X0 X)−1 X0 ](I − H) = (X0 X)−1 X0 [I − X(X0 X)−1 X0 ]
= (X0 X)−1 [X0 − X0 X(X0 X)−1 X0 ]
= (X0 X)−1 [X0 − X0 ]
=0
De modo que β̂ y S 2 son variables aleatorias independientes.

Sólo falta mostrar que β̂ y S 2 son de mínima varianza. En efecto:
∂ log(L(β, σ 2 ))
= −2X0 Y + 2X0 Xβ = −2(X0 X)[(X0 X)−1 X0 Y − β]
∂β
= −k(β, n)[T ∗ − β]
Entonces T ∗ = (X0 X)−1 X0 Y = β̂ es un UMVUE de β, de modo que V (β̂) coincide

con la cota inferior de Cramer-Rao, por lo tanto β̂ es de mínima varianza.
Finalmente para σ 2 tenemos
∂ log(L(β, σ 2 )) n 1 1
2
= − 2
+ 4
(Y − Xβ)0 (Y − Xβ)
∂σ 2 σ 2σ
(Y − Xβ)0 (Y − Xβ)

n 2
=− 4 σ − .
σ n
23
Entonces
∗ n (Y − Xβ)0 (Y − Xβ) (Y − Xβ)0 (Y − Xβ)
t = = = S2
n−p n n−p
es insesgado y por el teorema de Rao- Blackwell, t∗ = S 2 es de mínima varianza. ♦
3.2. Análisis de varianza (ANAVA)

La técnica del análisis de varianza divide la variación total de las observaciones en
sus partes componentes de acuerdo al modelo propuesto. Para el modelo de regresión
lineal esta variación la dividimos en dos partes que son: La causada por el término
no aleatorio Xβ y la que se debe al error aleatorio . Dado que se pretende que
la recta de regresión explique la mayor cantidad de la variación total, es decir, la
contribución del término Xβ, ya que esto implicaría que la variable de respuesta
y la(s) variable(s) independiente(s) se relacionan en forma lineal. Esto se prueba a
través del sistema de hipótesis
H0 : β = 0 vs H1 : β 6= 0
La figura(3.3.1) muestra los casos representados por las hipótesis mencionadas an-
teriormente.
Gráfico 3.3.1
24
La figura (3.3.2) muestra los elementos necesarios para obtener el estadístico de
prueba
Gráfico 3.3.2
A continuación estudiaremos la partición mencionada anteriormente.
3.2.1. Particionamiento de la suma de cuadrados total
El vector de errores (también es conocido como vector de residuales) se define como el

arreglo que contiene las diferencias entre los de los valores observados de la respuesta
y sus correspondientes valores ajustados o estimados por el modelo, esto es
ˆ = Y − Ŷ = Y − Xβ̂ = Y − X(X0 X)−1 X0 Y = [In −H]Y (3.15)
La suma de cuadrados de los elementos de este vector se conoce como la suma de

cuadrados del error, para la cual usaremos la sigla SCE
n
X
SCE = (Yi − Ŷ )2 = (Y − Ŷ)0 (Y − Ŷ)
i=1
Usando las propiedades de la matriz [In −H] tenemos lo siguiente:
0
SCE = Y0 [In −H][In −H]Y = Y0 [In −H]Y = Y0 Y − Y0 HY = Y0 Y − β̂ X0 Y
(3.16)
El término Y0 Y es la suma de cuadrados total de las observaciones y usaremos el
0
símbolo SCT y β̂ X0 Y se conoce como la suma de cuadrados de la regresión (o del
SCE
modelo) y usaremos el símbolo SCR para referirnos a ella. Notemos que S 2 = .
n−p
25
0
Se sigue que Y0 Y = β̂ X0 Y + SCE, escrito de otra forma
SCT = SCR + SCE
0
la diferencia SCR = SCT − SCE = β̂ X0 Y representa la porción de la suma de
cuadrados total atribuible al ajuste del modelo de regresión y por eso se llama suma
de cuadrados debido a la regresión o reducción en la suma de cuadrados debido al
ajuste del modelo. Esta partición de la SCT se resume en una forma tal que sirve
como fundamento para la tradicional tabla de análisis de varianza
Sumas de cuadrados Fórmula

0
SCR β̂ X0 Y
0
SCE Y0 Y − β̂ X0 Y
SCT Y0 Y
Si suponemos que el modelo no tiene variables X, es decir Yi = β0 + i entonces

2
βˆ0 = Y y la suma de cuadrados del modelo seria nY , esta última expresión se
conoce como corrección por la media o factor de corrección y usamos el símbolo
SCM para referirnos a ella. Es claro que podemos escribir
SCT = SCM + (SCR − SCM ) + SCE
SCRm se conoce como la suma de cuadrados de la regresión corregida por la media,

0 2
se deja escribir como SCRm = SCR − SCM = β̂ X0 Y − nY , de esta manera
podemos hacer una partición de la suma de cuadrados total así SCRm se conoce

2
SCM nY
0 2
SCRm β̂ X0 Y − nY
0
2
SCTm Y0 Y − nY
como la suma de cuadrados de la regresión corregida por la media. Similarmente
26
2
SCT − SCM = Y0 Y − nY se conoce como la suma de cuadrados total corregida
por la media la cual notaremos por SCTm y se puede particionar así: SCTm =
SCRm + SCE escrita en forma de tabla nos queda este formato es idéntico al de la

0 2
SCRm β̂ X0 Y − nY
0
2
SCTm Y0 Y − nY
primera partición, solo aquí se usan sumas de cuadrados corregidas.
3.2.2. Coeficiente de determinación R2
Una medida de la bondad de ajuste del modelo de regresión es el coeficiente de

determinación o coeficiente de correlación múltiple, el cual se denota con R2 y se
calcula mediante intercepto, según la
SCR SCT − SCE SCE

R2 = = =1− (3.17)
SCT SCT SCT
Por lo que se concluye que 0 ≤ R2 ≤ 1. Este valor representa la reducción propor-

cional de la suma de cuadrados de la variable respuesta que es atribuible al ajuste
del modelo.
3.3. Distribución de las formas cuadráticas

En esta sección estudiaremos las distribuciones de algunas formas cuadráticas que
nos serán útiles para el cálculo de intervalos de confianza y para probar hipótesis de
interés sobre el vector de parámetros β.
β̂ y σ̂ 2 son independientes
Ya hemos probado esto en el Teorema de Gauss-Markov. Veamos una prueba un
poco diferente: Sabemos que σ̂ 2 = SCE
n−p
con SCE = Y0 [In − H]Y que es una forma
27
cuadrática en Y y β̂ = (X0 X)−1 X0 Y es una forma lineal en Y que tiene una distri-
bución normal con E(Y) = Xβ y V ar(Y) = σ 2 I por tanto usando las propiedades
de la matriz [In − H] tenemos lo siguiente:
(n − p)Cov(σ̂ 2 , β̂) = Cov(Y0 [In − H]Y, (X0 X)−1 X0 Y) = (X0 X)−1 X0 Var(Y)[In − H]
= (X0 X)−1 X0 (σ 2 I)[In − H] = σ 2 (X0 X)−1 X0 [In − H]
= σ 2 (X0 X)−1 0(p×n) = 0(p×n)
Por tanto se concluye que β̂ y σ̂ 2 son independientes.
SCE
n−p tiene distribución χ2 central
SCE
Tenemos que = 1
σ2
Y0 [In − H]Y que es una forma cuadrática en Y. Luego
n−p
1 1
2
[In −H]V ar(Y) = 2 [In − H]σ 2 I = [In − H],
σ σ
es una matriz simétrica e idempotente, por tanto:
SCE
∼ χ2[ran(In −H)] = χ2[tr(In −H)] = χ2[tr(In )−tr(H)] = χ2(n−p)
σ2
SCR SCM SCRm

σ2
, σ2 y σ2
tienen distribución χ2 no central
SCR 1 0 1
Tenemos que 2
= 2 β̂ X0 Y = 2 Y0 [H]Y quien es una forma cuadratica en Y
σ σ σ
la cual tiene distribución N (Xβ, σ 2 I), así
1
[H][σ 2 I] = X(X0 X)−1 X0
σ2
SCR
la cual es una matriz idempotente, por tanto tiene distribución χ2 no central
σ2
con ran[X(X0 X)−1 X0 ] = tr[X(X0 X)−1 X0 ] = tr[X0 X(X0 X)−1 ] = tr(Ip ) = p grados
de libertad y parámetro de no centralidad β 0 [X0 X]β, es decir,
β 0 [X0 X]β

SCR 2
∼ χ p,
σ2 2σ 2
28
SCM SCRm
Para probar que y tiene distribucion χ2 no central notemos que
σ2 σ2
 
y
 1
n  y2 

1X 1 1   = 1 10n Y,

Y = Yi = (Y1 + Y2 + · · · + Yn ) = 1 1 ··· 1  ..  n
n i=1 n n .
 
yn
0
2 1 0 1 0 1 1
luego Y = 1n Y 1n Y = 2 Y0 1n 10n Y = 2 Y0 Jn Y que es una forma
n n n n
cuadrática donde Jn es una matriz de tamaño n × n tal que Jij = 1 para todo
SCR
i, j = 1, 2, . . . , n y se realiza un análisis similar al que se usó para probar que
σ2
tiene una distribución χ2 no central.
SCR SCM SCRm

σ2
, σ2 y σ2
son independientes de SCE
Para probar este resultado se tendremos en cuenta el siguiente teorema:
Teorema 3.2 (Teorema de Cochran) Si Y ∼ Np (µ, Σ) entonces las formas cua-

dráticas Y0 AY y Y0 BY son independientes si y solo si AΣB = 0.
0 0
Tenemos que SCR = β̂ X0 Y = Y0 [H]Y y SCE = Y0 Y− β̂ X0 Y = Y0 [In − H]Y son
dos formas cuadráticas en Y e [H]σ 2 I[In − H] = σ 2 [H][In − H] = 0 por propiedades
de la matriz H, luego por teorema (3.2) se tiene que SCR y SCE son independientes.
Análogamente se puede demostrar que SCRm y SCM son independientes de SCE.
3.4. Distribuciónes F
Recordemos que si u1 es una variable aleatoria con distribución χ2 no central con
n1 grados de libertad y parámetro de no centralidad λ1 y u2 tiene distribución χ2
u1 /n1
central con n2 grados de libertad independiente de u1 entonces el cociente v = ,
u2 /n2
aplicando este resultado podemos concluir

β 0 [X0 X]β
1. Como SCE ∼ χ(n−p) , SCR ∼ χ p, 2σ2
2 2
SCR/σ 2
β 0 [X0 X]β

p
F (R) = SCE/σ 2
∼ F p, n − p, (3.18)
2σ 2
n−p
29
2. Con argumentos similares se demuestra que:
SCRm /σ 2
p−1
F (Rm ) = SCE/σ 2
∼ F [p − 1, n − p] (3.19)
n−p
3. De igual forma
SCM /σ 2
(1n Xβ)2

p
F (M ) = SCE/σ 2
∼ F 1, n − p, (3.20)
2nσ 2
n−p
El calculo de las estadísticas anteriores se resume en lo que se conoce como una

tabla de análisis de varianza. Cada una de las particiones de la suma de cuadrados
que se mostró en la sección 3.3 proporciona una tabla de análisis de varianza, las
cuales se muestran en las tablas (3.5.1), (3.5.2) y (3.5.3)
Tabla 3.5.1 Análisis de varianza a partir de la partición 1.

Fuente de Grados de Sumas de Cuadrados Estadístico
variación libertad cuadrados medios F
0
Regresión p SCR = β̂ X0 Y CM R = SCR
p
F (R) = CM R
CM E
0
Error n−p SCE = Y0 Y − β̂ X0 Y CM E = SCE
n−p
Total n SCTm = Y0 Y

2
Media 1 SCM = nY
0
Regresión p SCR = β̂ X0 Y CM M = SCM
1
F (M ) = CM M
CM E
0
n−p
Total n SCT = Y0 Y
30
0 2
Regresión p−1 SCRm = β̂ X0 Y − nY CM Rm = SCRm
p−1
F (Rm ) = CM Rm
CM E
0
n−p
2
Total n−1 SCTm = Y0 Y − nY
3.5. Pruebas de hipótesis

En modelos lineales existen muchas hipótesis que podría ser de interés para el in-
vestigador en diferentes campos de aplicación. Unas hipótesis de interés pueden ser:
Prueba basada en F (R)

La tabla 3.5.1 muestra el estadístico F (R) que está distribuido como una F no
β 0 [X0 X]β
central con parámetro de no centralidad que es cero bajo la hipótesis nula
2σ 2
H0 : β = 0.
Cuando la hipótesis β = 0 es cierta, entonces F (R) tiene una distribución F central
con p y n − p grados de libertad y por tanto puede compararse con los valores
tabulados de la distribución F y
Rechazar H0 : β = 0 si F (R) ≥ F(p,n−p,α)
Cuando F( R) es significante (me lleva a rechazar la hipótesis) se concluye que hay

concordancia de los datos con la suposición del modelo, es decir, el modelo explica
una porción significante de la variación de Y
Prueba basada en F (M )
El parámetro de no centralidad de la estadística F (M ) de la tabla de análisis de
(10 Xβ)2
varianza (3.5.2) es n 2 pero
2σ
10n Xβ = 10n E(Y) = E(10n Y) = E(nY ) = nE(Y )
31
luego podemos escribir el parámetro de no centralidad como
nE(Y )2
2σ 2
que es cero bajo la hipótesis nula H0 : E(Y ) = 0, por tanto, el estadístico F (M )

tendría una distribución F central con 1 y n − p grados de libertad y puede usarse
para probar dicha hipótesis, usualmente se refiere a esta hipótesis como probando
la media.
Otra forma de ver la prueba proporcionada por F (M ) es basándose en el modelo
Yi = β0 + i (o E(Yi ) = β0 ). La reducción en la suma de cuadrados debido a ajustar
este modelo es SCM . Por tanto, este estadístico se puede usar para probar si el
modelo Yi = β0 + i explica la variación de la variable Y
Prueba basada en F (Rm)

Usando la prueba basada en F (R) estamos contrastando la hipótesis que todos
el vector de parámetros β, incluyendo β0 son simultáneamente iguales a cero. Sin
embargo, si queremos probar la hipótesis H0 : β 1 = 0, donde β 1 representa el
vector de parámetros sin el termino de intercepto β0 , debemos usar F (Rm ). Se puede
demostrar que el parámetro de no centralidad de esta estadística es cero cuando
asumimos que β 1 = 0, en cuyo caso F (Rm ) tendría una distribución F central con
p − 1 y n − p grados de libertad. Así que F (Rm ) proporciona una prueba para la
hipótesis H0 : β = 0 frente a H1 : β 6= 0; se rechaza H0 si F (Rm ) > F(p−1,n−p,α) .
3.6. ANAVA Parcial

Muchas veces estamos interesados en calcular intervalos de confianza y probar hi-
pótesis no sobre el vector de parámetros β mas para un valor particular βi .
Denotando K 0 = (0, 0, 0, 1i , 0, . . . , 0), sabemos que K 0 β̂ = β̂i ∼ N (βi , σ 2 aii ),
donde aii es el i-ésimo elemento de la diagonal de (X0 X)−1 , entonces el estadístico
β̂i − βi β̂i − βi
=√ ∼ tn−p .
σβ̂i aii σ̂ 2
32
Entonces, para probar la hipótesis H0 : βi = 0 vs H1 : βi 6= 0, se utilizará el
estadístico de prueba
β̂i − βi
ti = √
aii σ̂ 2
el cual se rechaza al nivel α, si |tc | > t1− α2 ,n−p .
En general, para cualquier vector K, se tiene que
K0 β̂ ∼ N (K0 β, σ 2 K0 (X0 X)−1 K)
entonces el estadístico
K0 β̂ − K0 β
t= p ∼ tn−p
σ̂ K0 (X0 X)−1 K
El cual es utilizado para contrastar la hipótesis
H0 : K0 β i = 0 vs H1 : K0 β i 6= 0
Para p = 2
2
 P P P 2 P
x x x i xi
  
i i i 1i i i
 n2 S 2 − 2 2   n P (xi − X)2 − n P (xi − X)2 
 X1 n SX1   i i 
σ̂β2 = σ̂ 2   = σ̂ 2 
   

 P 2
  P 
 x 1i σ   i x i 1 
− 2i 2 2
− P P
n SX1 nSX 1
n i (xi − X)2 i (xi − X)
2
Luego, para probar la hipótesis:
1. H0 : β0 = 0 vs H1 : β0 6= 0, se tiene el estadístico de prueba:

q P
ˆ
β0 n i (xi − X)2
βˆ0 − β0
tc = q P 2 = pP
2
xi σ̂
σ̂ n P (x −X)2
i
i xi
i i
2. H0 : β1 = 0 vs H1 : β1 6= 0, se tiene el estadístico de prueba:

qP
ˆ 2
βˆ1 β1 i (xi − X)
tc = q =
σ̂ P 1 σ̂
i (xi −X)2
33
3.7. Intervalos de confianza
Para encontrar un intervalo confidencial para βi , nos basamos en el resultado
β̂i − βi
t= √ ∼ tn−p
σ̂ aii
y siguiendo los pasos ya conocidos en la construcción de un I.C. al nivel 1 − α se
tiene que
pγ [−tn−p, α2 ≤ t ≤ tn−p, α2 ] = 1 − α,
entonces " #
β̂i − βi
pγ −tn−p, α2 ≤ √ ≤ tn−p, α2 = 1 − α,
σ̂ aii
luego
√ √
pγ [β̂i − σ̂ aii tn−p, α2 ≤ βi ≤ β̂i + σ̂ aii tn−p, α2 ] = 1 − α,
entonces el intervalo al 100(1 − α) % de confianza viene dado por
√ √
β̂i − σ̂ aii tn−p, α2 ≤ βi ≤ β̂i + σ̂ aii tn−p, α2
Para una combinación cualquiera K0 β, se tiene el intervalo de confianza:

p p
K0 β̂ − σ̂tn−p, α2 K0 (X0 X)−1 K ≤ K0 β ≤ K0 β̂ + σ̂tn−p, α2 K0 (X0 X)−1 K
Ejemplo 3.1 En una investigación en suelos (Eid et al, 1954) se deseaba conocer
el efecto de las fuentes de donde el cultivo de maíz tomaba el fósforo, para lo cual
se midió la concentración de fósforo inorgánico (X1 ) y el orgánico (X2 ) en varios
suelos calcáreos. También se midió el contenido de fósforo del maíz sembrado en
esos suelos y se estimó el fósforo aprovechable por la planta (ppm) en suelos a una
temperatura de 200 C
Entonces:
X1 : Fósforo inorgánico medido mediante el método de Bray y Kurtz en ppm

(PINORGBK)
X2 : Fósforo orgánico soluble en K2 CO3 e hidrolizado mediante hipobromito

(PORGKH)
34
Y : Fósforo disponible por la planta sembrada en un suelo con temperaturas
de 200 C (ppm). Esta variable se trata como una variable dependiente de las
variables independientes X1 y X2
Tabla 1.1 Fósforo disponible por planta
M uestra X1 X2 Y M uestra X1 X2 Y
1 0,4 53 64 10 12,6 58 51
2 0,4 23 60 11 10,9 37 76
3 3,1 19 71 12 23,1 46 96
4 0,6 34 61 13 23,1 50 77
5 4,7 24 54 14 21,6 44 93
6 1,7 65 77 15 23,1 56 95
7 9,4 44 81 16 1,9 36 54
8 10,1 31 93 17 26,8 58 168
9 11,6 29 93 18 29,9 51 99
El modelo de regresión de primer orden con sus términos de error se espera que sea
el apropiado
Yi = β0 + β1 Xi1 + β2 Xi2 + i
Solución
Primero miraremos el comportamiento de las variables gráficamente a través de un
diagrama de dispersión.
> X1=c(0.4,0.4,3.1,0.6,4.7,1.7,9.4,10.1,11.6,12.6,10.9,23.1,
23.1,21.6,23.1,1.9,26.8,29.9)
> X2=c(53,23,19,34,24,65,44,31,29,58,37,46,50,44,56,36,58,51)
> Y=c(64,60,71,61,54,77,81,93,93,51,76,96,77,93,95,54,168,99)
> datos= cbind(Y,X1,X2) ; datos
> pairs(datos,panel=panel.smooth) # Realiza un diagrama de
dispersión múltiple
35
En el gráfico anterior notamos una mejor tendencia lineal entres las variables X1 e
Y , para reforzar esta afirmación se calcula la matriz de correlaciones de la base de
datos.
> cor(datos)
Y X1 X2
Y 1.0000000 0.6934031 0.3544662
X1 0.6934031 1.0000000 0.4615668
X2 0.3544662 0.4615668 1.0000000
Ahora ajustamos el modelo usando el MCO usando la función lm.
> mod1 = lm(Y∼ X1 + X2)

> mod1
Call:
lm(formula = Y ∼ X1 + X2)
Coefficients:
(Intercept) X1 X2
56.25102 1.78977 0.08665
Obteniendo que el modelo ajustado es: Ŷ = 56.25 + 1.789X1 + 0.086X2

Ahora mediante la función summary obtenemos algunas estadísticas muy importantes
36
para el vector de parámetros β̂ como lo son los respectivos errores estándar para
cada parámetro del modelo y los valores t para probar la hipótesis H0 : βi = 0;
además obtenemos la estimación de la desviación estándar del error σ̂
> summary(mod1)
Call:
lm(formula = Y X1 + X2)
Residuals:
Min 1Q Median 3Q Max
-32.828 -8.440 -1.118 6.694 58.757
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 56.25102 16.31074 3.449 0.00358 **
X1 1.78977 0.55674 3.215 0.00579 **
X2 0.08665 0.41494 0.209 0.83740
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 20.68 on 15 degrees of freedom
Multiple R-squared: 0.4823, Adjusted R-squared: 0.4133
F-statistic: 6.988 on 2 and 15 DF, p-value: 0.00717
Tenemos los siguientes errores estándar 16.31, 0.556, 0.414 para βˆ0 , βˆ1 y βˆ2 respecti-
vamente; además se tiene que el parámetro βˆ2 es no significativo en el modelo ya que
tiene un p − valor = 0.83 > 0.05 por lo que no se rechaza la hipótesis H0 : β2 = 0
para obtener σ̂ usamos summary(mod1)$sigma
> summary(mod1)$sigma
20.6784
Obteniendo σ̂ = 20.678
> confint(mod1)
2.5 % 97.5 %
(Intercept) 21.4855104 91.0165378
37
X1 0.6031036 2.9764446
X2 -0.7977808 0.9710793
A un nivel de confianza del 95 % tenemos que β2 es estadísticamente igual a cero,

ya que el intervalo de este parámetro contiene a cero.
3.8. Validación de Supuestos

En regresión lineal es muy importante que el modelo ajustado cumpla con todos
los supuestos teóricos para los cuales son: el vector de errores deber seguir una
distribución normal, deben tener varianzas homógeneas y deben ser variables in-
dependientes. Para llevar a cabo la validación de estos supuestos en esta sección
mostramos varios test que son útiles para probar estos supuestos.
3.8.1. Normalidad
La regresión lineal clásica supone que cada i esta distribuido normal con media
µ = E(i ) = 0 y varianza σ 2 para i = 1, 2, . . . , n, es decir,
iid
i ∼ N (0, σ 2 )
Un procedimiento gráfico para diagnosticar desviaciones de la normalidad es el Q-Q

plot. Este gráfico compara los residuales con una distribución normal. Para obtener el
Q-Q plot graficamos los residuales del modelo en forma ordenada contra Φ−1 ( ni + 1),
i = 1, 2 . . . n, donde Φ−1 ( ni + 1) = P (Z ≤ zi ) = i
n
+ 1. Si los residuales son normales
deberían seguir una linea recta.
Este supuesto es muy importante puesto que es útil para probar hipótesis, calcular
bandas de confianza para los pronósticos de nuestro modelo ajustado debido a que
es el objetivo principal de los modelos de regresión. Las hipótesis a contrastar son
las siguientes:
H0 : Los errores siguen una distribución normal

vs
H1 : Los errores no siguen una distribución normal
38
Las cuales se pueden contrastar mediante los siguientes test:
Prueba de Kolmogorov-Smirnov
Esta prueba asume que para una muestra aleatoria X1 , X2 , . . . , Xn de alguna
distribución continua con función de distribución acumulada dada por F (·).
En muchas ocasiones se desea saber si esta distribución sigue alguna estructura
conocida, para esto se fórmula el siguiente sistema de hipótesis
H0 : F (X) = F0 (X) vs H1 : F (X) 6= F0 (X)
Donde F0 (·) corresponde a la distribución de interés. La prueba de Kolmogorov-

Smirnov es útil para probar dicha hipótesis mediante el siguiente estadístico
de prueba.
Dn = max|Fn (X) − F0 (X)|
El juzgamiento de la hipótesis nula mediante el test de Kolmogorov se realiza

a través del p − valor el cual se calcula basándose en la distribución asintótica
de Dn bajo la hipótesis nula.
√
lı́m P ( nDn ≤ z) = Q(z)
n→∞
Con
∞
X
Q(z) = 1 − 2 (−1)k−1 exp(−2k 2 z 2 )
k=1
para cada z > 0. La función Q(z) es la función de distribución acumulativa de

una distribución continua llamada la distribución de Kolmogorov. En general
los parámetros µ y σ 2 son desconocidos y pueden ser reemplazados por su
contra parte muestral. Se rechaza H0 si p − valor < α con α el nivel de
confianza establecido por el investigador.
Continuando con el ejemplo 3.1 realizamos el test de normalidad para los
errores del modelo ajustado mediante el test de Kolmogorov en R instalando
la librería car y usando la función ks.test().
>library(car)
> ks.test(resid(mod1),"pnorm",0,sd(resid(mod1)))
39
One-sample Kolmogorov-Smirnov test
data: resid(mod1)
D = 0.1497, p-value = 0.761
alternative hypothesis: two-sided
Como tenemos un p − valor = 0.76 > 0.05 no se rechaza la hipótesis de

normalidad, esto es, los errores del modelo siguen una distribución normal.
Shapiro-Wilk(1965).
Esta es una prueba con mayor sensibilidad a la no normalidad, en esta no es
necesario calcular la media y la varianza de la muestra para incluirlas en la
hipótesis. Los autores han proporcionado tablas para n ≤ 50, las hipótesis a
probar es que los datos siguen distribución normal; los pasos para realizar esta
prueba son los siguientes.
• Se ordenan los datos de menor a mayor Y1 ≤ Y2 ≤ · · · ≤ Yn .
• Se calcula la suma de cuadrados: SC = Yi2 − n1 ( Yi )2 .

P P
Luego, b = ni=1 an−i+1 (Yn−i+1 − Yi ). Los coeficientes aj se eligen de la

P
tabla de valores para esta prueba.

b2
• Finalmente, se obtiene la estadística W = .
SC
• La decisión es: Si W < Wα,n . Se rechaza H0 .
Continuando con el ejemplo 3.1 realizamos el test de normalidad del modelo ajus-
tado.
>library(car)
> shapiro.test(resid(mod1))
Shapiro-Wilk normality test
data: resid(mod1)
W = 0.8875, p-value = 0.03493
A un nivel de significancia α = 0.05 se concluye que no existe normalidad en la

distribución en los errores del modelo ya que se tiene un p − valor inferior a 0.05 lo
cual nos lleva al rechazamiento de la hipótesis nula.
40
3.8.2. Homogeneidad de Varianzas de los errores
Un supuesto importante del modelo clásico de regresión lineal es que los errores i
que aparecen en el modelo poblacional son homocedásticas, es decir, todas tienen la
misma varianza.
V ar(i ) = σi2 = σ 2 para todo i = 1, 2, . . . , n La hipótesis de interés es:
H0 : σj2 = σj20 para todo j 6= j 0

vs
H0 : σj2 6= σj20 para algún j 6= j 0
Para contrastar esta hipótesis se usan algunas pruebas entre las cuales tenemos:
Prueba de Breusch - Pagan - Godfrey

Sea Yi = β0 + β1 X1 + · · · + βk Xk + ei . Supongamos que la varianza del error
σi2 es :
σi2 = α0 + α1 z1 + · · · + αk zk
Las variables z pueden ser las mismas X del modelo. La idea es probar que si
algún αi es distinto de cero entonces hay problema de heterocedasticidad.
Para llevar a cabo esta prueba se deben seguir los siguientes pasos:
1. Estímese Y = Xβ + mediante mínimos cuadrados ordinarios y obtenga

êi .
ê2i
P
2. Obtenga σ̂ 2 =
n
ê2i
3. Construir Pi = 2
σ̂
4. Ajuste la regresión
Pi = α0 + α1 z1 + · · · + αk zk
5. Obténgase la estadística θ̂ = 12 SCE donde θ̂ = 12 SCE ∼ χ2(m−1) Si

θ̂ > χ2(m−1) , se rechaza H0 .
Realizamos el test de homogeneidad de varianzas en los errores del modelo

ajustado mediante este test en R instalando la librería lmtest y usando la
función bptest().
41
> library(lmtest)
> bptest(mod1,varformula= resid(mod1),studentize=F)
Breusch-Pagan test
data: mod1
BP = 14.514, df = 1, p-value = 0.0001391
De la salida anterior tenemos un p − valor asociado al test de igualdad de

varianzas inferior a 0.05 por lo que se rechaza la hipótesis de igualdad de
varianzas, esto es, al menos la varianza de una residual es diferente a las
demás.
Prueba de White
La hipótesis estadística a corroborar es:
H0 : σ12 = σ22 = · · · = σn2 = σ 2 (3.21)
Para llevar a cabo dicha prueba, consiste en realizar la regresión auxiliar (vea
Gujarati, 2004),
2i = α
b0 + α
b1 ybi . (3.22)
Posteriormente se determina el R2 de este modelo auxiliar, y por último se

calcula la estadística
2
W = nRaux , (3.23)
la cual sigue una distribución χ2(1) . Sí W > χ2(α,1) , entonces se rechaza la hipó-
tesis de homogeneidad de varianza, lo cual implicaría ensayar otros modelos,
observar sí hay valores influyentes o transformar la información, para tratar
de hacer cumplir el supuesto del modelo.
3.8.3. Independencia
Para realizar contrastes de autocorrelación entre los residuales hay que especificar la
hipótesis alternativa que defina un esquema de autocorrelación; ver Gujarati (2009).
La hipótesis a probar es:
42
H0 : Cov(j , j 0 ) = 0 para todo j 6= j 0
vs
H1 : Cov(j , j 0 ) 6= 0 para algún j 6= j 0
Existen varios test para contrastar este sistema de hipótesis entre los cuales tenemos
los siguientes
Durbin-Watson (1951)
El estadístico de Durbin-Watson se define de la siguiente manera.
Pn
i − î−1 )2
i=2 (ˆ
DW = Pn 2
i=2 î
Esta prueba se basa en la hipótesis de que los errores del modelo de regresión se
generan de un proceso autorregresivo de primer orden, que se da a intervalos de
tiempo igualmente espaciados, es decir, i = ρi−1 + ai .
Para esta prueba se tiene los siguientes supuestos:
El modelo de regresión incluye el término intersección.
Las variables explicativas X son no estocásticas.
No hay observaciones faltantes en los datos.
i está normalmente distribuido.
Si 1.5 ≤ DW ≤ 2.5 no se rechaza H0 Realizando el test de independencia para los

residuales del modelo ajustado en el ejemplo 2.1.
> durbin.watson(mod1)
lag Autocorrelation D-W Statistic p-value
1 -0.1812819 2.325687 0.552
Alternative hypothesis: rho != 0
Como el p − valor asociado a la prueba de independencia es mayor que 0.05 no

rechazamos la hipótesis H0 : Cov(j , j 0 ) = 0, por tanto se concluye que existe
independencia entre los residuales del modelo.
43
3.8.4. Prueba de Rachas
Definición: Una corrida es una subsecuencia de uno o más símbolos idénticos que
representan una propiedad común de los datos. por ejemplo en la secuencia de signos.
- + + - + + + - - +- -
Nótese que aparece primero una secuencia de un signo−, esto es una corrida, después
aparece una secuencia de signos +, esta es otra corrida, así se sigue y se llega a que se
tienen 7 corridas, puesto que hay 7 secuencias seguidas de signo de la misma especie.
Nótese que el número de corrida es una variable aleatoria, llámesele V , puesto que
depende de la forma como se obtuvo la muestra, en este caso la forma como se
obtuvieron los sinos + y −.
Según Walpole et al., (1982), para llevar a cabo una prueba de aleatoriedad o in-
dependencia de los errores, se puede aplicar la prueba de corridas siguiendo los
siguientes pasos:
1. Obténganse en el orden en que se obtuvieron los datos, los errores del modelo
2. Con los signos de los errores obtenidos obtenga el número de signos menos(−)
y el número de signos mas(+), llame n1 al número de signos asociados a la
categoría que ocurre menos y n2 a la categoría de signos que ocurren más, si
hay el mismo número de símbolos en cada categoría entonces es indiferente
quien es n1 y quien es n2 .
3. Obtenga el número de corridas de acuerdo a las secuencias obtenidas de los

errores en el paso 1, llámese V el número de corridas obtenidas, la cual es una
variable aleatoria.
4. Para los valores n1 , n2 y V obtenga la probabilidad P (V ≤ v) dada en

la tabla de rachas, esta probabilidad se multiplica por 2 y asi se obtiene la
probabilidad de rechazar la hipótesis nula, si 2P (V ≤ v) es mayor que el nivel
de significancia α, impuesto para la prueba, entonces no se rechaza H0 .
Para valores de V grandes, por ejemplo mayores que n1 y n2 , entonces la pro-

babilidad de rechazar la hipótesis nula se obtiene mediante la expresión P =
2 [1 − P (V ≤ v )] .
44
Para los errores del ejemplo de plátano, se observa que hay 6 signos positivos y 6
signos negativos, en este caso n1 = n2 = 6. Ahora el número de corridas es v = 7,
por lo tanto la probabilidad de rechazar la hipótesis nula de independencia de los
errores es:
P = 2 [1 − P (V ≤ 6 )] = 2 × [1 − 0, 608] = 0, 784 > α = 0, 05. Por lo tanto, la hipó-
tesis nula no es rechazada, al nivel de significancia del 5 % y se asume que los errores
son una muestra aleatoria, es decir, los datos fueron seleccionados aleatoriamente.
A medida que n1 y n2 se incrementan, la distribución de la variable aleatoria V se
aproxima a la distribución normal con media
2n1 n2
µv = +1 (3.24)
n1 + n2
y varianza
2n1 n2 (2n1 n2 − n1− n2 )
σv = . (3.25)
(n1 + n2 )2 (n1 + n2 − 1)
Generalmente cuando n1 y n2 están por encima de 10, se puede utilizar la estadística
de prueba:
V − µv
Z= (3.26)
σv
para llevar a cabo la prueba de corridas. El valor crítico para esta prueba se obtiene
con el percentil Z1−α/2 , utilizado en la forma usual cuando se utiliza la estadística
Z para una prueba de hipótesis.
Para implementar la prueba de rachas en R primero se deben extraer lo signos de
los residuales del modelo mediante la función sign(), luego estos signos lo debo
convertir en factor con la función as.factor(); por último la prueba de rachas se
implementa con la función runs.test()
> X=as.factor(sign(resid(mod1)))
> runs.test(X)
Runs Test
data: X
Standard Normal = -1.9437, p-value = 0.05194
alternative hypothesis: two.sided
Como el p − valor asociado al test de independencia mediante la pruebas de rachas

resulta ser superior a 0.05 concluimos que existe independencia en los errores.
45
3.9. Selección de variables y mejor modelo
3.9.1. Criterio Cp de Mallows
Seleccionaremos el modelo que minimice el criterio de Mallows.
SCError
Cp = + 2p
σ̂ 2
3.9.2. Criterio AIC
Relacionando con el criterio Cp de Mallows, aunque válido de mucho más general

y motivado de modo muy diferente, está el criterio AIC. Consiste en seleccionar el
modelo minimizando
AICp = −2log(V erosimilitud) + 2p
El criterio AIC, es de ámbito más general, y puede ser utilizado en cualquier verosi-
militud, sea o no normal la distribución generadora de la muestra. El valor de AIC
de una modelo se obtiene en R con la función AIC()
> AIC(mod1)
164.8472
3.9.3. Regresión paso a paso
Si se reduce el número de variables entonces el modelo cumple con el principio

de la parsimonia.
La idea de estos métodos es elegir el mejor modelo en forma secuencial pero

incluyendo o excluyendo una sola variable predictora en cada paso de acuerdo
a ciertos criterios.
El proceso secuencial termina cuando se satisface una regla de parada estable-

cida.
Hay tres algoritmos usados: Backward Elimination, Forward Selection.
46
3.9.4. Backward elimination
Para llevar a cabo este proceso de eliminación de variables se deben tener encuentra
los siguientes pasos.
En este caso se comienza con el modelo completo y en cada paso se va elimi-

nando una variable.
Si todas las variables predictoras son importantes, es decir tienen p − value

pequeños para la prueba t, entonces el mejor modelo es el que tiene todas las
variables predictoras disponibles.
En caso contrario, en cada paso la variable que se elimina del modelo es aquella
que satisface cualquiera de los siguientes requisitos equivalentes entre sí.
Aquella variable que tiene el estadístico de t, en valor absoluto, más pequeño

entre las variables incluidas aún en el modelo.
Aquella variable que produce la menor disminución en el R2 al ser eliminada

del modelo.
Aquella variable que tiene la correlación parcial (en valor absoluto) más peque-
ña con la variable de respuesta, tomando en cuenta las variables aún presentes
en el modelo.
El proceso termina cuando se llega a un modelo con un número prefijado p∗

variables predictoras.
3.9.5. Forward elimination
Aquí se empieza con aquella variable predictora que tiene la más alta correla-
ción con la variable respuesta.
En el siguiente paso se añade al modelo la variable que reúne cualquiera de

estos requisitos equivalentes entre sí.
Aquella variable que produce el mayor incremento en el R2 al ser añadida al

modelo.
47
Aquí también está presente el efecto de anidamiento ya que toda variable que
es añadida al modelo ya no puede salir del mismo.
La regresión paso a paso se implementa en R con la función step() seguida de las

opciones direction=c(“both ”, “backward ”, “forward ”) escogiendo una de
las tres dependiendo del intéres que se tenga. Por defecto R implementa la opción
“backward ” para la regresión por pasos.
> step(mod1,direction="backward")
Start: AIC=111.77
Y ∼ X1 + X2
Df Sum of Sq RSS AIC
- X2 1 18.6 6432.6 109.82
<none> 6413.9 111.7
- X1 1 4419.0 10832.9 119.20
Step: AIC=109.82
Y ∼ X1
Df Sum of Sq RSS AIC
<none> 6432.6 109.8
- X1 1 5957 12389.6 119.62
Call:
lm(formula = Y ∼ X1)
Coefficients:
(Intercept) X1
59.259 1.843
La regresión por pasos nos recomienda que el mejor modelo es Y en función de X1 ,

ya que con este se obtiene el menor valor para el AIC.
3.10. Análisis de diagnóstico

En análisis de regresión es importante estudiar la presencia de conjuntos de obser-
vaciones sobre la estimación de los parámetros y supuestos del modelo.
48
3.10.1. Medidas de influencia
En los modelos de regresión existe algunas medidas estadísticas propuestas para

identificar y medir conjuntos de observaciones influyentes.
Distancia de Cook (1977-1979):
Para medir la influencia de una observación sobre las predicciones del modelo, Cook
ha sugerido medir esta influencia como una medida de la distancia al cuadrado
entre los predichos mediante mínimos cuadrados basados en las n observaciones con
las que se cuenta (Ŷ = Xβ̂) y los predichos eliminando la i−ésima observación
(Ŷ(i) = X(i) β̂ (i) ) de la siguiente forma
0 0 0 0 0 0
(Ŷi − Ŷ(i) ) (Ŷi − Ŷ(i) ) (β̂(i) X X − β̂X X) (β̂(i) X X − β̂X X)
Di = =
pCM E pCM E
0 0
(β̂(i) − β̂) X X(β̂(i) − β̂)
= ∼ Fp,n−p .
pCM E
Los puntos con grandes valores de Di tienen gran influencia sobre el estimado de Ŷ.
La magnitud de Di se suele evaluar comparándola con Fα,p,n−p . Si Di = F0.5,p,n−p
entonces al eliminar el punto i se movería Ŷ(i) hacia la frontera de una región de
confianza aproximada de 50 % para Y, basándose en el conjunto completo de datos.
Es un desplazamiento grande e indica que el los predichos son sensibles al i-ésimo
punto de datos. Como Di = F0.5,p,n−p ' 1.
Si Di > 1 la i-ésima observación es influyente.
DFFITS:
Belsley et al. (1950) introdujeron otras dos medidas útiles para detectar la influencia
de la i−ésima observación sobre el vector de parámetros β. La primera es una
estadística que indica cuánto cambia el coeficiente de regresión β̂j , en unidades de
desviación estándar, si se omitiera la i-ésima observación. Esta estadística es
Ŷi − Ŷ(i)
DF F IT Si = q
s2(i) hii
en la que ŷ( i) es el valor ajustado de yi , obtenido sin usar la i-ésima observación.

El denominador no es más que una estandarización, porque V ar(ŷi ) = σ 2 hii . Así,
DF F IT Si es la cantidad de desviaciones estándar que cambia el valor ajustado yi
si se elimina la observación i.
49
La observación i es influyente si |DF F IT Si | > 2 np .
p
La segunda medida se conoce como DFBETAS.

DFBETAS:
Esta medida de influencia sobre el vector de parámetros β mide el cambio que tiene
el vector de parámetros si se elimina la i−ésima observación. Esta estadística se
define de la siguiente forma.
bj − bj(i)
DF BET ASj,i = q
s2(i) Cjj
0
Siendo Cjj el j-ésimo elemento diagonal de (X X)−1 , y βj(i) el j-ésimo coeficiente de
regresión, calculado sin usar la i-ésima observación. Un valor (de magnitud) grande
de DF BET ASj,i indica que la observación i tiene gran influencia sobre el j -ésimo
coeficiente de regresión. Obsérvese que DF BET ASj,i es una matriz de n × p que
contiene información parecida a la de la medida de distancia de Cook.
0 0
Se define la matriz de p × n, R = (X X)−1 X . Los n elementos del j-ésimo renglón
de R producen el balanceo que las n observaciones de la muestra tienen sobre β̂j . Si
0
se define a rj como el j-ésimo renglón de R.
rj,i i rj,i ti
DF BET ASj,i = √ =√ ,
rj rj S( i)(1 − hii ) rj rj (1 − hii )
donde ti es el residual de R de Student. Nótese que DF BET ASj,i mide tanto el

r
balanceo ( √rj,i
j rj
es una medida del impacto de la i-ésima observación sobre β̂j ) como
el efecto de un residual grande.
Si |DF BET AS| > √2

n
entonces la observación i se debe examinar.
COVRATIO:
Belsley, et al. (1980) sugieren que para determinar el papel de la observación i en la
precisión de la estimación, se define la estadística COV RAT IO como
|s2(i) (X(i)
t
X(i) )−1 |
COV RAT IOi = , i = 1, 2, . . . , n
|s2 (X t X)|
1. Si COV RAT IOi > 1, entonces la observación i mejora la precisión de la

estimación.
50
2. Si COV RAT IOi < 1, la inclusión de la observación disminuye la precisión de
la estimación. Para el cálculo se usa
(s2(i) )p

1
COV RAT IOi =
sp 1 − hii
h i
0 0
Nótese que 1
(1−hii )
es la relación de |(X(i) X(i) )−1 | entre |(X X−1 )|, por lo que un
punto de alto balanceo hará que COV RAT IOi sea grande. Esto es lógico, porque
un punto de alto balanceo mejorará la precisión, a menos que ese punto sea un valor
(s2(i) )p
atípico en el espacio de y. Si la i-ésima observación es atípica, sp
será mucho
menor que la unidad. No es fácil obtener valores de corte para COV RAT IO.
Para obtener las medidas de influencias antes mencionadas en R usamos la función
influence.measures() como se muestra a continuación.
> influence.measures(mod1)
Influence measures of
lm(formula = Y ∼ X1 + X2) :
dfb.1_ dfb.X1 dfb.X2 dffit cov.r cook.d hat inf
1 -0.02313 -0.06370 0.056008 0.0793 1.662 2.24e-03 0.2626 *
2 0.02291 -0.00802 -0.014387 0.0261 1.516 2.43e-04 0.1892
3 0.21049 -0.01103 -0.162158 0.2176 1.534 1.67e-02 0.2254
4 0.00734 -0.00901 -0.000852 0.0141 1.412 7.08e-05 0.1294
5 -0.26956 0.01965 0.196810 -0.2882 1.336 2.88e-02 0.1602
6 -0.38296 -0.52021 0.625561 0.7229 2.001 1.79e-01 0.4595 *
7 0.00638 -0.01768 0.014293 0.0520 1.303 9.65e-04 0.0641
8 0.22264 0.04508 -0.169326 0.2643 1.190 2.39e-02 0.0975
9 0.22025 0.08181 -0.188772 0.2554 1.270 2.25e-02 0.1226
10 0.42353 0.26170 -0.627784 -0.7886 0.748 1.78e-01 0.1523
11 -0.02349 -0.00285 0.013273 -0.0375 1.309 5.03e-04 0.0642
12 -0.00829 -0.07946 0.018215 -0.1085 1.391 4.18e-03 0.1302
13 0.06127 -0.32154 -0.027828 -0.5040 0.990 8.07e-02 0.1269
14 -0.01804 -0.07350 0.024885 -0.1030 1.367 3.77e-03 0.1155
15 0.06129 -0.07033 -0.057368 -0.1566 1.397 8.67e-03 0.1462
16 -0.07223 0.09948 -0.001021 -0.1565 1.331 8.62e-03 0.1131
51
17 -1.05700 1.51458 0.804128 2.6757 0.054 8.38e-01 0.1995 *
18 0.04326 -0.38435 0.042899 -0.4709 1.402 7.54e-02 0.2415
> plot(mod1, which=4,main="",lwd=3,col="red")
Distancias de Cook
Gráfica de Influencias
Realizando el análisis respectivo para cada una de estas medidas de influencia no-
tamos que la inclución de las observaciones 10 y 17 disminuyen la precisión en las
52
estimaciones de los parámetros del modelo, por tanto se ajustará un nuevo modelo
eliminando dichas observaciones.
> datos1=as.data.frame(datos[-c(10,17),])
Ajuste del nuevo modelo.
> reg=lm(Y∼ X1 + X2,datos1) ;reg

Call: lm(formula = Y∼ X1 + X2, data = datos1)
Coefficients:
(Intercept) X1 X2
60.91489 1.21103 0.08833
> summary(reg)
Call: lm(formula = Y∼ X1 + X2, data = datos1)
Residuals:
-16.3060 -3.4842 -0.1095 4.6933 17.1156
Coefficients:
(Intercept) 60.91489 8.39795 7.254 6.42e-06 ***
X1 1.21103 0.28504 4.249 0.000949 ***
X2 0.08833 0.21822 0.405 0.692245
--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> confint(reg)
2.5 % 97.5 %
(Intercept) 42.7722339 79.0575485
X1 0.5952483 1.8268114
X2 -0.3831197 0.5597705
> shapiro.test(resid(reg))
53
data: resid(reg)
W = 0.9558, p-value = 0.5864
> bptest(reg,varformula= resid(reg),studentize=F)

Breusch-Pagan test
data: reg
BP = 0, df = 1, p-value = 0.9977
> durbin.watson(reg)
lag Autocorrelation D-WStatistic p-value
1 0.153531 1.684519 0.394
Para tener una mejor visión de las observaciones influyentes en el modelo graficamos
todas estas medidas obteniendo asi que el mejor modelo se obtiene eliminando las ob-
servaciones 10 y 17, ya que eliminando estas observaciones se aumenta el coeficiente
de determinación R2 y el modelo cumple con todos los supuesto.
3.11. Predicción en el modelo lineal

Uno de los usos más frecuentes del modelo lineal es la predicción de los valores
observados o de valores futuros(no observados) de la variable de interés. Las predic-
ciones se usan para tomar decisiones. Suponiendo que tenemos el modelo estimado
Ŷ = Xβ̂ + î , en general una predicción podríamos expresarla como Yˆ0 = X00 β̂.
Donde X00 es el vector fila formado por los valores observados o futuros de las va-
riables explicativas, X00 = (1 x10 x20 · · · x(p−1)0 ) este predictor es una transformación
lineal del vector aleatorio β̂ de los estimadores del vector de regresores β. Además
la dimensión del predictor es 1, por lo que será una variable aleatoria normal.
3.11.1. Predicción para valores observados
En el modelo de regresión lineal es importante la predicción de los valores observa-

dos, ya que con este obtenemos los residuales del modelo con los cuales verificamos
54
supuestos, estimamos la varianza del error con la cual se calculan intervalos de con-
fianza, se realizan pruebas de hipótesis etc. Para la predicción de valores observadas
se tiene lo siguiente. Sea Yˆ0 = X00 β̂ el valor estimado de un valor observado donde:
X00 es el vector fila formado por los valores observados de las variables explicati-
vas; además con el vector β̂ es una variable aleatoria normal, Yˆ0 será una variable
normal con E(Yˆ0 ) = E(X00 β̂) = X00 E(β̂) = X00 β, esto es, el valor teórico espera-
do para la variable Y (el predictor es insesgado). Por otro lado su varianza será:
V ar(X00 β̂) = X00 V ar(β̂)X0 = σ 2 X00 (X0 X)−1 X0 , Así, la distribución del predictor es:
Yˆ0 = X00 β̂ ∼ N (X00 β , σ 2 X00 (X0 X)−1 X0 )
Distribución que depende del parámetro desconocido σ .Este problema puede sol-
ventarse construyendo el estadístico
(Yˆ0 − X00 β̂)0 [X00 (X0 X)−1 X0 ]−1 (Yˆ0 − X00 β̂)
0
n−p
Que tendrá una distribución F , con 1 y n−p grados de libertad. Como X00 (X0 X)−1 X0 ,
X00 β̂ y el predictor son escalares podemos expresar este estadístico como:
(Yˆ0 − X00 β̂)2

0
[X 0 (X0 X)−1 X0 ]
n−p 0
Además como la raíz cuadrada de una variable F1,n−p es una variable t de Student
con n − p grados de libertad, tendremos que:
(Yˆ0 − X00 β̂)

∼ tn−p
0
r
0 0 −1
[X (X X) X0 ]
n−p 0
A partir de este estadístico es sencillo construir un intervalo para la predicción
esperada según el modelo, dado un nivel de confianza prefijado (1 − α):
s !
0

Yˆ0 = X00 β̂ ∈ Ŷ ± t α2 [X 0 (X0 X)−1 X0 ]
n−p 0
Donde t α2 es el correspondiente valor tabulado para n − p grados de libertad.

Es interesante ver cómo quedaría el intervalo de predicción en el caso de un modelo
55
lineal simple. Tras realizar las operaciones pertinentes acaba quedando un intervalo
para el valor futuro de Y (teórico según el modelo):
 q 2

Sr 1 + (X0S−X)
2
Ŷ0 ± t α X 
2
n−2
Donde t α2 es el valor tabulado para n − 2 grados de libertad.

Para el cálculo de las predicciones del modelo y su respectivo intervalos de confianza
se usa lo siguiente
> predict(reg,interval="prediction")
Prediciones del vector de observaciones

fit lwr upr
1 66.08 41.16 91.00
2 63.43 39.47 87.39
3 66.35 42.00 90.69
4 64.64 41.33 87.96
5 68.73 45.10 92.35
6 68.71 41.62 95.81
7 76.18 53.49 98.88
8 75.88 52.94 98.83
9 77.52 54.31 100.73
10 77.38 54.77 100.00
11 92.95 69.37 116.53
12 93.31 69.67 116.94
13 90.96 67.60 114.32
14 93.84 69.85 117.83
15 66.40 43.25 89.54
16 101.63 76.68 126.58
56
3.11.2. Predicción para valores futuros (no observados)
El objetivo principal de los modelos de regresión lineal es la predicción de valores

futuros digamos Yˆf , a partir de valores futuros de la variables independientes digamos
Xf , esto es, se desea predecir Yˆf = Xf0 β̂.
Así, Xf0 β̂ puede usarse como predicción de una observación futura correspondiente
a Xf0 o como un estimador del valor esperado E(Yf ) correspondiente a Xf0 .
Aquí es de gran interés mirar la variación de una observación futura alrededor de
su predicción Yˆf = Xf0 β̂, para ver eso consideremos la desviación de cualquier Yf de
Yˆf ,
Yf − Yˆf = Xf0 β + f − Xf0 β̂ = Xf0 (β − β̂) + f
como Yf es una observación obtenida independientemente de los datos usados para

obtener β̂, tenemos que β̂ y f son independientes, así que Cov(β̂, f ) = 0 luego
V ar(Yf − Yˆf ) = V ar[Xf0 (β − β̂] + V ar[f ] = Xf0 V ar(β − β̂)Xf + σ 2
= Xf0 V ar(β̂)Xf + σ 2 = σ 2 Xf0 (X0 X)−1 Xf + σ 2 = σ 2 [Xf0 (X0 X)−1 Xf + 1]
En resumen, el valor esperado estimado de Y correspondiente a una observación

futura Xf es Yf = Xf0 β̂ con varianza σ 2 [Xf0 (X0 X)−1 Xf + 1] y la predicción de una
observación correspondiente a Xf es el mismo valor, Xf0 β̂, siendo la varianza de
las desviaciones de los valores Y (correspondientes a Xf ) de su predicción, igual a
σ 2 [Xf0 (X0 X)−1 Xf + 1] esos resultados son ciertos para cualquier valor de Xf .
Si deseamos realizar estimaciones para nuevas observaciones lo hacemos de la si-
guiente forma en R
> predict(reg,newdata=data.frame(X1=15.5,X2=49),interval="prediction")
fit lwr upr
84.0138 61.09816 106.9294
Lo cual no dice que la estimación para Y cuando X1 = 15.5 y X2 = 49 es Ŷ = 84.013

y un intervalo de confianza al 95 % es (61.098, 106.92)
57
3.12. Modelos Polinomiales
En diversas ocasiones contamos con dos variables de las cuales se tiene definido
cual es la variable independiente y la dependiente, pero la relación que se observa
entre ellas es de tipo polinómico,aunque se creería que no se puede considerar este
comportamiento como lineal; si se puede considerar como un modelo de este tipo,
ya que existe linealidad en los parámetros del modelo. En los modelos polinomiales
se pueden observar los siguientes comportamientos.
Modelo estadístico: Yi = β0 + β1 Xi + β2 Xi2 + · · · + βk Xik + i .

En este caso (modelo lineal multiple), β̂ = (X0 X)−1 X0 Y, con
 
2 k
1 x 1 x1 · · · x1
 
2
 1 x 2 x2 · · · x2 
 k 
 .. .. .. .. 
 
. . . .
X= 
2
 1 xi xi · · · xi 
 k 
 .. .. .. .. 
 
. . . .
 
2 k
1 x n xn · · · xn
V ar(β̂) = (X0 X)−1 X0 V ar(Y)X(X0 X)−1 = σ 2 (X0 X)−1 (X0 X)(X0 X)−1 = σ 2 (X0 X)−1
Luego V ar(β̂i ) = σ̂ 2 aii donde aii es el i-ésimo elemento de la diagonal de (X0 X)−1 .
Así un intervalo de confianza.
√ √
2 2
βi ∈ βi − Z 1− α
2
σ̂ aii , βi + Z 1− α
2
σ̂ aii
58
Ejemplo 3.2 Bajo la hipótesis que no existe ninguna relación entre el porcentaje (o
tasa) de crecimiento demográfico (X) y el porcentaje de producto interno bruto per-
capital (Y) se tomaron 14 ciudades de tamaño mediano, en un esfuerzo por comparar
ciudades de igual tamaño. Los resultados encontrados se muestran a continuación.
> X=c(3,2.4,1,0.7,0.8,1.1,3.5,0.9,2.5,2.1,1.1,2,1.3,2.3);X
> Y=c(1.6,-0.3,3.4,2,4,3.7,3.4,6.5,1.6,1.6,4.2,-0.3,3,-3.5);Y
> plot(X,Y)
Notamos que es posible que entre las variables X e Y no exista una relación de tipo
lineal ya que en su dispersión no se ve ese comportamiento. Por tanto realizaremos
una prueba formal de dependencia lineal entre dicha variables.
> cor.test(X,Y) #Prueba dependencia lineal

data: X and Y
t = -1.8469, df = 12, p-value = 0.08956
-0.80107663 0.08012055
sample estimates:
cor
59
-0.4704583
En la prueba de dependencia lineal tenemos un p − valor = 0.08 > 0.05, por lo

que no rechazamos la hipótesis H0 : ρ(X, Y ) = 0, es decir, existe independencia
lineal entre estas variables. Ahora realizaremos la misma prueba pero utilizando el
coeficiente de correlación de rangos de Spearman
> cor.test(X,Y,method="spearman")
Spearman’s rank correlation rho
data: X and Y
S = 712.9885, p-value = 0.03448
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
-0.5670076
Para la prueba de dependencia tenemos que p − valor = 0.03 < 0.05, por lo que
se rechaza la hipótesis de Independencia, Así como en la dispersión notamos una
comportamiento de tipo polinómico entre estas variables, realizaremos ajustes de
este tipo empezando por un polinomio de grado 2.
Ajuste cuadrático o polinómica de orden 2:
> mod=lm(Y ∼ X+ I(X^2));mod

Call:
lm(formula = Y ∼ X + I(X^2))
Coefficients:
(Intercept) X I(X^2)
10.415 -8.900 1.942
> res=summary(mod);res
Call:
lm(formula = Y ∼ X + I(X^2))
Residuals:
60
-3.7212 -0.5428 0.3706 1.1361 2.5212
Coefficients:
(Intercept) 10.4154 2.5562 4.075 0.00184 **
X -8.9000 2.9971 -2.970 0.01276 *
I(X^2) 1.9425 0.7503 2.589 0.02518 *
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
> AIC(mod)
61.54316
Para el ajuste de tipo cuadrático tenemos parámetros altamente significativos, ya

que el p − valor asociado a la prueba H0 : βi = 0 es menor que 0.05 para ambos
parámetros por lo que se lleva al rechazamiento de esta hipótesis; pero a pesar de
esto tenemos un coeficiente de determinación (R2 = 0.4282) muy bajo que nos dice
que la variable independiente X me explica un 43 % de la variabilidad total de la
variable dependiente Y y un AIC = 61.54.
> plot(X,Y,xlab=“Tasa de Crecimiento”,ylab= “Porcentaje de

Producto”,main=“Dispersión ”)
> curve(coef(mod)[1]+mod$coef[2]*x+mod$coef[3]*x^2,
add=T,col=“red ”)
61
Ajuste de la curva.
Realizando el ajuste de la curva notamos que esta se ajusta casi perfecta a la nube
de puntos
> library(car)
> e=resid(mod);e
1 2 3 4 5
0.40211846 -0.54419478 -0.05790629 -3.13723023 -0.53860572
6 7 8 9 10
0.72416863 0.33900829 2.52116892 1.29398208 1.30817547
11 12 13 14
1.22416863 -0.68540084 0.87176889 -3.72122150
Supuestos del modelo
> shapiro.test(e)
data: e
W = 0.8934, p-value = 0.09039
Como tenemos un p − valor = 0.09 > 0.05 no rechazamos la hipótesis de normalidad

en los residuales , es decir, los residuales del modelo siguen una distribución normal.
62
> library(lmtest)
> bptest(mod,varformula= resid(mod),studentize=F)

Breusch-Pagan test
data: mod
BP = 6.5823, df = 1, p-value = 0.0103
Tenemos un p − valor = 0.01 < 0.05 asociado la prueba de Homogeneidad por lo

que se rechaza la hipótesis de Homogeneidad
> durbin.watson(mod)
1 0.1137172 1.399492 0.166
Para esta prueba se tiene un p − valor superior al 0.05 por lo que no se rechaza la
hipótesis de independencia entre los residuales. Como tenemos un coeficiente de de-
terminación muy bajo y además no tenemos homogeneidad de varianzas probaremos
ajustando nuevos modelos aumentando el grado del polinomio.
Ajuste cúbico o polinómica de orden 3
> mod1=lm(Y∼X+I(X^2)+I(X^3));mod1
Call:
lm(formula = Y ∼ X + I(X^2) + I(X^3))
Coefficients:
(Intercept) X I(X^2) I(X^3)
0.2501 10.0243 -7.9989 1.5552
> res=summary(mod1);res
Call:
lm(formula = Y ∼ X + I(X^2) + I(X^3))
Residuals:
63
-3.4147 -0.5804 -0.0015 1.0110 2.5733
Coefficients:
(Intercept) 0.2501 7.2465 0.035 0.973
X 10.0243 13.0264 0.770 0.459
I(X^2) -7.9989 6.7158 -1.191 0.261
I(X^3) 1.5552 1.0447 1.489 0.167
> AIC(mod1)
60.74073
> plot(X,Y,xlab="Tasa de Crecimiento",ylab="Porcentaje de
Producto",main="Dispersion")
> curve(coef(mod1)[1]+mod1$coef[2]*x+mod1$coef[3]*x^2+mod1$coef[4]*x^3,
add=T,col=“red”)
Ajuste de la curva de orden 3.
> e1=resid(mod1)
> shapiro.test(e1)
64
data: e1
W = 0.9695, p-value = 0.8693
Breusch-Pagan test
data: mod1
BP = 1.2575, df = 1, p-value = 0.2621
1 0.2384747 1.090819 0.018
Realizando el ajuste de un modelo polinómico de orden tres obtenemos una dismi-

nución no significativa en el AIC = 60.74 y parámetros no significativos, ya que se
tienen valores p superiores a 0.05 por lo que no se rechaza la hipótesis de que los
parámetros del modelo son estadísticamente iguales a cero. Por tanto realizaremos
un ajuste de un polinomio de orden cuatro.
Modelo polinómico de orden 4
> mod2=lm(Y∼ X + I(X^2) + I(X^3) + I (X^4));mod2

Call:
lm(formula = Y ∼ X + I(X^2) + I(X^3) + I(X^4))
Coefficients:
(Intercept) X I(X^2) I(X^3) I(X^4)
-20.019 62.665 -54.336 18.041 -2.025
Call:
lm(formula = Y ∼ X + I(X^2) + I(X^3) + I(X^4))
Residuals:
-3.006 -0.5018 -0.1024 0.2136 2.3101
Coefficients:
65
stimate Std. Error t value Pr(>|t|)
(Intercept) -20.019 14.222 -1.408 0.1928
X 62.665 34.718 1.805 0.1046
I(X^2) -54.336 29.318 -1.853 0.0968 .
I(X^3) 18.041 10.238 1.762 0.1119
I(X^4) -2.025 1.252 -1.617 0.1402
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
> AIC(mod2)
59.16838
> plot(X,Y,xlab="Tasa de Crecimiento",ylab="Porcentaje de
Producto",main="Dispersion")
> curve(coef(mod2)[1]+mod2$coef[2]*x+mod2$coef[3]*x^2+
mod2$coef[4]*x^3+mod2$coef[5]*x^4, add=T,col=“red”)
Gráfica de Dispersión polinomio 4.
> e2=resid(mod2)
66
> shapiro.test(e2)
data: e2
W = 0.9109, p-value = 0.1626
Breusch-Pagan test
data: mod2
BP = 0.0997, df = 1, p-value = 0.7522
1 0.4013205 0.8103305 0.008
Realizando el ajuste de un modelo polinómico de orden cuatro obtenemos paráme-

tros no significativos, ya que se tienen valores p superiores a 0.05 por lo que no se
rechaza la hipótesis de que los parámetros del modelo son estadísticamente iguales
a cero, esto es los modelos de orden tres y cuatro son no significativos por tanto
nos quedaremos con el modelo cuadrático, al cuál se le realizaran diagnósticos para
mejorarlo puesto que tenemos un valor pequeño el coeficiente de determinación y
varianzas no homogéneas.
Comparación de modelos.
Ahora comparemos los modelo de grado 3 y 4 con el cuadrático, aquí la hipótesis

nula es que el modelo con menos parámetros ajusta mejor que el de más.
> anova(mod,mod1)
Analysis of Variance Table
Model 1: Y X + I(X^2)
Model 2: Y X + I(X^2) + I(X^3)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 11 37.551
2 10 30.739 1 6.8121 2.2161 0.1674
67
> anova(mod,mod2)
Model 1: Y X + I(X^2)
Model 2: Y X + I(X^2) + I(X^3) + I(X^4)
1 11 37.551
2 9 23.816 2 13.735 2.5952 0.1289
> anova(mod1,mod2)
Model 1: Y X + I(X^2) + I(X^3)
Model 2: Y X + I(X^2) + I(X^3) + I(X^4)
1 10 30.739
2 9 23.816 1 6.9228 2.6161 0.140
En ambas pruebas tenemos un p − valor superior a 0.05 por tanto se tiene que
el modelo cuadrático ajusta mejor que los otros, por lo que nos quedaremos con
el modelo cuadrático, pero realizaremos diagnósticos sobre las observaciones para
mejorarlo.
Observaciones influyentes para el cuadrático
> influence.measures(mod)
Influence measures of
lm(formula = Y ∼ X + I(X^2)) :
> p=3
> n=length(Y)
> plot(mod, which=4,main=,lwd=3,col=“red”)
> abline(h=1,col="blue",lwd=3)
68
Tabla de observaciones influyentes
dfb.1 dfb.X dfb.I.X dffit cov.r cook.d hat inf
1 0.00239 -0.01227 0.03266 0.1307 1.705 6.22e-03 0.232
2 0.08187 -0.09255 0.08131 -0.1388 1.554 7.00e-03 0.168
3 -0.00673 0.00346 -0.00194 -0.0124 1.530 5.66e-05 0.131
4 -1.35758 1.09617 -0.93377 -1.5295 0.472 5.42e-01 0.287 *
5 -0.13306 0.09990 -0.08117 -0.1637 1.642 9.73e-03 0.213
6 0.04979 -0.00939 -0.00744 0.1436 1.432 7.44e-03 0.114
7 0.32741 -0.41490 0.50451 0.6896 5.680 1.72e-01 0.775 *
8 0.48975 -0.32520 0.24083 0.7002 0.807 1.43e-01 0.162
9 -0.17884 0.19677 -0.16412 0.3315 1.350 3.82e-02 0.163
10 -0.22677 0.27438 -0.26243 0.3573 1.365 4.42e-02 0.179
11 0.08545 -0.01611 -0.01277 0.2464 1.308 2.13e-02 0.114
12 0.11376 -0.14116 0.13766 -0.1827 1.546 1.20e-02 0.178
13 -0.00938 0.05689 -0.07228 0.1715 1.399 1.05e-02 0.112
14 0.80334 -0.92940 0.84627 -1.2953 0.274 3.41e-01 0.173
Gráfico de la distancia de cooks:
> par(mfrow=c(2,3))
> plot(hatvalues(mod),type="h",lwd=5) # Gráfico para los
hii
69
> abline(h=2*p/n,col=“red”,lwd=5)
> plot(dffits(mod),type=“h”,lwd=3,ylab="DFFITS")
> bline(h=c(-2*sqrt(p/n),2*sqrt(p/n)),col=“red”,lwd=3)
> plot(dfbetas(mod)[,1],type="h",lwd=3,ylab="DFBETAS para
el intercepto")
> abline(h=c(-2/sqrt(n),2/sqrt(n)),lwd=3,col=“red”)
X")
X^2")
> plot(covratio(mod),lwd=3,type="h",ylab=Çovratio")
> abline(h=1,col=“red”,lwd=3)
Gráfica de Observaciones influyentes.
70
Eliminación de observaciones
De los gráficos anteriores se concluye que las observaciones que están disminuyendo
la precisión en la estimación son las 4 y 14. Por tanto ajustaremos nuevamente el
modelo cuadrático eliminando las observaciones 4 y 14
> Y1=Y[-c(4,14)]
> X1=X[-c(4,14)]
> reg=lm(Y1 ∼ X1 + I(X1^2));reg
Call:
lm(formula = Y1 ∼ X1 + I(X1^2))
Coefficients:
(Intercept) X1 I(X1^2)
11.554 -9.372 2.014
> res=summary(reg);res
Call:
lm(formula = Y1 ∼ X1 + I(X1^2))
Residuals:
-1.34551 -0.83717 0.02841 0.60027 1.74934
Coefficients:
(Intercept) 11.5541 1.7106 6.754 8.32e-05 ***
X1 -9.3715 1.9446 -4.819 0.000948 ***
I(X1^2) 2.0135 0.4717 4.269 0.002085 **
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
> AIC(reg)
39.39547
71
> plot(X1,Y1,xlab="Tasa de Crecimiento",ylab="Porcentaje
de Producto",main="Dispersion")
> curve(coef(mod)[1]+mod$coef[2]*x+mod$coef[3]*x^2,add=T
,col=“red”)
> library(car)
> e1=resid(reg)
> shapiro.test(e1) # Normalidad

data: e1
W = 0.9572, p-value = 0.7427
shapiro.test(e1)
library(lmtest)
plot(reg) # Homogeneidad Graficamente
bptest(reg,varformula=∼resid(reg),studentize=F)
> durbin.watson(reg) # Indenpendencia

1 0.3766239 1.241284 0.118
Notamos que después de eliminadas estas observaciones hemos mejorado nuestro

modelo debido a que cumple con todos los supuestos y además el coeficiente de
determinación aumento 0.72 y hubo una disminución considerable en el AIC.
72
Capítulo 4
Variables dicotómicas.
Definicion 4.1
La regresión con variables dicotómicas surgen por la necesidad que tiene el inves-
tigador de involucrar variables cualitativas (o de atributos o de categorías) en un
análisis de regresión sea este simple o múltiple; las variables dicotómicas reciben el
mismo tratamiento que las demás variables del modelo de regresión, por ejemplo
hay ocasiones en las que el investigador maneja variables como:
Sexo o genero (femenino, masculino)
Estado civil (casado, soltero, divorciado, viudo)
Zona de residencia (urbano, rural)
Estatura (bajo, mediano, alto)
Ocupación (con o sin empleo); entre otros.
Ejemplo ilustrativo 1: Adaptado del libro de FOX; este ejemplo se refiere a la

relación entre el nivel de ingresos y el nivel de educación en dos grupos raciales en
Estados Unidos. Suponemos que el nivel de ingresos (medido a través del salario) es
la variable dependiente y que el nivel de educación (medido a través del número de
años) es la variable independiente o regresora. Cabe esperar que, en general, para
un nivel de educación más alto el nivel de ingresos sea también más alto. Dadas las
características de la sociedad americana, es de esperar también que para un mismo
73
nivel de educación una persona de raza blanca tenga un nivel de ingresos mayor que
una persona de raza negra. Luego el nivel de ingresos depende de la raza (variable
cualitativa) y debería ser incluida en el modelo como regresora. La situación se re-
presenta en la siguiente gráfica:
Relación entre el nivel de ingresos y el de educación para blancos y

negros.
Es claro que si no incluimos la variable raza de alguna manera, el modelo conjunto

que relaciona ingresos y educación no se ajusta bien ni al grupo de los blancos ni al
de los negros. Una solución sería ajustar un modelo por separado para cada grupo y
compararlos, sin embrago, vamos a buscar una solución que explique correctamente
la situación con un solo modelo. En lugar de ajustar el modelo conjunto Y = β0 +β1 X
podemos ajustar el modelo
Y = β0 + β1 X + δD (4.1)
donde D, llamado un regresor-variable binaria o una variable de indicador, es codi-

ficada 1 si el individuo es blanco y 0 si el individuo es negro:

1 si el individuo es blanco

Di =
0 si el individuo es negro

74
4.1. Interpretación del modelo con variables dicotó-
micas
La interpretación de los modelos en los que se han incluido variables dicotómica es
simple. Calculemos el modelo en cada uno de los grupos
Por lo tanto, en el grupo de los negros el modelo se convierte en
Y = β0 + β1 X + δ(0) = β0 + β1
En el grupo de los blancos el modelo se convierte en
Y = β0 + β1 X + δ(1)+ = (β0 + δ) + βX
Luego β1 es la pendiente (común) de los modelos para ambos grupos. β0 es la cons-

tante en el modelo para el grupo de los negros, β0 + δ es la constante en el modelo
para el grupo de los blancos y δ, por tanto, es la diferencia entre los ingresos de los
blancos y los negros, sea cual sea el nivel de educación. La situación se representa
en la siguiente gráfica:
Interpretación de un modelo con variables dicotómicas
Cuando la variable cualitativa tiene más de dos grupos tenemos que introducir varias
variables dicotómicas.
4.2. Variables dicotómicas para mas de dos grupos

Supongamos ahora que disponemos de un grupo más, el de los hispanos y hemos de
introducir los tres en el modelo que relaciona ingresos y educación. Tomaremos uno
75
de los grupos como base de comparación, por ejemplo, el grupo de los hispanos.
El modelo será ahora
Y = β0 + β1 X + δD1 + γD2
donde: 
1 Si el individuo es negro

D1 =
0 en otro caso


1 Si el individuo es blanco

D2 =
0 en otro caso

Interpretación de un modelo con variables dicotómicas
Luego β1 es la pendiente (común) de los modelos para los tres grupos. β0 es la

constante en el modelo para el grupo de los hispanos, β0 + δ es la constante en el
modelo para el grupo de los negros y β0 + γ es la constante en el modelo para el
grupo de los blancos; entonces δ es la diferencia entre el grupo de los negros y el de
los hispanos,γ es la diferencia entre el grupo de los blancos y el de los hispanos y
γ − δ es la diferencia entre blancos y negros.
4.3. Variables dicotómicas en presencia de interac-

ción
Supongamos ahora que, en el ejemplo anterior, las diferencias entre los ingresos para
las dos razas, aumentan a medida que aumenta el nivel de educación, es decir, los
76
efectos de la raza y del nivel de educación no son aditivos, existe lo que se denomina
interacción entre la raza y el nivel de educación. El concepto de interacción es clave
en la investigación aplicada, ya que implica que las relación de la variable depen-
diente con otra variable depende de los valores de una tercera. No debe confundirse
interacción con relación, en el ejemplo, raza y educación interactúan en el efecto que
manifiestan sobre el nivel de educación, pero no tienen porqué estar relacionadas
entre si. La interacción se traduce en que las pendientes de las rectas para ambos
grupos no son las misma. La situación se representa en la siguiente gráfica.
Interacción entre raza y educación
En este caso no es válido el modelo anterior con variables dicotómicas, ya que, allí
suponíamos que las pendientes de las rectas eran iguales y, por tanto, la diferencia
entre blancos y negros era constante.
Tomaremos ahora el modelo
Yi = β0 + β1 X + δD1 + γXD2
donde la variable D se define como antes, y DX es el producto de las variables D y

X , es decir 
1 si el individuo es blanco

Di =


X si el individuo es blanco

Di X =

77
La interpretación del nuevo modelo es simple. Calculamos el modelo en cada uno de
los grupos. En el grupo de los negros (D = 0) el modelo se convierte en
Y = β0 + β1 X + δ(0) + γ(0) = β0 + β1 X,
En el grupo de los blancos (D = 1) el modelo se convierte en
Y = β0 + β1 X + δ(1) + δ(X) = (β0 + δ) + (β1 + γ)X.
Luego β1 es la pendiente del modelo para el grupo de los negros. (β1 + γ) es la

pendiente del modelo para el grupo de los blancos y, por tanto,γ es la diferencia en
las pendientes. β0 es la constante en el modelo para el grupo de los negros, (β0 +δ) es
la constante en el modelo para el grupo de los blancos. δ ya no es la diferencia entre
los ingresos de los blancos y los negros, ya que esta depende del nivel de educación.
Contrastar la presencia de interacción en el modelo consiste en contrastar la nulidad
del parámetro γ modelo el producto de la variable continua por todas las variables
dicotómicas. Si se dispone de dos variables cualitativas y se desea introducir la
interacción de las mismas en el modelo hay que multiplicar todos los pares posibles
de variables dicotómicas resultantes. Si se desea introducir la interacción entre dos
variables continuas basta con introducir el producto de las mismas.
Variables dicotómicas en R
Para crear variables cualitativas en R, debemos convertir los vectores numéricos
(variables cuantitativas) de un marco de datos, en factores (variables cualitativas).
Los datos para el siguiente ejemplo se tomaron usando el conjunto de datos
hsb2 <-
read.csv(“http://www.ats.ucla.edu/stat/data/hsb2.csv”,
header=T, sep=“,”)
Ejemplo 4.1 Modelo lineal con una variable dicotómica se ajustara un modelo de
la variable escritura en función del género (hombre o mujer).
78
> Base=read.csv2(file.choose())
> attach(Base)
> mod=lm( science female)
> summary(mod)
Call:
lm(formula = science female)
Residuals:
-27.2308 -6.6972 0.3028 7.3028 20.7692
Coefficients:
(Intercept) 53.231 1.032 51.581 <2e-16 ***
female -2.534 1.398 -1.812 0.0714 .
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Notamos que la variable sexo (female) es significativa en el modelo ya que se tiene

un p−valor aproximadamente cero lo cual permita rechazar la hipótesis de que el
parámetros ρ sea estadísticamente igual a cero en el modelo (la numeración que
tenga). Verificamos los supuestos del modelo:
> e=resid(mod)
> library(car)
> library(lmtest)
> shapiro.test(e)
data: e
W = 0.9854, p-value = 0.0367
79
Breusch-Pagan test
data: mod
BP = 6.6776, df = 1, p-value = 0.009763
1 0.1130674 1.771566 0.11
Notamos que el único supuesto que se cumple para este modelo es el de independen-
cia de los errores ya que es el único que arroja un valor p superior a 0.05. Siguiendo
con el ejemplo 1 adicionaremos la variable matemática al modelo.
Ejemplo 4.2 Modelo lineal con variable ficticia y una cuantitativa.
> mod1=lm(science math+female)

> summary(mod1)
Call:
lm(formula = science math + female)
Residuals:
-21.2985 -4.2885 0.1747 4.4511 24.6702
Coefficients:
(Intercept) 18.11813 3.16713 5.721 3.9e-08 ***
math 0.66319 0.05787 11.460 < 2e-16 ***
female -2.16840 1.08604 -1.997 0.0472 *
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
F-statistic: 68.38 on 2 and 197 DF, p-value: < 2.2e-16
80
Ambas variables son significativas en el modelo, además obtenemos un aumento
significativo en el coeficiente de determinación (R2 ). Ahora los supuestos:
> e1=resid(mod1)
> shapiro.test(e1)
data: e1
W = 0.9947, p-value = 0.7113
> bptest(mod,varformula= resid(mod1),studentize=F)
Breusch-Pagan test
data: mod
BP = 8.07, df = 1, p-value = 0.004501
1 0.03911086 1.918343 0.476
El único supuesto que no se cumple es el de homogeneidad de varianzas, ya que

este test me arroja un valor p inferior a 0.05 por lo que se lleva al rechazamiento
de la hipótesis de igualdad de varianzas en los errores. A continuación adicionamos
nuevamente otra variable al modelo, pero una variable categórica con dos niveles
raza (race).
Ejemplo 4.3 Modelo lineal con una variable cuantitativa y dos variables dicotómi-
cas.
> mod2=lm(science math+female+race)

> summary(mod2)
Call:
lm(formula = science math + female + race)
Residuals:
-17.892 -4.030 -0.320 4.758 22.011
81
Coefficients:
(Intercept) 23.53845 3.28775 7.159 1.59e-11 ***
math 0.58430 0.05843 9.999 < 2e-16 ***
female -2.20955 1.04101 -2.123 0.0351 *
race -5.65704 1.31767 -4.293 2.77e-05 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Notamos que todos los parámetros del modelo resultan ser significativos, ya que
obtenemos valores p inferiores a 0.05 lo cual lleva a rechazar la hipótesis de que
estos parámetros son estadísticamente nulos (iguales a cero), ahora los supuestos:
> e2=resid(mod2)
> shapiro.test(e2)
data: e2
W = 0.9949, p-value = 0.7281
> bptest(mod,varformula= resid(mod2),studentize=F)
Breusch-Pagan test
data: mod
BP = 5.7463, df = 1, p-value = 0.01652
1 0.07712921 1.841937 0.208
Notamos que el único supuesto que no se satisface para este modelo es el de igualdad
de varianzas, puesto que se el test arroja un valor p inferior a 0.05 lo cual lleva a
rechazar la hipótesis de igualdad de varianzas.
82
Capítulo 5
Modelos de regresión no lineal
Gujarati(1997). Un modelo se puede definir como una ecuación o conjunto de ecua-

ciones que describen el comportamiento de algún sistema, por ejemplo, el trabajo
de un reactor químico o el crecimiento de un animal. La teoría estadística dedicada
a los modelos lineales en los parámetros es muy amplia, debido en gran parte a sus
múltiples aplicaciones y a la fácil interpretación de los resultados obtenidos de este
tipo de análisis. Sin embargo, hay fenómenos observables que no pueden ser expli-
cados por modelos lineales, por ejemplo, el desarrollo de una teoría en la química o
la física, en tales situaciones un modelo no lineal en los parámetros se puede ajustar
mejor. Hoy en día es más viable, gracias al progresivo avance de los computadores, la
aplicación de modelos no lineales en fenómenos donde el conjunto de parámetros no
puede expresarse en forma lineal. En Estadística los fenómenos observables pueden
ser modelados mediante la expresión:
y = f (x, β) + (5.1)
y = f (x, β) (5.2)
donde y es la variable respuesta, es el error experimental asociado con esta medida,

en (1) se dice que el error es aditivo y en (2) multiplicativo; f (x, β) es una función que
contiene p parámetros β1 , β2 , . . . , βp y k variables x1 , x2 , . . . xk . Se pretende obtener
los valores de los parámetros asociados con la mejor curva de ajuste (habitualmente,
con el método de los mínimos cuadrados). Con el fin de determinar si el modelo es
adecuado, se pueden usar conceptos de inferencia estadística tales como intervalos
83
de confianza para los parámetros así como pruebas de bondad de ajuste.
5.1. Modelos no lineales más usuales

Entre estos modelos se destacan los siguientes:
5.1.1. Modelos Exponenciales(log-lin)
Con frecuencia a los investigadores les interesa encontrar la tasa de crecimiento

de ciertas variables económicas, como poblaciń, PNB, oferta monetaria, empleo,
productividad y déficit comercial. En estos casos se plantea un modelo Log-Lin cuya
forma viene dada por:
Yi = β0 β1Xi i
El cual se estima de la siguiente forma.
Yi = β0 β1Xi
En los modelos exponenciales se pueden observar los siguientes comportamientos.
Para la linealización de este modelo tomamos logaritmo a ambos lados de la igualdad

y obtenemos lo siguiente.
ln(Ŷ ) = ln(β̂0 ) + ln(β̂1 )X
84
Teniendo como resultado el modelo lineal.
Ŷ ∗ = β̂0∗ + β̂1∗ X
Con Y ∗ = ln(Y ), β0∗ = ln(β0 ) y β1∗ = ln(β1 )

Estimación de parámetros con mínimos cuadrados ordinarios.
Xi Yi∗ − n1
P P P ∗
∗ Xi (Yi )
β̂1 = P 2 1 P
Xi − n ( Xi )2
Xi ln(Yi ) − n1
P P P
Xi ln(Yi )
= P 2 1 P
X i − n ( Xi ) 2
Ahora β̂1 = exp(β̂1∗ )
β0∗ = Ȳ ∗ − X̄ β̂1∗
1X 1X
= (lnYi ) − Xi β̂1∗
n n
Entonces β̂0 = expβ0∗ Así los intervalos nos quedan:
σ̂ 2
V ar(βˆ1∗ ) = P 2 1
P 2
i Xi − n ( i Xi )
Pn 2 2
ˆ∗ i=1 Xi σ̂
V ar(β0 ) = P 2 1
P 2
i Xi − n ( i Xi )
Luego
q q
β1∗ ˆ∗ ∗ ˆ∗ ˆ∗
∈ β1 − Z1− α2 V ar(β̂1 ) , β1 + Z1− α2 V ar(β1 )
q q
ˆ∗ ∗ ˆ∗ ˆ∗
β1 ∈ exp β1 − Z1− α2 V ar(β̂1 ) , exp β1 + Z1− α2 V ar(β1 )
q q
β0∗ ˆ∗ ∗ ˆ∗ ∗
∈ β0 − Z1− α2 V ar(β̂0 ) , β0 + Z1− α2 V ar(β̂0 )
q q
ˆ∗ ∗ ˆ∗ ∗
β0 ∈ exp β0 − Z1− α2 V ar(β̂0 ) , exp β0 + Z1− α2 V ar(β̂0 )
Ejemplo 5.1 En este ejemplo se tiene un análisis de regresión que se realizo con
la información de los depósitos por persona(Y) y el ingreso per cápita(X) en el año
2002.
85
> Y=c(58.7, 322.3, 80.1, 949.4, 141.5, 171, 355.1, 28, 119,
453.2, 322.1, 466.4, 383.8, 4549.4, 232.8, 200.2, 1027,
239.5, 270.2, 178.8, 131.3, 923.6, 222.6, 275.4, 1697.5)
> X=c(195.37, 307.27, 137.49, 331.33, 167.91, 198.44,
259.75, 142.06, 191.82, 357.79, 253.06, 338.24, 343.2,
556.8, 265.28, 327.47, 412.72, 233.75, 209.18, 179.72,
220.57, 420.45, 311.84, 257.43, 352.93)
Realizamos un diagrama de dispersión para observar el comportamiento de las va-

riables en estudio.
> plot(X,Y)
Gráfica de dispersión.
Observamos un comportamiento de tipo exponencial el la dispersión de las observa-

ciones.
Realizamos la prueba de independencia lineal entre las variables.
> cor.test(X,Y)
data: X and Y
t = 5.8423, df = 23, p-value = 5.928e-06
86
0.5439193 0.8947868
sample estimates:
cor
0.7729322
Tenemos un p − valor ≈ 0 por lo que se rechaza la hipótesis de independencia lineal

entre las variables
Ajustamos un modelo lineal.
>mod=lm(Y∼X)
> AIC(mod)
394.1943
> summary(mod)
Call:
lm(formula = Y ∼X)
Residuals:
-699.24 -482.02 -3.75 216.60 2010.13
Coefficients:
(Intercept) -1442.144 361.397 -3.990 0.000576 ***
X 7.151 1.224 5.842 5.93e-06 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
F-statistic: 34.13 on 1 and 23 DF, p-value: 5.928e-06
Luego de haber ajustado el modelo lineal observamos un AIC = 394.2, R2 = 0.59

y parámetros altamente significativos, ya que tienen p − valores ≈ 0 por lo que se
rechaza H0 : βi = 0
87
Verificamos los supuestos del modelo.
> library(car)
> library(lmtest)
> shapiro.test(resid(mod))
data: resid(mod)
W = 0.8585, p-value = 0.002566

Breusch-Pagan test
data: mod
BP = 29.2078, df = 1, p-value = 6.502e-08
1 -0.08356645 2.119021 0.818
Se tiene que el modelo lineal solo cumple con el supuesto se independencia. por lo
que se procede a realizar un ajuste exponencial debido al comportamiento que se
observa en el diagrama de dispersión
> Y1=log(Y)
> mod1=lm(Y1∼X)
> summary(mod1)
Call:
lm(formula = Y1∼X)
Residuals:
-1.00499 -0.22310 -0.03457 0.35835 1.04931
Coefficients:
88
(Intercept) 2.955866 0.304989 9.692 1.38e-09 ***
X 0.00972 0.001033 9.414 2.36e-09 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
>curve(exp(coef(mod)[1])*exp(mod$coef[2])^x,add=T
,col=“red”)
Ajuste de la curva exponencial.
> library(car)
> e=resid(mod1)
> qqPlot(e)
> shapiro.test(e)
data: e
W = 0.9854, p-value = 0.9676
89
> library(lmtest)
Breusch-Pagan test
data: mod1
BP = 0.2468, df = 1, p-value = 0.6193
1 0.1421689 1.418904 0.138
En las pruebas de los supuestos del modelo notamos p − valores superiores a 0.05
por lo que se concluye que este modelo satisface con los supuestos exigidos.
> plot(X,Y,main=“Ajuste”,xlab=“Ingreso”,ylab=“Deposito})
>curve(exp(coef(mod1)[1])∗exp(coef(mod1)[2])^x,add=T,col=“black”,type=“l”)
> abline(lm(Y∼X),lty=2)
> legend(150,4000,c(“Modelo Exponencial”,“Modelo lineal”) ,
pt.bg=“gray01”, lty=c(1,2), col =c(“black”,“black”))
Comparación grafica del modelo lineal y exponencial .
En el gráfico anterior notamos que la curva del modelo exponencial se ajusta mejor
a nube de puntos que el modelo lineal.
90
Parámetros originales
> b0=exp(coef(mod1)[1]);b0
(Intercept)
19.21836
> b1=exp(coef(mod1)[2]);b1
X
1.009771
Intervalos de lo parámetros
> IC=exp(confint(mod1));IC
2.5 % 97.5 %
(Intercept) 10.226144 36.117742
X 1.007616 1.011931
Predichos
> Y1est=predict(mod1);Y1est
> Yest=exp(Y1est);Yest
Luego de ajustar el modelo exponencial notamos que este ajusta mejor que el lineal,
ya que, se nota una valor mucho menor en el AIC = 40.32, un mayor valor en
el coeficiente de determinación R2 = 0.79 y además los errores para este modelo
cumplen con todos los supuestos (Normalidad, Homogeneidad e Independencia)
5.1.2. Modelos Logarítmicos (lin-log)
A diferencia del modelo de crecimiento recién estudiado, en el cual nos interesaba

encontrar el crecimiento porcentual en Y ante un cambio unitario absoluto en X,
ahora deseamos encontrar el cambio absoluto en Y debido a un cambio porcentual
en X. Un modelo que cumple este propósito se escribe como
Yi = β0 + β1 ln(Xi ) + i ,
91
el cual estimamos de la siguiente manera:
Ŷi = βˆ0 + βˆ1 ln(Xi ) + î .
Teniendo como resultado el modelo lineal:
Yi = β0 + β1 Xi∗ + i .
Los parámetros son estimados por mínimos cuadrados ordinarios:

P ∗ P ∗P
Xi Yi − n1 X Yi
β̂1 = P ∗2 1 P i ∗ 2
X i − n ( Xi )
ln(Xi )Yi − n1
P P P
ln(Xi ) Yi
= .
ln (Xi ) − n1 ( lnXi )2
P 2 P
βˆ0 = Ȳ − X̄ ∗ β̂1
1X 1X
= Yi − (lnXi )β̂1 .
n n
Las varianzas de estos estimadores están dadas por
σ̂ 2
V ar(βˆ1 ) = P 2 .
Xi∗ − n1 ( i Xi∗ )2
P
i
2
Xi∗ σ̂ 2
P
V ar(βˆ0 ) = P 2
i
.
Xi∗ − n1 ( i Xi∗ )2
P
i
Finalmente, los intervalos quedan en la forma:
q q
ˆ ˆ ˆ
β1 ∈ β1 − Z1− α2 V ar(β̂1 ) , β1 + Z1− α2 V ar(β1 ) .
q q
β0 ∈ βˆ0 − Z1− α2 V ar(β̂0 ) , βˆ0 + Z1− α2 V ar(β̂0 ) .
Ejemplo 5.2 Thurber Son datos de un estudio NIST de movilidad de electrones

en semiconductores la variable respuesta es la movilidad del electrón y la variable
regresora es el logaritmo de la densidad
> Movilidad=Y = c(80.574, 84.248, 87.264, 87.195, 89.076,

89.608, 89.868, 90.101, 92.405, 95.854, 100.696, 101.06,
401.672, 390.724, 567.534, 635.316, 733.054, 759.087,
894.206, 990.785, 1090.109, 1080.914, 1122.643, 1178.351,
92
1260.531, 1273.514, 1288.339, 1327.543, 1353.863, 1414.509,
1425.208, 1421.384, 1442.962, 1464.35, 1468.705, 1447.894,
1457.628)
> Densidad=X = c(0.047, 0.051, 0.054, 0.054, 0.058, 0.061,
0.067, 0.067, 0.072, 0.084, 0.094, 0.098, 0.223, 0.232,
0.280, 0.298, 0.333, 0.351, 0.401, 0.490, 0.568, 0.580,
0.670, 0.734, 0.897, 0.902, 1.010, 1.126, 1.458, 2.203,
2.620, 2.735, 3.050 ,4.816, 6.303, 7.745, 9.025)
Realizamos un diagrama de dispersión de las variables en estudio.
>plot(X,Y)
En el diagrama de dispersión notamos un comportamiento de tipo logarítmico, rea-

lizamos una prueba formal de independencia lineal entre las variables
> cor.test(X,Y)
data: X and Y
t = 4.9354, df = 35, p-value = 1.949e-05
93
0.3994982 0.7988094
sample estimates:
cor
0.6405953
Tenemos un p − valor < 0.05 por tanto se rechaza la hipótesis de independencia

lineal entre las variables, por tanto ajustamos un modelo lineal.
> mod=lm(Y∼X)
> summary(mod)
Call:
lm(formula = Y ∼ X)
Residuals:
-586.92 -481.26 24.53 432.94 580.72
Coefficients:
(Intercept) 561.83 85.04 6.606 1.24e-07
***
X 164.29 33.29 4.935 1.95e-05
***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
> AIC(mod)
559.2823
Para el modelo lineal tenemos parámetros altamente significativos un R2 = 0.41

y un AIC = 559.28, ahora realizamos las pruebas de validación de supuestos del
modelo, ahora verificamos los supuestos de este modelo.
94
> library(car)
> library(lmtest)
data: resid(mod)
W = 0.8388, p-value = 8.708e-05
Breusch-Pagan test
data: mod
BP = 0.0014, df = 1, p-value = 0.9707
1 0.9270335 0.05961193 0
Para las pruebas de validación tenemos que no existe normalidad en la distribución

de lo errores del modelo, ademaás existe dependencia entre los errores. Por tanto
como observamos un comportamiento Logarítmico el la dispersión ajustamos un
modelo de este tipo.
> X1=log(X)
> mod1=lm(Y ∼ X1)
> summary(mod1)
Call:
lm(formula = Y ∼ X1)
Residuals:
-356.88 -95.45 -3.73 153.15 234.49
Coefficients:
(Intercept) 1073.76 30.09 35.68 <2e-16 ***
X1 336.71 16.66 20.21 <2e-16 ***
95
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
> AIC(mod1)
484.8806
data: resid(mod1)
W = 0.9558, p-value = 0.1481
Breusch-Pagan test
data: mod1
BP = 1.1742, df = 1, p-value = 0.2785
1 0.8806276 0.09656477 0
Para el modelo Logarítmico se tiene que los parámetros son altamente significati-
vos y este cumple con todos los supuestos,a demás tenemos un R2 = 0.921 y una
minimización en el AIC.
> plot(X,Y,main=.Ajuste",xlab="Densidad",ylab="Movilidad")
>curve(coef(mod1)[1]+coef(mod1)[2]*log(x),add=T,col="black",type="l")
> abline(lm(Y∼X),lty=2)
> legend(5,1000,c("Modelo Lin-Log","Modelo lineal") ,
pt.bg="gray01", lty=c(1,2), col =c("black","black"))
96
En el gráfico anterior se observa que el modelo logarítmico ajusta mejor a la nube
de puntos que el lineal.
5.1.3. Modelos Potenciales (log-log)
Es un modelo cuya forma viene dada por:
Yi = β0 Xiβ1 i
El cual estimamos de la siguiente manera.
Ŷ = β̂0 X β̂1
Para la linealización de este modelo tomamos logaritmo a ambos lados de la igualdad

y obtenemos lo siguiente.
ln(Ŷ ) = ln(β̂0 ) + β̂1 ln(X)
Teniendo como resultado el modelo lineal.
Ŷ ∗ = β̂0∗ + β̂1 X ∗
Con Y ∗ = ln(Y ), β0∗ = ln(β0 ) y X ∗ = ln(X)

Estimación de parámetros por Mínimos cuadrados ordinarios.
97
Xi∗ Yi∗ − Xi∗ Yi∗
P P P
β̂1 =
n[ Xi∗2 − ( Xi∗ )2 ]
P P
1
P P P
i (lnXi )(lnYi ) − n i ln(Xi ) i lnYi
β̂1 = P 2 1
P 2
[ ln (Xi ) − n ( i lnXi ) ]
Ahora se tiene que:
β̂0∗ = Ȳ ∗ − X̄ ∗ β̂1
1X 1X
= ln(Yi ) − ln(Xi )βˆ1
n i n i
Entonces " #
1X 1X
β̂0 = exp β0∗ = exp ln(Yi ) − ln(Xi )βˆ1
n i n i
1X 1X
= exp ln(Yi ) exp − ln(Xi )βˆ1
n i n i
" # n1 " #− n1 β̂1
X X
= exp ln(Yi ) exp ln(Xi )
i i
" n
# n1 " n
#− n1 β̂1
Y Y
= Yi Xi
i=1 i=1
" Q # n1
n
i=1 Yi
β̂0 =
β̂
( ni=1 Xi ) 1
Q
Así los intervalos nos quedan:
Con σ̂ 2 = V ar(Yi∗ ) = V ar(lnYi )
σ̂ 2
V ar(βˆ1 ) = P 2
Xi∗ − n1 ( i Xi∗ )2
P
i
σ̂ 2
V ar(βˆ1 ) = P 2 1
P 2
i ln (Xi ) − n ( i lnXi )
P ∗2 2
ˆ X σ̂
V ar(β0 ) = P ∗2 i 1i P ∗ 2
∗
i Xi − n ( i Xi )
Luego.
q q
β1 ∈ βˆ1 − Z1− α2 V ar(β̂1 ) , βˆ1 + Z1− α2 V ar(β̂1 )
98
q q
β0∗ ˆ∗ ∗ ˆ∗ ∗
∈ β0 − Z1− α2 V ar(β̂0 ) , β0 + Z1− α2 V ar(β̂0 )
q q
ˆ∗ ∗ ˆ∗ ∗
β0 ∈ exp β0 − Z1− α2 V ar(β̂0 ) , exp β0 + Z1− α2 V ar(β̂0 )
En los modelos Potenciales se pueden observar los siguientes comportamientos.
Ejemplo 5.3 La presión (Y ) y el volumen (X ) en un tipo de gas están ligados por

una ecuación del tipo
Y = β0 X β 1
siendo β0 y β1 dos parámetros desconocidos. A partir de sucesivas experiencias en

el laboratorio, se han recogido los siguientes datos:
> Y=c(0.5,1,1.5, 2, 2.5, 3)

> X=c(1.65,1.03,0.74,0.61,0.53,0.45)
> plot(X,Y)
99
> mod=lm(Y∼X);summary(mod)
Call:
Residuals:
1 2 3 4 5 6
0.2997 -0.3792 -0.4306 -0.1778 0.1700 0.5179
Coefficients:
(Intercept) 3.3378 0.4014 8.316 0.00114 **
X -1.9015 0.4317 -4.405 0.01165 *
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Ajustando un modelo lineal, tenemos parámetros altamente significativos y un R2 =

0.829 lo cual nos dice que la variable regresora explica aproximadamente el 83 % de
la variabilidad total de la variable de respuesta, ahora relizaremos las pruebas de
validación del modelo.
100
> library(car)
> library(lmtest)
data: resid(mod)
W = 0.9238, p-value = 0.533

Breusch-Pagan test
data: mod
BP = 0.0407, df = 1, p-value = 0.8401
1 0.246106 1.02899 0.008
Tenemos que modelo no cumple con el supuesto de independencia entre los errores,
ya que esta prueba arroja un p − valor inferior a 0.05
Se hace el ajuste del modelo potencial.
> Y1=log(Y)
> X1=log(X)
> plot(X1,Y1,ylab="log(Presion)",xlab="log(Volumen)")
> mod1=lm(Y1∼X1);mod1
Call:
lm(formula = Y1 ∼ X1)
Coefficients:
(Intercept) X1
0.01190 -1.38300
> summary(mod1)
Call:
101
lm(formula = Y1 ∼ X1)
Residuals:
1 2 3 4 5 6
-0.012480 0.028977 -0.022864 -0.002365 0.026355 -0.017622
Coefficients:
(Intercept) 0.01190 0.01223 0.973 0.386
X1 -1.38300 0.02348 -58.895 4.98e-07 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
F-statistic: 3469 on 1 and 4 DF, p-value: 4.977e-07
Haciendo el ajuste log-log tenemos parámetros altamente significativos y el coefi-

ciente de determinación aumento considerablemente a 0.99, realizaremos las pruebas
de validación de los supuestos del modelo.
> library(car)
> library(lmtest)
data: resid(mod1)
W = 0.8576, p-value = 0.1811

Breusch-Pagan test
data: mod1
BP = 0.6018, df = 1, p-value = 0.4379
1 -0.591901 2.999413 0.4
102
Tenemos que el modelo cumple con todos los supuestos, ya que, todas las pruebas
arrojan p − valores superiores a 0.05
> plot(X,Y, main=.Ajuste ",xlab="Volumen",ylab="Presion")

>curve(exp(coef(mod1)[1])*x^coef(mod1)[2],add=T,col="black",type="l")
> abline(lm(Y X),lty=2)
> legend(1,3,c("Modelo Potencial","Modelo lineal") ,
pt.bg="white", lty=c(1,2), col =c("black","black"))
Gráfica de ajuste.
En el gráfico anterior notamos que el modelo potencial se ajusta mejor a la nube de

puntos.
Parámetros originales
> b0=exp(coef(mod)[1]);b0
(Intercept)
28.15602
> b1=coef(mod)[2];b1
X
-1.901510
103
Recuperando los parámetros originales tenemos que el modelo ajustándose: Y =
28.15X −1.9
Intervalos de lo parámetros
> IC=confint(mod1);IC
2.5 % 97.5 %
(Intercept) -0.02205160 0.04585684
X1 -1.44819265 -1.31779737
> Ib0=exp(IC[1,]);Ib0
2.5 % 97.5 %
0.9781898 1.0469245
> Ib1=IC[2,];Ib1
2.5 % 97.5 %
-1.448193 -1.317797
Predichos
> Y1est=predict(mod1);Y1est
> Yest=exp(Y1est);Yest
5.1.4. Modelo inverso

1
Y i = β0 + β1 + i
Xi
El cual podemos estimar de la siguiente manera.

1
Ŷi = βˆ0 + βˆ1 + î
Xi
Donde la linealización de este modelo es la siguiente.
∗
Ŷi = βˆ0 + βˆ1 Xi∗ + î
1
Con Xi∗ =
Xi
βˆ0 = Ŷ − X̄ ∗ βˆ1
104
1X 1X 1
= Yi − β̂1
n n X
Xi∗ Yi − n1
P P ∗P
X (Yi )
β̂1 = P ∗2 1 P i ∗ 2
Xi − n ( Xi )
1 1
P 1 P
Xi
Y i − n Xi
Yi
=P 1 2 1
P 1 2
( Xi ) − n [ ( Xi )]
P ∗2 2
X σ̂
V ar(β̂0 ) = P ∗ 2 i1 P
Xi − n ( Xi ) 2
σ̂ 2
V ar(β̂0 ) = P
Xi∗ 2 − n1 ( Xi )2
P
Así un intervalo de confianza.

q q
α ˆ ˆ α
2 ˆ
β0 ∈ β̂0 − Z1− 2 V ar(β0 ) , β0 + Z1− 2 σ̂ V ar(β0 )
q q
ˆ ˆ ˆ
β1 ∈ β̂1 − Z1− α2 V ar(β1 ) , β1 + Z1− α2 V ar(β1 )
En el modelo inverso se pueden observar los siguientes comportamientos.
Ejemplo 5.4 Estos son datos de 64 países respecto a la mortalidad infantil (MI) Y
PIB per cápita (PIBPC). Ver anexo 1
105
> mortalidad<-read.csv2(file.choose())
> attach(mortalidad)
> Y=mortalidad[,1]
> X=mortalidad[,3]
> plot(X,Y)
> mod=lm(Y∼X);summary(mod)
Call:
Residuals:
-113.764 -53.111 -6.685 48.064 157.758
Coefficients:
(Intercept) 157.424441 9.845583 15.989 < 2e-16 ***
X -0.011364 0.003233 -3.516 0.000826 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
106
Realizando el ajuste lineal tenemos parámetros altamente significativos, pero tene-

mos un coeficiente de determinación R2 = 0.166 el cual es muy bajo, realizaremos
las pruebas de validación de los supuestos del modelo
> library(car)
> library(lmtest)
data: resid(mod)
W = 0.9689, p-value = 0.1063

Breusch-Pagan test
data: mod
BP = 3.8138, df = 1, p-value = 0.05083
1 0.03402544 1.931458 0.78
Tenemos que el modelo lineal satisface todos los supuestos, pero debido al coeficiente
de determinación pequeño y al comportamiento que se observa en el diagrama de
dispersión ajustaremos un modelo inverso
Ajustamos un modelo inverso.
> mod1=lm(Y∼I(1/X))
summary(mod1)
Call:
lm(formula = Y ∼ I(1/X))
107
Residuals:
-130.806 -36.410 2.871 31.686 132.801
Coefficients:
(Intercept) 81.79 10.83 7.551 2.38e-10 ***
I(1/X) 27273.17 3760.00 7.254 7.82e-10 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Para este modelo tenemos parámetros altamente significativos y aumentamos el

coeficiente de determinación a 0.459, verificaremos los supuestos para este modelo.
data: resid(mod1)
W = 0.9869, p-value = 0.734

Breusch-Pagan test
data: mod1
BP = 0.1338, df = 1, p-value = 0.7145
1 0.0174382 1.959368 0.876
Este modelo satisface todos los supuestos, ya que todas las pruebas arrojan p −
valores superiores a 0.05, ahora realizaremos diagnósticos para este modelo, con el
fin de lograr un aumento en el R2
108
> influence.measures(mod1)
> p=2
> n=length(Y) is
> par(mfrow=c(2,3))
> plot(mod1,which=4,main=,lwd=3,col="black")# Grafico de la
distancia de cooks
> abline(h=1,col="black",lwd=3)
> plot(hatvalues(mod1),type="h",lwd=5) # Grafico para los
hii
> abline(h=2*p/n,col="black",lwd=5)
> plot(dffits(mod1),type="h",lwd=3,ylab="DFFITS")
> abline(h=c(-2*sqrt(p/n),2*sqrt(p/n)),col="black",lwd=3)
> plot(dfbetas(mod1)[,1],type="h",lwd=3,ylab="DFBETAS para
el intercepto")
> abline(h=c(-2/sqrt(n),2/sqrt(n)),lwd=3,col="black")
> plot(dfbetas(mod1)[,2],type="h",lwd=3,ylab="DFBETAS para
X")
> abline(h=c(-2/sqrt(n),2/sqrt(n)),lwd=3,col="black")
> plot(covratio(mod1),lwd=3,type="h",ylab=Çovratio")
> abline(h=1,col="black",lwd=3)
109
Gráfica de influencias.
Eliminación de observaciones
Analizando todas las medidas de diagnóstico, eliminaremos las observaciones 2, 9, 10, 41, 52, 54.
> Y1=Y[-c(2,9,10,41,52,54)]
> X1=X[-c(2,9,10,41,52,54)]
> mod2=lm(Y1∼I(1/X1));mod2
Call:
lm(formula = Y1 ∼ I(1/X1))
Coefficients:
(Intercept) I(1/X1)
64.56 39851.12
Call:
lm(formula = Y1 ∼I(1/X1))
Residuals:
110
-74.416 -30.713 -5.766 32.186 86.988
Coefficients:
(Intercept) 64.555 9.479 6.811 7.11e-09 ***
I(1/X1) 39851.123 4079.218 9.769 1.06e-13 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
data: resid(mod2)
W = 0.9682, p-value = 0.1321

Breusch-Pagan test
data: mod2
BP = 1.6191, df = 1, p-value = 0.2032
1 -0.07464186 2.132870 0.614
Eliminando las observaciones antes mencionadas obtenemos parámetros altamente

significativos, el modelo cumple con todos los supuestos requeridos y además tenemos
un aumento en el coeficiente de determinación R2 = 0.63
> plot(X1,Y1,xlab="Mortalidad",ylab="Tasa de
alfabetismo",main=.Ajuste")
111
> curve(coef(mod2)[1]+mod2$coef[2]/x,add=T
+ ,col="black")
> abline(lm(Y1 X1),lty=2)
> legend(12000,300,c("Modelo Inverso","Modelo lineal") ,
pt.bg="gray01", lty=c(1,2), col =c("black","black")
Gráfica de ajuste.
Observando el gráfico anterior notamos que el modelo inverso ajusta mejor que el
lineal.
112
Apéndice A
Estadística descriptiva
Definicion A.1
La estadística descriptiva se encarga de analizar series de datos (por ejemplo, edad de

una población, altura de los estudiantes de una escuela, temperatura en los meses
de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas
variables.
Las variables pueden ser de dos tipos:
Variables cualitativas o atributos: No se pueden medir numéricamente

(por ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: Tienen valor numérico (edad, precio de un produc-

to, ingresos anuales).
Las variables también se pueden clasificar en:
Variables unidimensionales: Sólo recogen información sobre una caracte-

rística (por ejemplo: edad de los alumnos de una clase).
Variables bidimensionales: Recogen información sobre dos características

de la población (por ejemplo: edad y altura de los alumnos de una clase).
Variables pluridimensionales: Recogen información sobre tres o más ca-

racterísticas (por ejemplo: edad, altura y peso de los alumnos de una clase).
113
A.1. Conceptos básicos
Damos, en primer lugar, algunas definiciones básicas de interés general y que nos
ayudarán a clasificar los tipos datos que se nos presenten.
Población: Conjunto sobre el cual se va a realizar la investigación. Está com-

puesta por elementos. Puede ser de tamaño finito o infinito.
Muestra: Subconjunto de la población del que se dispone de información

necesaria para realizar el estudio.
Caracteres: Cualidades o propiedades de los elementos de una población que

son objeto del estudio. Atendiendo a que sean o no medibles, los caracteres
se pueden clasificar en cuantitativos (o variables) y cualitativos (o atributos).
Las variables cuantitativas pueden ser a su vez discretas o continuas.
A.2. Representaciones gráficas

Histograma: Se utiliza en el caso de las tablas. Se construye el gráfico repre-
sentando en el eje horizontal los intervalos de clase y elevando sobre cada uno
de ellos un rectángulo cuya área ha de ser proporcional a su frecuencia.
Gráfico circular o de sectores: Es otro método empleado con frecuencia

para datos cualitativos, en el que un círculo representa el total, y un segmento
o porción del pastel es la proporción o porcentaje de cada categoría de la
variable
114
Gráfico circular o de sectores.
Gráfico de dispersión: Es un gráfico donde se muestran dos variables cuan-

titativas, una en el eje x y otro en el y, mostrando los valores mediante puntos
o símbolos
Gráfico de dispersión.
Polígono de frecuencias: Se construye una curva uniendo los puntos medios

de los lados superiores de cada rectángulo del histograma.
115
Diagrama de barras: Se utiliza para variables cualitativas y cuantitativas
discretas, y se construyen de forma similar al histograma, pero las barras están
separadas entre s´(indicando que la variable no ocupa todo el eje de abscisas,
precisamente por ser discreta o cualitativa)
Diagrama de barras.
Diagramas de tallos y hoja: Permite obtener simultáneamente una distri-

bución de frecuencias de la variable y su representación gráfica.
116
Diagramas de tallos y hoja
Gráfica de caja y bigotes: En está gráfica los datos se dividen en cuatro

intervalos de igual frecuencia. La parte ancha, llamada Caja, contiene el 50 %
central de los datos de la variable. Comienza en el primer cuartil y termina
en el tercer cuartil. La muesca de la caja marca la mediana (la definición
de mediana y de cuartil se verá más adelante en el apartado de medidas de
posición).
Gráfica de caja.
Diagrama de Pareto: También llamado curva cerrada, es una gráfica para

organizar datos de forma que estos queden en orden descendente, de izquierda
a derecha y separados por barras.
117
Diagrama de Pareto.
A.3. Medidas de posición

Suponemos los datos ordenados de menor a mayor. Las medidas de posición carac-
terizan ciertos datos por la posición que ocupan en esta serie. Entre las medidas de
posición tenemos la siguiente:
Mediana: Definimos la mediana como aquel valor que hace que el 50 % de las
observaciones sean menores o iguales a él y otro 50 % mayor o igual que él.
Si el número total de observaciones es n, y ordenamos los datos de menor a
mayor, la mediana será la que ocupe el lugar n+1
2
, si n es impar, o estará entre
los valores n
2
y n
2
+ 1 si n es par. En este caso la mediana se obtiene como la
semisuma de estos dos valores centrales
A.3.1. Medidas de posición no central
Definimos ahora otras medidas de posición que dividen la muestra en partes

de distinta frecuencia. Reciben el nombre genérico de cuantiles. Destacaremos
los cuartiles, deciles y percentiles.
Cuartil n, Qn : Con (n = 1, 2, 3), es aquel valor que hace que las n cuartas
partes de las observaciones sean menores o iguales a él y el resto mayores o
iguales. El segundo cuartil coincide con la mediana.
118
decil n, Dn : Con (n = 1, 2, · · · , 9) es aquel valor que hace que las n décimas
partes de las observaciones sean menores o iguales a él y el resto mayores o
iguale
Percentil n, Pn : Con (n = 1, 2, · · · , 99) es aquel valor que hace que las n

centésimas partes de las observaciones sean menores o iguales a él y el resto
mayores o iguales.
A.3.2. Medidas de posición central
Las medidas de posición central pretenden ser representantes o ejemplos ilus-

trativos del tamaño de los datos contenidos en la muestra. La mediana es la
única medida de posición central propiamente dicha. No obstante la media y
la moda, toman con frecuentemente valores parecidos a la mediana y se suelen
conocer también como medidas de posición central.
Media:La media se define como el cociente entre la suma de todos los valores
y el número total de elementos de la muestra.
Pn
xi
X = i=1
n
No obstante, si los datos están repetidos, hay n elementos en la muestra pero
sólo hay k elementos diferentes cada uno de los cuales aparece con una fre-
cuencia ni , se puede obtener también la media por medio de las expresiones
siguientes: Pk
n i ∗ xii=1
X=
n
Pk k
ni X
X = i=1 xi = f i ∗ xi
n i=1
Moda: Es el valor que presenta una mayor frecuencia. Para Variables conti-
nuas se tiene la siguiente formular
fi − fi−1
Mo = Li + ai ,
(fi − fi−1 ) + (fi − fi+1 )
donde Li es el límite inferior de la clase modal.
119
fi es la frecuencia absoluta de la clase modal.
fi−1 es la frecuencia absoluta inmediatamente inferior a la clase modal.
fi−1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
ai es la amplitud de la clase.
A.4. Medidas de dispersión
Pretenden dar una idea sobre si los datos son muy parecidos entre sí o por el
contrario están dispersos, es decir, son bastante distintos unos de otros.
Rango: Es la diferencia entre el valor máximo y el mínimo de la variable.
R = X(n) − X(1) = M ax − M in
Rango intercuartílico: Es la distancia entre el primer y tercer cuartil.
varianza muestral: Esta medida cuantifica las distancias de los datos con
respecto al valor de la media muestral
Pn
2 (xi − x)2
S = i=1
n−1
desviación estándar: Es la raíz cuadrada de la varianza. La desviación es-

tándar o desviación típica está expresada en las mismas unidades de medida
que los datos de la muestra.
√
S= S2
Coeficiente de Variación: Se define como

S
CV =
x
El cual es un número que se usa para comparar la variabilidad de los datos de
diferentes grupos .Es una medida unidimensional
120
A.5. Medidas de forma
permiten conocer que forma tiene la curva que representa la serie de datos de
la muestra. En concreto, podemos estudiar las siguientes características de la
curva:
Concentración: Mide si los valores de la variable están más o menos unifor-

memente repartidos a lo largo de la muestra.
Asimetría: Mide si la curva tiene una forma simétrica, es decir, si respecto al

centro de la misma (centro de simetría) los segmentos de curva que quedan a
derecha e izquierda son similares.
Curtosis: Mide si los valores de la distribución están más o menos concentra-

dos alrededor de los valores medios de la muestra.
121
Apéndice B
Estadística inferencial
B.1. Introducción
La Inferencia Estadística es la parte de la estadística que se encarga de deducir
características de la población a partir de los resultados obtenidos en muestras de
esta población. Las decisiones se basan en la información contenida en muestras ex-
traídas de ella. En muchas circunstancias hay que tomar decisiones basándose sólo
en la información contenida en una muestra: Un gerente de Marketing debe deter-
minar si una nueva estrategia de mercado aumentará las ventas. Para ello se basará
fundamentalmente en encuestas realizadas a unos cuantos clientes potenciales, etc.
Para adoptar estas decisiones se toma toda la información posible de la muestra
seleccionada y se estudia, en términos de probabilidad, el grado de fiabilidad de
las decisiones adoptadas. Podemos distinguir de modo general dos grandes métodos
dentro de la Inferencia Estadística.
Métodos Paramétricos: Se supone que los datos provienen de una familia de dis-
tribuciones conocida como Normal, Binomial, Poisson, entre otras y que lo único
que se desconoce es el valor exacto de alguno de los parámetros que la definen co-
mo lo son µ y σ para la Normal, λ para la Poisson, entre otras. Se pueden hacer
inferencias acerca de los parámetros poblacionales de dos maneras. Dando valores
aproximados para los parámetros (estimación) o tomando decisiones con respecto a
ellos (Contrastes de Hipótesis).
122
Métodos no Paramétricos: No suponen conocida la distribución, y solamente
suponen hipótesis muy generales respecto a las mismas. Estos métodos se aplican
en los tests de bondad de ajuste, que prueban la distinción de los datos a ciertos
modelos de distribuciones teóricas, los test de independencia, entre otros.
B.2. Estimación
La Estimación de parámetros de interés, se puede presentar de dos formas: estima-
ción puntual y estimación por intervalo. Estimación puntual. Se basa en la informa-
ción contenida en una muestra aleatoria tomada de la población objeto de estudio
para llegar a un valor o número que estima al parámetro en cuestión. La estima-
ción por intervalo utiliza la información contenida en la muestra para llegar a un
intervalo donde se tiene un límite inferior y un límite superior denominado interva-
lo de confianza (I.C.) calculado con un cierto nivel de confiabilidad que puede ser
del 90 %, 95 % o del 99 % que son los más usuales. Esta confiabilidad la decide el
investigador según sea el tipo de investigación o experimento que está realizando.
Así, la estimación por intervalo ofrece una mayor información sobre el parámetro en
estudio.
En realidad, cuando realizamos una estimación puntual, nos damos cuenta que es
muy difícil que esta estimación sea realmente el verdadero valor del parḿetro des-
conocido.
B.3. Estadísticos y Estimadores

Un estadístico es una función de los elementos de la muestra. Si tenemos una pobla-
ción en la que estamos observando una característica que se distribuye según una
variable aleatoria X, y consideramos una muestra aleatoria simple X1 , X2 , . . . , Xn
de tamaño n podemos calcular el siguiente estadístico,
X1 , X2 , . . . , Xn
X̄ =
n
Evidentemente, el valor del estadístico dependerá de los valores que hayan tomado
los elementos de la muestra. Si repetimos el experimento de tomar una muestra
123
y calculamos de nuevo el valor del mismo estadístico, obtendremos, por lo general,
otro valor distinto. Tenemos por tanto que el estadístico es una variable aleatoria. La
distribución que seguirá dicha variable aleatoria dependerá de la distribución de la
variable X. En determinados casos podremos calcular la distribución del estadístico.
Un estimador de un parámetro poblacional es un estadístico que se utiliza para
obtener un valor aproximado de ese determinado parámetro de la población. Por
ejemplo, la media muestral es el estadístico que suele usarse más frecuentemente
para estimar la media poblacional. Entonces, la media muestral es un estimador de
la media poblacional. La mediana y la moda son también estimadores de la media
poblacional. Para indicar que T es un estimador del parámetro poblacional θ se
indicará como T = θ; El valor que toma este estimador en la muestra concreta que
estamos considerando es una estimación del parámetro desconocido.
B.4. Propiedades de los estimadores

Siempre queremos que los estimadores, al menos en promedio, se parezcan al pa-
rámetro que se quiere estimar. También es conveniente que no fluctúen demasiado
con las distintas muestras y que mejoren si aumentamos el tamaño de ésta. Estas
condiciones son las qué están formuladas en las siguientes definiciones.
Insesgado: Una de las propiedades que con más frecuencia se le exige a los es-
timadores es que sean insesgados. Decimos que T es un estimador insesgado del
parámetro α si para cualquier tamaño muestral se cumple que,
E(T ) = θ
Eficiencia de dos estimadores: Si tenemos dos estimadores T1 y T2 de un pará-

metro θ, decimos que T1 es más eficiente que T2 si para cualquier tamaño muestral
se verifica que,
V ar(T1 ) ≤ V ar(T2 )
Entre dos estimadores posibles sería preferible el más eficiente.

Consistencia de un estimador: Diremos que un estimador es consistente si cum-
124
ple las siguientes condiciones,
lı́m E(T ) = θ y lı́m V ar(T ) = 0

n→∞ n→∞
donde n es el tamaño de la muestra.

Estimadores insesgados de la media y la varianza: Para una variable aleatoria
X, con media µ y varianza σ, un estimador insesgado de la media poblacional es,
µ̂ = X
y un estimador insesgado de la varianza es:
Pn
− X)2
i=1 (Xi
σ̂ = Sn2 =
n−1
Es decir, la media muestral es un estimador insesgado de la media poblacional y la
cuasivarianza muestral es un estimador insesgado de la varianza poblacional.
B.5. Distribución de los estadísticos muestrales

Cuando se realiza una estimación por medio de intervalos de confianza se da un
grado de confianza. Este valor se basa en la proporción de muestras en las que el
parámetro que se desea estimar quedaría dentro del intervalo de confianza dado.
Para calcular esta proporción es necesario conocer la distribución del estimador
en el muestreo. Con el propósito de conocer el grado de confianza asociado a las
estimaciones por intervalo de la media y de la varianza poblacionales son útiles los
siguientes resultados.
B.5.1. Resultados principales
Definicion B.1 Una muestra aleatoria es una sucesión finita de variables alea-
torias independientes e idénticamente distribuidas X1 , X2 , . . . , Xn . De manera más
general una sucesión de variables aleatorias X1 , X2 , . . . , independientes y con idénti-
ca distribución, también se denomina muestra aleatoria. En el caso de una sucesión
finita, el valor n recibe el nombre de tamaño de la muestra o tamaño muestral.
125
Definicion B.2 El modelo probabilístico que rige el comportamiento de una esta-
dística o de un estimador se denomina distribución muestral de la respectiva
estadística o del respectivo estimador.
Teorema B.1 Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con

distribución Normal de valor esperado µ y varianza σ 2 , entonces
σ2

X n ∼ N µ, .
n
En particular
µX n = µ = E(X n ) (media de X n )
2
2 σ
σX = = V (X n ) (varianza de X n )
n
n
σ
σX n = √ (desv. est. de X n ).
n
Teorema B.2 Si X1 , X2 , . . . , Xn es una sucesión de variables aleatorias indepen-
dientes tales que Xi ∼ N (µi , σi2 ), entonces
n 2
X Xi − µi
U= ∼ χ2 (n).
i=1
σi
Cuando la sucesión de variables aleatorias constituyen una muestra aleatoria de una

población con distribución Normal, de valor esperado µ y varianza σ 2 ,
n 2
X Xi − µ
U= ∼ χ2 (n).
i=1
σ
Teorema B.3 Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con

distribución Normal de valor esperado µ y varianza σ 2 , entonces las estadísticas X n
y Sn2 son dos variables aleatorias estadísticamente independientes.
Teorema B.4 Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población Normal

de valor esperado µ y varianza σ 2 , entonces
n
X (Xi − X n )2 (n − 1)Sn2
= ∼ χ2 (n − 1).
i=1
σ2 σ 2
Teorema B.5 Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población Normal

de valor esperado µ y varianza σ 2
X̄ − µ
T = √ ∼ t(n−1) .
σ2/ n
126
B.6. Intervalos de confianza (I.C.)
Indudablemente que la construcción de tales intervalos implica que la probabilidad
que éste contenga el valor del parámetro de interés, digamos θ, debe ser alta, tal
probabilidad es conocida como nivel de confianza dado por 100(1 − α) %,donde 1 − α
es denominado coeficiente de confianza; los valores más usados de α son 0.1, 0.05,
0.01. donde α es el nivel de significancia o probabilidad del error tipo I.
Por la misma definición de lo que es un intervalo, se necesitan dos estadísticas k1 y
k2 tal que la condición de que P [k1 ≤ θ ≤ k2 ] = 1 − α sea cierta. Las estadísticas
k1 y k2 son estimadas a partir de una muestra aleatoria. El intervalo k1 ≤ θ ≤ k2
recibe el nombre de intervalo de confianza al 100(1 − α) % para el parámetro θ. Se
describirán ahora los casos más usuales para este tipo de estimación.
B.6.1. Intervalos de confianza para la media poblacional
Varianza conocida: Un I.C. al 100 (1 − α) % de confiabilidad para la media pobla-

cional µ, para σ 2 conocida, se construye de la siguiente forma. Sea P la probabilidad
que el intervalo contenga a µ, entonces se tiene que:

Y −µ
P −Z1− α2 ≤ √ ≤ Z1− α2 = 1 − α, (B.1)
σ/ n
Despejando µ en ambas desigualdades, se obtiene:
√ √
(B.2)

P Y − Z1− α2 σ/ n ≤ µ ≤ Y + Z1− α2 σ/ n = 1 − α.
Es decir, el intervalo de confianza para la media poblacional µ al 100(1 − α) % de

confiabilidad viene dado por:
√ √
Y − Z1− α2 σ/ n ≤ µ ≤ Y + Z1− α2 σ/ n. (B.3)
Varianza desconocida Un I.C. al 100 (1 − α) % de confiabilidad para la media

poblacional µ, para σ 2 desconocida, se construye de la siguiente forma. Sea P la
probabilidad que el intervalo contenga a µ, entonces se tiene que:

Y −µ
P −t1− α2 ,n−1 ≤ √ ≤ t1− α2 ,n−1 = 1 − α, (B.4)
S/ n
127
Despejando µ en ambas desigualdades, se obtiene:
h √ √ i
P Y −t (1− α
2
,n−1) S/ n ≤ µ ≤ Y + t(1− 2 ,n−1) S/ n = 1 − α.
α (B.5)
Es decir, el intervalo de confianza para la media poblacional µ al 100(1 − α) % de

confiabilidad viene dado por:
√ √
Y − t(1− α2 ,n−1) S/ n ≤ µ ≤ Y + t(1− α2 ,n−1) S/ n. (B.6)
B.6.2. Intervalos de confianza para la varianza
Cuando la media de la poblacional es desconocida. Los intervalos de confianza para

2
la varianza se basan en la distribución del estadístico (n−1)Sn
σ 2 ∼ χ2(n−1) , si la variable
de partida es una normal; luego para obtener un intervalo de confianza partimos de
la relación
(n − 1)Sn2

P a≤ ≤ b = 1 − α, (B.7)
σ2
Por tanto, si denotamos por a y b los valores chi2 (n − 1) respectivamente
a = χ2(n−1), α y b = χ2(n−1),1− α (B.8)

2 2
obtenemos
(n − 1)Sn2

2
P χ(n−1), α ≤ 2
≤ χ(n−1),1− α = 1 − α (B.9)
2 σ2 2
Despejando σ 2 , Se tiene que el intervalo de confianza para la varianza σ 2 al

100(1 − α) % de confiabilidad viene dado por:
(n − 1)Sn2 (n − 1)Sn2
≤ σ 2
≤ (B.10)
χ2(n−1),1− α χ2(n−1), α
2 2
B.6.3. Intervalo de confianza para la diferencia entre dos me-

dias poblacionales
Un I.C. al 100(1 − α) % para la diferencia µ1 − µ2 , donde σ12 y σ22 son desconocidas,

pero se consideran iguales (σ12 = σ22 ) se construye en forma similar al caso de una
población, así, se tiene que la estadística

Y 1 − Y 2 − (µ1 − µ2 )
T = q ∼ tn1 +n2 −2 , (B.11)
Sp n11 + n12
128
entonces,
 
Y 1 − Y 2 − (µ1 − µ2 )
P −t(1− α2 ,n1 +n2 −2) ≤ q ≤ t(1− α2 ,n1 +n2 −2)  = 1 − α, (B.12)
Sp n11 + n12
osea que:
 q 
Y 1 − Y 2 − t(1− α2 ,n1 +n2 −2) Sp n11 + 1

n2
≤ µ1 − µ2 ≤
 
P  = 1 − α.
 
 q 
Y 1 − Y 2 + t(1− α2 ,n1 +n2 −2) Sp n11 + 1

n2
Es decir que el intervalo de confianza viene dado por:

r r
1 1 1 1
Y 1 − Y 2 −t1− α2 ,n1 +n2 −2 Sp + ≤ µ1 −µ2 ≤ Y 1 − Y 2 +t1− α2 ,n1 +n2 −2 Sp +
n1 n2 n1 n2
(B.13)
con s
(n1 − 1) S12 + (n2 − 1) S22
Sp = .
n1 + n2 − 2
Cuando σ12 6= σ22 entonces el intervalo de confianza viene dado por:
r 2 r 2
S1 S22 S1 S22
Y 1 − Y 2 − t(1− 2 ,v)
α + ≤ µ1 − µ2 ≤ Y 1 − Y 2 + t(1− 2 ,v)
α +
n1 n2 n1 n2
donde 2
S12 S22

+
n1 n2
v = 2 2 2 2 .
S1 S2
n1 n2
+
n1 − 1 n2 − 1
En poblaciones pareadas el intervalo de confianza se consigue realizando inicialmente
las diferencias di = xi −yi y posteriormente se obtiene el intervalo para estas diferen-
cias tal como en el caso para la media de una población, quedando este finalmente
expresado por:
Sd Sd
d − t(1− α2 ,n−1) √ ≤ µd ≤ d + t(1− α2 ,n−1) √ .
n n
B.7. Prueba de hipótesis

Una hipótesis estadística es una afirmación o conjetura acerca de los parámetros de
una población. Una prueba de hipótesis estadística, es el procedimiento utilizado
129
para juzgar a partir de una muestra sí la afirmación que se hace sobre el (los)
parámetro(s) de la población es factible. En toda prueba de hipótesis estadística se
distinguen dos tipos de hipótesis denominadas:
Hipótesis nula (H0 ): Es la hipótesis sometida a prueba por el investigador, por

lo general siempre lleva el signo igual en la escritura matemática.
Hipótesis alternativa (H1 ): Es la hipótesis que puede ser aceptada como cierta
si la hipótesis planteada se rechaza por ser poco probable que resulte verdadera.
Para dos poblaciones se puede estar interesado en probar alguna de las siguientes:
H0 : µ1 = µ2 vs H1 : µ1 < µ2 ,
H0 : µ1 = µ2 vs H1 : µ1 > µ2 ,
H0 : µ1 = µ2 vs H1 : µ1 6= µ2 .
Al efectuar una prueba de hipótesis pueden cometerse dos tipos de errores:
Error tipo I : ocurre cuando la hipótesis nula es rechazada siendo verdadera.
Error tipo II : ocurre cuando la hipótesis nula no es rechazada siendo falsa.
Las probabilidades de cometer uno de estos dos tipos de errores se simbolizan por:
α = P (error tipo I) = P (rechazar H0 | H0 es verdadera)
β = P (error tipo II) = P (no rechazar H0 | H0 no es verdadera) .
La potencia que tiene una prueba es la probabilidad de rechazar la hipótesis nula

dada una alternativa verdadera. Esta probabilidad se calcula como
P otencia = 1 − β,
la cual depende en parte del tamaño de muestra seleccionado.

Lo importante que el investigador debe tener en cuenta es que debe trata de con-
trolar la ocurrencia de estos dos tipos de errores, por esta razón es usual que se
tomen niveles de significancia o probabilidad α del 1 %, 5 % o 10 %. Finalmente el
investigador “aceptará H0 o H1 ” y hará la toma de decisiones, pero en ese momento
130
no sabrá si se comete un error tipo I o tipo II, dado que no se conoce el verdadero
valor del parámetro. Lo que si existe es una baja medida de la incertidumbre de que
se este tomando una decisión errada.
Pasos sugeridos para llevar a cabo una prueba de hipótesis:
1. Planteamiento de las hipótesis a probar.
2. Llevar a lenguaje estadístico la o las hipótesis a probar ,es decir, formular la

hipótesis nula o el valor paramétrico hipotético que se compara con el resultado
muestral, y la hipótesis alternativa la cual contradice a la hipótesis nula.
3. Especificación de un nivel de significancia, o máxima probabilidad de error tipo

I que el investigador está dispuesto a aceptar. Los más usuales son: α = 5 % =
0.05,
α = 1 % = 0.01 y α = 10 % = 0.1.
4. Elección y calculo de un estadístico de prueba, el cual depende del supuesto

de distribución de la población y de los parámetros que se están trabajando
(conjeturando).
5. Establecer el punto o los puntos críticos de la estadística de prueba de acuerdo

al nivel de significancia tomado, los cuales definen las zonas de rechazo y no
rechazo de la prueba. Si la hipótesis alternativa lleva el signo ” 6= ”, entonces
se dice que se tiene una prueba a dos colas (bilateral), en cuyo caso se tienen
dos puntos críticos y por lo tanto dos regiones de rechazo, en caso contrario,
si la hipótesis alternativa lleva el signo ” < ” o el signo ” > ” entonces la
prueba se dice que es a una cola( o unilateral) y se tiene un sólo punto crítico
o una sola región de rechazo. Note que la región de rechazo de la hipótesis
alternativa.
6. Decisiones y conclusiones. La decisión sí se rechaza o no H0 , depende del

criterio de rechazo que tiene cada una de las pruebas.
131
B.7.1. Pruebas de hipótesis para una población normal
Prueba de hipótesis para la media (Varianza conocida)

Para contrastar H0 : µ = µ0 vs H1 : µ 6= µ0 . Se utiliza el estadístico de prueba
X − µ0
Z= √ ∼ N (0, 1). Se rechaza H0 si |Z| > z1−α/2 .
σ/ n
Prueba de hipótesis para la media (Varianza desconocida)

Para contrastar H0 : µ = µ0 vs H1 : µ 6= µ0 . Se utiliza el estadístico de prueba
X − µ0
T = √ ∼ t(n−1) . Se rechaza H0 si |T | > tn−1,1−α/2 .
S/ n
Prueba de hipótesis para la varianza

Para contrastar H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02 . Se utiliza el estadístico de prueba
(n − 1)S 2
X2 = ∼ χ2(n−1) . Se rechaza H0 si X 2 > χ2n−1,1−α (área a la derecha).
σ02
B.7.2. Pruebas de hipótesis para una proporción
Supongamos que tenemos una población cuyos elementos están permitidos de tomar
dos caracteres cualitativos, por ejemplo, blanco y negro, u hombre y mujer, o si y
no cuando se hace una encuesta, entre otros.
Se desea contrastar la hipótesis H0 de que la proporción de elementos con una de
esas características es π = π0 contra la hipótesis alternativa de que π 6= π0 . Para
esto tomamos una muestra X1 , . . . , Xn donde la variable Xi toma el valor 1 si la
obsevación i-ésima tiene la característica de interés, y toma valor 0 si no. Entonces
Pb − π0
utilizamos el estadístico Z = q , donde Pb = X. Por el teorema central del
π0 (1−π0 )
n
límite, Z tiene aproximadamente una distribución N (0, 1). Por tanto se rechaza H0
si |Z| > z1−α/2 .
Finalmente se presenta un resumen de los estadísticos de prueba mencionados hasta

ahora.
132
Estadísticos de prueba según el parámetro
Distribución Estadístico
Parámetro
probabilística de prueba
Media poblacional Y −µ
Normal Z= √
µ con σ 2 conocida σ/ n
Media poblacional Y −µ
t - student T = √
µ con σ 2 desconocida s/ n
Proporción, π Pb − π
Normal Z=q
poblacional π(1−π)
n
Varianza (n − 1) S 2
Ji - cuadrado χ2 =
poblacional σ 2 σ2
B.7.3. Pruebas de hipótesis para dos poblaciones normales

independientes
Cuando se quiere comparar dos poblaciones independientes, se llevan a cabo pruebas

de hipótesis como las siguientes:
1. Prueba de Hipótesis para Comparar Varianzas:


σ12 < σ22 ,





H0 : σ12 = σ22 contra una de las alternativas H1 : σ12 > σ22 ,




σ12 6= σ22 .

En este caso se utiliza el estadístico de prueba:
S12
F = ∼ F (n1 − 1, n2 − 1).
S22
El valor crítico para el caso < es: f(α, n1 −1, n2 −1) , para el caso > es: f(1−α, n1 −1, n2 −1)
y para caso 6= es f( α2 , n1 −1, n2 −1) y f(1− α2 , n1 −1, n2 −1) .
Igual que en el caso de una sola población, se rechaza H0 sí el valor del esta-
dístico de prueba cae en la región de rechazo.
133
2. Prueba de Hipótesis para Comparar Medias:




µ1 < µ2 ,


H0 : µ1 = µ2 contra una de las alternativas H1 : µ1 > µ2 ,




µ1 6= µ2 .

Se tiene dos casos para analizar:

Se conocen las varianzas poblacionales: Utilizamos
(Y1 − Y2 ) − (µ1 − µ2 )
Z= q 2 ∼ N (0, 1). (B.14)
S1 S22
n1
+ n2
Se rechaza H0 sí Z < zα , o Z > z1−α , o |Z| > z1−α/2 , respectivamente.
No se conocen las varianzas poblacionales: Se presentan dos subcasos
i. Las varianzas se consideran iguales (σ12 = σ22 )

El estadístico de prueba viene dado por
(Y1 − Y2 ) − (µ1 − µ2 )
T = q ∼ t(n1 + n2 − 2) (B.15)
1 1
Sp n1 + n2
donde: s
(n1 − 1) S12 + (n2 − 1) S22
Sp = , (B.16)
n1 + n2 − 2
Se rechaza H0 si T < t(α,n1 +n2 −2) , o T > t(1−α,n1 +n2 −2) , o |T | > t(1−α/2,n1 +n2 −2) ,
respectivamente.
ii. Las varianzas no se consideran iguales (σ12 6= σ22 ) . Usamos

(Y1 − Y2 ) − (µ1 − µ2 )
T = q 2 ∼ t(v), (B.17)
S1 S22
n1
+ n2
donde 2
S12 S2
n1
+ n22
v= 2 2 2
2 . (B.18)
S1 S2
n1 n2
n1 −1
+ n2 −1
Se rechaza H0 si T < t(α,v) , o T > t(1−α,v) , o |T | > t(1−α/2,v) , resp.
Nota B.1 En la práctica primero se lleva a cabo la hipótesis H0 : σ12 = σ22 vs

H1 : σ12 6= σ22 con el fin de decidir sí estas se pueden considerar iguales o no.
134
B.7.4. Prueba de Hipótesis para Comparar Proporciones:




P1 < P2 ,


H0 : P1 = P2 contra una de las alternativas H1 : P1 > P2 ,




P1 6= P2 .

Para este caso el estadístico de prueba para muestras grandes viene dado por:
c1 − P
P c2
Z=r (B.19)
Pb(1−Pb) Pb(1−Pb)
n1
+ n2
con
n1 p1 + n2 p 2
Pb = (B.20)
n1 + n2
El criterio de rechazo es análogo.
135
Bibliografía
[ 1 ] Gujarati, Damodar. (2009) Econometría. Mc Grae Hill, Quinta Edición.

[ 2 ] Montgomery Douglas, Introducción al análisis de regresión lineal, editorial con-
tinental, México 2002 .
[ 3 ] Searle (1971), Linear Models, Wiley, editorial Spring.
[ 4 ] Seber (1977), Linear Regression Analysis, Wiley, editorial Spring.
[ 5 ] Bates and Watts (1988), Nonlinear Regression Analysis and Its Applications,
editorial Spring.
[ 6 ] Scheffe (1959), The Analysis of Variance, editorial Spring.
[ 7 ] Hocking (1985)The Analysis of Linear Models, Brooks/Cole.
[ 8 ] Chatterjee and Price (1977) Regression Analysis by Example, Wiley
[ 9 ] Paul G. Keat, Young, Philip K. Y.,Economía de empresa, 4ta ed.,
Pearson educación, México, 2014.
[ 10 ] M. Carmen Ximénez ,Rafael San Martín, Fundamentos de las técnicas multi-
variantes, UNED ediciones, Madrid, 2013.
[ 11 ] Michael J. Crawley, The R Book, 2da ed. Wiley, 2013.
[ 12 ] Jesús Bouso Freijo, El paquete estadístico R, 1ra ed., EFCA, 2013.
[ 13 ] Mauricio Hernández, Epidemiologia: diseño y anális de estudios,
Panamericana, México, 2009.
[ 14 ] Tomás, Miquel, Jordi., Modelos de regresión lineal multiple, UOC, 2011.
[ 15 ] Mark P. J. Van der Loo, Edwin de Jonge.(2012), Learning R-Studio for R
Statistical Computing
[ 16 ] Fox, John and Andersen, Robert (January 2005), editorial Springer
136
[ 17 ] Dalgaard, Peter (2002). Introductory Statistics with R. New York, Berlin,
Heidelberg: Springer-Verlag
[ 18 ] Conover (1980) Practical Nonparametric Statistics, 2nd ed, Wiley. [ 19 ] Re-
cuperado de http://www.uv.es/ceaces/molineal/modelolineal.htm
[ 20 ] Myles Hollander & Douglas A. Wolfe (1973), Nonparametric Statistical Met-
hods. New York: John Wiley & Sons.
[ 21 ] Kendall, M. G., & Gibbons, J. D. (1990). Rank Correlation Methods (5th ed.).
London: Edward Arnold.
137

Listoimprimir PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Listoimprimir PDF

Cargado por

Copyright:

Formatos disponibles

MODELOS DE REGRESIÓN LINEALES Y NO LINEALES

CON APOYO COMPUTACIONAL

CLARENA PATRICIA ARRIETA ARRIETA

Trabajo de grado presentado como requisito parcial para

Facultad de Ciencias Básicas

Departamento de Matemáticas y Estadística

Le doy gracias a Dios por la sabiduría, el entendimiento, por llevarme de la mano y

3. Regresión lineal múltiple 15

Apéndice A. Estadística descriptiva 113

Apéndice B. Estadística inferencial 122

Este trabajo se realizó con el objetivo de implementar el análisis de regresión li-

yi = β0 + β1 x1i + β2 x2i + · · · + βp−1 x(p−1)i + i en caso múltiple

Donde Y es un vector de tamaño n × 1 de las variables explicada o dependiente

El principal objetivo de un modelo de regresión es la predicción (o inferencia).Para

Sean variables independientes.

Que tengan varianza constante (σ 2 ).

Que tengan una esperanza matemática igual a cero.

Deben seguir una distribución normal.

Todos estos criterios se sintetizan escribiendo:

Los modelos de regresión lineal proporcionan un marco abundante y flexible que

R es un Programa integrado para la manipulación de datos, cálculo y procedimientos

Un lenguaje de programación simple y efectivo que incluye las estructuras de

Facilidad para el manejo y el almacenamiento de datos.

Multitud de opciones gráficas.

Un conjunto de operadores para cálculo con matrices y vectores.

Una colección extensa e integrada de herramientas intermedias para el análisis

R es un entorno altamente dinámico, y a menudo se concibe como un vehículo para

1.1. Estadística con R

> X <- c(10.4, 5.6, 3.1, 6.4, 21.7)

1.3. Lectura de datos de un archivo

1.3.1. La Función read.table()

La primera línea del archivo debe contener el nombre de cada variable de la

En cada una de las siguientes líneas, el primer elemento es la etiqueta de la

Si el archivo tiene un elemento menos en la primera línea que en las restantes,

La función attach() es una función genérica, que permite conectar en la trayectoria

Posteriormente podrá desconectar el objeto utilizando la función detach(), usando

ajuste <-lm(y ∼ x1 + x2 + x4, data=datos)

La función lm construye entonces la matriz de diseño mediante la función model.matrix

1.4.1. Otras funciones

glm(formula,family=, ...): Ajuste de modelos lineales generalizados. family=

step() Selección paso a paso de variables en modelos lineales (lm,glm) median-

lme(formula, ...): Ajuste de modelos lineales de efectos mixtos (fijos y alea-

nls(formula, ...): Estimación por mínimos cuadrados de funciones no lineales.

nlme(formula, ...): Ajuste de modelos no lineales de efectos mixtos (fijos y alea-

gls(modelo,data, ...): Ajuste de modelos lineales mediante mínimos cuadrados

approx(x,y, ...): Interpolación lineal dados un conjunto de puntos x, y.

spline(x,y, ...): Interpolación mediante splines cúbicos.

loess(formula, ...): Interpolación mediante ajuste polinómico local

En la investigación social, política, económica, ingeniería, entre otras el análisis de

2.1. Conceptos básicos

Otros la consideran como la variable de cierto factor que es observado y medido

Error de estimación o residual

2.2. Análisis de correlación

donde σXY es la covarianza de (X, Y ) y σX , σY sus respectivas desviaciones estándar.

1. −1 ≤ ρ ≤ 1. El valor r = −1 índica una relación lineal negativa o inversa

2. ρ(X, Y ) = ρ(Y, X), (es una relación simétrica)

3. ρ es independiente de la escala, es decir, ρ(aX +c, bY +d) = ρ(X, Y ) si a, b > 0.

4. Si X e Y son independientes, entonces ρ(X, Y ) = 0, lo contrario no es cierto.

Para dos variables X e Y , el estimador de ρ se obtiene con la expresión.

2.3.1. Prueba de Hipótesis para el Coeficiente de Correlación

Después de calcular la estimación del coefieciente de correlación de Pearson (ρ̂) a

al nivel de significancia α, en la cual se trata de determinar, si la relación obtenida

2.3.2. Medidas de asociación no paramétricas

yi = β0 + β1 x1i + β2 x2i + · · · + βp−1 x(p−1)i + i en caso múltiple

E(Y) = µY = E(Xβ + ) = E(Xβ) + E() = Xβ,

Suponiendo que ∼ N (0, σ 2 I), como Y = Xβ + es una combinación lineal,

del modelo Y = Xβ + se tiene que = Y − Xβ, así

0 =(Y − Xβ)0 (Y − Xβ) = Y0 Y − Y0 Xβ − β 0 X0 Y + β 0 X0 Xβ

a. Los errores son i.i.d., luego Cov (i , j ) = 0 para i 6= j.

ˆ = Y − Ŷ = Y − Xβ̂ = Y − X(X0 X)−1 X0 Y = [In −H]Y (3.15)