Curso de R

1.
Iniciar R-Commander
Antes de profundizar en el conocimiento de la Estadstica, es til empezar motivndose
mediante una interfaz que nos facilite la realizacin de las tareas, al menos de las ms
sencillas. Para ello, R-Commander presenta una interfaz que, adems de permitirnos
interactuar con R para realizar anlisis estadsticos bsicos, presenta el cdigo en lenguaje
R que corresponde a las acciones solicitadas.
Es posible que, para muchos de los alumnos del curso, R-Commander sea una herramienta
suficiente para todos los anlisis estadsticos que necesiten abordar. Quienes encuentren RCommander insuficiente, una vez superado el respeto inicial hacia R, podrn manejarse
directamente con la consola de R, creando y editando las instrucciones, lo que puede
resultar ms engorroso, pero al mismo tiempo permite un control total sobre los
procedimientos que en cada momento se van a aplicar.
Segn la version de R y R-Commander que se eligi instalar, hay distintas formas de lanzar
R-Commander. Si instal R-UCA o R-commander, abriendo Rterm automticamente se
inicia tambin el R-Commander. Si instal directamente R, o bien R-Excel, siga las
instrucciones que se indican a continuacin.
Desde la consola de R, seleccione Paquetes y despus Cargar paquete..., tal como se
muestra en la figura 1.
Figura 1: Cargar paquetes en R

Se visualizar una lista de paquetes; baje hasta encontrar Rcmdr y seleccinelo. Se inicia la
ventana del R-Commander. Este interface consta de las siguientes partes: barra de mens,
barra de elementos activos (conjuntos de datos y modelos), rea de instrucciones, rea de
resultados y rea de mensajes (Fig. 2).
Figura 2: R-Commander
Para abrir una base de datos, accedemos al men de Datos (Fig.3) y si deseamos trabajar
con un fichero con el formato nativo de R (.rda), escogemos la opcin Cargar conjunto de
datos (Fig. 4).
Figura 3: Men de datos.
Figura 4: Cargar datos

El programa R y el paquete R-Commander no slo permiten crear y trabajar sobre datos
con formato nativo, sino que importan ficheros provenientes de otros programas: texto puro
(en fichero, portapapeles o direccin URL), SPSS, Minitab, STATA, Excel y Access.
2. Conceptos bsicos
2.1. Anlisis descriptivo
La estadstica descriptiva es la parte de la Estadstica que se dedica a resumir los datos. Este
anlisis fundamenta todo estudio desde el inicio. Las primeras conclusiones obtenidas tras
el anlisis descriptivo proporcionan un poder de inferencia mnimo, pero facilitan la
utilizacin de tcnicas ms avanzadas (inferencia, contrastes). Una vez depurados los
posibles errores de los datos, sintetizamos la informacin mediante tablas, grficos y
medidas descriptivas.
Las variables estadsticas se clasifican en tres categoras: nominales, ordinales y numricas.
Las variables nominales clasifican segn modalidades, atributos o niveles, como por
ejemplo el estado civil, grupo sanguneo, etc. Las variables ordinales corresponden a otro
caso particular de variables no numricas y ocurre cuando existe una relacin de orden
entre los atributos, como por ejemplo, nivel de estudios (primarios, secundarios,
superiores), capacitacin laboral (baja, media, alta), etc. Las variables numricas
cuantifican alguna magnitud: velocidad, edad, tiempo, etc. Las dos primeras se integrarn
en las llamadas caractersticas cualitativas (factores), mientras que el tercer tipo
corresponde a caractersticas cuantitativas (numricas). Dentro de las cuantitativas tambin
se pueden hacer dos grupos: discretas y continuas. Una variable discreta es aquella que
entre dos valores posibles de la variable, siempre existe uno que no puede ser un valor
posible de la variable. Por ejemplo, el nmero de hijos de una familia, puesto que pueden
ser 3 o 4, pero no pueden ser 35. Otros ejemplos de variables discretas son el nmero de
cilindros de un coche, el nmero de averas en una hora, etc. Por otro lado, se dice que una
variable numrica es continua si entre cualesquiera dos valores posibles de la variable,
siempre existe un valor posible. Una variable continua sera la estatura de una persona,
puesto que al poder ser 170 175 metros, en potencia al menos podra tomar cualquier
valor intermedio como 173 metros, por ejemplo. Longitudes, pesos, temperaturas, etc. son
otros ejemplos de variables continuas.
Una vez identificadas, recopiladas y organizadas, las variables se tratarn combinando
medidas estadsticas con representaciones grficas. Conviene seleccionar y mostrar, en cada
caso, aquellas que aportan informacin relevante (cuadro 1).
Cuadro 1: Principales estadsticos de resumen.
Tipo de
Medidas
Medidas
Variable
posicin
dispersin
Cualitativa-nominal
Moda
(sexo, raza,)
Porcentajes
Cualitativa-ordinal
Mediana
(nivel de estudios,)
Percentiles
Cuantitativa-discreta
Media
Desviacin
(N dias, N errores)
Percentiles
tpica
Grficos ms
habituales
Diagrama de barras
Diagrama de sectores+
Diagrama de barras
Diagrama de barras
Cuantitativa-continua
(peso, consumo,)
+
No se recomienda.
Media
Percentiles
Desviacin
tpica
Histograma
Diagrama de cajas
2.2. Variable cualitativa-nominal

Dentro de la base de datos acero aparece la variable averias, que consta de dos modalidades
(S, No). Por lo tanto, es evidente que es de naturaleza cualitativa y nominal.
Ejemplo 2.1. Obtenga la moda y los porcentajes de la variable averias.
Solucin: Estos estadsticos se obtienen de la siguiente forma:
Estadsticos
Resmenes
Distribucin de frecuencias...
Seleccionar la variable averias

Aceptar
Los procedimientos anteriores proporcionan el siguiente resultado:

> Tabla <- table(acero$averias) # counts for averias
> Tabla
No S
89 28
> 100 * Tabla/sum(Tabla) # percentages for averias
No
S
76.06838 23.93162
As, se ha obtenido el nmero de casos de cada modalidad y el porcentaje que representan
dentro de la muestra. La moda es el dato que ms se repite; en este caso, la modalidad No.
__
Ejemplo 2.2. Obtenga el grfico de barras de la variable averias.
Solucin: Los grficos de barras se obtienen con la opcin del men Grficas. En
particular,
Grficas
Grfica de barras...

Aceptar
Con esto se obtendra el grfico de barras correspondiente. Para modificar las etiquetas de
los ejes, se podran cambiar los nombres que aparecen en la ventana de instrucciones como
sigue:
> barplot(table(acero$averias), xlab = ~avera~, ylab = ~Frecuencia~)
Esta instruccin realiza el siguiente diagrama de barras:
__
2.3. Cuantitativa-discreta
Como ejemplo de una variable cuantitativa discreta disponemos en la base de datos de la
variable naverias. Tal como se coment en el Cuadro 1, para esta variable interesa obtener
su media, su desviacin tpica y algunos de sus percentiles.
Ejemplo 2.3. Calcule la media, desviacin tpica y percentiles de la variable naverias.
Solucin: Estos valores se obtienen de la siguiente forma:
Estadsticos
Resmenes
Resmenes numricos
Seleccionar la variable naverias

Aceptar
Las salidas del procedimiento anterior son:

> numSummary(acero[,~naverias~], statistics=c(~mean~, ~sd~, ~quantiles~),
+ quantiles=c(0,.25,.5,.75,1))
mean
sd 0% 25% 50% 75% 100% n
06752137 1.292078 0 0 0 0 4 117
Los resultados nos indican que la media es de aproximadamente 0675 averas por hora, con
una desviacin tpica de 1292. El nmero de averas vara desde 0 hasta 4, y al menos el
75% de la observaciones no presentaron averas. En total disponemos de 117
observaciones. __
Ejemplo 2.4. Obtenga el grfico de barras de la variable naverias.
Solucin:
Nos hemos de percatar que al ser una variable numrica, R la considera continua y, por
tanto, no nos permitira hacer este grfico. Debemos pues, crear en primer lugar una nueva
variable de tipo factor con estos datos.
Datos
Modificar variables del conjunto
Convertir variable numrica en factor

Utilizar nmeros
Escribir un nombre para la nueva variable

Aceptar
> acero$naver <- as.factor(acero$naverias)

Realizamos con esta variable el grfico como en el Ejemplo 2.2:
Grficas
Grfica de barras
con lo que obtenemos un grfico similar al siguiente:
__
2.4. Cuantitativa-continua
Dentro de la base de datos acero escogemos la variable consumo como ejemplo de variable
cuantitativa continua. Para las variables continuas, tal como vimos en el Cuadro 1, los
descriptivos que nos interesa obtener son la media, la desviacin tpica y los percentiles (en
particular los cuartiles).
Ejemplo 2.5. Calcule los principales estadsticos descriptivos de la variable consumo.
Solucin: Estos valores se consiguen mediante el siguiente procedimiento:
Estadsticos
Resmenes
Resmenes numricos
con el que se obtiene:

> numSummary(acero[,~consumo~], statistics = c(~mean~, ~sd~, ~quantiles~),
+ quantiles=c(0,.25,.5,.75,1))
mean
sd 0% 25% 50% 75% 100% n
139.4565 55.18525 17.5 99.09 14007 182.48 29072 117
Con esta informacin podemos concluir que el consumo medio se sita en torno a 13946
Megavatios/hora, con una desviacin tpica de 5519 Mg./hora. El consumo mnimo
desciende hasta 175 y el mximo asciende hasta 29072. El 25% de los casos analizados
consumen 9909 megavatios o menos, el 50% menos de 14007 y un 25% consume ms de
18248. __
Ejemplo 2.6. Obtenga el histograma y el diagrama de cajas de la variable consumo.
Solucin: Vamos a realizar este ejemplo en dos etapas:
1.
Para representar el histograma, seguimos los pasos que se detallan a continuacin:
Grficas
Histograma
Seleccionar la variable consumo

Aceptar
se obtiene el siguiente histograma para la variable consumo:

Hist(acero$consumo, scale = ~frequency~,
+ breaks=~Sturges~, col=~darkgray~)
2.
Para representar el diagrama de cajas, los pasos a seguir son:
Grficas
Diagrama de caja

Aceptar
que dan como resultado:

> boxplot(acero$consumo, ylab = ~consumo~)
A partir de dicho diagrama se observa, por ejemplo, que no existen datos atpicos
para la variable (consumo) en esta muestra.
2.1. Anlisis descriptivo

La estadstica descriptiva es la parte de la Estadstica que se dedica a resumir los datos. Este
anlisis fundamenta todo estudio desde el inicio. Las primeras conclusiones obtenidas tras
el anlisis descriptivo proporcionan un poder de inferencia mnimo, pero facilitan la
utilizacin de tcnicas ms avanzadas (inferencia, contrastes). Una vez depurados los
posibles errores de los datos, sintetizamos la informacin mediante tablas, grficos y
medidas descriptivas.
Las variables estadsticas se clasifican en tres categoras: nominales, ordinales y numricas.
Las variables nominales clasifican segn modalidades, atributos o niveles, como por
ejemplo el estado civil, grupo sanguneo, etc. Las variables ordinales corresponden a otro
caso particular de variables no numricas y ocurre cuando existe una relacin de orden
entre los atributos, como por ejemplo, nivel de estudios (primarios, secundarios,
superiores), capacitacin laboral (baja, media, alta), etc. Las variables numricas
cuantifican alguna magnitud: velocidad, edad, tiempo, etc. Las dos primeras se integrarn
en las llamadas caractersticas cualitativas (factores), mientras que el tercer tipo
corresponde a caractersticas cuantitativas (numricas). Dentro de las cuantitativas tambin
se pueden hacer dos grupos: discretas y continuas. Una variable discreta es aquella que
entre dos valores posibles de la variable, siempre existe uno que no puede ser un valor
posible de la variable. Por ejemplo, el nmero de hijos de una familia, puesto que pueden
ser 3 o 4, pero no pueden ser 35. Otros ejemplos de variables discretas son el nmero de
cilindros de un coche, el nmero de averas en una hora, etc. Por otro lado, se dice que una
variable numrica es continua si entre cualesquiera dos valores posibles de la variable,
siempre existe un valor posible. Una variable continua sera la estatura de una persona,
puesto que al poder ser 170 175 metros, en potencia al menos podra tomar cualquier
valor intermedio como 173 metros, por ejemplo. Longitudes, pesos, temperaturas, etc. son
otros ejemplos de variables continuas.
Una vez identificadas, recopiladas y organizadas, las variables se tratarn combinando
medidas estadsticas con representaciones grficas. Conviene seleccionar y mostrar, en cada
caso, aquellas que aportan informacin relevante (cuadro 1).
Cuadro 1: Principales estadsticos de resumen.
Tipo de
Medidas
Variable
posicin
Cualitativa-nominal
Moda
(sexo, raza,)
Porcentajes
Cualitativa-ordinal
Mediana
(nivel de estudios,)
Percentiles
Cuantitativa-discreta
Media
(N dias, N errores)
Percentiles
Cuantitativa-continua
Media
(peso, consumo,)
Percentiles
+
No se recomienda.
Medidas
dispersin
Desviacin
tpica
Desviacin
tpica
Grficos ms
habituales
Diagrama de barras
Diagrama de barras
Diagrama de barras
Histograma
Diagrama de cajas

Estadsticos
Resmenes

Aceptar

> Tabla
No S
89 28
No
S
76.06838 23.93162
__
particular,
Grficas
Grfica de barras...

Aceptar
sigue:
__
Estadsticos
Resmenes
Resmenes numricos

Aceptar

+ quantiles=c(0,.25,.5,.75,1))
mean
sd 0% 25% 50% 75% 100% n
06752137 1.292078 0 0 0 0 4 117
observaciones. __
Solucin:
Datos

Utilizar nmeros

Aceptar

Grficas
Grfica de barras
__
Estadsticos
Resmenes
Resmenes numricos

+ quantiles=c(0,.25,.5,.75,1))
mean
sd 0% 25% 50% 75% 100% n
139.4565 55.18525 17.5 99.09 14007 182.48 29072 117
18248. __
1.
Grficas
Histograma

Aceptar

2.
Grficas
Diagrama de caja

Aceptar

Estadsticos
Resmenes

Aceptar

> Tabla
No S
89 28
No
S
76.06838 23.93162
__
particular,
Grficas
Grfica de barras...

Aceptar
sigue:
__
Estadsticos
Resmenes
Resmenes numricos

Aceptar

+ quantiles=c(0,.25,.5,.75,1))
mean
sd 0% 25% 50% 75% 100% n
06752137 1.292078 0 0 0 0 4 117
observaciones. __
Solucin:
Datos

Utilizar nmeros
Aceptar

Grficas
Grfica de barras
__
Estadsticos
Resmenes
Resmenes numricos

+ quantiles=c(0,.25,.5,.75,1))
mean
sd 0% 25% 50% 75% 100% n
139.4565 55.18525 17.5 99.09 14007 182.48 29072 117
18248. __
1.
Grficas
Histograma

Aceptar

2.
Grficas
Diagrama de caja

Aceptar

Estadsticos
Resmenes
Resmenes numricos

Aceptar

+ quantiles=c(0,.25,.5,.75,1))
mean
sd 0% 25% 50% 75% 100% n
06752137 1.292078 0 0 0 0 4 117
observaciones. __
Solucin:
Datos

Utilizar nmeros
Aceptar

Grficas
Grfica de barras
__
Estadsticos
Resmenes
Resmenes numricos

+ quantiles=c(0,.25,.5,.75,1))
mean
sd 0% 25% 50% 75% 100% n
139.4565 55.18525 17.5 99.09 14007 182.48 29072 117
18248. __
1.
Grficas
Histograma

Aceptar

2.
Grficas
Diagrama de caja

Aceptar

Estadsticos
Resmenes
Resmenes numricos

+ quantiles=c(0,.25,.5,.75,1))
mean
sd 0% 25% 50% 75% 100% n
139.4565 55.18525 17.5 99.09 14007 182.48 29072 117
18248. __
1.
Grficas
Histograma

Aceptar

2.
Grficas
Diagrama de caja

Aceptar

3. Contrastes de hiptesis
3.1. Introduccin
Los mtodos descriptivos proporcionan una idea de cmo es la muestra. Para obtener
conclusiones relativas a la poblacin necesitamos utilizar tcnicas de inferencia estadstica.
Dentro de stas la ms habitual es el contraste de hiptesis.
Una hiptesis es una afirmacin sobre las caractersticas estadsticas de un proceso, por lo
que se puede considerar una hiptesis como una conjetura. Por ejemplo: si un tcnico
observa el consumo de energa durante varias horas, sabr el consumo medio de las horas
que observ. Con la ayuda de la inferencia, puede avanzar un paso ms y conjeturar que el
consumo medio de todas las horas de trabajo en esa fbrica es de 120. El proceso cientfico
consiste entonces en probar su hiptesis contra una hiptesis alternativa:
Hiptesis nula H0:
consumo medio
= 120
Hiptesis alternativa H1:
consumo medio
120
Un test consiste en un procedimiento estadstico para determinar la validez de una hiptesis

(la hiptesis nula). Si los datos de la muestra resultan poco crebles de obtenerse en caso de
ser cierta dicha hiptesis, nuestra razn nos obligar a rechazarla. En caso contrario, no hay
base suficiente para rechazarla. La aceptacin de la hiptesis nula es muy difcil si slo se
usan procedimientos estadsticos. Sin embargo, desde el punto de vista prctico, el no
rechazo de una hiptesis nos llevar a concluir que no hay evidencias significativas en
contra de dicha hiptesis y, por tanto, que puede considerarse admisible.
La forma habitual de presentar los resultados de un test de hiptesis es a travs del p-valor
o nivel crtico. Simplemente con este nmero se puede concluir si la hiptesis nula es o no
rechazada a un nivel de significacin (). El p-valor es el nivel de significacin menor que
llevara al rechazo de la hiptesis nula H0. Una vez que se conoce el p-valor, el responsable
de tomar las decisiones puede determinar por s mismo en qu medida son significativos los
datos sin que se le imponga formalmente un nivel de significacin predeterminado. Una vez
conocido el valor del p-valor y fijado el nivel de significacin del contraste, la decisin a
tomar se obtiene comparando ambos valores, tal como puede verse en el cuadro 2.
Cuadro 2: Regla de decisin.
REGLA DE DECISIN
P-valor <
Rechazo H0
P-valor
No rechazo H0
Generalmente se considera = 005.
La decisin es el ltimo paso de un contraste de hiptesis. Un esquema de todo el proceso

asociado a un contraste puede verse en la figura 5. En dicho esquema se pone de manifiesto
el hecho de que los niveles de significacin habituales son siempre menores de 01,
destacando los valores 01, 005 y 001. De entre todos ellos, el nivel 005 predomina con
claridad.
Figura 5: Pasos en un contraste de hiptesis.
Como ejemplos de test de hiptesis, vamos a considerar algunos de los ms habituales en la

prctica. stos aparecen descritos a continuacin, junto con un ejemplo de pregunta que
sera contestada mediante dicho test.
Promedio de una poblacin: El consumo medio es menor de 140?
Comparacin de promedios: El consumo medio es mayor cuando hubo

averas?
Proporcin poblacional: El porcentaje de horas con averas es mayor del

10%?
Comparacin de proporciones: El porcentaje de horas con averas es

mayor cuando estaba encendido el sistema que cuando no?
Desviacin tpica: La variabilidad del consumo es menor de 50?
Comparacin de desviaciones tpicas: La variabilidad del consumo es la

misma durante las horas que hubo averas y durante las que no?
Ejemplos de la mayora de los contrastes anteriores sern analizados en detalle en las

Secciones 3.2 a 3.6.
3.2. Tests para el promedio
Para realizar un test cualquiera debemos considerar las siguientes etapas: seleccionar el
contraste adecuado en el caso en estudio, establecer quines son H0 y H1 en ese contraste e
interpretar el p-valor. En un test sobre el valor promedio de la poblacin, debemos tener en
cuenta si los datos siguen aproximadamente una distribucin normal o no, as como el
tamao de la muestra, y segn sea el resultado, decidir qu contraste realizamos (cuadro 3).
Cuadro 3: Contrastes para el promedio.

Contraste para
la
Distribucin
aproximadamente
Tipo de test
normal o n grande?
Media ()
Test t para una muestra
Mediana (Me)
No
Test de Wilcoxon para una

muestra
Si la muestra dispone de un suficiente nmero de datos (habitualmente se exige que tenga

al menos 30), se puede utilizar el test t para una muestra para realizar contrastes acerca de
la media de la poblacin. En caso contrario, es necesario que se pueda admitir la
normalidad de los datos para realizar dicho test. Si no fuera normal, se utilizara el test de
Wilcoxon para una muestra. En los contrastes de normalidad de los datos utilizaremos del
test de Shapiro-Wilk. Para este test las hiptesis a contrastar son:
TEST DE BONDAD DE AJUSTE A LA NORMAL
H0: los datos provienen de una poblacin normal

H1: los datos NO provienen de una poblacin normal
REGLA DE DECISIN
P-valor <
Rechazo H 0 (la distribucin no es normal)
P-valor
No rechazo H0 (se puede admitir la normalidad)
Generalmente se considera = 005

.
En nuestro ejemplo, si queremos analizar el valor promedio de la variable consumo, al tener

117 datos ya podemos utilizar directamente el test t para una muestra. As pues, estamos en
condiciones de realizar un contraste para la media, comparndola con el valor 120. El test
adecuado en este caso es el test t para una muestra, cuyas hiptesis a contrastar (H0 y H1)
pueden ser de tres tipos:
H0 : = 120
H0 : 120
H0 : 120
H1 : 120
H1 : < 120
H1 : > 120
Ejemplo 3.1. Es el consumo medio igual a 120?

Solucin: En este caso se tiene:
H 0:
el consumo medio es de 120
H 1:
el consumo medio no es de 120
Estadsticos
Medias
Test t para una muestra...

Ponemos 120 en la hiptesis nula
Aceptar
Las salidas de este test son:
> t.test(acero$consumo, mu = 120, conf.level = 0.95)

One Sample t-test
data: acero$consumo
t = 3.8136, df = 116, p-value = 0.0002210
alternative hypothesis: true mean is not equal to 120
95 percent confidence interval:
129.3516 149.5614
sample estimates:
mean of x
139.4565
Puesto que la adaptacin de la regla de decisin a este test en particular sera:
P-valor <
Rechazo H0 (consumo medio 120)
P-valor
No rechazo H0 (consumo medio = 120)
simplemente debemos considerar el valor del p-valor asociado a este contraste para esta
muestra y, en base a l, tomar la decisin correspondiente. Puesto que hemos obtenido que
el p-valor es 00002210, ste es menor que = 005, por lo que la decisin es rechazar la
hiptesis nula (H0). Como conclusin podemos decir que la media poblacional es distinta
de 120. __
El ejemplo anterior corresponde al tipo de test bilateral, puesto que la hiptesis alternativa
es que el valor del parmetro es distinto de un nmero. Cuando la alternativa lleve el
smbolo menor (<) o mayor (>), en lugar del smbolo distinto (, se denomina test
unilateral. En ejemplo de dicho tipo de test unilateral puede verse a continuacin.
Ejemplo 3.2. El consumo medio es menor de 140?
Solucin: En este caso, tal como comentamos en el ejemplo anterior, se verifican las
hiptesis para utilizar el test t para una muestra. As, el test adecuado para contestar a esta
pregunta contrastara las siguientes hiptesis:
H 0:
el consumo medio es mayor o igual que 140
H 1:
el consumo medio es menor de 140
y sera realizado tal como sigue:

Estadsticos
Medias

Marcar Media poblacional < mu0
Aceptar
Los resultados obtenidos son:
> t.test(acero$consumo, alternative = ~less~, mu = 140, conf.level = 0.95)

One Sample t-test
data: acero$consumo
t = -0.1065, df = 116, p-value = 0.4577
alternative hypothesis: true mean is less than 140
-Inf 147.9159
sample estimates:
mean of x
139.4565
Como el p-valor (04577) supera los valores habituales de , no se rechaza la hiptesis nula,
por lo que podemos concluir que estos datos no aportan evidencias suficientes de que la
media sea menor de 140. __
Vamos por ltimo a analizar el caso de una variable en la que no se den las condiciones
para aplicar el test t para una muestra.
Ejemplo 3.3. Durante los das que hubo averas, la produccin promedio de galvanizado 1
se sita en menos de 400 toneladas?
Solucin:
Comenzaremos seleccionando los datos para quedarnos slo con aquellos que corresponden
a das en los que hubo averas. Para ello podemos seguir los siguientes pasos:
Datos
Conjunto de datos activo
Filtrar el conjunto de datos...
Seleccionar averias
Expresin de averias=="S"
Nombre del nuevo acero2
Aceptar
Datos
Actualizar conjunto de datos activo
As, disponemos de un nuevo conjunto de datos activado, solamente con los datos relativos
a las horas en las que hubo avera. Como son 28 datos, tal como vimos en el ejemplo 2.1,
no podemos aplicar sin ms el test t para la media y debemos comprobar si se cumple la
hiptesis de normalidad.
Realizaremos pues el test de normalidad a la variable pr.galv1.
Estadsticos
Resmenes
Test de normalidad de Shapiro
Seleccionar pr.galv1
Aceptar
Los resultados de dicho test son:

> shapiro.test(acero2$pr.galv1)
Shapiro-Wilk normality test
data: acero2$pr.galv1
W = 0.8805, p-value = 0.004117
Como el p-valor (0004118) es menor que = 005, se rechaza la hiptesis nula, por lo tanto
no hay normalidad.
Cmo podemos hacer para contrastar la hiptesis sobre el valor promedio de la produccin
de galvanizado 1 en las horas con averas? Al no haber normalidad y disponer de pocos
datos, debemos realizar el test de Wilcoxon para una muestra. Para ste los distintos tipos
de contrastes de hiptesis para la mediana son:
H0 : Me = 400
H0 : Me 400
H0 : Me 400
H1 : Me400
H1 : Me < 400
H1 : Me > 400
two.sided
less
greater
La hiptesis que nos interesa es:

La produccin promedio es menor de 400?
H0 : Me 400 (la produccin promedio es alta)
H1 : Me < 400 (la produccin promedio es baja)
Para realizar este test escribimos en la ventana de instrucciones lo que sigue:

wilcox.test(acero2$PR.GALV1,alternative=~less~,mu=400)
y pinchamos en Ejecutar.
Figura 6: Test de Wilcox para una muestra
Lo que da como resultado

> wilcox.test(acero2$pr.galv1, alternative = ~less~, mu = 400)
Wilcoxon signed rank test with continuity correction
V = 277, p-value = 0.9552
alternative hypothesis: true location is less than 400
Como el p-valor (09552) es mayor que el nivel de significacin , no se rechaza la

hiptesis nula, por lo tanto podemos suponer que la produccin es alta, es decir mayor o
igual de 400. __
3.3. Comparacin de dos promedios
La comparacin de dos promedios consiste en comprobar si el promedio de una variable

vara segn determinadas caractersticas. Dependiendo de la situacin existen diversas
posibilidades de contrastes. El cuadro 4 recoge los principales tests aplicados
habitualmente.
Cuadro 4: Contrastes para igualdad de promedios.

Distribuciones
Independient
es?
Tipo de test
Contrastes aproximadament
para
e
comparar
dos
normales o
tamaos
muestrales
grandes?
Medias
Test t para muestras

independientes
Medias
No
Test t para datos relacionados
Medianas
No
Test de Wilcoxon para dos

muestras
Medianas
No
No
Test de Wilcoxon para muestras

pareadas
Ejemplo 3.4. Se puede afirmar que cuando se producen averas el consumo de energa se
incrementa?
Solucin: Lo primero de todo ser volver a activar la base de datos acero. Para ello,
pinchamos a la derecha de Conjunto de datos:, en el botn que pone acero2 y
seleccionamos de nuevo la base de datos acero.
Una vez hecho esto, vamos a verificar la normalidad del consumo para cada uno de las dos
situaciones (cuando haya averas y cuando no) mediante el test de Shapiro-Wilk. Para esto
ponemos en la lnea de comandos:
Figura 7: Normalidad del consumo segn las averas
Los resultados de ejecutar ambas lneas de comando son:

> shapiro.test(subset(acero, subset = averias == ~No~)$consumo)
data: subset(acero, subset = averias == ~No~)$consumo
W = 0.9869, p-value = 0.5137
> shapiro.test(subset(acero, subset = averias == ~S~)$consumo)
data: subset(acero, subset = averias == ~S~)$consumo
W = 0.9644, p-value = 0.4408
Los p-valores correspondientes superan el nivel , por lo que podemos considerar

normalidad en ambos casos.
Por la naturaleza del problema, es evidente que se puede trabajar con la hiptesis de que las
poblaciones son independientes, con lo cual estamos en condiciones de aplicar el test t para
muestras independientes. Ahora bien, a la hora de realizar dicho test es necesario
especificar si se supone que las varianzas son iguales o no, puesto que el estadstico
utilizado al obtener el p-valor y, por tanto, el valor de dicho p-valor, difiere segn la opcin
elegida. En la seccin 3.4 se puede ver cmo contrastar la igualdad de varianzas. El
contraste para este ejemplo en particular est realizado en el Ejemplo 3.6, donde se obtiene
que no hay evidencias en contra de suponer que las varianzas de ambas poblaciones sean
iguales. En estas circunstancias, aplicamos el test t para muestras independientes,
suponiendo las varianzas iguales.
Quines son H0 y H1 en ese contraste?

Dependiendo de la hiptesis alternativa considerada, los tres contrastes que podemos
realizar con el test t para muestras independientes para comparar las medias de dos
poblaciones son:
H 0 : 1 = 2
H 0 : 1 2
H 0 : 1 2
H1 : 12
H 1 : 1 < 2
H 1 : 1 > 2
Ahora bien, antes de nada debemos tener claro a quien asigna R como primera clase (clase
1 con media 1) y como segunda clase (clase 2 con media 2). Por defecto, el programa
considera el orden alfabtico, es decir, si como en este caso las clases son No y S, la
primera clase corresponde al no (sin averas y la segunda al s (con avera). Que consuma
ms con avera se traducira por lo tanto en 2 > 1, por lo que para este ejemplo vamos a
considerar el contraste:
H0 : 1 2 (consumo menor o igual con avera)
H1 : 1 < 2 (consumo mayor con avera)
y para calcularlo procedemos de la siguiente forma:

Estadsticos
Medias
Test t para muestras independientes
Seleccionar las variables averias y consumo

Marcar: Diferencias < 0
Marcar: Varianzas iguales
Aceptar
Los resultados de estos pasos son:

> t.test(consumo ~ averias, alternative = ~less~, conf.level = 0.95,
+
var.equal = TRUE, data = acero)
Two Sample t-test
data: consumo by averias
t = -0.9423, df = 115, p-value = 0.174
alternative hypothesis: true difference in means is less than 0
-Inf 8.564113
sample estimates:
mean in group No mean in group S
136.7585
148.0321
Como el p-valor (0174) es mayor que el nivel de significacin , no se rechaza la hiptesis

nula. As pues, los datos no aportan evidencias de que el consumo promedio sea mayor
cuando haya avera. __
Qu ocurrira si las poblaciones no fueran independientes?
En tal caso, si suponemos normalidad, realizamos el test t para muestras relacionadas. Se
elige la siguiente opcin del men:
Estadsticos
Medias
Test t para muestras relacionadas
Sera este el caso, por ejemplo, si comparamos la resistencia de una pieza antes y despus
de aplicarle un procedimiento en el horno, el nivel de glbulos rojos de una persona antes y
despus de recibir un determinado tratamiento o la produccin de galvanizado tipo 1 y la
produccin de galvanizado tipo 2.
Cuando las poblaciones no son normales y no tienen suficiente nmero de datos
(habitualmente se suele exigir al menos 30) se realiza el test de Wilcoxon para dos muestras
si las poblaciones son independientes, o el test de Wilcoxon para muestras pareadas si tal
independencia no es supuesta. Realicemos unos ejemplos para aclarar tales situaciones.
Ejemplo 3.5. Estudie el comportamiento de la produccin de galvanizado 1 en funcin de
las averas.
Solucin:
Aunque ya sabemos que no podemos asegurar que la produccin de galvanizado 1 siga una
distribucin normal, vamos a actuar como si an no conocisemos dicha informacin. As,
determinamos el tipo de test ms apropiado. Para ello aplicamos el test de normalidad de
Shapiro-Wilk a ambas poblaciones:
Figura 8: Test Shapiro de galvanizado por averias
y los resultados de los mismos se detallan a continuacin:

> shapiro.test(subset(acero, subset = averias == ~No~)$pr.galv1)
data: subset(acero, subset = averias == ~No~)$pr.galv1
W = 0.8563, p-value = 8.081e-08
> shapiro.test(subset(acero, subset = averias == ~S~)$pr.galv1)
data: subset(acero, subset = averias == ~S~)$pr.galv1
W = 0.8805, p-value = 0.004117
A la vista de los resultados (ambos p-valores son menores de 00042) podemos considerar
la no normalidad de los datos y no disponemos de un nmero suficiente de datos (para
horas con avera slo contamos con 28 observaciones, tal como vimos en el ejemplo 2.1).
Por tanto vamos a abordar este problema realizando un test para muestras sin normalidad,
el test de Wilcoxon. En este caso, dada la naturaleza de los datos, se realizar el test de
Wilcoxon para muestras independientes.
Para este problema, puesto que el No representa la clase 1 y el S la clase 2, las hiptesis a
contrastar son:
H0 : Me1 Me2 (produccin menor o igual con avera)

H1 : Me1 < Me2 (produccin mayor con avera)
aunque de nuevo se podra considerar de la misma forma la alternativa de mayor (>) o de

distinto (), tal como ocurra con el test t de igualdad de medias.
Para realizar el test seguimos los siguientes pasos:
Estadsticos
Test no paramtricos
Test de Wilcoxon para dos muestras
Seleccionar las variables averias y pr.galv1

Marcar: Diferencia < 0
Aceptar
Los resultados obtenidos en este caso son:

> tapply(acero$consumo, acero$averias, median, na.rm = TRUE)
No
S
136.05 148.56
> wilcox.test(consumo ~ averias, alternative = ~less~, data = acero)
Wilcoxon rank sum test with continuity correction
W = 1088.5, p-value = 0.1579
alternative hypothesis: true location shift is less than 0
Como el p-valor (01579) es mayor que el nivel de significacin considerado (), no se

rechaza la hiptesis nula y, por tanto, no podemos concluir que la produccin de
galvanizado 1 sea mayor cuando haya averas. __
En el caso de que las muestras no fueran independientes se tendra que haber elegido, si no
se supone normalidad, el test de Wilcoxon para muestras pareadas. Dicho test se realiza
eligiendo la siguiente opcin del men:
Estadsticos
Test no paramtricos
Test de Wilcoxon para muestras pareadas
3.4. Comparacin de dos varianzas
Como ya comentamos, un paso previo al contraste t de igualdad de medias es determinar la

igualdad de varianzas, lo cual supone la realizacin de un test previo de igualdad de
varianzas. Para este contraste de hiptesis vamos a considerar dos tipos de test, segn la
naturaleza de los datos, tal como se detalla en el cuadro 5
Cuadro 5: Contrastes para igualdad de varianzas.

Contrastes para
Normalidad?
Tipo de test
comparar dos
Varianzas
Test F para dos varianzas
Varianzas
No
Test de Levene
En nuestro ejemplo comparamos el consumo con o sin averas y ya habamos visto que se
podan suponer ambas poblaciones normales. Por lo que realizaremos el test F para dos
varianzas.
Los distintos tipos de contrastes de hiptesis para dos varianzas, segn la hiptesis
alternativa considerada, son:
H 0 : 12 = 22
H 0 : 12 22
H 0 : 12 22
H1 : 1222
H 1 : 12 < 22
H 1 : 12 > 22
two.sided
less
greater
En el contraste de igualdad de medias, la comprobacin previa consiste precisamente en el

primero de estos tres contrastes. Vamos a ver como se realiza mediante el siguiente
ejemplo.
Ejemplo 3.6. Son iguales las varianzas del consumo con o sin averas?
Solucin:
Las hiptesis para el test son las siguientes.
H0 : 12 = 22 (varianzas iguales)
H1 : 1222 (varianzas distintas)
Los pasos a seguir para obtener el p-valor asociado a dicho contraste son:
Estadsticos
Varianzas
Test F para dos varianzas...

Sealar Bilateral
Aceptar
Los resultados que presenta el R al finalizar estos pasos son:

> tapply(acero$consumo, acero$averias, var, na.rm = TRUE)
No
S
3123.748 2802.630
> var.test(consumo ~ averias, alternative = ~two.sided~, conf.level = 0.95,
+
data = acero)
F test to compare two variances
F = 1.1146, num df = 88, denom df = 27, p-value = 0.7731
alternative hypothesis: true ratio of variances is not equal to 1
0.5696427 1.9686748
sample estimates:
ratio of variances
1.114577

hiptesis nula y, por tanto, podemos suponer que no existen diferencias significativas entre
las varianzas del consumo con o sin avera (tienen la misma varianza). __
Como ya hemos comentado, si quisisemos comparar la varianza de dos poblaciones que

no suponemos normales, se debera realizar el test de Levene. Vamos a ver su
funcionamiento mediante un ejemplo.
Ejemplo 3.7. Es homocedstica la produccin de galvanizado 1 (pr.galv1) segn las
averas?
Solucin:
Para la variable pr.galv1 sabamos que los datos se comportan sin normalidad. En este caso
se realiza el test de Levene. Las hiptesis del test son:
La realizacin de este test se lleva acabo como sigue:

Estadsticos
Varianzas
Test de Levene

Aceptar
Los resultados del test de Levene para estos datos son:

> levene.test(acero$pr.galv1, acero$averias)
No
S
114634.30 91694.27
Levenes Test for Homogeneity of Variance
Df F value Pr(>F)
group 1 4.1293 0.04445 *
115
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Como el p-valor (004445) es menor que se rechaza la hiptesis nula, podemos por tanto
suponer que hay diferencias significativas entre las varianzas. Ms an, podemos ver que la
varianza sin avera es de 11463430 mientras que cuando hay avera la varianza toma el
valor de 9169427. __
3.5. Test para la proporcin
Es frecuente el inters por saber qu proporcin o porcentaje de individuos de una

poblacin, presentan una caracterstica A, frente a los que no la presentan. Dicha
proporcin no ser en general conocida, pero se pueden hacer contrastes de hiptesis sobre
su valor, en funcin de los datos de una muestra. Para la realizacin de dichos tests es
necesario un tamao suficiente de muestra. Habitualmente se exige que dicho tamao (n)
sea mayor o igual que 30.
Por ejemplo de aplicacin de dichos tests sera si queremos saber si porcentaje de horas con
avera es excesivo, considerndose excesivo si el porcentaje es mayor del 10%.
Para responder a esta pregunta un contraste de hiptesis adecuado es el test de proporciones
para una muestra. Vamos a ver un ejemplo de aplicacin de dicho test.
Ejemplo 3.8. Siguiendo con los datos de nuestro ejemplo, puede considerarse que el
porcentaje de averas es mayor del 10%?
Solucin:
Tendramos en cuenta que p es la primera clase por orden alfabtico, en este caso No.
Plantearse si el porcentaje de horas con averas es mayor del 10% es lo mismo que
plantearse si el porcentaje de horas sin averas es menor del 90%. Puesto que los distintos
tipos de contrastes de hiptesis para la proporcin son de la forma:
H0 : p = 90%
H0 : p 90%
H0 : p 90%
H1 : p90%
H1 : p < 90%
H1 : p > 90%
two.sided
less
greater
las hiptesis a contrastar seran:
H0 : p 90% (proporcin razonable de averas)

H1 : p < 90% (proporcin excesiva de averas)
Ahora solo habra que hacer

Estadsticos
Proporciones
Test de proporciones para una muestra

Escribir 0.9 como hiptesis nula
Proporcin de la poblacin < p0
Aceptar
Las soluciones de este procedimiento son:

> prop.test(rbind(xtabs(~averias, data = acero)), alternative = ~less~,
+
p = 0.9, conf.level = 0.95, correct = FALSE)
1-sample proportions test without continuity correction
data: rbind(xtabs(~averias, data = acero)), null probability 0.9

X-squared = 25.2317, df = 1, p-value = 2.542e-07
alternative hypothesis: true p is less than 0.9
0.0000000 0.8192062
sample estimates:
p
0.7606838
Como el p-valor es tan pequeo (2542 10-7), se rechaza la hiptesis nula, por lo que se
concluye que ha habido un porcentaje excesivo de averas. En la muestra se ve que dicho
porcentaje ha sido de alrededor del 24%.
Otra manera de abordar el problema, sobre todo si hubiera ms de 2 clases sera reordenar
los niveles de factor y poner como primer factor de la variable averias el factor S.
Datos
Modificar variables
Recodificar niveles de factor

Aceptar
Reordenar de la forma deseada

Aceptar
Las salidas obtenidas son:

> acero$averias <- factor(acero$averias, levels = c(~S~, ~No~))
De esta manera las nuevas hiptesis del test sern:

H1 : p > 10% (proporcin excesiva de averas)
En estas condiciones el test se realizara del siguiente modo:

Estadsticos
Proporciones

Escribimos 0.1 como hiptesis nula
Proporcin de la poblacin > p0
Aceptar

> prop.test(rbind(xtabs(~averias, data = acero)), alternative = ~greater~,
+
p = 0.1, conf.level = 0.95, correct = FALSE)

alternative hypothesis: true p is greater than 0.1
0.1807938 1.0000000
sample estimates:
p
0.2393162
Como el p-valor (2542e - 07) (que es el mismo para los dos contrastes) es menor que se
rechaza la hiptesis nula y se concluye que la proporcin de averas es excesiva.
De nuevo vemos que para estos datos el porcentaje de horas con averas es de
aproximadamente el 24%. __
3.6. Comparacin de dos proporciones
Adems de analizar el comportamiento de una proporcin, se puede querer comparar la

proporcin de una determinada caracterstica en dos poblaciones distintas. Al igual que
ocurra en la seccin anterior, el nmero de datos en cada muestra debe ser suficientemente
grande (habitualmente se exigen al menos 30 datos por muestra).
As, por ejemplo, para poder determinar si el porcentaje de horas con avera es mayor
cuando estaba apagado el sistema que cuando no, deberamos plantear un test de
proporciones para dos muestras.
Los distintos tipos de contrastes de hiptesis en este caso son:
H 0 : p1 = p2
H 0 : p1 p2
H0 : p1 p2
H1 : p1p2
H 1 : p1 < p2
H1 : p1 > p2
two.sided
less
greater
donde p1 representa la proporcin en el primer grupo (por orden alfabtico) y p2 en el

segundo.
Vamos a ver el funcionamiento de este test a travs de un ejemplo concreto.
Ejemplo 3.9. El porcentaje de horas con avera es mayor cuando estaba encendido el
sistema que cuando no?
Solucin:
Hemos de tener en cuenta que p1 es siempre la primera clase por orden alfabtico. Como en
este caso trabajamos con las modalidades No y S, las hiptesis a contrastar son:
H0 : pNO pSI (igual o mejor con el sistema encendido)

H1 : pNO < pSI (peor con el sistema encendido)
La obtencin del p-valor asociado a este test se realizara mediante los siguientes pasos en
R:
Estadsticos
Proporciones
Test de proporciones para dos muestras...
Seleccionar las variables sistema y averias

Aceptar
Las salidas de este procedimiento son:

> prop.test(xtabs(~sistema + averias, data = acero), alternative = ~less~,
+
conf.level = 0.95, correct = FALSE)
2-sample test for equality of proportions without continuity
correction
data: xtabs(~sistema + averias, data = acero)
X-squared = 0.6641, df = 1, p-value = 0.2076
alternative hypothesis: less
-1.000000 0.065007
sample estimates:
prop 1 prop 2
0.7288136 0.7931034
Como el p-valor (02076) es mayor que no se rechaza la hiptesis nula, no hay evidencias
de que vaya peor con el sistema encendido. __
3.7. Relaciones entre variables
Muchas veces nos podemos preguntar si tiene sentido estudiar dos variables de forma
conjunta, si existe una relacin entre ellas y en caso de existir como de fuerte es esa
relacin.
Para contestar a estas preguntas se establece una serie de coeficientes:
Para estudiar la relacin general, se puede estudiar, entre otros, el

coeficiente Chi-cuadrado de Pearson.
Para estudiar la relacin lineal, el ms habitual es el coeficiente de

correlacin de Pearson.
Para seleccionar el contraste ms adecuado a la muestra, tendremos en cuenta la naturaleza

de nuestras variables.
Para variables Cuantitativas, Cuantitativas-Discretas o cuantitativas-Continuas
Discretizadas, se utiliza el test Chi-cuadrado de Pearson de independencia.
Para variables Cuantitativas-Continuas, se usar el test de correlacin de Pearson.
Las hiptesis a contrastar en este tipo de problemas son siempre del tipo:
H0: no existe relacin entre las variables
H1: s existe relacin entre las variables
donde la relacin ser o no del tipo lineal dependiendo del coeficiente utilizado en el
contraste.
As pues, un p-valor claramente menor de 005 indicar que existe relacin entre las
variables. Si es mayor de 005, los datos no nos proporcionarn evidencias de dicha
relacin.
Ejemplo 3.10. Existe relacin entre que haya habido o no averas y la lnea utilizada?
Solucin:
Como las variables son cualitativas vamos a utilizar el test chi-cuadrado. Para hacer esto
vamos a
Estadsticos
Tablas de contingencias
Tabla de doble entrada
Seleccionar las variables averias y linea

Aceptar
> xtabs(~averias + linea, data = acero)

linea
averias A B C
No 31 28 30
S 8 11 9
> chisq.test(xtabs(~averias + linea, data = acero), correct = FALSE)
Pearsons Chi-squared test
data: xtabs(~averias + linea, data = acero)
Como el p-valor (07199) es mayor que no se rechaza la hiptesis nula, es decir, no hay
evidencias de que las lneas afecten en que haya o no averas.
__
Ejemplo 3.11. Existe relacin entre la produccin de galv1 y de galv2?
Solucin:
Como las variables son cuantitativas continuas, podemos utilizar el test de correlacin de
Pearson, para lo cual haremos:
Estadsticos
Resmenes
Matriz de correlaciones
Seleccionar las variables pr.galv1 y pr.galv2

Aceptar

> cor.test(acero$pr.galv1, acero$pr.galv2, alternative = ~two.sided~,
+
method = ~pearson~)
Pearsons product-moment correlation
data: acero$pr.galv1 and acero$pr.galv2
t = 0.5331, df = 115, p-value = 0.595
alternative hypothesis: true correlation is not equal to 0

-0.1330859 0.2291146
sample estimates:
cor
0.04964655
Como el p-valor (0595) es mayor que no se rechaza la hiptesis nula. As pues, de nuevo
no hay evidencias de relacin lineal entre las dos producciones (al aumentar una no tiene
por qu aumentar o disminuir significativamente la otra).
__
3.8. Comparacin de ms de dos promedios
El anlisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una
variable cuantitativa. Se trata, por tanto, de una generalizacin del test t para dos muestras
independientes en el caso de diseos con ms de dos factores de agrupacin. Veremos aqu
su utilizacin como simple generalizacin de dicho test, aunque volveremos sobre este
tema en ms profundidad en los captulos 5 y 6.
A la variable categrica (nominal u ordinal) que define los grupos que deseamos comparar,
la llamamos independiente o factor. A la variable cuantitativa (de intervalo o razn) en la
que deseamos comparar los grupos, la llamamos dependiente.
Si queremos, por ejemplo, averiguar cul de tres programas distintos de incentivos aumenta
de forma ms eficaz el rendimiento de un determinado colectivo, podemos seleccionar tres
muestras aleatorias de ese colectivo y aplicar a cada una de ellas uno de los tres programas.
Despus, podemos medir el rendimiento de cada grupo y averiguar si existen o no
diferencias entre ellos. Tendremos una variable independiente categrica (el tipo de
programa de incentivos) cuyos niveles deseamos comparar entre s, y una variable
dependiente cuantitativa (la medida del rendimiento), en la cual queremos comparar los tres
programas. El ANOVA de un factor permite obtener informacin sobre el resultado de esa
comparacin. Es decir, permite concluir si los sujetos sometidos a distintos programas
difieren de la medida de rendimiento utilizada.
La hiptesis que se pone a prueba en el ANOVA de un factor es que las medias
poblacionales (las medias de la variable dependiente en cada nivel de la variable
independiente) son iguales. Si las medias poblacionales son iguales, eso significa que los
grupos no difieren en la variable dependiente y que, en consecuencia, la variable
independiente o factor no influye en la variable dependiente.
Lo que habitualmente se conoce como Anlisis de la varianza es una versin paramtrica
del test de la F. Para poder aplicarse deben verificarse ciertas condiciones previas
(normalidad, independencia y homocedasticidad (igualdad de varianzas)). En caso contrario
existen alternativas paramtricas y no paramtricas.
NORMALIDAD
HOMOCEDASTICIDAD
NO*
NO
TEST RECOMENDADO
Test de la F
Test de Welch o
Test de Kruskal Wallis
NO
S o NO
*No drstico, p-valores del test de normalidad entre 001 y 005.
Recordar que la normalidad la estudibamos con el test de Shapiro-Wilk, mientras que la

homocedasticidad se puede comprobar utilizando el test de Barlett.
En este tipo de tests de igualdad de ms de dos promedios, las hiptesis a contrastar son:
H0: promedios iguales
H1: no todos los promedios son iguales
Si volvemos a mirar la regla de decisin, dicha decisin en este caso sera:
P-valor <
Rechazo H0 (no todos los promedios son

iguales)
P-valor
No rechazo H0 (los promedios son iguales)
Vamos a ver varios ejemplos con algunos de los casos que se pueden presentar.
Ejemplo 3.12. Comparar el consumo promedio para las tres temperaturas.
Solucin:
Lo primero que tenemos que estudiar es la normalidad de los datos para cada grupo de
temperatura, para ello utilizbamos es test de Shapiro-Wilk, que tena como hiptesis:

La forma ms rpida de realizar los tres tests (uno para cada modalidad de la temperatura)
es escribir en la lnea de comandos:
Figura 9: Test de Shapiro-Wilk para el consumo por temperatura
Cuyos resultados son:

> shapiro.test(subset(acero, subset = temperatura == ~Alta~)$consumo)
data: subset(acero, subset = temperatura == ~Alta~)$consumo
W = 0.9748, p-value = 0.4112
> shapiro.test(subset(acero, subset = temperatura == ~Media~)$consumo)

data: subset(acero, subset = temperatura == ~Media~)$consumo
W = 0.9499, p-value = 0.1323
> shapiro.test(subset(acero, subset = temperatura == ~Baja~)$consumo)
data: subset(acero, subset = temperatura == ~Baja~)$consumo
W = 0.9662, p-value = 0.2993
Los p-valores obtenidos son, respectivamente, 04112, 01323 y 02993, con lo que en todos
los casos es suficientemente grande como para no rechazar la hiptesis nula (se puede
admitir la normalidad).
Para contrastar la igualdad de varianzas en ms de dos poblaciones, se utiliza el test de
Barlett, que tiene como hiptesis:
H0: las varianzas son iguales

H1: las varianzas son distintas
Para realizar dicho test vamos a:

Estadsticos
Varianzas
Test de Bartlett
Seleccionar temperatura y consumo

Aceptar
Cuyas salidas son:

> bartlett.test(consumo ~ temperatura, data = acero)
Bartlett test of homogeneity of variances
data: consumo by temperatura
Bartletts K-squared = 1.4052, df = 2, p-value = 0.4953
Como el p-valor (04953) es mayor que no se rechaza la hiptesis nula, con lo que se
pueden suponer las varianzas iguales. Como hay normalidad y homocedasticidad, el test
que realizaremos es el test de la F para la igualdad de medias, es decir, el tpico anlisis de
la varianza de un factor. A este modelo le vamos a llamar Anova1. Los pasos a seguir para
obtener el correspondiente p-valor son:
Estadsticos
Medias
ANOVA de un factor
Introducimos el nombre Anova1

Aceptamos

> Anova1 <- aov(consumo ~ temperatura, data = acero)
> summary(Anova1)
Df Sum Sq Mean Sq F value Pr(>F)
temperatura 2 101567 50783 23.001 4.06e-09 ***
Residuals 114 251701 2208
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
> numSummary(acero$consumo , groups=acero$temperatura, statistics=c(

~mean~,
+ ~sd~))
mean
sd n
Alta 109.4409 51.13719 46
Media 138.7297 45.58685 38
Baja 182.1333 42.25437 33
Como el p-valor (406 10-9) es menor que , se rechaza la hiptesis nula, con lo que se
puede suponer que no todas las medias son iguales.
Grficamente podramos ver como se comporta cada grupo haciendo los correspondientes
diagramas de cajas o grficos de medias.
Comenzaremos con los diagramas de cajas:
Grficas
Diagrama de cajas...
Seleccionar consumo
Grfica segn:temperatura
Aceptar
Con lo que se obtiene:

> boxplot(consumo ~ temperatura, ylab = ~Consumo~, xlab = ~Temperatu
ra~,
+
data = acero)
Aunque el diagrama de cajas es muy utilizado, al estar comparando medias, un grfico ms

adecuado podra ser el de medias. Para obtenerlo los pasos a seguir son:
Grficas
Grficas de la media
Seleccionar las variables temperatura y consumo

Aceptar
Con el procedimiento anterior se obtendran los grficos de medias para los tres grupos de
temperatura. Bien modificando las salidas en la ventana de instrucciones o bien tecleando
directamente, podemos cambiar las opciones del grfico, como por ejemplo las etiquetas de
los ejes o el ttulo del grfico. Para ello deberamos ejecutar la siguiente orden:
Cuyas salidas son:

> plotMeans(acero$consumo, acero$temperatura, error.bars = ~conf.int~,
+
level = 0.95, xlab = ~Temperatura~, ylab = ~Consumo~, n.label = FALS
E,
+
main = ~Distribucin del consumo por temperatura~, col = ~black~,
+
barcol = ~blue~, connect = TRUE)
Si se rechaza la hiptesis nula, es decir, si se concluye que las medias no son todas iguales,
no ocurre como en el caso de dos poblaciones en el que claramente una de ellas tendra
media superior a la otra, sino que ahora habr que evaluar las relaciones entre las distintas
poblaciones. Existen una gran cantidad de test que realizan comparaciones mltiples. Cabe
destacar, por su uso ms extendido, Duncan, Newman-Keuls, Bonferroni, Scheff y HSD
de Tukey.
Para realizar esta comparacin solo hay que marcar la casilla: Comparacin dos a dos de las
medias, tal como puede verse a continuacin:
Estadsticos
Medias
ANOVA de un factor

Seleccionanos temperatura y consumo
Comparacin dos a dos de las medias
Aceptamos
Cuyas salidas son:

> comparacion <- glht(Anova1, linfct = mcp(temperatura = ~Tukey~))
> summary(comparacion)
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Tukey Contrasts
Fit: aov(formula = consumo ~ temperatura, data = acero)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
B - A == 0 72.69
10.72 6.781 <0.001 ***
M - A == 0 29.29
10.30 2.843 0.0146 *
M - B == 0 -43.40
11.18 -3.882 <0.001 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
(Adjusted p values reported -- single-step method)
Simultaneous Confidence Intervals


Quantile = 2.3738
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr
upr
Media - Alta == 0 72.6925 47.2471 98.1378
Baja - Alta == 0 29.2889 4.8377 53.7400
Baja - Media == 0 -43.4036 -69.9442 -16.8630
> plot(comparacion)
Para aadir la lnea vertical tenemos que poner en la lnea de comandos:
tal como puede verse a continuacin:

abline(v = 0, col = ~red~)
y ejecutar la lnea de comando.

A la vista del grfico podemos concluir que el consumo a temperatura alta es mayor que a
temperatura media o baja y el consumo a temperatura media es significativamente mayor
que el consumo a temperatura baja. __
Ejemplo 3.13. Comparar el consumo promedio para las tres lneas.
Solucin:
Al igual que antes veamos si los datos estn normalizados y hay homocedasticidad.
Para la normalidad aplicamos el test de Shapiro-Wilk, como lo hay que realizar por casos lo
tenemos que implementar por comandos, para ello escribimos
y obtenemos:
> shapiro.test(subset(acero, subset = linea == ~A~)$consumo)
data: subset(acero, subset = linea == ~A~)$consumo
W = 0.9597, p-value = 0.1738
> shapiro.test(subset(acero, subset = linea == ~B~)$consumo)
data: subset(acero, subset = linea == ~B~)$consumo
W = 0.9485, p-value = 0.07302
> shapiro.test(subset(acero, subset = linea == ~C~)$consumo)
data: subset(acero, subset = linea == ~C~)$consumo
W = 0.9887, p-value = 0.9584
Para los datos de la lnea A el p-valor es 01738, para los de la lnea B es 007302 y para los
de la C es 09584. En los tres casos suficientemente grande como para que no se rechace la
hiptesis nula (se puede admitir la normalidad).
La homocedasticidad la estudiamos por medio del test de Bartlett:
Estadsticos
Varianzas
Test de Bartlett
Seleccionar las variables linea y consumo

Aceptar

> tapply(acero$consumo, acero$linea, var, na.rm = TRUE)
A
B
C
1574.079 3559.603 2239.063
> bartlett.test(consumo ~ linea, data = acero)
data: consumo by linea
Dado que el p-valor (004251) es menor que , se rechaza la hiptesis nula al nivel 005,
con lo que no pueden suponerse las varianzas iguales. En este caso, como no hay
homocedasticidad, realizaremos el test de Kruskal-Wallis, donde las hiptesis a contrastar
son:
H0 : promedios iguales para A, B y C
H1: no todas los promedios son iguales
Para realizar el test hacemos:

Estadsticos
Test no paramtricos
Test de Kruskal-Wallis

Aceptar
Obteniendo los siguientes resultados:

> kruskal.test(consumo ~ linea, data = acero)
Kruskal-Wallis rank sum test
Kruskal-Wallis chi-squared = 26.5836, df = 2, p-value = 1.688e-06
Como el p-valor (1688 10-6) es menor que se rechaza la hiptesis nula, no todas las
medias son iguales. Grficamente lo podemos ver mediante diagramas de cajas:
Grficas
Diagrama de cajas
Seleccionar consumo
Grfica segn:linea
Aceptar
Bien tecleando directamente el cdigo o bien modificando las salidas del proceso anterior
se pueden hacer modificaciones en el grfico. As, mediante la orden por comandos
obtenemos el siguiente diagrama de cajas:

> boxplot(consumo~linea, ylab=~consumo~, xlab=~linea~, data=acero)
Aunque en este caso sera menos aconsejable, tambin podramos hacer un grfico de
medias. Los pasos a seguir son:
Grficas
Grficas de la media

Aceptar
Con el procedimiento anterior se obtendra el correspondiente grfico de medias. No

obstante, vamos a hacer modificaciones en la ventana de instrucciones a fin de especificar
ciertas opciones del grfico. As, ejecutaremos la siguiente orden de comandos:
Dicha ejecucin da lugar a las siguientes salidas:

> plotmeans(acero$consumo ~ acero$linea, error.bars = ~conf.int~,
+
level = 0.95, xlab = ~Linea~, ylab = ~Consumo~, n.label = FALSE,
+
main = ~Distribucin del consumo por linea~, col = ~black~,
+
barcol = ~blue~, connect = TRUE)
__
3.1. Introduccin
Los mtodos descriptivos proporcionan una idea de cmo es la muestra. Para obtener
conclusiones relativas a la poblacin necesitamos utilizar tcnicas de inferencia estadstica.
Dentro de stas la ms habitual es el contraste de hiptesis.
Una hiptesis es una afirmacin sobre las caractersticas estadsticas de un proceso, por lo
que se puede considerar una hiptesis como una conjetura. Por ejemplo: si un tcnico
observa el consumo de energa durante varias horas, sabr el consumo medio de las horas
que observ. Con la ayuda de la inferencia, puede avanzar un paso ms y conjeturar que el
consumo medio de todas las horas de trabajo en esa fbrica es de 120. El proceso cientfico
consiste entonces en probar su hiptesis contra una hiptesis alternativa:
Hiptesis nula H0:
Hiptesis alternativa H1:
consumo medio
consumo medio
120
120
Un test consiste en un procedimiento estadstico para determinar la validez de una hiptesis

(la hiptesis nula). Si los datos de la muestra resultan poco crebles de obtenerse en caso de
ser cierta dicha hiptesis, nuestra razn nos obligar a rechazarla. En caso contrario, no hay
base suficiente para rechazarla. La aceptacin de la hiptesis nula es muy difcil si slo se
usan procedimientos estadsticos. Sin embargo, desde el punto de vista prctico, el no
rechazo de una hiptesis nos llevar a concluir que no hay evidencias significativas en
contra de dicha hiptesis y, por tanto, que puede considerarse admisible.
La forma habitual de presentar los resultados de un test de hiptesis es a travs del p-valor
o nivel crtico. Simplemente con este nmero se puede concluir si la hiptesis nula es o no
rechazada a un nivel de significacin (). El p-valor es el nivel de significacin menor que
llevara al rechazo de la hiptesis nula H0. Una vez que se conoce el p-valor, el responsable
de tomar las decisiones puede determinar por s mismo en qu medida son significativos los
datos sin que se le imponga formalmente un nivel de significacin predeterminado. Una vez
conocido el valor del p-valor y fijado el nivel de significacin del contraste, la decisin a
tomar se obtiene comparando ambos valores, tal como puede verse en el cuadro 2.
Cuadro 2: Regla de decisin.
REGLA DE DECISIN
P-valor <
Rechazo H0
P-valor
No rechazo H0

La decisin es el ltimo paso de un contraste de hiptesis. Un esquema de todo el proceso
asociado a un contraste puede verse en la figura 5. En dicho esquema se pone de manifiesto
el hecho de que los niveles de significacin habituales son siempre menores de 01,
destacando los valores 01, 005 y 001. De entre todos ellos, el nivel 005 predomina con
claridad.
Figura 5: Pasos en un contraste de hiptesis.

Como ejemplos de test de hiptesis, vamos a considerar algunos de los ms habituales en la
prctica. stos aparecen descritos a continuacin, junto con un ejemplo de pregunta que
sera contestada mediante dicho test.
Promedio de una poblacin: El consumo medio es menor de 140?
Comparacin de promedios: El consumo medio es mayor cuando hubo averas?
Proporcin poblacional: El porcentaje de horas con averas es mayor del 10%?
Comparacin de proporciones: El porcentaje de horas con averas es mayor cuando

estaba encendido el sistema que cuando no?
Desviacin tpica: La variabilidad del consumo es menor de 50?
Comparacin de desviaciones tpicas: La variabilidad del consumo es la misma

durante las horas que hubo averas y durante las que no?
Ejemplos de la mayora de los contrastes anteriores sern analizados en detalle en las

Secciones 3.2 a 3.6.
3.2. Tests para el promedio
Para realizar un test cualquiera debemos considerar las siguientes etapas: seleccionar el
contraste adecuado en el caso en estudio, establecer quines son H0 y H1 en ese contraste e
interpretar el p-valor. En un test sobre el valor promedio de la poblacin, debemos tener en
cuenta si los datos siguen aproximadamente una distribucin normal o no, as como el
tamao de la muestra, y segn sea el resultado, decidir qu contraste realizamos (cuadro 3).
Cuadro 3: Contrastes para el promedio.
Contraste para la Distribucin aproximadamente Tipo de test
normal o n grande?
Media ()
S
Mediana (Me)
No
Test de Wilcoxon para una muestra
Si la muestra dispone de un suficiente nmero de datos (habitualmente se exige que tenga

al menos 30), se puede utilizar el test t para una muestra para realizar contrastes acerca de
la media de la poblacin. En caso contrario, es necesario que se pueda admitir la
normalidad de los datos para realizar dicho test. Si no fuera normal, se utilizara el test de
Wilcoxon para una muestra. En los contrastes de normalidad de los datos utilizaremos del
test de Shapiro-Wilk. Para este test las hiptesis a contrastar son:
TEST DE BONDAD DE AJUSTE A LA NORMAL
REGLA DE DECISIN
P-valor <
P-valor
Rechazo H 0 (la distribucin no es normal)

No rechazo H0 (se puede admitir la normalidad)
Generalmente se considera = 005

.
En nuestro ejemplo, si queremos analizar el valor promedio de la variable consumo, al tener
117 datos ya podemos utilizar directamente el test t para una muestra. As pues, estamos en
condiciones de realizar un contraste para la media, comparndola con el valor 120. El test
adecuado en este caso es el test t para una muestra, cuyas hiptesis a contrastar (H0 y H1)
pueden ser de tres tipos:
H0 : = 120
H1 : 120
H0 : 120
H1 : < 120
Ejemplo 3.1. Es el consumo medio igual a 120?

Solucin: En este caso se tiene:
H0:
H1:
Estadsticos
Medias
Test t para una muestra...
el consumo medio es de 120

el consumo medio no es de 120
H0 : 120
H1 : > 120

Aceptar
Las salidas de este test son:

> t.test(acero$consumo, mu = 120, conf.level = 0.95)
One Sample t-test
data: acero$consumo
t = 3.8136, df = 116, p-value = 0.0002210
alternative hypothesis: true mean is not equal to 120
129.3516 149.5614
sample estimates:
mean of x
139.4565
Puesto que la adaptacin de la regla de decisin a este test en particular sera:

P-valor <
P-valor
Rechazo H0 (consumo medio 120)

No rechazo H0 (consumo medio = 120)

simplemente debemos considerar el valor del p-valor asociado a este contraste para esta
muestra y, en base a l, tomar la decisin correspondiente. Puesto que hemos obtenido que
el p-valor es 00002210, ste es menor que = 005, por lo que la decisin es rechazar la
hiptesis nula (H0). Como conclusin podemos decir que la media poblacional es distinta
de 120. __
El ejemplo anterior corresponde al tipo de test bilateral, puesto que la hiptesis alternativa
es que el valor del parmetro es distinto de un nmero. Cuando la alternativa lleve el
smbolo menor (<) o mayor (>), en lugar del smbolo distinto (, se denomina test
unilateral. En ejemplo de dicho tipo de test unilateral puede verse a continuacin.
Ejemplo 3.2. El consumo medio es menor de 140?
Solucin: En este caso, tal como comentamos en el ejemplo anterior, se verifican las
hiptesis para utilizar el test t para una muestra. As, el test adecuado para contestar a esta
pregunta contrastara las siguientes hiptesis:
H0:
H1:
el consumo medio es mayor o igual que 140

el consumo medio es menor de 140
y sera realizado tal como sigue:

Estadsticos
Medias

Marcar Media poblacional < mu0
Aceptar

> t.test(acero$consumo, alternative = ~less~, mu = 140, conf.level = 0.95)
One Sample t-test
data: acero$consumo
t = -0.1065, df = 116, p-value = 0.4577
alternative hypothesis: true mean is less than 140
-Inf 147.9159
sample estimates:
mean of x
139.4565
Como el p-valor (04577) supera los valores habituales de , no se rechaza la hiptesis nula,
por lo que podemos concluir que estos datos no aportan evidencias suficientes de que la
media sea menor de 140. __
Vamos por ltimo a analizar el caso de una variable en la que no se den las condiciones
para aplicar el test t para una muestra.
Ejemplo 3.3. Durante los das que hubo averas, la produccin promedio de galvanizado 1
se sita en menos de 400 toneladas?
Solucin:
Comenzaremos seleccionando los datos para quedarnos slo con aquellos que corresponden
a das en los que hubo averas. Para ello podemos seguir los siguientes pasos:
Datos
Filtrar el conjunto de datos...
Seleccionar averias
Expresin de averias=="S"
Nombre del nuevo acero2
Aceptar
Datos
Actualizar conjunto de datos activo
As, disponemos de un nuevo conjunto de datos activado, solamente con los datos relativos
a las horas en las que hubo avera. Como son 28 datos, tal como vimos en el ejemplo 2.1,
no podemos aplicar sin ms el test t para la media y debemos comprobar si se cumple la
hiptesis de normalidad.
Realizaremos pues el test de normalidad a la variable pr.galv1.
Estadsticos
Resmenes
Test de normalidad de Shapiro
Seleccionar pr.galv1
Aceptar
Los resultados de dicho test son:

> shapiro.test(acero2$pr.galv1)
W = 0.8805, p-value = 0.004117
Como el p-valor (0004118) es menor que = 005, se rechaza la hiptesis nula, por lo tanto
no hay normalidad.
Cmo podemos hacer para contrastar la hiptesis sobre el valor promedio de la produccin
de galvanizado 1 en las horas con averas? Al no haber normalidad y disponer de pocos
datos, debemos realizar el test de Wilcoxon para una muestra. Para ste los distintos tipos
de contrastes de hiptesis para la mediana son:
H0 : Me = 400
H1 : Me400
H0 : Me 400
H1 : Me < 400
H0 : Me 400
H1 : Me > 400
two.sided
less
greater
La hiptesis que nos interesa es:

La produccin promedio es menor de 400?
H0 : Me 400 (la produccin promedio es alta)
H1 : Me < 400 (la produccin promedio es baja)
Para realizar este test escribimos en la ventana de instrucciones lo que sigue:
wilcox.test(acero2$PR.GALV1,alternative=~less~,mu=400)
y pinchamos en Ejecutar.
Figura 6: Test de Wilcox para una muestra
Lo que da como resultado

> wilcox.test(acero2$pr.galv1, alternative = ~less~, mu = 400)
Wilcoxon signed rank test with continuity correction
V = 277, p-value = 0.9552
alternative hypothesis: true location is less than 400
hiptesis nula, por lo tanto podemos suponer que la produccin es alta, es decir mayor o
igual de 400. __
3.3. Comparacin de dos promedios
La comparacin de dos promedios consiste en comprobar si el promedio de una variable
vara segn determinadas caractersticas. Dependiendo de la situacin existen diversas
posibilidades de contrastes. El cuadro 4 recoge los principales tests aplicados
habitualmente.
Cuadro 4: Contrastes para igualdad de promedios.
Independientes
Distribuciones
?
Tipo de test
Contrastes
para
aproximadamente
normales o
comparar dos
tamaos
muestrales
grandes?
Medias
S
S
Medias
S
No
Test t para datos relacionados
Medianas
No
S
Test de Wilcoxon para muestras
Medianas
No
No
pareadas
Ejemplo 3.4. Se puede afirmar que cuando se producen averas el consumo de energa se
incrementa?
Solucin: Lo primero de todo ser volver a activar la base de datos acero. Para ello,
pinchamos a la derecha de Conjunto de datos:, en el botn que pone acero2 y
seleccionamos de nuevo la base de datos acero.
Una vez hecho esto, vamos a verificar la normalidad del consumo para cada uno de las dos
situaciones (cuando haya averas y cuando no) mediante el test de Shapiro-Wilk. Para esto
ponemos en la lnea de comandos:
Figura 7: Normalidad del consumo segn las averas

Los resultados de ejecutar ambas lneas de comando son:
> shapiro.test(subset(acero, subset = averias == ~No~)$consumo)
data: subset(acero, subset = averias == ~No~)$consumo
W = 0.9869, p-value = 0.5137
> shapiro.test(subset(acero, subset = averias == ~S~)$consumo)
data: subset(acero, subset = averias == ~S~)$consumo
W = 0.9644, p-value = 0.4408
Los p-valores correspondientes superan el nivel , por lo que podemos considerar
normalidad en ambos casos.
Por la naturaleza del problema, es evidente que se puede trabajar con la hiptesis de que las
poblaciones son independientes, con lo cual estamos en condiciones de aplicar el test t para
muestras independientes. Ahora bien, a la hora de realizar dicho test es necesario
especificar si se supone que las varianzas son iguales o no, puesto que el estadstico
utilizado al obtener el p-valor y, por tanto, el valor de dicho p-valor, difiere segn la opcin
elegida. En la seccin 3.4 se puede ver cmo contrastar la igualdad de varianzas. El
contraste para este ejemplo en particular est realizado en el Ejemplo 3.6, donde se obtiene
que no hay evidencias en contra de suponer que las varianzas de ambas poblaciones sean
iguales. En estas circunstancias, aplicamos el test t para muestras independientes,

suponiendo las varianzas iguales.
Dependiendo de la hiptesis alternativa considerada, los tres contrastes que podemos
realizar con el test t para muestras independientes para comparar las medias de dos
poblaciones son:
H0 : 1 = 2
H1 : 12
H0 : 1 2
H1 : 1 < 2
H0 : 1 2
H1 : 1 > 2
Ahora bien, antes de nada debemos tener claro a quien asigna R como primera clase (clase
1 con media 1) y como segunda clase (clase 2 con media 2). Por defecto, el programa
considera el orden alfabtico, es decir, si como en este caso las clases son No y S, la
primera clase corresponde al no (sin averas y la segunda al s (con avera). Que consuma
ms con avera se traducira por lo tanto en 2 > 1, por lo que para este ejemplo vamos a
considerar el contraste:
H0 : 1 2 (consumo menor o igual con avera)
H1 : 1 < 2 (consumo mayor con avera)
y para calcularlo procedemos de la siguiente forma:
Estadsticos
Medias

Marcar: Diferencias < 0
Marcar: Varianzas iguales
Aceptar
Los resultados de estos pasos son:

> t.test(consumo ~ averias, alternative = ~less~, conf.level = 0.95,
+ var.equal = TRUE, data = acero)
Two Sample t-test
t = -0.9423, df = 115, p-value = 0.174
alternative hypothesis: true difference in means is less than 0
-Inf 8.564113
sample estimates:
mean in group No mean in group S
136.7585
148.0321
Como el p-valor (0174) es mayor que el nivel de significacin , no se rechaza la hiptesis
nula. As pues, los datos no aportan evidencias de que el consumo promedio sea mayor
cuando haya avera. __
Qu ocurrira si las poblaciones no fueran independientes?
En tal caso, si suponemos normalidad, realizamos el test t para muestras relacionadas. Se
elige la siguiente opcin del men:
Estadsticos
Medias
Test t para muestras relacionadas
Sera este el caso, por ejemplo, si comparamos la resistencia de una pieza antes y despus
de aplicarle un procedimiento en el horno, el nivel de glbulos rojos de una persona antes y
despus de recibir un determinado tratamiento o la produccin de galvanizado tipo 1 y la
produccin de galvanizado tipo 2.
Cuando las poblaciones no son normales y no tienen suficiente nmero de datos
(habitualmente se suele exigir al menos 30) se realiza el test de Wilcoxon para dos muestras
si las poblaciones son independientes, o el test de Wilcoxon para muestras pareadas si tal
independencia no es supuesta. Realicemos unos ejemplos para aclarar tales situaciones.
Ejemplo 3.5. Estudie el comportamiento de la produccin de galvanizado 1 en funcin de
las averas.
Solucin:
Aunque ya sabemos que no podemos asegurar que la produccin de galvanizado 1 siga una
distribucin normal, vamos a actuar como si an no conocisemos dicha informacin. As,
determinamos el tipo de test ms apropiado. Para ello aplicamos el test de normalidad de
Shapiro-Wilk a ambas poblaciones:
Figura 8: Test Shapiro de galvanizado por averias

y los resultados de los mismos se detallan a continuacin:
> shapiro.test(subset(acero, subset = averias == ~No~)$pr.galv1)
data: subset(acero, subset = averias == ~No~)$pr.galv1
W = 0.8563, p-value = 8.081e-08
> shapiro.test(subset(acero, subset = averias == ~S~)$pr.galv1)
data: subset(acero, subset = averias == ~S~)$pr.galv1
W = 0.8805, p-value = 0.004117
A la vista de los resultados (ambos p-valores son menores de 00042) podemos considerar
la no normalidad de los datos y no disponemos de un nmero suficiente de datos (para
horas con avera slo contamos con 28 observaciones, tal como vimos en el ejemplo 2.1).
Por tanto vamos a abordar este problema realizando un test para muestras sin normalidad,
el test de Wilcoxon. En este caso, dada la naturaleza de los datos, se realizar el test de
Wilcoxon para muestras independientes.
Para este problema, puesto que el No representa la clase 1 y el S la clase 2, las hiptesis a
contrastar son:
H0 : Me1 Me2 (produccin menor o igual con avera)
H1 : Me1 < Me2 (produccin mayor con avera)
aunque de nuevo se podra considerar de la misma forma la alternativa de mayor (>) o de

distinto (), tal como ocurra con el test t de igualdad de medias.
Para realizar el test seguimos los siguientes pasos:
Estadsticos
Test no paramtricos

Aceptar
Los resultados obtenidos en este caso son:

> tapply(acero$consumo, acero$averias, median, na.rm = TRUE)
No S
136.05 148.56
> wilcox.test(consumo ~ averias, alternative = ~less~, data = acero)
Wilcoxon rank sum test with continuity correction
W = 1088.5, p-value = 0.1579
alternative hypothesis: true location shift is less than 0
Como el p-valor (01579) es mayor que el nivel de significacin considerado (), no se
rechaza la hiptesis nula y, por tanto, no podemos concluir que la produccin de
galvanizado 1 sea mayor cuando haya averas. __
En el caso de que las muestras no fueran independientes se tendra que haber elegido, si no
se supone normalidad, el test de Wilcoxon para muestras pareadas. Dicho test se realiza
eligiendo la siguiente opcin del men:
Estadsticos
Test no paramtricos
Test de Wilcoxon para muestras pareadas
3.4. Comparacin de dos varianzas

Como ya comentamos, un paso previo al contraste t de igualdad de medias es determinar la
igualdad de varianzas, lo cual supone la realizacin de un test previo de igualdad de
varianzas. Para este contraste de hiptesis vamos a considerar dos tipos de test, segn la
naturaleza de los datos, tal como se detalla en el cuadro 5
Cuadro 5: Contrastes para igualdad de varianzas.

Contrastes para
Normalidad?
Tipo de test
comparar dos
Varianzas
S
Test F para dos varianzas
Varianzas
No
Test de Levene
En nuestro ejemplo comparamos el consumo con o sin averas y ya habamos visto que se
podan suponer ambas poblaciones normales. Por lo que realizaremos el test F para dos
varianzas.
Los distintos tipos de contrastes de hiptesis para dos varianzas, segn la hiptesis
alternativa considerada, son:
H0 : 12 = 22
H1 : 1222
H0 : 12 22
H1 : 12 < 22
H0 : 12 22
H1 : 12 > 22
two.sided
less
greater
En el contraste de igualdad de medias, la comprobacin previa consiste precisamente en el

primero de estos tres contrastes. Vamos a ver como se realiza mediante el siguiente
ejemplo.
Ejemplo 3.6. Son iguales las varianzas del consumo con o sin averas?
Solucin:
Las hiptesis para el test son las siguientes.
Los pasos a seguir para obtener el p-valor asociado a dicho contraste son:
Estadsticos
Varianzas
Test F para dos varianzas...

Sealar Bilateral
Aceptar
Los resultados que presenta el R al finalizar estos pasos son:

> tapply(acero$consumo, acero$averias, var, na.rm = TRUE)
No
S
3123.748 2802.630
> var.test(consumo ~ averias, alternative = ~two.sided~, conf.level = 0.95,
+ data = acero)
F test to compare two variances

F = 1.1146, num df = 88, denom df = 27, p-value = 0.7731
alternative hypothesis: true ratio of variances is not equal to 1
0.5696427 1.9686748
sample estimates:
ratio of variances
1.114577
hiptesis nula y, por tanto, podemos suponer que no existen diferencias significativas entre
las varianzas del consumo con o sin avera (tienen la misma varianza). __
Como ya hemos comentado, si quisisemos comparar la varianza de dos poblaciones que
no suponemos normales, se debera realizar el test de Levene. Vamos a ver su
funcionamiento mediante un ejemplo.
Ejemplo 3.7. Es homocedstica la produccin de galvanizado 1 (pr.galv1) segn las
averas?
Solucin:
Para la variable pr.galv1 sabamos que los datos se comportan sin normalidad. En este caso
se realiza el test de Levene. Las hiptesis del test son:
La realizacin de este test se lleva acabo como sigue:
Estadsticos
Varianzas
Test de Levene

Aceptar
Los resultados del test de Levene para estos datos son:

> levene.test(acero$pr.galv1, acero$averias)
No
S
114634.30 91694.27
Levenes Test for Homogeneity of Variance
Df F value Pr(>F)
group 1 4.1293 0.04445 *
115
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Como el p-valor (004445) es menor que se rechaza la hiptesis nula, podemos por tanto
suponer que hay diferencias significativas entre las varianzas. Ms an, podemos ver que la
varianza sin avera es de 11463430 mientras que cuando hay avera la varianza toma el
valor de 9169427. __
3.5. Test para la proporcin

Es frecuente el inters por saber qu proporcin o porcentaje de individuos de una
poblacin, presentan una caracterstica A, frente a los que no la presentan. Dicha
proporcin no ser en general conocida, pero se pueden hacer contrastes de hiptesis sobre
su valor, en funcin de los datos de una muestra. Para la realizacin de dichos tests es
necesario un tamao suficiente de muestra. Habitualmente se exige que dicho tamao (n)
sea mayor o igual que 30.
Por ejemplo de aplicacin de dichos tests sera si queremos saber si porcentaje de horas con
avera es excesivo, considerndose excesivo si el porcentaje es mayor del 10%.
Para responder a esta pregunta un contraste de hiptesis adecuado es el test de proporciones
para una muestra. Vamos a ver un ejemplo de aplicacin de dicho test.
Ejemplo 3.8. Siguiendo con los datos de nuestro ejemplo, puede considerarse que el
porcentaje de averas es mayor del 10%?
Solucin:
Tendramos en cuenta que p es la primera clase por orden alfabtico, en este caso No.
Plantearse si el porcentaje de horas con averas es mayor del 10% es lo mismo que
plantearse si el porcentaje de horas sin averas es menor del 90%. Puesto que los distintos
tipos de contrastes de hiptesis para la proporcin son de la forma:
H0 : p = 90%
H1 : p90%
H0 : p 90%
H1 : p < 90%
H0 : p 90%
H1 : p > 90%
two.sided
less
greater
las hiptesis a contrastar seran:

H1 : p < 90% (proporcin excesiva de averas)
Ahora solo habra que hacer

Estadsticos
Proporciones

Escribir 0.9 como hiptesis nula
Proporcin de la poblacin < p0
Aceptar
Las soluciones de este procedimiento son:

> prop.test(rbind(xtabs(~averias, data = acero)), alternative = ~less~,
+ p = 0.9, conf.level = 0.95, correct = FALSE)

alternative hypothesis: true p is less than 0.9
0.0000000 0.8192062
sample estimates:
p
0.7606838
Como el p-valor es tan pequeo (2542 10-7), se rechaza la hiptesis nula, por lo que se
concluye que ha habido un porcentaje excesivo de averas. En la muestra se ve que dicho
porcentaje ha sido de alrededor del 24%.
Otra manera de abordar el problema, sobre todo si hubiera ms de 2 clases sera reordenar
los niveles de factor y poner como primer factor de la variable averias el factor S.
Datos
Modificar variables
Recodificar niveles de factor

Aceptar
Reordenar de la forma deseada

Aceptar

> acero$averias <- factor(acero$averias, levels = c(~S~, ~No~))
De esta manera las nuevas hiptesis del test sern:
H1 : p > 10% (proporcin excesiva de averas)
En estas condiciones el test se realizara del siguiente modo:
Estadsticos
Proporciones

Escribimos 0.1 como hiptesis nula
Proporcin de la poblacin > p0
Aceptar

> prop.test(rbind(xtabs(~averias, data = acero)), alternative = ~greater~,
+ p = 0.1, conf.level = 0.95, correct = FALSE)

alternative hypothesis: true p is greater than 0.1
0.1807938 1.0000000
sample estimates:
p
0.2393162
Como el p-valor (2542e - 07) (que es el mismo para los dos contrastes) es menor que se
rechaza la hiptesis nula y se concluye que la proporcin de averas es excesiva.
De nuevo vemos que para estos datos el porcentaje de horas con averas es de
aproximadamente el 24%. __
3.6. Comparacin de dos proporciones
Adems de analizar el comportamiento de una proporcin, se puede querer comparar la
proporcin de una determinada caracterstica en dos poblaciones distintas. Al igual que
ocurra en la seccin anterior, el nmero de datos en cada muestra debe ser suficientemente
grande (habitualmente se exigen al menos 30 datos por muestra).
As, por ejemplo, para poder determinar si el porcentaje de horas con avera es mayor
cuando estaba apagado el sistema que cuando no, deberamos plantear un test de
proporciones para dos muestras.
Los distintos tipos de contrastes de hiptesis en este caso son:
H0 : p1 = p2
H1 : p1p2
H0 : p1 p2
H1 : p1 < p2
H0 : p1 p2
H1 : p1 > p2
two.sided
less
greater
donde p1 representa la proporcin en el primer grupo (por orden alfabtico) y p2 en el

segundo.
Vamos a ver el funcionamiento de este test a travs de un ejemplo concreto.
Ejemplo 3.9. El porcentaje de horas con avera es mayor cuando estaba encendido el
sistema que cuando no?
Solucin:
Hemos de tener en cuenta que p1 es siempre la primera clase por orden alfabtico. Como en
este caso trabajamos con las modalidades No y S, las hiptesis a contrastar son:
H0 : pNO pSI (igual o mejor con el sistema encendido)
H1 : pNO < pSI (peor con el sistema encendido)
La obtencin del p-valor asociado a este test se realizara mediante los siguientes pasos en
R:
Estadsticos
Proporciones
Test de proporciones para dos muestras...
Seleccionar las variables sistema y averias

Aceptar

> prop.test(xtabs(~sistema + averias, data = acero), alternative = ~less~,
+ conf.level = 0.95, correct = FALSE)
2-sample test for equality of proportions without continuity
correction
data: xtabs(~sistema + averias, data = acero)
alternative hypothesis: less
-1.000000 0.065007
sample estimates:
prop 1 prop 2
0.7288136 0.7931034
Como el p-valor (02076) es mayor que no se rechaza la hiptesis nula, no hay evidencias
de que vaya peor con el sistema encendido. __
3.7. Relaciones entre variables
Muchas veces nos podemos preguntar si tiene sentido estudiar dos variables de forma
conjunta, si existe una relacin entre ellas y en caso de existir como de fuerte es esa
relacin.
Para contestar a estas preguntas se establece una serie de coeficientes:
Para estudiar la relacin general, se puede estudiar, entre otros, el coeficiente Chicuadrado de Pearson.
Para estudiar la relacin lineal, el ms habitual es el coeficiente de correlacin de

Pearson.
Para seleccionar el contraste ms adecuado a la muestra, tendremos en cuenta la naturaleza

de nuestras variables.
Para variables Cuantitativas, Cuantitativas-Discretas o cuantitativas-Continuas
Discretizadas, se utiliza el test Chi-cuadrado de Pearson de independencia.
Para variables Cuantitativas-Continuas, se usar el test de correlacin de Pearson.
Las hiptesis a contrastar en este tipo de problemas son siempre del tipo:
H0: no existe relacin entre las variables
H1: s existe relacin entre las variables
donde la relacin ser o no del tipo lineal dependiendo del coeficiente utilizado en el
contraste.
As pues, un p-valor claramente menor de 005 indicar que existe relacin entre las
variables. Si es mayor de 005, los datos no nos proporcionarn evidencias de dicha
relacin.
Ejemplo 3.10. Existe relacin entre que haya habido o no averas y la lnea utilizada?
Solucin:
Como las variables son cualitativas vamos a utilizar el test chi-cuadrado. Para hacer esto
vamos a
Estadsticos
Tablas de contingencias
Tabla de doble entrada
Seleccionar las variables averias y linea

Aceptar

> xtabs(~averias + linea, data = acero)
linea
averias A B C
No 31 28 30
S 8 11 9
> chisq.test(xtabs(~averias + linea, data = acero), correct = FALSE)
Pearsons Chi-squared test
data: xtabs(~averias + linea, data = acero)
Como el p-valor (07199) es mayor que no se rechaza la hiptesis nula, es decir, no hay
evidencias de que las lneas afecten en que haya o no averas.
__
Ejemplo 3.11. Existe relacin entre la produccin de galv1 y de galv2?
Solucin:
Como las variables son cuantitativas continuas, podemos utilizar el test de correlacin de
Pearson, para lo cual haremos:
Estadsticos
Resmenes
Seleccionar las variables pr.galv1 y pr.galv2

Aceptar

> cor.test(acero$pr.galv1, acero$pr.galv2, alternative = ~two.sided~,
+ method = ~pearson~)
Pearsons product-moment correlation
data: acero$pr.galv1 and acero$pr.galv2
t = 0.5331, df = 115, p-value = 0.595
alternative hypothesis: true correlation is not equal to 0
-0.1330859 0.2291146
sample estimates:
cor
0.04964655
Como el p-valor (0595) es mayor que no se rechaza la hiptesis nula. As pues, de nuevo
no hay evidencias de relacin lineal entre las dos producciones (al aumentar una no tiene
por qu aumentar o disminuir significativamente la otra).
__
3.8. Comparacin de ms de dos promedios
El anlisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una
variable cuantitativa. Se trata, por tanto, de una generalizacin del test t para dos muestras
independientes en el caso de diseos con ms de dos factores de agrupacin. Veremos aqu
su utilizacin como simple generalizacin de dicho test, aunque volveremos sobre este
tema en ms profundidad en los captulos 5 y 6.
A la variable categrica (nominal u ordinal) que define los grupos que deseamos comparar,
la llamamos independiente o factor. A la variable cuantitativa (de intervalo o razn) en la
que deseamos comparar los grupos, la llamamos dependiente.
Si queremos, por ejemplo, averiguar cul de tres programas distintos de incentivos aumenta
de forma ms eficaz el rendimiento de un determinado colectivo, podemos seleccionar tres
muestras aleatorias de ese colectivo y aplicar a cada una de ellas uno de los tres programas.
Despus, podemos medir el rendimiento de cada grupo y averiguar si existen o no
diferencias entre ellos. Tendremos una variable independiente categrica (el tipo de
programa de incentivos) cuyos niveles deseamos comparar entre s, y una variable
dependiente cuantitativa (la medida del rendimiento), en la cual queremos comparar los tres
programas. El ANOVA de un factor permite obtener informacin sobre el resultado de esa
comparacin. Es decir, permite concluir si los sujetos sometidos a distintos programas
difieren de la medida de rendimiento utilizada.
La hiptesis que se pone a prueba en el ANOVA de un factor es que las medias
poblacionales (las medias de la variable dependiente en cada nivel de la variable
independiente) son iguales. Si las medias poblacionales son iguales, eso significa que los
grupos no difieren en la variable dependiente y que, en consecuencia, la variable
independiente o factor no influye en la variable dependiente.
Lo que habitualmente se conoce como Anlisis de la varianza es una versin paramtrica
del test de la F. Para poder aplicarse deben verificarse ciertas condiciones previas
(normalidad, independencia y homocedasticidad (igualdad de varianzas)). En caso contrario
existen alternativas paramtricas y no paramtricas.
NORMALIDAD
HOMOCEDASTICIDAD
TEST RECOMENDADO
NO*
NO
Test de Welch o
NO
S o NO
Test de la F
*No drstico, p-valores del test de normalidad entre 001 y 005.

Recordar que la normalidad la estudibamos con el test de Shapiro-Wilk, mientras que la
homocedasticidad se puede comprobar utilizando el test de Barlett.
En este tipo de tests de igualdad de ms de dos promedios, las hiptesis a contrastar son:
H0: promedios iguales
H1: no todos los promedios son iguales
Si volvemos a mirar la regla de decisin, dicha decisin en este caso sera:
P-valor <
P-valor
Rechazo H0 (no todos los promedios son iguales)

No rechazo H0 (los promedios son iguales)
Vamos a ver varios ejemplos con algunos de los casos que se pueden presentar.
Ejemplo 3.12. Comparar el consumo promedio para las tres temperaturas.
Solucin:
Lo primero que tenemos que estudiar es la normalidad de los datos para cada grupo de
temperatura, para ello utilizbamos es test de Shapiro-Wilk, que tena como hiptesis:
La forma ms rpida de realizar los tres tests (uno para cada modalidad de la temperatura)
es escribir en la lnea de comandos:
Figura 9: Test de Shapiro-Wilk para el consumo por temperatura

> shapiro.test(subset(acero, subset = temperatura == ~Alta~)$consumo)
data: subset(acero, subset = temperatura == ~Alta~)$consumo
W = 0.9748, p-value = 0.4112
> shapiro.test(subset(acero, subset = temperatura == ~Media~)$consumo)
data: subset(acero, subset = temperatura == ~Media~)$consumo
W = 0.9499, p-value = 0.1323
> shapiro.test(subset(acero, subset = temperatura == ~Baja~)$consumo)
data: subset(acero, subset = temperatura == ~Baja~)$consumo
W = 0.9662, p-value = 0.2993
Los p-valores obtenidos son, respectivamente, 04112, 01323 y 02993, con lo que en todos
los casos es suficientemente grande como para no rechazar la hiptesis nula (se puede
admitir la normalidad).
Para contrastar la igualdad de varianzas en ms de dos poblaciones, se utiliza el test de
Barlett, que tiene como hiptesis:
H0: las varianzas son iguales
H1: las varianzas son distintas
Para realizar dicho test vamos a:

Estadsticos
Varianzas
Test de Bartlett

Aceptar
Cuyas salidas son:

> bartlett.test(consumo ~ temperatura, data = acero)
data: consumo by temperatura
Como el p-valor (04953) es mayor que no se rechaza la hiptesis nula, con lo que se
pueden suponer las varianzas iguales. Como hay normalidad y homocedasticidad, el test
que realizaremos es el test de la F para la igualdad de medias, es decir, el tpico anlisis de
la varianza de un factor. A este modelo le vamos a llamar Anova1. Los pasos a seguir para
obtener el correspondiente p-valor son:
Estadsticos
Medias
ANOVA de un factor

Aceptamos

> Anova1 <- aov(consumo ~ temperatura, data = acero)
> summary(Anova1)
Df Sum Sq Mean Sq F value Pr(>F)
temperatura 2 101567 50783 23.001 4.06e-09 ***
Residuals 114 251701 2208
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
> numSummary(acero$consumo , groups=acero$temperatura, statistics=c(~mean~,

+ ~sd~))
mean
sd n
Alta 109.4409 51.13719 46
Media 138.7297 45.58685 38
Baja 182.1333 42.25437 33
Como el p-valor (406 10-9) es menor que , se rechaza la hiptesis nula, con lo que se
puede suponer que no todas las medias son iguales.
Grficamente podramos ver como se comporta cada grupo haciendo los correspondientes
diagramas de cajas o grficos de medias.
Comenzaremos con los diagramas de cajas:
Grficas
Diagrama de cajas...
Seleccionar consumo
Grfica segn:temperatura
Aceptar
Con lo que se obtiene:

> boxplot(consumo ~ temperatura, ylab = ~Consumo~, xlab = ~Temperatura~,
+ data = acero)
Aunque el diagrama de cajas es muy utilizado, al estar comparando medias, un grfico ms

adecuado podra ser el de medias. Para obtenerlo los pasos a seguir son:
Grficas
Grficas de la media
Seleccionar las variables temperatura y consumo

Aceptar
Con el procedimiento anterior se obtendran los grficos de medias para los tres grupos de
temperatura. Bien modificando las salidas en la ventana de instrucciones o bien tecleando
directamente, podemos cambiar las opciones del grfico, como por ejemplo las etiquetas de
los ejes o el ttulo del grfico. Para ello deberamos ejecutar la siguiente orden:
Cuyas salidas son:

> plotMeans(acero$consumo, acero$temperatura, error.bars = ~conf.int~,
+ level = 0.95, xlab = ~Temperatura~, ylab = ~Consumo~, n.label = FALSE,
+ main = ~Distribucin del consumo por temperatura~, col = ~black~,
+ barcol = ~blue~, connect = TRUE)
Si se rechaza la hiptesis nula, es decir, si se concluye que las medias no son todas iguales,
no ocurre como en el caso de dos poblaciones en el que claramente una de ellas tendra
media superior a la otra, sino que ahora habr que evaluar las relaciones entre las distintas
poblaciones. Existen una gran cantidad de test que realizan comparaciones mltiples. Cabe
destacar, por su uso ms extendido, Duncan, Newman-Keuls, Bonferroni, Scheff y HSD
de Tukey.
Para realizar esta comparacin solo hay que marcar la casilla: Comparacin dos a dos de las
medias, tal como puede verse a continuacin:
Estadsticos
Medias
ANOVA de un factor

Seleccionanos temperatura y consumo
Comparacin dos a dos de las medias
Aceptamos
Cuyas salidas son:

> comparacion <- glht(Anova1, linfct = mcp(temperatura = ~Tukey~))
> summary(comparacion)
Simultaneous Tests for General Linear Hypotheses

Linear Hypotheses:
B - A == 0 72.69
10.72 6.781 <0.001 ***
M - A == 0 29.29
10.30 2.843 0.0146 *
M - B == 0 -43.40
11.18 -3.882 <0.001 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
(Adjusted p values reported -- single-step method)
Simultaneous Confidence Intervals

Quantile = 2.3738
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr
upr
Media - Alta == 0 72.6925 47.2471 98.1378
Baja - Alta == 0 29.2889 4.8377 53.7400
Baja - Media == 0 -43.4036 -69.9442 -16.8630
> plot(comparacion)
Para aadir la lnea vertical tenemos que poner en la lnea de comandos:
tal como puede verse a continuacin:

abline(v = 0, col = ~red~)
y ejecutar la lnea de comando.
A la vista del grfico podemos concluir que el consumo a temperatura alta es mayor que a
temperatura media o baja y el consumo a temperatura media es significativamente mayor
que el consumo a temperatura baja. __
Ejemplo 3.13. Comparar el consumo promedio para las tres lneas.
Solucin:
Al igual que antes veamos si los datos estn normalizados y hay homocedasticidad.
Para la normalidad aplicamos el test de Shapiro-Wilk, como lo hay que realizar por casos lo
tenemos que implementar por comandos, para ello escribimos
y obtenemos:
> shapiro.test(subset(acero, subset = linea == ~A~)$consumo)
data: subset(acero, subset = linea == ~A~)$consumo
W = 0.9597, p-value = 0.1738
> shapiro.test(subset(acero, subset = linea == ~B~)$consumo)
data: subset(acero, subset = linea == ~B~)$consumo
W = 0.9485, p-value = 0.07302
> shapiro.test(subset(acero, subset = linea == ~C~)$consumo)
data: subset(acero, subset = linea == ~C~)$consumo
W = 0.9887, p-value = 0.9584
Para los datos de la lnea A el p-valor es 01738, para los de la lnea B es 007302 y para los
de la C es 09584. En los tres casos suficientemente grande como para que no se rechace la
hiptesis nula (se puede admitir la normalidad).
La homocedasticidad la estudiamos por medio del test de Bartlett:

Estadsticos
Varianzas
Test de Bartlett

Aceptar

> tapply(acero$consumo, acero$linea, var, na.rm = TRUE)
A
B
C
1574.079 3559.603 2239.063
> bartlett.test(consumo ~ linea, data = acero)

Dado que el p-valor (004251) es menor que , se rechaza la hiptesis nula al nivel 005,
con lo que no pueden suponerse las varianzas iguales. En este caso, como no hay
homocedasticidad, realizaremos el test de Kruskal-Wallis, donde las hiptesis a contrastar
son:
H0 : promedios iguales para A, B y C
H1: no todas los promedios son iguales
Para realizar el test hacemos:
Estadsticos
Test no paramtricos
Test de Kruskal-Wallis

Aceptar
Obteniendo los siguientes resultados:

> kruskal.test(consumo ~ linea, data = acero)
Kruskal-Wallis rank sum test
Kruskal-Wallis chi-squared = 26.5836, df = 2, p-value = 1.688e-06
Como el p-valor (1688 10-6) es menor que se rechaza la hiptesis nula, no todas las
medias son iguales. Grficamente lo podemos ver mediante diagramas de cajas:
Grficas
Diagrama de cajas
Seleccionar consumo
Grfica segn:linea
Aceptar
Bien tecleando directamente el cdigo o bien modificando las salidas del proceso anterior
se pueden hacer modificaciones en el grfico. As, mediante la orden por comandos
obtenemos el siguiente diagrama de cajas:

> boxplot(consumo~linea, ylab=~consumo~, xlab=~linea~, data=acero)
Aunque en este caso sera menos aconsejable, tambin podramos hacer un grfico de
medias. Los pasos a seguir son:
Grficas
Grficas de la media

Aceptar
Con el procedimiento anterior se obtendra el correspondiente grfico de medias. No

obstante, vamos a hacer modificaciones en la ventana de instrucciones a fin de especificar
ciertas opciones del grfico. As, ejecutaremos la siguiente orden de comandos:
Dicha ejecucin da lugar a las siguientes salidas:

> plotmeans(acero$consumo ~ acero$linea, error.bars = ~conf.int~,
+ level = 0.95, xlab = ~Linea~, ylab = ~Consumo~, n.label = FALSE,
+ main = ~Distribucin del consumo por linea~, col = ~black~,
+ barcol = ~blue~, connect = TRUE)
__
4. Regresin lineal
4.1. Modelizacin estadstica
Si se sospecha de la existencia de una relacin entre diversas variables o magnitudes (por

ejemplo, la influencia de la experiencia profesional de los trabajadores en sus respectivos
sueldos, la estatura en el peso de las personas, etc.) surge de forma natural plantearse cmo
formalizar esa relacin y si puede extrapolarse a situaciones ms generales.
El modelado estadstico obtiene un conjunto de modelos que se ajustan a los datos
disponibles de una forma razonable. En general, los modelos ms sencillos buscan explicar
la variabilidad de una magnitud Y , denominada variable dependiente, en funcin de otras
variables, X1,X2,,Xk, llamadas variables independientes.
No siempre resulta fcil determinar cul es la variable dependiente y cules intervienen
como independientes. La influencia o relacin causa-efecto depende del planteamiento del
problema y su concrecin y formalizacin corresponden al investigador que disea el

experimento.
Las tcnicas estadsticas disponibles abarcan una gran variedad de situaciones y de nuevo
concierne al responsable del estudio seleccionar el procedimiento ms correcto para
modelar los datos. Sin ser exhaustivos, el Cuadro 6 detalla los modelos ms habituales.
Cuadro 6: Principales modelos estadsticos segn la naturaleza de las variables.

Variable respuesta
Continua
Variables independientes
Todas son continuas: regresin normal
Todas son categricas: anlisis de la varianza
Ambos tipos: anlisis de la covarianza
Proporcin
Regresin logstica
Conteo
Modelos log-lineales
Binarias
Regresin logstica binaria
Tiempo de muerte
Anlisis de supervivencia
La principal regla para realizar el modelado consiste en asumir que el resultado obtenido
siempre ser mejorable. El modelo ha de adaptarse a los datos y evitar la tentacin de que
los datos casen con un determinado modelo. De principio, un buen ajuste ha de explicar la
mayor parte de la variabilidad y simplificar al mximo las relaciones entre las variables. No
encontraremos un nico modelo, sino un conjunto de soluciones que se amoldan
razonablemente bien a los datos.
El principio de parsimonia (la navaja de Ockham) induce a optar por un modelo sencillo en
vez de uno complicado. Dado un conjunto de posibles explicaciones igualmente buenas, la
ms sencilla se convierte en la mejor; cuantos menos parmetros intervengan en el modelo,
relaciones lineales o con pocos factores sealan pistas que orientan nuestra bsqueda. Sin
embargo, no exageremos en la sencillez del modelo. Tambin existe la navaja de Einstein:
A model should be as simple as possible. But not simpler.
4.2. Modelo de regresin lineal simple
El principio de parsimonia indica que el modelo de regresin lineal se convierte en el

primer candidato para explicar la relacin entre las variables. En este ejemplo, deseamos
estudiar el consumo de energa de la fbrica: la variable dependiente (Y ) es el consumo,

mientras que el resto de variables disponibles comprenden el conjunto de variables
independientes. Es decir, deseamos encontrar un modelo que cuantifique el consumo
energtico a partir de las diferentes producciones.
La forma ms facil de comenzar consiste en realizar representaciones grficas.
Ejemplo 4.1. Realice un diagrama de dispersin de la variable consumo con las variables de
produccin.
Solucin: Dibujamos una matriz con los diagramas de dispersin:
Grficas
Matriz de diagrama de dispersin
Seleccionamos consumo, pr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc.

Aceptar
> scatterplot.matrix(~consumo + pr.ca + pr.cc + pr.galv1 + pr.galv2 +

+
pr.pint + pr.tbc, reg.line = lm, smooth = TRUE, span = 0.5,
+
diagonal = ~density~, data = acero)
De los diferentes grficos que aparecen, los ms ajustados a nuestra hiptesis de trabajo se
encuentran en la primera hilera, ya que la variable dependiente, el consumo, corresponde al
eje de ordenadas, mientras que las independientes, las diferentes producciones, se
representan en el eje de abscisas.
Qu nube de punto de la primera fila muestra un patrn ms claro de relacin? Si bien no
siempre aparece claramente un comportamiento visual, se puede intuir cierta dependencia
entre el consumo energa y la produccin del tren de bandas en caliente (pr.tbc). __
Despus de realizar una representacin grfica, procedemos a cuantificar la relacin lineal
entre las variables.
Ejemplo 4.2. Calcule los coeficientes de correlacin lineal del consumo con el resto de
producciones.
Solucin: El coeficiente de correlacin lineal vara de -1 a 1. Cuanto mayor sea en valor
absoluto, ms intensidad existe en la relacin.
Estadsticos
Resmenes
Seleccionamos consumo, pr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc.

Coeficiente de Pearson
Aceptar
> cor(acero[, c(~consumo~, ~pr.ca~, ~pr.cc~, ~pr.galv1~, ~pr.galv2~,

+
~pr.pint~, ~pr.tbc~)], use = ~complete.obs~)
consumo
pr.ca
pr.cc pr.galv1 pr.galv2
pr.pin
consumo 1.00000000 -0.04462924 0.3853352 0.40126392 0.24073916 0.1
93584920
pr.ca -0.04462924 1.00000000 -0.1907847 0.08285971 -0.08530484 0.027095106
pr.cc
0.38533520 -0.19078475 1.0000000 0.30011090 0.07108381 0.268
146068
pr.galv1 0.40126392 0.08285971 0.3001109 1.00000000 0.04964655 0.30
0788576
pr.galv2 0.24073916 -0.08530484 0.0710838 0.04964655 1.00000000 0.07
2855628
pr.pint 0.19358492 -0.02709511 0.2681461 0.30078858 0.07285563 1.000
000000
pr.tbc 0.74329458 -0.03999992 0.1539631 0.06614846 0.10224749 0.003
463181
pr.tbc
consumo 0.743294582
pr.ca -0.039999921
pr.cc
0.153963066
pr.galv1 0.066148462
pr.galv2 0.102247494
pr.pint 0.003463181
pr.tbc 1.000000000
La primera columna muestra la correlacin de la variable consumo con el resto de las

producciones. La relacin ms intensa se produce entre el consumo y la pr.tbc. __
Investigamos con ms detalle la relacin entre consumo y la pr.tbc. De nuevo, empezamos
con un grfico.
Ejemplo 4.3. Dibuje el diagrama de dispersin del consumo y la pr.tbc.
Solucin: El grfico se consigue de la siguiente forma:
Grficas
Seleccionamos: consumo y pr.tbc

Marcamos: Identificar Observaciones
Aceptar
El eje de abscisas muestra la produccin de TBC y el de ordenadas el consumo de energa.

Se observa una relacin creciente entre ambas magnitudes. En el grfico aparecen dos
lneas. Una es la recta de regresin (el modelo ms simple) y la otra la lnea de regresin no
paramtrica (el mejor ajuste posible). Si ambas lneas coinciden, el ajuste lineal resulta
adecuado. En este caso la lnea recta no sigue muy bien el comportamiento de la lnea no
paramtrica, por lo que el modelo lineal no ajustar bien los datos.
Adems en el grfico se muestran dos posibles observaciones atpicas, la 107 y la 88. __
Si bien el grfico sugiere que el modelo lineal no casa bien con los datos, procedemos a
construir un modelo lineal que cuantifica la relacin entre el consumo y la pr.tbc.
La formulacin matemtica de este modelo determina que el consumo slo depende de la

produccin de TBC y de ninguna otra produccin. Este modelo a priori parece demasiado
sencillo, ya que ignora el resto de informacin disponible.
Ejemplo 4.4. Estime el consumo a partir de la produccin de TBC. Llame a este modelo
Modelo1.
Solucin: Procedemos con el modelo lineal, ya que su sencillez favorece la interpretacin
de los coeficientes.
Estadsticos
Ajuste de modelos
Modelo lineal
Nombre del modelo: Modelo1

Formula delconsumo~pr.tbc
Aceptar
> Modelo1 <- lm(consumo ~ pr.tbc, data = acero)

> summary(Modelo1)
Call:
lm(formula = consumo ~ pr.tbc, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-94.9517 -23.4839 -0.7312 21.4330 133.5283
Coefficients:
(Intercept) 36.075095 9.328889 3.867 0.000183 ***
pr.tbc
0.013661 0.001146 11.915 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 37.08 on 115 degrees of freedom
Multiple R-squared: 0.5525, Adjusted R-squared: 0.5486
F-statistic: 142 on 1 and 115 DF, p-value: < 2.2e-16
La columna de Estimate proporciona los valores de los coeficientes.

(1)
Si deseamos incorporar la variabilidad de esos coeficientes, incorporamos en la

formulacin sus desviaciones tpicas
(2)
Todos los coeficientes del modelo son significativos (distintos de 0) ya que sus p-valor
(Pr(>|t|)) minoran a 0,05.
El R cuadrado, R2, representa la fraccin de la variacin de la variable dependiente
explicada por la regresin. El 54.86% del consumo de energa se debe a la produccin del
tren de bandas en caliente. Hemos de mencionar que el R2 no es un buen criterio para
comparar modelos (el AIC es preferible).
Respecto a los grados de libertad (DF, degree of freedom), cuantos ms parmetros
incorpore el modelo, menos grados de libertad dispone. El principio de parsimonia prioriza
los modelos con ms grados de libertad. __
Despus de estimar el modelo, hemos de verificar una serie de requisitos. Si cumple con
todos ellos, el modelo ajusta correctamente los datos. Si no los verifica, hemos de plantear
otra formulacin. Destacan los siguientes condiciones: homocedasticidad (varianza
constante) de los errores, normalidad de los errores, ausencia de observaciones atpicas,
relacin lineal y ausencia de colinealidad.
Ejemplo 4.5. Determine si los residuos del modelo Modelo1 son homocedsticos.
Solucin:
Para estudiar la homocedasticidad de un modelo usamos el test de Breusch-Pagan.
Modelos
Diagnsticos numricos
Test de Breusch-Pagan
Aceptar
> bptest(consumo ~ pr.tbc, varformula = ~fitted.values(Modelo1),

+
studentize = FALSE, data = acero)
Breusch-Pagan test
data: consumo ~ pr.tbc
BP = 1.1495, df = 1, p-value = 0.2837
Como el p-valor (0,2837) es menor que , los residuos se comportan de forma

homocedstica (la varianza es igual en todo el grfico). Si el p-valor hubiera superado el
valor (normalmente 0,05), se producira una variabilidad no constante en el ajuste
(heterocedstico) y habra que encontrar otra relacin. __
Ejemplo 4.6. El modelo lineal Modelo1 (Y = a + bX) ajusta de forma correcta?, no
conviene ms un modelo cuadrtico (Y = a + bX + cX2) o cbico?
Solucin: Para estudiar la linealidad de los residuos se utiliza el test Reset de no linealidad:
Modelos
Test Reset de no linealidad
Desmarcar 3 cubos
Aceptar
> resettest(consumo ~ pr.tbc, power = 2, type =

+ ~regressor~, data = acero)
RESET test
data: consumo ~ pr.tbc
RESET = 5.8411, df1 = 1, df2 = 114, p-value = 0.01724
Como el p-valor (0,01724) es inferior a , se concluye que el modelo lineal no ajusta

adecuadamente. Nuestra labor de modelado empieza de nuevo plantendonos otras
relaciones, como por ejemplo
__
Si bien ya hemos concluido que este ajuste lineal no cumple con los requisitos necesarios,
como prctica realizamos tambin el control de las observaciones atpicas.
Ejemplo 4.7. Existen observaciones atpicas que distorsionen el anlisis del Modelo1?
Solucin: El test de valores atpicos de Bonferroni indica la presencia de observaciones
atpicas.
Modelos
Test de valores atpicos de Bonferroni
> outlier.test(Modelo1)
max|rstudent| = 3.85354, degrees of freedom = 114,
unadjusted p = 0.0001929329, Bonferroni p = 0.02257315
Observation: 107
El p-valor es menor que e implica que hay observaciones atpicas: la nmero 107. __
4.3. Transformaciones de variables
Hasta ahora slo se han considerado los datos originales y como resultado hemos concluido
que el modelo lineal no ajusta adecuadamente. Llega el momento de abandonar el modelo
inicial y buscar alternativas.
Existe algn modelo terico que corresponda a nuestros datos? Por ejemplo, estimar el
volumen de un depsito de aguas, Volumen = Base Altura, determinar la distancia que
recorre un cuerpo en cada libre, Distancia = a g tiempo2 o calcular el crecimiento
demogrfico, N = a ebtiempo. En todos estos planteamientos, la relacin no es lineal; Pero
con una sencilla transformacin, obtenemos una. Por ejemplo, si Y = X2 Z, entonces log(Y
) = 2 log(X) + log(Z).
La transformacin ms inmediata consiste en tomar logaritmos de la variable dependiente,
de la independiente o de ambas.
Ejemplo 4.8.
Represente consumo y log(pr.tbc).
Solucin: Este dibujo se consigue transformando la escala de los ejes:
Grficas
Seleccionamos pr.tbc y consumo

Marcamos Log eje-x
Aceptar
Visualmente se comprueba que la relacin lineal no es adecuada. Por lo tanto desechamos

esta transformacin. __
Ejemplo 4.9. Dibuje un grfico de log(consumo) y log(pr.tbc).
Solucin: Procedemos de forma similar al ejemplo anterior.
Grficas
Seleccionamos pr.tbc y consumo

Marcamos Log eje-x y Log eje-y
Aceptar
__
En ambos casos, la distribucin de los puntos no sigue una lnea recta, por lo que no
transformamos la variable x (pr.tbc).
La transformacin de Box-Cox efecta un cambio de variable sobre la variable dependiente
de la forma:
(3)
Los valores de ms usuales son: log y( = 0), ( = 12), y13 ( = 13), y2( = 2),. Esta
transformacin debe ser realizada por lnea de comandos. En la ventana de instrucciones,
escribimos primero library(MASS), ejecutamos; luego boxcox(Modelo1) y ejecutamos
(Fig. 10).
Figura 10: Transformacin de Box-Cox aplicada al Modelo1.
Proporciona un intervalo de valores vlidos para (Fig. 11). De entre este intervalo,
escogeremos aquellos ms naturales: 0, 1/2, 1/3, 2/3, 1, 3/2, etc. En este caso
determinamos que = 0,5, que equivale transformar la variable consumo mediante su raz
cuadrada. Calculamos esta nueva variable raiz.consumo tal como como indica la Fig. 12.
Figura 11: Estimacin del parmetro de Box-Cox.
Figura 12: Transformacin de Box-Cox de la variable consumo.
> acero$raiz.consumo <- with(acero, box.cox(consumo, 0.5))
Para que el R-commander reconozca esta nueva variable, actualizamos la base de datos:
Datos
Conjunto de datos activos
Actualizar conjunto
Ejemplo 4.10. Realice un grfico de dispersin de la variable raiz.consumo y de la pr.tbc.

Solucin: El grfico de dispersin se realiza mediante:
Grficas
Seleccionamos pr.tbc y raiz.consumo

Identificar Observaciones
Aceptar
> scatterplot(raiz.consumo ~ pr.tbc, reg.line = lm, smooth = TRUE,

+
labels = FALSE, boxplots = ~xy~, span = 0.5, data = acero)
__
Ejemplo 4.11. Determine el modelo que relaciona raiz.consumo con la pr.tbc. Llame a este
modelo Modelo2.
Solucin: Los coeficientes se calculan estimando un modelo lineal:
Estadsticos
Ajuste de modelos
Modelo lineal

Frmula delraiz.consumo~pr.tbc
Aceptar
> Modelo2 <- lm(raiz.consumo ~ pr.tbc, data = acero)

> summary(Modelo2)
Call:
lm(formula = raiz.consumo ~ pr.tbc, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-9.1509 -1.8850 0.2068 2.2383 11.6080
Coefficients:
(Intercept) 1.112e+01 7.946e-01 13.99 <2e-16 ***
pr.tbc
1.316e-03 9.765e-05 13.47 <2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
F-statistic: 181.6 on 1 and 115 DF, p-value: < 2.2e-16
Los coeficientes son significativos y el modelo resultante queda:
La fraccin de la variacin de la variable dependiente que explica este modelo

asciende al 60,89%.
__
Ejemplo 4.12. Es homocedstico el modelo Modelo2?

Solucin: Esta duda se resuelve mediante el test de Breusch-Pagan.
Modelos
Aceptar
> bptest(raiz.consumo ~ pr.tbc, varformula =

+
~fitted.values(Modelo2),
+
Breusch-Pagan test
data: raiz.consumo ~ pr.tbc
BP = 1.1211, df = 1, p-value = 0.2897
Como el p-valor (0,2897) supera a 0,05, el modelo es homocedstico. __

Ejemplo 4.13. El ajuste lineal casa bien con los datos?
Solucin: Para comprobar si tenemos que aumentar el grado en el modelo procedemos del
siguiente modo:
Modelos
Desmarcar 3 cubos
Aceptar
> resettest(raiz.consumo ~ pr.tbc, power = 2, type = ~regressor~,

+
data = acero)
RESET test
data: raiz.consumo ~ pr.tbc
Como el p-valor (0,3070) es mayor que 0,05 no se rechaza la hiptesis nula y no se necesita
incrementar el grado del modelo. __
Ejemplo 4.14. Hay observaciones atpicas?
Solucin: Realizamos el test de valores atpicos de Bonferroni.
Modelos
Observation: 107
Podemos ver que la observacin 107 sigue siendo atpica. Verificamos si distorsiona el
modelo dibujando las bandas de confianza.
Modelos
Grficas
Grficas de comparacin de
Bandas de confianza simuladas

Aceptamos
> qq.plot(Modelo2, simulate = TRUE, labels = FALSE)
__
4.4. Regresin lineal mltiple
La regresin lineal mltiple generaliza el modelo anterior al incorporar dos o ms variables

dependientes.
Ejemplo 4.15. Estime la raiz.consumo en funcin de las diferentes producciones. Llame a
este modelo Modelo3.
Solucin: Intervienen como variable dependiente raiz.consumo y como variables
independientes pr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc.
Estadsticos
Ajuste de modelos
Modelo lineal

Formula delraiz.consumo~pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc
Aceptar
> Modelo3 <- lm(raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 +

+
pr.pint + pr.tbc, data = acero)
> summary(Modelo3)
Call:
lm(formula = raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 +
pr.pint + pr.tbc, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-6.4825 -1.3144 0.1286 1.6126 7.3293
Coefficients:
(Intercept) 7.679e+00 7.886e-01 9.737 < 2e-16 ***
pr.ca
1.845e-04 1.431e-03 0.129 0.897614
pr.cc
2.387e-03 6.922e-04 3.448 0.000801 ***
pr.galv1 3.756e-03 7.316e-04 5.135 1.23e-06 ***
pr.galv2 1.523e-03 3.927e-04 3.880 0.000178 ***
pr.pint
1.055e-03 8.305e-04 1.271 0.206469
pr.tbc
1.214e-03 7.602e-05 15.975 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Al haber coeficientes no significativos (sin estrellas) este modelo incorpora demasiadas

variables independientes y se ha de simplificar. __
Ejemplo 4.16. Simplifique el modelo anterior.
Solucin: La depuracin del modelo se realiza del siguiente modo:
Modelos
Seleccin de modelos paso a paso
Marcamos las pestaas atrs/adelante y BIC

Aceptamos
Start: AIC=213.1
raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint +
pr.tbc
Df Sum of Sq
RSS
AIC
- pr.ca
1
0.10 641.65 211.12
- pr.pint 1
9.42 650.98 212.81
<none> 641.56 213.10
- pr.cc
1
69.34 710.90 223.11
- pr.galv2 1
87.80 729.36 226.11
- pr.galv1 1 153.76 795.32 236.24
- pr.tbc 1 1488.44 2129.99 351.50
Step: AIC=211.12
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc
Df Sum of Sq
RSS
AIC
- pr.pint 1
9.41 651.06 210.82
<none> 641.65 211.12
- pr.cc
1
71.52 713.18 221.48
- pr.galv2 1
87.87 729.53 224.14
- pr.galv1 1 158.47 800.13 234.94
- pr.tbc 1 1488.34 2129.99 349.50
Step: AIC=210.82
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc
Df Sum of Sq
RSS
AIC
<none> 651.06 210.82
- pr.cc
1
85.49 736.55 223.26
- pr.galv2 1
91.33 742.39 224.18
- pr.galv1 1 188.34 839.40 238.55
- pr.tbc
1 1480.14 2131.20 347.57
Esta salida muestra el modelo simplificado (raiz.consumo~pr.cc + pr.galv1 + pr.galv2 +

pr.tbc). Las variables eliminadas (pr.ca, pr.pint) no influyen significativamente en el
consumo energtico cuando operan las otras producciones. __
Ejemplo 4.17. Estime el modelo simpiflicado anterior y llmelo Modelo4.
Solucin: Seguimos los siguientes pasos:
Estadsticos
Ajuste de modelos
Modelo lineal

Formula delraiz.consumo~pr.cc + pr.galv1 + pr.galv2 + pr.tbc
Aceptar
Call:
lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc,
data = acero)
Residuals:
Min
1Q Median
3Q
Max
-6.56830 -1.32935 -0.08463 1.73213 7.79563
Coefficients:
(Intercept) 7.773e+00 7.548e-01 10.299 < 2e-16 ***
pr.cc
2.537e-03 6.617e-04 3.835 0.000208 ***
pr.galv1 3.991e-03 7.011e-04 5.692 1.02e-07 ***
pr.galv2 1.547e-03 3.903e-04 3.964 0.000130 ***
pr.tbc
1.209e-03 7.579e-05 15.957 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
En este modelo slo intervienen variables con coeficientes significativos. El modelo

ajustado adquiere la siguiente expresin:
raiz.consumo = 7,773+2,53710-3 pr.cc+3,99110-3 pr.galv1+1,54710-3
pr.galv2+1,20910-3 pr.tbc _
Una vez estimamos el modelo verificamos si ajusta bien o no los datos.
Ejemplo 4.18. Determine la bondad del modelo Modelo4.

Solucin: Para tal menester seguimos los siguientes pasos:
1.
Estudio de la colinealidad.
Modelos
Factores de inflaccin de
> vif(Modelo4)
pr.cc pr.galv1 pr.galv2 pr.tbc
1.123584 1.100332 1.014570 1.033500
Si alguno de los valores supera el valor 4 implica que hay colinealidad (sobra
alguna variable). En este modelo todos los valores no minoran dicha cantidad y por
lo tanto, no hay colinealidad.
2.
Comprobemos ahora si el modelo es homocedstico mediante el test de
Breusch-Pagan.
Modelos
Aceptar
> bptest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc,

+
varformula = ~fitted.values(Modelo4),
+
Breusch-Pagan test
data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc
BP = 0.904, df = 1, p-value = 0.3417
Como el p-valor (0,3417) supera 0,05 el modelo pasa este test.

3.
Verifiquemos si el ajuste lineal es suficiente o hay que aumentar el grado
del modelo.
Modelos
Desmarcar 3 cubos
Aceptar
> resettest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc,

+
power = 2, type = ~regressor~, data = acero)
RESET test
data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc
Como el p-valor (0,314) es mayor que no se rechaza la hiptesis nula. No se

necesita incrementar el grado del modelo.
4.
Por ltimo veamos la presencia de observaciones atpicas que
distorsionen el modelo.
Modelos
Observation: 107
La observacin 107 sigue siendo atpica

5.
Los test anteriores se pueden analizar grficamente:
Modelos
Grficas
Grficas bsicas de diagnstico
> oldpar <- par(oma = c(0, 0, 3, 0), mfrow = c(2, 2))

> plot(Modelo4)
> par(oldpar)
6.
Clculo de intervalo de confianza para las obseraciones atpicas. Nuestro
inters se centra en la observacin 107 (si bien la distancia de Cook
indica que apenas influye en el anlisis).
Modelos
Grficas

Aceptamos
> qq.plot(Modelo4, simulate = TRUE, labels = FALSE)
Como la observacin 107 queda dentro de las bandas de confianza podemos

concluir que este modelo ajusta razonablemente bien los datos.
__
5. Anlisis de la varianza
5.1. Experimentos factoriales. Contrastes ortogonales y no ortogonales
El anlisis de la varianza se convierte en la tcnica ms habitual cuando las variables
explicativas son categricas y cuantitativa la variable explicada. Las variables
independientes se denominan factores, constan de dos o ms niveles y pueden interactuar
entre ellas. Esta tcnica contrasta mediante el anlisis de la variabilidad si los valores
medios de la variable dependiente difiere segn las diferentes combinaciones de factores e
interacciones.
Los experimentos factoriales pueden complicarse tanto como se deseen e incorporar efectos
aleatorios, multinivel, jerrquicos, anidados, fijos, etc. Existe una amplia gama de
situaciones que se presentan de forma habitual al realizar un experimento o anlisis.
Si bien el acercamiento bsico al anlisis de la varianza proviene de los contrastes de

medias para dos o ms niveles, el enfoque ms correcto nace desde el anlisis de regresin.
El anlisis de la varianza particulariza el modelo de regresin lineal cuando las variables
independientes son cualitativas y la independiente cuantitativa. Considerar esta situacin
desde los modelos de regresin permite al investigador un estudio completo, detallado y
sistematizado del experimento factorial.
Cuando en los modelos de regresin intervienen variables independientes cualitativas, el
abordaje se realiza mediante dos tipos de contrastes: los denominados a priori y los
contrastes a posteriori. Si bien a nivel matemtico se establece un isomorfismo entre ambos
enfoques por lo que son equivalentes, a nivel prctico el investigador debe optar por uno de
esos contrastes.
Los contrastes ortogonales, o a priori, se utilizan habitualmente en el mbito de las Ciencias
Experimentales. Los factores intervienen en el modelo de forma controlada (por ejemplo, a
un ratn le inyectamos 100 gramos del compuesto I y a otro roedor 200 gramos) y se suele
denominar Diseo de Experimentos. Las principales ventajas de los contrastes ortogonales
residen en que el orden de los factores no influye en el modelo, ste adopta una nica
expresin (ortogonal) y resulta fcil detectar qu factores o niveles influyen o no. El
principal inconveniente consiste en que los coeficientes del modelo han de interpretarse con
precaucin.
En el otro extremo aparecen los contrastes no ortogonales, o a posteriori, muy usuales en
las Ciencias Sociales. Estos estudios no disponen de condiciones controladas desde donde
puedan observar las reacciones de los sujetos entrevistados. En estos modelos el orden de
los factores o variables nominales que intervienen en el modelo s importan, lo que conlleva
a diferentes modelos igualmente vlidos. La principal ventaja en estos modelos surge de
que los coeficientes son muy fciles de interpretar.
Ejemplo 5.1. En la base de datos de acero aparecen las siguientes variables nominales:
linea, hora y averia. Determine si estas variables se realizaron bajo condiciones controladas
o no.
Solucin: Las variables linea, hora y averia se han controlado de forma dispar:
Lnea: Hemos seleccionado conscientemente un nmero determinado de mediciones

en cada lnea, por lo que este factor se encuentra bajo nuestro control.
Hora: De nuevo, la obtencin de datos por hora fue diseada a priori.
Avera: Este factor con dos modalidades (no hubo avera, s la hubo) no estaba
controlada, pues las averas surgen sin control.
__
En lo que sigue, trabajaremos exclusivamente con contrastes no ortogonales.
5.2. Modelo lineal con un factor

Analizaremos el consumo de energa en funcin de la lnea de produccin, la presencia de
averas y la hora de captura de los datos. Disearemos un modelo para cada uno de los
factores.
Ejemplo 5.2. Genere un modelo lineal que relacione raiz.consumo y la linea. Llame al
modelo fmodelo1.
Solucin: Los coeficientes del modelo, fmodelo1, se calculan del siguiente modo.
Estadsticos
Ajuste de modelos
Modelo lineal
Nombre del modelo: fmodelo1

Formula delraiz.consumo~linea
Aceptar
> fmodelo1 <- lm(raiz.consumo ~ linea, data = acero)

> summary(fmodelo1)
Call:
lm(formula = raiz.consumo ~ linea, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-14.3467 -2.3134 0.5332 2.9904 9.4656
Coefficients:
(Intercept) 18.6263 0.7362 25.300 < 2e-16 ***
linea[T.B] 2.0871 1.0412 2.005 0.0474 *
linea[T.C] 5.2649 1.0412 5.057 1.65e-06 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Multiple R-squared: 0.1853,Adjusted R-squared: 0.171
F-statistic: 12.97 on 2 and 114 DF, p-value: 8.428e-06
El consumo medio de la lnea A se sita en 18,6262, el consumo medio de la lnea B supera
en 2,0871 unidades el de la lnea A, y el de la lnea C gasta 5,2648 ms que el de la lnea A.
Estas diferencias son significativas (p-valor<0,05). El modelo resultante queda por tanto,
(4)
con lineaB y lineaC variables indicadoras que valen 1 0 si corresponden a la lnea B y C,
respectivamente.
raiz.consumo=
__
Ejemplo 5.3. Determine cmo influye la presencia de averas en el consumo
(raiz.consumo). Nomine a este modelo como fmodelo2.
Solucin:
Se trata de estimar la relacin lineal entre raiz.consumo y averias.
Estadsticos
Ajuste de modelos
Modelo lineal

Formula delraiz.consumo~averias
Aceptar
> fmodelo2 <- lm(raiz.consumo ~ averias, data = acero)

> summary(fmodelo2)
Call:
lm(formula = raiz.consumo ~ averias, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-15.4624 -3.0473 0.4921 3.6218 11.2608
Coefficients:
(Intercept) 20.8403 0.5357 38.902 <2e-16 ***
averias[T.S] 0.9888 1.0951 0.903 0.368
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Multiple R-squared: 0.00704,Adjusted R-squared: -0.001595
F-statistic: 0.8153 on 1 and 115 DF, p-value: 0.3684
El coeficiente de la modalidad S de la variable averias no difiere significativamente de 0
(p-valor>0,05). Por lo tanto, el consumo no vara en funcin de la presencia de averas. __
Ejemplo 5.4. Estime la influencia de la hora (1,2,,8) del turno en el consumo de energa
raiz.consumo.
Solucin: Denominaremos la relacin lineal entre raiz.consumo y hora como fmodelo3.
Estadsticos
Ajuste de modelos
Modelo lineal

Formula delraiz.consumo~hora
Aceptar
> fmodelo3 <- lm(raiz.consumo ~ hora, data = acero)

> summary(fmodelo3)
Call:
lm(formula = raiz.consumo ~ hora, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-15.3729 -3.1487 0.7521 3.4311 9.7156
Coefficients:
(Intercept) 20.2218 1.3126 15.406 <2e-16 ***
hora[T.2] 2.1636 1.8563 1.166 0.246
hora[T.3] 2.1781 1.8563 1.173 0.243
hora[T.4] 1.4267 1.8563 0.769 0.444
hora[T.5] 0.6504 1.8563 0.350 0.727
hora[T.6] 1.5176 1.8563 0.818 0.415
hora[T.7] -0.8294 1.8563 -0.447 0.656
hora[T.8] -0.5468 1.9689 -0.278 0.782
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Multiple R-squared: 0.04772,Adjusted R-squared: -0.01343
No hay diferencias de consumo segn la hora del turno ya que ningn coeficiente muestra
un p-valor inferior a 0,05. __
5.3. Interacciones entre factores

Los modelos mostrados hasta el momento no contienen interacciones entre los factores y
stos han sido estudiados de forma independiente. Llega el momento de abordar relaciones
ms complejas entre las variables explicativas.
Ejemplo 5.5. Influye la linea, las averias y sus posibles interacciones en raiz.consumo?
Denomine este modelo como fmodelocomplicado.
Solucin:
La expresin que muestra todas las posibles interacciones entre las dos variables adopta la
siguiente forma: averia*linea. El asterisco denota los efectos simples e interacciones de
ambos factores.
Estadsticos
Ajuste de modelos
Modelo lineal
Nombre del modelo:fmodelocomplicado

Formula delraiz.consumo~averias * linea
Aceptar
> fmodelocomplicado <- lm(raiz.consumo ~ averias * linea, data = acero)

> summary(fmodelocomplicado)
Call:
lm(formula = raiz.consumo ~ averias * linea, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-14.0988 -1.6263 0.1921 2.8710 10.2666
Coefficients:
(Intercept)
17.8252 0.8195 21.752 < 2e-16 ***
averias[T.S]
3.9050 1.8094 2.158 0.0331 *
linea[T.B]
3.0075 1.1896 2.528 0.0129 *
linea[T.C]
6.1377 1.1685 5.252 7.31e-07 ***
averias[T.S]:linea[T.B] -4.3282 2.4310 -1.780 0.0777 .
averias[T.S]:linea[T.C] -4.2160 2.5062 -1.682 0.0953 .
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Estos resultados nos conducen a un modelo de la forma:
raiz.consumo=
__
Al disponer de dos modelos posibles, fmodelo1 y fmodelocomplicado, para explicar el
consumo, nos hemos de plantear cul ajusta mejor los datos mediante el anlisis del AIC. R
dispone de un test (anova) que contrasta si ambos modelos se comportan de forma similar o
bien difieren significativamente:
H0: No hay diferencias entre los modelos
H1: Hay diferencias entre los modelos
Ejemplo 5.6. De los modelos fmodelo1 y fmodelocomplicado cul ajusta mejor?
Solucin: La comparacin entre los modelos se realiza de la siguiente forma.
Modelos
Test de hiptesis
Comparar dos modelos
Seleccionar los modelos

fmodelo1 y fmodelocomplicado
Aceptar
> anova(fmodelo1, fmodelocomplicado)

Analysis of Variance Table
Model 1: raiz.consumo ~ linea
Model 2: raiz.consumo ~ averias * linea
Res.Df RSS Df Sum of Sq F Pr(>F)
1 114 2409.86
2 111 2310.81 3 99.05 1.586 0.1968
Como el p-valor 0,1968 es mayor que 0,05 no se observan diferencias entre los dos
modelos. Escogeremos el modelo ms sencillo (el que tenga ms grados de libertad,
Res.Df): en este caso el fmodelo1. __
Ejemplo 5.7. Es posible simplificar el fmodelo1?
Solucin: La realizacin de este ejercicio nos llevar una serie de pasos.
1.
Recordemos el modelo fmodelo1.
Modelos
Seleccionar modelo activo
fmodelo1
Modelos
Resumir el modelo
> summary(fmodelo1)
Call:
lm(formula = raiz.consumo ~ linea, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-14.3467 -2.3134 0.5332 2.9904 9.4656
Coefficients:
(Intercept) 18.6263 0.7362 25.300 < 2e-16 ***

linea[T.B] 2.0871 1.0412 2.005 0.0474 *
linea[T.C] 5.2649 1.0412 5.057 1.65e-06 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Podemos observar que la lnea B y C difieren significativamente de la lnea A.
2.
Calculamos el intervalo de confianza para los coeficientes de estas lneas.
Modelos
Intervalos de confianza
Aceptar
> confint(fmodelo1, level = 0.95)

2.5 % 97.5 %
(Intercept) 17.16779459 20.084711
linea[T.B] 0.02449371 4.149636

linea[T.C] 3.20228554 7.327428
El consumo medio de la lnea B es superior a la lnea A, con valores entre
0,02449371 y 4,149636 unidades, mientras que el consumo adicional de la lnea C
vara entre 3,20228554 y 7,327428 unidades, con una confianza del 95%. Pero se
puede asegurar que la lnea B difiere de la lnea C?; y en caso negativo se puede
simplificar el modelo?
3.
Recodificaremos la variable linea, creando una nueva variable, que llamaremos
reco.linea, que tome valores A si es de la lnea A y B y C si es de la lnea B o C, para
lo que haremos:
Datos
Modificar variables
Recodificar variables
Seleccionar linea
Nuevo nombrereco.linea
Asignar los valores
A=A; else=ByC
> acero$reco.linea <- recode(acero$linea, ~A~=~A~; ~else~=~ByC~; ,

+
as.factor.result=TRUE)
4.
Ahora construimos el modelo, que llamaremos fmodelo1.simpli
Estadsticos
Ajuste de modelos
Modelo lineal
> fmodelo1.simpli <- lm(raiz.consumo ~ reco.linea, data = acero)

> summary(fmodelo1.simpli)
Call:
lm(formula = raiz.consumo ~ reco.linea, data = acero)
Residuals:
Min
1Q Median
3Q Max
-15.936 -2.287 1.065 3.169 9.799
Coefficients:
(Intercept)
18.6263 0.7624 24.432 < 2e-16 ***
reco.linea[T.ByC] 3.6760 0.9337 3.937 0.000142 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
El modelo obtenido queda de la siguiente forma:
raiz.consumo=
__
De los dos modelos observados, fmodelo1 o fmodelo1.simpli, cul es mejor?
Ejemplo 5.8. Comparar los modelos fmodelo1 y fmodelo1.simpli.

Solucin: La comparacin de modelos se realiza del siguiente modo.
Modelos
Test de hiptesis

fmodelo1 y fmodelo1.simpli
Aceptar
> anova(fmodelo1, fmodelo1.simpli)

Model 1: raiz.consumo ~ linea
Model 2: raiz.consumo ~ reco.linea
Res.Df RSS Df Sum of Sq
F Pr(>F)
1 114 2409.86
2 115 2606.78 -1 -196.92 9.3153 0.002828 **

--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Como el p-valor 0,002828 es menor que 0,05 se rechaza que ambos modelos ajusten igual.
Escogeremos por tanto el modelo con menos grados de libertad, en este caso el fmodelo1.
raiz.consumo=
. __
6. Anlisis de la covarianza
6.1. Introduccin
El anlisis de la covarianza se refiere a los modelos en los que intervienen simultneamente

variables numricas y factores como variables independientes. Por ejemplo, el consumo de
energa depende de la lnea de produccin (factor) y de la produccin de TBC (numrica).
Veamos grficamente algunos ejemplos.
Ejemplo 6.1. Dibuje el diagrama de dispersin del consumo y la pr.tbc segn averias.
Solucin: Procedemos del siguiente modo.
Grficas

Desmarcar: Lnea suavizada
Grfica segn: averias
Aceptamos
> scatterplot(raiz.consumo ~ pr.tbc | averias, reg.line = lm, smooth = TRUE,

+
labels = FALSE, boxplots = ~xy~, span = 0.5, by.groups = TRUE,
+
data = acero)
Ambas rectas de regresin muestran una trayectoria muy similar. Este grfico muestra que
la presencia o no de averas apenas diferencia el consumo de energa segn la produccin
de TBC. __
Ejemplo 6.2. Dibuje el diagrama de dispersin del consumo y pr.tbc segn linea.
Solucin: Procedemos del siguiente modo.
Grficas

Desmarcar: Lnea suavizada
Grfica segn: linea
Aceptamos
> scatterplot(raiz.consumo ~ pr.tbc | linea, reg.line = lm, smooth = TRUE,

+
labels = FALSE, boxplots = ~xy~, span = 0.5, by.groups = TRUE,
+
data = acero)
Las rectas estimadas no son paralelas. El consumo de produccin vara en funcin de la

produccin y de la lnea de trabajo. __
6.2. El consumo de energa segn la produccin de TBC y la lnea.
Analizaremos el consumo de energa segn la produccin del tren de bandas calientes

(pr.tbc) y la lnea de produccin (linea).
Ejemplo 6.3. Estime el consumo a partir de la produccin de TBC y de la lnea. Llame a
este modelo CoModelo1.
Solucin: Procedemos con un modelo lineal.
Estadsticos
Ajuste de modelos
Modelo lineal
Nombre del modelo: CoModelo1

Formula delraiz.consumo~pr.tbc + linea
Aceptar
> CoModelo1 <- lm(raiz.consumo ~ pr.tbc + linea, data = acero)

> summary(CoModelo1)
Call:
lm(formula = raiz.consumo ~ pr.tbc + linea, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-7.2926 -1.5770 -0.3949 2.0585 9.4530
Coefficients:
(Intercept) 1.005e+01 7.727e-01 13.006 < 2e-16 ***
pr.tbc
1.223e-03 8.928e-05 13.703 < 2e-16 ***
linea[T.B] 1.720e+00 6.416e-01 2.681 0.00843 **
linea[T.C] 3.584e+00 6.526e-01 5.491 2.49e-07 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Por cada unidad producida en pr.tbc, el raiz.consumo de energa aumenta en 1,223 10-3
unidades. Si se ha producido en la lnea A, hay que aadir al raiz.consumo 10,05 unidades
adicionales, mientras que si se fabrica en la lnea B, el raiz.consumo aumenta en 10,05 +
1,720 unidades y si se produce en la lnea C el raiz.consumo se incrementa en 10,05 +
3,584. As el modelo se formaliza y representa de la siguiente forma:
raiz.consumo=
En este modelo, la variacin de energa consumida es constante para las tres lneas de
produccin (las rectas de regresin son paralelas). __
Ejemplo 6.4. Estime el consumo a partir de la produccin de TBC, la lnea de produccin y
sus posibles interaciones. Nomine a este modelo CoModelo2.
Solucin: El modelo con interaccin se obtiene de la siguiente forma:
Estadsticos
Ajuste de modelos
Modelo lineal

Formula delraiz.consumo~pr.tbc * linea
Aceptar
> CoModelo2 <- lm(raiz.consumo ~ pr.tbc * linea, data = acero)

Call:
lm(formula = raiz.consumo ~ pr.tbc * linea, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-6.76425 -1.83728 -0.07738 1.82916 8.41252
Coefficients:
(Intercept)
12.4645906 1.1652944 10.697 < 2e-16 ***
pr.tbc
0.0008790 0.0001545 5.689 1.05e-07 ***
linea[T.B]
-3.2322181 1.5422928 -2.096 0.038380 *
linea[T.C]
3.1148687 1.9084184 1.632 0.105477
pr.tbc:linea[T.B] 0.0006917 0.0001988 3.480 0.000719 ***
pr.tbc:linea[T.C] 0.0001124 0.0002318 0.485 0.628793
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Antes de estudiar el modelo en profundidad, comprobemos si realmente mejora este
modelo al anterior.
Ejemplo 6.5. Compare los modelos CoModelo1 y CoModelo2.

Solucin: Al igual que en apartados anteriores la comparacin de modelos se realiza del
siguiente modo.
Modelos
Test de hiptesis

CoModelo1 y CoModelo2
Aceptar
> anova(CoModelo1, CoModelo2)

Model 1: raiz.consumo ~ pr.tbc + linea
Model 2: raiz.consumo ~ pr.tbc * linea

F Pr(>F)
1 113 905.37
2 111 800.89 2 104.49 7.2406 0.001107 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Se verifica la diferencia entre ambos modelos. Escogemos el modelo raiz.consumo pr.tbc *

linea. __
Ejemplo 6.6. Interprete el CoModelo2.
Solucin:
Recordemos el CoModelo2.
Modelos
Seleccionar modelo activo
CoModelo2
Modelos
Resumir el modelo
Call:
lm(formula = raiz.consumo ~ pr.tbc * linea, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-6.76425 -1.83728 -0.07738 1.82916 8.41252
Coefficients:
(Intercept)
12.4645906 1.1652944 10.697 < 2e-16 ***
pr.tbc
0.0008790 0.0001545 5.689 1.05e-07 ***
linea[T.B]
-3.2322181 1.5422928 -2.096 0.038380 *
linea[T.C]
3.1148687 1.9084184 1.632 0.105477
pr.tbc:linea[T.B] 0.0006917 0.0001988 3.480 0.000719 ***
pr.tbc:linea[T.C] 0.0001124 0.0002318 0.485 0.628793
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Como los coeficientes de la lnea C no resultan significativamente diferente de la lnea A,

podemos intentar agrupar los resultados de las lneas A y C. La interpretacin grfica de
este modelo muestra que las rectas de regresin de A y de C son casi paralelas.
__
6.3. Variables indicadoras
Las variables indicadores, ficticias o dummy, permiten desagregar fcilmente las variables
nominales. Por cada categora de la variable nominal se crea una variable indicadora, que
vale 1 si el registro pertenece a dicho atributo y cero en otro caso. Dado que la suma de
todas las variables indicadoras generadas a partir de una misma variable nominal vale 1, y
por lo tanto son linealmente dependientes, slo se utilizan k - 1 variables indicadoras,
siendo k el nmero de modalidades presentes en la variable nominal. Por ejemplo, en el
caso de la lnea de produccin se disponen de tres modalidades (A, B, C). Crearemos tres
variables indicadoras, lineaA, lineaB y lineaC que valdrn 1 si son de la lnea A, B y C,
respectivamente, y cero en otro caso.
linea
lineaA
lineaB
lineaC
Ejemplo 6.7. Genere las variables dummys lineaA, lineaB y lineaC que tomen valores 1 y 0
segn sean la produccin de la lnea A, B o C respectivamente
Solucin: Crearemos tres nuevas variables en nuestra base de datos.
> acero <- cbind(acero,model.matrix(~linea-1,acero))
Actualizamos la base de datos:

Datos
Conjunto de datos
Actualizar conjunto de datos
__
Repetiremos el modelo anterior utilizando estas variables indicadoras:
Ejemplo 6.8. Determine el modelo que relaciona raiz.consumo con las variables pr.tbc,
lineaB y lineaC. Llame a este modelo CoModelo3.
Solucin: Los coeficientes se calculan de la siguiente forma:
Estadsticos
Ajuste de modelos
Modelo lineal

Formula delraiz.consumo~(lineaB + lineaC) * pr.tbc
Aceptar
> CoModelo3 <- lm(raiz.consumo ~ (lineaB + lineaC) * pr.tbc, data = acero)

Call:
lm(formula = raiz.consumo ~ (lineaB + lineaC) * pr.tbc, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-6.76425 -1.83728 -0.07738 1.82916 8.41252
Coefficients:
(Intercept) 12.4645906 1.1652944 10.697 < 2e-16 ***
lineaB
-3.2322181 1.5422928 -2.096 0.038380 *
lineaC
3.1148687 1.9084184 1.632 0.105477
pr.tbc
0.0008790 0.0001545 5.689 1.05e-07 ***
lineaB:pr.tbc 0.0006917 0.0001988 3.480 0.000719 ***
lineaC:pr.tbc 0.0001124 0.0002318 0.485 0.628793
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Al aparecer coeficientes no significativos (sin estrellas), este modelo incorpora demasiadas

Solucin: La depuracin del modelo se realiza del siguiente modo:
Modelos

Aceptamos
Start: AIC=253.63
raiz.consumo ~ (lineaB + lineaC) * pr.tbc
Df Sum of Sq RSS AIC
- lineaC:pr.tbc 1
1.696 802.59 249.11
<none>
800.89 253.63
- lineaB:pr.tbc 1 87.359 888.25 260.98
Step: AIC=249.11
raiz.consumo ~ lineaB + lineaC + pr.tbc + lineaB:pr.tbc
Df Sum of Sq
RSS AIC
<none>
802.59 249.11
+ lineaC:pr.tbc 1
1.696 800.89 253.63
- lineaB:pr.tbc 1 102.790 905.37 258.45
- lineaC
1 290.525 1093.11 280.50
Esta salida muestra el modelo simplificado (raiz.consumo ~ lineaB + lineaC + pr.tbc +

lineaB:pr.tbc). __
Ejemplo 6.10. Estime el modelo anterior y denomnelo CoModelo4.
Solucin: Seguiremos los siguientes pasos:
Estadsticos
Ajuste de modelos
Modelo lineal

Frmula delraiz.consumo~lineaB + lineaC + pr.tbc + lineaB:pr.tbc
Aceptar
Call:
lm(formula = raiz.consumo ~ lineaB + lineaC + pr.tbc + lineaB *
pr.tbc, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-6.84084 -1.82951 -0.07738 1.82916 8.13247
Coefficients:
(Intercept) 12.1146686 0.9116805 13.288 < 2e-16 ***
lineaB
-2.8822961 1.3582876 -2.122 0.036041 *
lineaC
3.9884021 0.6263885 6.367 4.37e-09 ***
pr.tbc
0.0009289 0.0001148 8.093 7.74e-13 ***
lineaB:pr.tbc 0.0006417 0.0001694 3.787 0.000247 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Todos los coeficientes son significativos. Las lneas A y C consumen igual por cada unidad
producida de TBC (son paralelas), mientras que la lnea B consume ms (mayor pendiente
de la recta).
raiz.consumo=
__
6.4. Modelo completo
Para finalizar el estudio introducimos en el modelo todas las variables de produccin y

consideramos las interacciones con las variables linea y averias, generando un modelo de la
forma:
raiz.consumo~(pr.ca+pr.cc+pr.galv1+pr.galv2+pr.pint+pr.tbc)*(lineaB+lineaC)*averias
que llamaremos ModeloComple0
Ejemplo 6.11. Estime el modelo anterior.
Solucin: Los coeficientes se calculan ajustando un modelo lineal.
Estadsticos
Ajuste de modelos
Modelo lineal
Nombre del modelo: ModeloComple0

Formula delraiz.consumo~(pr.ca + pr.cc + pr.galv1 + + pr.galv2 + pr.pint + pr.tbc) *
(lineaB + lineaC) * averias
Aceptar
> ModeloComple0 <- lm(raiz.consumo ~ (pr.ca + pr.cc + pr.galv1 +

+
pr.galv2 + pr.pint + pr.tbc) * (lineaB + lineaC) * averias,
+
data = acero)
> summary(ModeloComple0)
Call:
lm(formula = raiz.consumo ~ (pr.ca + pr.cc + pr.galv1 + pr.galv2 +
pr.pint + pr.tbc) * (lineaB + lineaC) * averias, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-4.42944 -1.06618 -0.00667 1.14888 5.26460
Coefficients:
(Intercept)
pr.ca
pr.cc
pr.galv1
pr.galv2
pr.pint
pr.tbc
lineaB
lineaC
averias[T.S]
pr.ca:lineaB
pr.ca:lineaC
pr.cc:lineaB
pr.cc:lineaC
pr.galv1:lineaB

7.650e+00 1.569e+00 4.877 5.89e-06 ***
7.545e-03 3.697e-03 2.041 0.04480 *
2.661e-03 1.830e-03 1.454 0.15018
6.294e-04 2.395e-03 0.263 0.79344
2.215e-03 8.124e-04 2.726 0.00798 **
1.254e-03 1.902e-03 0.659 0.51175
8.679e-04 1.485e-04 5.843 1.24e-07 ***
6.343e-02 2.052e+00 0.031 0.97542
2.949e+00 2.986e+00 0.988 0.32648
-8.536e+00 7.687e+01 -0.111 0.91188
-9.081e-03 4.279e-03 -2.122 0.03712 *
-4.173e-03 5.175e-03 -0.806 0.42257
-6.495e-03 4.242e-03 -1.531 0.12996
1.219e-03 2.505e-03 0.486 0.62805
3.023e-03 3.098e-03 0.976 0.33237
pr.galv1:lineaC
4.059e-03 2.828e-03 1.435 0.15544
pr.galv2:lineaB
-5.895e-04 1.241e-03 -0.475 0.63622
pr.galv2:lineaC
-1.119e-03 1.197e-03 -0.934 0.35315
pr.pint:lineaB
7.073e-04 2.859e-03 0.247 0.80524
pr.pint:lineaC
-1.904e-03 2.676e-03 -0.712 0.47896
pr.tbc:lineaB
4.426e-04 2.388e-04 1.853 0.06778 .
pr.tbc:lineaC
6.164e-05 2.555e-04 0.241 0.81001
pr.ca:averias[T.S]
-1.529e-02 4.747e-02 -0.322 0.74829
pr.cc:averias[T.S]
-5.384e-03 6.309e-03 -0.853 0.39624
pr.galv1:averias[T.S]
8.798e-03 1.107e-02 0.795 0.42917
pr.galv2:averias[T.S]
-1.637e-03 1.945e-02 -0.084 0.93312
pr.pint:averias[T.S]
-7.034e-03 1.916e-02 -0.367 0.71452
pr.tbc:averias[T.S]
1.703e-03 6.583e-03 0.259 0.79652
lineaB:averias[T.S]
8.275e+00 7.694e+01 0.108 0.91463
lineaC:averias[T.S]
7.868e-01 7.759e+01 0.010 0.99194
pr.ca:lineaB:averias[T.S]
1.707e-02 4.798e-02 0.356 0.72297
pr.ca:lineaC:averias[T.S] -1.232e-03 4.977e-02 -0.025 0.98032
pr.cc:lineaB:averias[T.S]
1.131e-02 9.125e-03 1.240 0.21892
pr.cc:lineaC:averias[T.S]
8.028e-03 1.019e-02 0.788 0.43308
pr.galv1:lineaB:averias[T.S] -1.113e-02 1.199e-02 -0.929 0.35611
pr.galv1:lineaC:averias[T.S] -8.243e-03 1.423e-02 -0.579 0.56402
pr.galv2:lineaB:averias[T.S] 1.259e-03 1.950e-02 0.065 0.94870
pr.galv2:lineaC:averias[T.S] 3.783e-03 1.955e-02 0.193 0.84713
pr.pint:lineaB:averias[T.S] 8.848e-03 1.976e-02 0.448 0.65556
pr.pint:lineaC:averias[T.S] 9.872e-03 2.006e-02 0.492 0.62403
pr.tbc:lineaB:averias[T.S] -1.580e-03 6.588e-03 -0.240 0.81108
pr.tbc:lineaC:averias[T.S] -1.317e-03 6.596e-03 -0.200 0.84225
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Como era de suponer, el modelo muestra coeficientes no significativos (sin estrellas). __

Dado que anteriormente ya se haba analizado qu variables intervienen de forma
significativa, consideramos el siguiente modelo.
Ejemplo 6.12. Estime un modelo de la forma raiz.consumo ~(pr.cc + pr.galv1 + pr.galv2 +
pr.tbc)*(lineaB + lineaC). Llame lo ModeloComple1
Solucin: Procedemos de la siguiente forma:
Estadsticos
Ajuste de modelos
Modelo lineal

Formula delraiz.consumo~(pr.cc + pr.galv1 + pr.galv2 + + pr.tbc) * (lineaB + lineaC)
Aceptar
> ModeloComple1 <- lm(raiz.consumo ~ (pr.cc + pr.galv1 + pr.galv2 +

+
pr.tbc) * (lineaB + lineaC), data = acero)
Call:
lm(formula = raiz.consumo ~ (pr.cc + pr.galv1 + pr.galv2 + pr.tbc) *
(lineaB + lineaC), data = acero)
Residuals:
Min
1Q
Median
3Q
Max
-5.325113 -1.136508 0.007969 1.526089 5.933964

Coefficients:
(Intercept)
8.6910333 1.3140579 6.614 1.75e-09 ***
pr.cc
0.0028780 0.0015176 1.896 0.06074 .
pr.galv1
0.0006535 0.0020001 0.327 0.74453
pr.galv2
0.0021517 0.0007426 2.898 0.00460 **
pr.tbc
0.0008998 0.0001282 7.021 2.51e-10 ***
lineaB
-1.3215576 1.6927983 -0.781 0.43679
lineaC
0.5173535 2.3707022 0.218 0.82769
pr.cc:lineaB -0.0009772 0.0025148 -0.389 0.69840
pr.cc:lineaC
0.0005477 0.0020655 0.265 0.79144
pr.galv1:lineaB 0.0023994 0.0025280 0.949 0.34478
pr.galv1:lineaC 0.0033782 0.0022674 1.490 0.13933
pr.galv2:lineaB -0.0006493 0.0009893 -0.656 0.51309
pr.galv2:lineaC -0.0005098 0.0009900 -0.515 0.60770
pr.tbc:lineaB 0.0004720 0.0001757 2.686 0.00844 **
pr.tbc:lineaC 0.0001735 0.0001970 0.881 0.38034
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
De nuevo aparecen coeficientes no significativos (sin estrellas). __

Solucin: Utilizamos el procedimiento automtico de reduccin.
Modelos

Aceptamos
Start: AIC=240.75
raiz.consumo ~ (pr.cc + pr.galv1 + pr.galv2 + pr.tbc) * (lineaB +
lineaC)
Df Sum
- pr.cc:lineaC
1
- pr.cc:lineaB
1
- pr.galv2:lineaC 1
- pr.galv2:lineaB 1
- pr.tbc:lineaC 1
- pr.galv1:lineaB 1
- pr.galv1:lineaC 1
<none>
- pr.tbc:lineaB 1
Step: AIC=236.07
of Sq RSS AIC
0.343 497.71 236.07
0.736 498.10 236.16
1.293 498.66 236.29
2.100 499.46 236.48
3.785 501.15 236.87
4.393 501.76 237.01
10.824 508.19 238.50
497.36 240.75
35.187 532.55 243.98
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB +

lineaC + pr.cc:lineaB + pr.galv1:lineaB + pr.galv1:lineaC +
pr.galv2:lineaB + pr.galv2:lineaC + pr.tbc:lineaB + pr.tbc:lineaC
- pr.galv2:lineaC 1
1.543 499.25 231.67
- pr.cc:lineaB
1
1.555 499.26 231.67
- pr.galv2:lineaB 1
2.255 499.96 231.83
- pr.tbc:lineaC 1
4.023 501.73 232.25
- pr.galv1:lineaB 1
7.313 505.02 233.01
- pr.galv1:lineaC 1 16.376 514.08 235.09
<none>
497.71 236.07
- pr.tbc:lineaB 1 35.574 533.28 239.38
+ pr.cc:lineaC
1
0.343 497.36 240.75
Step: AIC=231.67
pr.galv2:lineaB + pr.tbc:lineaB + pr.tbc:lineaC
- pr.galv2:lineaB 1
0.948 500.20 227.13
- pr.cc:lineaB
1
1.561 500.81 227.27
- pr.tbc:lineaC 1
4.772 504.02 228.02
- pr.galv1:lineaB 1
6.631 505.88 228.45
- pr.galv1:lineaC 1 15.430 514.68 230.47
<none>
499.25 231.67
- pr.tbc:lineaB 1 35.282 534.53 234.89
+ pr.galv2:lineaC 1
1.543 497.71 236.07
+ pr.cc:lineaC
1
0.593 498.66 236.29
Step: AIC=227.13
pr.tbc:lineaB + pr.tbc:lineaC
- pr.cc:lineaB
1
1.492 501.69 222.71
- pr.tbc:lineaC 1
4.371 504.57 223.38
- pr.galv1:lineaB 1
6.089 506.29 223.78
- pr.galv1:lineaC 1 14.666 514.86 225.75
<none>
500.20 227.13
- pr.tbc:lineaB 1 34.642 534.84 230.20
+ pr.galv2:lineaB 1
0.948 499.25 231.67
+ pr.cc:lineaC
1
0.582 499.61 231.75
+ pr.galv2:lineaC 1
0.236 499.96 231.83
- pr.galv2
1 94.996 595.19 242.71
Step: AIC=222.71
lineaC + pr.galv1:lineaB + pr.galv1:lineaC + pr.tbc:lineaB +
pr.tbc:lineaC
- pr.tbc:lineaC 1
4.427 506.12 218.98
- pr.galv1:lineaB 1
4.802 506.49 219.07
- pr.galv1:lineaC 1 13.188 514.88 220.99
<none>
501.69 222.71
- pr.tbc:lineaB 1 33.409 535.10 225.49
+ pr.cc:lineaC
1
1.494 500.19 227.13
+ pr.cc:lineaB
1
1.492 500.20 227.13
+ pr.galv2:lineaB 1
0.879 500.81 227.27
+ pr.galv2:lineaC 1
0.257 501.43 227.41
- pr.cc
1 48.446 550.13 228.74
- pr.galv2
1 93.828 595.52 238.01
Step: AIC=218.98
lineaC + pr.galv1:lineaB + pr.galv1:lineaC + pr.tbc:lineaB
- pr.galv1:lineaB 1
4.497 510.61 215.25
- pr.galv1:lineaC 1 12.337 518.45 217.03
<none>
506.12 218.98
- pr.tbc:lineaB 1 29.516 535.63 220.85
+ pr.tbc:lineaC 1
4.427 501.69 222.71
+ pr.cc:lineaC
1
2.055 504.06 223.26
+ pr.cc:lineaB
1
1.547 504.57 223.38
+ pr.galv2:lineaC 1
0.728 505.39 223.57
+ pr.galv2:lineaB 1
0.493 505.62 223.63
- pr.cc
1 49.201 555.32 225.07
- pr.galv2
1 89.873 595.99 233.34
Step: AIC=215.25
lineaC + pr.galv1:lineaC + pr.tbc:lineaB
- pr.galv1:lineaC 1
7.882 518.49 212.28
<none>
510.61 215.25
- pr.tbc:lineaB 1 33.283 543.89 217.88
+ pr.galv1:lineaB 1
4.497 506.12 218.98
+ pr.cc:lineaC
1
4.200 506.41 219.05
+ pr.tbc:lineaC 1
4.121 506.49 219.07
+ pr.galv2:lineaC 1
0.597 510.02 219.88
+ pr.cc:lineaB
1
0.246 510.37 219.96
+ pr.galv2:lineaB 1
0.184 510.43 219.97
- pr.cc
1 45.549 556.16 220.49
- pr.galv2
1 86.487 597.10 228.80
Step: AIC=212.28
lineaC + pr.tbc:lineaB
<none>
518.49 212.28
- pr.tbc:lineaB 1 31.792 550.29 214.48
+ pr.galv1:lineaC 1
7.882 510.61 215.25
+ pr.cc:lineaC
1
6.288 512.21 215.62
- pr.cc
1 37.857 556.35 215.76
+ pr.tbc:lineaC 1
3.574 514.92 216.23
+ pr.galv2:lineaC 1
0.521 517.97 216.93
+ pr.galv2:lineaB 1
0.050 518.44 217.03
+ pr.galv1:lineaB 1
0.042 518.45 217.03
+ pr.cc:lineaB
1
0.016 518.48 217.04
- pr.galv1
1 76.987 595.48 223.72
- pr.galv2
1 81.223 599.72 224.55
- lineaC
1 113.472 631.97 230.68
Call:
lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc +
lineaB + lineaC + pr.tbc:lineaB, data = acero)
Coefficients:
(Intercept)
8.5303698
lineaB
-1.1257278
pr.cc
pr.galv1
pr.galv2
pr.tbc
0.0020305
0.0029066
0.0015580
0.0009934
lineaC pr.tbc:lineaB
2.7411554
0.0003746
Esta salida muestra el modelo simplificado (raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 +

pr.tbc + lineaB + lineaC + pr.tbc:lineaB). Las variables eliminadas no influyen
significativamente en el consumo energtico. __
Ejemplo 6.14. Estime el modelo simplificado anterior. Llmelo ModeloComple2.
Solucin: Procedemos de la siguiente forma:
Estadsticos
Ajuste de modelos
Modelo lineal

Formula delraiz.consumo~pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB + lineaC +
pr.tbc:lineaB
Aceptar
Call:
lineaB + lineaC + pr.tbc:lineaB, data = acero)

Residuals:
Min
1Q Median
3Q
Max
-5.4317 -1.2986 -0.0415 1.5019 6.3258
Coefficients:
(Intercept) 8.530e+00 9.441e-01 9.035 6.77e-15 ***
pr.cc
2.030e-03 7.198e-04 2.821 0.005689 **
pr.galv1
2.907e-03 7.225e-04 4.023 0.000106 ***
pr.galv2
1.558e-03 3.770e-04 4.132 7.07e-05 ***
pr.tbc
9.934e-04 9.446e-05 10.516 < 2e-16 ***
lineaB
-1.126e+00 1.199e+00 -0.939 0.350045
lineaC
2.741e+00 5.612e-01 4.884 3.59e-06 ***
pr.tbc:lineaB 3.746e-04 1.449e-04 2.585 0.011051 *
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

La coeficientes relacionados con la variable lineaB muestran ciertas dudas respecto a su
significatividad. Generamos un modelo sin este factor aislado.
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC + pr.tbc:lineaB
Ejemplo 6.15. Genere el modelo anterior y denomnelo ModeloComple3.
Solucin: Procedemos de forma similar al ejemplo anterior:
Formula delraiz.consumo~pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC + pr.tbc:lineaB
Aceptar
Call:
lineaC + pr.tbc:lineaB, data = acero)
Residuals:
Min
1Q Median
3Q
Max
-5.36027 -1.31064 -0.02664 1.56234 6.47916
Coefficients:
(Intercept) 7.922e+00 6.857e-01 11.553 < 2e-16 ***
pr.cc
2.141e-03 7.097e-04 3.016 0.003179 **
pr.galv1
2.801e-03 7.133e-04 3.927 0.000150 ***
pr.galv2
1.680e-03 3.538e-04 4.749 6.22e-06 ***
pr.tbc
1.043e-03 7.788e-05 13.399 < 2e-16 ***
lineaC
2.778e+00 5.595e-01 4.965 2.53e-06 ***
pr.tbc:lineaB 2.558e-04 7.040e-05 3.633 0.000427 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Todos los coeficientes son significativos y no habra que simplificar nada. La duda surge de
si hemos simplificado demasiado el modelo. __
De entre los modelos obtenidos, (ModeloComple0, ModeloComple2, ModeloComple3),
estimaremos si ajustan igual de bien o por el contrario muestran diferencias.
Ejemplo 6.16. Compare los modelos ModeloComple2 y el ModeloComple3.

Solucin: Al igual que en apartados anteriores la comparacin de modelos se realiza del
siguiente modo:
Modelos
Test de hiptesis
Selecionar los modelos

ModeloComple2 y ModeloComple3
Aceptar
> anova(ModeloComple2, ModeloComple3)

Model 1: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB +
lineaC + pr.tbc:lineaB
Model 2: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC +

pr.tbc:lineaB
F Pr(>F)
1 109 518.49
2 110 522.68 -1
-4.19 0.8808 0.3500
El ajuste es igual de bueno en ambos casos ( p-valor 0,3500 >0,05). La bsqueda de la

sencillez nos indica escoger el modelo con ms grados de libertad ModeloComple3). __
Ejemplo 6.17. Compare los modelos ModeloComple0 y el ModeloComple3.
Solucin: Efectuamos un anlisis del AIC:
Modelos
Test de hiptesis
Selecionar los modelos

ModeloComple0 y ModeloComple3
Aceptar
> anova(ModeloComple0, ModeloComple3)

Model 1: raiz.consumo ~ (pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint +
pr.tbc) * (lineaB + lineaC) * averias
Model 2: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC +
pr.tbc:lineaB
Res.Df
RSS Df Sum of Sq
F Pr(>F)
1
75 380.18
2 110 522.68 -35 -142.51 0.8032 0.7604
Como el p-valor 0,7347 supera a 0,05 ambos modelos ajustan igual de bien. Seleccionamos
el modelo ms simple (ModeloComple3 , con 110 grados de libertad). __
Para finalizar, chequeamos la bondad del modelo.
Ejemplo 6.18. Determine la bondad del modelo ModeloComple3.
Solucin: Para tal menester seguimos los siguientes pasos:
1.
Estudio de la colinealidad.
Modelos
Factores de inflaccin de
> vif(ModeloComple3)
pr.cc pr.galv1 pr.galv2
pr.tbc
lineaC pr.tbc:lineaB
1.581420 1.393477 1.019939 1.335018
1.713150
1.929893
Si alguno de los valores supera el valor 4 implica colinealidad (y por lo tanto, sobra
alguna variable en el modelo). En este modelo todos los valores no sobrepasan
dicha cantidad y por lo tanto no presentan colinealidad.
2.
Comprobemos ahora si el modelo es homocedstico mediante el test de
Breusch-Pagan.
Modelos
Aceptar
> bptest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc +

+
lineaC + pr.tbc:lineaB, varformula = ~fitted.values(ModeloComple3)
,
+
Breusch-Pagan test
data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC +
pr.tbc:lineaB
BP = 0.4266, df = 1, p-value = 0.5137
Como el p-valor (0,5137) supera a 0,05 no se rechaza la hiptesis de

homocedasticidad.
3.
Respecto a la linealidad o no del modelo:
Modelos
Desmarcar 3 cubos
Aceptar
> resettest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc +

+
lineaC + pr.tbc:lineaB, power = 2, type = ~regressor~,
+
data = acero)
RESET test
data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC +
pr.tbc:lineaB
Como el p-valor 0,8263 es mayor que no se rechaza la hiptesis nula, por lo que
no se requiere aumentar el grado al modelo.
4.
Por ltimo veamos si hay alguna observacin atpica que distorsione el
modelo.
Modelos
> outlier.test(ModeloComple3)
Observation: 107
Tenemos que la observacin 107 sigue siendo atpica

5.
Los test anteriores se pueden analizar grficamente:
Modelos
Grficas
Grficas bsicas de diagnstico
> oldpar <- par(oma = c(0, 0, 3, 0), mfrow = c(2, 2))

> plot(Modelo4)
> par(oldpar)
6.
Clculo de intervalo de confianza para las obseraciones atpicas. Nuestro
inters se centra en la observacin 107 (si bien la distancia de Cook
indica que apenas influye en el anlisis).
Modelos
Grficas

Aceptamos
> qq.plot(ModeloComple3, simulate = TRUE, labels = FALSE)
Como se mantiene dentro del intervalo de confianza no nos preocupamos por la

observacin 107.
La estimacin finaliza con el siguiente modelo:
con = 2,18. __
7. Redaccin de un artculo
La difusin del trabajo se convierte habitualmente en nuestra ltima meta. Si bien no
existen reglas precisas para garantizar la publicacin de nuestra investigacin, y sin nimo
de hablar ex cathedra, en esta seccin sugerimos diversas observaciones que el investigador
puede considerar.
Lo primero consiste en identificar un grupo de revistas interesadas por el trabajo.
Seguidamente, comprobamos si en esas revistas han publicado modelos similares al
nuestro. Si aparecen artculos similares, lo escribiremos dos o tres veces imitando dichos
trabajos. La cuarta versin la redactaremos por nuestra cuenta.
En caso de que nuestro trabajo sea novedoso y no aparezca ninguna referencia previa,
hemos de ser conscientes de que tal vez los revisores de la revista descozcan
completamente nuestra metodologa. Esto implica un especial cuidado con la redaccin y
exposicin de nuestra investigacin, procurando un enfoque muy pedaggico.
En general los artculos con metodologa estadstica se dividen en las siguientes secciones:
introduccin, metodologa, resultados, conclusiones, referencias, tablas y grficos. A
continuacin presentamos un conjunto de ideas o sugerencias para publicar el modelo
obtenido.
Metodologa.
Objetivo: analizar la relacin del consumo de energa con la produccin.
Datos: Se realizaron 39 observaciones en cada una de las tres lneas de produccin,

recogindose 15 observaciones en cada turno (5 para cada lnea) salvo en el ltimo,
que slo se pudo realizar 12 mediciones (4 en cada lnea). En total se disponen de
117 mediciones que recogen el consumo de energa, la produccin colada continua
(cc), convertidor de acero (ca), galvanizado tipo 1, galvanizado tipo 2, tren de
bandas caliente (tbc) y chapa pintada (pint). Adems, se anot si durante el turno
correspondiente se detect alguna anomala o no en la produccin.
Mtodo de anlisis: Se realiz una anlisis de la covarianza y se emple la

transformacin de Box-Cox con = 0,5 con el fin de conseguir normalidad,
linealidad y homocedasticidad en el modelo ( = 0,05). Se emple el software
estadstico R (Venables and Ripley, 2002; Crawley, 2009).
Resultados
con = 2,18. El resto de variables e interacciones no son significativas al 5%. Se presenta

de forma sucinta una posible interpretacin del modelo:
Existe diferente consumo segn la lnea de produccin empleada.
La lnea que menos consume es la A; la C consume ms que la A de una forma

constante, y la lnea B gasta ms de una forma proporcional a la produccin del tren
de bandas en caliente.
El producto que ms consume por unidad producida es el Galvanizado I, seguido

del CC, y del Galvanizado II, siendo el de menor gasto el tren de bandas en caliente.
La produccin de CA y de PINT no influyen significativamente en el consumo de la
empresa.
La presencia o no de averas tampoco afecta en el consumo.
El modelo explica el 81.37% de la energa consumida por la empresa. El restante

18.63% de la energa se debe a otros factores no contemplados en el estudio.
Tablas y grficos. Presentamos a continuacin una serie de grficos que explican el modelo.
No todos los presentados son igualmente relevantes. Decida qu grfico publicara y cul
no. (Fig. 13, 14, 15, 16 y 17).
Figura 13: Grficas bsicas de diagnstico de una regresin.
Figura 14: Grficas de comparacin de cuantiles de los residuos de un modelo.
Figura 15: Matriz de diagramas de dispersin.
Figura 16: Matriz de diagramas de dispersin (para variables significativas).
Figura 17: Relaciones entre produccin y consumo de energa, por la lnea de montaje
(diferentes escalas).
8. Ejercicios
Descargue la base de datos de la encuesta sobre el consumo de alcohol

(http://uce.uniovi.es/). La descripcin del cuestionario se encuentra en el Apndice A.2.
Ejercicio 1.
Describa los principales estadsticos de Ingresos mensuales personales (p4), Ingresos
mensuales familiares (p5), Dinero semanal que te dan (p7).
Solucin:
mean
sd 0% 25% 50% 75% 100% n NA
p4 198.99766 367.93078 0 0 0 295 2520 1283 0
p5 1607.92666 1030.08156 86 1080 1440 1872 14400 859 424
p7 31.53521 22.26721 1 20 25 40 250 710 573
Ejercicio 2. Represente grficamente la distribucin por barrios (p1).
Solucin:
Ejercicio 3. Dibuje el histograma del consumo total semanal.

Solucin:
Ejercicio 4. Existe relacin entre el consumo total de alcohol y el sexo?
Solucin:
Welch Two Sample t-test
data: p12 by p2
t = 8.0686, df = 1178.718, p-value = 1.738e-15
alternative hypothesis: true difference in means is not equal to 0
3.013180 4.949356
sample estimates:
mean in group Mascul. mean in group Femen.
11.155844
7.174576
Ejercicio 5. Realice un modelo de regresin en el que el consumo total de alcohol (p12)

dependa del barrio (p1), sexo (p2), edad (p3) y de los ingresos (p4, p5, p7). Deprelo.
Solucin:
Call:
lm(formula = p12 ~ p4 + p5 + p7 + p1 + p2 + p3, data = alcohol)
Residuals:
Min
1Q Median
3Q
Max
-12.965 -5.349 -2.224 2.741 48.972
Coefficients:
(Intercept)
1.7314781 3.1418905 0.551 0.581851
p1[T.Calzada-Nata.-Moreda] 0.2982704 1.6833515 0.177 0.859442
p1[T.Centro-Cimadevilla] 1.5453320 1.5566696 0.993 0.321397
p1[T.Contrueces-Ceares]
3.4139943 2.4495026 1.394 0.164101
p1[T.El Coto]
-0.8240901 2.0950283 -0.393 0.694249
p1[T.El Llano]
0.6082775 1.6791857 0.362 0.717344
p1[T.Periferia]
2.6534485 2.0806684 1.275 0.202885
p1[T.Pumar.-Roces]
1.1068011 1.6444040 0.673 0.501258
p2[T.Mascul.]
3.2248798 0.8420124 3.830 0.000147 ***
p3
0.0673985 0.1292659 0.521 0.602356
p4
-0.0016527 0.0053703 -0.308 0.758416
p5
0.0005950 0.0004561 1.305 0.192702
p7
0.0781025 0.0208088 3.753 0.000198 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(833 observations deleted due to missingness)
> modelofinal <- Rcmdr::stepwise(modelo1,

+
direction=backward/forward,
+
criterion=BIC)
Direction: backward/forward
Criterion: BIC
Start: AIC=2016.36
p12 ~ p4 + p5 + p7 + p1 + p2 + p3
- p1 7 395.41 33704 1978.9
- p4 1
7.22 33315 2010.3
- p3 1
20.72 33329 2010.5
- p5 1 129.73 33438 2012.0
<none>
33308 2016.4
- p7 1 1073.76 34382 2024.5
- p2 1 1118.05 34426 2025.1
Step: AIC=1978.91
p12 ~ p4 + p5 + p7 + p2 + p3
- p4 1
2.84 33706 1972.8
- p3 1
20.27 33724 1973.1
- p5 1 192.53 33896 1975.4
<none>
33704 1978.9
- p2 1 1059.88 34763 1986.7
- p7 1 1274.22 34978 1989.5
+ p1 7 395.41 33308 2016.4
Step: AIC=1972.83
p12 ~ p5 + p7 + p2 + p3
- p3 1
19.74 33726 1967.0
- p5 1 201.80 33908 1969.4
<none>
33706 1972.8
+ p4 1
2.84 33704 1978.9
- p2 1 1057.06 34764 1980.6
- p7 1 1273.99 34980 1983.4
+ p1 7 391.03 33315 2010.3
Step: AIC=1966.99
p12 ~ p5 + p7 + p2
- p5 1 190.99 33917 1963.4
<none>
33726 1967.0
+ p3 1
19.74 33706 1972.8
+ p4 1
2.32 33724 1973.1
- p2 1 1052.82 34779 1974.7
- p7 1 1505.36 35232 1980.5
+ p1 7 390.67 33336 2004.5
Step: AIC=3088.28
p12 ~ p7 + p2
Call:
lm(formula = p12 ~ p7 + p2, data = alcohol)
Coefficients:
(Intercept)
8.29555
p7 p2[T.Femen.]
0.07475
-2.90666
Genere el modelo simplificado p12~p7 + p2. Llmelo modelofinal.

Call:
lm(formula = p12 ~ p7 + p2, data = alcohol)
Residuals:
Min
1Q Median
3Q
Max
-25.982 -5.355 -2.510 2.826 50.369
Coefficients:
(Intercept) 5.38889 0.64189 8.395 2.53e-16 ***
p2[T.Mascul.] 2.90666 0.65976 4.406 1.22e-05 ***
p7
0.07475 0.01478 5.056 5.45e-07 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Ejercicio 6. Determine la bondad del modelo del ejercicio anterior (modelofinal).

Solucin:
Breusch-Pagan test
data: p12 ~ p2 + p7
BP = 48.3988, df = 1, p-value = 3.478e-12
RESET test
data: p12 ~ p2 + p7
outlierTest(Modelofinal)
rstudent unadjusted p-value Bonferonni p
68 5.932588
4.6702e-09 3.3159e-06
284 5.883926
6.1879e-09 4.3934e-06
498 5.299646
1.5527e-07 1.1025e-04
1131 5.270635
1.8084e-07 1.2840e-04
154 5.166829
3.1018e-07 2.2023e-04
738 4.814580
1.8055e-06 1.2819e-03
43 4.273992
2.1837e-05 1.5504e-02
1093 4.154694
3.6566e-05 2.5962e-02
Ejercicio 7. Realice una transformacin logartmica de las variables gasto total de alcohol
(p12) y dinero semanal que te dan (p7). Calcule el diagrama de dispersin de las
logartmicas de p12 y p7.
Solucin:
Ejercicio 8. Genere el modelo log(p12)~log(p7)+ p2. Llmelo ModeloTransfor.

Solucin:
Call:
lm(formula = log(p12) ~ log(p7) + p2, data = alcohol)
Residuals:
Min
1Q Median
3Q
Max
-2.77672 -0.58646 0.05107 0.62273 2.37514
Coefficients:
(Intercept) 0.51070 0.17571 2.907 0.00377 **
log(p7)
0.34916 0.05266 6.630 6.66e-11 ***
p2[T.Mascul.] 0.33816 0.06652 5.084 4.75e-07 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Ejercicio 9. Determine la bondad del modelo ModeloTransfor.

Breusch-Pagan test
data: log(p12) ~ log(p7) + p2
BP = 0.2286, df = 1, p-value = 0.6326
RESET test
data: log(p12) ~ log(p7) + p2
RESET = 8e-04, df1 = 1, df2 = 706, p-value = 0.9773
outlierTest(ModeloTransform.)
No Studentized residuals with Bonferonni p < 0.05
Largest |rstudent|:
rstudent unadjusted p-value Bonferonni p
916 -3.204988
0.0014115
NA
Observation: 916

Curso de R

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Curso de R

Cargado por

Copyright:

Formatos disponibles

1.

Figura 1: Cargar paquetes en R

Figura 3: Men de datos.

Figura 4: Cargar datos

2.2. Variable cualitativa-nominal

Seleccionar la variable averias

Los procedimientos anteriores proporcionan el siguiente resultado:

Seleccionar la variable averias

Seleccionar la variable naverias

Las salidas del procedimiento anterior son:

Seleccionar la variable naverias

Escribir un nombre para la nueva variable

> acero$naver <- as.factor(acero$naverias)

con lo que obtenemos un grfico similar al siguiente:

con el que se obtiene:

Seleccionar la variable consumo

se obtiene el siguiente histograma para la variable consumo:

Seleccionar la variable consumo

que dan como resultado:

2.1. Anlisis descriptivo

2.2. Variable cualitativa-nominal

Seleccionar la variable averias

Los procedimientos anteriores proporcionan el siguiente resultado:

> Tabla <- table(acero$averias) # counts for averias

Seleccionar la variable averias

Seleccionar la variable naverias

Las salidas del procedimiento anterior son:

Seleccionar la variable naverias

Escribir un nombre para la nueva variable

> acero$naver <- as.factor(acero$naverias)

con lo que obtenemos un grfico similar al siguiente:

con el que se obtiene:

Seleccionar la variable consumo

se obtiene el siguiente histograma para la variable consumo:

Seleccionar la variable consumo

que dan como resultado:

Seleccionar la variable averias

Los procedimientos anteriores proporcionan el siguiente resultado:

Seleccionar la variable averias

Esta instruccin realiza el siguiente diagrama de barras:

Seleccionar la variable naverias

Las salidas del procedimiento anterior son:

Seleccionar la variable naverias

> acero$naver <- as.factor(acero$naverias)

con lo que obtenemos un grfico similar al siguiente:

con el que se obtiene:

Seleccionar la variable consumo

se obtiene el siguiente histograma para la variable consumo:

Seleccionar la variable consumo

que dan como resultado:

Seleccionar la variable naverias

Las salidas del procedimiento anterior son:

Seleccionar la variable naverias

> acero$naver <- as.factor(acero$naverias)

con lo que obtenemos un grfico similar al siguiente:

con el que se obtiene:

Seleccionar la variable consumo

se obtiene el siguiente histograma para la variable consumo:

Seleccionar la variable consumo

que dan como resultado:

con el que se obtiene:

Seleccionar la variable consumo

se obtiene el siguiente histograma para la variable consumo:

Seleccionar la variable consumo