Está en la página 1de 231

Bioestadística: notas de clase

Carlos Javier Barrera Causil

2019
Índice general

Índice general 1

1. Conceptos básicos 5
1.1. Variables y su clasificación . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Clasificación de las variables según su naturaleza . . . . . . . . 6
1.1.2. Clasificación de las variables según su forma de interrelacionarse. 7
1.2. Nociones de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1. Criterio para aceptar un muestreo . . . . . . . . . . . . . . . . . 8
1.2.2. Muestreo Aleatorio Simple (MAS) . . . . . . . . . . . . . . . . . 8
1.3. El Formulario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1. Pasos previos a la elaboración del formulario . . . . . . . . . . . 11
1.4. Planeación y diseño de un experimento controlado . . . . . . . . . . . . 12

2. Introducción al R y R-Commander 13
2.0.1. Instalación de R . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.0.2. Iniciación de una sesión en R . . . . . . . . . . . . . . . . . . . 14
2.0.3. Instalación de R-Commander . . . . . . . . . . . . . . . . . . . 15
2.0.4. Búsqueda de ayuda . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.0.5. Ejecución de funciones especiales . . . . . . . . . . . . . . . . . 16
2.1. Manejo de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1. Introducción de datos con R-Commander . . . . . . . . . . . . . 16
2.1.2. Importar datos con R-Commander . . . . . . . . . . . . . . . . 17
2.1.3. Recodificación de una variable numérica con R-Commander . . 17

1
ÍNDICE GENERAL 2

2.1.4. Filtrado de datos con R-Commander . . . . . . . . . . . . . . . 17


2.1.5. Almacenamiento de instrucciones y resultados con R-Commander 18
2.1.6. Entrada y lectura de datos con R . . . . . . . . . . . . . . . . . 18
2.1.7. Entrando datos desde el teclado . . . . . . . . . . . . . . . . . . 19
2.1.8. Subíndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Especificación de datos faltantes . . . . . . . . . . . . . . . . . . . . . . 21
2.3. Manipulación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1. Operadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2. Funciones que producen escalares . . . . . . . . . . . . . . . . . 24
2.3.3. Funciones relacionadas con distribuciones . . . . . . . . . . . . . 26
2.4. Ejecuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.1. Función if . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.2. Función for . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.3. Función ifelse . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4.4. Objetos en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5. Creación de nuevas funciones en R . . . . . . . . . . . . . . . . . . . . 32
2.6. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6.1. Operaciones básicas con matrices . . . . . . . . . . . . . . . . . 34
2.6.2. Funciones sobre las componentes de una matriz . . . . . . . . . 36
2.7. Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3. Estadística Básica 48
3.0.1. Medidas de resumen en R . . . . . . . . . . . . . . . . . . . . . 49
3.1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1.1. Formalización de la probabilidad . . . . . . . . . . . . . . . . . 56
3.1.2. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . 58
3.1.3. Prueba Tamiz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.1.4. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.1.5. Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2. Variables aleatorias y distribuciones de probabilidad . . . . . . . . . . . 68
ÍNDICE GENERAL 3

3.2.1. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . 68


3.2.2. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . 69
3.2.3. Algunas distribuciones de probabilidad discretas . . . . . . . . . 71
3.2.4. Algunas distribuciones de probabilidad continuas . . . . . . . . 77

4. Inferencia estadística 83
4.1. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.1.1. Teorema del límite central . . . . . . . . . . . . . . . . . . . . . 83
4.1.2. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2. Intervalos de confianza y test de hipótesis . . . . . . . . . . . . . . . . . 90
4.2.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . 90
4.2.2. Intervalo de confianza para una proporción . . . . . . . . . . . . 91
4.2.3. Intervalo de confianza para la varianza . . . . . . . . . . . . . . 92
4.2.4. Intervalo de confianza para el cociente de varianzas . . . . . . . 94
4.2.5. Intervalo de confianza para diferencia de medias . . . . . . . . . 95
4.2.6. Intervalo de confianza para diferencia de medias pareadas . . . . 96
4.2.7. Intervalo de confianza para diferencia de proporciones . . . . . . 97
4.2.8. Test de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.2.9. Test de hipótesis para diferencia de medias . . . . . . . . . . . . 104
4.2.10. Test de hipótesis para diferencia de medias pareadas . . . . . . 107
4.2.11. Test de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . 108
4.2.12. Algunas pruebas no paramétricas . . . . . . . . . . . . . . . . . 109

5. Introducción al Análisis de Regresión 116


5.0.13. Correlación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.0.14. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.0.15. Regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . 146
5.0.16. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . 156
ÍNDICE GENERAL 4

6. Introducción al análisis de varianza 164


6.1. Definiciones básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
6.1.1. La hipótesis de investigación . . . . . . . . . . . . . . . . . . . . 166
6.2. Diseño Completamente al Azar (DCA) . . . . . . . . . . . . . . . . . . 170
6.2.1. Diseños Completamente Aleatorizados DCA . . . . . . . . . . . 173
6.2.2. Pruebas de igualdad de varianzas . . . . . . . . . . . . . . . . . 178
6.2.3. Comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . 179
6.2.4. Otras estrategias cuando se violan los supuestos . . . . . . . . . 187
6.3. Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.4. Diseño en Bloques Completamente Aleatorizados-DBCA . . . . . . . . 193
6.5. Diseños factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
6.5.1. Análisis de un diseño de dos factores . . . . . . . . . . . . . . . 206
6.5.2. Chequeando interacción con una observación por celda . . . . . 211
6.5.3. Análisis con diferente número de réplicas por celdas . . . . . . . 216
6.5.4. Diseño factorial con múltiples factores . . . . . . . . . . . . . . 218
6.5.5. Diseño factorial de dos niveles . . . . . . . . . . . . . . . . . . . 220

7. Modelos lineales generalizados 226


7.1. Introducción al modelo logístico . . . . . . . . . . . . . . . . . . . . . . 226
7.2. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Capítulo 1

Conceptos básicos

Población: Es el conjunto de individuos u objetos que poseen una o varias caracterís-


ticas comunes y acerca de los cuales se desea estudiar.

Muestra: Es un subconjunto de la población.

Muestra aleatoria: Es un subconjunto de la población seleccionado según un esque-


ma, de tal forma que cada elemento de la población tiene igual oportunidad de ser
seleccionado.

Marco de muestreo: Es un listado o mapa que contiene todas las unidades de


muestreo y por consiguiente cubre a toda la población.

Parámetro: Desde la óptica frecuentista o clásica, el parámetro es un valor fijo de


la población que describe una característica de la misma. Desde el punto de vista
Bayesiano, el parámetro es una variable aleatoria cuya distribución deseamos estimar.

Estadístico: Es una función que depende de los datos obtenidos en una muestra.

Estimador: Es un estadístico que se utiliza para estimar o inferir un parámetro.

1.1. Variables y su clasificación


Las variables son fenómenos a medir o registrar que pueden tomar valores diferentes
entre los elementos de la población.

5
CAPÍTULO 1. CONCEPTOS BÁSICOS 6

1.1.1. Clasificación de las variables según su naturaleza


1. Variables Cualitativas: Representan cualidades o atributos de los elementos ob-
jeto de estudio. Usualmente son codificadas con números que representan códigos
asignados a nuestra conveniencia. Estas variables también son llamadas categóri-
cas.

Cualitativas Nominales: Los niveles o categorías de la variable no tienen un


orden natural de medición, por ejemplo: estado civil, raza, causa de muerte, tipo
sanguíneo, etc.
Cuando este tipo de variables tiene únicamente dos posibles niveles o categorías,
ésta se conoce como binaria o dicotómica, por ejemplo: sexo, tener o no una
enfermedad, etc.

Cualitativas Ordinales: Los niveles o categorías de la variable tienen un orden


natural de medición, por ejemplo: tipo de quemadura, estrato socioeconómico,
etc.

2. Variables Cuantitativas: Representan cantidades provenientes de mediciones


o conteos de ocurrencias de eventos.
Estas variables también son llamadas no categóricas.

Cuantitativas Discretas: Son aquellas cuyas unidades resultan de hacer con-


teos, por ejemplo: Número de clientes por mes, número de accidentes por día,
número de huecos por kilómetros en una autopista, etc.

Cuantitativas Continuas: Sus unidades resultan de hacer mediciones, por ejem-


plo: peso, estatura, índice de masa corporal, tiempo de viaje, etc.

Considerando la naturaleza de las mediciones, clasifiquemos las siguientes variables.


CAPÍTULO 1. CONCEPTOS BÁSICOS 7

VARIABLE TIPO
Número de clientes por mes
Tipo de quemadura
Número de huecos por kilómetros en una carretera
Edad
Tiempo duración de las llamadas en un Call Center
Distancia de frenado de un vehículo en particular
Tipo de sangre
Género
Tamaño del equipaje (Grande, mediano, pequeño)
Número de personas por vivienda
Estatura
Modelo del automotor
Tiempo de vida de un celular
Estado civil
Estrato socioeconómico
Número de palabras por página en un libro

1.1.2. Clasificación de las variables según su forma de interrela-


cionarse.
1. Independientes: Comprenden aquellas variables que son manipuladas o tratadas
en un estudio con el fin de ver el efecto que tendrán en otra variable (dependiente).

2. Dependientes: Son aquellas variables en las cuales los cambios son el resultado
del nivel o cantidad de las variables independientes.
Por ejemplo, considerando las variables edad del vehículo y cantidad de emisión
de CO2 , esta última será el efecto y por lo tanto desempeñará el rol de variable
dependiente.

3. Intervinientes (De Control): Influyen o confunden el efecto de las independi-


entes, por ejemplo: En un estudio relacionado al efecto del sedentarismo sobre la
enfermedad coronaria, las variables edad, tabaquismo, y el estilo de vida pueden
jugar un papel de intervinientes.
Cuando se evalúa la relación entre una variable independiente y una variable de-
pendiente, hay dos tipos de variables o factores que pueden enmascarar el efecto
objeto de estudio. Estas son:

Factores o variables de confusión: Estas son variables externas a la relación que


se evalúa. Su presencia produce sesgos en la relación de la variable dependiente e
independiente, que se deben eliminar (o controlar) a través de ajustes estadísticos
realizados con análisis estratificado o con técnicas de análisis multivariante.
CAPÍTULO 1. CONCEPTOS BÁSICOS 8

Variables de interacción: Sus valores cambian la intensidad o el sentido de la


relación entre el factor de estudio (exposición) y la variable dependiente (respues-
ta). Descubrirlas es un objetivo del estudio.

1.2. Nociones de Muestreo


Hay dos formas de estudiar las poblaciones: por censo o por muestreo. En el censo se
analizan todos y cada una uno de los elementos de una población y en el muestreo se
analiza una parte de la población.

Las principales ventajas del muestreo comparadas con el censo son:

Costo reducido: Si la información se obtienen únicamente para una parte de la


población, los gastos son menores que los se tendrían si se realiza un censo.
Mayor rapidez: La información puede ser recolectada y procesada más rápida-
mente cuando se selecciona una muestra que cuando se realiza un censo.
Mayor exactitud: Cuando los errores ajenos al muestreo son necesariamente grandes,
una muestra puede dar mejores resultados que un censo, ya que esos errores se
controlan con más facilidad si la operación es de pequeña escala.
Posibilidad de hacerse: En la industria algunas pruebas son destructivas, por lo
tanto, ciertas investigaciones sólo pueden realizarse con una muestra de productos.
Por ejemplo, un estudio sobre la duración de los bombillos o la resistencia de
cualquier material.

1.2.1. Criterio para aceptar un muestreo

Sabemos que una muestra es una parte de una población, pero no toda muestra es
admisible para el análisis. Para que una muestra sea aceptable es necesario que sea
representativa de la población, que tenga una confiabilidad susceptible de medición y
que responda a un plan práctico y eficaz.

Existen diferentes métodos de muestreo, entre ellos los más comunes son el muestreo
aleatorio simple, muestreo sistemático, muestreo estatificado, muestreo por conglomer-
ado, muestreo estratificado polietápico, etc.

1.2.2. Muestreo Aleatorio Simple (MAS)

El muestro aleatorio simple es el más sencillo y conocido procedimiento probabilístico


de selección.
CAPÍTULO 1. CONCEPTOS BÁSICOS 9

Definición: MAS Supongamos que se quiere seleccionar una muestra de tamaño n


de una población que consta de N elementos (naturalmente, n ≤ N ). Se dice que el
procedimiento de selección es un muestreo aleatorio simple si el proceso aplicado otorga
a todo subconjunto de tamaño n de la población la misma probabilidad de selección.

Tamaño de muestra

Para determinar el tamaño de la muestra se debe elegir el principal objetivo y calcular


el tamaño de muestra necesario para cumplir dicho objetivo, pues el tamaño de muestra
depende, entre otros factores, del estadístico a utilizar.

En caso de ser varios los objetivos principales se determina un tamaño de muestra para
cumplir cada objetivo y entre todos ellos, se elige el mayor.

El tamaño de la muestra depende básicamente de:

Tamaño de la población. Lo notaremos por N .

Nivel de confianza o confiabilidad de las estimaciones (usualmente es un 95 %). A


mayor confiabilidad, mayor n. Lo notaremos por Zα/2 = 1.96.

Grado de variación o dispersión de la variable a estudiar (puede ser estimada con


una muestra piloto o con estudios previos). Lo notaremos por S 2 .

Error de estimación (es la máxima diferencia en valor absoluto, que se está dis-
puesto a aceptar). A mayor error de estimación menor tamaño de muestra. Lo
notaremos por ε.

Tamaño de muestra para estimar una media

n0
n= , Para poblaciones finitas.
1 + nN0
2
Zα/2 S2
n0 = , Para poblaciones infinitas.
ε2
Ejemplo: Una empresa tiene 98 operarios y desea determinar el tamaño de muestra
necesario para estimar el tiempo promedio que requiere un operario para completar una
labor, con un error de estimación máximo de medio minuto y una confiabilidad del 95 %.

Se toma una muestra piloto, con la cual se estima una desviación estándar de 1.2 min-
utos.
CAPÍTULO 1. CONCEPTOS BÁSICOS 10

Solución: Tenemos que N = 98, ε = 0.5, Zα/2 = 1.96, y S = 1.2.


De aquí,
2
Zα/2 S2 1.962 (1.22 )
n0 = = = 22.13 ≈ 22
ε2 0.52
Como la población es finita, tenemos que
n0 22
n= n0 = = 17.97 = 18
1+ N 1 + 22
98

Se debe seleccionar una muestra aleatoria de 18 operarios.

Tamaño de muestra para estimar una proporción

n0
n= , Para poblaciones finitas.
1 + n0N−1
P (1 − P )Zα/2
2
n0 = , Para poblaciones infinitas.
ε2
Usualmente P = 0.5, puesto que este valor es el que maximiza la varianza de una pro-
porción.

Ejemplo: Se desea realizar una encuesta entre la población juvenil de una determinada
localidad para determinar la proporción de jóvenes que estaría a favor de una nueva
zona de ocio.

El número de jóvenes de dicha población es N = 2000. Determinar el tamaño de mues-


tra necesario para estimar la proporción de estudiantes que están a favor con un error
de estimación de ε = 0.05 y un nivel de confianza del 95 %, Zα/2 = 1.96.

Solución: Como no nos dan ninguna estimación de la proporción, tomaremos P = 0.5

P (1 − P )Zα/2
2
0.52 (1.96)2
n0 = = = 384.16 ≈ 384
ε2 0.052
n0 384
n= n0 −1 = 383 = 322.3 ≈ 323
1+ N 1 + 2000
Se debe seleccionar una muestra aleatoria de 323 jóvenes.
CAPÍTULO 1. CONCEPTOS BÁSICOS 11

1.3. El Formulario
Es un instrumento utilizado para recolectar la información requerida en un estudio.
El diseño de la encuesta o el formulario, posee unas características específicas y una
estructura a considerar.

El investigador debe preguntarse, de acuerdo con los objetivos del estudio: ¿Es el formu-
lario el instrumento más efectivo para alcanzar los objetivos?; ¿Hay fuentes secundarias
que me pueden proveer información de interés?

Si se elige el formulario, la elaboración de los ítems debe hacerse de manera clara y sin
ambigüedades; se requiere también codificar el formulario para facilitar la tabulación.

los dos objetivos básicos del formulario son facilitar la recolección de los datos y ayudar
a la organización de la información para utilizarla más adelante.

1.3.1. Pasos previos a la elaboración del formulario

Antes de elaborar la encuesta, debe considerarse los siguientes aspectos.

Decidir acerca de los datos que se recolectarán. La selección de las variables es-
tá fundamentada en el marco teórico del estudio y la experiencia de los investi-
gadores.

Organizar las preguntas de tal manera que tengan una secuencia lógica.

Decidir si las preguntas que se harán son cerradas o abiertas.

Responder a las preguntas: ¿Quién recogerá la información?, ¿Dónde y cuándo se


registrará?, ¿Cómo se procesarán los datos?.

Realizar una prueba piloto.

Anexar instrucciones necesarias.

Elementos para el diseño del formulario

Simplicidad

Longitud

Tiempo de duración
CAPÍTULO 1. CONCEPTOS BÁSICOS 12

Secuencialidad (se recomiendan las preguntas más complejas en la mitad del cues-
tionario)

Composición del formulario

Título del estudio o de la encuesta

Número de identificación del formulario

Instructivo

Preguntas

Tipos de preguntas en el formulario

Preguntas abiertas: Invitan a una respuesta libre. Se emplean para detectar acti-
tudes y sentimientos de los participantes.

Preguntas cerradas: En estas preguntas se limitan las respuestas a un grupo de


opciones. Las preguntas cerradas suelen tener las siguientes formas:

a. ) Dicótomas: Su respuesta tiene dos alternativas


b. ) Tricótomas: Su respuesta tiene tres alternativas, ejemplo, ¿Le ha sido infiel
a su esposo(a)? (1: Si 2: No 3: No responde)
c. ) Con alternativas múltiples: Tiene más de tres alternativas.
d. ) En abanico: El encuestado tiene la oportunidad de seleccionar varias respues-
tas.

Ejemplo de una encuesta

1.4. Planeación y diseño de un experimento controla-


do
ver artículo: A Systematic Approach to Planning for a Designed Industrial Experiment.
Capítulo 2

Introducción al R y R-Commander

R es un lenguaje o ambiente para trabajos computacionales que permite crear informes


estadísticos y gráficos de alta calidad. Es un proyecto GNU (General Public Licence) es
decir, es una licencia que está orientada principalmente a proteger la libre distribución,
modificación y uso de software; el cuál es similar al lenguaje y ambiente de S, software
desarrollado en los laboratorios de Bell (antes AT&T, ahora Lucent Technologies).

Más que un programa de estadística, R puede ser considerado un lenguaje de alto


nivel. Es completamente estructurado. La programación es dinámica ya que el uso de la
memoria y los procedimientos con matrices es ejecutado automáticamente. Permite
definir funciones que pasan a ser parte del sistema automáticamente y pueden ser
llamadas en posteriores sesiones sin tener que definirlas nuevamente. R puede pensarse,
aunque es mucho más, como un lenguaje matricial. Las siguientes son unas ventajas:

Opera con objetos,


Posee una amplia base de operadores,
Usa operadores que se aplican a matrices completas, por ejemplo, si A y B son
matrices las siguientes operaciones son posibles: A + B, A × B, etc.
Es interactivo,
Produce gran variedad de gráficos de excelente calidad,
Está en constante actualización,
Es un software robusto,
Es gratuito

El programa se puede obtener, para diferentes plataformas, de la siguiente dirección en


Internet
http://cran.r-project.org

13
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 14

2.0.1. Instalación de R

Para la instalación de R nos dirigimos a la página de internet http://cran.r-project.org,


posteriormente escogemos el link Download R for xxxx, luego base y finalmente se-
leccionar el enlace Download R x.x.x for Windows, el cual instalará R en nuestro
equipo.

2.0.2. Iniciación de una sesión en R

En el ícono de R que aparece en el escritorio haga doble clic. El programa ejecuta y


aparece la pantalla de comandos encabezada por lo siguiente:

R version 3.1.2 (2014-07-10)) Copyright (C) 2014 The R Foundation


for Statistical Computing ISBN 3-900051-07-0 Platform:
i386-pc-mingw32/i386 (32-bit)

R es un software libre y viene sin GARANTIA ALGUNA. Usted puede


redistribuirlo bajo ciertas circunstancias. Escriba "license()" o
"licence()" para detalles de distribución.

R es un proyecto colaborativo con muchos contribuyentes. Escriba


"contributors()" para obtener más información y "citation()" para
saber cómo citar R o paquetes de R en publicaciones.

Escriba "demo()" para demostraciones, "help()" para el sistema


on-line de ayuda, o "help.start()" para abrir el sistema de ayuda
HTML con su navegador. Escriba "q()" para salir de R.

y el cursor se ubicará en esa línea. La consola de R está lista para el ingreso de comandos
por parte del usuario. El símbolo > que aparece al lado izquierdo señala el punto donde
se ingresan los comandos.

NOTA. Es importante notar que para el programa las mayúsculas son


diferentes a las minúsculas, Es decir Mat, mat, MAT, son objetos diferentes
en R.

NOTA. El R se está actualizando constantemente, es por esto que hay


que estar atento en el Cran, respecto a sus nuevas versiones. Si usted desea
actualizar el R, puede seguir los siguientes pasos:

install.packages("installr") # instala en paquete installr


library(installr) # llama al paquete installr
updateR() # actualiza la nueva versión de R
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 15

2.0.3. Instalación de R-Commander

R-Commander es una Interfaz Gráfica de Usuario (GUI en inglés), creada por John
Fox, que permite acceder a muchas capacidades del entorno estadístico R sin que el
usuario tenga que conocer el lenguaje de comandos propio de este entorno.
La instalación de R-Commander se realiza en los siguientes pasos:

1. En la consola de R seleccionamos Paquetes→ Instalar paquete(s).


2. Nos saldrá una ventana solicitando un mirror desde el cual descargaremos los
paquetes, elegimos cualquiera de estos.
3. Se abrirá una ventana donde aparecen todos los paquetes disponibles para R.
Seleccionamos el paquete Rcmdr.
4. A continuación, cargamos R-Commander, introduciendo el siguiente código en la
consola de R: library(Rcmdr). Esta primera vez que cargamos R-Commander nos
pedirá la instalación de otros paquetes necesarios: debemos autorizarlo, eligien-
do la opción, que aparece por defecto, de descarga desde CRAN . No debemos
extrañarnos si tarda unos minutos en descargar e instalar estos otros paquetes.

La ventana de R-Commander se encuentra dividida en tres partes: script, output


y messages. Cada vez que, a través de los menús de R-Commander accedamos a las
capacidades de R (gráficos, procedimientos estadísticos, modelos, etc.), en la ventana
script se mostrará el comando R que ejecuta la tarea que hayamos solicitado, y en la
ventana output se mostrará el resultado de dicho comando.

2.0.4. Búsqueda de ayuda

Si se tiene una conexión a Internet es posible buscar ayuda usando el siguiente comando:

RSiteSearch("t.test")

o localmente tenemos

help.search("t.test")

para buscar ayuda acerca de funciones, utilizamos

help("t.test") o ?t.test

Tenga en cuenta que estas formas de buscar ayuda requiere del conocimiento del nombre
de la función, pero si desconocemos qué función de R nos facilita nuestro procedimien-
to, debemos utilizar el comando ??, por ejemplo, si deseamos buscar ayuda sobre la
Regresión de Cox, en R introducimos la instrucción:

??cox
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 16

2.0.5. Ejecución de funciones especiales

En R las funciones están organizadas en librerías o paquetes. Por defecto R inicializa


en el paquete denominado “base” en el cual encontramos las funciones generales para
el manejo de datos y graficación. Existen otros paquetes en los cuales se encuentran
herramientas de análisis más especializadas, las cuales pueden ser utilizadas cargando
previamente la librería que las contiene. Una librería o paquete puede cargarse mediante
la función library(), con require() o bien a través de la barra menú PAQUETES
del R.

> library()

2.1. Manejo de datos


El manejo de datos en R puede parecer complejo. El programa cuenta con funciones
poderosas tanto para la lectura como para la escritura de datos.

Comando Función
scan() Lectura de datos. Especial para datos sin estructura.
read.table() Lectura de matrices de datos
read.fwf() Lectura de datos en formato fijo.
sink() Desvía la salida de información.
write() Escribe una matriz en un archivo de texto.
xtable() Escribe una matriz en formato LATEX. Es
necesario cargar la librería xtable.
ftable() Permite presentar decentemente un arreglo
multidimensional.

2.1.1. Introducción de datos con R-Commander

Para introducir los datos en R-Commander elegimos en el menú la opción Datos, luego
Nuevo conjunto de datos. Eso abre el editor de datos que, en primer lugar, nos pedirá
un nombre para la matriz de datos (pondremos Datos1) y a continuación abrirá una
ventana con casillas parecida a una hoja de cálculo de Excel. En esta hoja debemos
introducir los datos con la misma estructura que tienen comúnmente las matrices de
datos, con los individuos en las filas y las variables en columnas.
A manera de ejemplo, vamos a introducir las variables Edad y Presión Sanguínea Sistóli-
ca (PSS): Edad: 20 43 63 26 53 31 58 46 58 70
PSS: 120 128 141 126 134 128 136 132 140 144

Para terminar, le damos Aceptar, y automáticamente se cierra la ventana del editor


CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 17

de datos. En ese momento, R habrá almacenado los datos introducidos convirtiéndolos


en lo que R-Commander llama el conjunto de datos activo.

Para guardar una hoja de datos en R-Commander, seleccionamos en el menú Datos la


opción Conjunto de datos activo y, dentro de ésta, Guardar el conjunto de datos activo.

2.1.2. Importar datos con R-Commander

Nos vamos a la opción del menu Datos → Importar datos → desde archivo de texto o
portapapeles.

Leeremos entonces, la base con nombre base11.txt.

Ahora, si queremos leer datos de tipo Excel, tenemos que utilizar la opción del menu
Datos → Importar datos → desde conjunto de datos Excel, Access o dBase, eligiendo
después el archivo a través de la ventana del explorador.

Leeremos ahora, la base con nombre base1.xls.

2.1.3. Recodificación de una variable numérica con R-Commander

Importemos la base de datos llamada base_datos.txt que se encuentra en la carpeta


del curso. Seleccionamos la opción Datos → Modificar variables del conjunto de datos
activo → Recodificar variables.

1. Variable a recodificar: EDAD

2. Nombre de la nueva variable: EDAD_rec

3. Directrices de recodificación:

17:29="joven"
30:60="adulto"

2.1.4. Filtrado de datos con R-Commander

Seleccionando en el menú Datos → Conjunto de datos activo → Filtrar el conjunto de


datos activo.
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 18

En la casilla Expresión de selección debemos escribir la expresión lógica que determine


nuestro filtro. Para el ejemplo, utilizaremos: ESTA_REAL>1.62&ESTA_REAL<1.73, lo cual
indica que queremos trabajar únicamente con las variables en la cual las estaturas de
los individuos estén entre 1.62 y 1.73.

Por último, se recomienda poner un nombre al nuevo conjunto de datos para evitar
sobreescribir en el original. Lo llamaremos datos3.

2.1.5. Almacenamiento de instrucciones y resultados con R-


Commander

Seleccionamos en el menú Fichero → Guardar las instrucciones como. Nos pedirá el


nombre y la ruta donde guardar el fichero de instrucciones, que tendrá extensión .R.

Ahora vamos a reiniciar R-Commander y volvemos a cargar el fichero base_datos.txt.


A continuación elegimos en el menú Fichero → Abrir fichero de instrucciones y selec-
cionamos el fichero de instrucciones que antes hemos guardado.

2.1.6. Entrada y lectura de datos con R

La entrada de datos puede hacerse desde teclado, y la lectura a través de un archivo


en ASCII. Una vez los datos han sido leídos estos quedan en forma permanente en el
disco duro en formato R. Estos datos en formato especial pueden usarse repetidamente
en diferentes sesiones y quedan grabados en el directorio “.Data”.

Función scan

La función scan() puede usarse para leer datos desde un archivo de texto o interacti-
vamente desde el teclado.

Suponga la base de datos con nombre base1 en la carpeta Curso MIB. La lectura de
estos datos la realizamos así:

a1=scan(file.choose(),what=list("",1,1))
a1

Asignando los nombres a las variables, tenemos:

sexo=unlist(a1[1])
edad=unlist(a1[2])
peso=unlist(a1[3])
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 19

Note que la función unlist() permite producir vectores de una estructura de lista.

Función read.table

Cuando debemos manejar un archivo de datos relativamente grande y que contiene vari-
ables tanto numéricas como alfanuméricas podemos utilizar la función read.table()
, la cual nos permite leer archivos externos en ASCII, como los que crea una hoja elec-
trónica. Lo que debemos tener en cuenta con esta función es la estructura de datos, la
cual se conoce como data frame, lo traduciremos como marco de datos.

Si los datos están en formato CSV (delimitados por comas), usamos la siguiente ins-
trucción:
datos=read.table(file.choose(),header=T,sep=";",dec=",")
Si los datos están en blog de notas, extensión .txt, usamos la instrucción:
datos=read.table(file.choose(),header=T,sep=,sep=,dec=","), donde

header=T: es para decirle a R que los nombres de la variable están en la primera fila
de la base de datos.
sep=: indica que las variables están separadas por espacio en blanco.
dec=",": indica que los valores con cifras decimales están separados por comas ",".
file.choose(): indica a R para que abra una ventana y busquemos la base de datos
a cargar.

Para nuestro ejemplo con la base de datos base1.csv, tenemos:

a1=read.table(file.choose(),header=T,sep=";")
a1

Si queremos llamar a la variable edad de la base de datos podemos utilizar las siguientes
instrucciones:

a1$edad
a1[2]

NOTA: si queremos leer la base de datos en formato .xls, debemos instalar y cargar
la librería readxl y usar la función de lectura de datos read_excel().

2.1.7. Entrando datos desde el teclado

R opera con lo que se conoce como estructura de datos. La más simple de tales es-
tructuras es el vector, que es una sola entidad consistente de una colección ordenada
de números o caracteres. Para crear un vector llamado x, que tenga seis elementos,
digamos 3.6, 2.5, 1.2, 0.6, 1.3, y 2.1, utilizamos el comando
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 20

x=c(3.6,2.5,1.2,0.6,1.3,2.1)

Otros ejemplos:

x=c(1,7:19)
length(x)

frutas<-c("pera","manzana","banano","pera","curuba")

También se puede generar sucesiones de números con instrucciones de la forma:


x=2:20 (que genera un vector con los elementos ordenados 2, 3, 4, . . . , 20).
x=19:1 (que genera un vector con los elementos ordenados 19, 18, 17, . . . , 1).
o utilizando la función seq de la forma:
y=seq(1,2,by=.2) (que genera un vector con los elementos ordenados 1, 1.2, 1.4, 1.6,
1.8, 2).
y =seq(2,1,by=-.2) (que genera un vector con los elementos ordenados 2, 1.8, 1.6,
1.4, 1.2, 1).
x=seq(2,1,length=6) (genera una secuencia de valores desde el 2 hasta el 1 de longi-
tud seis 2.0, 1.8, 1.6, 1.4, 1.2, 1.0)

También se pueden replicar estructuras con la función rep()


z=rep(y,times=4)
z
[1] 2.0 1.8 1.6 1.4 1.2 1.0 2.0 1.8 1.6 1.4 1.2 1.0 2.0 1.8 1.6 1.4 1.2
[18] 1.0 2.0 1.8 1.6 1.4 1.2 1.0

2.1.8. Subíndices

Creemos el siguiente vector


x<-seq(1,10,by=0.8)
x
[1] 1.0 1.8 2.6 3.4 4.2 5.0 5.8 6.6 7.4 8.2 9.0 9.8
Ejecute los siguientes comandos y observe que cada uno de ellos realiza lo que se es-
pecifica al frente.

x[1] # Primer elemento de x


x[1:3] # Elementos 1 a 3
x[x>5] # Solo los mayores que 5
x[-1] # Se elimina el primer elemento
x[-c(1,3)] # Elimina el elemento 1 y 3
x[-(1:3)] # Elimina los tres primeros elementos
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 21

Ejemplo. Generemos 50 valores de una distribución normal y creemos una variable


categórica donde llamaremos al 50 % de los valores más centrales “medios”, y al restante
ya sea “bajos” o “altos”:

daticos=rnorm(50)
daticos
[1] 1.54424873 -0.64448394 -0.85470054 -0.83369159 -0.34076731 -1.33601081
[7] 1.17407874 0.14617907 -0.47634426 -1.12084150 0.30321170 -0.56746721
[13] 0.54022534 -0.91098144 -1.16554573 0.58225394 -0.80016995 0.83495880
[19] -0.20147381 0.57470639 -0.54912672 0.33988339 -0.05734176 -0.43489809
[25] 0.36820726 -0.16590310 2.25252639 0.68756948 -0.79313628 -0.86452138
[31] -1.28005771 -0.90248163 1.02730576 -0.06534854 0.21307202 -2.19740137
[37] -1.12128317 0.63053435 0.62328987 -0.18507329 -1.64746852 -0.41697604
[43] -0.93695834 -0.38080377 0.75571559 -0.31020689 0.22646122 -0.64086500
[49] 1.13310851 -0.51603719

cuartil1=quantile(daticos,probs=0.25)
cuartil3=quantile(daticos,probs=0.75)
categorica=rep(NA,length(daticos))
categorica[daticos<cuartil1]="bajos"
categorica[cuartil1<=daticos & daticos<=cuartil3]="medios"
categorica[daticos>cuartil3]="altos"
categorica
[1] "altos" "medios" "bajos" "bajos" "medios" "bajos" "altos" "medios"
[9] "medios" "bajos" "medios" "medios" "altos" "bajos" "bajos" "altos"
[17] "medios" "altos" "medios" "altos" "medios" "medios" "medios" "medios"
[25] "medios" "medios" "altos" "altos" "medios" "bajos" "bajos" "bajos"
[33] "altos" "medios" "medios" "bajos" "bajos" "altos" "altos" "medios"
[41] "bajos" "medios" "bajos" "medios" "altos" "medios" "medios" "medios"
[49] "altos" "medios"

2.2. Especificación de datos faltantes


Cuando tenemos valores faltantes en las variables debemos denotarlos en R con NA.
Sin embargo, si tenemos un archivo donde los datos faltantes se denoten con otro
caracter entonces en la opción na.strings = ’NA’ de la función scan() o de la función
read.table() reemplazamos el NA por el símbolo adecuado.
Tenemos un archivo en la carpeta Curso MIB llamado uci.txt que es

Edad D.estancia Dif.peso


29 8 2
34 15 -3
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 22

46 7 *
21 8 -1.5
18 5 -4
33 20 *
30 * 0
60 8 -2.5
19 7 -2
21 4 *

donde los valores faltantes se han denotado por una *. En R le damos el comando
siguiente para su lectura:

uci.dat<-read.table(file.choose(),header=T, na.strings ="*")


uci.dat
Edad D.estancia Dif.peso
1 29 8 2.0
2 34 15 -3.0
3 46 7 NA
4 21 8 -1.5
5 18 5 -4.0
6 33 20 NA
7 30 NA 0.0
8 60 8 -2.5
9 19 7 -2.0
10 21 4 NA

y observamos cómo el programa reemplaza los símbolos por el adecuado para manejo
interno.

2.3. Manipulación de datos


La manipulación de datos se hace de diferentes formas. Usualmente se toma ventaja de
la vectorización del lenguaje. Esto permite trabajar sobre un conjunto de elementos en
lugar de trabajar elemento a elemento como en lenguajes normales.

2.3.1. Operadores
+ :Suma

− : Resta

× : Multiplicación
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 23

/ : División

ˆ: Exponenciación

%/ % : División entera

% % : Operador módulo

Operadores de comparación

< : menor

> : mayor

<= : menor o igual

>= : mayor o igual

== : igual

! = : diferente

Operadores lógicos

&:y

|:ó

! : no

all(...):

any(...):

Operadores de control

&& : Si el primer operando es cierto se evalúa el segundo operando

|| : Si el primer operando es falso se evalúa el segundo operando.


CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 24

Operaciones básicas

Siendo el lenguaje vectorizado, los vectores pueden usarse en expresiones aritméticas,


en cuyo caso las operaciones son ejecutadas elemento a elemento. Si x y z son vectores,
no necesariamente de la misma dimensión, entonces podemos ejecutar los siguientes
comandos

y<-x+z
y2<-x-z
y3<-2*x+z-3

La dimensión de y, y2 y y3 será igual a la dimensión mayor de los vectores x y z

y4<-1/x

El anterior comando produce un vector cuyos elementos corresponden a los inversos de


x

2.3.2. Funciones que producen escalares

Existen una gran cantidad de funciones que al ser aplicadas a un vector producen como
resultado un escalar. Entre ellas tenemos:

max(): retorna el máximo del argumento

min(): retorna el mínimo del argumento

sum(): retorna la suma de todos los elementos del argumento

mean(): retorna el promedio aritmético de todos los elementos del argumento

var(): retorna la varianza de todos los elementos del argumento, cuando éste es
un vector, o la matriz de varianzas - covarianzas, si el argumento es una matriz.

sd(): retorna la desviación estándar de los datos

median(): retorna la mediana del argumento

quantile(...,probs=c(...)): retorna quantiles del argumento con la proporción o


proporciones indicadas en ‘probs’.

prod(): retorna el producto de todos los elementos del argumento

length(): retorna el número de elementos del argumento si este es una lista o


vector.
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 25

ncol(): número de columnas si el argumento es una matriz

nrow(): número de filas si el argumento es una matriz

summary(): estadísticas básicas

Ejemplo:

x<-rexp(20)
x

[1] 0.65699969 4.38423147 1.39088864 1.82778784 0.07063072 0.16763033 0.26055624 0.13914072


[9] 0.19467512 1.43806059 0.33195089 0.53713890 1.03220040 1.64537448 0.76489143 0.77907097
[17] 0.08561684 0.01892189 0.53475832 2.32819674

max(x)
[1] 4.384231
min(x)
[1] 0.01892189
sum(x)
[1] 18.58872
mean(x)
[1] 0.9294361
length(x)
[1] 20
median(x)
[1] 0.5970693
var(x)
[1] 1.102911
sd(x)
[1] 1.050196
quantile(x,probs=0.75)
75%
1.402682

La función summary nos proporciona los estadísticos básicos del argumento:

s<-summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.01892 0.18790 0.59710 0.92940 1.40300 4.38400
length(s)
[1] 6

#presentando un componente de s:
s[1]
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 26

Min.
0.01892

Transformando a s en un vector:
c<-as.vector(s)
c
[1] 0.01892 0.18790 0.59710 0.92940 1.40300 4.38400

2.3.3. Funciones relacionadas con distribuciones

En R podemos calcular densidades, probabilidades acumuladas, hallar cuantiles y gener-


ar números aleatorios de la siguiente manera:
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 27

Tabla 2.1: Algunas funciones relacionadas con distribuciones.


Distribución Densidad Función Acumulada
Uniforme dunif(x,min=0,max=1,log = FALSE) punif(q,min=0,max=1,
lower.tail = TRUE,log.p = FALSE)
Normal dnorm(x, mean=0, sd=1, log = FALSE) pnorm(q, mean=0, sd=1,
lower.tail = TRUE, log.p = FALSE)
Binomial dbinom(x, size, prob, log = FALSE) pbinom(q, size, prob,
lower.tail = TRUE, log.p = FALSE)
Lognormal dlnorm(x, meanlog = 0, sdlog = 1, log = FALSE) plnorm(q, meanlog = 0,
sdlog = 1, lower.tail = TRUE,
log.p = FALSE)
Beta dbeta(x, shape1, shape2, ncp=0, pbeta(q, shape1, shape2, ncp=0,
log = FALSE) lower.tail = TRUE, log.p = FALSE)
Geométrica dgeom(x, prob, log = FALSE) pgeom(q, prob, lower.tail = TRUE,
log.p = FALSE)
Gamma dgamma(x, shape, scale=1, log = FALSE) pgamma(q, shape, scale=1,
lower.tail = TRUE, log.p = FALSE)
Ji cuadrado dchisq(x, df, ncp=0, log = FALSE) pchisq(q, df, ncp=0,
lower.tail = TRUE, log.p = FALSE)
Exponencial dexp(x, rate = 1, log = FALSE) pexp(q, rate = 1,
lower.tail = TRUE, log.p = FALSE)
F df(x, df1, df2, log = FALSE) pf(q, df1, df2, ncp=0,
lower.tail = TRUE,log.p = FALSE)
Hipergeom. dhyper(x, m, n, k, log = FALSE) phyper(q, m, n, k,
lower.tail = TRUE, log.p = FALSE)
t dt(x, df, log = FALSE) pt(q, df, ncp=0, lower.tail = TRUE,
log.p = FALSE)
Poisson dpois(x, lambda, log = FALSE) ppois(q, lambda,lower.tail = TRUE,
log.p = FALSE)
Weibull dweibull(x, shape, scale = 1, log = FALSE) pweibull(q, shape, scale = 1,
lower.tail = TRUE, log.p = FALSE)
Binom. Neg. dnbinom(x, size, prob, mu, log = FALSE) pnbinom(q, size, prob, mu,
lower.tail = TRUE, log.p = FALSE)
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 28

Tabla 2.2: Funciones relacionadas con distribuciones.


Distribución Cuantiles Números Aleatorios
Uniforme qunif(p, min=0, max=1,lower.tail runif(n, min=0, max=1)
= TRUE, log.p = FALSE)
Normal qnorm(p, mean=0, sd=1, lower.tail rnorm(n, mean=0, sd=1)
= TRUE, log.p = FALSE)
Binomial qbinom(p, size, prob, lower.tail rbinom(n, size, prob)
= TRUE, log.p = FALSE)
Lognormal qlnorm(p, meanlog = 0, sdlog = 1, rlnorm(n, meanlog = 0, sdlog = 1)
lower.tail = TRUE, log.p = FALSE)
Beta qbeta(p, shape1, shape2, lower.tail rbeta(n, shape1, shape2)
= TRUE, log.p = FALSE)
Geométrica qgeom(p, prob, lower.tail = TRUE, rgeom(n, prob)
log.p = FALSE)
Gamma qgamma(p, shape, scale=1, lower.tail rgamma(n, shape, scale=1)
= TRUE, log.p = FALSE)
JI cuadrado qchisq(p, df, ncp=0, lower.tail = TRUE, rchisq(n, df, ncp=0)
log.p = FALSE)
Exponencial qexp(p, rate = 1, lower.tail = TRUE, rexp(n, rate = 1)
log.p = FALSE)
F qf(p, df1, df2,lower.tail = TRUE, log.p rf(n, df1, df2)
= FALSE)
Hipergeom. qhyper(p, m, n, k, lower.tail = TRUE, rhyper(nn, m, n, k)
log.p = FALSE)
t qt(p, df,lower.tail = TRUE, log.p = rt(n, df)
FALSE)
Poisson qpois(p, lambda, lower.tail = TRUE, rpois(n, lambda)
log.p = FALSE)
Weibull qweibull(p, shape, scale = 1, lower.tail = rweibull(n, shape, scale = 1)
TRUE, log.p = FALSE)
Binom.Neg. qnbinom(p, size, prob, mu, lower.tail = rnbinom(n, size, prob, mu)
TRUE, log.p = FALSE)

Ejemplo: Si se quiere graficar la función densidad de probabilidad de una normal con


media 0 y varianza 1, lo podemos hacer con la instrucción,

x <- seq(-3.5,3.5,by=.01)
plot(x,dnorm(x, mean=0, sd=1))

o la distribución Ji-cuadrado con 5 grados de libertad,

x <- seq(0,20,by=.01)
plot(x,dchisq(x, df=5))

Y si se quiere encontrar P r(X ≤ 5) de una variable distribuida en forma binomial, con


n = 10 y p = 0.7, se tiene:

pbinom(5, size=10, prob=.7, lower.tail = TRUE)

si se quiere encontrar P r(X > 4, 5) de una variable normal con media 5 y desviación 2,

pnorm(4.5, mean=5, sd=2, lower.tail = FALSE)

También se puede crear la tabla de la distribución normal estándar con las instrucciones,
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 29

zc <- seq(0,3.5,.1)
zf <- seq(0,.9,.1)
z <- matrix(NA,nrow=length(zc),ncol=length(zf),dimnames = list(zc,zf))
for(i in 1:length(zc)){
for(j in 1:length(zf)){
zt=zc[i]+zf[j]
z[i,j]=pnorm(zt)}
}
z

2.4. Ejecuciones condicionales

2.4.1. Función if

if (expr1) expr2 else expr3


Por ejemplo, la función valor absoluto de un número x la podríamos crear como,

x = -2.8
y = NA
{if(x>=0) y=x
else y=-x}
y

aunque R tiene la función abs() que calcula sin problema este valor.

2.4.2. Función for

for (nombre in expr1) expr2

Por ejemplo si se quiere crear la sucesión x, (x + 1)2 , (x + 2)3 , . . . , (x + n − 1)n y saber


su suma podemos usar el siguiente ciclo for

x = 5
y = 0
n = 10
for(i in 1:n){
y[i] = (x+i-1)^i}
y
[1] 5 36 343 4096 59049 1000000
[7] 19487171 429981696 10604499373289254654976
sum(y)
[1] 300309686745
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 30

Otro ejemplo usando for e if es usarlo para recodificar una variable,

x = c(1,0,0,1,0,1,0)
y = 0
for(i in 1:length(x)){
if (x[i]==1) y[i] = "Si" else y[i] = "No"}
y
[1] "Si" "No" "No" "Si" "No" "Si" "No"

2.4.3. Función ifelse

El uso de if está limitado a expresiones que no sean vectores. Si estamos evaluando


vectores o matrices, entonces lo indicado es hacerlo con ifelse.
ifelse(test, yes, no)

Por ejemplo si se desea calcular la raíz cuadrada de un número siempre y cuando este
sea mayor que 0,
x = 3
sqrt(ifelse(x>=0, x, NA))
[1] 1.732051
x = -5
sqrt(ifelse(x>=0, x, NA))
[1] NA
{
x2 si 0<x<3
Si, por ejemplo, se tiene la función, f (x) =
x − 1 si x≥3
podemos observar algunos de sus valores mediante la función ifelse,

x = seq(0,6,by=.01)
y = ifelse((x<3),x^2,x-1)
plot(x,y) # para graficarlo

Otro ejemplo consiste generar 100 observaciones de una distribución normal estándar
y determinar cuantas están dentro de dos desviaciones estándar de la muestra,

x=rnorm(100)
media=mean(x)
desv.est=sd(x)
desv=abs(x-media)
cuenta=ifelse(desv<(2*desv.est),1,0)
cuenta
[1] 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0
[34] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1
[67] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 31

2.4.4. Objetos en R

La información es manipulada en R en forma de objetos. Ejemplos de objetos son


vectores de valores numéricos (reales) o valores complejos, vectores de valores lógicos
y vectores de caracteres. Estos son conocidos como estructuras ”atómicas” ya que sus
componentes son todos del mismo tipo o modo. Las mismas funciones del R son objetos.

Función append

Esta función permite agregar elementos a un vector o unir vectores.


append(x, values, after=length(x))

Por ejemplo,

x = c(1,2,3)
append(x, c(4,5,6), after=length(x))
[1] 1 2 3 4 5 6

Función matrix, is.matrix, as.matrix

En R es posible crear matrices y convertir data frames en matrices utilizando:

matrix Crea una matriz desde un conjunto de valores dado.

as.matrix Intenta convertir su argumento en una matriz.

is.matrix Prueba si su argumento es una matriz (estricta).

matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE,dimnames = NULL)

as.matrix(x)

is.matrix(x)

Ejemplo:

matrix(1:16, nrow=2, byrow=T)


[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,] 1 2 3 4 5 6 7 8
[2,] 9 10 11 12 13 14 15 16
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 32

Función list

Permite guardar o crear una lista ordenada de componentes. Por ejemplo,

x = list(a=1:10, b=c("manzana", "pera"))


x
$a
[1] 1 2 3 4 5 6 7 8 9 10

$b [1] "manzana" "pera"

Para llamar un elemento de x escribimos x$a o x$b y Enter. Con la función unlist(x)
unimos todos los elementos de la lista x.

Función data.frame

Estas funciones crean o manipulan data frames, una estructura como la matricial cuyas
columnas pueden ser de diferentes tipos (numéricos y caracteres).

Por ejemplo,

x = data.frame(a=1:6,b=c("A","B","C"))
x
a b
1 1 A
2 2 B
3 3 C
4 4 A
5 5 B
6 6 C

Función rm

Con esta función se remueven objetos de R.


rm(x)

2.5. Creación de nuevas funciones en R


En R se dispone de function y return las cuales proporcionan los mecanismos de base
para definir nuevas funciones en lenguaje R.
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 33

function(arglist) expr

Por ejemplo, si se quiere crear una función que calcule el coeficiente de kurtosis, lo
podemos hacer como,

y = c(2,3,1,3,4)
kurtosis=function(x){
mean((x-mean(x))^4)/(sd(x))^4-3
}
kurtosis(y)

También se puede crear la función media geométrica como,

media.geometrica<-function(x) prod(x)^(1/length(x))
media.geometrica(y)

Podemos crear también la función P r(T ≤ t) bajo una distribución de Poisson,

p.poisson = function(t,lambda){
if(t>=0 & lambda>0){
seq = seq(0,t)
Pr.i = exp(-lambda)*lambda^seq/factorial(seq)
sum(Pr.i)
}
else cat("t debe ser mayor que 0","\n")
}
p.poisson(2,.5)

La siguiente función que produce cuatro gráficas: un histograma, una caja de Tukey,
una estimación de la densidad y un gráfico q-q (cuantil vs. cuantil), y le adiciona una
línea que pasa por el primer y tercer cuartil.

forma.aed<-function(x){
par(mfrow=c(2,2))
hist(x)
boxplot(x)
IQR<-summary(x)[5]-summary(x)[2]
plot(density(x,width=2*IQR), xlab="x",ylab="",type="l")
qqnorm(x)
qqline(x)
}
x=rnorm(100)
forma.aed(x)
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 34

Ahora, la siguiente función produce un gráfico dentro de otro. En este caso tenemos
un histograma con su respectiva función de densidad, y un boxplot dentro del mismo
gráfico.

dos.en.uno<-function(x){
hist(x, col="light blue", probability="TRUE", main="", xlab="x",
ylab="Densidad")
lines(density(x,na.rm=T), col="red", lwd=3)

abline(v=mean(x,na.rm=T),col="yellow",lwd=3)
abline(v=mean(x,na.rm=T)-sd(x,na.rm=T),col="yellow",lwd=3,lty=2)
abline(v=mean(x,na.rm=T)+sd(x,na.rm=T),col="yellow",lwd=3,lty=2)

op <- par(fig = c(0.5,0.85,.5,.98), new=TRUE)


boxplot(x, xlab="", ylab="", main="", axes=FALSE)
box(lwd=1)
par(op)
}

x=rexp(1000)
dos.en.uno(x)

2.6. Matrices

2.6.1. Operaciones básicas con matrices

Si A y B son dos matrices, el producto de matrices se realiza con % ∗ %, por ejemplo


A=matrix(1:16,ncol=4,byrow=T)
B=matrix(5:20,ncol=4,byrow=T)

A%*%B

Transposición de una matriz


la transpuesta de una matriz A se logra con la instrucción t(A)

Productos cruzados
El producto cruzado AT B se puede calcular con la instrucción crossprod(A,B)

Solución de ecuaciones Ax = y
La solución de ecuaciones de la forma Ax+y, donde A es la matriz de coeficientes, se
consigue como
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 35

A=cbind(c(1,2,3),c(2,4,5),c(3,5,2))
y=c(-1,-1,3.5)
x=qr.solve(A,y,tol = 1e-10)

Concatenando matrices
cbind(): Esta función une dos matrices por filas (o sea, una al lado de la otra)

A=matrix(c(1,3,5,7),ncol=2)
A
[,1] [,2]
[1,] 1 5
[2,] 3 7
B=matrix(c(0,3,2,1,4,7),nrow=2)

B
[,1] [,2] [,3]
[1,] 0 2 4
[2,] 3 1 7
C=cbind(A,B)
C
[,1] [,2] [,3] [,4] [,5]
[1,] 1 5 0 2 4
[2,] 3 7 3 1 7

rbind(): Junta dos matrices por columna (una matriz sobre la otra)

D=rbind(A,t(B))
D
[,1] [,2]
[1,] 1 5
[2,] 3 7
[3,] 0 3
[4,] 2 1
[5,] 4 7

Cálculo de valores y vectores propios


La función eigen() produce los valores y vectores propios de una matriz cuadrada. Por
ejemplo,

A=matrix(c(1,2,3,2,4,5,3,5,2),ncol=3)
eigen(A)
$values
[1] 9.51206040 0.04117509 -2.55323549
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 36

$vectors
[,1] [,2] [,3]
[1,] -0.3789216 0.83776349 -0.3931549
[2,] -0.6934136 -0.53837038 -0.4788893
[3,] -0.6128589 0.09115742 0.7849168

Creación de matrices diagonales La función diag() crea una matriz diagonal si el


argumento es vectorial o retorna la matriz diagonal de una matriz,

diag(c(1,2,3))
[,1] [,2] [,3]
[1,] 1 0 0
[2,] 0 2 0
[3,] 0 0 3

A=matrix(c(1,2,3,2,4,5,3,5,2),ncol=3)
A
[,1] [,2] [,3]
[1,] 1 2 3
[2,] 2 4 5
[3,] 3 5 2
diag(A)
[1] 1 4 2

Inversa de una matriz


La inversa de una matriz se calcula con la función solve()

Ordenando un vector
Con la función sort() podemos ordenar un vector. Por ejemplo,
sort(c(-.25,-1.3,0,0.5,1.5,4.3))
[1] -1.30 -0.25 0.00 0.50 1.50 4.30

2.6.2. Funciones sobre las componentes de una matriz

Función apply

apply (X, MARGIN, FUN)


Donde X es el arreglo a ser usado, MARGIN es un vector con los subíndices sobre los
cuales la función será aplicada (1 indica filas, 2 indica columnas, c(1,2) indica filas y
columnas), y FUN es la función a ser aplicada.

Por ejemplo si se quiere calcular las medias de las columnas de una matriz,
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 37

x = cbind(round(c(rnorm(5,10,2)),1),round(c(runif(5,10,20)),1),
c(rpois(5,3)))
x
[,1] [,2] [,3]
[1,] 7.7 19.0 2
[2,] 10.4 12.9 1
[3,] 11.8 11.9 4
[4,] 10.4 12.4 5
[5,] 8.4 14.2 1
apply(x,MARGIN=2,mean)
[1] 9.74 14.08 2.60
apply(x,MARGIN=1,mean)
[1] 9.566667 8.100000 9.233333 9.266667 7.866667

También podríamos estar interesados en estandarizar las variables de la matriz,


est = function(x) (x-mean(x))/sd(x)
apply(x,MARGIN=2,est)

Otro ejemplo usando comandos gráficos, consiste en dibujar histogramas para cada una
de las columnas de la matriz,

x = cbind(c(rnorm(5000,10,2)),c(runif(5000,10,20)),c(rpois(5000,3)))
tail(x)
[,1] [,2] [,3]
[4995,] 10.346965 14.10746 0
[4996,] 9.804242 11.98455 5
[4997,] 13.188636 10.22597 2
[4998,] 6.644832 19.30358 2
[4999,] 13.205479 13.38812 4
[5000,] 6.295047 18.52519 3
par(mfrow=c(1,3))
apply(x,MARGIN=2,hist)
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 38

Histogram of newX[, i] Histogram of newX[, i] Histogram of newX[, i]

500

1000
800

400

800
600

300
Frequency

Frequency

Frequency

600
400

200

400
200

100

200
0

0
5 10 15 10 12 14 16 18 20 0 2 4 6 8 10 12

newX[, i] newX[, i] newX[, i]

Existen otras funciones que simplifican los cálculos y operan de manera iterada sobre
columnas o filas de una matríz, para mayor información vea Correa, J. y Barrera C.
(2010).

2.7. Gráficos
Algunas funciones gráficas que podemos usar en R son:

Función plot(x,y)
plot(x,y,type="l",main="Título",xlab=.Eje x",ylab=.Eje y",xlim=c(-3,10),
ylim=c(0,100))
donde type indica el tipo de gráfico: l si es de linea, p si es de puntos, b si es de puntos
y líneas, entre otros.

Ejemplo:
x = seq(0,10,by=.1)
y = df(x, 20, 10)
plot(x,y,type="l",main="Densidad F",xlab="Valores X",ylab="Probabilidad")
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 39

Densidad F

0.8
0.6
Probabilidad

0.4
0.2
0.0

0 2 4 6 8 10

Valores X
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 40

Otros parámetos gráficos son:


col: color de las linea y puntos, col=#
pch: Símbolos para los puntos, pch=#
bg: color de los símbolos, bg=#
lty: tipo de linea, lty=#
cex: tamaño de los símbolos, cex=#
lwd: ancho de las líneas, lwd=#

Función lines()
la función lines(x,y,type="l") permite agregar gráficos a uno ya creado. Por ejemplo,

x = seq(-3,3,.1)
y = dnorm(x)
plot(x,y,type="p",pch=20,col="red")
lines(x,y)
0.4

0.4
0.3

0.3
0.2

0.2
y

y
0.1

0.1
0.0

0.0

−3 −1 1 2 3 −3 −1 1 2 3

x x
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 41

Función abline(a,b)
Permite agregar líneas según las especificaciones. Por ejemplo,

plot(x,y,type="p",pch=20)
abline(h=.2,col=2) # linea horizontal en y = 0.2
abline(v=0,col=3) # linea vertical en x = 0
abline(.1,.01) # linea con pendiente 0.01 e intercepto y = 0.1

0.4

0.4
0.3

0.3
0.2

0.2
y

y
0.1

0.1
0.0

0.0
−3 −1 1 2 3 −3 −1 1 2 3

x x

Función par()
Puede ser usado para especificar varios parámetros gráficos, entre ellos para realizar
varios gráficos por página. Por ejemplo, las instrucciones siguientes realizan dos gráficos
en una “fila” y le cambia algunos colores al gráfico.

# par() Visualizamos las propiedades de la plantilla gráfica


opar = par() # almacenamos en opar las propiedades
par(mfrow=c(1,2),las=1,col=2,col.axis=3,col.lab=4)
plot(dnorm(x),main="Densidad Normal")
plot(pnorm(x),main="fda normal")
par(opar) # restauramos las propiedades originales

Densidad Normal fda normal

0.4 1.0

0.8
0.3
dnorm(x)

pnorm(x)

0.6
0.2
0.4
0.1 0.2

0.0 0.0

0 20 40 60 0 20 40 60

Index Index
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 42

Función matplot()
Permite graficar más de un conjunto de datos con un eje x en común. Por ejemplo,
y = cbind(dnorm(x),dnorm(x+.5),dnorm(x+1))
matplot(x,y,type="l",lwd=2)

0.4

0.3

0.2
y

0.1

0.0

−3 −2 −1 0 1 2 3

Función hist()
Realiza un histograma a un vector de datos. Por ejemplo, si se toma el conjunto de
datos cars de R,

data(cars)
head(cars) # muestra los primero 6 elementos de la base de datos
par(mfrow=c(1,2))
hist(cars$speed)
hist(cars$dist)

Histogram of cars$speed Histogram of cars$dist

15
15
Frequency

Frequency

10 10

5 5

0 0

0 5 10 20 0 40 80 120

cars$speed cars$dist

También se puede especificar el número aproximado de clases con breaks=#. Se puede


especificar además el tipo de histograma, freq=T (frecuencias absolutas) o freq=F (fre-
cuencias relativas). Con el argumento labels=T, se colocan etiquetas arriba de cada
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 43

barra. Por ejemplo,


hist(cars$speed,breaks=2,labels=T,col=gray(.9))

Histogram of cars$speed

35 34

30

25

Frequency 20

15

10 9
7

0 5 10 15 20 25 30

cars$speed
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 44

Función boxplot()
Permite realizar un gráfico de cajas sobre un conjunto de datos. Por ejemplo, usemos la
base de datos Orange y construyamos dos boxplot, uno para la variable circumference
y otro para la misma variable pero teniendo en cuenta un factor, en este caso la variable
Tree, respectivamente.

data(Orange)
attach(Orange) # me permite acceder a las variables de la base de datos
boxplot(circumference)
boxplot(circumference~Tree)
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 45

200

150

100

50

3 1 5 2 4

Función stem()
Realiza el gráfico de tallos y hojas de Tukey. Por ejemplo,

stem(rnorm(100,mean=10,sd=2))

The decimal point is at the |


5 | 678
6 | 578
7 | 23447889
8 | 122333444455666677799
9 | 00011223444566778999
10 | 12233444556666777777899
11 | 1112233345578
12 | 13377
13 | 15
14 | 35

Funciones qqnorm y qqline


Este gráfico nos ayuda a determinar si un conjunto de datos está distribuido en forma
aproximadamente normal. Por ejemplo,
qqnorm(cars[,1],pch=20)
qqline(cars[,1],col=4)
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 46

Normal Q−Q Plot

25

Sample Quantiles
20

15

10

−2 −1 0 1 2

Theoretical Quantiles

En general se puede comparar dos distribuciones de datos como,


x=rnorm(length(cars[,1]),mean(cars[,1]),sd(cars[,1]))
qqplot(cars[,1],x,pch=20)

Función pairs
Proporcionan un método simple de presentar las relaciones entre pares de variables.
Por ejemplo,
pairs(cars)

0 20 40 60 80 100
25
20

speed
15
10
5
100

dist
60
20
0

5 10 15 20 25
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 47

200

150

100

50
Capítulo 3

Estadística Básica

En R podemos generar todo tipo de estadísticas básicas, ya sea con el uso de paquetes
o con la creación de nuestras propias funciones.
Definiremos algunos conceptos básicos usados en esta sección.

Media aritmética (x̄): la media aritmética de una muestra, es una medida de


tendencia central, o bien, un promedio numérico. Para su cálculo, suponga que
las observaciones en una muestra son x1 , x2 , . . . , xn , entonces
∑n
xi x1 + x2 + · · · + xn
x̄ = i=1 = .
n n

Media recortada: esta se calcula “quitando” cierto porcentaje de los valores


mayores y menores del conjunto de datos.

Media ponderada: es una media arimética de datos que poseen un “peso”, es


decir, cada dato es multiplicado por un valor (wi ) en particular, y luego se obtiene
su promedio. Se calcula de la siguiente forma:
∑n
xi wi x1 w1 + x2 w2 + · · · + xn wn
x̄p = ∑i=1n = .
i=1 wi w1 + w2 + · · · + wn

Media geométrica: es una medida de tendencia central que se calcula como la


raíz n-ésima del producto de un conjunto de datos.
v
u n
u∏ √
x̄g = t
n
xi = n xi · x2 · · · xn .
i=1

Mediana (Me ): es una medida de posición que divide el conjunto de datos en


dos partes porcentualmente iguales. De esta forma,

48
CAPÍTULO 3. ESTADÍSTICA BÁSICA 49

 x(n+1)/2 si n es impar,
Me =
 x(n/2) +x(n/2)+1
2
si n es par.

Cuantiles: los cuantiles son medidas de posición que dividen la serie de datos
ordenados en partes porcentualmente iguales. Los más comunes son los cuartiles,
deciles y percentiles.

Varianza muestral (s2 ): es la desviación cuadrática media de las observaciones


con respecto a la media aritmética. Su cálculo está dado por:
∑n
i=1 (xi − x̄)
2
2
s = .
n−1

Desviación estándar muestral (s): es la raíz cuadrada de la varianza y mide


la variabilidad de los datos en unidades lineales.

Covarianza: es una medida de dispersión conjunta de dos conjuntos de datos o


variables.

Correlación: medida estadística que indica la fuerza y la dirección de una relación


lineal entre dos variables aleatorias.

3.0.1. Medidas de resumen en R

mean() Permite calcular la media aritmética y medias recortadas de un vector.

mean(x, ...)
mean.default(x, trim = 0, na.rm = FALSE)

Si queremos calcular la media recortada, el argumento trim permite seleccionar la


fracción de recorte (de 0 a 0.5) de cada extremo del conjunto de datos “x”.
Ejemplo

x <- c(0:10, 50)


xm <- mean(x)
xm
[1] 8.75

xt<-mean(x, trim = .10)


xt
[1] 5.5

weighted.mean() Calcula una media ponderada de un vector numérico.


CAPÍTULO 3. ESTADÍSTICA BÁSICA 50

weighted.mean(x, w, na.rm=FALSE)

Ejemplo

wt <- c(5, 5, 4, 1)/15


x <- c(3.7,3.3,3.5,2.8)
xw <- weighted.mean(x,wt)
xw
[1] 3.453333

cor(), var(), sd() y cov() La función var, calcula la matriz de varianzas y covarianzas
de una matriz de datos, sd calcula la desviación estándar de un conjunto de datos, cor
y cov calculan respectivamente, la correlación y la covarianza entre dos vectores ‘x’ y
‘y’

var(x, y = NULL, na.rm = FALSE, use) cor(x, y = NULL, use =


"all.obs") cov(x, y = NULL, use = "all.obs") sd(x, na.rm = FALSE)

Ejemplos:

x<-rnorm(10)
y<-rnorm(10)
y
[1] -0.9546754 0.3951823 1.0079476 0.1308736 0.6154087
[6] 0.8264678 -0.4329034 0.3916516 -0.8908572 -0.8976308

var(x)
[1] 0.5058532
sd(x)
[1] 0.7526941
var(x,y)
[1] 0.02954414
cov(x,y)
[1] 0.02954414
cor(x,y)
[1] 0.05518748

library(mass) #Generando una matriz de datos normales bivariados:


x<-matrix(mvrnorm(10,mu=c(0,0),Sigma=matrix(c(1,0,0,1),ncol=2)),
ncol=2)
x
[,1] [,2]
[1,] 0.03365421 0.01812461
CAPÍTULO 3. ESTADÍSTICA BÁSICA 51

[2,] -0.66313500 2.31526069


[3,] -0.92103077 2.21952089
[4,] -0.97599197 1.39551295
[5,] -0.55824010 0.15656623
[6,] 0.77337990 0.52407043
[7,] -1.62980628 0.26459324
[8,] -1.01363258 -1.74454949
[9,] -0.32201918 -0.07920861
[10,] -1.40875243 -0.77490633

var(x)
[,1] [,2]
[1,] 0.49486624 0.07806947
[2,] 0.07806947 1.60101998

cov(x)
[,1] [,2]
[1,] 0.49486624 0.07806947
[2,] 0.07806947 1.60101998

cor(x)
[,1] [,2]
[1,] 1.00000000 0.08770795
[2,] 0.08770795 1.00000000

cov(x,y)
[,1]
[1,] 0.1037037
[2,] 0.4147815

median() Calcula la mediana de un vector numérico.

median(x, na.rm=FALSE)

Ejemplo:

library(mass)
x<-matrix(mvrnorm(10,mu=c(0,0),Sigma=matrix(c(1,0,0,1),ncol=2)),ncol=2)
apply(x,2,median)

[1] -0.7920829 0.2105797


CAPÍTULO 3. ESTADÍSTICA BÁSICA 52

apply(x,1,median)
[1] 0.02588941 0.82606284 0.64924506 0.20976049 -0.20083693 0.648725
[7] -0.68260652 -1.37909104 -0.20061389 -1.09182938

max(), min() Devuelven el máximo y el mínimo, respectivamente, de un vector.


Ejemplo:

library(mass)
x<-matrix(mvrnorm(10,mu=c(0,0),Sigma=matrix(c(1,0,0,1),ncol=2)),ncol=2)
min(x)
[1] -1.744549

max(x)
[1] 2.315261

apply(x,1,min)
[1] 0.01812461 -0.66313500 -0.92103077 -0.97599197 -0.55824010
[8] 0.52407043 -1.62980628 -1.74454949 -0.32201918 -1.40875243

apply(x,2,max)
[1] 0.7733799 2.3152607

quantile() Produce los cuantiles muestrales correspondientes a las probabilidades dadas.


La observación más pequeña corresponde a una probabilidad de 0 y la más grande a
una probabilidad de 1.

quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE, names = TRUE)

El argumento “probs” es un vector numérico que toma valores en [0, 1] y permite


especificar el cuantil a calcular.
Ejemplos:

quantile(x <- rnorm(1001))


0% 25% 50% 75% 100%
-3.59904264 -0.71189944 -0.02124716 0.59595264 2.82691475

quantile(x,probs=1:10/10)
10% 20% 30% 40% 50% 60%
-1.28010254 -0.89459997 -0.57376772 -0.27029481 -0.02124716 0.18551332
70% 80% 90% 100%
0.45891799 0.76740515 1.20626043 2.82691475

range() Devuelve un vector con los valores mínimo y máximo de todos los argumentos
dados.

Ejemplos:
CAPÍTULO 3. ESTADÍSTICA BÁSICA 53

print(r.x <- range(rnorm(100)))


[1] -2.314519 1.967344

diff(r.x) # El rango muestral


[1] 4.281863

summary() con esto obtenemos varias estadísticas de resumen sobre una variable,
como lo son los cuartiles, etc.

summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.6718 -0.3072 0.6527 0.4333 1.2390 1.2540

Si se tiene un conjunto de datos de una variable continua y se desea obtener las medidas
resumen más importante como la media, cuartiles, etc. podemos usar la instrucción
summary(). Por ejemplo si se quiere hallar las medidas resumen de la base de R con
el nombre USArrests correspondiente a las estadísticas, de los arrestos por homicidio,
agresión y violación por cada 100,000 residentes, en cada uno de los 50 estados federales
de los EE.UU. en 1973. También de el porcentaje de la población que vive en áreas
urbanas.

USArrests
summary(USArrests)
Murder Assault UrbanPop Rape
Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30
1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07
Median : 7.250 Median :159.0 Median :66.00 Median :20.10
Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00

otra medidas resumen las podemos obtener con las funciones var(), sd(), quantile(),
range(), rank() y cor().

var(USArrests)
Murder Assault UrbanPop Rape
Murder 18.970465 291.0624 4.386204 22.99141
Assault 291.062367 6945.1657 312.275102 519.26906
UrbanPop 4.386204 312.2751 209.518776 55.76808
Rape 22.991412 519.2691 55.768082 87.72916

sd(USArrests)
CAPÍTULO 3. ESTADÍSTICA BÁSICA 54

Murder Assault UrbanPop Rape


4.355510 83.337661 14.474763 9.366385

quantile(USArrests$Murder,probs=seq(.1,.9,.1))
10% 20% 30% 40% 50% 60% 70% 80% 90%
2.56 3.38 4.75 6.00 7.25 8.62 10.12 12.12 13.32

cor(USArrests)
Murder Assault UrbanPop Rape
Murder 1.00000000 0.8018733 0.06957262 0.5635788
Assault 0.80187331 1.0000000 0.25887170 0.6652412
UrbanPop 0.06957262 0.2588717 1.00000000 0.4113412
Rape 0.56357883 0.6652412 0.41134124 1.0000000

estas asociaciones lineales las podemos ver con la ayuda de la función pairs()
pairs(USArrests)

50 150 250 10 20 30 40

15
10
Murder

5
300

Assault
150
50

90
70

UrbanPop
50
30
30

Rape
10

5 10 15 30 50 70 90

La distribución de cada una de estas variables las podemos graficar como

par(mfrow=c(2,2))
hist(USArrests$Murder)
hist(USArrests$Assault)
hist(USArrests$UrbanPop)
hist(USArrests$Rape)
CAPÍTULO 3. ESTADÍSTICA BÁSICA 55

Histogram of USArrests$Murder Histogram of USArrests$Assault

12

12
Frequency

Frequency
8

8
4

4
0

0
0 5 10 15 0 50 150 250 350

USArrests$Murder USArrests$Assault

Histogram of USArrests$UrbanPop Histogram of USArrests$Rape

12

12
Frequency

Frequency
8

8
4

4
0

0
30 50 70 90 10 20 30 40 50

USArrests$UrbanPop USArrests$Rape

3.1. Probabilidad
La probabilidad mide el “grado de creencia” de una afirmación hecha con base en la
información recolectada. También mide la posibilidad de ocurrencia de uno o más re-
sultados de un experimento aleatorio.
Experimento aleatorio: Es aquel que proporciona diferentes resultados, aún cuando
se repite bajo las mismas condiciones.
Experimento determinístico: Es un proceso que no está sujeto al azar.
Espacio muestral (Ω): Conjunto de todos los posibles resultados de un experimento
aleatorio.
Evento o suceso: Cualquier subconjunto de resultados de un espacio muestral (simples
o compuestos). Los eventos compuestos están conformados por más de un resultado.
A continuación mostramos algunos ejemplos:

Ejemplo 1: Si se considera el tipo de sangre, el espacio muestral Ω está constituido por


los siguientes eventos:
Ω = {A, B, AB, O}.
Cualquier evento de Ω constituye un punto muestral.
Ejemplo 2: De la población mundial se encuesta aleatoriamente a sus habitantes hasta
encontrar el primero con cierta enfermedad y se clasifican como, E : enfermo, o N : no
enfermo. El espacio muestral es entonces,

Ω = {E, N E, N N E, N N N E, . . .}.
CAPÍTULO 3. ESTADÍSTICA BÁSICA 56

Ejemplo 3: Se seleccionan al azar tres estudiantes de la universidad (uno a uno) y se


clasifican como H : hombre, M : mujer. El espacio muestral Ω puede ser descrito como:

Ω = {M M M, M M H, M HM, HM M, M HH, HM H, HHM, HHH}.

Ejemplo 4: Se determina la duración de un marcapasos en horas. Entonces,

Ω = [0, 1).

Definición: Sean A y B eventos de un espacio muestral Ω. Diremos que A y B son


disjuntos si A ∩ B = ϕ, (ϕ es un evento de Ω). En general, si E1 , E2 , . . . , En son eventos
de un espacio muestral Ω, diremos que son mutuamente excluyentes si para cualquier
par de estos eventos sus intersecciones son vacías.

3.1.1. Formalización de la probabilidad

Sea ε un experimento aleatorio y sea Ω un espacio muestral asociado con ε. La proba-


bilidad de un evento A, denotada por p(A), es un número real que cumple las siguientes
condiciones:

p(A) ≥ 0

Si P (A) = 1, entonces A se llama evento seguro.

Si P (A) = 0, A se llama evento imposible.

P (Ω) = 1

Si A1 , A2 , A3 , . . . es una colección finita o infinita de eventos mutuamente ex-


cluyentes, entonces, (∞ )
∪ ∑

P Ai = P (Ai )
i=1 i=1

Teorema: sea A un evento de un espacio muestral Ω, entonces:

0 ≤ p(A) ≤ 1

Si P (ϕ) = 0

Si A′ es el complemento de A, entonces, P (A′ ) = 1 − p(A), o también P (A) =


1 − p(A′ )
CAPÍTULO 3. ESTADÍSTICA BÁSICA 57

Figura 3.1: Representación de un evento A y de su complemento A′ .

Proposición: Sean A, B y C eventos de Ω

Si A ⊆ B entonces P (A) ≤ P (B)

Figura 3.2: Representación de dos eventos cuando uno está contenido en el otro.

Regla aditiva:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Para el caso de los tres eventos A, B y C, se tiene,

P (A∪B∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (A∩C)−P (B∩C)+P (A∩B∩C)


CAPÍTULO 3. ESTADÍSTICA BÁSICA 58

Ejemplo: En un artículo de la revista American of Drugs and Alcohol Abuse, Erickson y


Murray afirman que las mujeres están consideradas como un grupo con riesgo especial de
adicción a la cocaína, y que se ha sugerido que sus problemas con la cocaína son mayores
que en los hombres. Con base en la revisión de textos especializados y en el análisis
de los resultados de un estudio original, estos investigadores argumentan que no hay
evidencia de que el uso de la cocaína en las mujeres exceda al de los hombres. Erickson
y Murray tomaron una muestra de 75 hombres y 36 mujeres. La tabla 3.1 muestra la
frecuencia de uso de la cocaína en el tiempo de vida y el sexo de los individuos.

Tabla 3.1: Frecuencia de consumo de cocaína por género entre adultos adictos.
Frecuencia de uso de cocaína Hombres Mujeres
en el periodo de vida (M ) (F ) Total
1 - 9 veces (A) 32 7 39
20 - 99 veces (B) 18 20 38
100 o más veces (C) 25 9 34
Total 75 36 111

Si se selecciona aleatoriamente a una persona de los 111 individuos de la tabla 3.1,


¿Cuál es la probabilidad de que esa persona sea del sexo masculino (M ), o de que haya
consumido cocaína 100 veces o más durante su tiempo de vida o ambas (M ∪ C)?.
La probabilidad que se busca es P (M ∪ C). Sabemos que:
P (M ∪ C) = P (M ) + P (C) − P (M ∩ C)
75
P (M ) = = 0.6757,
111
34
P (C) = = 0.3063 y
111
25
P (M ∩ C) = = 0.2252.
111

Entonces,
P (M ∪ C) = 0.6757 + 0.3063 − 0.2252 = 0.7568

3.1.2. Probabilidad Condicional

En muchos experimentos la ocurrencia de un evento particular está usualmente asociado


a la ocurrencia de otros eventos, de manera que al calcular la probabilidad de dicho
evento es necesario considerar aquellos que condicionan su ocurrencia.
Ejemplo: De una habitación donde se encuentran 4 personas con lesiones musculares
y 5 completamente sanos, se seleccionan al azar y sin reemplazo dos personas, una a
una. ¿Cuál es la probabilidad de que la primera esté lesionada? ¿Cuál es la probabilidad
de que la segunda esté lesionada?
CAPÍTULO 3. ESTADÍSTICA BÁSICA 59

Solución!
Definamos los siguientes eventos:
Li : la i-ésima persona seleccionada está lesionada; i = 1, 2
Ni : la i-ésima persona seleccionada no está lesionada; i = 1, 2
4 5
P (L1 ) = , P (N1 ) =
9 9
Para calcular la probabilidad de L2 , se necesita saber el estado de la primera persona
seleccionada.
Si la primera persona seleccionada está lesionada, entonces
3
P (L2 ) =
8
Si la primera persona seleccionada no está lesionada, entonces
4
P (L2 ) =
8
La probabilidad de L2 depende del estado de la primera persona seleccionada.
Definición: Sean A y B eventos de un espacio muestral Ω. La probabilidad condicional
de “A dado B”, la cual denotamos P (A | B), está dada por:

P (A ∩ B)
P (A | B) = , P (B) > 0, Así mismo
P (B)

P (A ∩ B)
P (B | A) = , P (A) > 0
P (A)
Tenemos que:

P (A ∩ B) = P (A)P (B | A) = P (B)P (A | B)
“Regla multiplicativa”

Ejemplo: Se seleccionan al azar 100 personas de una gran comunidad y se some-


ten a un estudio para evaluar la incidencia del fumar en el desarrollo de enfermedad
pulmonar. Los resultados obtenidos después de un período de tiempo se muestran a
continuación. Defina los siguientes eventos:

H : La persona seleccionada es un hombre.


M : La persona seleccionada es una mujer.
F : La persona seleccionada fuma.
N : La persona seleccionada no fuma.
E : La persona seleccionada desarrolla la enfermedad pulmonar.
N E : La persona seleccionada no desarrolla la enfermedad pulmonar.

Se selecciona una persona al azar de estas 100. Calcule las siguientes probabilidades.
CAPÍTULO 3. ESTADÍSTICA BÁSICA 60

i) ¿Cuál es la probabilidad de que sea fumador y hombre? ¿fumador y mujer?

ii) ¿Cuál es la probabilidad de que desarrolle la enfermedad pulmonar?

iii) Si es mujer, ¿cuál es la probabilidad de que desarrolle la enfermedad pulmonar?

iv) Si es mujer y no fuma, ¿cuál es la probabilidad de que desarrolle la enfermedad


pulmonar ?

v) ¿Cuál es la probabilidad de que desarrolle la enfermedad pulmonar, dado que no


fuma o es mujer?

H M
Fuma Fuma
Si No Si No
Enfermedad Si 40 3 43 20 2 22
Pulmonar No 5 12 17 10 8 18
45 15 60 30 10 40

Solución!

i) p(F ∩ H) = 100
45
,
p(F ∩ M ) = 100
30

43+22 65
ii) p(E) = 100
= 100

iii) p(E | M ) = 22
40

iv) p(E | M ∩ N ) = 2
10

v)

p(E ∩ (N ∪ M )) p((E ∩ N ) ∪ (E ∩ M ))
p(E | M ∪ N ) = =
p(N ∪ M ) p(N ∪ M )
p(E ∩ N ) + p(E ∩ M ) − p(E ∩ N ∩ M ) 5
100
+ 22
100
− 2
100
= =
p(N ) + p(M ) − p(N ∩ M ) 25
100
+ 40
100
− 10
100
25
100 25
= 55 =
100
55

Teorema de probabilidad total: Sean A1 , A2 , . . . , An eventos no vacíos mutuamente


excluyentes tales que la unión de todos ellos conforman el espacio muestral. Si B es un
evento de S, entonces.

n ∑
n
p(B) = p(B ∩ Ai ) = p(Ai )p(B | Ai )
i=1 i=1
CAPÍTULO 3. ESTADÍSTICA BÁSICA 61

Definición: Sean A y B eventos de un espacio muestral. Diremos que A y B son


estadísticamente independientes, si y sólo si, cualquiera de las siguientes propiedades
se cumple.

P (A | B) = P (A)

P (B | A) = P (B)

P (B ∩ A) = P (A)P (B)

En general, una colección de eventos A1 , A2 , . . . , An de un espacio muestral Ω, se dicen


mutuamente estadísticamente independientes, si y sólo si, la intersección de cualquier
subconjunto de eventos de esta colección, cumple que la probabilidad de dicha intersec-
ción será el producto de las probabilidades de los eventos involucrados.
Ejemplo: Un hospital cuenta con dos ambulancias que operan de forma independiente.
La probabilidad de que una de estas ambulancias esté disponible cuando se requiera es
de 0.97. Cuál es la probabilidad de que ninguna de las ambulancias esté disponible en
un momento determinado?
Solución! Sabemos que las ambulancias operan de forma independiente. Ahora, llamem-
os A1 : la ambulancia 1 está operando en el momento requerido, y A2 : la ambulancia 2
está operando en el momento requerido.
Sabemos además que
P (Ai ) = 0.97; para i = 1, 2.
P (A′i ) = 0.03; para i = 1, 2.
De aquí,

P (A′1 ∩ A′2 ) = P (A′1 )P (A′2 )


= 0.03 × 0.03
= 0.0009
CAPÍTULO 3. ESTADÍSTICA BÁSICA 62

3.1.3. Prueba Tamiz

En el campo de ciencias de salud se utilizan ampliamente la evaluación de pruebas de


detección y criterios de diagnóstico. Aquí, es de interés interesa tener mayor capacidad
para predecir correctamente la presencia o ausencia de una enfermedad en particular a
partir del conocimiento de los resultados (positivos o negativos) de pruebas y el estado
de los síntomas (presentes o ausentes) que se manifiestan.
Definición:

Un falso positivo resulta cuando una prueba indica que el estado es positivo,
cuando en realidad es negativo.

Un falso negativo resulta cuando una prueba indica que un estado es negativo,
cuando en realidad es positivo.

En resumen, se debe responder a las siguientes preguntas para evaluar la utilidad de los
resultados de la prueba y el estado de los síntomas para detectar si el individuo tiene o
no alguna enfermedad:

Dado que un individuo tiene la enfermedad, ¿qué probabilidad existe de que la


prueba resulte positiva (o la presencia de un síntoma)?

Dado que un individuo no tiene la enfermedad, ¿cuál es la probabilidad de que la


prueba resulte negativa (o la ausencia de un síntoma)?

Dada una prueba positiva de detección (o la presencia de un síntoma), ¿qué prob-


abilidad existe de que el individuo tenga la enfermedad?

Dado el resultado negativo de una prueba de detección (o la ausencia de un


síntoma), ¿cuál es la probabilidad de que el individuo no tenga la enfermedad?

Enfermedad
Resultado de
la prueba Presente (D) Ausente (D′ ) Total
Positivo (T ) a b a+b

Negativo (T ) c d c+d
Total a+c b+d n

Se puede calcular una gran variedad de probabilidades a partir de la información desple-


gada de la anterior tabla. Por ejemplo se puede calcular la estimación de la probabilidad
condicional S = P (T | D) = a+ca
× 100. Esta proporción es una estimación de la sensi-
bilidad de la prueba de detección.
CAPÍTULO 3. ESTADÍSTICA BÁSICA 63

Definición: La sensibilidad de una prueba es la capacidad para detectar los verdaderos


enfermos. Podemos decir que de cada 100 enfermos la prueba detecta al S % de ellos.
También se puede calcular la estimación de la probabilidad condicional E = P (T ′ | D′ ) =
d
b+d
× 100. Esta proporción es una estimación de la especificidad de la prueba de detec-
ción.
Definición: La especificidad de una prueba es la capacidad para detectar como sanos
a los que verdaderamente lo son. Podemos decir que de cada 100 personas sin la enfer-
medad, la prueba es negativa para el E % de ellos.
Definición: El valor predictivo positivo es la relación entre los casos realmente enfermos
y los probablemente enfermos detectados por la prueba. Se calcula como V P + = a+b a
×
100. Podemos decir que de cada 100 personas con pruebas de detección positiva, el
V P + % de ellos tiene realmente la enfermedad.
Definición: El valor predictivo negativo expresa la proporción de casos detectados como
sanos por la prueba entre los verdaderamente sanos. Se calcula como V P − = c+d
d
× 100.
Podemos decir que de cada 100 personas con pruebas de detección negativa, el V P − %
de ellos están completamente sanos.

Tabla 3.2: Ejemplo: Distribución absoluta de los resultados de la prueba de glucosuria


en diabéticos y no diabéticos.
Diabetes
Resultado de
la prueba de
glucosuria Si No Total
Positiva 45 15 60
Negativa 105 285 390
Total 150 300 450

45
S= × 100 = 30 %, es decir, de cada 100 enfermos con diabetes, la prueba de
150
glucosa detecta 30.
285
E= × 100 = 95 %, es decir, de cada 100 personas sin diabetes, la prueba de
300
glucosa es negativa en 95 de ellas.
45
V P+ = × 100 = 75 %, esto es, de cada 100 personas que presentan glucosuria
60
positiva, 75 tiene diabetes.
285
V P− = × 100 = 73 %, es decir, de cada 100 personas con resultado negativo
390
en la prueba de glucosuria, 73 de ellas realmente son sanos.
CAPÍTULO 3. ESTADÍSTICA BÁSICA 64

Medidas de la magnitud de un efecto mediante probabilidad condicional: En


estudios epidemiológicos, la probabilidad condicional se utiliza para detectar asociación.
Supongamos que queremos estudiar la relación entre una enfermedad y un factor de
riesgo, ambos medidos en nivel nominal en un estudio de cohorte.

Tabla 3.3: Distribución absoluta de la enfermedad vs. factor de riesgo.


Factor de Enfermedad
riesgo Enfermo Sano Total
Expuesto a b a+b
No expuesto c d c+d
Total a+c b+d n=a+b+c+d

Definimos el riesgo de enfermarse, dado que se está expuesto al factor de riesgo como
a
R1 =
a+b
Definimos el riesgo de enfermarse, dado que no se está expuesto al factor de riesgo como
c
R2 =
c+d
El riesgo relativo de enfermarse, que compara a los expuestos con los no expuestos al
factor de riesgo está dado por:
R1
λ=
R2
Cuando el estudio es de casos y controles la medida de magnitud del efecto usada se
denomina Razón de Odds.

El Odds de tener la enfermedad para los expuestos al factor de riesgo es:


a
O1 =
b

El Odds de tener la enfermedad para los no expuestos al factor de riesgo es:


c
O2 =
d
La razón de Odds que compara los expuestos con los no expuestos al factor de riesgo
se define como:
O1
OR =
O2

Ejemplo: Suponga que se desea estudiar la relación entre la cirrosis hepática y el


consumo de alcohol. Considere la tabla 3.4 la cual muestra la distribución absoluta de
dicha enfermedad en una población de consumidores y no consumidores de alcohol.
CAPÍTULO 3. ESTADÍSTICA BÁSICA 65

Tabla 3.4: Distribución absoluta de la enfermedad vs. factor de riesgo.


Consumo de Cirrosis
alcohol Si No Total
Si 145 220 365
No 10 315 325
Total 155 535 690

El riesgo relativo, que compara a los expuestos con los no expuestos al factor de riesgo
es:
145/365
λ= = 12.91
10/325
Las personas que consumen alcohol tienen aproximadamente 13 veces más riesgo de
padecer de cirrosis que los que no consumen alcohol.

Si el presente estudio fuera de casos y controles, la razón de Odds sería la medida de


asociación utilizada, en este caso tendríamos que, el Odds que compara a los expuestos
con los no expuestos al factor de riesgo es:
145/220
OR = = 20.76
10/315
Las personas que consumen alcohol tienen el Odds de padecer de cirrosis aproximada-
mente 21 veces más alto que para los que no consumen alcohol.

3.1.4. Teorema de Bayes

Es un caso especial de la probabilidad condicional en el cual se desea calcular la prob-


abilidad condicional de un evento que ocurrió primero dado otro que ocurrió después.
Definición: Sean A1 , A2 , . . . , An eventos no vacíos mutuamente excluyentes tales que
la unión de todos ellos conforman el espacio muestral. Si B es un evento de Ω, entonces.
P (Aj ∩ B) P (Aj )P (B | Aj )
P (Aj | B) = = ∑n
P (B) i=1 P (Ai )P (B | Ai )
CAPÍTULO 3. ESTADÍSTICA BÁSICA 66

Ejemplo: Suponga que tenemos 2 botiquines y que el botiquín 1 contiene 3 pastillas


de Aspirina y 2 de Dristán y el botiquín 2 contiene 2 de Aspirina y 3 de Dristán. Se
extrae una pastilla al azar. ¿Cuál es la probabilidad de que:

La pastilla extraída sea una Aspirina?


La extracción se haya efectuado del botiquín 1 dado que la pastilla extraída fue
una Aspirina?

Solución! En el problema hay dos pasos a saber:


Paso 1, elección del botiquín; Paso 2, extracción de la pastilla.
Sea A1 = La extracción se hace del botiquín 1. y A2 = la extracción se hace del botiquín
2.
Tenemos entonces que, P (A1 ) = 1/2 y P (A2 ) = 1/2.
Sea B el evento, la pastilla elegida es una Aspirina.

Por las condiciones del problema sabemos que:


P (B | A1 ) = 3/5 y P (B | A2 ) = 2/5.

P (B) = P (A1 ∩ B) + P (A2 ∩ B) = P (B | A1 )P (A1 ) + P (B | A2 )P (A2 )


( ) ( )
3 1 2 1
= × + × = 0.5
5 2 5 2

P (B | A1 )P (A1 )
P (A1 | B) =
P (B | A1 )P (A1 ) + P (B | A2 )P (A2 )
(3/5)(1/2)
= = 3/5 = 0.6
(1/2)

3.1.5. Curva ROC

La curva ROC (receiver operating characteristic) es usada como una herramienta para
comparar dos o más test diagnósticos. La representación de dicha curva es sensibilidad
contra (1 − especif icidad), es decir, en el eje X representamos (1 − especif icidad) de
la prueba, y en el eje Y la sensibilidad. De esta forma, un test perfecto se produce
cuando la curva va hacia arriba por el eje vertical hasta una sensibilidad de 1, y luego
se mantiene a esa altura paralelo al eje horizontal hasta alcanzar el punto (1, 1) en el
gráfico. Un test es mejor que otro, entre más se aproxime al test perfecto. Cuando la
curva es una recta diagonal en el plano, decimos que el test no discrimina entre una
decisión correcta cuando se tiene la enfermedad, o una decisión errada cuando no se
tiene la enfermedad.
Ejemplo: retomando el ejemplo de la prueba de diabetes, tenemos.
CAPÍTULO 3. ESTADÍSTICA BÁSICA 67

library(Epi)
x=c(rep(1,times=60),rep(0,times=390))
y=c(rep(1,times=45),rep(0,times=15),rep(1,times=105),rep(0,times=285))
ROC( form = y ~ x , plot="ROC" )
1.0
0.8
0.6
Sensitivity
0.4

.eta = 0.269

Variable est. (s.e.)


0.2

Sens: 30.0% (Intercept) −0.999 (0.114)


Spec: 95.0% x 2.097 (0.319)
PV+: 26.9%
PV−: 25.0% Model: y ~ x
0.0

Area under the curve: 0.625

0.0 0.2 0.4 0.6 0.8 1.0


1−Specificity
CAPÍTULO 3. ESTADÍSTICA BÁSICA 68

3.2. Variables aleatorias y distribuciones de probabil-


idad
Las variables aleatorias (v.a) resumen el conjunto de posibles resultados de un exper-
imento aleatorio asignando un número real a cada resultado del experimento, y por
tanto, facilita el cálculo de probabilidades en comparación con este procedimiento en
términos de eventos.
Usualmente, las variables aleatorias son denotadas con las últimas letras de abecedario
usando mayúsculas: X, Y, Z, T, etc.
Definición: Una variable aleatoria (v.a) es una función definida en un espacio muestral
Ω, que asigna un valor real a cada resultado de Ω, así:

X :Ω −→ R
ω −→ X(ω) = x

Por notación, A denotará el conjunto de posibles resultados de una v.a.


Ejemplo: . . .
Si el conjunto de posibles resultados de una v.a es contable, diremos que la v.a es
Discreta. Si el espacio de la v.a es un intervalo o unión de intervalos, diremos que la v.a
es Continua.

3.2.1. Variables aleatorias discretas

Definición: Sea X una v.a discreta definida en un espacio muestral Ω, la función


P (x) := P (X = x), ∀x ∈ A
será llamada Distribución de probabilidad de la v.a X si satisface las siguientes propiedades:

i.) P (x) ≥ 0, ∀x ∈ A

ii.) x P (x) = 1

Definición: (f.d.a o c.d.f ) Sea X una v.a discreta con distribución de probabilidad
P (x). La Distribución acumulada de X, la cual denotaremos por F (x), está dada por:

F (x) := P (X ≤ x) = P (x′ ), ∀x ∈ R.
x′ ≤x

Esto se conoce como probabilidad acumulada.


Propiedades:
CAPÍTULO 3. ESTADÍSTICA BÁSICA 69

1 ) 0 ≤ F (x) ≤ 1, ∀x ∈ R

2 ) P (X > x) = 1 − F (x)

3 ) Si x < y =⇒ F (x) ≤ F (y)

4 ) Si A ⊆ Z =⇒ P (n ≤ X ≤ m) = F (m) − F (n − 1).

3.2.2. Variables aleatorias continuas

Definición: Sea X una v.a continua. Una función f definida en Ω y de valor real, será
llamada Función de densidad de probabilidad de la v.a X si satisface las siguientes
propiedades:

i.) f (x) ≥ 0, ∀x ∈ R
∫∞
ii.) −∞ f (x)dx = 1 =⇒ Área bajo f es 1
∫b
iii.) Si a, b ∈ R, a ≤ b =⇒ P (a ≤ X ≤ b) = a
f (x)dx.
Así, P (X = a) = 0.

El cálculo de probabilidades se obtiene como el cálculo de áreas bajo la curva f (x), en


el rango especificado.
Definición: La distribución acumulada de una v.a continua X se define igual que en
el caso discreto:
∫ x
F (x) := P (X ≤ x) = f (x)dx, ∀x ∈ R.
−∞

Propiedades:

1 ) 0 ≤ F (x) ≤ 1, ∀x ∈ R

2) lı́m F (x) = 0 y lı́m F (x) = 1


x→−∞ x→+∞

3 ) Si x < y =⇒ F (x) < F (y).

∫x
d
dx
F (x) = f (x), ∀x donde exista F ′ (x). Así, F (x) = −∞
f (t)dt; f es la p.d.f
de x.

En R podemos obtener la distribución acumulada, la función de probabilidad o la


función de densidad de probabilidad de la siguiente forma: el siguiente ejemplo ilustra
la forma de obtener las respectivas distribuciones para una Binomial y una Normal.
CAPÍTULO 3. ESTADÍSTICA BÁSICA 70

par(mfrow=c(2,2))
# Función de probabilidad de una Binomial
plot(0:10,dbinom(0:10,10,0.35),type="h",xlab="x",ylab="P(X=x)",
xlim=c(-1,11),main="Función de probabilidad de X~Bin(10,0.35)")

# Función de distribución de una Binomial


plot(0:10,pbinom(0:10,10,0.35),type="n",xlab="x",ylab="F(x)",xlim=c(-1,11),
ylim=c(0,1),main="Función de distribución de X~Bin(10,0.35)")
segments(-1,0,0,0)
segments(0:10,pbinom(0:10,10,0.35),1:11,pbinom(0:10,10,0.35))
lines(0:9,pbinom(0:9,10,0.35),type="p",pch=16)
segments(-1,1,11,1,lty=2)

# Función de densidad de probabilidad de una Normal


plot(0:40,dnorm(0:40,25,3),type="l",xlab="x",ylab="f(x)",xlim=c(10,40),
main="Función de densidad de probabilidad de X~N(25,3)")

# Función de distribución de una Normal


plot(0:40,pnorm(0:40,25,3),type="l",xlab="x",ylab="F(x)",xlim=c(10,40),
main="Función de distribución de X~N(25,3)")

Función de probabilidad de X~Bin(10,0.35) Función de distribución de X~Bin(10,0.35)


0.20

0.8
P(X=x)

F(x)
0.10

0.4
0.00

0.0

0 2 4 6 8 10 0 2 4 6 8 10
x x

Función de densidad de probabilidad de X~N(25,3) Función de distribución de X~N(25,3)


0.12

0.8
F(x)
f(x)
0.06

0.4
0.00

0.0

10 15 20 25 30 35 40 10 15 20 25 30 35 40
x x

Valor esperado de una variable aleatoria

Si un experimento aleatorio se realiza y una v.a de interés X es definida en Ω, podemos


determinar la distribución de la v.a X. Si el experimento se repite muchas veces, el
valor que se espera obtener de la v.a X, será un promedio ponderado de los posibles
valores observados para X en las repeticiones del experimento.
CAPÍTULO 3. ESTADÍSTICA BÁSICA 71

Definición: Sea X una v.a (Discreta o Continua) con distribución de probabilidad


P (x), o función de densidad de probabilidad f (x). El valor esperado de X, el cual
denotaremos E[X], µX o µ, está dado por:
{ ∑
x xP (x); si X es discreta
E[X] := ∫ +∞
−∞
xf (x)dx; si X es continua
Propiedades:

1. E[a] = a, ∀a ∈ R

2. E[a + bX] = a + bE[X], ∀a, b ∈ R

3. E[ag(X)] = aE[g(X)], donde g(X) es una función de X.

Si g(X) = (X − µ)2 y a = 1,
E[ag(X)] = E[(X − µ)2 ] = V [X] se conoce como la varianza de X y se denota
2
por V [X] o σX .
2
σX = E[(X − µ)2 ] = E[X 2 ] − µ2
La desviación estándar de X se denota por σX y está dada por:

σX = V [X]

3.2.3. Algunas distribuciones de probabilidad discretas

Ensayo Bernoulli

Un ensayo Bernoulli es un experimento aleatorio con dos posibles resultados: uno de-
notado por “éxito”, y el otro por “fracaso”. la probabilidad de éxito se denotará por p y
la de fracaso por q = 1 − p.
Ejemplo: Estado de un paciente (sano enfermo), género, encuesta de opinión, etc.
Suponga que un experimento Bernoulli es repetido, bajo las mismas condiciones, n
veces y que cada repetición es independiente de las demás. Si la probabilidad de éxito
permanece constante de repetición en repetición del experimento, y definimos la v.a
X : número de éxitos en las n repeticiones del experimento, el experimento se conoce
como ensayo Binomial.
La distribución de probabilidad de la v.a X viene dada por:
( )
n x
P (x) = p (1 − p)n−x ; x = 0, 1, 2, . . . , n.
x

Escribimos X ∼ bin(x; n, p).


CAPÍTULO 3. ESTADÍSTICA BÁSICA 72

Si X ∼ bin(x; n, p), entonces, E[X] = np y V [X] = np(1 − p).


Ejemplo: Suponga que la probabilidad de tener una enfermedad en particular en
una población de expuestos es de 0.08. Se seleccionan al azar 10 individuos de dicha
población.

a. ¿Cuál es pa probabilidad de que exactamente 2 tengan la enfermedad?

b. ¿Cuál es la probabilidad de que cuando mucho 1 tengan la enfermedad?

x=0:10
y=dbinom(0:10,10,0.08)
a=data.frame("Prob"=y,row.names=x)

# probabilidad de exactamente 2
dbinom(2,10,0.08)
# probabilidad de máximo 1
pbinom(1, size=10, prob=.08, lower.tail = TRUE)

# Gráfico de la distribución de probabilidad


plot(0:10,a[,1],type="h",ylab="Probabilidad",xlab="Número de
individuos con la enfermedad", main="Distribución de probabilidad de
X")
CAPÍTULO 3. ESTADÍSTICA BÁSICA 73

Distribución de probabilidad de X

0.4
0.3
Probabilidad
0.2
0.1
0.0

0 2 4 6 8 10
Número de individuos con la enfermedad

Otras distribuciones de probabilidad importantes son la distribución binomial negativa


y la distribución geométrica. Si consideramos la v.a X que cuenta el número de repeti-
ciones del experimento Bernoulli, hasta encontrar el k−ésimo éxito (manteniendo las
mismas condiciones de un experimento Binomial), esta v.a se conoce como Binomial
Negativa, y su distribución de probabilidad es:
( )
∗ x−1 k
b (x; k, p) = p (1 − p)x−k ; x = k, k + 1, k + 2, . . .
k−1

Ahora bien, la v.a X que cuenta el número de repeticiones del experimento Bernoulli,
hasta encontrar el primero éxito (manteniendo las mismas condiciones de un experi-
mento Binomial), se conoce como Geométrica, y su distribución de probabilidad es:

g(x; p) = p(1 − p)x−1 ; x = 1, 2, 3, . . .

Distribución Hipergeométrica

Suponga que se tiene una población de N elementos de los cuales, m son de interés. La
distribución hipergeométrica mide la probabilidad de obtener x elementos de interés en
una muestra sin reemplazo de n elementos de la población.

La distribución de probabilidad de una v.a Hipergeométrica X viene dada por:


( )( )
m N −m
x n−x
h(x; N, n, m) = ( ) ; máx{0, n − (N − m) ≤ x ≤ mı́n{n, m}}.
N
n
CAPÍTULO 3. ESTADÍSTICA BÁSICA 74

Ejemplo: De un grupo de 20 pacientes, de los cuales 5 tienen una condición particular


que los agrava, se eligen 8 aleatoriamente con el fin de realizar un chequeo.

¿Cuál es la probabilidad de que entre los 8 seleccionados, 2 tengan dicha condición de


salud?

Considere la v.a X, que cuenta el número de personas con dicha condición en la mues-
tra. Esta variable sigue una distribución Hipergeométrica con parámetros N = 20 (total
de pacientes), n = 8 (total de la muestra) y m = 5 (total de pacientes de interés).

Debemos calcular la siguiente probabilidad P (X = 2), por lo tanto, sólo necesitamos el


valor que toma X en el punto 2 de la función de densidad:

dhyper(2,8,20-8,5)

[1] 0.3973168

Distribución Poisson

Los experimentos que producen valores numéricos de una v.a X, que representa el
número de resultados que ocurren durante un intervalo dado de tiempo o en una región
específica, se llaman experimento Poisson.

Un proceso Poisson tiene las siguientes propiedades

1. El número de resultados que ocurren en un intervalo o región específica es in-


dependiente del número que ocurre en cualquier otra región o intervalo (esto se
conoce como carencia de memoria).

2. La probabilidad de que ocurra un solo resultado durante un intervalo muy corto o


una región muy pequeña, es proporcional a la longitud del intervalo o al tamaño
de la región.

3. La probabilidad de que ocurra más de un resultado en tal intervalo corto o que


caiga en tal región pequeña es insignificante.

La distribución de probabilidad de la v.a Poisson X, que representa el número de


ocurrencias de un evento en un intervalo dado de tiempo o región específica es:

e−λ λx
P (x; λ) = x = 0, 1, 2, . . .
x!
CAPÍTULO 3. ESTADÍSTICA BÁSICA 75

donde λ es el número promedio de resultados por unidad de tiempo, distancia, área o


volumen.

Ejemplo: Supongamos que estamos utilizando una nueva técnica de secuenciación


y la tasa de error es un error por cada 10000 pares de bases. Supongamos que es-
tamos secuenciando las regiones y se toman 2000 pares de bases a la vez. ¿Cuál es la
probabilidad de cometer exactamente 2 errores utilizando esta técnica? a lo más 1 error?

El modelo Poisson es el adecuado para solucionar este problema. Para ello, debemos
calcular el valor de λ. Teniendo en cuenta la propiedad 2, anteriormente descrita, ten-
emos que λ = 0.2.

Para calcular la probabilidad de 2 errores en las 2000 pares de secuencias de datos, lo


podemos resolver directamente con la distribución de probabilidad

e−0.2 0.22
P (X = 2) = = 0.01637
2!

La distribución de probabilidad de la v.a X : número de errores en la secuencia, la


podemos representar así:

x=0:10
y=dpois(0:10,0.2)
data.frame("Prob"=y,row.names=x)

Prob
0 8.187308e-01
1 1.637462e-01
2 1.637462e-02
3 1.091641e-03
4 5.458205e-05
5 2.183282e-06
6 7.277607e-08
7 2.079316e-09
8 5.198290e-11
9 1.155176e-12
10 2.310351e-14

plot(0:10, dpois(0:10,0.2), type="h", xlab="Errores en la


secuencia", ylab="Probabilidad", main=expression(paste("Distribución
Poisson con ", lambda,"=0.2")))
CAPÍTULO 3. ESTADÍSTICA BÁSICA 76

Distribución Poisson con λ=0.2

0.8
0.6
Probabilidad
0.4
0.2
0.0

0 2 4 6 8 10
Errores en la secuencia

Ahora, la probabilidad de cometer a lo más 1 error usando esta técnica es P (X ≤ 1) =


0.9824769.

ppois(1,0.2)

Qué pasa a la distribución Poisson cuando cambiamos el parámetro?

par(mfrow=c(2,2))
plot(0:10,dpois(0:10,0.5),xlab="",ylab="Prob",type="h",
main=expression(paste(lambda,"=0.5")))
plot(0:10,dpois(0:10,1),xlab="",ylab="Prob",type="h",
main=expression(paste(lambda,"=1")))
plot(0:10,dpois(0:10,2),xlab="",ylab="Prob",type="h",
main=expression(paste(lambda,"=2")))
plot(0:10,dpois(0:10,5),xlab="",ylab="Prob",type="h",
main=expression(paste(lambda,"=5")))
CAPÍTULO 3. ESTADÍSTICA BÁSICA 77

λ=0.5 λ=1

0.6
0.4
Prob

Prob
0.2
0.2
0.0

0.0
0 2 4 6 8 10 0 2 4 6 8 10

λ=2 λ=5
0.00 0.10 0.20

0.10
Prob

Prob
0.00
0 2 4 6 8 10 0 2 4 6 8 10

3.2.4. Algunas distribuciones de probabilidad continuas

Distribución normal

Una de las distribuciones más comunes es la distribución normal. Esta distribución jue-
ga un papel clave en el desarrollo de la inferencia estadística. Muchos estudios pueden
ser aproximados usando esta distribución: variables físicas, datos meteorológicos, medi-
ciones de organismos vivos, errores de instrumentación o de diversos procesos, etc.

Definición: Sea X una v.a continua. Diremos que X tiene una distribución Normal, si
su función de densidad de probabilidad (f.d.p) es de la forma:

1 1 (x−µ)
2
f (x) = √ e− 2 σ2 ; x ∈ R, µ ∈ R, σ > 0.
σ 2π
Escribimos, X ∼ N (µ, σ 2 ). Esta distribución es simétrica respecto a µ, y su valor es-
perado y la varianza, son respectivamente, µ y σ 2 .

Teorema: sea X una v.a tal que X ∼ N (µ, σ 2 ). Si Z = X−µ


σ
, entonces Z ∼ N (0, 1). Se
dice que Z sigue una distribución normal estándar, cuya f.d.p es:

1
f (z) = √ e− 2 z ;
1 2
z ∈ R.

x<-seq(-6,6,length=100)
plot(x,dnorm(x,0,1),xlab="z", ylab="f(z)",type="l",
main="f.d.p de una normal estándar")
CAPÍTULO 3. ESTADÍSTICA BÁSICA 78

f.d.p de una normal estándar

0.4
0.3
0.2
f(z)
0.1
0.0

−6 −4 −2 0 2 4 6
z

par(mfrow=c(3,2))
x<-seq(-6,6,length=100)
plot(x,dnorm(x,0,1),xlab="x", ylab="f(x)", type="l",
main="f.d.p de una N(0,1)")
plot(x,pnorm(x,0,1),xlab="x", ylab="F(x)", type="l",
main="F(x) de una N(0,1)")
plot(x,dnorm(x,0,2),xlab="x",ylab="f(x)", type="l",
main="f.d.p de una N(0,2)")
plot(x,pnorm(x,0,2),xlab="x", ylab="F(x)", type="l",
main="F(x) de una N(0,2)")
plot(x,dnorm(x,0,5),xlab="x",ylab="f(x)", type="l",
main="f.d.p de una N(0,5)")
plot(x,pnorm(x,0,5),xlab="x", ylab="F(x)", type="l",
main="F(x) de una N(0,5)")
CAPÍTULO 3. ESTADÍSTICA BÁSICA 79

f.d.p de una N(0,1) F(x) de una N(0,1)

0.4

0.6
F(x)
f(x)
0.2
0.0

0.0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
x x

f.d.p de una N(0,2) F(x) de una N(0,2)


0.15

0.6
F(x)
f(x)
0.00

0.0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
x x

f.d.p de una N(0,5) F(x) de una N(0,5)


0.07

0.6
F(x)
f(x)

0.2
0.04

−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
x x

Distribución chi-cuadrado

La distribución de chi-cuadrado indirectamente modela la varianza de la muestra. Esta


distribución juega in papel importante en la inferencia estadística, principalmente en
pruebas de hipótesis y estimación estadística. Abarca temas como distribuciones de
muestreo, análisis de varianza y estadística no paramétrica.

La relación de la varianza de la muestra con la verdadera varianza de la población se


modela como una chi-cuadrado de acuerdo a lo siguiente:

(n − 1)s2
∼ χ2υ
σ2
donde υ = (n − 1).

par(mfrow=c(1,1))
x <- seq(0,20,by=.1)
plot(x,dchisq(x, df=2),type="l",ylab="",main="Distribución Chi-cuadrado")
lines(x,dchisq(x,df=4),lty=2)
lines(x,dchisq(x,df=9),lty=3)
legend(10,0.3,c("df=2","df=4","df=9"),bty="n",lty=c(1,2,3),cex=.8)
CAPÍTULO 3. ESTADÍSTICA BÁSICA 80

Distribución Chi−cuadrado

0.5
0.4
0.3

df=2
df=4
df=9
0.2
0.1
0.0

0 5 10 15 20
x

Distribución t-student

La distribución t-student es muy similar a la distribución normal estándar, pues ambas


son simétricas alrededor del cero y tienen una forma de campana. Pero la distribución t
es más variable debido al hecho de que los valores de la v.a T dependen de las fluctua-
ciones de dos cantidades, X̄ y S 2 , mientras que los valores de Z dependen sólo de los
cambios de X̄ de una muestra a otra. La distribución T difiere de la Z en que la varianza
de T depende del tamaño muestral n y siempre es mayor que 1. Estas distribuciones
son las mismas cuando n → ∞.

Esta distribución es usada en el procedimiento de test de hipótesis cuando desconoce-


mos la desviación estándar de la población y el tamaño de muestra es pequeño.

Teorema: sea Z una variable aleatoria normal estándar, y V una variable aleatoria chi-
cuadrada con υ grados de libertad. Si Z y V son independientes, entonces, la distribución
de la variable aleatoria T , donde
Z
T =√
V /υ
está dada por la función de densidad
( )−(υ+1)/2
Γ[(υ + 1)/2] t2
h(t) = √ 1+ ; − ∞ < t < ∞.
Γ(υ/2) πυ υ
Esta distribución se conoce como distribución t con υ grados de libertad.

Grafiquemos algunas distribuciones t con distintos grados de libertad, y comparemos


con la normal.
CAPÍTULO 3. ESTADÍSTICA BÁSICA 81

x <- seq(-8,8,by=.1)
par(mfrow=c(2,2))
plot(x,dnorm(x),type="l",ylab="",main="df=2")
lines(x,dt(x,df=2),lty=2)
plot(x,dnorm(x),type="l",ylab="",main="df=5")
lines(x,dt(x,df=5),lty=2)
plot(x,dnorm(x),type="l",ylab="",main="df=10")
lines(x,dt(x,df=10),lty=2)
plot(x,dnorm(x),type="l",ylab="",main="df=20")
lines(x,dt(x,df=20),lty=2)

df=2 df=5
0.4

0.4
0.2

0.2
0.0

0.0
−5 0 5 −5 0 5
x x

df=10 df=20
0.4

0.4
0.2

0.2
0.0

0.0

−5 0 5 −5 0 5
x x

Distribución F de Fisher

Sabemos que la distribución t-student es útil en el caso de inferencia acerca de la media


de la población o en comparaciones de medias de dos poblaciones. Pero en algunos
casos, es requerido comparar las varianzas poblacionales, por lo cual, la distribución F
encuentra enorme aplicación. Esta distribución es frecuente utilizarla en problemas que
implican dos o más muestras.

El estadístico F se define como la razón de dos variables aleatorias chi-cuadradas inde-


pendientes, dividida cada una entre sus respectivos grados de libertad. De aquí, podemos
escribir
U/υ1
F = ,
V /υ2
donde U y V son variables aleatorias independientes que tienen distribuciones chi-
cuadradas con υ1 y υ2 grados de libertad, respectivamente.
CAPÍTULO 3. ESTADÍSTICA BÁSICA 82

x <- seq(0,10,by=.1)
plot(x,df(x, 1,2),type="l",ylab="",main="Distribución F de Fisher")
lines(x,df(x,15,2),lty=2)
lines(x,df(x,10,10),lty=3)
legend(3,0.4,c("df1=1 y df2=2","df1=15 y df2=2","df1=10 y df2=10"),
bty="n",lty=c(1,2,3),cex=.8)

Distribución F de Fisher
1.0
0.8
0.6
0.4

df1=1 y df2=2
df1=15 y df2=2
df1=10 y df2=10
0.2
0.0

0 2 4 6 8 10
x
Capítulo 4

Inferencia estadística

4.1. Distribuciones muestrales

4.1.1. Teorema del límite central

Una de las razones por la cual la distribución normal es tan importante, es por su
capacidad de englobar a otras distribuciones (bajo ciertas circunstancias), cuando el
número de observaciones es lo suficientemente grande.

El conjunto de medias provenientes de muestras aleatorias de tamaño n tiende a una


distribución normal. Entre más grande sean las muestras, mayor será la aproximación
de sus medias a la normalidad.

El teorema del límite central establece que para cualquier distribución con varianza
finita, la media de una muestra aleatoria tiende a estar normalmente distribuida.

La varianza de la distribución de las medias decrece conforme aumenta n; de hecho,


la varianza de la población de todas las posibles medias de muestras de tamaño n
provenientes de una población con varianza σ 2 es:

σ2
σx̄2 =
n

Al tomar raíz cuadrada de esta cantidad, obtenemos el llamado error estándar.


De lo anterior, si X̄ es la media de una muestra aleatoria de tamaño n tomada de una
población con media µ y varianza finita σ 2 , entonces la forma límite de la distribución
de
X̄ − µ
Z= √ ,
σ/ n

83
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 84

conforme n → ∞, es la distribución normal estándar N (0, 1).


2 2 2
Veamos las distribuciones muestrales de x̄, (n−1)s
σ2
, (s x /σx )
(s2y /σy2 )
cuando x e y son N (µx , σx2 ) y
N (µy , σy2 )

pob.x = rnorm(1000,mean=50, sd = 3)
pob.y = rnorm(1000,mean=20, sd = 5)
media = chi2 = f = 0
for(i in 1:1000){
muestra.xi = sample(pob.x,size=10,replace=T)
muestra.yi = sample(pob.y,size=20,replace=T)
media[i] = mean(muestra.xi)
var.x = var(muestra.xi)
var.y = var(muestra.yi)
chi2[i] = (10-1)*var.x/9
f[i] = (var.x/9)/(var.y/25)
}

x = seq(0,100,.1)
par(mfrow=c(1,3))
hist(media,freq=FALSE)
lines(x,dnorm(x,mean=50,sd=sqrt(9/10)))
hist(chi2,freq=FALSE)
lines(x,dchisq(x, df=9))
hist(f,freq=FALSE)
lines(x,df(x, df1=9, df2=9))

Histogram of media Histogram of chi2 Histogram of f


0.8
0.10
0.4

0.08

0.6
0.3

0.06
Density

Density

Density

0.4
0.2

0.04

0.2
0.1

0.02
0.00
0.0

0.0

47 48 49 50 51 52 53 0 5 10 15 20 25 0 1 2 3 4 5

media chi2 f
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 85

4.1.2. Estimación

Se analiza ahora el comportamiento de algunos estimadores por el método de los mo-


mentos o vía máxima verosimilitud.
Ejemplo: Dada una muestra aleatoria x1 , x2 , . . . , xn de una distribución U (0, θ), el es-
timador de θ por el método de los momentos es θ̂ = 2x̄. Observemos su comportamiento
a medida que aumenta el tamaño de muestra:

pob = runif(1000,min=0,max=5)
n.max = 900
estimador = 0
for(i in 1:n.max){
muestra.i = sample(pob, size=i,replace=F)
estimador[i] = 2*mean(muestra.i)
}
plot(estimador,xlab="Tamaño muestral",ylab="Estimación")
7
6
Estimación

5
4
3
2

0 200 400 600 800

Tamaño muestral
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 86

Pero si se aplica el estimador máximo verosímil θ̂ = máx(xi ), el comportamiento es:

pob = runif(1000,min=0,max=5)
n.max = 900
estimador = 0
for(i in 1:n.max){
muestra.i = sample(pob, size=i,replace=F)
estimador[i] = max(muestra.i)
}
plot(estimador,xlab="Tamaño muestral",ylab="Estimación")
5.0
4.5
4.0
Estimación

3.5
3.0
2.5
2.0

0 200 400 600 800

Tamaño muestral

Ejemplo: Dada una muestra aleatoria x1 , x2 , . . . , xn de una distribución N (µ, σ 2 ), el


estimador de θ = (µ, σ 2 ) por el método de los momentos es θ̂ = (x̄, s2n ). Observemos su
comportamiento a medida que aumenta el tamaño de muestra:

pob = rnorm(1000,mean=50,sd=10)
n.max = 900
estimador = matrix(0,nrow=n.max,ncol=3)
for(i in 1:n.max){
muestra.i = sample(pob, size=i,replace=F)
estimador[i,] = c(mean(muestra.i),(i-1)/i*(sd(muestra.i))^2,
(sd(muestra.i))^2)
}
par(mfrow=c(1,3))
plot(estimador[,1],xlab="Tamaño muestral",ylab="Estimación media")
abline(h=50,col="red")
plot(estimador[,2],xlab="Tamaño muestral",ylab="Estimación varianza")
abline(h=100,col="red")
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 87

plot(estimador[,3],xlab="Tamaño muestral",ylab="Estimación varianza")


abline(h=100,col="red")

200

200
60

150

150
Estimación varianza

Estimación varianza
55
Estimación media

100

100
50

50

50
45

0
0 400 800 0 400 800 0 400 800

Tamaño muestral Tamaño muestral Tamaño muestral

Propiedades de los estimadores

Insesgamiento (Ejemplo): El estimador máximo verosímil del parámetro λ en la


[distribución exponencial
] fX (x; λ) = λe−λx es λ̂ = x̄1 . Luego una aproximación del sesgo
B(λ̂) = E(λ̂ − λ) se logra en R como:

pob = rexp(1000,rate=2)
n.max = 100
estimador = 0
for(i in 1:n.max){
muestra.i = sample(pob, size=10,replace=F)
estimador[i] = 1/mean(muestra.i)
}
sesgo = mean(estimador)-2
sesgo
[1] 0.03868989

Eficiencia (Ejemplo): Recuerde que θ̂1 se dice más eficiente que θ̂2 si V ar(θ̂1 ) <
V ar(θ̂2 ). Veamos que el estimador máximo verosímil es el más eficiente bajo la dis-
tribución U (0, θ).

pob = runif(1000,min=0,max=10)
n.max = 100
est.mom = est.mv = 0
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 88

for(i in 1:n.max){
muestra.i = sample(pob, size=10,replace=F)
est.mom[i] = 2*mean(muestra.i)
est.mv[i] = max(muestra.i)
}
var(est.mv)<var(est.mom)
[1] TRUE

Y podemos calcular la eficiencia relativa como:


var(est.mv)/var(est.mom)
0.1642539

Consistencia (Ejemplo): Recuerde que θ̂ se dice consistente si


[ ]
lı́m P r | θ̂n − θ |< ϵ = 1,
n→∞
para todo ϵ > 0. Veamos que el estimador máximo verosímil en una exponencial es
consistente.

pob = rexp(1000,rate=2)
n.max = 900
pr = 0
for(i in 1:n.max){
cont = 0
for(j in 1:50){
muestra.i = sample(pob, size=i,replace=F)
estimador = 1/mean(muestra.i)
if(abs(estimador-2) <.1) cont[j] = 1 else cont[j] = 0
}
pr[i] = sum(cont)/50
}
plot(pr,pch=20,xlab="Tamaño Muestral", ylab="Pr")
1.0
0.8
0.6
Pr

0.4
0.2
0.0

0 200 400 600 800

Tamaño Muestral
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 89

Y para la distribución normal

pob = rnorm(1000,mean=50, sd = 3)
n.max = 900
pr = 0
for(i in 1:n.max){
cont = 0
for(j in 1:200){
muestra.i = sample(pob, size=i,replace=F)
estimador = mean(muestra.i)
if(abs(estimador-50) <.1) cont[j] = 1 else cont[j] = 0
}
pr[i] <- sum(cont)/200
}
plot(pr,pch=20,xlab="Tamaño Muestral", ylab="Pr")
1.0
0.8
0.6
Pr

0.4
0.2
0.0

0 200 400 600 800

Tamaño Muestral
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 90

4.2. Intervalos de confianza y test de hipótesis


Los estimadores puntuales exhiben un solo valor como estimación del parámetro de
interés, pero en muchos casos esto no es suficiente. A veces, se requiere de un rango de
posibles valores para el parámetro de interés, es decir, un intervalo real donde se cree
que estará el valor del parámetro con una alta confianza.

Sea θ un parámetro de interés y θ̂ un estimador puntual para θ. una estimación de θ


por intervalo, es un intervalo de la forma (l, u) (l < θ < u), donde l y u dependen de θ̂
y de la distribución de θ̂.

Cada muestra aleatoria proporcionará un valor diferente para θ̂ y por lo tanto, valores
diferentes para l y u. Así, los extremos del intervalo en cuestión se convierten en v.a las
cuales denotaremos L y U . El intervalo (L, U ) es llamado intervalo aleatorio. Usando θ̂
y su distribución, se puede determinar L y U tal que P (L < θ < U ) = 1 − α; α ∈ (0, 1)
para α dado. Para una muestra en particular, se obtiene el intervalo (l, u) donde se
espera esté el verdadero valor de θ.

El intervalo (l, u) será llamado un Intervalo de Confianza al 100(1 − α) % para θ. l y


u son llamados límites de confianza y el valor 1 − α se le llama coeficiente o nivel de
confianza. Notación: I.C al 100(1 − α) % para θ.

Interpretación: “De todos los posibles I.C al 100(1 − α) % para θ, el 100(1 − α) % de


ellos, contendrá el verdadero valor de θ”.

4.2.1. Intervalo de confianza para la media

Sea X1 , . . . , Xn una muestra aleatoria (m.a) de una población normal N (µ, σ 2 ) con
media µ desconocida y varianza σ 2 conocida. Un I.C al 100(1 − α) % para µ es
( )
σ σ
x̄ − Zα/2 √ , x̄ + Zα/2 √
n n

Nota 1: Si la m.a no proviene de una distribución normal, pero el tamaño de muestra


es grande, podemos usar el mismo I.C, puesto que el teorema de límite central nos
garantiza su uso.

Nota 2: Si σ 2 es desconocida, usamos s2 en su lugar. Así, un I.C al 100(1 − α) % para


µ es ( )
s s
x̄ − Zα/2 √ , x̄ + Zα/2 √
n n
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 91

Nota 3: Si la m.a proviene de una distribución normal, pero el tamaño de muestra es


pequeño, sabemos que
x̄ − µ
√ ∼ t(n−1)
s/ n
De aquí, un I.C al 100(1 − α) % para µ es
( )
s s
x̄ − tα/2 (n − 1) √ , x̄ + tα/2 (n − 1) √
n n

Ejemplo: Suponga que un investigador está interesado en obtener una estimación del
nivel promedio de alguna enzima en cierta población de seres humanos. Para esto, toma
una muestra de 20 individuos, los datos se muestran a continuación.

x=c(26.58,24.19,28.61,32.02,24.65,24.82,17.43,26.12,22.06,16.68,
9.06,7.58,9.16,26.69,26.76,20.88,3.90,23.79,17.20,25.73)

Supongamos que la variable de interés se distribuye aproximadamente normal. Con-


struya un I.C al 95 % para µ: nivel de enzima promedio.

Solución!

t.test(x,conf.level=0.95)

El resultado que se obtiene de R es el siguiente:

95 percent confidence interval:


17.02149 24.36951
sample estimates: mean of x
20.6955

Podemos concluir entonces que el nivel promedio de enzimas en dicha población se


encuentra entre 17.02 y 24.37 con una confianza del 95 %.

4.2.2. Intervalo de confianza para una proporción

Sea X una v.a tal que X ∼ bin(x; n, p), un I.C aproximado para p, con n grande, viene
dado por: ( )
√ √
p̂ − Zα/2 p̂(1 − p̂)/n , p̂ + Zα/2 p̂(1 − p̂)/n

Ejemplo: Se lleva a cabo un estudio para determinar la efectividad de una vacuna


contra la gripe. Se administra la vacuna a una m.a de 3000 sujetos y 13 contraen gripe.
Obtenga un I.C al 95 % para la proporción real de sujetos vacunados que contraerían
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 92

gripe.

Solución!

prop.test(x=13,n=3000,conf.level=0.95,correct=T)

El resultado que se obtiene de R es el siguiente:

95 percent confidence interval:


0.002411534 0.007609646
sample estimates:
p
0.004333333

Podemos decir que la proporción real de vacunados que contraerían gripe está entre
0.0024 y 0.0076 con un 95 % de confianza.

Nota: cuando las condiciones anteriores no se verifiquen, es posible la construcción de


un intervalo exacto. Con R lo obtenemos de la siguiente forma.

binom.test(x=13,n=3000,conf.level=0.95)

El resultado que se obtiene de R es el siguiente:

95 percent confidence interval:


0.002309274 0.007398732
sample estimates:
probability of success
0.004333333

Podemos decir que la proporción real de vacunados que contraerían gripe está entre
0.0023 y 0.0074 con un 95 % de confianza.

4.2.3. Intervalo de confianza para la varianza

Si s2 es la varianza de una muestra aleatoria de tamaño n de una población normal, un


intervalo de confianza de 100(1 − α) % para σ 2 es
( )
(n − 1)s 2
(n − 1)s 2

2
,
χα/2 χ21−α/2
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 93

donde χ2α/2 y χ21−α/2 son valores χ2 con υ = n − 1 grados de libertad, que dejan áreas
de α/2 y 1 − α/2, respectivamente, a la derecha.
Un intervalo de confianza de 100(1 − α) % para σ se obtiene al tomar la raíz cuadrada
de cada exrtremo del intervalo para σ 2 .

Ejemplo: Suponga la muestra donde se registra el nivel de enzima de 20 individuos.


Estamos interesados ahora en construir un I.C al 95 % para la varianza de la población.

x=c(26.58,24.19,28.61,32.02,24.65,24.82,17.43,26.12,22.06,16.68,
9.06,7.58,9.16,26.69,26.76,20.88,3.90,23.79,17.20,25.73)

Solución!
Asumiendo normalidad, En R, tenemos que:

# Construyamos la función que nos permita obtener dicho intervalo.


intvar<-function(x,confianza){
n<- length(x)
alpha<- 1-confianza
L_inf<-(n-1)*var(x)/qchisq(alpha/2,df=n-1,lower.tail=F)
L_sup<-(n-1)*var(x)/qchisq(1-(alpha/2),df=n-1,lower.tail=F)
Intervalo<-data.frame(medida=c("L_inf","Varianza","L_sup"),
calculo=c(L_inf,var(x),L_sup))
Intervalo
}

Ahora, aplicando la función a los datos, tenemos:

intvar(x,0.95)

El resultado que se obtiene de R es el siguiente:

medida cálculo
1 L_inf 35.64105
2 Varianza 61.62587
3 L_sup 131.46459

sqrt(intvar(x,0.95)[,2])

[1] 5.970013 7.850215 11.465801

Podemos concluir entonces que la desviación del nivel de enzimas respecto al promedio
en dicha población, se encuentra entre 5.97 y 11.47 con una confianza del 95 %.
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 94

4.2.4. Intervalo de confianza para el cociente de varianzas

Si s21 y s22 son varianzas de muestras independientes de tamaño n1 y n2 , respectivamente,


de poblaciones normales, entonces un intervalo de confianza al 100(1 − α) % para σ12 /σ22
es: ( 2 )
s1 1 s21
, fα/2 (υ2 , υ1 )
s22 fα/2 (υ1 , υ2 ) s22

donde fα/2 (υ1 , υ2 ) es un valor f con υ1 = n1 − 1 y υ2 = n2 − 1 grados de libertad que


deja un área de α/2 a la derecha.

Ejemplo: un estudio tiene como finalidad determinar los efectos del ejercicio por un
tiempo prolongado en los ejecutivos de una compañía. Se registraron datos de 13 individ-
uos (deportistas) y de 17 individuos (sedentarios). Entre los datos que se recolectaron,
está el número máximo de sentadillas realizadas durante un período de 30 segundos.

Los grupos deportistas y sedentarios, presentaron los siguientes registros:

deportistas=c(21,25,18,12,25,19,26,25,28,25,16,26,23)
sedentarios=c(22,29,19,7,17,3,26,16,7,11,6,13,23,14,19,18,16)

Asuma que las observaciones provienen de poblaciones normal. Construya un I.C al


95 % para el cociente de varianzas σ12 /σ22 .

Solución!
En R, tenemos lo siguiente:

var.test(deportistas,sedentarios,conf.level = 0.95)

El resultado que se obtiene de R es el siguiente:

95 percent confidence interval:


0.1456417 1.3260550
sample estimates:
ratio of variances
0.4207659

Podemos concluir que el cociente de las varianzas poblacionales está entre 0.15 y 1.33,
con una confianza del 95 %. Como el 1 está dentro del intervalo, esto apoyaría la hipótesis
de que las varianzas poblacionales son iguales.
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 95

4.2.5. Intervalo de confianza para diferencia de medias

Asumiendo muestras grandes, suponga que X1 , . . . , Xn es una muestra aleatoria (m.a)


de una población con media µ1 y varianza σ12 . Sea Y1 , . . . , Ym otra m.a independiente de
la anterior, de otra población con media µ2 y varianza σ22 (si desconocemos σ 2 , podemos
usar s2 ). Un I.C al 100(1 − α) % para µ1 − µ2 es
( √ √ )
s21 s22 s21 s22
(x̄ − ȳ) − Zα/2 + , (x̄ − ȳ) + Zα/2 +
n m n m

Intervalo de confianza para diferencia de medias (muestras pequeñas)

En el caso de muestras pequeñas, se deben distinguir dos casos, cuando las varianzas
poblacionales son desconocidas, pero se asumen iguales, o cuando éstas son desconoci-
das y se asumen distintas.

Caso 1: (asumiendo varianzas poblacionales iguales) se debe obtener el estadís-


tico
(n − 1)s21 + (m − 1)s22
Sp2 = .
n+m−2
El error estándar es: √
Sp2 Sp2
Sx̄−ȳ = + .
n m
Un I.C al 100(1 − α) % para µ1 − µ2 está dado por:
( √ √ )
Sp2 Sp2 Sp2 Sp2
(x̄ − ȳ) − tα/2 (υ) + , (x̄ − ȳ) + tα/2 (υ) +
n m n m
donde υ = n + m − 2.
Caso 2: (asumiendo varianzas poblacionales distintas) Se debe calcular los gra-
dos de libertad ( 2 )2
s1 s22
n
+m
υ = ( 2 )2 ( 2 )2 − 2
s1 s2
n m

n+1
+ m+1
y el I.C al 100(1 − α) % está dado por:
( √ √ )
s21 s22 s21 s22
(x̄ − ȳ) − tα/2 (υ) + , (x̄ − ȳ) + tα/2 (υ) +
n m n m

Ejemplo: continuando con el ejemplo anterior, se desea construir un I.C al 95 % para


la diferencia de media µ1 − µ2 . En R, tenemos lo siguiente.

Solución!
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 96

t.test(deportistas,sedentarios,var.equal=T,conf.level=0.95)

El resultado que se obtiene de R es el siguiente:

95 percent confidence interval:


1.831448 11.335973
sample estimates:
mean of x mean of y
22.23077 15.64706

Concluimos que con una confianza del 95 %, la diferencia entre el promedio de sentadillas
de los deportistas, respecto a los sedentarios, se encuentra entre 2 y 11 sentadillas
aproximadamente. Esto nos da un indicio de que hay diferencias entre los promedios de
los dos grupos.

4.2.6. Intervalo de confianza para diferencia de medias pareadas

Cuando las muestras no son independientes y las varianzas poblacionales no necesari-


amente son iguales, procedemos a realizar intervalos de confianza para diferencia de
medias pareadas. Aquí, cada unidad experimental homogénea recibe ambas condiciones
poblacionales; como resultado, cada unidad experimental tiene un par de observaciones,
una para cada población.

A manera de ejemplo, si realizamos una prueba de una nueva dieta con 15 individuos,
los pesos antes y después de seguir la dieta forman la información de nuestras dos mues-
tras. Evidentemente, las observaciones en un par tienen algo en común. Para determinar
si la dieta es efectiva, consideramos las diferencias d1 , d2 , . . . , dn en las observaciones
pareadas. Estas diferencias son los valores de una muestra aleatoria D1 , D2 , . . . , Dn de
una población de diferencias, que supondremos distribuidas normalmente, con media
µD = µ1 − µ2 y varianza σD 2
. Estimamos σD2
, mediante s2D , la varianza de las diferencias
que constituyen nuestra muestra. El estimador puntual de µD está dado por D̄.

Ahora bien, si d¯ y sd son la media y la desviación estándar, respectivamente, de las


diferencias distribuidas normalmente de n pares de mediciones aleatorias, un intervalo
de confianza al 100(1 − α) % para µD = µ1 − µ2 es
( )
s d s d
d¯ − tα/2 √ , d¯ + tα/2 √
n n
donde tα/2 es el valor de t con υ = n − 1 grados de libertad que deja un área de α/2 a
la derecha.

Ejemplo: a un grupo de 12 individuos se les tomó la presión antes y después de


someterlos a un tratamiento, los resultados fueron los siguientes:
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 97

p.antes=c(120,124,130,118,140,128,140,135,126,130,126,127)
p.despues=c(128,131,131,127,132,125,141,137,118,132,129,135)

Construya un I.C del 95 % para la diferencia de medias.

Solución!
En R, hacemos lo siguiente:

t.test(p.antes,p.despues,paired=T,conf.level=0.95)

El resultado es el siguiente:

95 percent confidence interval:


-5.536492 1.869825
sample estimates:
mean of the differences
-1.833333

Con una confianza del 95 %, la diferencia entre las presiones arterial promedio, se en-
cuentra entre -5.54 y 1.87. Esto indica que el nuevo tratamiento no disminuye la presión
arterial con una confianza del 95 %.

4.2.7. Intervalo de confianza para diferencia de proporciones

Si p̂1 y p̂2 son las proporciones de éxitos en muestras aleatorias de tamaño n1 y n2 ,


respectivamente, q̂1 = 1 − p̂1 y q̂2 = 1 − p̂2 , un intervalo de confianza aproximado al
100(1 − α) % para la diferencia de dos parámetros binomiales p1 − p2 , está dado por:
( √ √ )
p̂1 q̂1 p̂2 q̂2 p̂1 q̂1 p̂2 q̂2
(p̂1 − p̂2 ) − Zα/2 + , (p̂1 − p̂2 ) + Zα/2 +
n1 n2 n1 n2

Ejemplo: cierto genetista se interesa en la proporción de hombres y mujeres en la


población que tienen cierto trastorno sanguíneo menor. En una muestra aleatoria de
1000 hombres se encuentra que 250 lo padecen; mientras que 275 de 1000 mujeres ex-
aminadas parecen tener el trastorno. Construya un I.C al 95 % para la diferencia entre
la proporción de hombres y mujeres que padecen el trastorno.

Solución!

prop.test(x=c(250,275),n=c(1000,1000),conf.level=.95,correct=T)
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 98

El resultado que se obtiene de R es el siguiente:

95 percent confidence interval:


-0.0645508 0.0145508
sample estimates:
prop 1 prop 2
0.250 0.275

Con una confianza del 95 %, la diferencia de la proporción de hombres con dicho


trastorno, respecto a la de las mujeres, está entre -0.065 y 0.015. Lo que indica que
no hay diferencias entre las proporciones.

4.2.8. Test de hipótesis

Una hipótesis estadística es una afirmación que se hace con respecto a una o algunas
características desconocidas de una población de interés o acerca de la misma población.
Dicha afirmación tiene sentido solo si es evaluada con base en la información recolectada
a partir de una muestra aleatoria de la población en estudio.

Como la afirmación puede o no ser cierta, dos hipótesis pueden ser planteadas (an-
tagónicas).

H0 : la hipótesis es cierta
Ha : la hipótesis es falsa.

H0 se rechaza, solo si la evidencia muestral apoya esta determinación fuertemente. En


otro caso, diremos que la evidencia muestral no es suficiente para rechazar H0 y se
asume como cierta. El proceso por medio del cual escogemos una de las dos hipótesis
es llamado test de hipótesis.

Ejemplo: un tratamiento para dejar de fumar ha mostrado ser efectivo en el 60 %


de los casos. Un investigador propone un nuevo método que se supone mejorará dicho
porcentaje. Para verificar esta información, se aplicó dicho tratamiento a 20 voluntarios
con hábito de fumar.

Cómo usar la información recolectada para decidir si el nuevo tratamiento es mejor?

Queremos determinar si la proporción de personas que deja de fumar a causa del nue-
vo tratamiento es mayor al 60 %. ¿Cuántas de las 20 personas mínimo deben dejar de
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 99

fumar para aceptar que el nuevo tratamiento es mejor?

Sea X : número de personas que dejan de fumar a causa del nuevo tratamiento.

X ∼ bin(20, p). Las hipótesis a probar son:

H0 : p ≤ 0.6 vs Ha : p > 0.6.

Suponga un valor k, tal que si x > k, se tiene suficiente evidencia para rechazar H0 . (es
decir, p > 0.6).

Siempre que el valor de la v.a X esté en el conjunto {x | x > k}, se debe rechazar H0 .

Cómo hallar un valor adecuado para k?

Observe que, x > k ⇔ x


n
> k
n
⇔ p̂ > k
20
= p0 .

Así, x > k ⇔ p̂ > p0 . La decisión recae sobre X o p̂.

La v.a X o p̂ son llamados estadísticos de prueba, y al conjunto {x | x > k} o {p̂ | p̂ > p0 }


se le llama región crítica o región de rechazo. El proceso aquí descrito constituye un
test de hipótesis.

Todo test de hipótesis consta de:

1.) Hipótesis nula, H0

2.) Hipótesis alterna, Ha

3.) Estadístico de prueba

4.) Región de rechazo

En general, sea θ un parámetro de interés desconocido, y sea θ0 un valor particular de


θ. Tres hipótesis alternas pueden ser planteadas:

 θ < θ0
H0 : θ = θ 0 vs Ha : θ > θ0

θ ̸= θ0
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 100

Si θ̂ es un estimador puntual para θ, los valores de θ̂ pueden ser usados para tomar una
decisión sobre H0 .

Las respectivas regiones de rechazo asociadas a Ha son:

{θ̂ | θ̂ < k}
{θ̂ | θ̂ > k}
{θ̂ | |θ̂| > k}.
El problema aquí es hallar valores adecuados para k.

En este proceso se pueden cometer dos tipos de errores.


Error tipo I: rechazar H0 , dado que H0 es cierta.
Error tipo II: no rechazar H0 , dado que H0 es falsa.

Sea α = P (error tipo I) y β = P (error tipo II). α es llamado nivel de significancia del
test o tamaño de la región de rechazo. Por otro lado, 1 − β es llamado potencia de la
prueba, es decir,
P (Rechazar H0 , dado que H0 es falsa). Note que si se fija α, es posible hallar valores
adecuados para k.

En muchas áreas, es común concluir en el procedimiento de test de hipótesis con el valor


p. El valor p es el mínimo nivel de significancia a partir del cual los datos observados
indican que se debe rechazar H0 .

También, valor p es “mínima probabilidad de equivocarse al rechazar H0 ”.

Test de hipótesis para medias (muestras grandes)

Sea X1 , . . . , Xn una muestra aleatoria (m.a) de una población con media µ y varianza
σ 2 . Sea µ0 un valor de interés para µ. Tres hipótesis pueden ser planteadas.

 µ < µ0
H0 : µ = µ 0 vs Ha : µ > µ0

µ ̸= µ0

El estadístico de prueba es:


X̄ − µ0
Zc = √
σ/ n

La región crítica es la siguiente:


CAPÍTULO 4. INFERENCIA ESTADÍSTICA 101

 Zc | Zc < −Zα
Región crítica: Zc | Zc > Zα

Zc | |Zc | > Zα/2
Para α dado. Si σ es desconocida, usamos S 2 .
2

Ejemplo: se estudia el rendimiento de un proceso químico con base en la observación


de 50 días. Los datos se muestran a continuación.

x=c(90.85,89.37,90.08,89.77,92.10,90.34,91.46,91.54,90.96,92.02,
89.78,90.22,88.15,91.05,93.22,88.74,88.40,90.06,90.59,90.14,89.42,
90.18,90.28,91.40,89.02,90.14,92.46,91.36,92.81,90.14,
90.28,89.17,89.98,91.94,91.57,91.77,89.59,91.53,89.68,91.39,92.82,
90.93,89.27,88.59,89.40,91.53,91.13,90.67,90.20,90.39)

Se puede afirmar que el rendimiento promedio real del proceso es superior al 90 %? use
α = 0.01.

Solución!

t.test(x,alternative="greater",mu=90)

El resultado que se obtiene de R es el siguiente:

One Sample t-test

data: x
t = 3.3225, df = 49, p-value = 0.0008464
alternative hypothesis: true mean is greater than 90
95 percent confidence interval:
90.27623 Inf
sample estimates:
mean of x
90.5576

La conclusión la tomamos con el valor p. Si valor p es menor que el nivel de significancia


especificado, rechazamos H0 con dicho nivel α, en caso contrario, decimos que no hay
evidencias suficientes para rechazar H0 . Aquí como p valor= 0.00085 < 0.01, rechaz-
amos H0 a un nivel de significancia de 0.01. Por tanto, concluimos que el rendimiento
promedio real del proceso es superior al 90 %. Note que el I.C al 95 % también nos
respalda la conclusión.

Nota: si el tamaño de muestra es pequeño y las poblaciones son normales, sabemos que
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 102

X̄ − µ
√ ∼ t(n−1)
s/ n

así, si µ0 es el valor de referencia para µ, tenemos las siguientes hipótesis



 µ < µ0
H0 : µ = µ 0 vs Ha : µ > µ0

µ ̸= µ0

El estadístico de prueba es:


X̄ − µ0
Tc = √
s/ n

La región crítica es la siguiente:



 Tc | Tc < −Tα (n − 1)
Región crítica: Tc | Tc > Tα (n − 1)

Tc | |Tc | > Tα/2 (n − 1)
Para α dado.

Test de hipótesis para una proporción

Sea X una v.a tal que X ∼ bin(x; n, p). Sea p0 un valor de interés para p. Tres hipótesis
pueden ser planteadas.

 p < p0
H 0 : p = p0 vs Ha : p > p0

p ̸= p0

El estadístico de prueba es:


p̂ − p0
Zc = √
p0 (1 − p0 )/n

La región crítica es la siguiente:



 Zc | Zc < −Zα
Región crítica: Zc | Zc > Zα

Zc | |Zc | > Zα/2
Para α dado.

Ejemplo: en una investigación con pacientes psiquiátricos en cierto país, se encontró


que 166 pacientes en una muestra de 947, tenían antecedentes de abuso sexual y mal-
trato físico. Use un nivel α = 0.05 para chequear que el porcentaje real de pacientes de
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 103

dicho país abusados sexual o físicamente es inferior al 20 %.

Solución!

prop.test(x=166,n=947,alternative="less",p=0.2,correct=F)

El resultado que se obtiene de R es el siguiente:

1-sample proportions test without continuity correction

data: 166 out of 947, null probability 0.2


X-squared = 3.6138, df = 1, p-value = 0.02865
alternative hypothesis: true p is less than 0.2
95 percent confidence interval:
0.0000000 0.1965303
sample estimates:
p
0.1752904

Con un nivel α = 0.05, rechazamos H0 , es decir, el porcentaje de pacientes maltratados


es inferior al 20 %.

Test de hipótesis para diferencia de proporciones de dos poblaciones

Sean X una v.a tal que X ∼ bin(n, p1 ) y Y una v.a tal que Y ∼ bin(m, p2 ) con p1 y
p2 desconocidas. Sea p0 un valor de interés para p1 −p2 . Tres hipótesis se pueden plantear

 p1 − p2 < p0
H 0 : p 1 − p 2 = p0 vs Ha : p1 − p2 > p0

p1 − p2 ̸= p0

El estadístico de prueba es:


(pˆ1 − pˆ2 ) − p0
Zc = √
p0 (1−p0 ) p0 (1−p0 )
n
+ m

La región crítica es la siguiente:



 Zc | Zc < −Zα
Región crítica: Zc | Zc > Zα

Zc | |Zc | > Zα/2
Para α dado.
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 104

Ejemplo: En un estudio de cuidados nutricionales en asilos para ancianos, se encontró


que entre 55 pacientes con hipertensión, 24 tenían una dieta con restricción de sodio.
De 149 pacientes pacientes sin hipertensión, 36 tenían una dieta sin sodio.

Es posible concluir que en las poblaciones muestreadas, la proporción de pacientes con


dieta restringida en sodio es mayor entre pacientes hipertensos que entre los no hiperten-
sos?. Use α = 0.05.

La hipótesis es la siguiente:

H0 : p 1 − p 2 = 0 vs H a : p1 − p2 > 0

Solución! En R, el procedimiento es el siguiente:

prop.test(x=c(24,36),n=c(55,149),alternative="greater",correct=F)

El resultado que se obtiene de R es el siguiente:

2-sample test for equality of proportions without continuity correction

data: c(24, 36) out of c(55, 149)


X-squared = 7.3389, df = 1, p-value = 0.003374
alternative hypothesis: greater
95 percent confidence interval:
0.07055185 1.00000000
sample estimates:
prop 1 prop 2
0.4363636 0.2416107

La proporción de pacientes con dieta restringida en sodio es mayor entre pacientes


hipertensos que entre los no hipertensos, con α = 0.05.

4.2.9. Test de hipótesis para diferencia de medias

Suponga que se tienen dos poblaciones normales independientes y se extraen dos m.a.

Sea X1 , . . . , Xn una m.a de una población N (µ1 , σ12 ), y sea Y1 , . . . , Ym otra m.a de una
población N (µ2 , σ22 ), ambas m.a estadísticamente independientes. Se desea contrastar
la hipótesis acerca de la diferencia µ1 − µ2 . Las hipótesis a probar son de la forma:
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 105

 µ1 − µ2 < δ0
H0 : µ1 − µ2 = δ0 vs Ha : µ1 − µ2 > δ0

µ1 − µ2 ̸= δ0

El estadístico de prueba es:


(X̄ − Ȳ ) − δ0
Zc = √
σ12 σ2
n
+ m2

Cuando no se conocen las varianzas, recuerde que se deben distinguir dos casos.

Caso 1: (asumiendo varianzas poblacionales iguales) El estadístico de prueba


será

(x̄ − ȳ) − δ0
Tc = √ ∼ t(n+m−2) ,
Sp n1 + m1

donde

(n − 1)s21 + (m − 1)s22
Sp2 = .
n+m−2

Caso 2: (asumiendo varianzas poblacionales distintas) Aquí, el estadístico de


prueba es

(x̄ − ȳ) − δ0
Tc = √ 2 ,
s1 s22
n
+m

el cual se distribuye aproximadamente t(υ) , donde

( )2
s21 s22
n
+ m
υ= ( 2 )2 ( )2 −2
s1 s2
2
n m

n+1
+ m+1

La región crítica es la siguiente:



 Tc | Tc < −tα (υ)
Región crítica: Tc | Tc > tα (υ)

Tc | |Tc | > tα/2 (υ)
Para α dado.

Note que para Caso 1, υ = n + m − 2.


CAPÍTULO 4. INFERENCIA ESTADÍSTICA 106

Ejemplo: se midieron las concentraciones de cortisol en dos grupos de mujeres antes


de dar a luz. Al grupo 1 se le practicó una operación cesárea de urgencias después de
inducido el parto. Las del grupo 2, dieron a luz mediante operación cesárea o vía vaginal
después de presentarse el trabajo de parto expontáneamente. Los niveles de cortisol en
los dos grupos se presentan a continuación. (Asuma normalidad en el conjunto de datos)

grupo1=c(411,466,432,409,381,363,449,483,438,381)
grupo2=c(584,553,516,688,650,590,574,700,831,688,478,689)

Proporcionan estos datos evidencia suficiente para afirmar que existe diferencia en la
concentración media de cortisol en las poblaciones?. Use α = 0.05.
Solución!
Veamos si las varianzas son iguales o diferentes.

var.test(grupo1,grupo2)

El resultado en R es el siguiente

F test to compare two variances

data: grupo1 and grupo2


F = 0.16182, num df = 9, denom df = 11, p-value = 0.0108
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.04510143 0.63304938
sample estimates:
ratio of variances
0.1618194

Como el 1 no está en el intervalo, y p−valor es menor que 0.05, podemos asumir que
las varianzas son diferentes. Ahora procedamos a chequear las hipótesis principal del
problema.

t.test(grupo1,grupo2,var.equal=F,alternative="two.sided")

El resultado que se obtiene de R es el siguiente:

Welch Two Sample t-test

data: grupo1 and grupo2


t = -6.7277, df = 14.996, p-value = 6.787e-06
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 107

alternative hypothesis: true difference in means is not equal to 0


95 percent confidence interval:
-272.7363 -141.4970
sample estimates:
mean of x mean of y
421.3000 628.4167

Como p−valor es menor que 0.05, concluimos que hay diferencia estadísticamente sig-
nificativa en las concentraciones medias de cortisol entre las dos poblaciones.

4.2.10. Test de hipótesis para diferencia de medias pareadas

En este caso, el estadístico de prueba es:

d¯ − d0
Tc = √ ∼ t(n − 1)
sd / n

donde d¯ y sd representan la media muestral y las desviaciones estándar de las diferencias


de las observaciones en las unidades experimentales.

Las hipótesis son:



 µd < d0
H0 : µd = d0 vs Ha : µd > d0

µd ̸= d0

La región crítica es la siguiente:



 Tc | Tc < −tα (n − 1)
Región crítica: Tc | Tc > tα (n − 1)

Tc | |Tc | > tα/2 (n − 1)
Para α dado.

Ejemplo: a un grupo de 12 individuos se les tomó la presión antes y después de


someterlos a un tratamiento, los resultados fueron los siguientes:

p.antes=c(120,124,130,118,140,128,140,135,126,130,126,127)
p.despues=c(128,131,131,127,132,125,141,137,118,132,129,135)

Verifique a un nivel α = 0.05, si las medias poblacionales son diferentes.

Solución!
En R, tenemos lo siguiente:
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 108

t.test(p.antes,p.despues,paired=T)

El resultado es el siguiente:

Paired t-test

data: p.antes and p.despues


t = -1.0896, df = 11, p-value = 0.2992
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-5.536492 1.869825
sample estimates:
mean of the differences
-1.833333

Como p−valor no es menor que 0.05, podemos concluir a un nivel α = 0.05, que no hay
diferencias entre los dos tratamientos.

4.2.11. Test de bondad de ajuste

En el desarrollo de los test de hipótesis vistos hasta ahora, nos hemos enfocado en con-
trastes de hipótesis acerca de un parámetro o diferencias de parámetros de la población;
µ, p, µ1 − µ2 , p1 − p2 , σ12 /σ22 . Los test de bondad de ajuste proporcionan información
para determinar si una población tiene una distribución teórica específica o no. Aquí,
el contraste de hipótesis es el siguiente:

H 0 : F = F0 vs Ha : F ̸= F0

Test chi-cuadrado

El test chi-cuadrado de bondad ajuste es una herramienta my simple y versátil que


determina cuantitativamente si una variable aleatoria realmente debería ser modelada
con una distribución particular. La forma de proceder del test es realizar particiones de
los datos en categorías, y calcula las frecuencias en cada categoría, similar a la construc-
ción de un histograma. De aquí, compara las frecuencias observadas con las esperadas
las cuales resultan de un perfecto ajuste de la distribución propuesta. Posteriormente,
se calcula la estadística de prueba que sigue una distribución chi-cuadrada con n − 1
grados de libertad.


n
(oi − ei )2
2
χ =
i=1
oi
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 109

donde oi corresponde a las frecuencias observadas, y ei son las frecuencias esperadas.


Ejemplo: usaremos los datos de la base survey de la librería MASS de R, que corre-
sponden a 237 observaciones provenientes de una encuesta a estudiantes de estadística
de una Universidad en Australia.

Consideraremos la variable EJERCICIO (Exer) con los niveles: Freq, Some, y None.
Verificaremos si esta variable proviene de una población Multinomial con parámetros
0.5, 0.1 y 0.4 respectivamente, usando α = 0.05

Solución!

library(MASS)
tbl=table(survey$Exer)
tbl

En R, aplicamos la siguiente función.

chisq.test(tbl,p=c(0.5,0.1,0.4))

El resultado es el siguiente.

Chi-squared test for given probabilities

data: tbl
X-squared = 0.21519, df = 2, p-value = 0.898

Con un nivel de significancia de α = 0.05, no podemos rechazar la hipótesis nula. Es


decir, los datos provienen de una multinomial con probabilidades p = (0.5, 0.1, 0.4),
respectivamente.

4.2.12. Algunas pruebas no paramétricas

Gran parte de los procedimientos descritos anteriormente de test de hipótesis, consid-


eran que las observaciones provienen de poblaciones normales. En muchas situaciones
este supuesto no se cumple. Una alternativa a la no normalidad de los datos, es proceder
a implementar test no paramétricos.
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 110

Test de Kolmogorov-Smirnov

El test de Kolmogorov-Smirnov es una alternativa al test chi-cuadrado cuando los datos


son continuos. Este test nos permite contrastar si un conjunto de datos muestrales
proviene de una población específica. En particular, se implementa para chequear nor-
malidad en un conjunto de datos.

En general, el contraste es el siguiente.

H 0 : F = F0 vs Ha : F ̸= F0

En R, usamos la función ks.test.

A manera de ejemplo, generemos 100 observaciones de una población normal con me-
dia 170 y desviación estándar 8. Note que estas pueden ser muestras de estaturas de
individuos. Veamos si los datos generados realmente provienen de una normal.

x=rnorm(100,170,8)
ks.test(x, "pnorm",170,8)

El resultado es el siguiente

One-sample Kolmogorov-Smirnov test

data: x
D = 0.07986, p-value = 0.5464
alternative hypothesis: two-sided

En este caso, no rechazamos la hipótesis de normalidad a un nivel α = 0.05.

Cuando no conocemos los parámetros de la distribución con la que deseamos contrastar,


podemos usar en R la función fitdistr. Esta función ajusta los datos vía máxima
verosimilitud a una distribución univariada, entre ellas tenemos las distribuciones: beta,
cauchy, chi-cuadrado, exponencial, f, gamma, geométrica, log-normal, logística, bino-
mial negativa, normal, Poisson, t, y weibull.

Para nuestros datos, si aplicamos esta función al vector de observaciones X, tenemos:

fitdistr(x,"normal")
mean sd
170.4975042 8.5821661
( 0.8582166) ( 0.6068508)

Podemos notar que los parámetros estimados son muy cercanos a los reales.
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 111

Test de Shapiro-Wilk

Este test se usa para contrastar normalidad de un conjunto de datos. Ésta es una
alternativa más potente que la prueba de Kolmogorov-Smirnov.
Ejemplo: Suponga los datos del ejemplo donde se mide las concentraciones de cortisol
en dos grupos de mujeres antes de dar a luz. Recuerde que al grupo 1 se le practicó una
operación cesárea de urgencias después de inducido el parto. Las del grupo 2, dieron
a luz mediante operación cesárea o vía vaginal después de presentarse el trabajo de
parto expontáneamente. Verifiquemos normalidad en estos conjuntos de datos usando
α = 0.05.

grupo1=c(411,466,432,409,381,363,449,483,438,381)
grupo2=c(584,553,516,688,650,590,574,700,831,688,478,689)

Solución!
Las instrucciones son las siguientes

shapiro.test(grupo1)
shapiro.test(grupo2)

Los resultados son los siguientes

Shapiro-Wilk normality test

data: grupo1
W = 0.96658, p-value = 0.8575

Shapiro-Wilk normality test

data: grupo2
W = 0.95245, p-value = 0.673

Con nivel α = 0.05, no rechazamos la normalidad en ambos conjuntos de datos.

Test de Mann-Whitney

La prueba U de Whitney, también llamada de Mann-Whitney-Wilcoxon, prueba de


suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney, es una prueba no
paramétrica con la cual se identifican diferencias entre dos poblaciones basadas en el
análisis de dos muestras independientes. Es la versión no paramétrica del test t-Student
de diferencias de medias.

En R usamos la función
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 112

wilcox.test(x, ...)

Esta función lleva a cabo un test de Wilcoxon para una y dos muestras sobre vectores
de datos.

Ejemplo: Usemos el ejemplo que aparece en el help de R. Los datos corresponden a


constantes de permeabilidad de la membrana chorioamnion en humanos (una membrana
placentaria) medida a las 12 y 26 semanas de edad gestacional. Usaremos α = 0.05 para
chequear la alternativa, mayor permeabilidad de la membrana chorioamnion para el ini-
cio del embarazo. Asuma que los datos no provienen de poblaciones normales.

Solución!
Los datos son los siguientes

x=c(0.80, 0.83, 1.89, 1.04, 1.45, 1.38, 1.91, 1.64, 0.73, 1.46)
y=c(1.15, 0.88, 0.90, 0.74, 1.21)

El procedimiento es el siguiente

wilcox.test(x,y, alternative = "g")

Tenemos el siguiente resultado

Wilcoxon rank sum test

data: x and y
W = 35, p-value = 0.1272
alternative hypothesis: true location shift is greater than 0

Como p−valor no es menor que 0.05, no rechazamos H0 . Es decir, No hay evidencia su-
ficiente para asumir que la constante de permeabilidad sea mayor al inicio del embarazo.

Si tenemos muestras pareadas, pequeñas y no normales, el procedimiento es similar.


Únicamente hay que especificar el pareo en la función wilcox.test.

Ejemplo: Usemos el ejemplo que aparece en el help de R. Los datos corresponden a


medidas de factor de escala de depresión de Hamilton en 9 pacientes con ansiedad y
depresión mixta, tomada en la primera (x) y la segunda visita (y) después de la ini-
ciación de una terapia (administración de un tranquilizante). Asuma que los datos no
provienen de poblaciones normales. Use α = 0.05.

Solución!
Los datos son los siguientes
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 113

x=c(1.830,0.500,1.620,2.48,1.68,1.88,1.55,3.06,1.30)
y=c(0.878,0.647,0.598,2.05,1.06,1.29,1.06,3.14,1.29)

El procedimiento es el siguiente

wilcox.test(x,y,paired=TRUE,alternative="g")

Tenemos el siguiente resultado

Wilcoxon signed rank test

data: x and y
V = 40, p-value = 0.01953
alternative hypothesis: true location shift is greater than 0

Como p−valor es menor que 0.05, rechazamos H0 . Es decir, la terapia mejora los niveles
de depresión.

Test de independencia

Dos variables aleatorias X e Y son llamadas independientes si la distribución de prob-


abilidad de una de las variables no es afectada por la presencia de la otra.

Asuma que oij es la frecuencia observada de eventos que pertenecen a ambos, la i−ésima
categoría de X y la j−ésima categoría de Y . Además, suponga que eij son las corre-
spondientes frecuencias esperadas si X e Y son independientes. La hipótesis nula de
supuesto de independencia es rechazada si el p−valor obtenido es menor que en nivel
de significancia dado.
∑ (oij − eij )2
χ2 =
i,j
eij

Ejemplo: usaremos los datos de la base survey de la librería MASS de R, que corre-
sponden a 237 observaciones provenientes de una encuesta a estudiantes de estadística
de una Universidad en Australia.

Tenemos dos variables de interés, FUMA (Smoke) con los niveles: Heavy, Regul, Occas
y Never, y la variable EJERCICIO (Exer) con los niveles: Freq, Some, y None.

library(MASS)
tbl=table(survey$Smoke, survey$Exer)
tbl
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 114

Debemos chequear si el hábito de fumar es independiente del nivel de ejercicios de los


estudiantes usando α = 0.05.

Solución!
En R, aplicamos la siguiente función.

chisq.test(tbl)

El resultado es el siguiente.

Pearson’s Chi-squared test

data: tbl
X-squared = 5.4885, df = 6, p-value = 0.4828

Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect

Note que nos aparece un mensaje de alerta. Esto es debido a que en algunas celdas las
frecuencias son muy pequeñas. Podemos solucionar esto agrupando algunas columnas.
Por ejemplo:

ctbl = cbind(tbl[,"Freq"], tbl[,"None"] + tbl[,"Some"])


ctbl

Ahora, realizando nuevamente la prueba, tenemos:

chisq.test(ctbl)

Pearson’s Chi-squared test

data: ctbl
X-squared = 3.2328, df = 3, p-value = 0.3571

No se rechaza H0 : Independencia, a un nivel α = 0.05. Por lo que podemos concluir


que el hábito de fumar entre los estudiantes es independiente del nivel de ejercicios de
los mismos.
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 115

Test exacto de Fisher

El test exacto de Fisher es una prueba de significancia estadística muy usada cuando las
frecuencias observadas son muy pequeñas. Se usa en el análisis de tablas de contingen-
cia en vez de usar el test chi-cuadrado. El test calcula todas las posibles combinaciones
de los N valores en la tabla, creando una distribución de posibles valores, y calculando
cuán extremos son los datos observados respecto a la distribución exacta, es decir, cuán
extrema es la tabla observada.

En R usamos la función fisher.test para llevar a cabo la prueba. Realizaremos la


prueba con la tabla de contingencia del ejemplo anterior.

fisher.test(tbl)

El resultado es el siguiente

Fisher’s Exact Test for Count Data

data: tbl
p-value = 0.4138
alternative hypothesis: two.sided

A un nivel α = 0.05, no rechazamos la hipótesis de independencia. Por tanto, cor-


roboramos que el hábito de fumar entre los estudiantes es independiente del nivel de
ejercicios de los mismos.
Capítulo 5

Introducción al Análisis de Regresión

El análisis de regresión es usado para explicar o modelar la relación entre una variable
Y , llamada respuesta o variable dependiente, y uno o más predictores, variables inde-
pendientes o explicativas, X1 , . . . , Xp . Cuando p = 1 es llamado regresión simple, pero
cuando p > 1 el modelo es llamado regresión múltiple o en algunos casos regresión multi-
variada. Cuando hay más de un Y , entonces es llamado Regresión múltiple multivariada.

El análisis de regresión tiene diferentes objetivos, entre ellos tenemos:

Predicción de observaciones futuras.


Evaluación del efecto de, o relación entre, variables explicativas y variable re-
spuesta.

Una descripción general de la estructura de los datos.

5.0.13. Correlación lineal

El análisis de correlación permite cuantificar el grado de asociación lineal entre variables


continuas, indica la fuerza y dirección de la relación lineal entre dos o más variables. La
presencia de correlación entre las variables indica la posibilidad de construir un modelo
de regresión.

Existen diferentes tipos de correlación, la correlación simple, la correlación múltiple y


la correlación parcial. Utilizaremos la correlación simple cuando contemos con una sola
variable predictora para explicar una respuesta, y los coeficientes de correlación parcial
y múltiple cuando se tienen varios predictores.

La siguiente figura muestra algunos ejemplos de diagramas de dispersión. Por medio de


este diagrama podemos verificar la existencia y la dirección de la correlación entre las

116
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 117

variables.

Cuanta mayor correlación haya entre dos variables en la representación de un diagrama


de dispersión, más próximos a la recta estarán los valores.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 118

5.0

2.0
4.0

1.0
y

y
3.0

0.0
2.0

−1.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x

20
10

15
8

10
6
y

y
4

5
2

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x

Figura 5.1: Diagramas de dispersión

Correlación lineal simple

Es importante detectar si las variables en estudio están relacionadas linealmente, y


conocer cuál es la dirección de dicha asociación.

La relación puede ser lineal positiva, es decir, entre más aumente los valores de una de
las variables, la otra también aumentará. Si la relación es lineal negativa, ocurre que
entre más aumenta los valores de una de ellas, la otra disminuirá.

Luego de visualizar la relación entre las variables, una buena manera de cuantificarla
es mediante la covarianza
∑n
i=1 (xi − x) (yi − y)
Cov(X, Y ) = ,
N −1

donde N es el número de observaciones.


CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 119

Sin embargo, la covarianza no es una medida útil para comparar el grado de asociación
lineal entre distintos pares de variables, ya que depende de las escalas de medida de las
variables. La solución está en estandarizarla y es de aquí donde surgen los coeficientes
de correlación.

Existen diferentes coeficientes de correlación, por ejemplo, coeficiente de Pearson (r),


Rho de Spearman (rs ) y la Tau de Kendall (τ ).

Note lo siguiente:

Todos los coeficientes varían entre −1 y 1. Si el valor del coeficiente es cercano a


−1, decimos que hay una correlación negativa entre las variables; si el coeficiente
es cercano a 1, decimos que las variables están correlacionadas positivamente; y
si el coeficiente es cercano a 0, decimos que no hay correlación entre las variables.

Se utilizan como una medida de la fuerza de asociación: valores ±0.1 representan


pequeñas asociación, ±0.3 asociación mediana, ±0.5 asociación moderada, ±0.7
gran asociación y ±0.9 asociación muy alta.

Por otro lado,

La correlación de Pearson funciona bien con variables cuantitativas que se dis-


tribuyan normal.

La correlación de Spearman se utiliza para datos ordinales o de intervalo que no


satisfacen la condición de normalidad. (usualmente tiene valores muy parecidos a
la de Pearson).

La correlación de Kendall es una medida no paramétrica para el estudio de la


correlación. Debemos utilizar este coeficiente en vez de la de Spearman cuando
tengamos un conjunto de datos pequeño y muchas puntuaciones estén en el mismo
nivel.

Coeficiente de Pearson
∑n
(xi − x) (yi − y)
r = √∑ i=1
2 ∑n
i=1 (xi − x) i=1 (yi − y)
n 2

Coeficiente de Spearman ∑
6 d2
rs = 1 − ,
n(n2 − 1)
donde d es la distancia entre los rangos (X menos Y ) y n es el total de datos.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 120

Coeficiente de Kendall
C −D
τ= ,
1
2
− 1)
n(n
donde C es el número de pares concordantes, aquellos en los que el rango de la segunda
variable es mayor que el rango de la primera variable, y D el número de pares dis-
cordantes, cuando el rango de la segunda es igual o menor que el rango de la primera
variable.

En R calculamos la covarianza con la función

cov(x, y = NULL, use = "everything",


method = c("pearson", "kendall", "spearman"))

Además, los anteriores coeficientes de correlación se obtienen con la función

cor(x, y = NULL, use = "everything",


method = c("pearson", "kendall", "spearman"))

Las cuales calculan respectivamente la covarianza y la correlación de los vectores X y


Y . Si X e Y son matrices, entonces la función calcula las covarianzas o correlaciones
entre las columnas de X y las columnas de Y .

Podemos chequear la significancia de la correlación a través del siguiente juego de


hipótesis.

H0 : r = 0 vs Ha : r ̸= 0

En R usamos la función cor.test() para estudiar la significación estadística del coe-


ficiente y concluir sobre la posible existencia de relación lineal entre las variables.

Ejemplo: usaremos la base de datos gene.datos la cual contiene 18 mediciones


de expresión medidos durante un tiempo, de dos genes en las mismas condiciones de
tratamiento. Veamos si hay correlación entre los dos genes estudiados.

Solución! Hacemos la lectura de los datos

datos=read.table(file.choose(),header=T) # buscamos el archivo gene.datos


datos
attach(datos)

Veamos el gráfico de dispersión de estas dos variables


CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 121

plot(gene1,gene2)

1.0
0.5
gene2
0.0
−0.5
−1.0

−1.0 −0.5 0.0 0.5


gene1

Con el gráfico parece haber una correlación lineal entre las variables. Usemos la función
cor.test para calcular la correlación de Pearson (por defecto), y chequear la signifi-
cancia de la misma.

cor.test(gene1,gene2)

El resultado es el siguiente

Pearson’s product-moment correlation

data: gene1 and gene2


t = 7.5105, df = 16, p-value = 1.246e-06
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7071560 0.9556856
sample estimates:
cor
0.8826268

Notamos que r = 0.883, lo que nos indica una correlación positiva y fuerte entre los dos
genes. Además, como p−valor es menor que 0.05, podemos decir que esta correlación
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 122

es significativamente diferente de cero con un nivel α = 0.05.

De igual forma, podemos chequear la correlación de Spearman. La instrucción es la


siguiente

cor.test(gene1,gene2,method="spearman")

Tenemos lo siguiente

Spearman’s rank correlation rho

data: gene1 and gene2


S = 192, p-value = 8.498e-05
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.8018576

Aquí, la correlación es rs = 0.802 y p−valor es menor que 0.05. Los que nos indica
asociación lineal entre las expresiones de los dos genes a un nivel α = 0.05.

Correlación parcial
La correlación parcial es una correlación entre dos variables en la que se controla el
efecto de otras variables auxiliares que pueden modificar la verdadera relación entre las
dos primeras.

La correlación parcial es entonces un coeficiente que nos da una idea sobre la relación
lineal existente entre dos variables pero ajustada a los efectos lineales que sobre las
mismas puedan tener otra o más variables que intervengan. En R usaremos la función
pcor() del paquete ppcor.

Ejemplo: usaremos los siguientes datos del Help de R.


CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 123

y.data=data.frame(
hl=c(7,15,19,15,21,22,57,15,20,18),
disp=c(0.000,0.964,0.000,0.000,0.921,0.000,0.000,1.006,0.000,1.011),
deg=c(9,2,3,4,1,3,1,3,6,1),
BC=c(1.78e-02,1.05e-06,1.37e-05,7.18e-03,0.00e+00,0.00e+00,0.00e+00,
4.48e-03,2.10e-06,0.00e+00)
)

Ahora, veamos la matriz de correlación parcial de estas variables usando el coeficiente


de Pearson.

pcor(y.data)

El resultado es el siguiente

$estimate
hl disp deg BC
hl 1.0000000 -0.6720863 -0.6161163 0.1148459
disp -0.6720863 1.0000000 -0.7215522 0.2855420
deg -0.6161163 -0.7215522 1.0000000 0.6940953
BC 0.1148459 0.2855420 0.6940953 1.0000000

$p.value
hl disp deg BC
hl 0.00000000 0.06789202 0.10383620 0.78654997
disp 0.06789202 0.00000000 0.04332869 0.49299871
deg 0.10383620 0.04332869 0.00000000 0.05615021
BC 0.78654997 0.49299871 0.05615021 0.00000000

$statistic
hl disp deg BC
hl 0.0000000 -2.2232666 -1.916030 0.2831875
disp -2.2232666 0.0000000 -2.552768 0.7298173
deg -1.9160295 -2.5527682 0.000000 2.3617433
BC 0.2831875 0.7298173 2.361743 0.0000000

$n
[1] 10

$gp
[1] 2

$method
[1] "pearson"
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 124

5.0.14. Modelo lineal

Si tenemos tres variables explicativas X1 , X2 , X3 , el modelo es expresado de la siguiente


forma.
Y = β0 + β1 X1 + β2 X2 + β3 X3 + ε
donde βi , i = 0, 1, 2, 3 son parámetros desconocidos. β0 es llamado intercepto. Así, el
problema de regresión se reduce a la estimación de los parámetros.

Inicialmente nos ocuparemos del modelo de regresión lineal simple, donde la respuesta
Y se relaciona linealmente con la variable independiente X a través de la ecuación

Y = β0 + β1 X + ε (5.1)

donde β0 y β1 son el intercepto y la pendiente de la recta respectivamente, y ε es una


variable aleatoria que se supone está distribuida con E[ε] = 0 y V [ε] = σ 2 . Además, los
εi son no-correlacionados, es decir que, Cov[εi ; εj ] = 0; ∀(i, j); i ̸= j; i = 1, . . . n. Por
su parte, σ 2 se conoce como varianza del error o varianza residual.

Note que en un modelo lineal los parámetros entran linealmente, los predictores no
tienen que ser lineales. Por ejemplo,

Y = β0 + β1 log X + ε

es lineal, pero

Y = β0 + β1 X β2 + ε
no es lineal.

La respuesta media en cualquier valor fijo de la variable regresora será:

E[Y |X = x] = µy|x
= E[β0 + β1 X + ε]
= β0 + β1 X + E[ε]
= β0 + β1 X.

La varianza de Y para cualquier valor de X es:


CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 125

V [Y |X = x] = σy|x
2

= V [β0 + β1 X + ε]
= V [ε]
= σ2.

De aquí, la verdadera recta de regresión es:

µy|x = β0 + β1 X.

Esta es una línea recta de valores promedios, es decir, la altura de la línea de regresión
en cualquier valor de X no es más que el valor esperado de Y para ese valor de X.

La pendiente β1 es el cambio de la media de Y por una cambio unitario de X. Además,


la variabilidad de Y en cualquier valor particular de X queda determinada por la vari-
anza del componente de error aleatorio del modelo ε, es decir, por σ 2 .

Esto implica que hay una distribución de valores de Y en cada valor de X y que la
varianza de dicha distribución es igual en cada valor de X.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 126

Algunas características del modelo de regresión lineal

La respuesta Yi en el i-ésimo ensayo o prueba, es la suma de dos términos, a saber:


un término constante, β0 + β1 Xi y un término aleatorio, εi .

Como E[εi ] = 0, entonces se tiene que, E[Y i] = β0 + β1 Xi (constante), por lo


que, la respuesta Yi cuando el nivel de X es Xi , viene de una distribución de
probabilidad cuya media es: E[Y i] = β0 + β1 Xi , y por lo tanto la función de
regresión del modelo es: E[Y ] = β0 + β1 X
debido a que la función de regresión relaciona la media de la distribución de
probabilidad de Y para X dado a un nivel.

La respuesta Yi en el i-ésimo nivel de X, excede o cae cerca del valor de la función


de regresión, por una cantidad de tamaño εi .

Los εi , se asumen que tienen varianza constante σ 2 , por lo tanto, se sigue que
la respuesta Yi tiene la misma varianza, es decir, V ar[Y i] = σ 2 . De donde el
modelo (5.1), asume que la distribución de probabilidad de la variable respuesta Y
tiene la misma varianza constante σ 2 , independientemente del valor de la variable
predictora X.

Los términos de error εi , se asume que son no-correlacionados, es decir, la entrada


en cualquier nivel de X, no tiene efecto sobre el término de error de cualquier
otro nivel.
Como εi y εj son no-correlacionados, también lo son Yi y Yj .

Estimación por mínimos cuadrados

Usualmente los parámetros del modelo son estimados usando mínimos cuadrados. Éste
minimiza la suma de cuadrados de los errores del modelo de regresión. La estimación
por mínimos cuadrados es una buena selección, pero si los errores están correlaciona-
dos o tienen varianzas diferentes, hay mejores alternativas. Incluso, si los errores no se
distribuyen normal, entonces estimadores sesgados o no lineales pueden funcionar mejor.

Situaciones a considerar

Cuando los errores están correlacionados o tienen varianzas diferentes, se debe


considerar Mínimos Cuadrados Generalizados.

Cuando la distribución de los errores es de cola larga, estimadores robustos son


recomendados.

Cuando los predictores son altamente correlacionados (colineales), estimadores


sesgados son recomendados.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 127

Dado un conjunto de observaciones o datos (X1 , Y1 ), . . . , (Xn , Yn ), se trata de hallar


valores apropiados de β0 y β1 , que se ajusten lo mejor posible a este conjunto de datos.

El método de mínimos cuadrados ordinario (ordinary least squares method (OLS)),


considera la desviación de Yi a su valor esperado, es decir,

Yi − (β0 + β1 Xi ).

Para hallar a β0 y β1 , se considera la suma de las n-desviaciones al cuadrado, denotada


por,

n
Q(β0 , β1 ) = [Yi − (β0 + β1 Xi )]2 .
i=1

Las estimaciones de β0 y β1 , son aquellos valores βb0 y βb1 , que minimizan la cantidad Q
para las observaciones muestrales (X1 , Y1 ), . . . , (Xn , Yn ).

Para hallar βb0 y βb1 , se pueden usar procesos de búsqueda numérica, hasta hallar valores
de β0 y β1 que minimicen a Q, o bien, mediante procesos analíticos, cuando el modelo
de regresión propuesto no es tan complejo matemáticamente.

Mediante un acercamiento analítico, se tiene que derivando parcialmente la cantidad Q


con respecto a β0 y β1 e igualando a cero, se obtienen las siguientes ecuaciones, también
llamadas Ecuaciones Normales:

n ∑
n
Yi = nβb0 + βb1 Xi ,
i=1 i=1


n ∑
n ∑
n
Xi Yi = βb0 Xi + βb1 Xi2 ,
i=1 i=1 i=1

y resolviendo simultáneamente las ecuaciones anteriores, para βb0 y βb1 , se obtienen los
estimadores de mínimos cuadrados ordinario:

βb0 = Ȳ − βb1 X̄,


(Xi − X̄)(Yi − Ȳ )
βb1 = ∑
(Xi − X̄)2
Sxy
=
Sxx
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 128

A las cantidades, Sxx y Sxy se les llama: suma corregida de cuadrados de X y suma
corregida de productos cruzados de X e Y , respectivamente.

El modelo de regresión lineal simple ajustado es:

ŷ = βb0 + βb1 X,

el cual representa una estimación de la media de Y para un valor específico de X, es


decir:
\
ŷ = βb0 + βb1 X ⇐⇒ E(Y |X) = βb0 + βb1 X.

Residuales

Se llama residual a la diferencia entre el valor observado yi y su valor estimado, ŷi , es


decir,

ei = yi − ŷi = yi − (βb0 + βb1 xi ).

Para i = 1, . . . , n.

NOTA: Es importante notar la diferencia entre los residuos , ei , y los errores del mod-
elo conceptual, εi . Note que los ei son observados y juegan un papel importante en la
validación de los supuestos de un modelo de regresión, pero los εi no son observados.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 129

Consideraciones adicionales

Bajo las condiciones del modelo de regresión lineal simple, los estimadores obtenidos
mediante OLS β0 y β1 son insesgados y tienen mínima varianza.

La suma de residuales en cualquier modelo


∑ de∑regresión que contiene un intercepto
β0 es siempre igual a cero, es decir, ei = (yi − ŷi ) = 0.

La suma∑ de valores
∑ observados yi es igual a la suma de valores ajustados ŷi , es
decir; yi = ŷi .

La línea de regresión de mínimos cuadrados, siempre pasa a través del centroide


de los datos, es decir, a través de (x̄ , ȳ).

La suma de residuales ∑ ponderada por los correspondientes valores de las xi , es


siempre cero, es decir, xi ei = 0.

La suma de residuales
∑ por los correspondientes valores ajustados de yi , es siempre
cero, es decir, ŷi ei = 0.

Supuestos del modelo


Para cada xi , valor fijo de X, se cumple la ecuación yi = β0 + β1 xi + εi , donde β0 y β1
son constantes desconocidas. Las hipótesis básicas del modelo son:

Incorrelación de los residuos cor(εi , εj ) = 0. Cualquier par de errores εi y εj son


independientes.

Media cero de los residuos E (εi ) = 0.

Varianza constante de los residuos V ar (εi ) = σ 2 .

Normalidad de los residuos N (0, σ 2 ).

Como consecuencia:

Para cada valor xi de la variable aleatoria X,

(Y | X = xi ) ∼ N (β0 + β1 xi , σ 2 ).

Las observaciones yi de la variable Y son independientes.

Tamaño del efecto

El coeficiente de determinación R2 es una medida de la proporción de la variabilidad


explicada por el modelo ajustado. Con esta medida podemos saber cuánto de la vari-
abilidad de Y es explicada por las X. Esta medida resulta de elevar al cuadrado el
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 130

coeficiente de correlación de Pearson.

NOTA: el coeficiente de determinación tiende a aumentar a medida que aumenta el


número de variables predictoras en el modelo, por tanto, es necesario en estos casos cal-
cular el tamaño del efecto mediante el coeficiente de determinación ajustado o corregido
(R̄2 ) el cual mide el porcentaje de variación de la variable dependiente, pero teniendo
en cuenta el número de variables incluidas en el modelo.
n−1
R̄2 = 1 − [1 − R2 ],
n−k−1
donde n es el tamaño de la muestra y k el número de variables explicativas.

Inferencia

Estimación de σ 2

La varianza de los términos de error εi , es decir, V [εi ] = σ 2 , en un modelo de regresión


lineal simple necesita ser estimada para obtener una indicación de la variabilidad de las
distribuciones de probabilidad de Y para los distintos valores de X.

Además, es necesaria para hacer inferencias acerca de la función de regresión y para


hacer predicciones acerca de los valores de la respuesta Y .

Al igual que la varianza muestral S 2 , como estimador de σ 2 en una población, en el caso


del modelo de regresión lineal simple, se calcula la suma de cuadrados de las desviaciones
[i ]; ahora cada yi proviene de una
de yi alrededor de su propia media estimada, ŷi = E[ŷ
distribución de probabilidad distinta con medias diferentes que dependen del nivel de
X, es decir de Xi . En este caso la suma de cuadrados apropiada es:

n ∑
n
SSE = (yi − ŷi )2 = e2i ,
i=1 i=1

llamada suma cuadrática de errores (o residuales).

La SSE tiene asociada n − 2 grados de libertad (gl), pues se pierden 2 (gl) al estimar
a β̂0 y a βb1 , para obtener a ŷi . De lo anterior se obtiene que la media cuadrática de
errores apropiada es:

n ∑
n
(yi − ŷi )2 e2i
SSE i=1 i=1
M SE = = = .
n−2 n−2 n−2
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 131

Se puede demostrar que MSE, es un estimador insesgado de σ 2 para el modelo de RLS,


es decir que,

σ̂ 2 = M SE,

y además,

E(M SE) = σ.

Inferencia para los parámetros del modelo

Para hacer inferencia acerca de los parámetros del modelo de regresión lineal simple,
es necesario suponer que los errores del modelo εi siguen o tienen una distribución
normal. Con esta suposición adicional, se tiene el llamado modelo de regresión lineal
simple (RLS) normal (o modelo de RLS con errores normal), definido como:

yi = β0 + β1 xi + εi , (5.2)

con los supuesto: εi i.i.d. ∼ N (0, σ 2 ).

De lo anterior se sigue que las Yi′ s, son variables aleatorias independientes distribuidas
normales con media E[Yi ] = β0 + β1 Xi y varianza V ar[Yi ] = σ 2 , es decir,

Yi |Xi i.i.d. ∼ N (β0 + β1 Xi , σ 2 )

Inferencia para β1

Cuando hablamos de distribución muestral de βb1 , nos referimos a los diferentes valores
que βb1 podría tomar a partir de muestreos repetidos, con los niveles de la variable
regresora X constantes de muestra a muestra.
Como βb1 es combinación lineal de las Yi′ s y las Yi′ s son normalmente distribuidas,

entonces la distribución muestral de βb1 también es normal con media E[βb1 ] = β1 y


varianza dada por: V ar[βb1 ] = Sσxx , así,
2

( )
σ2 βb1 − β1
βb1 ∼ N β1 , σβ2b1 = =⇒ √ ∼ N (0, 1)
Sxx
V ar[βb1 ]

Una estimación de la varianza muestral de βb1 , es decir, una estimación para V ar[βb1 ],
está dada por:
\ b2
σ
V ar[βb1 ] = = Sβ2b1 , (5.3)
Sxx
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 132

luego, se tiene que la estadística estudentizada,

βb − β1 βb1 − β1
√1 = ∼ tn−2
\ b Sβb1
V ar[β1 ]

I.C para β1
De lo anterior, se tiene que
[ ]
1 − α = P βb1 − t(1−α/2,n−2) Sβb1 ≤ β1 ≤ βb1 + t(1−α/2,n−2) Sβb1

Ahora, un I.C del (1 − α) % para β1 es:



M SE
βb1 ± t(1−α/2,n−2)
Sxx

Test de hipótesis para β1

Un test t importante sobre la pendiente es el siguiente

H0 : β1 = 0 vs Ha : β1 ̸= 0

El estadístico de prueba es el siguiente

βb1
Tc = √ ,
M SE
Sxx

y cuya regla de decisión con dicha estadística de prueba es:


rechazo H0 si |tc | > t(1−α/2;n−2) .

El no rechazar H0 sugiere que no hay relación lineal entre Y y x.


CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 133

Inferencia para β0

Igual que para el caso de βb1 , βb0 también es combinación lineal de las Yi′ s y por tanto
también tiene distribución normal con media y varianza como sigue:
( )
βb0 ∼ N β0 , V ar[βb0 ] ,

con varianza dada por:


[ ]
1 X̄ 2
V ar[βb0 ] = σ 2
+ ,
n Sxx
y la estimación de dicha varianza está dada por:
[ 2
]
\ 1 X̄
V ar[βb0 ] = M SE + = Sβ2b0
n Sxx

I.C para β0

De lo anterior, se tiene que la estadística estudentizada,

βb0 − β0
∼ tn−2 ,
Sβb0

y un I.C del (1 − α) % para β0 es:


√ [ ]
1 X̄ 2
βb0 ± t(1−α/2,n−2) M SE + ,
n Sxx

Test de hipótesis para β0

Un test t importante sobre la pendiente es el siguiente

H0 : β0 = 0 vs Ha : β0 ̸= 0

El estadístico de prueba es el siguiente

βb0
Tc = √ [ ],
X̄ 2
M SE n1 + Sxx

y cuya regla de decisión con dicha estadística de prueba es:


rechazo H0 si |tc | > t(1−α/2;n−2) .
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 134

I.C para la respuesta media µy = E[Y ]

En problemas de análisis estadístico que involucran el ajuste de modelos de regresión,


un objetivo común es estimar la media para una o más distribuciones de probabilidades
de la variable respuesta Y .

Sea Xh : el nivel de la variable regresora X para el cual se desea estimar la respuesta


media. Xh , puede ser un valor que ha ocurrido en la muestra o puede ser algún otro
valor de la variable predictora dentro del alcance del modelo o rango de X.

La respuesta media cuando X = Xh se denota por:

µy = E[Yh ] = β0 + β1 Xh .

Un estimador puntual de dicha respuesta media es:


\
cy = E[Y
µ b b
h ] = β0 + β1 Xh .

Distribución muestral de Ybh

La distribución muestral de Ybh es normal con los siguientes parámetros:

Ybh = βb0 + βb1 Xh ∼ N (E[Ybh ], V ar[Ybh ]),

en donde,

E[Ybh ] = E[βb0 + βb1 Xh ] = β0 + β1 Xh

y
[ ]
b b b 2 1 (Xh − X̄)2
V ar[Yh ] = V ar[β0 + β1 Xh ] = σ +
n Sxx

Ahora tenemos la distribución muestral de la siguiente variable estudentizada

Ybh − µyh
∼ t(n−2) , con
SYbh

√ [ ]
1 (Xh − X̄)2
SYbh = M SE +
n Sxx

de donde un I.C del (1 − α) % para µyh = E[Ybh ] es:

Ybh ± t(1−α/2;n−2) SYbh


CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 135

Predicción e intervalo de predicción (I.P) para nuevas observaciones Ynew

Ahora se considera la predicción de una nueva observación Ynew que corresponde a un


nivel dado de X. Sea Xh el nivel de la variable regresora X en la nueva prueba o ensayo
a realizar y sea Yh(new) la nueva observación asociada a Xh .

Observación: La diferencia entre la estimación de la respuesta media µY = E[Yh ] y


la predicción de una nueva observación para el nivel Xh de X, es que, en la primera se
estima la respuesta media de la distribución de Y dado X = Xh , es decir se estima a un
parámetro de una distribución de probabilidad; mientras que en la segunda, se predice
una salida (o resultado) individual de la distribución de Y dado X = Xh , es decir se
estima el valor de una variable aleatoria.

Un I.P del (1 − α) % para Yh(new) es:



Ybh ± t(1−α/2;n−2) V\
ar[ψh ]

donde V ar[ψh ] = V ar[Yh − Ybh ] es:


[ ]
\ 1 (Xh − X̄)2
V ar[ψh ] = M SE 1 + +
n Sxx

Al compara este I.P con el I.C para la respuesta media, se observa que el I.P es siempre
más ancho que el I.C para la respuesta media E[Y ] en X = Xh , esto debido a que el I.P
depende tanto del error del modelo como del error asociado a las observaciones futuras.

Análisis de varianza en modelos de RLS

Ahora se considera el modelo de regresión desde la perspectiva del análisis de varianza,


lo cual es importante para el análisis del modelo de regresión lineal múltiple (RLM) y
otros tipos de modelos estadísticos.

Partición de la suma total de cuadrados

El acercamiento del análisis de varianza se basa en la partición de sumas de cuadrados


y sus grados de libertad asociados con la variable respuesta Y .

La medida de variación de Y alrededor de su media muestral Ȳ es:



n
SST = (Yi − Ȳ )2 ,
i=1
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 136

la cual se le llama suma total de cuadrados. Si todas las observaciones Yi son iguales
entonces la SST = 0. Entre más variación exista entre las Yi′ s, mayor será la SST.

Cuando se usa la variable predictora o regresora X, la variación que refleja la incertidum-


bre con respecto a la variable Y está dada por las diferencias entre las observaciones
Yi′ s y la línea de regresión ajustada Ŷi , es decir, por Yi − Ŷi .

La medida de variación presente en las observaciones Yi′ s cuando se tiene en cuenta


la variable regresora X, es la suma de desviaciones al cuadrado, la cual se denota por
SSE y está dada por:


n
SSE = (Yi − Ŷi )2 ,
i=1

y a la cual se le llama, suma cuadrática de errores. Si todas las Yi′ s caen sobre la línea de
regresión ajustada, entonces SSE = 0. Entre mayor es la variación de las Yi′ s alrededor
de la línea de regresión ajustada, mayor es la SSE.

A la diferencia entre la SST y la SSE se le llama, suma cuadrática de regresión y se


denota por, SSR y est definida por:

n
SSR = (Ŷi − Ȳ )2
i=1

La SSR es una medida de la parte de la variabilidad de las Yi′ s, la cual está asociada
con la línea de regresión ajustada.

De lo anterior, se obtiene la identidad fundamental del análisis de varianza, la cual está


dada por:
SST = SSR + SSE

Aquí,

SST: Variabilidad muestral total y tiene n − 1 grados de libertad,

SSR: Variabilidad explicada por el modelo o por las variables regresoras X y tiene 1
grado de libertad,

SSE: Variabilidad no explicada por el modelo o error y tiene n − 2 grados de libertad.


CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 137

Medias cuadráticas o cuadrados medios

Las medias cuadráticas se obtienen como las SS divididas por sus respectivos grados de
libertad, es decir que

SST
M ST = n−1
: Cuadrado medio total,

SSR
M SR = 1
: Cuadrado medio de la regresión,

SSE
M SE = n−2
: Cuadrado medio del error.

Tabla resumen de análisis de varianza

Ahora se presenta la tabla resumen del análisis de varianza (o ANOVA) para el modelo
de RLS.

F.V G.L SS MS Est. F


Regresión 1 SSR MSR Fc = ∼ F(1,n−2)
M SR
M SE
Error n − 2 SSE MSE
Total n − 1 SST MST

Prueba de Significancia de la regresión

Para realizar la siguiente prueba de hipótesis, también llamada prueba de significancia


de la regresión, la hipótesis es la siguiente

H0 : β1 = 0 vs Ha : β1 ̸= 0,

se utiliza la siguiente estadística de prueba:


M SR
Fc = ∼ F(1,n−2)
M SE

La regla de decisión para la prueba de significancia de la regresión es:

Rechazar H0 si Fc > F(1,n−2) .

Si rechazamos H0 , es decir que existe una asociación lineal entre X y Y .


CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 138

Ejemplo: usaremos la base de datos gene.datos la cual contiene 18 mediciones de


expresión medidos durante un tiempo, de dos genes en las mismas condiciones de
tratamiento. Construyamos un modelo de regresión y hagamos inferencias sobre sus
parámetros.

Solución! Hacemos la lectura de los datos

datos=read.table(file.choose(),header=T) # buscamos el archivo gene.datos


datos
attach(datos)

Ahora, usamos las funciones lm() y anova() de R para estimar los parámetros del
modelo y hacer un poco de inferencia sobre los mismos y sobre el modelo en general.

modelo=lm(gene2~gene1)
summary(modelo)
anova(modelo)

Los resultados son los siguientes:

Call:
lm(formula = gene2 ~ gene1)

Residuals:
Min 1Q Median 3Q Max
-0.3811 -0.2196 -0.0084 0.1492 0.7595

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.05541 0.07330 -0.756 0.461
gene1 0.97070 0.12925 7.511 1.25e-06 ***
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

Residual standard error: 0.311 on 16 degrees of freedom


Multiple R-squared: 0.779, Adjusted R-squared: 0.7652
F-statistic: 56.41 on 1 and 16 DF, p-value: 1.246e-06

y del análisis de varianza tenemos:

Analysis of Variance Table

Response: gene2
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 139

Df Sum Sq Mean Sq F value Pr(>F)


gene1 1 5.4542 5.4542 56.408 1.246e-06 ***
Residuals 16 1.5471 0.0967
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

Podemos notar que β1 es estadísticamente significativo en el modelo. Es decir, a un


nivel α = 0.05, rechazamos H0 y podemos asumir linealidad entre X e Y . De igual
forma, el modelo en conjunto es significativo.

plot(gene1,gene2)
abline(modelo)
segments(gene1,fitted(modelo),gene1,gene2,lty=2)
title("Modelo ajustado con los segmentos de linea de residuales")

Modelo ajustado con los segmentos de linea de residuales


1.0
0.5
gene2
0.0
−0.5
−1.0

−1.0 −0.5 0.0 0.5


gene1

Ahora calculemos un intervalo de confianza para los parámetros del modelo. En R


hacemos los siguiente:

confint(modelo)

El resultado se muestra a continuación


CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 140

2.5 % 97.5 %
(Intercept) -0.2107882 0.09997012
gene1 0.6967126 1.24468796

Con lo anterior podemos notar la no significancia de β0 en el modelo y la significancia


de β1 a un nivel α = 0.05.

Los intervalos de confianza para la respuesta media y los intervalos de predicción para
la respuesta se pueden obtener usando el comando predict. Por ejemplo, el siguiente
código calcula y representa los dos tipos de intervalos.

gen1<-gene1[order(gene1)]
# Estimación respuesta media y predicciones para ciertos valores del gen1
pred.m<-predict(modelo,interval="confidence")
pred.p<-predict(modelo,interval="prediction")
# I.C para respuesta media e I.P (predicciones)
interval.pred<-pred.p[order(gene1),]
interval.conf<-pred.m[order(gene1),]
matriz<-as.matrix(cbind(gen1,interval.conf,interval.pred[,-1]))
matplot(matriz[,1],matriz[,-1],type="l",lty=c(1,2,2,3,3),lwd=2,
xlab= "Gen 1",ylab="Gen 2",col=c(1,2,2,4,4),main="Recta de regresión
con intervalos de confianza y de predicción del 95%",cex.main=1)
points(datos,type="p",pch=19)
legend(locator(1),c("Recta ajustada","Interv.Conf","interv.Pred"),
col=c(1,2,4),bty="n",lty=1:3,cex=0.8,lwd=2)
#Hacer click sobre gráfico resultante, donde se desea colocar
#leyenda de las líneas
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 141

Recta de regresión con intervalos de confianza y de


predicción del 95%

1.5
1.0
0.5
0.0
Gen 2

−0.5
−1.0

Recta
ajustada
−1.5

Interv.Conf
interv.Pred

−1.0 −0.5 0.0 0.5

Gen 1

Figura 5.2: Intervalo de confianza e intervalo de predicción

Diagnóstico gráfico del modelo: Luego de ajustar el modelo, y de validar la sig-


nificancia del mismo, se procede a realizar un diagnóstico del modelo para en verificar
si satisface las hipótesis básicas, las cuales son: linealidad entre las variables X e Y ;
para los errores del modelo, media cero, varianza constante, incorrelación, y normalidad.

El análisis de los residuos nos permitirá detectar deficiencias en la verificación de estas


hipótesis, así como descubrir observaciones anómalas o especialmente influyentes en el
ajuste.

Como primera herramienta diagnóstica del modelo, tenemos el qqplot, el cual nos per-
mite verificar la normalidad de los errores. Si es cierta la normalidad de los residuos,
los puntos deben estar alineados con la diagonal.

Una segunda herramienta importante es el gráfico de los residuos versus los valores
ajustados. Si los residuos están distribuidos alrededor del cero y el gráfico no presenta
ninguna tendencia, entonces el modelo se considera adecuado. Note que si se observa
una tendencia, estaríamos violando el supuesto de linealidad (lo cual sugiere alguna
transformación), y si se observa una nube de puntos en forma de embudo, podemos
tener problemas con el supuesto de homocedasticidad de varianzas.

El gráfico secuencial de residuos o el gráfico residuo versus el anterior, nos permite


chequear el supuesto de incorrelación entre los errores. Lo ideal es no observar tenden-
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 142

cias en este tipo de gráficos. De lo contrario, consideraremos usar modelos autocorrela-


cionados como los modelos de series de tiempo.

En R podemos usar la función plot() para chequear algunos supuestos del modelo.

plot(modelo)

Tenemos lo siguiente

Residuals vs Fitted Normal Q−Q


0.8

9 9

Standardized residuals
2
0.4
Residuals

18 18

1
0.0

0
−0.4

−1
16
16

−1.0 −0.5 0.0 0.5 −2 −1 0 1 2


Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage


3

9
1.5
Standardized residuals

9
Standardized residuals

1
2

16 18 0.5
18
1.0

1
0
0.5

−1

Cook’s distance 16
0.0

0.5

−1.0 −0.5 0.0 0.5 0.00 0.05 0.10 0.15 0.20 0.25
Fitted values Leverage

Los gráficos de la primera columna nos permiten validar los supuestos de media cero,
varianza constante y linealidad del modelo, aquí notamos que estos supuestos no son vi-
olados. Sabemos que el qqplot nos permite chequear normalidad de los errores, lo cual
se aprecia en el gráfico, pero hay indicaciones de algunas observaciones atípicas. Por
último, el gráfico de la parte inferior derecha permite detectar observaciones influyentes
en el modelo, por lo que podemos decir que posiblemente algunas observaciones pueden
estar influenciando en el modelo (observaciones 9, 18 y 16).

Ahora veamos el gráfico de los residuos versus el anterior.

library(MASS) # usamos la función stdres de la librería MASS


d=stdres(modelo) # Capturo los residuos
n<-length(d)
# Gráfico de d(i),d(i-1)
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 143

plot(d[1:(n-1)],d[2:n],xlab="Residuo i",ylab="Residuo i-1")


# Capturamos con una curva suavizada la tendencia:
lines(lowess(d[1:(n-1)],d[2:n]),col="red")

2
1
Residuo i−1
0
−1

−1 0 1 2
Residuo i

En este gráfico podemos apreciar que los errores no están correlacionados puesto que
no se observa una tendencia.

Linealización del modelo

Cuando falla la hipótesis de linealidad y quizá también la de homocedasticidad, una


solución sencilla y muy utilizada es transformar una o las dos variables X e Y .

Si sólo falla la linealidad, conviene transformar sólo X porque esto no afecta a las
propiedades de las perturbaciones. En cambio, si los residuos muestran heterocedasti-
cidad o no normalidad, conviene transformar al menos Y para intentar resolver todos
los problemas simultáneamente.

Veamos algunas consideraciones generales acerca de la trasformación de la variable re-


spuesta.

Suponga que contemplamos el log de la respuesta en un MRLS


log y = β0 + β1 x + ε
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 144

En la escala original de respuesta, se tiene

y = exp(β0 + β1 x) · exp(ε)

En este modelo los errores entran multiplicativamente y no de forma aditiva como


ocurre usualmente. Note que si creemos que el modelo para y es

y = exp(β0 + β1 x) + exp(ε)

entonces no podemos linealizar este modelo, por lo que se hace necesario usar
métodos de regresión no lineal.

Como usualmente en la práctica no sabemos cómo entran los errores al modelo,


lo ideal es usar diferentes transformaciones y analizar los residuos para verificar
si cumplen los requerimientos de un modelo lineal.
Aunque se puede transformar la variable respuesta, probablemente se necesita
expresar las predicciones en su escala original. Aquí, únicamente hay que regre-
sar la transformación, por ejemplo, en el caso anterior la predicción puede ser
exp(ŷ0 ). De igual forma, si el intervalo de predicción es [l, u], entonces podemos
usar [exp(l), exp(u)].
Cuando usamos la transformación log en la variable respuesta, los coeficientes de
regresión tienen una interpretación particular

log ŷ = β̂0 + β̂1 x1 + · · · + β̂p xp

ŷ = exp(β̂0 ) · exp(β̂1 x1 ) · · · exp(β̂p xp )


un incremento de una unidad en x1 es multiplicada la predicción de la respuesta
(en su escala original) por exp(β̂1 ), manteniendo constantes las otras variables.

Con el objetivo de garantizar los supuestos de un modelo lineal, se puede explorar otro
tipo de transformaciones para Y , por ejemplo una transformación potencia usando el
método Box-Cox, puede ser útil. Por otro lado, note que los modelos lineales general-
izados (GLM) pueden ser usados cuando la variable respuesta sigue una distribución
de la familia exponencial.

Al considerar transformaciones para las X, también podemos implementar el log para


X, la trasformación inversa (1/X), o incluso usar una transformación tipo método de
Box-Cox con el fin de minimizar SSR, pero esto último puede resultar un poco más
complejo. Adicionalmente, es importante considerar modelos lineales segmentados en
los casos en que se detecten grupos de observaciones en Y respecto a cambios en X.

Otra forma de generalizar el modelo es adicionando el término polinomial a la(s) X,


pero una opción más flexible es usar regresión spline, la cual es una alternativa bas-
tante útil cuando la relación de las variables no es lineal. Aquí se mezclan las ventajas
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 145

de adicionar el término polinomial, y de construir regresión segmentada.

Ejemplo: usemos datos simulados con el fin de verificar qué tan cerca están los modelos
ajustados respecto al verdadero. Suponga que conocemos el verdadero modelo el cual
es:
y = cos5 (−3πx2 ) + ε, ε ∼ N (0, (0.1)2 )
Ahora construiremos un modelo polinómico de orden 4, uno de orden 12 y un modelo
spline en R para compararlo con el modelo real.

El procedimiento en R es el siguiente:

funky <- function(x) cos(-3*pi*x^2)^5


x <- seq(0,1,by=0.01)
y <- funky(x) + 0.1*rnorm(101)
# modelo polinomial
g4=lm(y~poly(x,4)) # polinomio grado 4
g12=lm(y~poly(x,12)) # polinomio grado 12
# spline
library(splines)
knots <- c(0,0,0,0,0.2,0.4,0.5,0.6,0.7,0.8,0.85,0.9,1,1,1,1)
bx <- splineDesign(knots,x)
gs <- lm(y ~ bx) # usando spline

matplot(x,cbind(y,funky(x),g4$fit,g12$fit,gs$fit),type="pllll",ylab="y",
pch=18,lty=c(1,2,3,4),main="Tipo de modelos",lwd=c(2,2,2,2))
legend(0.1,-0.5,c("modelo real","polinomio orden 4","polinomio orden 12",
"regresión spline"),col=c(2,3,4,5),bty="n",
lty=c(1,2,3,4),cex=.8)

Podemos notar que el modelo spline es el que mejor se ajusta a la curva real.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 146

Tipo de modelos

1.0
0.5
0.0
y

modelo real
polinomio orden 4
−1.0

polinomio orden 12
regresión spline

0.0 0.2 0.4 0.6 0.8 1.0


x

5.0.15. Regresión lineal múltiple

Vector aleatorio:

Un vector aleatorio es aquel cuyas componentes son variables aleatorias. Similarmente,


una matriz aleatoria es aquella cuyas entradas son variables aleatorias.

El vector,  
y1
 y2 
 
Y =  ..  ,
.
yn n×1
es un vector aleatorio si cada una de sus componentes Yi′ s son variables aleatorias.

Sea Y : un vector aleatorio, entonces el valor-esperado o esperanza de Y , denotado por


E[Y ], se define como:    
E[y1 ] µ1
 E[y2 ]   µ2 
   
E[Y ] =  ..  =  .. 
 .  .
E[yn ] µn
en donde, E[Yi ] = µi : representa el valor-esperado o esperanza de la variable aleatoria
yi .
Es decir, la esperanza de un vector aleatorio, es un vector aleatorio cuyas componentes
son las esperanzas de cada una de las variables a aleatorias Yi′ s, i = 1, 2, · · · n, que
conforman el vector aleatorio. Similarmente se define el valor esperado de una matriz
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 147

aleatoria.

Matriz de Varianzas-Covarianzas

Sea Y : un vector aleatorio, entonces la matriz de varianzas-covarianzas de Y , denotada


por ΣY = Cov(Y ), se define como:
 
V ar(y1 ) Cov(y1 , y2 ) . . . Cov(y1 , yn )
 Cov(y2 , y1 ) V ar(y2 ) . . . Cov(y2 , yn )
′  
ΣY = E[(Y − E[Y ])(Y − E[Y ]) ] =  .. .. . .. 
 . . . . . 
Cov(yn , y1 ) Cov(yn , y2 ) . . . V ar(yn )

Note que ΣY tiene en la diagonal las varianzas de cada una de las variables aleatorias
que conforman al vector aleatorio y fuera de la diagonal tiene las covarianzas entre los
pares de variables que conforman dicho vector aleatorio.

Modelo de regresión lineal múltiple (RLM)


Supongamos que la variable respuesta Y puede ser explicada por más de una variable
regresora o predictora, digamos (p − 1): X1 , X2 , · · · , Xp−1 .

Para el caso de dos variables regresoras X1 y X2 , se tiene que el modelo de RLM es:

yi = β0 + β1 xi1 + β2 xi2 + εi ,

con los supuestos que los ε′i s con i = 1, 2, · · · , n, son independientes e idénticamente
distribuidos normales con media cero y varianza constante, donde la función de regresión
está dada por:

Ŷ = E[Y\
|X1 , X2 ] = β̂0 + β̂1 X1 + β̂2 X2

Interpretación de los parámetros del modelo de RLM con dos variables re-
gresoras

β̂0 : Respuesta media estimada cuando X1 = 0 y X2 = 0, siempre y cuando el


punto (0,0) esté dentro del rango de valores posible de X1 y X2 .

β̂1 : Cambio en la respuesta media estimada por cada unidad de incremento en la


variable regresora X1 cuando la variable regresora X2 se mantiene fija.

β̂2 : Cambio en la respuesta media estimada por cada unidad de incremento en la


variable regresora X2 cuando la variable regresora X1 se mantiene fija.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 148

Modelo de RLM General

Para el caso de (p − 1) variables regresoras X1 , X2 , · · · , Xp−1 , se tiene que el modelo de


RLM es:

yi = β0 + β1 xi1 + β2 xi2 + · · · + βp−1 xi,p−1 + εi ,

con los supuestos que los ε′i s con i = 1, 2, · · · , n, son independientes e idénticamente
distribuidos normales con media cero y varianza constante, donde la función de regresión
está dada por:

Ŷ = E[Y |X1 , \
X2 , · · · , Xp−1 ] = β̂0 + β̂1 X1 + β̂2 X2 + · · · + β̂p−1 X(p−1)

Interpretación de los parámetros del modelo de RLM general

β̂0 : Respuesta media estimada cuando X1 = X2 = · · · = Xp−1 = 0, siem-


pre y cuando el punto (0, 0, · · · , 0) esté dentro del rango de valores posible de
X1 , X2 , · · · , Xp−1

β̂j : Cambio en la respuesta media estimada por cada unidad de incremento en la


variable regresora Xj cuando las demás variable regresoras X1 , X2 , · · · , Xj−1 , Xj+1 , · · · , Xp−1
se mantienen fija.

Modelo de RLM en Forma Matricial

Ahora se considerara el modelo de RLM en forma matricial.


Sea el modelo de RLM

yi = β0 + β1 xi1 + β2 xi2 + · · · + βp−1 xi,p−1 + εi , i = 1, 2, · · · , n

El modelo anterior se puede escribir en forma matricial como sigue:


      
y1 1 x11 . . . x1,p−1 β0 ε1
 y2  1 x21 . . . x2,p−1   β1   ε2 
      
 ..  =  .. .. . . ..   ..  +  .. 
 .  . . . .  .   . 
yn 1 xn1 . . . xn,p−1 βp−1 εn

es decir, que el modelo de RLM en forma matricial es:

Yn×1 = Xn×p β p×1 + εn×1

con ε ∼ N (0, σ 2 In ), donde


Y: Es el vector de respuestas
β: Es el vector de parámetros
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 149

X: Es la matrix de diseño, con los valores de las variables predictoras en cada obser-
vación.
ε: Es el vector de términos de errores aleatorios.

Estimadores de mínimos cuadrados para el modelo de RLM en forma ma-


tricial

La idea es minimizar la expresión

SSE = (Y − Xβ)′ (Y − Xβ)

para el cálculo de β.

De aquí se obtiene el estimador de mínimos cuadrados para β, el cual es:

β̂ = (X′ X)−1 X′ Y.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 150

Propiedades de los estimadores:

β̂ = (X′ X)−1 X′ Y, es insesgado para β, es decir E(β̂) = β

β̂ es el mejor estimador lineal-insesgado de β en el sentido de que β̂ = (X′ X)−1 X′ Y,


tiene varianza mínima entre todos los estimadores insesgados de β.

La matriz de varianzas-covarianzas de β̂ esta dada por V ar(β̂) = σ 2 (X′ X)−1

Residuales

Los residuales corresponden a εi = Yi − Ŷi . Por lo tanto, el vector de residuales es:


 
ε1
 ε2 
 
ε =  .. 
.
εn n×1
El vector de valores ajustados y el vector de residuales pueden ser también expresados
en términos de la matriz H = X(X′ X)−1 X′ conocida como la matriz hat o matriz
sombrero, la cual es una matriz (n × n) es simétrica e idempotente, a veces también
llamada matriz de proyección, asigna el vector de valores observados para el vector de
valores ajustados. En él se describe la influencia que cada valor observado tiene en cada
valor ajustado.

Al igual que en el modelo de regresión lineal simple, se tiene que:

SST = SSR + SSE

donde
1
SST = Y′ Y − Y′ JY
[ n( ) ]
1
= Y′ I − J Y,
n

donde J es una matrix n × n de unos, e I es la matriz identidad.

También, se tiene que:

1
SSR = βˆ′ X′ Y − Y′ JY.
n
′ ˆ′ ′
SSE = Y Y − β X Y.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 151

Tabla de Análisis de varianza en forma matricial para el modelo de RLM

La tabla ANOVA para el modelo de RLM queda de la siguiente forma:

F.V G.L SS MS Est. F


Regresión p−1 SSR MSR Fc = M SR
M SE
∼ F(p−1,n−p)
Error n−p SSE MSE
Total n−1 SST MST

Multicolinealidad

La multicolinealidad o dependencia lineal entre las variables independientes, debe con-


siderarse como un posible problema a tratar en el modelo. Existen situaciones en que
las variables explicativas se encuentran fuertemente correlacionadas, y esto puede oca-
sionar problemas en la estimación de los parámetros del modelo.

Una de las herramientas para chequear multicolinealidad es el V IF o Factor de Inflación


de la Varianza, el cual se obtiene como:
1
V IF (βi ) = ,
1 − RX
2
i

2
el cual si toma un valor mayor a 10 se considera una alta colinealidad. Note que RX i
es
el coeficiente de determinación obtenido al efectuar la regresión de Xi sobre el resto de
los regresores del modelo.

En R usamos la función vif del paquete car para obtener el V IF de todas las variables
explicativas.

Ejemplo: Para estimar la producción en madera de un bosque se suele realizar un


muestreo previo en el que se toman una serie de mediciones no destructivas. Disponemos
de mediciones para 20 árboles, así como el volumen de madera que producen una vez
cortados. Las variables observadas son:

HT = altura en pies
DBH = diámetro del tronco a 4 pies de altura (en pulgadas)
D16 = diámetro del tronco a 16 pies de altura (en pulgadas)
V OL = volumen de madera obtenida (en pies cúbicos).
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 152

El objetivo del análisis es determinar cuál es la relación entre dichas medidas y el vol-
umen de madera, con el fin de poder predecir este último en función de las primeras.

Los datos son los siguientes:

DBH <- c(10.2,13.72,15.43,14.37,15,15.02,15.12,15.24,15.24,15.28,


13.78,15.67,15.67,15.98,16.5,16.87,17.26,17.28,17.87,19.13)
D16 <-c(9.3,12.1,13.3,13.4,14.2,12.8,14,13.5,14,13.8,13.6,14,
13.7,13.9,14.9,14.9,14.3,14.3,16.9,17.3)
HT <-c(89,90.07,95.08,98.03,99,91.05,105.6,100.8,94,93.09,89,
102,99,89.02,95.09,95.02,91.02,98.06,96.01,101)
VOL <-c(25.93,45.87,56.2,58.6,63.36,46.35,68.99,62.91,58.13,
59.79,56.2,66.16,62.18,57.01,65.62,65.03,66.74,73.38,82.87,95.71)
bosque<-data.frame(VOL=VOL,DBH=DBH,D16=D16,HT=HT)
plot(bosque)

10 12 14 16 18 90 95 100 105

90
70
VOL

50
30
10 12 14 16 18

DBH
16
14

D16
12
10
105
100

HT
95
90

30 50 70 90 10 12 14 16

Veamos las correlaciones parciales de dichas variables.

install.packages(ppcor)
library(ppcor)
pcor(bosque)

El resultado es el siguiente
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 153

$estimate
VOL DBH D16 HT
VOL 1.0000000 0.3683119 0.7627127 0.7285511
DBH 0.3683119 1.0000000 0.2686789 -0.3107753
D16 0.7627127 0.2686789 1.0000000 -0.4513110
HT 0.7285511 -0.3107753 -0.4513110 1.0000000

$p.value
VOL DBH D16 HT
VOL 0.0000000000 0.1326107 0.0002324675 0.0006056469
DBH 0.1326107400 0.0000000 0.2810102724 0.2094003059
D16 0.0002324675 0.2810103 0.0000000000 0.0601150552
HT 0.0006056469 0.2094003 0.0601150552 0.0000000000

$statistic
VOL DBH D16 HT
VOL 0.000000 1.584644 4.717295 4.254366
DBH 1.584644 0.000000 1.115742 -1.307862
D16 4.717295 1.115742 0.000000 -2.022984
HT 4.254366 -1.307862 -2.022984 0.000000

$n
[1] 20

$gp
[1] 2

$method
[1] "pearson"

Notamos que no es significativamente distinta de cero la relación entre VOL y DBH,


pues el p−valor es 0.1326. Además, la correlación parcial entre estas dos variables es
muy baja (cor(V OL, DBH) = 0.3683).

Ahora, obtenemos el modelo completo.

m1=lm(VOL~DBH+D16+HT)
summary(m1)
anova(m1)

Los resultados se muestran a continuación

Call:
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 154

lm(formula = VOL ~ DBH + D16 + HT)

Residuals:
Min 1Q Median 3Q Max
-5.2548 -1.6765 -0.1277 1.5232 4.9990

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -108.5758 14.1422 -7.677 9.42e-07 ***
DBH 1.6258 1.0259 1.585 0.132611
D16 5.6714 1.2023 4.717 0.000232 ***
HT 0.6938 0.1631 4.254 0.000606 ***
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

Residual standard error: 3.095 on 16 degrees of freedom


Multiple R-squared: 0.9591, Adjusted R-squared: 0.9514
F-statistic: 124.9 on 3 and 16 DF, p-value: 2.587e-11

# anova(m1)
Analysis of Variance Table

Response: VOL
Df Sum Sq Mean Sq F value Pr(>F)
DBH 1 3085.79 3085.79 322.064 5.051e-12 ***
D16 1 331.85 331.85 34.635 2.303e-05 ***
HT 1 173.42 173.42 18.100 0.0006056 ***
Residuals 16 153.30 9.58
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

El R2 ajustado nos indica que las variables DBH, D16 y HT explican la variabilidad del
volumen de madera. De igual forma, el p−valor de la tabla anova nos corrobora esta
afirmación (p−valor=2.587e-11).

El error residual del modelo es 3.095. Si lo elevamos al cuadrado, tenemos la varianza


residual σ̂ 2 = 9.5813

Por otro lado, notamos que el coeficiente que acompaña a la variable DBH no es signi-
ficativamente diferente de cero (p−valor=0.132611), por lo que la variable no es signi-
ficativa en el modelo a un nivel α = 0.05. Ahora miremos los intervalos de confianza al
95 % para los coeficientes.

ic.ind<-confint(m1,level=0.95);ic.ind
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 155

2.5 % 97.5 %
(Intercept) -138.5559230 -78.595770
DBH -0.5491507 3.800682
D16 3.1227268 8.220064
HT 0.3480719 1.039469

Efectivamente, los intervalos de confianza nos muestran que los parámetros son signi-
ficativos en el modelo, excepto el correspondiente a la variable DBH.

Si observamos el resultado del anova, para evaluar el modelo completo, podemos ob-
servar que DBH es significativa en el modelo (p−valor=5.051e-12), luego al adicionar
D16, notamos que esta última si aporta a explicar la variabilidad de VOL, por último,
si se incorpora la variable HT, se aporta un poco más a la variabilidad del volumen,
pues p−valor=0.0006056.

El modelo ajustado es entonces el siguiente:

V[
OL = −108.5758 + 1.6258DBH + 5.6714D16 + 0.6938HT

Otro modelo que podemos considerar, es eliminando la variable DBH del modelo com-
pleto. De esta forma tendríamos

m2=lm(VOL~D16+HT)
summary(m2)
anova(m2)

Los resultados son los siguientes

Call:
lm(formula = VOL ~ D16 + HT)

Residuals:
Min 1Q Median 3Q Max
-4.2309 -1.8386 -0.4012 1.0922 6.9373

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -105.9027 14.6520 -7.228 1.41e-06 ***
D16 7.4128 0.5088 14.568 4.92e-11 ***
HT 0.6765 0.1698 3.985 0.000959 ***
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 156

Residual standard error: 3.23 on 17 degrees of freedom


Multiple R-squared: 0.9526, Adjusted R-squared: 0.9471
F-statistic: 170.9 on 2 and 17 DF, p-value: 5.515e-12

anova(m2)
Analysis of Variance Table

Response: VOL
Df Sum Sq Mean Sq F value Pr(>F)
D16 1 3401.3 3401.3 326.019 1.58e-12 ***
HT 1 165.7 165.7 15.878 0.0009585 ***
Residuals 17 177.4 10.4
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

El modelo 2 (m2) es el siguiente

V[
OL = −105.9027 + 7.4128D16 + 0.6765HT

Podemos ver que todos los parámetros son significativos en el modelo a un nivel
α = 0.05. Además, el anova nos dice que el modelo general también es significativo
(p−valor=5.515e-12). Note que el R2 del modelo completo (m1) es de 0.9514 y el del
modelo 2 es 0.9471. Una pregunta que nos podemos hacer es, ¿cuál modelo es mejor?.

5.0.16. Selección de variables

En esta instancia se pretende seleccionar el “mejor‘” subconjunto de predictores.

Queremos explicar los datos de una forma simple

Predictores innecesarios pueden producir ruidos en la estimación.

El problema de colinealidad es causado frecuentemente por tener muchas vari-


ables.

Costo: si el modelo es usado para predicción, puede reducir costos.

Previo a la selección de variables

Identificar outliers y puntos influenciales.

De ser necesario, hacer transformaciones a la variable.


CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 157

Procedimiento Stepwise

Este procedimiento es una combinación del método de eliminación backward y de se-


lección forward. Los cuales consisten en ir eliminando o incluyendo predictores en el
modelo teniendo en cuenta sus p-valores. En el caso del backward se remueven los pre-
dictores con más alto p-valor, y en el caso del forward se incluyen en el modelo los
predictores con más bajo p-valor.

Criterio basado en procedimiento

Si en un modelo tenemos p potenciales predictores, entonces podemos construir 2p mod-


elos posibles. Lo cual se vuelve una tarea muy extenuante. Algoritmos inteligentes, tales
como el método de “branch-and-bound” pueden evitar efectivamente el ajuste de todos
los modelos evaluando sólo los posibles candidatos.

El Criterio de Información de Akaike (AIC) y el Criterio de información de Bayes (BIC),


comprenden los criterios más comúnmente utilizados.

El AIC está basado en la función de verosimilitud e incluye una penalización que aumen-
ta con el número de parámetros estimados en el modelo. Además, premia los modelos
que dan un buen ajuste en términos de verosimilitud y a la vez son parsimoniosos
(tienen pocos parámetros). Entre tanto, el BIC comprende una modificación al AIC
que tiene en cuenta también el número de datos utilizados en el ajuste.

AIC = −2 ln(likelihood) + 2p
y
BIC = −2 ln(likelihood) + p ln(n)
En el proceso de selección de modelos, se quiere minimizar el AIC o el BIC.

En R podemos utilizar las funciones AIC() y BIC() para seleccionar el mejor modelo.
Para esto, entre menor sea el valor del AIC o del BIC, mejor es el modelo. Además, la
función step() que selecciona automáticamente un modelo usando el criterio AIC en
un algoritmo Stepwise.

Para nuestro ejemplo,

AIC(m1);AIC(m2)
BIC(m1);BIC(m2)
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 158

> AIC(m1);AIC(m2)
[1] 107.4909
[1] 108.4066
> BIC(m1);BIC(m2)
[1] 112.4696
[1] 112.3895

Si observamos el AIC, el mejor modelo es el modelo completo, pero si miramos el BIC,


el mejor modelo es el modelo m2. Si pensamos en el principio de la parcimonia, nos
quedamos con el modelo 2 debido a que no hay una ganancia muy grande en cuanto a
variabilidad explicada del modelo 1 respecto al modelo 2 (esto se puede apreciar con el
R2 ajustado).

Procedamos a hacer un chequeo gráfico de los supuestos del modelo seleccionado (mod-
elo 2).

opar=par()
par(mfrow=c(2,2))
plot(m2)
par(opar)

Residuals vs Fitted Normal Q−Q


8

18 18
Standardized residuals
2
6

20
17 20 17
4
Residuals

1
2
0

0
−1
−4

30 40 50 60 70 80 90 −2 −1 0 1 2
Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage


1.5

18
Standardized residuals

Standardized residuals

20
2

17 20
17 1
1.0

1 0.5
1
0
0.5

−1

0.5
Cook’s distance
0.0

30 40 50 60 70 80 90 0.0 0.1 0.2 0.3 0.4


Fitted values Leverage

Podemos ver que posiblemente hay una violación al supuesto de normalidad de los
errores, esto debido a la posible presencia de datos influyentes en el modelo. Sin embargo,
realizaremos un test de Shapiro-Wilk para verificar normalidad.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 159

library(MASS) # usamos la función stdres de la librería MASS


shapiro.test(stdres(m2))

Shapiro-Wilk normality test

data: stdres(m2)
W = 0.9215, p-value = 0.1059

El p−valor nos indica no rechazar la normalidad de los errores. Por tanto, no hay una
violación a este supuesto. Verificaremos ahora el supuesto de autocorrelación cero de
los errores.

d=stdres(m2) # Capturo los residuos


n<-length(d)
# Gráfico de d(i),d(i-1)
plot(d[1:(n-1)],d[2:n],xlab="Residuo i",ylab="Residuo i-1")
# Capturamos con una curva suavizada la tendencia:
lines(lowess(d[1:(n-1)],d[2:n]),col="red")
2
1
Residuo i−1
0
−1

−1 0 1 2
Residuo i
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 160

Como no se observa un tendencia, podemos afirmar que los errores tienen correlación
cero. Por tanto, no hay una violación a este supuesto.

Por último, debemos chequear la no existencia de multicolinealidad entre las variables


independientes. Para ello, calculamos el V IF (factor de inflación de varianza).

install.packages("car")
library(car)
vif(m2)

D16 HT
1.228915 1.228915

Como el V IF no es mayor que 10, para ambas variables, no hay colinealidad entre los
regresores. De aquí, el modelo 2 cumple todos los supuestos.
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 161

Ejemplo: Usaremos un conjunto de datos económicos en 50 países diferentes. Estos


datos se encuentran disponibles en R software. Los datos corresponden a promedios
desde 1960-1970 (para eliminar el ciclo de los negocios u otras fluctuaciones a corto
plazo). dpi es el ingreso disponible per cápita en dólares estadounidenses; ddpi es la
tasa de porcentaje de cambio en el ingreso disponible per cápita; sr es el ahorro personal
agregado dividido por la renta disponible; El porcentaje de población menor de 15 años
(pop15) y más de 75 (pop 75) también son registrados.

data(LifeCycleSavings)
LifeCycleSavings
g <- lm(sr~pop15 + pop75 + dpi + ddpi, data=LifeCycleSavings)
summary(g)

Call:
lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = LifeCycleSavings)

Residuals:
Min 1Q Median 3Q Max
-8.2422 -2.6857 -0.2488 2.4280 9.7509

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.5660865 7.3545161 3.884 0.000334 ***
pop15 -0.4611931 0.1446422 -3.189 0.002603 **
pop75 -1.6914977 1.0835989 -1.561 0.125530
dpi -0.0003369 0.0009311 -0.362 0.719173
ddpi 0.4096949 0.1961971 2.088 0.042471 *
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

Residual standard error: 3.803 on 45 degrees of freedom Multiple


R-squared: 0.3385, Adjusted R-squared: 0.2797 F-statistic:
5.756 on 4 and 45 DF, p-value: 0.0007904

La hipótesis nula para el test de hipótesis en predictor en particular es:

H0 : βi = 0

Si se quiere mirar el efecto de pop15 en el modelo podemos hace lo siguiente:

g2 <- lm(sr ~ pop75 + dpi + ddpi, data=LifeCycleSavings)


anova(g2,g)
Analysis of Variance Table
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 162

Model 1: sr ~ pop75 + dpi + ddpi


Model 2: sr ~ pop15 + pop75 + dpi + ddpi
Res.Df RSS Df Sum of Sq F Pr(>F)
1 46 797.72
2 45 650.71 1 147.01 10.167 0.002603 **

Aquí, vemos que la inclusión de la variable pop15 en el modelo si es significativa


(p−valor=0.002603).

Una alternativa que ofrecen muchos paquetes es mirar directamente en el análisis de


varianza resultante del modelo.

Podemos emplear un mecanismo de selección automática de variables en el modelo.


Para esto, usamos la función step() de R.
Para nuestro ejemplo,

step(g)
Start: AIC=138.3
sr ~ pop15 + pop75 + dpi + ddpi

Df Sum of Sq RSS AIC


- dpi 1 1.893 652.61 136.45
<none> 650.71 138.30
- pop75 1 35.236 685.95 138.94
- ddpi 1 63.054 713.77 140.93
- pop15 1 147.012 797.72 146.49

Step: AIC=136.45
sr ~ pop15 + pop75 + ddpi

Df Sum of Sq RSS AIC


<none> 652.61 136.45
- pop75 1 47.946 700.55 137.99
- ddpi 1 73.562 726.17 139.79
- pop15 1 145.789 798.40 144.53

Call:
lm(formula = sr ~ pop15 + pop75 + ddpi, data = LifeCycleSavings)

Coefficients:
(Intercept) pop15 pop75 ddpi
28.1247 -0.4518 -1.8354 0.4278
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 163

Podemos notar que nos quedamos con el modelo

b = 28.1247 − 0.4518pop15 − 1.8354pop75 + 0.4278ddpi


sr
Capítulo 6

Introducción al análisis de varianza

6.1. Definiciones básicas


Al iniciar el estudio, el investigador desarrolla una lista de verificación de aspectos
concretos; algunos de los que suelen incluirse son:

Objetivos específicos del experimento.

Identificación de los factores que influyen y cuáles de ellos varían y cuáles per-
manecen constantes.

Características a medir.

Procedimientos particulares para realizar las pruebas o medir las características.

Número de repeticiones del experimento básico a realizar.

Recursos y materiales disponibles.

Las preguntas que centran nuestra atención a través del proceso de diseño incluyen:
¿Cuál es mi objetivo?, ¿Qué quiero saber? y ¿Por qué quiero saberlo?. Además, existen
preguntas de seguimiento productivo para cada actividad en el proceso, tales como:
¿Cómo voy a realizar el experimento? y ¿Por que hago el experimento?, dirigen la aten-
ción a definir el papel de cada actividad en el estudio de investigación.

Experimentos, tratamientos y unidades experimentales


un experimento debe limitarse a investigaciones que establecen un conjunto particular
de circunstancias, bajo un protocolo específico para observar y evaluar las implicaciones
de las observaciones resultantes. El investigador determina y controla los protocolos de
un experimento para evaluar y probar algo que en su mayor parte no se conoce hasta
ese momento.

164
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 165

Entre las aplicaciones del diseño experimental se encuentra:

La evaluación y comparación de configuraciones de diseños básicos.

La evaluación de materiales alternativos.

La selección de los parámetros del diseño para que el producto tenga un buen
funcionamiento en una amplia variedad de condiciones de campo.

La determinación de los parámetros claves del diseño del producto que afectan el
desempeño del mismo.

Experimento comparativo
El experimento comparativo es el tipo de experimento que utilizan los investigadores
en áreas como biología, medicina, agricultura, ingeniería, sicología y otras ciencias ex-
perimentales. El adjetivo comparativo implica que se establezca más de un conjunto
de circunstancias en el experimento y que se comparen entre sí las respuestas a las
diferentes circunstancias.

Tratamientos
Los tratamientos son el conjunto de circunstancias creados para el experimento, en res-
puesta a la hipótesis de investigación y son el centro de la misma. Entre los ejemplos de
tratamientos se encuentran dietas de animales, producción de variedades de cultivos,
temperaturas, tipos de suelo y cantidades de nutrientes.

En un estudio comparativo se usan dos o más tratamientos y se comparan sus efectos


en el sujeto de estudio.

Unidad experimental
La unidad experimental es la entidad física o el sujeto expuesto al tratamiento indepen-
dientemente de otras unidades. La unidad experimental, una vez expuesta al tratamien-
to, constituye una sola réplica del tratamiento.

Error experimental
El error experimental describe la variación entre las unidades experimentales tratadas
de manera idéntica e independiente. Los distintos orígenes del error experimental son:

1.) La variación natural entre unidades experimentales.

2.) La variabilidad en la medición de la respuesta.

3.) La imposibilidad de reproducir las condiciones del tratamiento con exactitud de


una unidad a otra.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 166

4.) La interacción de los tratamientos con las unidades experimentales.

5.) Cualquier otro factor externo que influya en las características medidas.

Ejemplo: La imposibilidad de reproducir el tratamiento con exactitud se da cuando


las réplicas de los tubos de ensayo se preparan de modo independiente, con la misma
mezcla de compuestos, y el peso de los productos químicos obtenidos en cada tubo
difiere en 0.1 microgramo (pg). Los procesos en pipetas o básculas no son exactos, por
lo tanto, introducen una pequeña variación durante la preparación del tratamiento.

Un importante objetivo de los cálculos estadísticos es lograr una estimación de la va-


rianza del error experimental. En su forma más simple, el error experimental es la
varianza en unidades de las observaciones del experimento, cuando las diferencias entre
éstas se pueden atribuir sólo al error experimental.

Estudios por observaciones comparativas


Los estudios por observación comparativos son aquellos para los que desearíamos hacer
un experimento, pero no es posible por razones prácticas o éticas.

El investigador tiene en mente condiciones o tratamientos que tienen efectos causales


en sujetos para los que no es posible efectuar experimentos hasta obtener respuestas.
Los investigadores de las ciencias sociales, ecología, vida silvestre, vida marina y otros
recursos naturales, a menudo han de llevar a cabo estudios por observación en vez de
la experimentación directa.

Ejemplo: Considerando un estudio para comparar la severidad de las lesiones por


accidentes automovilísticos con y sin el cinturón de seguridad puesto; sería clara la
falta de ética si se asignara al azar un tratamiento de personas con cinturón y sin
cinturón y después se provocaran colisiones de los autos contra una pared de concreto,
tampoco habría quién se prestara para esto. En su lugar, los investigadores se apoyan
en los datos de lesiones en los accidentes y comparan los datos de cinturón puesto y sin
cinturón.

6.1.1. La hipótesis de investigación

La hipótesis de investigación establece un conjunto de circunstancias y sus consecuen-


cias. Los tratamientos son una creación de las circunstancias para el experimento. Así,
es importante identificar los tratamientos con el papel que cada uno tiene en la evalua-
ción de la hipótesis de investigación.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 167

Relación entre los tratamientos y las hipótesis:


Cuando se eligen los tratamientos adecuados en respuesta a una hipótesis de inves-
tigación, es posible comprender mejor los mecanismos fundamentales, ya sean físicos,
químicos biológicos o sociales.

A continuación se presentan tratamientos, usados en el marco de investigaciones reales,


generados por hipótesis de investigación:

Se estudió la cinética de bebida de las abejas productoras de miel a diferentes tem-


peraturas ambientales, para responder a la hipótesis de que la energía requerida
al reunir comida para la colonia era independiente de la temperatura.
La supervivencia de siembras de Euphorbia (es un género de plantas de la familia
Euphorbiaceae) atacadas por un patógeno del suelo se determinó para distintos
tipos de tratamientos de fungicida, en respuesta a la hipótesis de que no todos los
fungicidas tienen la misma eficiencia para controlar tal patógeno.

Tratamiento control:
Muchas veces se requieren tratamientos adicionales para evaluar por completo las conse-
cuencias de la hipótesis. Una componente importante de muchos diseños de tratamiento
es el tratamiento de control.

El tratamiento de control es un punto necesario para evaluar el efecto de los tratamien-


tos experimentales; existen diversas circunstancias en las que el tratamiento de control
es útil y necesario. Un control al que no se da tratamiento revelará las condiciones en
las que se efectuó el experimento.

Control local de errores experimentales:


Los principales objetivos de la mayoría de los experimentos son las comparaciones claras
y exactas entre tratamientos a través de un conjunto apropiado de condiciones.

El control local describe las acciones que emplea un investigador para reducir o contro-
lar el error experimental, incrementar la exactitud de las observaciones y establecer la
base de la inferencia de un estudio.

El investigador controla:

1. Técnica.
2. Selección de unidades experimentales.
3. Bloquización o aseguramiento de la uniformidad de información en todos los
tratamientos.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 168

4. Selección del diseño experimental.


5. Medición de covariables (son variables relacionadas con la variable respuesta que
nos interesa).

Replicar para obtener experimentos válidos:


La réplica implica una repetición independiente del experimento básico. Dicho de ma-
nera más específica, cada tratamiento se aplica de manera independiente a dos o más
unidades experimentales.

Existen diversas razones para hacer réplicas de un experimento, las más notables son:

Permiten estimar el error experimental


Ejerce control sobre la varianza del error experimental
Mejora la precisión de un experimento mediante la reducción de la desviación
estándar de una media de tratamiento
A mayor número de repeticiones mayor precisión
Aumenta el alcance de la inferencia (I.C. y pruebas de hipótesis.)

Las unidades de observación y las experimentales pueden ser claramente


distintas:
La unidad de observación puede no ser equivalente a la unidad experimental. La primera
puede ser una muestra de la última, como muestras individuales de plantas de una
parcela o muestras del plasma de un sujeto.

Ejemplo: Un estudio sencillo de raciones de dieta animal tiene un corral con seis
animales asignados a la ración A y otro con seis más asignados a la ración B. Se reúnen
datos sobre el aumento de peso o algún otro aspecto adecuado para examinar la efica-
cia de las raciones. Al final del estudio, se toman de cada animal las medidas necesarias.

El corral es la unidad experimental porque es la unidad a la que se administró el


tratamiento independiente. Los animales en el corral son las unidades de observación.

Aleatorizar para tener inferencias válidas:


Fisher (1926) señaló que la sola aleatorización proporciona estimaciones válidas de la
varianza del error para los métodos de inferencia estadística justificados para la esti-
mación y pruebas de hipótesis en el experimento. La aleatorización es la asignación
aleatoria de tratamientos a las unidades experimentales.

La aleatorización permite:
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 169

1. La validación del error experimental

2. Evita sesgos.

3. Garantiza la independencia de los errores.

La aleatorización puede realizarse por medio de muchos métodos algunos de los cuales
se describen a continuación:

Método 1:
Suponga que se tienen N = 15 unidades experimentales (UE) homogéneas, para un
experimento bajo un diseño completamente al azar (DCA) con t=3 tratamientos y
r = 5 réplicas. Marque las 15 unidades experimentales con los números 1, 2, . . . , 15.
Luego rotule unos papelitos con los números k = 1, 2, . . . , 15, colóquelos en una bolsa.
Seleccione un papelito de forma aleatoria y márquelo por el reverso de donde esta
marcado con el número (11), deje este papelito fuera de la bolsa.
Proceda nuevamente a seleccionar otro papelito y márquelo ahora con el número (12).
Continúe este proceso hasta que queden marcados todos los papelitos como 11, 12, . . . , 15,
21, 22, . . . , 25, 31, 32, . . . , 35. Si un papelito está rotulado 5 y por el reverso con la etique-
ta (34), entonces la unidad experimental marcada con el número 5 recibirá el tratamien-
to 3 y será la réplica 4.

Método 2:
Una forma simple de construir unos datos aleatorizados, donde el objetivo es dividir n
unidades experimentales en t tratamientos, se puede llevar a cabo usando el software
R. Por ejemplo, si el experimentados cuenta con tres diferentes tratamientos para la
variable tiempo (25 min, 30 min y 35 min) y desea realizar cuatro réplicas de cada uno,
esto se puede aleatorizar con el siguiente código de R.

set.seed(100)
f <- factor( rep( c(25, 30, 35 ), each = 4)) # crea el factor
fac <- sample( f, 12 ) # genera muestras del factor
eu <- 1:12 # se establecen las U.E
plan <- data.frame( loaf=eu, time=fac ) # crea el data.frame
write.csv( plan, file = "Plan.csv", row.names = FALSE) # crea la b.d

Método 3:
Mediante el uso de una tabla de números aleatorios.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 170

6.2. Diseño Completamente al Azar (DCA)


Cuando el experimentador ha decidido arreglar el material experimental bajo un DCA
con igual número de réplicas por tratamiento, significa que debe realizar el siguiente
protocolo descrito por Hinkelman y Kempthorne (1994):

Supongamos que se tienen N = tr unidades experimentales (UE) homogéneas y t


tratamientos. Las N UE se dividen en t grupos de r UE. Los t tratamientos son asig-
nados al azar a los t grupos tales que el i−ésimo tratamiento es aplicado a cada una de
las r UE en el i−ésimo grupo (i = 1, 2, .., t).

Es claro de la definición que se tiene un diseño aleatorizado, si y solo si hay una asig-
nación aleatoria de los tratamientos a las UE.

Ventajas
Cuando en un experimento las unidades experimentales se arreglan bajo un Diseño
completamente al azar se tienen las siguientes ventajas:

Flexibilidad: Cualquier número de tratamientos y cualquier número de réplicas


pueden ser usadas, siempre y cuando se tengan suficientes UE homogéneas.

Análisis Estadístico simple: el análisis estadístico es simple ya sea cuando todos


los tratamientos tengan igual número de réplicas (balanceado), diferente número
de réplicas (desbalanceado) o pérdida de datos, caso en el cual se trata como un
análisis desbalanceado.

Máximo número de grados de libertad para el error: Esto ocurre porque el diseño
tiene solo dos fuentes de variación que son los tratamientos y el error y los grados
de libertad para este error están dados por la expresión t(r − 1).

Precisión: Es muy preciso si se tienen en cuenta UE homogéneas.

Desventajas
Se puede obtener baja precisión cuando las unidades experimentales no sean muy ho-
mogéneas y así ser ineficiente.

Usos

1. Es recomendado cuando es posible que gran parte de las UE no respondan al


tratamiento o puedan perderse durante el experimento.

2. Es útil en experimentos en los que el número de UE es limitado, ya que provee el


máximo número de grados de libertad del error.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 171

Presentación de datos
Al arreglar el material experimental de manera aleatoria utilizando un procedimiento
de aleatorización para el caso de un experimento con 15 UE y 3 tratamientos y cinco
réplicas por tratamiento usted puede obtener por ejemplo el siguiente arreglo

Tratamiento
2 1 3
01 08 15
05 06 02
09 07 04
11 12 10
14 03 13

En este momento de la realización del experimento se debe decidir cual tratamiento se


aplica primero y a que UE, siempre que sea posible.

Al ejecutar el experimento se supone que usted ha estandarizado la técnica de medición,


ha calibrado el instrumento, el examinador ha realizado su calibración inter-examinador
(para determinar su exactitud con respecto a un gold estándar) e intra-examinador
(tomando varias veces la misma para evaluar su precisión en la medida).

Las pruebas estadísticas utilizadas para validar la calibración del examinador depende
de la escala en que es medida la variable, si la variable es categórica de escala nominal u
ordinal se puede utilizar entre otros el coeficiente de concordancia Kappa, si la variable
es continua se puede utilizar, entre otros, el coeficiente de correlación concordancia de
Lin o el coeficiente de variación.

Luego de ejecutar el experimento se recomienda organizar los datos como se presenta


en la siguiente tabla.

Tratamiento
1 2 3
25 14 30
22 16 32
20 18 30
24 13 31
25 15 30

Factor
Son las variables independientes que van a cambiar o van a ser controladas en el proceso.
Estos pueden ser:
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 172

1. Cuantitativos:
Por ejemplo: la temperatura en grados para un proceso de secado de masa de
maíz fermentadas.
2. Cualitativos
Por ejemplo: máquinas u operarios, tipos de maíz etc.

Es de interés del investigador conocer su efecto sobre la respuesta.

Los factores pueden ser de efectos fijos, aleatorios o mixtos:

1. Efectos fijos: Los niveles del factor han sido seleccionados por el investigador y
las conclusiones solo aplican a esos niveles escogidos, el modelo se llama modelo
de efectos fijos.
2. Efectos aleatorios: Los niveles del factor han sido seleccionados al azar de una
población y las conclusiones pueden generalizarse a esa población, el modelo se
llama modelo de efectos aleatorios. La inferencia se hace sobre la varianza de los
tratamientos.
3. La combinación de los modelos anteriores se denomina modelo de efectos mixtos.

Niveles
Son los niveles del factor que se esta examinando.

Ejemplo: El factor temperatura en un proceso de secado de masa de maíz fermen-


tadas, se realiza con cuatro temperaturas distintas, se dice que el factor temperatura
tiene cuatro niveles, que pueden ser 40, 50, 60, y 70o C.

En el caso de un factor cualitativo, por ejemplo si se trata de tres tipos de maíz (Tipo
I, II y III) el factor tipo de maíz tendrá tres niveles.

Tratamientos
Son los niveles o combinación de niveles de los factores que intervienen en el experi-
mento.

Ejemplo:
Factor Niveles Tratamientos
Tipo de Maíz I, II y III I, II y III

Factor Niveles Tratamientos


Tipo de Maíz I, II y III trat 1: (I-50),trat 2: (II-50)
Temperatura 50, 60 y 70o C trat 3: (III-50),. . .
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 173

Variable respuesta
La variable que se mide como resultado del experimento, puede ser cualitativa o cuan-
titativa.

Ejemplo: El deterioro de pitahaya con los diferentes tipos de empaque, temperatura,


etc.

Material experimental
Son todos aquellos implementos que se utilizan en la elaboración del experimento.

Ejemplo: Termómetro, balanza, mesa, etc.

Error experimental
Es la variación aleatoria que se presenta en los datos debido a factores controlados o
no controlables.

Factores no controlables
Variables propias del sistema que no se pueden controlar durante el experimento y ali-
mentan el error experimental.

Diseño de experimentos
Consiste en determinar cuántos factores, niveles y tratamientos se estudian y cómo se
asignaran los tratamientos a las unidades experimentales.

6.2.1. Diseños Completamente Aleatorizados DCA

El juego de hipótesis a contrastar para probar la igualdad de las medias de los t


tratamientos es el siguiente:

H0 : µ1 = µ2 = · · · = µt vs Ha : µi ̸= µj , ∀i ̸= j

Generalidades

Los tratamientos se ensayan en condiciones homogéneas del material experimen-


tal.

La respuesta observada de cada uno de los t tratamientos es una variable aleatoria.

Modelo para los datos:


yij = µ + τi + ϵij
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 174

• yij es la observación j-ésima del i-ésimo tratamiento.


• µ la media global.
• τi es el efecto del i-ésimo tratamiento.
• ϵij es el componente aleatorio que incorpora todas las demás fuentes de
variabilidad del experimento.

1. Los yij y los ϵij son variables aleatorias.

2. Los µ y los τi son parámetros.

Estructura de los datos para un ANAVA a una vía de clasificación.

Forma 1:

Replicas Niveles del factor


1 2 3 ... t
1 y11 y12 y13 . . . y1t
2 y21 y22 y23 . . . y2t
.. .. .. .. .. ..
. . . . . .
r yr1 yr2 yr3 ... yrt
Total
# Replicas
µ por ttto

Forma 2:

Tttos Replicas Total µ por ttto


1 2 3 ... r
1 y11 y12 y13 . . . y1r
2 y21 y22 y23 . . . y2r
.. .. .. .. .. ..
. . . . . .
t yt1 yt2 yt3 ... ytr

Expresiones para tener en cuenta


t ∑
r
y.. = yij , esta expresión corresponde a sumar los valores de todas las obser-
i=1 j=1
vaciones recolectadas para el análisis del experimento.
y..
ȳ = , con N = rt el cual denominaremos número total de observaciones.
N
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 175


r
yi. = yij , esta expresión corresponde a la suma de las observaciones por
j=1
tratamiento.
yi.
ȳi. = , esta expresión corresponde a el promedio de las observaciones por
r
tratamiento

Expresiones para determinar las fuentes de variabilidad

Total

t ∑
r
y..2
SCT = yij2 −
i=1 j=1
N

Tratamientos
1 ∑ 2 y..2
t
SCtttos = y −
r i=1 i. N

Error
SCE = SCT − SCtttos

FV GL SC CM F
Tttos t − 1 SCttos SCtttos
t−1
= CM tttos CM tttos
CM E
Error N −t SCE SCE
N −t
= CM E
Total N − 1 SCT

Tabla 6.1: Tabla de Análisis de varianza en un DCA.

H0 se rechaza y se concluye que hay diferencias en las medias de los tratamientos si


CM ttos
F0 = > Fα (t − 1, N − t)
CM E
Donde Fα (t − 1, N − t) es el valor tabulado de la distribución F de Fisher con t − 1 y
N − t grados de libertad, a un nivel de significancia α.

1. De acuerdo con el número de repeticiones se tiene ANOVA con grupos iguales


para diseños balanceados, es decir, igual número de repeticiones por tratamiento
o ANOVA con grupos desiguales para diseños desbalanceados, o sea, diferente
número de repeticiones por tratamiento.

2. El objetivo central del ANOVA es la comparación de dos o más tratamientos,


cada uno de los cuales representa una población.

Expresiones para tener en cuenta (DCA desbalanceado)


CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 176


t ∑
r
y.. = yij , está expresión corresponde a sumar los valores de todas las obser-
i=1 j=1
vaciones recolectadas para el análisis del experimento.
y.. ∑
ȳ = , con N = rj el cual denominaremos número total de observaciones.
N

Expresiones para determinar las fuentes de variabilidad

Total
∑∑ y..2
SCT = yij2 −
i j
N

Tratamientos
∑ y2 y..2
SCtttos = i.

i
ri N

Error
SCE = SCT − SCtttos

FV GL SC CM F
Tttos t − 1 SCttos SCtttos
t−1
= CM tttos CM tttos
CM E
= F0
Error N −t SCE SCE
N −t
= CM E
Total N − 1 SCT

Tabla 6.2: Tabla de Análisis de varianza en un DCA para número de repeticiones de-
siguales.

H0 se rechaza si
CM ttos
F0 = > Fα (t − 1, N − t).
CM E

SCtttos
1. % factores controlados = SCT
SCE
2. % factores no controlados = SCT
, efectos de la aleatoriedad de las condiciones
externas no controladas.

Interpretación del ANOVA

1. Cuando σ̂ 2 = CM E es muy grande significa que probablemente no se ha ejercido


un buen control local del experimento.

2. Si SCttos > SCE, entonces los tratamientos tienen mayor contribución al modelo
que los errores o factores no controlados.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 177

3. Si SCE > SCttos, indica que mayor es la variación en las observaciones que
pueden atribuirse al error aleatorio.

Para cada problema experimental es posible hacer estimaciones de sus parámetros:

1. Una estimación de la varianza del error experimental es σ̂ 2 = CM E, es muy útil


para el análisis siempre que las varianzas de los tratamientos sean homogéneas.

2. Una estimación puntual de la media global del experimento es µ̂ = ȳ.. , tiene


sentido estimarse la media sólo cuando no se rechaza H0 .

3. Las medias de los tratamientos se estiman a partir de las medias muéstrales o


medias de grupos para el tratamiento j−ésimo. La estimación es: µ̂j = ȳi. =
∑r
yij /rj
j

4. Los efectos de los tratamientos del factor A son las diferencias entre τ = µj − µ,
los cuales se estiman mediante τ̂ = µ̂j − µ̂.

Ejemplo: Se tienen 4 tratamientos médicos T1 , T2 , T3 , y T4 , aplicables a la misma


enfermedad, y se desea comparar la efectividad de cada uno de ellos.

T1 T2 T3 T4
Replicas
1 41 48 40 40
2 44 49 50 39
3 45 49 44 46
4 43 49 48 46
5 42 45 50 41
Total yi. 215 240 232 212
Medias ȳi. 43.0 48.0 46.4 42.2
Varianzas 2.5 3.0 18.8 11.3

Ejemplo: Para comparar 4 dietas D1 , D2 , D3 , y D4 , respecto a su influencia en el


tiempo de coagulación de la sangre, se seleccionaron 24 animales y cada uno recibió
aleatoriamente una de las dietas.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 178

Replicas T1 T2 T3 T4
1 62 63 68 56
3 60 67 66 62
3 63 71 71 60
4 59 64 67 63
5 65 68 63
6 66 68 64
7 63
8 59
Total yi. 244 396 408 488
Medias ȳi. 61 66 68 61
Varianzas 4 6 6 8

Supuestos del modelo


La validez del análisis de varianza está supeditada al cumplimiento de algunos requisitos
de tipo matemático y probabilístico en los datos u observaciones.

1. Independencia de los errores εij .

2. Distribución normal de los errores εij .

3. Homogeneidad de las varianzas de los tratamientos.

6.2.2. Pruebas de igualdad de varianzas

A continuación, presentamos algunas pruebas de igualdad de varianzas.

Para probar la homogeneidad de varianzas entre los tratamiento, se pueden utilizar las
siguientes pruebas:

Prueba de Bartlett (Sensible al supuesto de normalidad).


H0 : σ12 = σ22 = · · · = σt2 = σ 2
vs
H1 : σi2 = σ 2 para algún i = 1, 2, . . . t

Estadístico de prueba:

q
χ2c = ,
c
∑t
donde, q = (N − t) log10 Sp2 − i=1 (ri − 1) log10 Si2
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 179
∑t
c=1+ 1
3(t−1) i=1 (ri − 1)−1 − (N − t)−1 ,

∑t S2
Sp2 = i=1 (ri − 1) N −t
i
,

Si2 : varianza muestral de la i-ésima población.

Región de rechazo:

Rechazo H0 si χ2c > χ21−α,t−1

Prueba LEVENE Modificada (Robusta a las desviaciones de la Nor-


malidad)
En este caso la prueba usa:

dij = |Yij − Yei |, i = 1, 2, . . . , t, j = 1, 2, . . . , ri


Yei : Mediana de las observaciones del i-ésimo nivel o tratamiento.
Esta prueba: Evalúa si la media de las dij son o no iguales para todos los tratamien-
tos.

Si las medias de las desviaciones son iguales entonces las varianzas de las obser-
vaciones en todos los tratamientos deberán ser iguales.

Luego, el estadístico de LEVENE es el estadístico F usual de la ANOVA para


igualdad de medias aplicado a dij .

6.2.3. Comparaciones múltiples

Cuando se rechaza H0 : µ1 = µ2 = · · · = µt , es necesario investigar cuales tratamientos


resultaron diferentes o cuales tratamientos son los responsables de la diferencia. Para
ello se realiza la siguiente prueba:


H0 : µi = µj


H1 : µi ̸= µj , i ̸= j

Existen diferentes métodos para la realización de estas comparaciones:

1. Método LSD (Mínima Diferencia Significativa)


Sirve para hacer la prueba de igualdad de todos los posibles pares de medias: Para
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 180

t(t−1)
t-tratamientos se tiene en total 2
pares de medias.

Se rechaza H0 : µi = µj si:

|Ȳi. − Ȳj. | > LSD,


√ ( )
LSD = (t1−α/2,N −t ) M SE r1i + 1
rj

LSD: Es la diferencia mínima que debe existir entre dos medias muestrales para
poder considerar que dos tratamientos son significativamente diferentes.

NOTA: Es una prueba para comparación de dos medias, su uso se justifica si:

Prueba F es significativa

Las comparaciones fueron planeadas antes de la realización del experimento.

2. Método de Tukey (HSD) Diferencia Significativa Honesta:


Este método usa la distribución de probabilidad del rango estudentizado dado
por:
Ȳmáx − Ȳmı́n
q= √ ,
M SE
r

qα (p; f ) : Punto percentil α-superior de la distribución de q donde f son los grados


de libertad asociados al MSE y p: Número de medias.
Se rechaza H0 si:
|Ȳi. − Ȳj. | > T ukey,

donde, T ukey = qα (t; f ) M SE/r (Diseño balanceado)
√ ( )
qα (t;f ) 1 1
T ukey = √ M SE + (Diseño desbalanceado)
2 ri rj

Se conoce como la diferencia significativa honesta.

¿Cuándo de usa? Para realizar comparaciones múltiples de medias cuando a posteriori


el diseño evidencia diferencia entre los tratamientos. Es similar a la prueba de Duncan
en cuanto a procedimiento, Duncan es más exigente.

3. Duncan
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 181

No necesita la prueba F: Se recomienda cuando ninguna diferencia entre medias


es significativa es un procedimiento potente y efectivo para detectar diferencias
entre medias cuando realmente éstas existen.

|Ȳi. − Ȳj. | > Rp ,



donde Rp = rα (p; f ) M SE/r

4. Dunnett

Se usa cuando se desea comparar todos los demás tratamientos con un control.

|Ȳi. − Ȳcontrol | > Dunnett,


√ ( )
donde Dunnett = dα (t − 1, f ) M SE r1i + r1j

5. False Discovery Rate (FDR)

La FDR se define como la proporción de hipótesis nulas verdaderas que se rechazan


dentro del total de hipótesis rechazadas. Ésta controla la proporción q de hipótesis
nulas falsamente rechazadas relativo al número total de hipótesis rechazadas.

Acepto H0 Rechazo H0 Total


H0 verdadera NT DF m0
H0 falsa NF DT m1
Total N D m

donde T : cierto; F : falso; D : descubrimiento (rechazo de H0 ); N : no descubrim-


iento. A partir de esta tabla, la FDR se define como
( )
DF
F DR = E | D > 0 P (D > 0).
D

El procedimiento FDR se reduce a:

a. probar m hipótesis independientes H0,1 , H0,2 , . . . , H0,m a partir de las cuales


se obtienen los estadísticos de prueba T0,m , T0,2 . . . , T0,m y los valores p0,1 , p0,2 , . . . , p0,m ,
respectivamente.
b. calcular κ como { }
i
κ̂ = máx i : p(i) ≤ α
m
para algún nivel de significancia α ∈ (0, 1).
c. rechazar H0,1 , H0,2 , . . . , H0,κ̂ . si no existe tal κ̂, ninguna hipótesis nula podrá
ser rechazada.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 182

Ejemplo: Suponga que se tienen los siguientes valores artificiales de expresión genética
2,3,1,2 de grupo 1, 8,7,9,8 de grupo 2, y 11,12,13,12 de grupo 3. Asignemos estos valores
a un vector Y y construyamos un factor donde indiquemos el grupo al cual pertenece
cada valor.

y=c(2,3,1,2,8,7,9,8,11,12,13,12)
a=gl(3,4)

Hagamos un boxplot de esta variable dependiendo del tratamiento al que pertenece.

boxplot(y~a,notch=T)
10 12
8
6
4
2

1 2 3

Notamos que el boxplot muestra diferencias entre los tratamientos. Verifiquemos esto
con un análisis de varianza.

El análisis de varianza en R lo hacemos de la siguiente forma:

anova(lm(y~a))

El resultado es el siguiente

Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value Pr(>F)
a 2 202.67 101.333 152 1.159e-07 ***
Residuals 9 6.00 0.667
---
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 183

Como el p−valor= 1.159e − 07, rechazamos la hipótesis de igualdad de medias. Usando


α = 0.05, hay diferencias entre las medias de los tratamientos. Esta conclusión va de la
mano con lo que se observa en el boxplot.

Ejemplo: Ahora ilustraremos el análisis de varianza usando los datos del ejemplo 3.1
del libro Diseño y análisis de experimentos de Montgomery, D. segunda Ed, pág 62. El
ejemplo es el siguiente:

Se tiene interés en investigar la resistencia a la tensión de una fibra sintética(lb/pulgada2 )


nueva que se usará para hacer tela de camisetas para caballero. Se sabe que la resisten-
cia a la tensión se afecta por el peso porcentual del algodón utilizado en la mezclade
materiales de la fibra. Además, se sospecha que al aumentar el contenido de algodón se
incrementará la resistencia. Se decide entonces probar ejemplares en cinco niveles del
peso porcentual del algodón: 15, 20, 25, 30 y 35 por ciento. También se decide realizar
cienco réplicas en cada nivel. Los datos se muestran como sigue:

p15=c(7,7,15,11,9)
p20=c(12,17,12,18,18)
p25=c(14,18,18,19,19)
p30=c(19,25,22,19,23)
p35=c(7,10,11,15,11)
porcentaje=gl(5,5,labels=c("p15","p20","p25","p30","p35"))
resistencia=c(p15,p20,p25,p30,p35)
25
20
15
10

p15 p20 p25 p30 p35


CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 184

En el boxplot podemos notar que existe diferencia entre los tratamientos. Es necesario
realizar en análisis de varianza para verificar esto a través de la prueba F.

anv1=lm(resistencia~porcentaje)
summary(anv1)
anova(anv1)

Los resultado son los siguientes

Call:
lm(formula = resistencia ~ porcentaje)

Residuals:
Min 1Q Median 3Q Max
-3.8 -2.6 0.4 1.4 5.2

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.800 1.270 7.719 2.02e-07 ***
porcentajep20 5.600 1.796 3.119 0.005409 **
porcentajep25 7.800 1.796 4.344 0.000315 ***
porcentajep30 11.800 1.796 6.572 2.11e-06 ***
porcentajep35 1.000 1.796 0.557 0.583753
---

Residual standard error: 2.839 on 20 degrees of freedom


Multiple R-squared: 0.7469, Adjusted R-squared: 0.6963
F-statistic: 14.76 on 4 and 20 DF, p-value: 9.128e-06

Analysis of Variance Table

Response: resistencia
Df Sum Sq Mean Sq F value Pr(>F)
porcentaje 4 475.76 118.94 14.757 9.128e-06 ***
Residuals 20 161.20 8.06

El p−valor de la prueba F nos permite rechazar la hipótesis de igualdad de medias.


Ahora bien, de los p−valores correspondientes a los t-test (2.02 × 10−7 , 0.005409,
0.000315, 2.11 × 10−6 , y 0.583753) podemos concluir que rechazamos las hipótesis nulas
H0 : µp15 = 0, H0 : µp20 − µp15 = 0, H0 : µp25 − µp15 = 0, H0 : µp30 − µp15 = 0 y
H0 : µp35 − µp15 = 0, respectivamente. Cabe notar que en esta prueba inicial sobre un
grupo de referencia, no se ha realizado corrección del p-valor por múltiples pruebas.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 185

Como hemos aplicado un modelo lineal en el análisis de varianza, debemos chequear


los supuestos. En este caso, hay que verificar que los errores sean independientes y nor-
malmente distribuidos. Además, Hay que chequear el supuesto de homocedasticidad de
varianza.

Hagamos un chequeo gráfico de los dos primeros.

opar=par()
par(mfrow=c(2,2))
plot(anv1)
par(opar)

Residuals vs Fitted Normal Q−Q


6

3 3

2
24 24
4

Standardized residuals

1
Residuals

2
0

0
−2

−1
−4

21
21

10 12 14 16 18 20 22 −2 −1 0 1 2

Fitted values Theoretical Quantiles

Constant Leverage:
Scale−Location Residuals vs Factor Levels
3
3
2

24
1.2

21 24
Standardized residuals

Standardized residuals

1
0.8

0
0.4

−1

21
0.0

porcentaje :
10 12 14 16 18 20 22 p15 p20 p25 p30 p35

Fitted values Factor Level Combinations

Gráficamente notamos una posible violación al supuesto de normalidad. Verifiquemos


esto con pruebas estadísticas.

Hagamos el test de Shapiro-Wilk para verificar normalidad.

shapiro.test(residuals(anv1))

Shapiro-Wilk normality test

data: residuals(anv1)
W = 0.94387, p-value = 0.1818
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 186

Podemos notar que no se rechazada la hipótesis de normalidad de los errores con un


nivel α = 0.05, pues (p−valor=0.1818).

Por otro lado, verifiquemos el supuesto de homocedasticidad de varianzas usando el test


de Bartlett el cual es sensible al supuesto de normalidad.

En R usamos la función bartlett.test(). NOTA: en caso de rechazo de normalidad,


usamos el test leveneTest() del paquete car.

bartlett.test(resistencia~porcentaje)

Bartlett test of homogeneity of variances

data: resistencia by porcentaje


Bartlett’s K-squared = 0.93309, df = 4, p-value = 0.9198

Como p−valor=0.9198, no rechazamos la hipótesis de igualdad de varianza.

Si hay únicamente desviaciones de varianzas iguales, podemos llevar a cabo el test


propuesto por Welch (1951) sobre una alternativa de comparación de medias cuando el
supuesto de homocedasticidad es violado. Para ello, usamos la función oneway.test()
de R.

Por ejemplo, haríamos lo siguiente:

oneway.test(resistencia~porcentaje)

One-way analysis of means (not assuming equal variances)

data: resistencia and porcentaje


F = 12.451, num df = 4.0000, denom df = 9.9164, p-value = 0.0006987

Con este resultado, rechazaríamos la hipótesis de igualdad de medias.

En caso de que el supuesto de normalidad sea violado, debemos hacer un test no


paramétrico. Se recomienda usar el test de suma de rangos de Kruskal-Wallis el cual
puede ser visto como una generalización del test de Wilcoxon. En R, usamos la función
kruskal.test().

kruskal.test(resistencia~porcentaje)
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 187

Kruskal-Wallis rank sum test

data: resistencia by porcentaje


Kruskal-Wallis chi-squared = 19.064, df = 4, p-value = 0.0007636

De igual forma, como p−valor=0.0007636, rechazamos la hipótesis de igualdad de me-


dias entre los tratamientos usando α = 0.05.

Comparaciones múltiples: luego de detectar diferencias entre las medias de los


tratamientos, es de interés conocer cuáles niveles o combinaciones de niveles son difer-
entes.

En caso de no rechazar el supuesto de normalidad, podemos usar la función pairwise.t.test(),


de lo contrario, usamos la función pairwise.wilcox.test(). Estas funciones real-
izan comparaciones entre niveles de grupos usando corrección para múltiples pruebas.
Además, estas funciones permiten, mediante el argumento p.adj, seleccionar el método
de comparación deseado, entre otros tenemos ’bonferroni’ y ’fdr’.

Para nuestro ejemplo, como se cumple el supuesto de normalidad, hacemos lo siguiente.

pairwise.t.test(resistencia,porcentaje,p.adj="fdr")

Pairwise comparisons using t tests with pooled SD

data: resistencia and porcentaje

p15 p20 p25 p30


p20 0.0090 - - -
p25 0.0010 0.2608 - -
p30 2.1e-05 0.0050 0.0469 -
p35 0.5838 0.0266 0.0029 3.5e-05

P value adjustment method: fdr

Notamos a un nivel α = 0.05, que hay diferencias significativas entre los promedios de
los tratamientos excepto entre p15 y p35, y p20 y p25, respectivamente. Note que la
diferencia más significativa se presenta entre los grupos p15 y p30.

6.2.4. Otras estrategias cuando se violan los supuestos

Una causa común de heterogeneidad de varianza entre los niveles de los tratamientos
es una relación no lineal entre la respuesta y los tratamientos. Una forma de corregir
esta situación es transformar la variable respuesta.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 188

Transformación Box-Cox
Box and Cox (1964) propuso una serie de transformaciones potencia Y = y λ que nor-
malmente trabajan bien. Si la varianza tiende a incrementarse a medida que la media
incrementa, seleccione un valor de λ < 1, si la varianza tiende a decrecer a medida que
la media se incrementa, seleccione λ > 1.
En un DCA con réplicas en cada nivel de los tratamientos, una forma de determinar
el valor más apropiado de λ es graficar el máximo de la función de log verosimilitud,
versus el valor de λ usado en la transformación de los datos. El valor de λ que maximiza
la log verosimilitud puede ser el más apropiado para la transformación Box-Cox. Este
gráfico es llamado el Box-Cox plot y se puede obtener con la función boxcox del paquete
MASS de R.
Para nuestro ejemplo, tenemos los siguiente:

library(MASS)
anv1=lm(resistencia~porcentaje)
bc <- boxcox(anv1)
lambda <- bc$x[which.max(bc$y)]
lambda

95%
0
log−Likelihood

−5
−10
−15

−2 −1 0 1 2

Podemos notar que el valor recomendado para λ es 1.192. Note que el intervalos de
confianza para λ (línea punteada) incluye el 1, es decir, sin transformación. Esto nos
puede indicar la incertidumbre que tenemos acerca de una posible heterogeneidad de las
varianzas de los tratamientos. Sin embargo, a manera de ejemplo, consideremos dicha
transformación.

t.resistencia= resistencia^(1.191919)
anv2=lm(t.resistencia~porcentaje)
anova(anv2)
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 189

Analysis of Variance Table

Response: t.resistencia
Df Sum Sq Mean Sq F value Pr(>F)
porcentaje 4 1905.13 476.28 15.149 7.542e-06 ***
Residuals 20 628.79 31.44

Note que el p-valor para los tratamientos en el modelo transformado disminuyó de


9.13 × 10−6 (modelo 1) a 7.54 × 10−6 . Por lo tanto, la transformación ha hecho que el
análisis sea ligeramente más sensible.
Para los experimentos donde la heterogeneidad de la varianza es más pronunciada, la
transformación de Box-Cox puede aumentar enormemente la sensibilidad en la detección
de los efectos del tratamiento.
Transformaciones basadas en distribución
Cuando de antemano se conoce que no se cumple que Yij ∼ N (µ+τi , σ 2 ), y que los datos
siguen una distribución como la Binomial, Poisson o Lognormal, por ejemplo, entonces
también se sabría que la desviación estándar no sería constante. En situaciones como
estas, donde la distribución de la variable respuesta es conocida y sigue una forma
específica, se propone las siguientes transformaciones.

Respuesta Varianza en términos de la media Transformación f (y)



Binomial µ(1−µ)
n
sin−1 y/n √(radianes)

Poisson µ y o y + 12
Lognormal cµ2 log(y)

Alternativa a análisis de mínimos cuadrados


Cuando la varianza del error experimental no es constante para todos los niveles de los
tratamientos, una transformación puede no ser adecuada para estabilizar la varianza.
Una solución más general a este problema es usar mínimos cuadrados ponderados.
Como ilustración de este método, considere el siguiente código de R para analizar los
datos de nuestro ejemplo:

da1=data.frame(resistencia,porcentaje)

with(da1,{std=tapply(resistencia,porcentaje,sd)
pesos=rep(1/std,each=5)
anv3=lm(resistencia~porcentaje,weights=pesos,data=da1)
anova(anv3)
})

Analysis of Variance Table


CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 190

Response: resistencia
Df Sum Sq Mean Sq F value Pr(>F)
porcentaje 4 169.107 42.277 15.075 7.817e-06 ***
Residuals 20 56.088 2.804

Notamos que los resultados son muy similares respecto a la transformación Box-Cox.

6.3. Contrastes
Un contraste es toda combinación lineal de medias de tratamiento, donde la suma
algebraica de sus coeficientes es igual a cero. En general una combinación lineal o
contraste es de la forma:

t
Γ = c1 µ1 + c2 µ2 + · · · + ct µt = ci µi
i=1
∑t
donde se cumple que i=1 ci = 0.

En cualquier experimento se puede presentar la necesidad de comparar grupos de


tratamientos, en estos casos el método de los contrastes resulta una alternativa para
llevar a cabo dichas comparaciones.

Para entender un poco más la idea de los contrastes, continuemos con el ejemplo an-
terior, donde a un ingeniero de desarrollo de productos le interesa determinar si el
peso porcentual del algodón en una fibra sintética afecta la resistencia a la tensión.
Recuerde que este es un experimento completamente aleatorizado con cinco niveles del
peso porcentual del algodón y cinco réplicas. Los datos se muestran en la siguiente
tabla.

Repeticiones Totales Promedios


Niveles de peso 1 2 3 4 5 yi ȳi
T1 7 7 15 11 9 49 9.8
T2 12 17 12 18 18 77 15.4
T3 14 18 18 19 19 88 17.6
T4 19 25 22 19 23 108 21.6
T5 7 10 11 15 11 54 10.8
y.. = 376 ȳ.. = 15.04

Si observamos en el boxplot de la resistencia vs porcentaje (ver gráfico), podemos notar


que existen diferencias entre los tratamientos. Aquí, puede ser de interés, por ejemplo,
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 191

saber si los promedios de los niveles 1 y 2, no difieren del promedio de los niveles 4 y
5, es decir, promedio de niveles más bajos vs promedio de niveles más altos, por lo que
podemos estar interesados en el siguiente test:

H0 : µ1 + µ2 − µ4 − µ5 = 0 vs Ha : µ1 + µ2 − µ4 − µ5 ̸= 0

resistencia=c(7,7,15,11,9,12,17,12,18,18,14,18,18,19,19,19,25,
22,19,23,7,10,11,15,11)
porcentaje=gl(5,5,labels=c(’p15’,’p20’,’p25’,’p30’,’p35’))
boxplot(resistencia~porcentaje,ylab=’Resistencia’,xlab=’Porcentaje
de algodón’)
25
20
Resistencia

15
10

p15 p20 p25 p30 p35


Porcentaje
de algodón

De forma general, se quiere contrastar la siguiente hipótesis:


t ∑
t
H0 : ci µi = 0 vs Ha : ci µi ̸= 0
i=1 i=1

Las constantes de los contrastes para la hipótesis de nuestro ejemplo son: c1 = c2 = 1,


c3 = 0, y c4 = c5 = −1.
Se tienen dos opciones de estadísticos de prueba:
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 192

1. El estadístico t-student, el cual está escrito en términos de los totales de los


tratamientos ∑t
i=1 ci yi.
t0 = √ ∑
nM SE ti=1 ci
La hipótesis nula se rechazaría si |t0 | > tα/2,N −t .

2. El estadístico F de Fisher
(∑t )2
i=1 ci yi.
F0 = t20 = ∑
nM SE ti=1 ci

La hipótesis nula se rechazaría si F0 > Fα,1,N −t .

Contrastes ortogonales
Dos contrastes con coeficientes {ci } y {di } son ortogonales o independientes si


t
ci di = 0,
i=1

o para un diseño no balanceado, si


t
n i c i di = 0
i=1

Se puede probar que dados t tratamientos, se pueden obtener a lo más t − 1 contrastes


ortogonales cada uno con 1 grado de libertad. Por lo tanto, las pruebas que se realizan
en los contrastes ortogonales son independientes.
En nuestro ejemplo, suponga que estamos interesados en las siguientes contrastes or-
togonales:

H0 : µ2 + µ3 − µ4 − µ5 = 0 vs Ha : µ2 + µ3 − µ4 − µ5 ̸= 0

H0 : 4µ1 − µ2 − µ3 − µ4 − µ5 = 0 vs Ha : 4µ1 − µ2 − µ3 − µ4 − µ5 ̸= 0

H0 : µ2 − µ3 = 0 vs Ha : µ2 − µ3 ̸= 0

H0 : µ4 − µ5 = 0 vs Ha : µ4 − µ5 ̸= 0
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 193

install.packages(’gmodels’)
library(gmodels)
MatrizContraste= rbind(’T2;T3 vs T4;T5’=c(0,1,1,-1,-1),
’T1 vs resto’=c(4,-1,-1,-1,-1),
’T2 vs T3’=c(0,1,-1,0,0), ’T4 vs T5’=c(0,0,0,1,-1))

mo=lm(resistencia~porcentaje)
Contrastes=fit.contrast(mo,’porcentaje’,MatrizContraste,conf=0.95)
Contrastes

Los resultados son los siguientes:

Estimate Std. Error t value Pr(>|t|) lower CI upper CI


porcentajeT2;T3 vs T4;T5 0.6 2.539291 0.2362864 8.156135e-01 -4.696869 5.896869
porcentajeT1 vs resto -26.2 5.678028 -4.6142782 1.676859e-04 -38.044158 -14.355842
porcentajeT2 vs T3 -2.2 1.795550 -1.2252513 2.347148e-01 -5.945452 1.545452
porcentajeT4 vs T5 10.8 1.795550 6.0148699 7.011202e-06 7.054548 14.545452

Ejercicio:
Considere los datos de un experimento para determinar el efecto del tiempo respecto
a la altura o elevación de la masa de pan. Si el experimentador desea examinar tres
tiempos de elevación diferentes (35 minutos, 40 minutos y 45 minutos) y probar cuatro
barras de pan repetidas en cada tiempo. Los datos son los siguientes:

Tiempo Altura
35 4.5, 5, 5.5, 6.75
40 6.5, 6.5, 10.5, 9.5
45 975, 8.75, 6.5, 8.25

Estudie el posible efecto usando la teoría previamente vista.

6.4. Diseño en Bloques Completamente Aleatorizados-


DBCA
El objetivo principal de cualquier diseño estadístico es la reducción del error experi-
mental.
Generalmente el tamaño de este error depende de la variabilidad de las U.E., es decir que
si las U.E. son homogéneas se espera que la media cuadrática del error sea relativamente
pequeña y, por tanto las pruebas como las estimaciones subsiguientes tendrán mayor
sensibilidad y precisión.
En muchas investigaciones es necesario diseñar el experimento de tal forma que se pue-
da controlar sistemáticamente la variabilidad producida por diversas fuentes extrañas
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 194

(variables exógenas). Cuando esto no ocurre y existen otros factores que no se controlan
o nulifican los resultados del ANAVA, las comparaciones entre medias de tratamiento
y las conclusiones generales podrán resultar sensiblemente afectadas.
Ejemplos:

Se desean comparar varias máquinas en cuanto a su desempeño (unidades pro-


ducidas); si cada máquina es manejada por un operador diferente y se sabes que
éste tiene una influencia en el resultado, entonces es claro que el factor operador
debe tomarse en cuenta si se quiere comparar las máquinas de manera justa.

Un experimentador quisiera comparar varios métodos de ejercicio aeróbico para


ver cómo afecta el nivel de estrés y ansiedad de los sujetos experimentales. Dado
que existe una gran variabilidad en los niveles de estrés y ansiedad en la población
general, medida por puntajes de prueba estandarizados, sería difícil ver cualquier
diferencia entre los diversos métodos de ejercicio a menos que los sujetos reclutados
para el estudio fueran un grupo homogéneo, cada uno similar en su nivel de estrés.
Sin embargo, al experimentador le gustaría sacar conclusiones generales de su
estudio a personas de todos los niveles de estrés en la población general.

En diseño experimental, esta forma de anular una fuente de variabilidad externa se


conoce con el nombre de bloqueo.
En un DBCA con un tratamiento factor, cuando el factor tiene t niveles, pueden haber
b bloques (o subgrupos de unidades experimentales homogéneas) donde cada uno con-
tenga exactamente t unidades experimentales, para un total de t×b U.E. Las t unidades
experimentales en cada bloque son tan similares como sea posible, y los grupos de
unidades experimentales varían lo suficiente de bloque a bloque permitiendo hacer con-
clusiones generales en el estudio.
La aleatorización de las unidades experimentales a los niveles del factor tratamiento
en un DBCA se puede realizar usando un código R. Para ilustrar dicha aleatorización,
veamos el siguiente ejemplo: un estudiante quiere investigar un mito sobre un método
para extender la vida de las flores cortadas. El factor tratamiento fue el líquido para
llenar el vaso. Los niveles fueron:

El agua

El agua con una cucharada de azúcar añadida

El agua con una copa de agua carbonatada

El agua con una copa de 7up

Las unidades experimentales fueron las flores y la respuesta fue el tiempo en días hasta
que la flor se marchitara. Los estudiantes querían que sus conclusiones se puedan aplicar
en muchos tipos de flores, por lo que usaron un DBCA. Los bloques fueron:
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 195

Rosa

Clavel

Margarita

Tulipán

El código R para el ejemplo es como sigue:

f = factor(c(1,2,3,4))
b1t = sample(f,4)
b2t = sample(f,4)
b3t = sample(f,4)
b4t = sample(f,4)
t = c(b1t,b2t,b3t,b4t)
block = factor(rep(c(’Rosa’,’Clavel’,’Margarita’,’Tulipán’),each=4))
flnum = rep(f,4)
plan = data.frame(TipoFlor=block,NumFlor=flnum,Tratamiento=t)
write.table(plan,file=’DBCAPlan.csv’,sep =’,’,row.names=FALSE)

El DBCA también puede ser creado usando la función design.rcbd del paquete agricolae
de R. El código R es como sigue:

install.packages(’agricolae’)
library(agricolae)
treat = c(1,2,3,4)
outdesign = design.rcbd(treat, 4, seed = 11)
rcb = outdesign$book
levels(rcb$block) <- c(’Rosa’,’Clavel’,’Margarita’,’Tulipán’)

Modelo para el DBCA


El modelo para el análisis de un DBCA es:

yij = µ + bi + τj + ϵij ,
donde

yij : es la medición de la variable de estudio Y que corresponde al tratamiento j


y al bloque i

µ : es la media general común a todos los tratamientos

bi : es el efecto medio adicional debido al bloque i


CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 196

τj : es el efecto medio adicional debido al tratamiento j

ϵij : es el error aleatorio atribuible a la medición yij

Se supone que los errores son iid con distribución normal de media cero y varianza
constante σ 2 , N (0, σ 2 ).
Nuevamente el interés radica en saber si estadísticamente existen diferencias significa-
tivas entre los tratamientos, y por otro lado, pero ya en un segundo plano, determinar
si el bloqueo fue efectivo.
Así, las pruebas de hipótesis correspondientes son:

Para los tratamientos:

H0 : µ.1 = µ.2 = · · · = µ.t vs Ha : µ.j ̸= µ.j ′ para algún j ̸= j ′

Para los bloques:

H0 : µ1. = µ2. = · · · = µb. vs Ha : µi. ̸= µi′ . para algún i ̸= i′


b ∑
t
SCT otal = (yij − ȳ.. )2
i=1 j=1


b ∑
t ∑
b ∑
t ∑
b ∑
t
= (ȳi. − ȳ.. ) +
2
(ȳ.j − ȳ.. ) +
2
(yij − ȳi. − ȳ.j + ȳ.. )2 ,
i=1 j=1 i=1 j=1 i=1 j=1

es decir, SCT otal = SCBloq + SCT T O + SCEE .


La tabla ANAVA para un DBCA está dada como sigue:

F.V G.L SS MS Est. F


SCBloq M SBloq
Bloques b−1 SCBloq M SBloq = b−1 M SEE
Tratamientos t−1 SCT T O M ST T O = SCt−1
TTO M ST T O
M SEE
Error (b − 1)(t − 1) SCEE SCEE
M SEE = (b−1)(t−1)
Total bt − 1 SCT otal

La estimación de la varianza de las unidades experimentales homogéneas dentro de cada


bloque esta dado por:
2 SCEE
σ̂dbca =
(b − 1)(t − 1)
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 197

Se puede hacer una estimación de la varianza de todo el grupo de unidades experimen-


tales heterogéneas a partir de los cuadrados medios en el ANOVA del DBCA. Está dada
por la fórmula.
2 SCBloq + SCEE
σ̂dca = ,
t(b − 1)

el cual es un promedio ponderado del cuadrado medio para bloques y el cuadrado medio
para el error.

La eficiencia relativa de el DBCA es dada por la fórmula:


2
(νdbca + 1)(νdca + 3)σ̂dca
RE = 2
,
(νdbca + 3)(νdca + 1)σ̂dbca

donde νdbca = (b − 1)(t − 1) son los grados de libertad del error en el DBCA, y
νdca = t(b − 1) son los grados de libertad para el error en un DCA con el mismo
número de unidades experimentales.

Se puede usar RE para determinar el número de observaciones que se requerirían en un


DCA, con unidades experimentales heterogéneas, para tener las variaciones para las me-
dias de tratamiento equivalentes a las logradas con el DBCA. Si se usaran b×t unidades
experimentales en el diseño DBCA, entonces se requerirían RE × (b × t) unidades ex-
perimentales en un diseño DCA, sin bloqueo, para alcanzar variaciones equivalentes de
las medias de tratamiento.

Ejemplo 1:
En una empresa lechera se tienen varios silos para almacenar leche (cisternas de 60000L).
Un aspecto crítico para que se conserve la leche es la temperatura de almacenamiento.
Se sospecha que en algunos silos hay problemas, por ello, durante cinco días se decide
registrar la temperatura a cierta hora crítica. Obviamente la temperatura de un día
a otro es una fuente de variabilidad que podría impactar la variabilidad total de la
variable temperatura de la leche. Por estas razones se tuvo que bloquear por día de
medición. Los datos se presentan a continuación:

Silo
Día A B C D E
Lunes 4.0 5.0 4.5 2.5 4.0
Martes 4.0 6.0 4.0 4.0 4.0
Miércoles 5.0 2.0 3.5 6.5 3.5
Jueves 0.5 4.0 2.0 4.5 2.0
Viernes 3.0 4.0 3.0 4.0 4.0

Las hipótesis a probar son:


CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 198

Para los tratamientos:

H0 : µ.A = µ.B = µ.C = µ.D = µ.E vs Ha : µ.j ̸= µ.j ′ para algún j ̸= j ′

Para los bloques:

H0 : µ1. = µ2. = µ3. = µ4. = µ5. vs Ha : µi. ̸= µi′ . para algún i ̸= i′

Los datos los ingresamos a R de la siguiente manera:

block = factor(rep(c("Lunes","Martes","Miércoles","Jueves","Viernes"),
each=5))
f = factor(rep(c("A","B","C","D","E"),5))
temp=c(4.0, 5.0, 4.5, 2.5, 4.0,
4.0, 6.0, 4.0, 4.0, 4.0,
5.0, 2.0, 3.5, 6.5, 3.5,
0.5, 4.0, 2.0, 4.5, 2.0,
3.0, 4.0, 3.0, 4.0, 4.0)
plan = data.frame(día=block,trat=f,temp=temp)
plan

El modelo se escribe como sigue:

attach(plan)
mod=aov(temp~día+trat)
summary(mod)

Df Sum Sq Mean Sq F value Pr(>F)


día 4 9.76 2.440 1.511 0.246
trat 4 4.46 1.115 0.690 0.609
Residuals 16 25.84 1.615

A un nivel de significancia del 5 %, no rechazamos la hipótesis de igualdad de medias


de tratamientos.
Ejemplo 2:
Considere los siguientes datos cuyo experimento corresponde al efecto del fármaco sulfa-
to de d-anfetamina sobre el comportamiento de las ratas (Lawson, J. (2014)).

El comportamiento estudiado en las ratas fue la velocidad a la que estas, privadas de


agua, presionaron una palanca para obtener agua. La respuesta fue la tasa de presión
de la palanca, definida como el número de presiones de palanca divididas por el tiempo
transcurrido de la sesión. Los niveles de factor de tratamiento fueron diferentes dosis
del fármaco en miligramos por kilogramo de peso corporal, incluida una dosis de control
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 199

que consistía en una solución salina. Un experimento, o corrida, consistió en inyectar


una rata con una dosis de medicamento, y después de una hora comenzar la sesión
experimental en la que una rata recibiría agua cada vez que se presionaba una segunda
palanca.

Rat 0.0 0.5 1.0 1.5 2.0


1 0.60 0.80 0.82 0.81 0.50
2 0.51 0.61 0.79 0.78 0.77
3 0.62 0.82 0.83 0.80 0.52
4 0.60 0.95 0.91 0.95 0.70
5 0.92 0.82 1.04 1.13 1.03
6 0.63 0.93 1.02 0.96 0.63
7 0.84 0.74 0.98 0.98 1.00
8 0.96 1.24 1.27 1.20 1.06
9 1.01 1.23 1.30 1.25 1.24
10 0.95 1.20 1.18 1.23 1.05

Los datos hacen parte de la librería daewr de R. El modelo es entonces como sigue:

install.packages("daewr")
library(daewr)
mod1 = aov( rate ~ rat + dose, data = drug )
summary(mod1)

Los resultados son los siguientes:

Df Sum Sq Mean Sq F value Pr(>F)


rat 9 1.6685 0.18538 22.20 3.75e-12 ***
dose 4 0.4602 0.11505 13.78 6.53e-07 ***
Residuals 36 0.3006 0.00835

Los resultados del Anova muestran que hay una diferencia significativa en los promedios
de los niveles de los tratamientos usando un nivel de significancia del 5 %. Por lo que
se requiere hacer comparaciones de medias.
La función contr.poly puede ser usada para calcular el contraste lineal, cuadrático o
cúbico para la dosis.

contrasts(drug$dose) = contr.poly(5)
mod2 = aov( rate ~ rat + dose, data = drug)
summary.aov(mod2,split = list(dose = list("Linear" = 1,"Quadratic" = 2,
"Cubic" = 3, "Quartic" = 4)))
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 200

Los resultados muestran que existe una tendencia lineal y cuadrática significativa en la
tasa de presión de la palanca sobre la dosis del fármaco.

Df Sum Sq Mean Sq F value Pr(>F)


rat 9 1.6685 0.1854 22.205 3.75e-12 ***
dose 4 0.4602 0.1151 13.781 6.53e-07 ***
dose: Linear 1 0.0610 0.0610 7.308 0.0104 *
dose: Quadratic 1 0.3943 0.3943 47.232 4.83e-08 ***
dose: Cubic 1 0.0041 0.0041 0.491 0.4882
dose: Quartic 1 0.0008 0.0008 0.094 0.7613
Residuals 36 0.3006 0.0083

Las tendencias lineales y cuadráticas significativas en el rango de dosis se pueden visu-


alizar graficando las medias como función de la dosis.

R = do.call("cbind", split(drug$rate, drug$rat))


y = apply(R, 1, mean )
x = as.double( levels(drug$dose) )
plot( x, y, xlab = "dose", ylab = "average lever press rate" )
xx = seq( 0.0, 2.0, .1 )
rate.quad <- lm( y ~ poly( x, 2) )
lines(xx, predict( rate.quad, data.frame( x = xx) ))
1.00
0.95
average lever press rate

0.90
0.85
0.80

0.0 0.5 1.0 1.5 2.0

dose

La varianza estimada de las unidades experimentales (ensayos) dentro de un bloque (o


2
rata) es el error cuadrático medio σ̂rcb = 0.00835.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 201

La varianza de las unidades experimentales heterogéneas está dada por

2 1.6685 + 0.3006
σ̂crd = = 0.04376
5(9)

Note que esta es aproximadamente cinco veces mayor que la varianza dentro de una
rata y demuestra la efectividad del bloqueo por rata en el experimento.

La eficiencia relativa está dada por:

2
(νdbca + 1)(νdca + 3)σ̂dca (37)(48)0.04376
RE = 2
= = 5.2413
(νdbca + 3)(νdca + 1)σ̂dbca (39)(46)0.00835

Esto significa que el bloqueo ha reducido la varianza de las unidades experimentales


aproximadamente 80 % = 1 − 0.00835
0.04376
, y que tomaría aproximadamente cinco veces más
ensayos tener las varianzas equivalentes para las medias de tratamiento si cada rata se
hubiera utilizado para solo un ensayo en un DCA, y la variabilidad de rata a rata no
se había eliminado del término de error.

ANAVA no paramétrico para un DBCA


Cuando el diseño es en bloques y el análisis paramétrico no cumple con los supuestos
del modelo, la prueba de Friedman, basada en rangos, es una alternativa no paramétrica
para el análisis de la información.
Este también es conocida como ANAVA no paramétrico para un DBCA. La hipótesis
a contrastar es:

H0 : µ.1 = µ.2 = · · · = µ.t vs Ha : µ.j ̸= µ.j ′ para algún j ̸= j ′

Los pasos a seguir son los siguientes:

Asignar rango a las observaciones de cada bloque, en forma independiente, de


menor a mayor.

Sumar los rangos para cada tratamiento.

Calcular el estadístico de prueba y compararlo con el valor de la tabla correspon-


diente.

La estadística de prueba correspondiente es:

12 ∑ t
H= R2 − 3b(t + 1),
tb(t + 1) j=1 .j
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 202

donde b es el número de bloques y t el número de tratamientos utilizados en el ex-


perimento. R.j es la suma de los rangos asignados a las observaciones del j−ésimo
tratamiento.
La estadística H tiene distribución χ2 con t − 1 grados de libertad, así H0 es rechazada
a un nivel de significancia α si H > χ2α,t−1 .
Para ilustrar la prueba de Friedman en R nuevamente usaremos el Ejemplo 1.

block = factor(rep(c("Lunes","Martes","Miércoles","Jueves","Viernes"),
each=5))
f = factor(rep(c("A","B","C","D","E"),5))
temp=c(4.0, 5.0, 4.5, 2.5, 4.0,
4.0, 6.0, 4.0, 4.0, 4.0,
5.0, 2.0, 3.5, 6.5, 3.5,
0.5, 4.0, 2.0, 4.5, 2.0,
3.0, 4.0, 3.0, 4.0, 4.0)
plan = data.frame(día=block,trat=f,temp=temp)

library(agricolae)
attach(plan)
Fried=friedman(día,trat,temp,alpha=0.05,group=T)
Fried

Los resultados son los siguientes:

$‘statistics‘
Chisq Df p.chisq F DFerror p.F t.value LSD
3.853659 4 0.4261731 0.9546828 16 0.4586031 2.119905 9.642074

$parameters
test name.t ntr alpha
Friedman trat 5 0.05

$means
temp rankSum std r Min Max Q25 Q50 Q75
A 3.3 11.5 1.7175564 5 0.5 5.0 3.0 4.0 4.0
B 4.2 19.0 1.4832397 5 2.0 6.0 4.0 4.0 5.0
C 3.4 13.0 0.9617692 5 2.0 4.5 3.0 3.5 4.0
D 4.3 17.5 1.4404860 5 2.5 6.5 4.0 4.0 4.5
E 3.5 14.0 0.8660254 5 2.0 4.0 3.5 4.0 4.0

$comparison
NULL
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 203

$groups
Sum of ranks groups
B 19.0 a
D 17.5 a
E 14.0 a
C 13.0 a
A 11.5 a

attr(,"class")
[1] "group"

Entonces, no existen diferencias significativas entre los tratamientos (Silos).


Ejercicio:
Se llevó a cabo un experimento con 5 diluciones de jugo de naranja agria desamargada
enzimáticamente. Los tratamientos fueron:

T1: 100 % de naranja agria y 0 % de agua,

T2: 75 % de naranja agria y 25 % de agua,

T3: 50 % de naranja agria y 50 % de agua

T4: 25 % de naranja agria y 75 % de agua y

T5: 1 % de naranja agria y 99 % de agua.

Se tomaron 10 catadores previamente entrenados, quienes calificaron, en general, cada


bebida en una escala de 0 a 10. Los datos son los siguientes:

Catador T1 T2 T3 T4 T5
1 9 7 8 8 5
2 7 9 7 7 8
3 7 9 8 8 8
4 9 8 9 9 6
5 7 8 7 8 7
6 7 9 7 6 8
7 8 8 6 8 8
8 8 9 7 7 8
9 7 9 6 7 7
10 8 9 6 8 8

Verificar si existen diferencias en la calificación para las cinco diluciones de jugo de


naranja agria y compare los resultados con un DCA.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 204

6.5. Diseños factoriales


Una estrategia para la experimentación cuando se tienen múltiples factores es usar un
diseño factorial. En un diseño factorial las celdas corresponden a las posibles combina-
ciones de los niveles de los factores bajo estudio. El diseño factorial acentúa el efecto
de los factores, permite la estimación de efectos de interdependencia (interacciones), y
es la primera técnica en la categoría llamada diseño de tratamientos.
Al examinar todas las combinaciones posibles de niveles del factor, el número de repeti-
ciones de un nivel específico de un factor se incrementa por el producto del número de
niveles de todos los otros factores en el diseño, y así se puede obtener la misma potencia
o precisión con menos réplicas.
Interacción
Si hay una interacción o efecto conjunto entre dos factores, entonces el efecto de un
factor sobre la respuesta variará dependiendo del nivel del otro factor. Las interacciones
son comunes en el mundo real, pero cuando se usa una estrategia de diseño uno a uno
(con un solo factor), se asume que no existe interacciones, lo cual puede ir en contra de
los resultados obtenidos.
La siguiente Tabla muestra los resultados de un experimento factorial llevado a cabo
por Derringer (1974) para determinar el efecto de los compuestos de elastómero sobre
la sílice de viscosidad a 100o C. El compuestos de elastómero estudiados fueron aceite
de nafteno, en 4 niveles, y contenido de relleno, en 6 niveles.

Relleno (phr)
Nafteno (phr) 0 12 24 36 48 60
0 25 30 35 40 50 60
10 18 21 24 28 33 41
20 13 15 17 20 24 29
30 11 14 15 17 18 25

Los datos los podemos ingresar en R como sigue:

naft=rep(c(0,10,20,30),each=6)
fill1=rep(c(0,12,24,36,48,60),times=4)
resp=scan()
25 30 35 40 50 60
18 21 24 28 33 41
13 15 17 20 24 29
11 14 15 17 18 25

d1=data.frame(naft,fill1,resp)
View(d1)
attach(d1)
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 205

El gráfico de interacción se obtiene con la siguiente instrucción.

with(d1, (interaction.plot(fill1, naft, resp, type = "b",


pch=c(18,24,22,20), leg.bty = "o",
main = "Gráfico de interacción de nafteno y relleno",
xlab = "Relleno",ylab = "Viscosidad")))

Gráfico de interacción de nafteno y relleno


60

naft

0
10
50

20
30
40
Viscosidad

30
20
10

0 12 24 36 48 60

Relleno

La Figura anterior muestra una representación gráfica de los datos de la tabla. Notamos
que a medida que el relleno aumenta de 0 a 60, la viscosidad aumenta a lo largo de una
tendencia bastante lineal. Sin embargo, la pendiente de la línea de tendencia depende
del nivel de aceite de nafteno. Cuando no se agrega aceite de nafteno, aumentar el
relleno de 0 a 60 hace que la viscosidad aumente rápidamente de 25 a 60; pero cuando
hay 30 phr de aceite de nafteno, aumentar el relleno de 0 a 60 provoca un aumento más
gradual de la viscosidad de 11 a 25.
Dado que las interacciones son comunes en los experimentos factoriales, es importante
aprender a explicar o interpretar una interacción para presentar claramente los resul-
tados de los estudios de investigación. Esto se hace mejor describiendo el efecto de un
factor sobre la respuesta, y luego contrastando o comparando cómo ese efecto cambia
dependiendo del nivel del otro factor. El gráfico de interacción es una buena herramienta
para interpretar este tipo de efecto.
Creación de plan factorial de dos factores en R
Un diseño factorial puede ser creado en R de diferentes maneras. Por ejemplo, se puede
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 206

usar la función expand.grid para crear un data frame que contenga todas las posibles
combinaciones de los factores.

D=expand.grid(F1=c(3.25, 3.75, 4.25),F2=c(4, 5, 6))


D

Como se puede observar, este código crea un diseño factorial sin réplicas 32 para los
factores F1 y F2. Para crear las réplicas podemos usar la función rbind.

D=rbind(D,D)

Para aleatorizar podemos usar la función sample.

set.seed(123)
D=D[order(sample(1:18)), ]
D

6.5.1. Análisis de un diseño de dos factores

El modelo matemático para un diseño factorial completamente aleatorizado de dos


factores se puede escribir como sigue:

yijk = µij + ϵijk ,

donde i representa el nivel del primer factor, j representa el nivel del segundo factor,
y k representa la réplica. Este modelo es llamado modelo de medias de celdas y µij
representa la respuesta esperada en la ij-ésima celda. Otra forma de representar el
modelo es la siguiente:
yijk = µ + αi + βj + αβij + ϵijk .

En este modelo, αi , βj son los efectos principales y representan la diferencia entre


el promedio marginal de todos los experimentos en el i-ésimo nivel del primer factor
y el promedio global, y la diferencia entre el promedio marginal en el j-ésimo nivel
del segundo factor y el promedio global, respectivamente. El efecto interacción, αβij
representa
∑ la
∑diferencia∑entre la celda promedio,
∑ µij , y µ+αi +βj . Con estas definiciones,
i αi = 0, j βj = 0, i αβij = 0 y j βij = 0.

Los supuestos usuales son que los errores experimentales son independientes y ϵijk ∼
N (0, σ 2 ). El supuesto de independencia es garantizado si las combinaciones de tratamien-
tos son asignadas de forma aleatoria a las unidades experimentales, y los supuestos de
igualdad de varianza y normalidad pueden ser verificados con el gráfico de los residuales
versus los predichos y el qqplot para los residuales.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 207

Representación matricial del modelo


El modelo puede ser representado en notación matricial como sigue:
 
µ
 βA 
y = Xβ + ϵ = (1 | XA | XB | XAB )  
 βB  + ϵ
βAB
]
La suma de cuadrado de lo errores es ssE = y ′ y − β̂ ′ X ′ y = y ′ (I − X(X ′ X)−1 X ′ )y,
donde β̂ = (X ′ X)−1 X ′ y son las estimaciones producidas por la función lm de R.
Suponiendo que tenemos dos niveles para el factor A y tres niveles para el factor B,
las hipótesis a probar son H0 : α1 = α2 = 0, H0 : β1 = β2 = β3 = 0, y H0 : αβ11 =
αβ21 = αβ12 = αβ22 = αβ13 = αβ23 = 0, donde la razones de verosimilitud del test F
son obtenidas calculando las razones de los cuadrados medios del ANOVA. La función
lm designa la suma de cuadrado para el factor A como ssA = β̂ ′ X ′ y − (1′ y)2 /(1′ 1),
la cual es denotada por R(α|µ). El modelo simplificado si solo incluye el efecto del
primer factor, esto es, X = (1 | XA ) y la suma de cuadrado del error para este modelo
simplificado es denotada como ssEA . La suma de cuadrados del factor B es denotada
por R(β|αµ) = ssEA − ssEB donde ssEB es la suma de cuadrado del error para el
modelo reducido donde X = (1 | XA | XB ). Finalmente, la suma de cuadrado para
la interacción es denotada por R(αβ|βαµ) = ssEB − ssE. En general, cuando hay a
niveles del factor A, b niveles del factor B, y r réplicas por celda, la tabla anova para un
diseño factorial de dos factores puede ser representada como se muestra en la siguiente
tabla:
F.V G.L SS MS F-ratio
A a−1 R(α|µ) ssA
a−1
msA
F = ms E
B b−1 R(β|αµ) ssB
b−1
F = ms
msE
B

AB (a − 1)(b − 1) R(αβ|βαµ) ssAB


(a−1)(b−1)
F = ms AB
msE
Error ab(r − 1) ssE ssE
ab(r−1)

Ejemplo
Para ilustrar el análisis de un experimento factorial de dos factores usando la función
aov de R, consideremos los datos de la siguiente tabla, los cuales corresponden a los
resultados de un experimento de dos factores llevado a cabo por Hunter (1983). Aquí,
un experimento consistió en quemar una cantidad de combustible y determinar las
emisiones de CO liberadas. La unidad experimental es la porción de un combustible
estándar requerido para una ejecución, y la respuesta, y, es la concentración de emi-
siones de monóxido de carbono (CO) en gr/mt3 determinada a partir de esa ejecución.
Hubo dos ejecuciones repetidas para cada combinación de niveles de factor separados
por punto y coma en la Tabla. El factor A es la cantidad de etanol agregado a una
unidad experimental o porción del combustible estándar, y el factor B es la relación
combustible-aire utilizada durante la quema de ese combustible.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 208

A=adición de etanol B=razón combustible-aire y =emisión CO


0.1 14 66 ; 62
0.1 15 72 ; 67
0.1 16 68 ; 66
0.2 14 78 ; 81
0.2 15 80 ; 81
0.2 16 66 ; 69
0.3 14 90 ; 94
0.3 15 75 ; 78
0.3 16 60 ; 58

Los datos para este experimento están guardados en el data frame COdata en el paquete
daewr donde los niveles de etanol y la razón son guardados como factores Eth y Ratio.
El comando de R para analizar los datos es como sigue:

install.packages("daewr")
library(daewr)
View(COdata)

mod1=aov(CO~Eth*Ratio,data = COdata )
summary(mod1)

Los resultados se muestran a continuación:

Df Sum Sq Mean Sq F value Pr(>F)


Eth 2 324.0 162.0 31.36 8.79e-05 ***
Ratio 2 652.0 326.0 63.10 5.07e-06 ***
Eth:Ratio 4 678.0 169.5 32.81 2.24e-05 ***
Residuals 9 46.5 5.2

Los resultados de la tabla ANOVA muestran que tanto los dos efectos de los factores
como su interacción son significativos a un nivel de significancia del 5 %.
La función model.tables produce los resultados que se muestran a continuación:

model.tables( mod1, type = "means", se = T )

Tables of means
Grand mean

72.83333

Eth
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 209

Eth
0.1 0.2 0.3
66.83 75.83 75.83

Ratio
Ratio
14 15 16
78.5 75.5 64.5

Eth:Ratio
Ratio
Eth 14 15 16
0.1 64.0 69.5 67.0
0.2 79.5 80.5 67.5
0.3 92.0 76.5 59.0

Standard errors for differences of means


Eth Ratio Eth:Ratio
1.312 1.312 2.273
replic. 6 6 2

En la parte inicial tenemos la media global µ̂. Las siguientes dos secciones muestran las
medias marginales para cada factor junto con la desviación estándar de los valores pro-
mediados en cada media. Si la interacción no fuera significativa, las medias marginales
revelarían la dirección de los efectos de los factores, pero se podrían usar comparaciones
preplaneadas u otros procedimientos de comparación múltiple para sacar conclusiones
definitivas.
Podemos usar la función estimable del paquete gmodels para realizar contrastes.
Para esto, primero hay que construir los contrastes para reemplazar los contrastes de
tratamiento por defecto usado por la función aov de R. Por ejemplo, si en un factor de
tres niveles queremos comparar el primero con el tercero, y luego queremos construir
un segundo contraste ortogonal al primero, y llamamos a la matriz de contrastes cm, el
código puede ser como sigue:

c1 = c(-1/2, 0, 1/2)
c2 = c(.5, -1, .5)
cm = cbind( c1, c2 )

La ejecución del modelo lo realizamos de la siguiente manera:

mod2=aov(CO~Eth*Ratio, contrasts=list(Eth=cm,Ratio=cm),data=COdata)

install.packages("gmodels")
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 210

library(gmodels)
c = rbind( "Etanol 0.3 vs 0.1" = c(0,1,0,0,0,0,0,0,0),
"Razón 16 vs 14" = c(0,0,0,1,0,0,0,0,0) )
estimable(mod2,c)

Note que el objeto c permite seleccionar el primer coeficiente para etanol y para la
razón. Por su parte, los parámetros a estimar son, en su orden, los siguientes

(Intercept), Ethc1, Ethc2, Ratioc1, Ratioc2, Ethc1:Ratioc1,


Ethc2:Ratioc1, Ethc1:Ratioc2, Ethc2:Ratioc2

Estas son funciones estimables, y las estimaciones junto


∑ con sus respectivos
∑ errores
estándar y las razones t para probar las hipótesis H0 : i ci αi = 0 y H0 : j cj βj = 0
se muestran a continuación.

Estimate Std. Error t value DF Pr(>|t|)


Etanol 0.3 vs 0.1 9 1.312335 6.858007 9 7.406588e-05
Razón 16 vs 14 -14 1.312335 -10.668011 9 2.083651e-06

Estas estimaciones serían estimables y válidas si no hubiera una interacción significativa


entre el nivel de adición de etanol y la relación aire-combustible, pero en este caso hay
una interacción significativa y la diferencia en las emisiones de CO causada por el
cambio de la cantidad de adición de etanol dependerá de la relación aire-combustible, y
la diferencia en la emisión de CO causada por el cambio de la relación aire-combustible
dependerá de la cantidad de etanol agregado. Un gráfico de interacción es una mejor
manera de interpretar estos resultados.

with(COdata,(interaction.plot(Eth,Ratio,CO,type="b",pch=c(18,24,22),
leg.bty = "o", main = "Gráfico de interacción de Etanol y razón
aire-combustible", xlab = "Etanol",ylab = "Emisión de CO")))
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 211

Gráfico de interacción de Etanol y razón


aire−combustible

Ratio

90
14
15

85
16
80
Emisión de CO

75
70
65
60

0.1 0.2 0.3

Etanol

En este gráfico podemos ver más claramente la dependencia de los efectos. El aumento
de la cantidad de etanol agregado al combustible de 0.1 a 0.3 hace que las emisiones de
CO aumenten linealmente de 64 gramos/litro a 92 gramos/litro cuando la relación aire-
combustible está en su nivel bajo de 14 (Esto se muestra mediante la línea de puntos con
diamantes negros representando los promedios de las celdas). Sin embargo, cuando la
relación aire-combustible está en su nivel alto de 16, el aumento del etanol agregado al
combustible de 0.1 a 0.3 en realidad provoca una disminución en las emisiones de CO de
67 gramos/litro a 59 gramos/litro a lo largo de una tendencia casi lineal. Finalmente,
cuando la relación aire-combustible se mantiene constante en su nivel medio de 15,
el aumento del etanol de 0,1 a 0,2 hace que las emisiones de CO aumenten en 11
gramos/litro; pero un aumento adicional en etanol a 0.3 causa una disminución en las
emisiones de CO de 4 gramos/litro a 76.5.
Al considerar interacción, se suponen relaciones de causa y efecto. De esta forma, deci-
mos que el cambio en la respuesta es causado por el cambio en el factor o el cambio en
la respuesta es el resultado de cambiar el factor. Es de notar que esta afirmación no se
puede hacer cuando se discuten los resultados de un estudio observacional.

6.5.2. Chequeando interacción con una observación por celda

Cuando hay una adecuada potencia en la prueba para detectar efectos principales con
r = 1 réplica por celda, se puede llevar a cabo un diseño factorial con solo una obser-
vación por celda y tend´riamos un total de a × b observaciones. Sin embargo, bajo estas
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 212

condiciones no hay forma de calcular la ssE del ANOVA y además no hay manera de
hacer el test F de la forma tradicional sobre los efectos principales y la interacción. Si
se asume que el término de interacción es cero, el test F sobre los efectos principales se
puede llevar a cabo usando el modelo aditivo yij = µ + αi + βj + ϵij , pero esto puede
no ser adecuado si la interacción en realidad existe.
Si los niveles de ambos factores son cuantitativos como en el experimento de combustible
de etanol, las sumas de cuadrados para el término de interacción se pueden dividir en
grados de libertad individuales de polinomios ortogonales, y puede ser aproximada
usando la porción lineal×lineal de la interacción. Esto se puede ilustrar con los datos
de combustible de etanol.
Ejemplo
Consideremos que los promedios de las dos réplicas en cada celda del ejemplo anterior
son el resultado de un solo experimento. El código R que se muestra a continuación
promedia los datos en cada celda para producir el data frame con una observación por
celda, para luego ajustar el modelo con la función lm de R.

library(daewr)
data(COdata)
Cellmeans=tapply(COdata$CO,list(COdata$Eth,COdata$Ratio),mean)
dim(Cellmeans) = NULL
Eth = factor(rep(c(.1, .2, .3), 3))
Ratio = factor(rep(c(14,15,16), each=3))
cells = data.frame( Eth, Ratio, Cellmeans )

modnr = lm(Cellmeans ~ Eth*Ratio, data=cells )


anova(modnr)

Note que en los resultados del modelo ANOVA aparece cero grados de libertad para el
error y no aparece el test F.

Analysis of Variance Table

Response: Cellmeans
Df Sum Sq Mean Sq F value Pr(>F)
Eth 2 162 81.00
Ratio 2 326 163.00
Eth:Ratio 4 339 84.75
Residuals 0 0

Para obtener las sumas de cuadrados para la porción lineal×lineal de la interacción, los
factores Eth y Ratio se convierten primero en factores ordenados como se muestra a
continuación:
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 213

Ethc = as.ordered(cells$Eth)
Ratioc = as.ordered(cells$Ratio)

Cuando se usan factores ordenados, la función lm de R usa contrastes polinomiales or-


togonales para las columnas en la matriz X en lugar de las codificaciones de tratamiento
predeterminadas. En el siguiente código, se ajusta el modelo llamado mbo usando solo
el contraste polinomial ortogonal lineal×lineal para la interacción de Ethc y Ratioc.

EthLin=contr.poly(Ethc)[Ethc,".L"]
RatioLin=contr.poly(Ratioc)[Ratioc,".L"]
mbo=lm(Cellmeans~Ethc + Ratioc + EthLin:RatioLin, data=cells)
anova(mbo)

Los resultados se muestran como sigue:

Analysis of Variance Table

Response: Cellmeans
Df Sum Sq Mean Sq F value Pr(>F)
Ethc 2 162 81 16.2 0.024670 *
Ratioc 2 326 163 32.6 0.009226 **
EthLin:RatioLin 1 324 324 64.8 0.004004 **
Residuals 3 15 5

El error o la suma residual de cuadrados en esta tabla de ANOVA es la diferencia entre


la suma de cuadrados de la interacción que se muestran en el anova anterior y la suma
de cuadrado de la interacción lineal obtenida en este nuevo anova. Esta diferencia se usa
para construir el denominador para las pruebas F en la tabla anterior. Los resultados
muestran que la porción lineal×lineal de la interacción es significativa y representa la
mayor parte de las sumas de cuadrados de la interacción. Dado que la interacción es
significativa, el modelo aditivo es inapropiado, y los efectos de los efectos principales
pueden diferir dependiendo del nivel del otro factor. Los resultados pueden interpretarse
mejor examinando el gráfico de interacción.
La gráfica de interacción que incluye solo la parte lineal×lineal de la interacción se
puede construir graficando las predicciones del modelo mbo. En el siguiente código se
obtienen las predicciones del modelo, se crea un data frame con esto y se obtiene el
gráfico de interacción.

Pred=predict(mbo,newdata=data.frame(Ethc,Ratioc,EthLin,RatioLin))
pred.means=aggregate(Pred,by=list(Ethc=Ethc,Ratioc=Ratioc),"mean")
Ethanol = pred.means$Ethc
interaction.plot(pred.means$Ratioc, Ethanol, pred.means$x,
type="b", pch = c(18,24,22), leg.bty ="o", xlab = "Ratio", ylab
= "predicted CO emissions")
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 214

90
Ethanol

0.1
0.2

85
0.3

80
predicted CO emissions

75
70
65
60

14 15 16

Ratio

Note que los resultados confirman lo observado en la tabla ANOVA.


Cuando el etanol está en su nivel alto (0.3), y la relación aire-combustible aumenta de
14 a 16, esto causa una fuerte disminución de las emisiones de CO. Además, cuando
el etanol está en su nivel medio (0.2), y la relación aire-combustible aumento de 14 a
16, esto causa una ligera disminución en las emisiones de CO. Sin embargo, cuando
el etanol está en su nivel bajo (0.1), y la relación aire-combustible aumenta de 14 a
16 en realidad provoca un aumento en las emisiones de CO ilustrado por la línea con
pendiente positiva.
Cuando solo hay una réplica por celda en un experimento factorial y los factores no
tienen niveles cuantitativos, la partición de las sumas de cuadrados de interacción en
contrastes polinomiales ortogonales y la combinación de los términos de orden superior
como una suma de cuadrados de error puede no ser apropiada. Sin embargo, Tukey
(1949b) ha desarrollado un método alternativo para probar un solo grado de libertad
dividido a partir de sumas de cuadrados de interacción. Este método es equivalente a
restringir el término αβij en el modelo aditivo para que sea una función polinomial de
segundo grado de los efectos principales αi y βj , (ver Scheffé, 1959). Para esto, la suma
de cuadrados
[∑ ∑ ]
j yij ȳi. ȳ.j − (ssA + ssB + abȳ.. )ȳ..
2
ab i
ssA B =
(ssA )(ssB )

Para probar la hipótesis restringida H0 : αβij = 0 para todo i y j tendrá un grado


CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 215

de libertad y la diferencia entre este y el término de error para el modelo aditivo


formará la suma de cuadrados del error similar al ejemplo anterior con niveles de factor
cuantitativo.
Para ilustrar el uso de la prueba de un único grado de libertad de Tukey para la
interacción, considere los siguientes datos, que es una parte de los datos de un estudio
para validar un ensayo de contaminación viral reportado por Lin y Stephenson (1998).

Muestra
1 2 3 4 5 6
3 1.87506 1.74036 1.79934 2.02119 1.79934 1.59106
Dilución 4 1.38021 1.36173 1.25527 1.39794 1.20412 1.25527
5 0.60206 0.90309 0.95424 1.00000 0.60206 0.60206

Los ensayos de contaminación viral se utilizan para determinar la presencia (y la canti-


dad) de un virus específico en productos biológicos como el factor ocho de coagulación
de la sangre. Un experimento, o corrida, consiste en hacer una solución con una contam-
inación viral conocida, permitiendo que el virus crezca en una solución contaminada y
luego mida el resultado. La unidad experimental es la muestra viral específica en com-
binación con el lugar y el momento en que se le permite crecer. El factor A representa el
número de la muestra o la solución con la que se mezcla (o enriquece) la muestra viral.
El factor B representa diferentes diluciones de la muestra enriquecida. La respuesta
medida es el log10 de las unidades formadoras de placa por ml de solución.
Como el factor A (muestra) no es un factor cuantitativo, sería inapropiado utilizar con-
trastes polinomiales ortogonales para dividir sus sumas de cuadrados o las sumas de
cuadrados de su interacción con el factor B (Dilución). Para determinar si el modelo
aditivo es apropiado para estos datos, haremos una prueba para ver si hay una interac-
ción significativa usando el método de Tukey. La función Tukey1df del paquete daewr
de R, calcula las sumas de cuadrados sin aditividad o interacción de Tukey.
El código para abrir los datos de la Tabla anterior, se muestra a continuación. La
primera columna en el data frame es una respuesta numérica, la segunda columna es
el indicador del factor A y la tercera columna es el indicador del factor B. El número
de filas en el data frame debe ser exactamente igual al número de niveles del factor A
multiplicado por el número de niveles del factor B, ya que el diseño no tiene réplicas.

library(daewr)
Tukey1df(virus)

Source df SS MS F Pr>F
A 5 0.1948 0.039
B 2 3.1664 1.5832
Error 10 0.1283 0.0513
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 216

NonAdditivity 1 0.0069 0.0069 0.51 0.4932


Residual 9 0.1214 0.0135

Como se puede notar en los resultados, la interacción (o no aditividad) no es significati-


va. Por lo tanto, para estos datos, sería apropiado usar el modelo aditivo con la función
lm o aov de R .

6.5.3. Análisis con diferente número de réplicas por celdas

Los datos de un experimento factorial pueden terminar con un número desigual de répli-
cas debido a experimentos que no pudieron completarse, o respuestas que no pudieron
medirse, o simplemente datos perdidos. Siempre que la posibilidad de perder una ob-
servación no esté relacionada con los niveles de factor de tratamiento, los datos de un
experimento factorial con un número desigual de réplicas por celdas, pueden analizarse
e interpretarse de una manera similar a la forma en que se haría el caso igual número
de réplicas.
Ejemplo
Considere nuevamente el ejemplo del combustible de etanol. Pero esta vez asumamos
que se perdió una sola observación en la celda donde la relación aire-combustible es 16
y el nivel de etanol es 0.3.
Entonces, los datos son como se ilustran a continuación. La siguiente tabla muestra las
observaciones y su respectivo valor esperado.

install.packages("daewr")
library(daewr)
COdatam = COdata
COdatam[18, 3] = NA
View(COdatam)

aire-combustible
14 15 16
66 72 68
0.1 62 67 66
µ + α1 + β1 + αβ11 µ + α1 + β2 + αβ12 µ + α1 + β3 + αβ13
78 80 66
Etanol 0.2 81 81 69
µ + α2 + β1 + αβ21 µ + α2 + β2 + αβ22 µ + α2 + β3 + αβ23
90 75 60
0.3 94 78
µ + α3 + β1 + αβ31 µ + α3 + β2 + αβ32 µ + α3 + β3 + αβ33
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 217

Para calcular las sumas de cuadrado ajustadas con desigual número de réplicas para
la hipótesis nula del efecto principal, se usa la opción contr.sum de la función lm y la
función Anova del paquete car. Las opciones type II y III en la función Anova calculan las
sumas de cuadrado tipo II y III respectivamente. La suma de cuadrado tipo II para los
factores A y B pueden ser representadas como ssAII = R(α | µ, β) y ssBII = R(β | µ, α).
R(α | µ, β) es la diferencia de la suma de cuadrado del error para el modelo reducido
donde X = (1 | XB ) y el modelo completo donde X = (1 | XA | XB | XAB ).
La suma de cuadrado tipo III para los factores A y B pueden ser representadas como
ssAIII = R(α | µ, β, αβ) y ssBIII = R(β | µ, α, αβ). R(α | µ, β, αβ) es la diferencia de
la suma de cuadrado del error para el modelo reducido donde X = (1 | XB | XAB ) y
el modelo completo donde X = (1 | XA | XB | XAB ).
El código de R para producir el ANOVA tipo III luego de eliminar una observación es
el siguiente:

library(car)
mod2=lm(CO~Eth*Ratio,data=COdatam,contrasts
= list( Eth = contr.sum, Ratio = contr.sum ))
Anova( mod2, type="III" )

Los resultados son los siguientes:

Anova Table (Type III tests)

Response: CO
Sum Sq Df F value Pr(>F)
(Intercept) 86198 1 15496.351 1.939e-14 ***
Eth 319 2 28.715 0.0002235 ***
Ratio 511 2 45.973 4.105e-05 ***
Eth:Ratio 555 4 24.945 0.0001427 ***
Residuals 44 8

Algunos analistas prefieren usar la suma de cuadrados tipo II, pero otros prefieren la
tipo III. Aquí ilustraremos el ejemplo con la opción tipo III, si queremos la suma de
cuadrados tipo III, únicamente hay que cambiar la opción type=II por type=III en el
código.
El paquete lsmeans calcula automáticamente las medias ajustadas, también llamadas
medias de mínimos cuadrados a través de las medias marginales de las medias predichas
de las celdas. Adicionalmente, el paquete los errores estándar y los límites de confianza.
El siguiente código muestra el uso de este paquete para obtener las medias marginales
tanto para etanol como para la relación aire-combustible. Note que la interpretación de
las medias marginales puedes ser errónea debido a la presencia de interacción.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 218

install.packages("lsmeans")
install.packages("emmeans")
library(emmeans)
library(lsmeans)

lsmeans(mod2,~ Eth)
lsmeans(mod2,~Ratio)

NOTE: Results may be misleading due to involvement in interactions


Eth lsmean SE df lower.CL upper.CL
0.1 66.83333 0.9628517 8 64.61299 69.05367
0.2 75.83333 0.9628517 8 73.61299 78.05367
0.3 76.16667 1.1118053 8 73.60284 78.73049

Results are averaged over the levels of: Ratio Confidence level
used: 0.95

NOTE: Results may be misleading due to involvement in interactions


Ratio lsmean SE df lower.CL upper.CL
14 78.50000 0.9628517 8 76.27966 80.72034
15 75.50000 0.9628517 8 73.27966 77.72034
16 64.83333 1.1118053 8 62.26951 67.39716

En general, se deben usar las sumas de cuadrados y lsmeans de tipo II o III, ya que
probarán las hipótesis correctas y proporcionarán las medias insesgadas de los niveles
de los factores si el número de réplicas es igual o desigual

6.5.4. Diseño factorial con múltiples factores

Los diseños factoriales de dos factores son más eficientes que estudiar cada factor por
separado en los diseños de un factor. Del mismo modo, cuando se están estudiando
muchos factores, es más eficiente estudiarlos juntos en un diseño multifactorial que es-
tudiarlos por separado en grupos de dos utilizando diseños factoriales de dos factores.
Cuando se estudian múltiples factores simultáneamente, la potencia para detectar efec-
tos principales aumenta en comparación con lo que sería en diseños factoriales separados
de dos factores. Además, es posible detectar interacciones entre cualquiera de los fac-
tores en estudio.
En un diseño multifactorial, no solo es posible detectar interacciones de dos factores
entre cualquier par de factores, sino que también es posible detectar interacciones de or-
den superior entre grupos de factores. Una interacción de tres factores entre los factores
A, B y C, por ejemplo, significa que el efecto del factor A difiere según la combinación
de los niveles de los factores B y C.
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 219

Ejemplo
Considere el problema 8.6 en Oehlert (2010): Un estudio acerca del manejo de varias
gramas tropicales para mejorar la producción, medida como rendimiento de materia
seca en cientos de libras por acre durante un período de estudio de 54 semanas. Las
variables de estudio fueron la altura de corte (1, 3 o 6 pulgadas), el intervalo de corte
(1, 3, 6 o 9 semanas) y la cantidad de fertilizante nitrogenado (0, 8, 16 o 32 cientos
de libras de amonio sulfatado por acre por año). Se asignaron 48 parcelas de manera
completamente al azar a las 48 combinaciones de nivel de factor.
Leeremos la base de datos con nombre ejem.csv en nuestros archivos.

data1=read.table(file.choose(),header=T,sep=",")
data1[,"ht"]=factor(data1[,"ht"], labels = c("1", "3", "6"))
data1[,"fert"]=factor(data1[,"fert"], labels = c("0", "8", "16", "32"))
data1[,"int"]=factor(data1[,"int"], labels = c("1", "3", "6", "9"))
View(data1)

Como no tenemos réplicas, no podemos ajustar el modelo completo incluyendo las


interacciones de tres factores, por lo que ajustaremos el modelo incluyendo únicamente
las interacciones de dos factores.

mo1=aov(y~(ht+fert+int)^2,data=data1)

anova(mo1)
Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value Pr(>F)
ht 2 29 14.6 0.0830 0.92068
fert 3 42072 14023.9 80.0153 1.334e-10 ***
int 3 73887 24629.0 140.5241 1.120e-12 ***
ht:fert 6 406 67.7 0.3860 0.87835
ht:int 6 3005 500.9 2.8578 0.03903 *
fert:int 9 5352 594.6 3.3927 0.01313 *
Residuals 18 3155 175.3

Existe evidencia de que tanto los efectos de altura de corte (ht) como de cantidad de
fertilizante (fert) dependen del nivel de intervalo de corte (int), ya que tanto las
interacciones ht:int como fert:int son significativas.
Usando polinomios ortogonales, con el siguiente código, podemos verificar si la interac-
ción de los tres factores es significativa.

htc = as.ordered(data1$ht)
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 220

fertc = as.ordered(data1$fert)
intc = as.ordered(data1$int)

htLin=contr.poly(htc)[htc,".L"]
fertLin=contr.poly(fertc)[fertc,".L"]
intLin=contr.poly(intc)[intc,".L"]

mbo=lm(y~htc + fertc + htLin:fertLin + htLin:intLin +


fertLin:intLin + htLin:fertLin:intLin, data=data1)
anova(mbo)

Lo que arroja como resultado lo siguiente:

Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value Pr(>F)
htc 2 29 15 0.0440 0.9570
fertc 3 42072 14024 42.3996 3.315e-12 ***
htLin:fertLin 1 4 4 0.0131 0.9096
htLin:intLin 1 72645 72645 219.6327 < 2.2e-16 ***
fertLin:intLin 1 373 373 1.1279 0.2949
htLin:fertLin:intLin 1 214 214 0.6460 0.4265
Residuals 38 12569 331

Esto nos muestra que la interacción de los tres factores no es significativa.

6.5.5. Diseño factorial de dos niveles

Es claro que incrementar el número de factores a un diseño factorial, incrementaría


exponencialmente el número de combinaciones o tratamientos, lo cual puede hacerse
poco práctico en la realidad debido a los altos costos o la imposibilidad de ejecución del
experimento. Una forma de reducir el número de combinaciones de tratamientos es usar
únicamente dos niveles por factor, lo cual incrementaría la posibilidad de realización del
experimento. Por ejemplo que tenemos cinco factores con dos niveles cada uno, el diseño
se tendría 25 = 32 posibles combinaciones, lo cual es inferior al total de combinaciones
posibles en nuestro ejemplo anterior con únicamente tres factores. Un diseño factorial
con k factores y dos niveles por factor, es llamado diseño 2k .
En los diseños factoriales de dos niveles, si un factor tiene niveles cuantitativos, los
dos niveles se indican simbólicamente por (−) y (+), donde (−) representa el nivel
más bajo que el experimentador consideraría, y (+) representa el nivel más alto que el
experimentador considere. Lo alto y lo bajo generalmente se extienden en la medida de
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 221

lo posible para acentuar la señal o la diferencia en la respuesta entre los dos niveles. Si
un factor tiene niveles cualitativos, las designaciones (−) y (+) son arbitrarias, pero los
dos niveles elegidos normalmente serían dos que el experimentador cree que deberían
dar como resultado la máxima diferencia en la respuesta.
El modelo para un diseño factorial con tres factores se puede escribir como sigue:

yijkl = µ + αi + βj + αβij + γk + αγik + βγjk + αβγijk + ϵijkl ,

donde αi , βj , etc., son los efectos tal como se han definido con anterioridad. Sin embargo,
en el caso donde cada factor tiene solo dos niveles representados por (−) y (+), i, j,
k y l pueden ser remplazados con (−) o (+), y α− = −α+ , ya que α− = ȳ−... − ȳ.... ,
α+ = ȳ+... − ȳ.... y ȳ.... = (ȳ−... + ȳ+... )/2.
La anterior igualdad es similar para todos los efectos e interacciones. Una manera
más compacta de definir los efectos principales para un factorial de dos niveles es
EA = ȳ+... − ȳ−... . Esto se puede visualizar en el lado izquierdo de la siguiente figura
(tamada de Lawson (2015)) y representa el cambio en la respuesta promedio causada
por un cambio en el factor desde su nivel bajo (−) hasta su nivel alto (+). Este efecto
puede ser representado por la diferencia en dos promedios ȳ+... y ȳ−... .

La pendiente del modelo de regresión βA , que se muestra en el lado derecho de la Figura,


es el cambio vertical en la respuesta promedio para un cambio de una unidad (es decir,
de 0 a +1) en el nivel de factor en unidades simbólicas. Por lo tanto, la pendiente, βA ,
es solo la mitad del efecto, EA , o la diferencia de los dos promedios dividido por 2.
Una de las propiedades deseables de un plan factorial de 2k es que los efectos de los
factores no están ocultos por los cambios planificados en otros factores. También, en el
nivel bajo de cada factor, hay un número igual de niveles altos y bajos de todos los demás
factores. Por lo tanto, el efecto de un factor, o la diferencia en la respuesta promedio
entre el nivel alto y bajo de ese factor, representa el efecto de ese factor únicamente,
porque la influencia de todos los demás factores ha sido promediada. Matemáticamente
esta propiedad es conocida como ortogonalidad.
Interacción
cuando todos los factores tienen solo dos niveles, el efecto de interacción AB es definido
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 222

como un medio la diferencia en el efecto simple del factor A, (ȳ++.. − ȳ−+.. ), cuando
el factor B se fija en su nivel alto (+), y el efecto simple del factor A, (ȳ+−.. − ȳ−−.. ),
cuando factor B se fija en su nivel bajo (−), es decir, ((ȳ++.. − ȳ−+.. ) − (ȳ+−.. − ȳ−−.. ))/2.
Ejemplo
Para ilustrar el diseño y análisis de un experimento factorial 23 , consideremos el sigu-
iente ejemplo (ver Lawson y Erjavec, 2001). Los estudiantes en un laboratorio de elec-
trónica de una universidad consideran que las mediciones de voltaje realizadas en un
circuito que construyeron en clase eran inconsistentes. El asistente de enseñanza de
laboratorio (TA) decidió realizar un experimento para tratar de identificar la fuente
de la variación. Los tres factores que varió fueron A = la temperatura ambiente donde
se realizó la medición de voltaje, B = el tiempo de calentamiento del voltímetro y C
= el tiempo en que se conectó la alimentación al circuito antes de tomar la medición.
La respuesta fue la tensión medida en milivoltios. Los dos niveles para el factor A
fueron − = 22o C (temperatura ambiente) y + = 32o C (cerca de la temperatura en
algunos entornos industriales). Se usó un horno y el circuito se dejó estabilizar durante
al menos cinco minutos antes de las mediciones. Los niveles para los factores B y C
fueron − = 30 segundos o menos, y + = 5 minutos. El mismo circuito se midió para
cada combinación de factores de tratamiento, por lo que la unidad experimental no fue
más que el ensayo o el momento en el que se aplicó la combinación particular de niveles
de factor de tratamiento para realizar la medición. Se ejecutaron dos réplicas de cada
una de las ocho combinaciones experimentales en un orden aleatorio para evitar sesgos.
Los resultados del experimento se muestran en la siguiente tabla.

Niveles del factor Código del factor


Run A B C XA XB XC Rep Order y
1 22 0.5 0.5 − − − 1 5 705
2 32 0.5 0.5 + − − 1 14 620
3 22 5.0 0.5 − + − 1 15 700
4 32 5.0 0.5 + + − 1 1 629
5 22 0.5 5.0 − − + 1 8 672
6 32 0.5 5.0 + − + 1 12 668
7 22 5.0 5.0 − + + 1 10 715
8 32 5.0 5.0 + + + 1 9 647
1 22 0.5 0.5 − − − 1 4 680
2 32 0.5 0.5 + − − 1 7 651
3 22 5.0 0.5 − + − 1 2 685
4 32 5.0 0.5 + + − 1 3 635
5 22 0.5 5.0 − − + 1 11 654
6 32 0.5 5.0 + − + 1 16 691
7 22 5.0 5.0 − + + 1 6 672
8 32 5.0 5.0 + + + 1 13 673

Los niveles codificados del factor se pueden calcular fácilmente a partir del valor real
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 223

del factor utilizando la fórmula de codificación y escala. En esta fórmula, restamos el


punto medio de los dos ajustes de factor, luego dividimos por la mitad del rango. Por
ejemplo, para el factor A, el punto medio entre 22 y 32 es 27, y la mitad del rango es
5, por lo tanto
( )
Valor real del factor − 27
XA = .
5

La función contr.FrF2 de R, realiza esta codificación y escala en factores. El data frame


volt se encuentra en el paquete daewr y contiene los factores con los niveles reales y la
variable respuesta de la tabla anterior. El código para abrir el data frame, el código y
la escala de los factores, y el ajuste del modelo de regresión con la función lm (junto
con los coeficientes estimados de la regresión) se muestran a continuación.

install.packages("DoE.base")
library(DoE.base)
library(daewr)
modv = lm( y ~ A*B*C, data=volt, contrast=list(A=contr.FrF2,
B=contr.FrF2, C=contr.FrF2))
summary(modv)

Residuals:
Min 1Q Median 3Q Max
-21.50 -11.75 0.00 11.75 21.50

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 668.5625 4.5178 147.985 4.86e-15 ***
A1 -16.8125 4.5178 -3.721 0.00586 **
B1 0.9375 4.5178 0.208 0.84079
C1 5.4375 4.5178 1.204 0.26315
A1:B1 -6.6875 4.5178 -1.480 0.17707
A1:C1 12.5625 4.5178 2.781 0.02390 *
B1:C1 1.8125 4.5178 0.401 0.69878
A1:B1:C1 -5.8125 4.5178 -1.287 0.23422
---

Residual standard error: 18.07 on 8 degrees of freedom


Multiple R-squared: 0.772, Adjusted R-squared: 0.5724
F-statistic: 3.869 on 7 and 8 DF, p-value: 0.0385

Se puede observar que el factor A (temperatura ambiente) y la interacción A×C, o


interacción entre la temperatura ambiente y el tiempo de calentamiento del circuito
son significativos a un nivel de significancia de 0.05. Note que la regresión se realizó en
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 224

los niveles del factor codificado, de modo que los coeficientes de regresión producidos
por la función lm de R son exactamente la mitad de los efectos. Por tanto, el efecto
del factor A es el doble del coeficiente de regresión que se muestra en el output, o
EA = 2 × β̂A = 2(−16.8125) = −33.625. Esto significa que, en promedio, cuando
la temperatura ambiente aumenta de 22o a 32o , la medición de voltaje disminuirá en
33.6 milivoltios. Sin embargo, dado que la interacción es significativa en este ejemplo,
realmente no tiene sentido hablar del efecto principal promedio porque el efecto de la
temperatura ambiente depende del tiempo de calentamiento del circuito.
Veamos ahora el gráfico de interacción.

C_Warmup=volt$C
with(volt, (interaction.plot(A, C_Warmup, y, type = "b",
pch = c(24,22), leg.bty = "o", xlab = "Temperatura",ylab =
"Voltaje")))
690

C_Warmup

5
0.5
680
670
Voltaje

660
650
640

22 32

Temperatura

La mejor manera de describir o interpretar la interacción es observar el gráfico de


interacción anterior. Aquí, se puede ver que cuando el tiempo de calentamiento del
circuito es corto (0,5 minutos o 30 segundos), cambiar la temperatura ambiente de
22o a 32o provoca una gran disminución (58,7 milivoltios) en la lectura del voltaje.
Sin embargo, cuando el tiempo de calentamiento del circuito es largo (5 minutos),
cambiar la temperatura ambiente de 22o a 32o solo causa una pequeña disminución (8.5
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 225

milivoltios) en la lectura del voltaje. Por lo tanto, para que las lecturas de voltaje sean
más consistentes, el laboratorio recomendó a sus estudiantes que dejen que sus circuitos
se calienten 5 minutos antes de realizar las mediciones de voltaje.
La ortogonalidad del diseño también permite escribir una ecuación de predicción re-
ducida a partir de los resultados de la regresión, simplemente eliminando los términos
insignificantes. Esta ecuación se puede usar para predecir la lectura de voltaje en mili-
voltios para cualquier temperatura ambiente entre 22o y 32o , y cualquier tiempo de
calentamiento del circuito entre 30 segundos y 5 minutos.

( ) ( )( )
T emp − 27 CW arm − 2.75 T emp − 27
y = 668.563 − 16.813 + 12.563 .
5 2.25 5

Ejercicio:
Yang-Gyu y Woolley (2006), realizaron un experimento factorial 4 × 3 donde se var-
ió la concentración del regulador de crecimiento de plantas CPPU en una solución y
el momento en que se sumergieron las espárragos en una solución. Los resultados se
muestran en la tabla de abajo.

Tiempo de inmersión
CPPU Conc. 30 60 90
0 (control) 92.5 92.9 91.3
0.5 ppm 97.8 94.9 101.3
1 ppm 97 98.5 101.6
10 ppm 103.4 102.9 98.6

Verifique si la interacción entre los factores es significativa. ¿Recomienda el modelo


aditivo para estos datos?.
Capítulo 7

Modelos lineales generalizados

7.1. Introducción al modelo logístico


El modelo logístico hace parte de los modelos lineales generalizados, los cuales se com-
ponen en tres partes:

La componente aleatoria que corresponde a la variable Y , la cual debe seguir una


distribución que pertenezca a la familia exponencial.

La componente sistemática o predictor lineal, usualmente denotada por η, donde

η = xT β

La función link o de ligadura g(·) que relaciona la esperanza matemática de la


variable dependiente con el predictor lineal.

η = g(µ)

Supongamos que observamos respuestas y1 , . . . , yN de poblaciones binomiales con pro-


porciones π1 , . . . , πN y sus correspondientes tamaños muestrales n1 , . . . , nN . Asociado
con la i-ésima observación hay un vector de covariables xi y la proporción πi es enca-
denada a las covariables xi por medio del modelo logístico
( )
πi
logit(π) = log = xTi β
1 − πi

Ejemplo: Niñas Polacas Consideramos la famosa base sobre la edad de la menarquia


de una niñas en Polonia en los años 60. En esta base se presenta la edad de una niña y
si ya ha tenido su primera menstruación.

226
CAPÍTULO 7. MODELOS LINEALES GENERALIZADOS 227

edad=c(10.83,11.08,11.33,11.58,11.83,12.08,12.33,12.58,12.83,13.08,
13.33,13.58,13.83,14.08,14.33,14.58,14.83,15.08,15.33,15.58)
exitos=c(2,2,5,10,17,16,29,39,51,47,67,81,88,79,90,113,95,117,107,92)
n=c(120,90,88,105,111,100,93,100,108,99,106,105,117,98,97,120,102,
122,111,94)

En R obtenemos el modelo logístico de la siguiente manera:

mod1=glm(cbind(exitos,n-exitos)~edad,family="binomial")
summary(mod1)

Los resultados del modelo son los siguientes:

Call:
glm(formula = cbind(exitos, n - exitos) ~ edad, family = "binomial")

Deviance Residuals:
Min 1Q Median 3Q Max
-1.2267 -0.8613 -0.3124 0.7507 1.2841

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -20.4692 0.8349 -24.52 <2e-16 ***
edad 1.5755 0.0638 24.69 <2e-16 ***
---
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 1278.571 on 19 degrees of freedom


Residual deviance: 14.893 on 18 degrees of freedom
AIC: 100.35

El modelo logístico es el siguiente:


logit(π) = −20.46917 + 1.57545 × edad
Del modelo podemos decir que la posibilidad de que una niña Polaca presente la menar-
quia a sus 14 años es e(1.57545(14−13)) = 4.8 veces mas alta a que la presente a sus 13 años.

Podemos evaluar la calidad de ajuste del modelo usando los grados de libertad del
Residual deviance evaluado en la cola de la distribución Chi-cuadrado, y compararlo
con el estadístico Chi-cuadrado. esto es:

a=qchisq(0.95,18)
> a
[1] 28.8693
CAPÍTULO 7. MODELOS LINEALES GENERALIZADOS 228

Ahora, como el Residual deviance que es igual a 14.893 es menor que a = 28.8693, no
rechazo la hipótesis nula que el modelo ajustado es adecuado, relativo al modelo nulo.
CAPÍTULO 7. MODELOS LINEALES GENERALIZADOS 229

7.2. Referencias
Abel D (1999). Diseño Estadístico de experimentos. Universidad de Antioquía,
primera edición. Páginas 231-261.

Aparicio, J., Martínez, M. y Morales, J. (2004). Modelos Lineales Aplicados en R.


Universidad Miguel Hernández.

Benjamini, Yoav; Hochberg, Yosef (1995). “Controlling the false discovery rate: a
practical and powerful approach to multiple testing”. Journal of the Royal Statis-
tical Society, Series B 57 (1). 289-300.

Correa, J. y Barrera, C. (2010). Introducción al R. Fondo Editorial ITM.

Faraway, J. (2002). Practical Regression and Anova using R. Ann Arbor, MI,
self-published. http : //cran.r − project.org/doc/contrib/F araway − P RA.pdf

Fawcett, T. (2005). An introduction to ROC analysis. Pattern Recognition Letters.


Vol. 27, 861-874.

Febrero-Bande, M., Galeano, P., González, J. y Pateiro, B. (2008). Prácticas de


Estadística en R. Ingeniería Técnica en Informática de Sistemas. Departamento
de Estadística e Investigación Operativa. Universidad de Santiago de Compostela.
ISBN-13: 978-84-691-0975-1, DL: C-350-2008.

García, J. (2005). Apuntes de Bioestadística. Universidad La Salle, México.

Grisales, H. (2002). Estadística aplicada en salud pública. Estadística descriptiva


y probabilidad. Facultad Nacional de Salud Pública “Hector Abad Gómez”.

Krijnen, W. (2009). Applied Statistics for Bioinformatics using R. Hanze Univer-


sity.

Kuehl R.O (2001). Diseño de experimentos: principios estadísticos de diseño y


análisis de investigación. Segunda edición. Thomson Learning.

Montgomery D.C. Design and analysis of experiments. Jhon Wiley & Sons, INC
2001, quinta edición. 392-422.

Lawson, J. Design and Analysis of Experiments with R. Chapman and Hall/CRC,


2014, 1st Edition. 1-618.

Milicer, H. y Szczotka, F. (1966). Age at Menarche in Warsaw girls in 1965. Human


Biology, Vol. 38, pp. 199-203.

R Core Team (2014). R: A Language and Environment for Statistical Computing.


R Foundation for Statistical Computing, Vienna, Austria, URL http://www.R-
project.org/.
CAPÍTULO 7. MODELOS LINEALES GENERALIZADOS 230

Sáez, A. (2010). Métodos estadísticos con R y R Commander. Universidad de


Jaén.

Seefeld, K. y Linder, E. (2007). Statistics Using R with Biological Examples. Uni-


versity of New Hampshire, Durham, NH. Department of Mathematics & Statistics.

Silva, L. (2000). Diseño razonado de muestras y captación de datos para la inves-


tigación sanitaria. Ed. Díaz de Santos.

http : //www.virtual.unal.edu.co/cursos/ciencias/2000352/html/un2/cont2 03−


23.html

Welch, B. L. (1951), On the comparison of several mean values: an alternative


approach. Biometrika, 38, 330-336.

También podría gustarte