Bioestadística Notas PDF

Bioestadística: notas de clase
Carlos Javier Barrera Causil
2019
Índice general
Índice general 1
1. Conceptos básicos 5
1.1. Variables y su clasificación . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Clasificación de las variables según su naturaleza . . . . . . . . 6
1.1.2. Clasificación de las variables según su forma de interrelacionarse. 7
1.2. Nociones de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1. Criterio para aceptar un muestreo . . . . . . . . . . . . . . . . . 8
1.2.2. Muestreo Aleatorio Simple (MAS) . . . . . . . . . . . . . . . . . 8
1.3. El Formulario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1. Pasos previos a la elaboración del formulario . . . . . . . . . . . 11
1.4. Planeación y diseño de un experimento controlado . . . . . . . . . . . . 12
2. Introducción al R y R-Commander 13
2.0.1. Instalación de R . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.0.2. Iniciación de una sesión en R . . . . . . . . . . . . . . . . . . . 14
2.0.3. Instalación de R-Commander . . . . . . . . . . . . . . . . . . . 15
2.0.4. Búsqueda de ayuda . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.0.5. Ejecución de funciones especiales . . . . . . . . . . . . . . . . . 16
2.1. Manejo de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1. Introducción de datos con R-Commander . . . . . . . . . . . . . 16
2.1.2. Importar datos con R-Commander . . . . . . . . . . . . . . . . 17
2.1.3. Recodificación de una variable numérica con R-Commander . . 17
1
ÍNDICE GENERAL 2
2.1.4. Filtrado de datos con R-Commander . . . . . . . . . . . . . . . 17

2.1.5. Almacenamiento de instrucciones y resultados con R-Commander 18
2.1.6. Entrada y lectura de datos con R . . . . . . . . . . . . . . . . . 18
2.1.7. Entrando datos desde el teclado . . . . . . . . . . . . . . . . . . 19
2.1.8. Subíndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Especificación de datos faltantes . . . . . . . . . . . . . . . . . . . . . . 21
2.3. Manipulación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1. Operadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2. Funciones que producen escalares . . . . . . . . . . . . . . . . . 24
2.3.3. Funciones relacionadas con distribuciones . . . . . . . . . . . . . 26
2.4. Ejecuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.1. Función if . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.2. Función for . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.3. Función ifelse . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4.4. Objetos en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5. Creación de nuevas funciones en R . . . . . . . . . . . . . . . . . . . . 32
2.6. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6.1. Operaciones básicas con matrices . . . . . . . . . . . . . . . . . 34
2.6.2. Funciones sobre las componentes de una matriz . . . . . . . . . 36
2.7. Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3. Estadística Básica 48
3.0.1. Medidas de resumen en R . . . . . . . . . . . . . . . . . . . . . 49
3.1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1.1. Formalización de la probabilidad . . . . . . . . . . . . . . . . . 56
3.1.2. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . 58
3.1.3. Prueba Tamiz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.1.4. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.1.5. Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2. Variables aleatorias y distribuciones de probabilidad . . . . . . . . . . . 68
ÍNDICE GENERAL 3
3.2.1. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . 68

3.2.2. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . 69
3.2.3. Algunas distribuciones de probabilidad discretas . . . . . . . . . 71
3.2.4. Algunas distribuciones de probabilidad continuas . . . . . . . . 77
4. Inferencia estadística 83
4.1. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.1.1. Teorema del límite central . . . . . . . . . . . . . . . . . . . . . 83
4.1.2. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2. Intervalos de confianza y test de hipótesis . . . . . . . . . . . . . . . . . 90
4.2.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . 90
4.2.2. Intervalo de confianza para una proporción . . . . . . . . . . . . 91
4.2.3. Intervalo de confianza para la varianza . . . . . . . . . . . . . . 92
4.2.4. Intervalo de confianza para el cociente de varianzas . . . . . . . 94
4.2.5. Intervalo de confianza para diferencia de medias . . . . . . . . . 95
4.2.6. Intervalo de confianza para diferencia de medias pareadas . . . . 96
4.2.7. Intervalo de confianza para diferencia de proporciones . . . . . . 97
4.2.8. Test de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.2.9. Test de hipótesis para diferencia de medias . . . . . . . . . . . . 104
4.2.10. Test de hipótesis para diferencia de medias pareadas . . . . . . 107
4.2.11. Test de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . 108
4.2.12. Algunas pruebas no paramétricas . . . . . . . . . . . . . . . . . 109
5. Introducción al Análisis de Regresión 116

5.0.13. Correlación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.0.14. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.0.15. Regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . 146
5.0.16. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . 156
ÍNDICE GENERAL 4
6. Introducción al análisis de varianza 164

6.1. Definiciones básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
6.1.1. La hipótesis de investigación . . . . . . . . . . . . . . . . . . . . 166
6.2. Diseño Completamente al Azar (DCA) . . . . . . . . . . . . . . . . . . 170
6.2.1. Diseños Completamente Aleatorizados DCA . . . . . . . . . . . 173
6.2.2. Pruebas de igualdad de varianzas . . . . . . . . . . . . . . . . . 178
6.2.3. Comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . 179
6.2.4. Otras estrategias cuando se violan los supuestos . . . . . . . . . 187
6.3. Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.4. Diseño en Bloques Completamente Aleatorizados-DBCA . . . . . . . . 193
6.5. Diseños factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
6.5.1. Análisis de un diseño de dos factores . . . . . . . . . . . . . . . 206
6.5.2. Chequeando interacción con una observación por celda . . . . . 211
6.5.3. Análisis con diferente número de réplicas por celdas . . . . . . . 216
6.5.4. Diseño factorial con múltiples factores . . . . . . . . . . . . . . 218
6.5.5. Diseño factorial de dos niveles . . . . . . . . . . . . . . . . . . . 220
7. Modelos lineales generalizados 226

7.1. Introducción al modelo logístico . . . . . . . . . . . . . . . . . . . . . . 226
7.2. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Capítulo 1
Conceptos básicos
Población: Es el conjunto de individuos u objetos que poseen una o varias caracterís-

ticas comunes y acerca de los cuales se desea estudiar.
Muestra: Es un subconjunto de la población.
Muestra aleatoria: Es un subconjunto de la población seleccionado según un esque-

ma, de tal forma que cada elemento de la población tiene igual oportunidad de ser
seleccionado.
Marco de muestreo: Es un listado o mapa que contiene todas las unidades de

muestreo y por consiguiente cubre a toda la población.
Parámetro: Desde la óptica frecuentista o clásica, el parámetro es un valor fijo de

la población que describe una característica de la misma. Desde el punto de vista
Bayesiano, el parámetro es una variable aleatoria cuya distribución deseamos estimar.
Estadístico: Es una función que depende de los datos obtenidos en una muestra.
Estimador: Es un estadístico que se utiliza para estimar o inferir un parámetro.
1.1. Variables y su clasificación

Las variables son fenómenos a medir o registrar que pueden tomar valores diferentes
entre los elementos de la población.
5
CAPÍTULO 1. CONCEPTOS BÁSICOS 6
1.1.1. Clasificación de las variables según su naturaleza

1. Variables Cualitativas: Representan cualidades o atributos de los elementos ob-
jeto de estudio. Usualmente son codificadas con números que representan códigos
asignados a nuestra conveniencia. Estas variables también son llamadas categóri-
cas.
Cualitativas Nominales: Los niveles o categorías de la variable no tienen un

orden natural de medición, por ejemplo: estado civil, raza, causa de muerte, tipo
sanguíneo, etc.
Cuando este tipo de variables tiene únicamente dos posibles niveles o categorías,
ésta se conoce como binaria o dicotómica, por ejemplo: sexo, tener o no una
enfermedad, etc.
Cualitativas Ordinales: Los niveles o categorías de la variable tienen un orden

natural de medición, por ejemplo: tipo de quemadura, estrato socioeconómico,
etc.
2. Variables Cuantitativas: Representan cantidades provenientes de mediciones

o conteos de ocurrencias de eventos.
Estas variables también son llamadas no categóricas.
Cuantitativas Discretas: Son aquellas cuyas unidades resultan de hacer con-

teos, por ejemplo: Número de clientes por mes, número de accidentes por día,
número de huecos por kilómetros en una autopista, etc.
Cuantitativas Continuas: Sus unidades resultan de hacer mediciones, por ejem-

plo: peso, estatura, índice de masa corporal, tiempo de viaje, etc.
Considerando la naturaleza de las mediciones, clasifiquemos las siguientes variables.

VARIABLE TIPO
Número de clientes por mes
Tipo de quemadura
Número de huecos por kilómetros en una carretera
Edad
Tiempo duración de las llamadas en un Call Center
Distancia de frenado de un vehículo en particular
Tipo de sangre
Género
Tamaño del equipaje (Grande, mediano, pequeño)
Número de personas por vivienda
Estatura
Modelo del automotor
Tiempo de vida de un celular
Estado civil
Estrato socioeconómico
Número de palabras por página en un libro
1.1.2. Clasificación de las variables según su forma de interrela-

cionarse.
1. Independientes: Comprenden aquellas variables que son manipuladas o tratadas
en un estudio con el fin de ver el efecto que tendrán en otra variable (dependiente).
2. Dependientes: Son aquellas variables en las cuales los cambios son el resultado
del nivel o cantidad de las variables independientes.
Por ejemplo, considerando las variables edad del vehículo y cantidad de emisión
de CO2 , esta última será el efecto y por lo tanto desempeñará el rol de variable
dependiente.
3. Intervinientes (De Control): Influyen o confunden el efecto de las independi-

entes, por ejemplo: En un estudio relacionado al efecto del sedentarismo sobre la
enfermedad coronaria, las variables edad, tabaquismo, y el estilo de vida pueden
jugar un papel de intervinientes.
Cuando se evalúa la relación entre una variable independiente y una variable de-
pendiente, hay dos tipos de variables o factores que pueden enmascarar el efecto
objeto de estudio. Estas son:
Factores o variables de confusión: Estas son variables externas a la relación que

se evalúa. Su presencia produce sesgos en la relación de la variable dependiente e
independiente, que se deben eliminar (o controlar) a través de ajustes estadísticos
realizados con análisis estratificado o con técnicas de análisis multivariante.
Variables de interacción: Sus valores cambian la intensidad o el sentido de la

relación entre el factor de estudio (exposición) y la variable dependiente (respues-
ta). Descubrirlas es un objetivo del estudio.
1.2. Nociones de Muestreo

Hay dos formas de estudiar las poblaciones: por censo o por muestreo. En el censo se
analizan todos y cada una uno de los elementos de una población y en el muestreo se
analiza una parte de la población.
Las principales ventajas del muestreo comparadas con el censo son:
Costo reducido: Si la información se obtienen únicamente para una parte de la

población, los gastos son menores que los se tendrían si se realiza un censo.
Mayor rapidez: La información puede ser recolectada y procesada más rápida-
mente cuando se selecciona una muestra que cuando se realiza un censo.
Mayor exactitud: Cuando los errores ajenos al muestreo son necesariamente grandes,
una muestra puede dar mejores resultados que un censo, ya que esos errores se
controlan con más facilidad si la operación es de pequeña escala.
Posibilidad de hacerse: En la industria algunas pruebas son destructivas, por lo
tanto, ciertas investigaciones sólo pueden realizarse con una muestra de productos.
Por ejemplo, un estudio sobre la duración de los bombillos o la resistencia de
cualquier material.
1.2.1. Criterio para aceptar un muestreo
Sabemos que una muestra es una parte de una población, pero no toda muestra es
admisible para el análisis. Para que una muestra sea aceptable es necesario que sea
representativa de la población, que tenga una confiabilidad susceptible de medición y
que responda a un plan práctico y eficaz.
Existen diferentes métodos de muestreo, entre ellos los más comunes son el muestreo
aleatorio simple, muestreo sistemático, muestreo estatificado, muestreo por conglomer-
ado, muestreo estratificado polietápico, etc.
1.2.2. Muestreo Aleatorio Simple (MAS)
El muestro aleatorio simple es el más sencillo y conocido procedimiento probabilístico

de selección.
Definición: MAS Supongamos que se quiere seleccionar una muestra de tamaño n

de una población que consta de N elementos (naturalmente, n ≤ N ). Se dice que el
procedimiento de selección es un muestreo aleatorio simple si el proceso aplicado otorga
a todo subconjunto de tamaño n de la población la misma probabilidad de selección.
Tamaño de muestra
Para determinar el tamaño de la muestra se debe elegir el principal objetivo y calcular

el tamaño de muestra necesario para cumplir dicho objetivo, pues el tamaño de muestra
depende, entre otros factores, del estadístico a utilizar.
En caso de ser varios los objetivos principales se determina un tamaño de muestra para
cumplir cada objetivo y entre todos ellos, se elige el mayor.
El tamaño de la muestra depende básicamente de:
Tamaño de la población. Lo notaremos por N .
Nivel de confianza o confiabilidad de las estimaciones (usualmente es un 95 %). A

mayor confiabilidad, mayor n. Lo notaremos por Zα/2 = 1.96.
Grado de variación o dispersión de la variable a estudiar (puede ser estimada con

una muestra piloto o con estudios previos). Lo notaremos por S 2 .
Error de estimación (es la máxima diferencia en valor absoluto, que se está dis-
puesto a aceptar). A mayor error de estimación menor tamaño de muestra. Lo
notaremos por ε.
Tamaño de muestra para estimar una media
n0
n= , Para poblaciones finitas.
1 + nN0
2
Zα/2 S2
n0 = , Para poblaciones infinitas.
ε2
Ejemplo: Una empresa tiene 98 operarios y desea determinar el tamaño de muestra
necesario para estimar el tiempo promedio que requiere un operario para completar una
labor, con un error de estimación máximo de medio minuto y una confiabilidad del 95 %.
Se toma una muestra piloto, con la cual se estima una desviación estándar de 1.2 min-
utos.
Solución: Tenemos que N = 98, ε = 0.5, Zα/2 = 1.96, y S = 1.2.

De aquí,
2
Zα/2 S2 1.962 (1.22 )
n0 = = = 22.13 ≈ 22
ε2 0.52
Como la población es finita, tenemos que
n0 22
n= n0 = = 17.97 = 18
1+ N 1 + 22
98
Se debe seleccionar una muestra aleatoria de 18 operarios.
Tamaño de muestra para estimar una proporción
n0
n= , Para poblaciones finitas.
1 + n0N−1
P (1 − P )Zα/2
2
n0 = , Para poblaciones infinitas.
ε2
Usualmente P = 0.5, puesto que este valor es el que maximiza la varianza de una pro-
porción.
Ejemplo: Se desea realizar una encuesta entre la población juvenil de una determinada
localidad para determinar la proporción de jóvenes que estaría a favor de una nueva
zona de ocio.
El número de jóvenes de dicha población es N = 2000. Determinar el tamaño de mues-

tra necesario para estimar la proporción de estudiantes que están a favor con un error
de estimación de ε = 0.05 y un nivel de confianza del 95 %, Zα/2 = 1.96.
Solución: Como no nos dan ninguna estimación de la proporción, tomaremos P = 0.5
P (1 − P )Zα/2
2
0.52 (1.96)2
n0 = = = 384.16 ≈ 384
ε2 0.052
n0 384
n= n0 −1 = 383 = 322.3 ≈ 323
1+ N 1 + 2000
Se debe seleccionar una muestra aleatoria de 323 jóvenes.
1.3. El Formulario
Es un instrumento utilizado para recolectar la información requerida en un estudio.
El diseño de la encuesta o el formulario, posee unas características específicas y una
estructura a considerar.
El investigador debe preguntarse, de acuerdo con los objetivos del estudio: ¿Es el formu-
lario el instrumento más efectivo para alcanzar los objetivos?; ¿Hay fuentes secundarias
que me pueden proveer información de interés?
Si se elige el formulario, la elaboración de los ítems debe hacerse de manera clara y sin
ambigüedades; se requiere también codificar el formulario para facilitar la tabulación.
los dos objetivos básicos del formulario son facilitar la recolección de los datos y ayudar
a la organización de la información para utilizarla más adelante.
1.3.1. Pasos previos a la elaboración del formulario
Antes de elaborar la encuesta, debe considerarse los siguientes aspectos.
Decidir acerca de los datos que se recolectarán. La selección de las variables es-
tá fundamentada en el marco teórico del estudio y la experiencia de los investi-
gadores.
Organizar las preguntas de tal manera que tengan una secuencia lógica.
Decidir si las preguntas que se harán son cerradas o abiertas.
Responder a las preguntas: ¿Quién recogerá la información?, ¿Dónde y cuándo se

registrará?, ¿Cómo se procesarán los datos?.
Realizar una prueba piloto.
Anexar instrucciones necesarias.
Elementos para el diseño del formulario
Simplicidad
Longitud
Tiempo de duración
Secuencialidad (se recomiendan las preguntas más complejas en la mitad del cues-
tionario)
Composición del formulario
Título del estudio o de la encuesta
Número de identificación del formulario
Instructivo
Preguntas
Tipos de preguntas en el formulario
Preguntas abiertas: Invitan a una respuesta libre. Se emplean para detectar acti-
tudes y sentimientos de los participantes.
Preguntas cerradas: En estas preguntas se limitan las respuestas a un grupo de

opciones. Las preguntas cerradas suelen tener las siguientes formas:
a. ) Dicótomas: Su respuesta tiene dos alternativas

b. ) Tricótomas: Su respuesta tiene tres alternativas, ejemplo, ¿Le ha sido infiel
a su esposo(a)? (1: Si 2: No 3: No responde)
c. ) Con alternativas múltiples: Tiene más de tres alternativas.
d. ) En abanico: El encuestado tiene la oportunidad de seleccionar varias respues-
tas.
Ejemplo de una encuesta
1.4. Planeación y diseño de un experimento controla-

do
ver artículo: A Systematic Approach to Planning for a Designed Industrial Experiment.
Capítulo 2
Introducción al R y R-Commander
R es un lenguaje o ambiente para trabajos computacionales que permite crear informes

estadísticos y gráficos de alta calidad. Es un proyecto GNU (General Public Licence) es
decir, es una licencia que está orientada principalmente a proteger la libre distribución,
modificación y uso de software; el cuál es similar al lenguaje y ambiente de S, software
desarrollado en los laboratorios de Bell (antes AT&T, ahora Lucent Technologies).
Más que un programa de estadística, R puede ser considerado un lenguaje de alto

nivel. Es completamente estructurado. La programación es dinámica ya que el uso de la
memoria y los procedimientos con matrices es ejecutado automáticamente. Permite
definir funciones que pasan a ser parte del sistema automáticamente y pueden ser
llamadas en posteriores sesiones sin tener que definirlas nuevamente. R puede pensarse,
aunque es mucho más, como un lenguaje matricial. Las siguientes son unas ventajas:
Opera con objetos,

Posee una amplia base de operadores,
Usa operadores que se aplican a matrices completas, por ejemplo, si A y B son
matrices las siguientes operaciones son posibles: A + B, A × B, etc.
Es interactivo,
Produce gran variedad de gráficos de excelente calidad,
Está en constante actualización,
Es un software robusto,
Es gratuito
El programa se puede obtener, para diferentes plataformas, de la siguiente dirección en

Internet
http://cran.r-project.org
13
CAPÍTULO 2. INTRODUCCIÓN AL R Y R-COMMANDER 14
2.0.1. Instalación de R
Para la instalación de R nos dirigimos a la página de internet http://cran.r-project.org,

posteriormente escogemos el link Download R for xxxx, luego base y finalmente se-
leccionar el enlace Download R x.x.x for Windows, el cual instalará R en nuestro
equipo.
2.0.2. Iniciación de una sesión en R
En el ícono de R que aparece en el escritorio haga doble clic. El programa ejecuta y

aparece la pantalla de comandos encabezada por lo siguiente:
R version 3.1.2 (2014-07-10)) Copyright (C) 2014 The R Foundation

for Statistical Computing ISBN 3-900051-07-0 Platform:
i386-pc-mingw32/i386 (32-bit)
R es un software libre y viene sin GARANTIA ALGUNA. Usted puede

redistribuirlo bajo ciertas circunstancias. Escriba "license()" o
"licence()" para detalles de distribución.
R es un proyecto colaborativo con muchos contribuyentes. Escriba

"contributors()" para obtener más información y "citation()" para
saber cómo citar R o paquetes de R en publicaciones.
Escriba "demo()" para demostraciones, "help()" para el sistema

on-line de ayuda, o "help.start()" para abrir el sistema de ayuda
HTML con su navegador. Escriba "q()" para salir de R.
y el cursor se ubicará en esa línea. La consola de R está lista para el ingreso de comandos
por parte del usuario. El símbolo > que aparece al lado izquierdo señala el punto donde
se ingresan los comandos.
NOTA. Es importante notar que para el programa las mayúsculas son

diferentes a las minúsculas, Es decir Mat, mat, MAT, son objetos diferentes
en R.
NOTA. El R se está actualizando constantemente, es por esto que hay

que estar atento en el Cran, respecto a sus nuevas versiones. Si usted desea
actualizar el R, puede seguir los siguientes pasos:
install.packages("installr") # instala en paquete installr

library(installr) # llama al paquete installr
updateR() # actualiza la nueva versión de R
2.0.3. Instalación de R-Commander
R-Commander es una Interfaz Gráfica de Usuario (GUI en inglés), creada por John
Fox, que permite acceder a muchas capacidades del entorno estadístico R sin que el
usuario tenga que conocer el lenguaje de comandos propio de este entorno.
La instalación de R-Commander se realiza en los siguientes pasos:
1. En la consola de R seleccionamos Paquetes→ Instalar paquete(s).

2. Nos saldrá una ventana solicitando un mirror desde el cual descargaremos los
paquetes, elegimos cualquiera de estos.
3. Se abrirá una ventana donde aparecen todos los paquetes disponibles para R.
Seleccionamos el paquete Rcmdr.
4. A continuación, cargamos R-Commander, introduciendo el siguiente código en la
consola de R: library(Rcmdr). Esta primera vez que cargamos R-Commander nos
pedirá la instalación de otros paquetes necesarios: debemos autorizarlo, eligien-
do la opción, que aparece por defecto, de descarga desde CRAN . No debemos
extrañarnos si tarda unos minutos en descargar e instalar estos otros paquetes.
La ventana de R-Commander se encuentra dividida en tres partes: script, output

y messages. Cada vez que, a través de los menús de R-Commander accedamos a las
capacidades de R (gráficos, procedimientos estadísticos, modelos, etc.), en la ventana
script se mostrará el comando R que ejecuta la tarea que hayamos solicitado, y en la
ventana output se mostrará el resultado de dicho comando.
2.0.4. Búsqueda de ayuda
Si se tiene una conexión a Internet es posible buscar ayuda usando el siguiente comando:
RSiteSearch("t.test")
o localmente tenemos
help.search("t.test")
para buscar ayuda acerca de funciones, utilizamos
help("t.test") o ?t.test
Tenga en cuenta que estas formas de buscar ayuda requiere del conocimiento del nombre
de la función, pero si desconocemos qué función de R nos facilita nuestro procedimien-
to, debemos utilizar el comando ??, por ejemplo, si deseamos buscar ayuda sobre la
Regresión de Cox, en R introducimos la instrucción:
??cox
2.0.5. Ejecución de funciones especiales
En R las funciones están organizadas en librerías o paquetes. Por defecto R inicializa

en el paquete denominado “base” en el cual encontramos las funciones generales para
el manejo de datos y graficación. Existen otros paquetes en los cuales se encuentran
herramientas de análisis más especializadas, las cuales pueden ser utilizadas cargando
previamente la librería que las contiene. Una librería o paquete puede cargarse mediante
la función library(), con require() o bien a través de la barra menú PAQUETES
del R.
> library()
2.1. Manejo de datos

El manejo de datos en R puede parecer complejo. El programa cuenta con funciones
poderosas tanto para la lectura como para la escritura de datos.
Comando Función
scan() Lectura de datos. Especial para datos sin estructura.
read.table() Lectura de matrices de datos
read.fwf() Lectura de datos en formato fijo.
sink() Desvía la salida de información.
write() Escribe una matriz en un archivo de texto.
xtable() Escribe una matriz en formato LATEX. Es
necesario cargar la librería xtable.
ftable() Permite presentar decentemente un arreglo
multidimensional.
2.1.1. Introducción de datos con R-Commander
Para introducir los datos en R-Commander elegimos en el menú la opción Datos, luego
Nuevo conjunto de datos. Eso abre el editor de datos que, en primer lugar, nos pedirá
un nombre para la matriz de datos (pondremos Datos1) y a continuación abrirá una
ventana con casillas parecida a una hoja de cálculo de Excel. En esta hoja debemos
introducir los datos con la misma estructura que tienen comúnmente las matrices de
datos, con los individuos en las filas y las variables en columnas.
A manera de ejemplo, vamos a introducir las variables Edad y Presión Sanguínea Sistóli-
ca (PSS): Edad: 20 43 63 26 53 31 58 46 58 70
PSS: 120 128 141 126 134 128 136 132 140 144
Para terminar, le damos Aceptar, y automáticamente se cierra la ventana del editor

de datos. En ese momento, R habrá almacenado los datos introducidos convirtiéndolos

en lo que R-Commander llama el conjunto de datos activo.
Para guardar una hoja de datos en R-Commander, seleccionamos en el menú Datos la

opción Conjunto de datos activo y, dentro de ésta, Guardar el conjunto de datos activo.
2.1.2. Importar datos con R-Commander
Nos vamos a la opción del menu Datos → Importar datos → desde archivo de texto o
portapapeles.
Leeremos entonces, la base con nombre base11.txt.
Ahora, si queremos leer datos de tipo Excel, tenemos que utilizar la opción del menu
Datos → Importar datos → desde conjunto de datos Excel, Access o dBase, eligiendo
después el archivo a través de la ventana del explorador.
Leeremos ahora, la base con nombre base1.xls.
2.1.3. Recodificación de una variable numérica con R-Commander
Importemos la base de datos llamada base_datos.txt que se encuentra en la carpeta

del curso. Seleccionamos la opción Datos → Modificar variables del conjunto de datos
activo → Recodificar variables.
1. Variable a recodificar: EDAD
2. Nombre de la nueva variable: EDAD_rec
3. Directrices de recodificación:
17:29="joven"
30:60="adulto"
2.1.4. Filtrado de datos con R-Commander
Seleccionando en el menú Datos → Conjunto de datos activo → Filtrar el conjunto de

datos activo.
En la casilla Expresión de selección debemos escribir la expresión lógica que determine

nuestro filtro. Para el ejemplo, utilizaremos: ESTA_REAL>1.62&ESTA_REAL<1.73, lo cual
indica que queremos trabajar únicamente con las variables en la cual las estaturas de
los individuos estén entre 1.62 y 1.73.
Por último, se recomienda poner un nombre al nuevo conjunto de datos para evitar
sobreescribir en el original. Lo llamaremos datos3.
2.1.5. Almacenamiento de instrucciones y resultados con R-

Commander
Seleccionamos en el menú Fichero → Guardar las instrucciones como. Nos pedirá el

nombre y la ruta donde guardar el fichero de instrucciones, que tendrá extensión .R.
Ahora vamos a reiniciar R-Commander y volvemos a cargar el fichero base_datos.txt.

A continuación elegimos en el menú Fichero → Abrir fichero de instrucciones y selec-
cionamos el fichero de instrucciones que antes hemos guardado.
2.1.6. Entrada y lectura de datos con R
La entrada de datos puede hacerse desde teclado, y la lectura a través de un archivo

en ASCII. Una vez los datos han sido leídos estos quedan en forma permanente en el
disco duro en formato R. Estos datos en formato especial pueden usarse repetidamente
en diferentes sesiones y quedan grabados en el directorio “.Data”.
Función scan
La función scan() puede usarse para leer datos desde un archivo de texto o interacti-
vamente desde el teclado.
Suponga la base de datos con nombre base1 en la carpeta Curso MIB. La lectura de
estos datos la realizamos así:
a1=scan(file.choose(),what=list("",1,1))
a1
Asignando los nombres a las variables, tenemos:
sexo=unlist(a1[1])
edad=unlist(a1[2])
peso=unlist(a1[3])
Note que la función unlist() permite producir vectores de una estructura de lista.
Función read.table
Cuando debemos manejar un archivo de datos relativamente grande y que contiene vari-
ables tanto numéricas como alfanuméricas podemos utilizar la función read.table()
, la cual nos permite leer archivos externos en ASCII, como los que crea una hoja elec-
trónica. Lo que debemos tener en cuenta con esta función es la estructura de datos, la
cual se conoce como data frame, lo traduciremos como marco de datos.
Si los datos están en formato CSV (delimitados por comas), usamos la siguiente ins-
trucción:
datos=read.table(file.choose(),header=T,sep=";",dec=",")
Si los datos están en blog de notas, extensión .txt, usamos la instrucción:
datos=read.table(file.choose(),header=T,sep=,sep=,dec=","), donde
header=T: es para decirle a R que los nombres de la variable están en la primera fila
de la base de datos.
sep=: indica que las variables están separadas por espacio en blanco.
dec=",": indica que los valores con cifras decimales están separados por comas ",".
file.choose(): indica a R para que abra una ventana y busquemos la base de datos
a cargar.
Para nuestro ejemplo con la base de datos base1.csv, tenemos:
a1=read.table(file.choose(),header=T,sep=";")
a1
Si queremos llamar a la variable edad de la base de datos podemos utilizar las siguientes
instrucciones:
a1$edad
a1[2]
NOTA: si queremos leer la base de datos en formato .xls, debemos instalar y cargar
la librería readxl y usar la función de lectura de datos read_excel().
2.1.7. Entrando datos desde el teclado
R opera con lo que se conoce como estructura de datos. La más simple de tales es-
tructuras es el vector, que es una sola entidad consistente de una colección ordenada
de números o caracteres. Para crear un vector llamado x, que tenga seis elementos,
digamos 3.6, 2.5, 1.2, 0.6, 1.3, y 2.1, utilizamos el comando
x=c(3.6,2.5,1.2,0.6,1.3,2.1)
Otros ejemplos:
x=c(1,7:19)
length(x)
frutas<-c("pera","manzana","banano","pera","curuba")
También se puede generar sucesiones de números con instrucciones de la forma:

x=2:20 (que genera un vector con los elementos ordenados 2, 3, 4, . . . , 20).
x=19:1 (que genera un vector con los elementos ordenados 19, 18, 17, . . . , 1).
o utilizando la función seq de la forma:
y=seq(1,2,by=.2) (que genera un vector con los elementos ordenados 1, 1.2, 1.4, 1.6,
1.8, 2).
y =seq(2,1,by=-.2) (que genera un vector con los elementos ordenados 2, 1.8, 1.6,
1.4, 1.2, 1).
x=seq(2,1,length=6) (genera una secuencia de valores desde el 2 hasta el 1 de longi-
tud seis 2.0, 1.8, 1.6, 1.4, 1.2, 1.0)
También se pueden replicar estructuras con la función rep()

z=rep(y,times=4)
z
[1] 2.0 1.8 1.6 1.4 1.2 1.0 2.0 1.8 1.6 1.4 1.2 1.0 2.0 1.8 1.6 1.4 1.2
[18] 1.0 2.0 1.8 1.6 1.4 1.2 1.0
2.1.8. Subíndices
Creemos el siguiente vector

x<-seq(1,10,by=0.8)
x
[1] 1.0 1.8 2.6 3.4 4.2 5.0 5.8 6.6 7.4 8.2 9.0 9.8
Ejecute los siguientes comandos y observe que cada uno de ellos realiza lo que se es-
pecifica al frente.
x[1] # Primer elemento de x

x[1:3] # Elementos 1 a 3
x[x>5] # Solo los mayores que 5
x[-1] # Se elimina el primer elemento
x[-c(1,3)] # Elimina el elemento 1 y 3
x[-(1:3)] # Elimina los tres primeros elementos
Ejemplo. Generemos 50 valores de una distribución normal y creemos una variable

categórica donde llamaremos al 50 % de los valores más centrales “medios”, y al restante
ya sea “bajos” o “altos”:
daticos=rnorm(50)
daticos
[1] 1.54424873 -0.64448394 -0.85470054 -0.83369159 -0.34076731 -1.33601081
[7] 1.17407874 0.14617907 -0.47634426 -1.12084150 0.30321170 -0.56746721
[13] 0.54022534 -0.91098144 -1.16554573 0.58225394 -0.80016995 0.83495880
[19] -0.20147381 0.57470639 -0.54912672 0.33988339 -0.05734176 -0.43489809
[25] 0.36820726 -0.16590310 2.25252639 0.68756948 -0.79313628 -0.86452138
[31] -1.28005771 -0.90248163 1.02730576 -0.06534854 0.21307202 -2.19740137
[37] -1.12128317 0.63053435 0.62328987 -0.18507329 -1.64746852 -0.41697604
[43] -0.93695834 -0.38080377 0.75571559 -0.31020689 0.22646122 -0.64086500
[49] 1.13310851 -0.51603719
cuartil1=quantile(daticos,probs=0.25)
cuartil3=quantile(daticos,probs=0.75)
categorica=rep(NA,length(daticos))
categorica[daticos<cuartil1]="bajos"
categorica[cuartil1<=daticos & daticos<=cuartil3]="medios"
categorica[daticos>cuartil3]="altos"
categorica
[1] "altos" "medios" "bajos" "bajos" "medios" "bajos" "altos" "medios"
[9] "medios" "bajos" "medios" "medios" "altos" "bajos" "bajos" "altos"
[17] "medios" "altos" "medios" "altos" "medios" "medios" "medios" "medios"
[25] "medios" "medios" "altos" "altos" "medios" "bajos" "bajos" "bajos"
[33] "altos" "medios" "medios" "bajos" "bajos" "altos" "altos" "medios"
[41] "bajos" "medios" "bajos" "medios" "altos" "medios" "medios" "medios"
[49] "altos" "medios"
2.2. Especificación de datos faltantes

Cuando tenemos valores faltantes en las variables debemos denotarlos en R con NA.
Sin embargo, si tenemos un archivo donde los datos faltantes se denoten con otro
caracter entonces en la opción na.strings = ’NA’ de la función scan() o de la función
read.table() reemplazamos el NA por el símbolo adecuado.
Tenemos un archivo en la carpeta Curso MIB llamado uci.txt que es
Edad D.estancia Dif.peso

29 8 2
34 15 -3
46 7 *
21 8 -1.5
18 5 -4
33 20 *
30 * 0
60 8 -2.5
19 7 -2
21 4 *
donde los valores faltantes se han denotado por una *. En R le damos el comando
siguiente para su lectura:
uci.dat<-read.table(file.choose(),header=T, na.strings ="*")

uci.dat
Edad D.estancia Dif.peso
1 29 8 2.0
2 34 15 -3.0
3 46 7 NA
4 21 8 -1.5
5 18 5 -4.0
6 33 20 NA
7 30 NA 0.0
8 60 8 -2.5
9 19 7 -2.0
10 21 4 NA
y observamos cómo el programa reemplaza los símbolos por el adecuado para manejo
interno.
2.3. Manipulación de datos

La manipulación de datos se hace de diferentes formas. Usualmente se toma ventaja de
la vectorización del lenguaje. Esto permite trabajar sobre un conjunto de elementos en
lugar de trabajar elemento a elemento como en lenguajes normales.
2.3.1. Operadores
+ :Suma
− : Resta
× : Multiplicación
/ : División
ˆ: Exponenciación
%/ % : División entera
% % : Operador módulo
Operadores de comparación
< : menor
> : mayor
<= : menor o igual
>= : mayor o igual
== : igual
! = : diferente
Operadores lógicos
&:y
|:ó
! : no
all(...):
any(...):
Operadores de control
&& : Si el primer operando es cierto se evalúa el segundo operando
|| : Si el primer operando es falso se evalúa el segundo operando.

Operaciones básicas
Siendo el lenguaje vectorizado, los vectores pueden usarse en expresiones aritméticas,

en cuyo caso las operaciones son ejecutadas elemento a elemento. Si x y z son vectores,
no necesariamente de la misma dimensión, entonces podemos ejecutar los siguientes
comandos
y<-x+z
y2<-x-z
y3<-2*x+z-3
La dimensión de y, y2 y y3 será igual a la dimensión mayor de los vectores x y z
y4<-1/x
El anterior comando produce un vector cuyos elementos corresponden a los inversos de

x
2.3.2. Funciones que producen escalares
Existen una gran cantidad de funciones que al ser aplicadas a un vector producen como
resultado un escalar. Entre ellas tenemos:
max(): retorna el máximo del argumento
min(): retorna el mínimo del argumento
sum(): retorna la suma de todos los elementos del argumento
mean(): retorna el promedio aritmético de todos los elementos del argumento
var(): retorna la varianza de todos los elementos del argumento, cuando éste es
un vector, o la matriz de varianzas - covarianzas, si el argumento es una matriz.
sd(): retorna la desviación estándar de los datos
median(): retorna la mediana del argumento
quantile(...,probs=c(...)): retorna quantiles del argumento con la proporción o

proporciones indicadas en ‘probs’.
prod(): retorna el producto de todos los elementos del argumento
length(): retorna el número de elementos del argumento si este es una lista o

vector.
ncol(): número de columnas si el argumento es una matriz
nrow(): número de filas si el argumento es una matriz
summary(): estadísticas básicas
Ejemplo:
x<-rexp(20)
x
[1] 0.65699969 4.38423147 1.39088864 1.82778784 0.07063072 0.16763033 0.26055624 0.13914072

[9] 0.19467512 1.43806059 0.33195089 0.53713890 1.03220040 1.64537448 0.76489143 0.77907097
[17] 0.08561684 0.01892189 0.53475832 2.32819674
max(x)
[1] 4.384231
min(x)
[1] 0.01892189
sum(x)
[1] 18.58872
mean(x)
[1] 0.9294361
length(x)
[1] 20
median(x)
[1] 0.5970693
var(x)
[1] 1.102911
sd(x)
[1] 1.050196
quantile(x,probs=0.75)
75%
1.402682
La función summary nos proporciona los estadísticos básicos del argumento:
s<-summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.01892 0.18790 0.59710 0.92940 1.40300 4.38400
length(s)
[1] 6
#presentando un componente de s:
s[1]
Min.
0.01892
Transformando a s en un vector:
c<-as.vector(s)
c
[1] 0.01892 0.18790 0.59710 0.92940 1.40300 4.38400
2.3.3. Funciones relacionadas con distribuciones
En R podemos calcular densidades, probabilidades acumuladas, hallar cuantiles y gener-

ar números aleatorios de la siguiente manera:
Tabla 2.1: Algunas funciones relacionadas con distribuciones.

Distribución Densidad Función Acumulada
Uniforme dunif(x,min=0,max=1,log = FALSE) punif(q,min=0,max=1,
lower.tail = TRUE,log.p = FALSE)
Normal dnorm(x, mean=0, sd=1, log = FALSE) pnorm(q, mean=0, sd=1,
lower.tail = TRUE, log.p = FALSE)
Binomial dbinom(x, size, prob, log = FALSE) pbinom(q, size, prob,
Lognormal dlnorm(x, meanlog = 0, sdlog = 1, log = FALSE) plnorm(q, meanlog = 0,
sdlog = 1, lower.tail = TRUE,
log.p = FALSE)
Beta dbeta(x, shape1, shape2, ncp=0, pbeta(q, shape1, shape2, ncp=0,
log = FALSE) lower.tail = TRUE, log.p = FALSE)
Geométrica dgeom(x, prob, log = FALSE) pgeom(q, prob, lower.tail = TRUE,
log.p = FALSE)
Gamma dgamma(x, shape, scale=1, log = FALSE) pgamma(q, shape, scale=1,
Ji cuadrado dchisq(x, df, ncp=0, log = FALSE) pchisq(q, df, ncp=0,
Exponencial dexp(x, rate = 1, log = FALSE) pexp(q, rate = 1,
F df(x, df1, df2, log = FALSE) pf(q, df1, df2, ncp=0,
lower.tail = TRUE,log.p = FALSE)
Hipergeom. dhyper(x, m, n, k, log = FALSE) phyper(q, m, n, k,
t dt(x, df, log = FALSE) pt(q, df, ncp=0, lower.tail = TRUE,
log.p = FALSE)
Poisson dpois(x, lambda, log = FALSE) ppois(q, lambda,lower.tail = TRUE,
log.p = FALSE)
Weibull dweibull(x, shape, scale = 1, log = FALSE) pweibull(q, shape, scale = 1,
Binom. Neg. dnbinom(x, size, prob, mu, log = FALSE) pnbinom(q, size, prob, mu,
Tabla 2.2: Funciones relacionadas con distribuciones.

Distribución Cuantiles Números Aleatorios
Uniforme qunif(p, min=0, max=1,lower.tail runif(n, min=0, max=1)
= TRUE, log.p = FALSE)
Normal qnorm(p, mean=0, sd=1, lower.tail rnorm(n, mean=0, sd=1)
Binomial qbinom(p, size, prob, lower.tail rbinom(n, size, prob)
Lognormal qlnorm(p, meanlog = 0, sdlog = 1, rlnorm(n, meanlog = 0, sdlog = 1)
Beta qbeta(p, shape1, shape2, lower.tail rbeta(n, shape1, shape2)
Geométrica qgeom(p, prob, lower.tail = TRUE, rgeom(n, prob)
log.p = FALSE)
Gamma qgamma(p, shape, scale=1, lower.tail rgamma(n, shape, scale=1)
JI cuadrado qchisq(p, df, ncp=0, lower.tail = TRUE, rchisq(n, df, ncp=0)
log.p = FALSE)
Exponencial qexp(p, rate = 1, lower.tail = TRUE, rexp(n, rate = 1)
log.p = FALSE)
F qf(p, df1, df2,lower.tail = TRUE, log.p rf(n, df1, df2)
= FALSE)
Hipergeom. qhyper(p, m, n, k, lower.tail = TRUE, rhyper(nn, m, n, k)
log.p = FALSE)
t qt(p, df,lower.tail = TRUE, log.p = rt(n, df)
FALSE)
Poisson qpois(p, lambda, lower.tail = TRUE, rpois(n, lambda)
log.p = FALSE)
Weibull qweibull(p, shape, scale = 1, lower.tail = rweibull(n, shape, scale = 1)
TRUE, log.p = FALSE)
Binom.Neg. qnbinom(p, size, prob, mu, lower.tail = rnbinom(n, size, prob, mu)
TRUE, log.p = FALSE)
Ejemplo: Si se quiere graficar la función densidad de probabilidad de una normal con

media 0 y varianza 1, lo podemos hacer con la instrucción,
x <- seq(-3.5,3.5,by=.01)
plot(x,dnorm(x, mean=0, sd=1))
o la distribución Ji-cuadrado con 5 grados de libertad,
x <- seq(0,20,by=.01)
plot(x,dchisq(x, df=5))
Y si se quiere encontrar P r(X ≤ 5) de una variable distribuida en forma binomial, con

n = 10 y p = 0.7, se tiene:
pbinom(5, size=10, prob=.7, lower.tail = TRUE)
si se quiere encontrar P r(X > 4, 5) de una variable normal con media 5 y desviación 2,
pnorm(4.5, mean=5, sd=2, lower.tail = FALSE)
También se puede crear la tabla de la distribución normal estándar con las instrucciones,
zc <- seq(0,3.5,.1)
zf <- seq(0,.9,.1)
z <- matrix(NA,nrow=length(zc),ncol=length(zf),dimnames = list(zc,zf))
for(i in 1:length(zc)){
for(j in 1:length(zf)){
zt=zc[i]+zf[j]
z[i,j]=pnorm(zt)}
}
z
2.4. Ejecuciones condicionales
2.4.1. Función if
if (expr1) expr2 else expr3

Por ejemplo, la función valor absoluto de un número x la podríamos crear como,
x = -2.8
y = NA
{if(x>=0) y=x
else y=-x}
y
aunque R tiene la función abs() que calcula sin problema este valor.
2.4.2. Función for
for (nombre in expr1) expr2
Por ejemplo si se quiere crear la sucesión x, (x + 1)2 , (x + 2)3 , . . . , (x + n − 1)n y saber

su suma podemos usar el siguiente ciclo for
x = 5
y = 0
n = 10
for(i in 1:n){
y[i] = (x+i-1)î}
y
[1] 5 36 343 4096 59049 1000000
[7] 19487171 429981696 10604499373289254654976
sum(y)
[1] 300309686745
Otro ejemplo usando for e if es usarlo para recodificar una variable,
x = c(1,0,0,1,0,1,0)
y = 0
for(i in 1:length(x)){
if (x[i]==1) y[i] = "Si" else y[i] = "No"}
y
[1] "Si" "No" "No" "Si" "No" "Si" "No"
2.4.3. Función ifelse
El uso de if está limitado a expresiones que no sean vectores. Si estamos evaluando

vectores o matrices, entonces lo indicado es hacerlo con ifelse.
ifelse(test, yes, no)
Por ejemplo si se desea calcular la raíz cuadrada de un número siempre y cuando este
sea mayor que 0,
x = 3
sqrt(ifelse(x>=0, x, NA))
[1] 1.732051
x = -5
sqrt(ifelse(x>=0, x, NA))
[1] NA
{
x2 si 0<x<3
Si, por ejemplo, se tiene la función, f (x) =
x − 1 si x≥3
podemos observar algunos de sus valores mediante la función ifelse,
x = seq(0,6,by=.01)
y = ifelse((x<3),x^2,x-1)
plot(x,y) # para graficarlo
Otro ejemplo consiste generar 100 observaciones de una distribución normal estándar
y determinar cuantas están dentro de dos desviaciones estándar de la muestra,
x=rnorm(100)
media=mean(x)
desv.est=sd(x)
desv=abs(x-media)
cuenta=ifelse(desv<(2*desv.est),1,0)
cuenta
[1] 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0
[34] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1
[67] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2.4.4. Objetos en R
La información es manipulada en R en forma de objetos. Ejemplos de objetos son

vectores de valores numéricos (reales) o valores complejos, vectores de valores lógicos
y vectores de caracteres. Estos son conocidos como estructuras ”atómicas” ya que sus
componentes son todos del mismo tipo o modo. Las mismas funciones del R son objetos.
Función append
Esta función permite agregar elementos a un vector o unir vectores.

append(x, values, after=length(x))
Por ejemplo,
x = c(1,2,3)
append(x, c(4,5,6), after=length(x))
[1] 1 2 3 4 5 6
Función matrix, is.matrix, as.matrix
En R es posible crear matrices y convertir data frames en matrices utilizando:
matrix Crea una matriz desde un conjunto de valores dado.
as.matrix Intenta convertir su argumento en una matriz.
is.matrix Prueba si su argumento es una matriz (estricta).
matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE,dimnames = NULL)
as.matrix(x)
is.matrix(x)
Ejemplo:
matrix(1:16, nrow=2, byrow=T)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,] 1 2 3 4 5 6 7 8
[2,] 9 10 11 12 13 14 15 16
Función list
Permite guardar o crear una lista ordenada de componentes. Por ejemplo,
x = list(a=1:10, b=c("manzana", "pera"))

x
$a
[1] 1 2 3 4 5 6 7 8 9 10
$b [1] "manzana" "pera"
Para llamar un elemento de x escribimos x$a o x$b y Enter. Con la función unlist(x)
unimos todos los elementos de la lista x.
Función data.frame
Estas funciones crean o manipulan data frames, una estructura como la matricial cuyas
columnas pueden ser de diferentes tipos (numéricos y caracteres).
Por ejemplo,
x = data.frame(a=1:6,b=c("A","B","C"))
x
a b
1 1 A
2 2 B
3 3 C
4 4 A
5 5 B
6 6 C
Función rm
Con esta función se remueven objetos de R.

rm(x)
2.5. Creación de nuevas funciones en R

En R se dispone de function y return las cuales proporcionan los mecanismos de base
para definir nuevas funciones en lenguaje R.
function(arglist) expr
Por ejemplo, si se quiere crear una función que calcule el coeficiente de kurtosis, lo
podemos hacer como,
y = c(2,3,1,3,4)
kurtosis=function(x){
mean((x-mean(x))^4)/(sd(x))^4-3
}
kurtosis(y)
También se puede crear la función media geométrica como,
media.geometrica<-function(x) prod(x)^(1/length(x))
media.geometrica(y)
Podemos crear también la función P r(T ≤ t) bajo una distribución de Poisson,
p.poisson = function(t,lambda){
if(t>=0 & lambda>0){
seq = seq(0,t)
Pr.i = exp(-lambda)*lambda^seq/factorial(seq)
sum(Pr.i)
}
else cat("t debe ser mayor que 0","\n")
}
p.poisson(2,.5)
La siguiente función que produce cuatro gráficas: un histograma, una caja de Tukey,
una estimación de la densidad y un gráfico q-q (cuantil vs. cuantil), y le adiciona una
línea que pasa por el primer y tercer cuartil.
forma.aed<-function(x){
par(mfrow=c(2,2))
hist(x)
boxplot(x)
IQR<-summary(x)[5]-summary(x)[2]
plot(density(x,width=2*IQR), xlab="x",ylab="",type="l")
qqnorm(x)
qqline(x)
}
x=rnorm(100)
forma.aed(x)
Ahora, la siguiente función produce un gráfico dentro de otro. En este caso tenemos
un histograma con su respectiva función de densidad, y un boxplot dentro del mismo
gráfico.
dos.en.uno<-function(x){
hist(x, col="light blue", probability="TRUE", main="", xlab="x",
ylab="Densidad")
lines(density(x,na.rm=T), col="red", lwd=3)
abline(v=mean(x,na.rm=T),col="yellow",lwd=3)
abline(v=mean(x,na.rm=T)-sd(x,na.rm=T),col="yellow",lwd=3,lty=2)
abline(v=mean(x,na.rm=T)+sd(x,na.rm=T),col="yellow",lwd=3,lty=2)
op <- par(fig = c(0.5,0.85,.5,.98), new=TRUE)

boxplot(x, xlab="", ylab="", main="", axes=FALSE)
box(lwd=1)
par(op)
}
x=rexp(1000)
dos.en.uno(x)
2.6. Matrices
2.6.1. Operaciones básicas con matrices
Si A y B son dos matrices, el producto de matrices se realiza con % ∗ %, por ejemplo

A=matrix(1:16,ncol=4,byrow=T)
B=matrix(5:20,ncol=4,byrow=T)
A%*%B
Transposición de una matriz

la transpuesta de una matriz A se logra con la instrucción t(A)
Productos cruzados
El producto cruzado AT B se puede calcular con la instrucción crossprod(A,B)
Solución de ecuaciones Ax = y
La solución de ecuaciones de la forma Ax+y, donde A es la matriz de coeficientes, se
consigue como
A=cbind(c(1,2,3),c(2,4,5),c(3,5,2))
y=c(-1,-1,3.5)
x=qr.solve(A,y,tol = 1e-10)
Concatenando matrices
cbind(): Esta función une dos matrices por filas (o sea, una al lado de la otra)
A=matrix(c(1,3,5,7),ncol=2)
A
[,1] [,2]
[1,] 1 5
[2,] 3 7
B=matrix(c(0,3,2,1,4,7),nrow=2)
B
[,1] [,2] [,3]
[1,] 0 2 4
[2,] 3 1 7
C=cbind(A,B)
C
[,1] [,2] [,3] [,4] [,5]
[1,] 1 5 0 2 4
[2,] 3 7 3 1 7
rbind(): Junta dos matrices por columna (una matriz sobre la otra)
D=rbind(A,t(B))
D
[,1] [,2]
[1,] 1 5
[2,] 3 7
[3,] 0 3
[4,] 2 1
[5,] 4 7
Cálculo de valores y vectores propios

La función eigen() produce los valores y vectores propios de una matriz cuadrada. Por
ejemplo,
A=matrix(c(1,2,3,2,4,5,3,5,2),ncol=3)
eigen(A)
$values
[1] 9.51206040 0.04117509 -2.55323549
$vectors
[,1] [,2] [,3]
[1,] -0.3789216 0.83776349 -0.3931549
[2,] -0.6934136 -0.53837038 -0.4788893
[3,] -0.6128589 0.09115742 0.7849168
Creación de matrices diagonales La función diag() crea una matriz diagonal si el

argumento es vectorial o retorna la matriz diagonal de una matriz,
diag(c(1,2,3))
[,1] [,2] [,3]
[1,] 1 0 0
[2,] 0 2 0
[3,] 0 0 3
A=matrix(c(1,2,3,2,4,5,3,5,2),ncol=3)
A
[,1] [,2] [,3]
[1,] 1 2 3
[2,] 2 4 5
[3,] 3 5 2
diag(A)
[1] 1 4 2
Inversa de una matriz

La inversa de una matriz se calcula con la función solve()
Ordenando un vector
Con la función sort() podemos ordenar un vector. Por ejemplo,
sort(c(-.25,-1.3,0,0.5,1.5,4.3))
[1] -1.30 -0.25 0.00 0.50 1.50 4.30
2.6.2. Funciones sobre las componentes de una matriz
Función apply
apply (X, MARGIN, FUN)

Donde X es el arreglo a ser usado, MARGIN es un vector con los subíndices sobre los
cuales la función será aplicada (1 indica filas, 2 indica columnas, c(1,2) indica filas y
columnas), y FUN es la función a ser aplicada.
Por ejemplo si se quiere calcular las medias de las columnas de una matriz,
x = cbind(round(c(rnorm(5,10,2)),1),round(c(runif(5,10,20)),1),
c(rpois(5,3)))
x
[,1] [,2] [,3]
[1,] 7.7 19.0 2
[2,] 10.4 12.9 1
[3,] 11.8 11.9 4
[4,] 10.4 12.4 5
[5,] 8.4 14.2 1
apply(x,MARGIN=2,mean)
[1] 9.74 14.08 2.60
apply(x,MARGIN=1,mean)
[1] 9.566667 8.100000 9.233333 9.266667 7.866667
También podríamos estar interesados en estandarizar las variables de la matriz,

est = function(x) (x-mean(x))/sd(x)
apply(x,MARGIN=2,est)
Otro ejemplo usando comandos gráficos, consiste en dibujar histogramas para cada una
de las columnas de la matriz,
x = cbind(c(rnorm(5000,10,2)),c(runif(5000,10,20)),c(rpois(5000,3)))
tail(x)
[,1] [,2] [,3]
[4995,] 10.346965 14.10746 0
[4996,] 9.804242 11.98455 5
[4997,] 13.188636 10.22597 2
[4998,] 6.644832 19.30358 2
[4999,] 13.205479 13.38812 4
[5000,] 6.295047 18.52519 3
par(mfrow=c(1,3))
apply(x,MARGIN=2,hist)
Histogram of newX[, i] Histogram of newX[, i] Histogram of newX[, i]
500
1000
800
400
800
600
300
Frequency
Frequency
Frequency
600
400
200
400
200
100
200
0
0
5 10 15 10 12 14 16 18 20 0 2 4 6 8 10 12
newX[, i] newX[, i] newX[, i]
Existen otras funciones que simplifican los cálculos y operan de manera iterada sobre
columnas o filas de una matríz, para mayor información vea Correa, J. y Barrera C.
(2010).
2.7. Gráficos
Algunas funciones gráficas que podemos usar en R son:
Función plot(x,y)
plot(x,y,type="l",main="Título",xlab=.Eje x",ylab=.Eje y",xlim=c(-3,10),
ylim=c(0,100))
donde type indica el tipo de gráfico: l si es de linea, p si es de puntos, b si es de puntos
y líneas, entre otros.
Ejemplo:
x = seq(0,10,by=.1)
y = df(x, 20, 10)
plot(x,y,type="l",main="Densidad F",xlab="Valores X",ylab="Probabilidad")
Densidad F
0.8
0.6
Probabilidad
0.4
0.2
0.0
0 2 4 6 8 10
Valores X
Otros parámetos gráficos son:

col: color de las linea y puntos, col=#
pch: Símbolos para los puntos, pch=#
bg: color de los símbolos, bg=#
lty: tipo de linea, lty=#
cex: tamaño de los símbolos, cex=#
lwd: ancho de las líneas, lwd=#
Función lines()
la función lines(x,y,type="l") permite agregar gráficos a uno ya creado. Por ejemplo,
x = seq(-3,3,.1)
y = dnorm(x)
plot(x,y,type="p",pch=20,col="red")
lines(x,y)
0.4
0.4
0.3
0.3
0.2
0.2
y
y
0.1
0.1
0.0
0.0
−3 −1 1 2 3 −3 −1 1 2 3
x x
Función abline(a,b)
Permite agregar líneas según las especificaciones. Por ejemplo,
plot(x,y,type="p",pch=20)
abline(h=.2,col=2) # linea horizontal en y = 0.2
abline(v=0,col=3) # linea vertical en x = 0
abline(.1,.01) # linea con pendiente 0.01 e intercepto y = 0.1
0.4
0.4
0.3
0.3
0.2
0.2
y
y
0.1
0.1
0.0
0.0
−3 −1 1 2 3 −3 −1 1 2 3
x x
Función par()
Puede ser usado para especificar varios parámetros gráficos, entre ellos para realizar
varios gráficos por página. Por ejemplo, las instrucciones siguientes realizan dos gráficos
en una “fila” y le cambia algunos colores al gráfico.
# par() Visualizamos las propiedades de la plantilla gráfica

opar = par() # almacenamos en opar las propiedades
par(mfrow=c(1,2),las=1,col=2,col.axis=3,col.lab=4)
plot(dnorm(x),main="Densidad Normal")
plot(pnorm(x),main="fda normal")
par(opar) # restauramos las propiedades originales
Densidad Normal fda normal
0.4 1.0
0.8
0.3
dnorm(x)
pnorm(x)
0.6
0.2
0.4
0.1 0.2
0.0 0.0
0 20 40 60 0 20 40 60
Index Index
Función matplot()
Permite graficar más de un conjunto de datos con un eje x en común. Por ejemplo,
y = cbind(dnorm(x),dnorm(x+.5),dnorm(x+1))
matplot(x,y,type="l",lwd=2)
0.4
0.3
0.2
y
0.1
0.0
−3 −2 −1 0 1 2 3
Función hist()
Realiza un histograma a un vector de datos. Por ejemplo, si se toma el conjunto de
datos cars de R,
data(cars)
head(cars) # muestra los primero 6 elementos de la base de datos
par(mfrow=c(1,2))
hist(cars$speed)
hist(cars$dist)
Histogram of cars$speed Histogram of cars$dist
15
15
Frequency
Frequency
10 10
5 5
0 0
0 5 10 20 0 40 80 120
cars$speed cars$dist
También se puede especificar el número aproximado de clases con breaks=#. Se puede

especificar además el tipo de histograma, freq=T (frecuencias absolutas) o freq=F (fre-
cuencias relativas). Con el argumento labels=T, se colocan etiquetas arriba de cada
barra. Por ejemplo,

hist(cars$speed,breaks=2,labels=T,col=gray(.9))
Histogram of cars$speed
35 34
30
25
Frequency 20
15
10 9
7
0 5 10 15 20 25 30
cars$speed
Función boxplot()
Permite realizar un gráfico de cajas sobre un conjunto de datos. Por ejemplo, usemos la
base de datos Orange y construyamos dos boxplot, uno para la variable circumference
y otro para la misma variable pero teniendo en cuenta un factor, en este caso la variable
Tree, respectivamente.
data(Orange)
attach(Orange) # me permite acceder a las variables de la base de datos
boxplot(circumference)
boxplot(circumference~Tree)
200
150
100
50
3 1 5 2 4
Función stem()
Realiza el gráfico de tallos y hojas de Tukey. Por ejemplo,
stem(rnorm(100,mean=10,sd=2))
The decimal point is at the |

5 | 678
6 | 578
7 | 23447889
8 | 122333444455666677799
9 | 00011223444566778999
10 | 12233444556666777777899
11 | 1112233345578
12 | 13377
13 | 15
14 | 35
Funciones qqnorm y qqline

Este gráfico nos ayuda a determinar si un conjunto de datos está distribuido en forma
aproximadamente normal. Por ejemplo,
qqnorm(cars[,1],pch=20)
qqline(cars[,1],col=4)
Normal Q−Q Plot
25
Sample Quantiles
20
15
10
−2 −1 0 1 2
Theoretical Quantiles
En general se puede comparar dos distribuciones de datos como,

x=rnorm(length(cars[,1]),mean(cars[,1]),sd(cars[,1]))
qqplot(cars[,1],x,pch=20)
Función pairs
Proporcionan un método simple de presentar las relaciones entre pares de variables.
Por ejemplo,
pairs(cars)
0 20 40 60 80 100
25
20
speed
15
10
5
100
dist
60
20
0
5 10 15 20 25
200
150
100
50
Capítulo 3
Estadística Básica
En R podemos generar todo tipo de estadísticas básicas, ya sea con el uso de paquetes
o con la creación de nuestras propias funciones.
Definiremos algunos conceptos básicos usados en esta sección.
Media aritmética (x̄): la media aritmética de una muestra, es una medida de

tendencia central, o bien, un promedio numérico. Para su cálculo, suponga que
las observaciones en una muestra son x1 , x2 , . . . , xn , entonces
∑n
xi x1 + x2 + · · · + xn
x̄ = i=1 = .
n n
Media recortada: esta se calcula “quitando” cierto porcentaje de los valores

mayores y menores del conjunto de datos.
Media ponderada: es una media arimética de datos que poseen un “peso”, es

decir, cada dato es multiplicado por un valor (wi ) en particular, y luego se obtiene
su promedio. Se calcula de la siguiente forma:
∑n
xi wi x1 w1 + x2 w2 + · · · + xn wn
x̄p = ∑i=1n = .
i=1 wi w1 + w2 + · · · + wn
Media geométrica: es una medida de tendencia central que se calcula como la

raíz n-ésima del producto de un conjunto de datos.
v
u n
u∏ √
x̄g = t
n
xi = n xi · x2 · · · xn .
i=1
Mediana (Me ): es una medida de posición que divide el conjunto de datos en

dos partes porcentualmente iguales. De esta forma,
48
CAPÍTULO 3. ESTADÍSTICA BÁSICA 49

 x(n+1)/2 si n es impar,
Me =
 x(n/2) +x(n/2)+1
2
si n es par.
Cuantiles: los cuantiles son medidas de posición que dividen la serie de datos
ordenados en partes porcentualmente iguales. Los más comunes son los cuartiles,
deciles y percentiles.
Varianza muestral (s2 ): es la desviación cuadrática media de las observaciones

con respecto a la media aritmética. Su cálculo está dado por:
∑n
i=1 (xi − x̄)
2
2
s = .
n−1
Desviación estándar muestral (s): es la raíz cuadrada de la varianza y mide

la variabilidad de los datos en unidades lineales.
Covarianza: es una medida de dispersión conjunta de dos conjuntos de datos o

variables.
Correlación: medida estadística que indica la fuerza y la dirección de una relación

lineal entre dos variables aleatorias.
3.0.1. Medidas de resumen en R
mean() Permite calcular la media aritmética y medias recortadas de un vector.
mean(x, ...)
mean.default(x, trim = 0, na.rm = FALSE)
Si queremos calcular la media recortada, el argumento trim permite seleccionar la

fracción de recorte (de 0 a 0.5) de cada extremo del conjunto de datos “x”.
Ejemplo
x <- c(0:10, 50)

xm <- mean(x)
xm
[1] 8.75
xt<-mean(x, trim = .10)

xt
[1] 5.5
weighted.mean() Calcula una media ponderada de un vector numérico.

weighted.mean(x, w, na.rm=FALSE)
Ejemplo
wt <- c(5, 5, 4, 1)/15

x <- c(3.7,3.3,3.5,2.8)
xw <- weighted.mean(x,wt)
xw
[1] 3.453333
cor(), var(), sd() y cov() La función var, calcula la matriz de varianzas y covarianzas
de una matriz de datos, sd calcula la desviación estándar de un conjunto de datos, cor
y cov calculan respectivamente, la correlación y la covarianza entre dos vectores ‘x’ y
‘y’
var(x, y = NULL, na.rm = FALSE, use) cor(x, y = NULL, use =

"all.obs") cov(x, y = NULL, use = "all.obs") sd(x, na.rm = FALSE)
Ejemplos:
x<-rnorm(10)
y<-rnorm(10)
y
[1] -0.9546754 0.3951823 1.0079476 0.1308736 0.6154087
[6] 0.8264678 -0.4329034 0.3916516 -0.8908572 -0.8976308
var(x)
[1] 0.5058532
sd(x)
[1] 0.7526941
var(x,y)
[1] 0.02954414
cov(x,y)
[1] 0.02954414
cor(x,y)
[1] 0.05518748
library(mass) #Generando una matriz de datos normales bivariados:

x<-matrix(mvrnorm(10,mu=c(0,0),Sigma=matrix(c(1,0,0,1),ncol=2)),
ncol=2)
x
[,1] [,2]
[1,] 0.03365421 0.01812461
[2,] -0.66313500 2.31526069

[3,] -0.92103077 2.21952089
[4,] -0.97599197 1.39551295
[5,] -0.55824010 0.15656623
[6,] 0.77337990 0.52407043
[7,] -1.62980628 0.26459324
[8,] -1.01363258 -1.74454949
[9,] -0.32201918 -0.07920861
[10,] -1.40875243 -0.77490633
var(x)
[,1] [,2]
[1,] 0.49486624 0.07806947
[2,] 0.07806947 1.60101998
cov(x)
[,1] [,2]
[1,] 0.49486624 0.07806947
[2,] 0.07806947 1.60101998
cor(x)
[,1] [,2]
[1,] 1.00000000 0.08770795
[2,] 0.08770795 1.00000000
cov(x,y)
[,1]
[1,] 0.1037037
[2,] 0.4147815
median() Calcula la mediana de un vector numérico.
median(x, na.rm=FALSE)
Ejemplo:
library(mass)
x<-matrix(mvrnorm(10,mu=c(0,0),Sigma=matrix(c(1,0,0,1),ncol=2)),ncol=2)
apply(x,2,median)
[1] -0.7920829 0.2105797

apply(x,1,median)
[1] 0.02588941 0.82606284 0.64924506 0.20976049 -0.20083693 0.648725
[7] -0.68260652 -1.37909104 -0.20061389 -1.09182938
max(), min() Devuelven el máximo y el mínimo, respectivamente, de un vector.

Ejemplo:
library(mass)
x<-matrix(mvrnorm(10,mu=c(0,0),Sigma=matrix(c(1,0,0,1),ncol=2)),ncol=2)
min(x)
[1] -1.744549
max(x)
[1] 2.315261
apply(x,1,min)
[1] 0.01812461 -0.66313500 -0.92103077 -0.97599197 -0.55824010
[8] 0.52407043 -1.62980628 -1.74454949 -0.32201918 -1.40875243
apply(x,2,max)
[1] 0.7733799 2.3152607
quantile() Produce los cuantiles muestrales correspondientes a las probabilidades dadas.

La observación más pequeña corresponde a una probabilidad de 0 y la más grande a
una probabilidad de 1.
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE, names = TRUE)
El argumento “probs” es un vector numérico que toma valores en [0, 1] y permite

especificar el cuantil a calcular.
Ejemplos:
quantile(x <- rnorm(1001))

0% 25% 50% 75% 100%
-3.59904264 -0.71189944 -0.02124716 0.59595264 2.82691475
quantile(x,probs=1:10/10)
10% 20% 30% 40% 50% 60%
-1.28010254 -0.89459997 -0.57376772 -0.27029481 -0.02124716 0.18551332
70% 80% 90% 100%
0.45891799 0.76740515 1.20626043 2.82691475
range() Devuelve un vector con los valores mínimo y máximo de todos los argumentos
dados.
Ejemplos:
print(r.x <- range(rnorm(100)))

[1] -2.314519 1.967344
diff(r.x) # El rango muestral

[1] 4.281863
summary() con esto obtenemos varias estadísticas de resumen sobre una variable,
como lo son los cuartiles, etc.
summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.6718 -0.3072 0.6527 0.4333 1.2390 1.2540
Si se tiene un conjunto de datos de una variable continua y se desea obtener las medidas
resumen más importante como la media, cuartiles, etc. podemos usar la instrucción
summary(). Por ejemplo si se quiere hallar las medidas resumen de la base de R con
el nombre USArrests correspondiente a las estadísticas, de los arrestos por homicidio,
agresión y violación por cada 100,000 residentes, en cada uno de los 50 estados federales
de los EE.UU. en 1973. También de el porcentaje de la población que vive en áreas
urbanas.
USArrests
summary(USArrests)
Murder Assault UrbanPop Rape
Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30
1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07
Median : 7.250 Median :159.0 Median :66.00 Median :20.10
Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00
otra medidas resumen las podemos obtener con las funciones var(), sd(), quantile(),
range(), rank() y cor().
var(USArrests)
Murder 18.970465 291.0624 4.386204 22.99141
Assault 291.062367 6945.1657 312.275102 519.26906
UrbanPop 4.386204 312.2751 209.518776 55.76808
Rape 22.991412 519.2691 55.768082 87.72916
sd(USArrests)

4.355510 83.337661 14.474763 9.366385
quantile(USArrests$Murder,probs=seq(.1,.9,.1))
10% 20% 30% 40% 50% 60% 70% 80% 90%
2.56 3.38 4.75 6.00 7.25 8.62 10.12 12.12 13.32
cor(USArrests)
Murder 1.00000000 0.8018733 0.06957262 0.5635788
Assault 0.80187331 1.0000000 0.25887170 0.6652412
UrbanPop 0.06957262 0.2588717 1.00000000 0.4113412
Rape 0.56357883 0.6652412 0.41134124 1.0000000
estas asociaciones lineales las podemos ver con la ayuda de la función pairs()
pairs(USArrests)
50 150 250 10 20 30 40
15
10
Murder
5
300
Assault
150
50
90
70
UrbanPop
50
30
30
Rape
10
5 10 15 30 50 70 90
La distribución de cada una de estas variables las podemos graficar como
par(mfrow=c(2,2))
hist(USArrests$Murder)
hist(USArrests$Assault)
hist(USArrests$UrbanPop)
hist(USArrests$Rape)
Histogram of USArrests$Murder Histogram of USArrests$Assault
12
12
Frequency
Frequency
8
8
4
4
0
0
0 5 10 15 0 50 150 250 350
USArrests$Murder USArrests$Assault
Histogram of USArrests$UrbanPop Histogram of USArrests$Rape
12
12
Frequency
Frequency
8
8
4
4
0
0
30 50 70 90 10 20 30 40 50
USArrests$UrbanPop USArrests$Rape
3.1. Probabilidad
La probabilidad mide el “grado de creencia” de una afirmación hecha con base en la
información recolectada. También mide la posibilidad de ocurrencia de uno o más re-
sultados de un experimento aleatorio.
Experimento aleatorio: Es aquel que proporciona diferentes resultados, aún cuando
se repite bajo las mismas condiciones.
Experimento determinístico: Es un proceso que no está sujeto al azar.
Espacio muestral (Ω): Conjunto de todos los posibles resultados de un experimento
aleatorio.
Evento o suceso: Cualquier subconjunto de resultados de un espacio muestral (simples
o compuestos). Los eventos compuestos están conformados por más de un resultado.
A continuación mostramos algunos ejemplos:
Ejemplo 1: Si se considera el tipo de sangre, el espacio muestral Ω está constituido por

los siguientes eventos:
Ω = {A, B, AB, O}.
Cualquier evento de Ω constituye un punto muestral.
Ejemplo 2: De la población mundial se encuesta aleatoriamente a sus habitantes hasta
encontrar el primero con cierta enfermedad y se clasifican como, E : enfermo, o N : no
enfermo. El espacio muestral es entonces,
Ω = {E, N E, N N E, N N N E, . . .}.
Ejemplo 3: Se seleccionan al azar tres estudiantes de la universidad (uno a uno) y se

clasifican como H : hombre, M : mujer. El espacio muestral Ω puede ser descrito como:
Ω = {M M M, M M H, M HM, HM M, M HH, HM H, HHM, HHH}.
Ejemplo 4: Se determina la duración de un marcapasos en horas. Entonces,
Ω = [0, 1).
Definición: Sean A y B eventos de un espacio muestral Ω. Diremos que A y B son

disjuntos si A ∩ B = ϕ, (ϕ es un evento de Ω). En general, si E1 , E2 , . . . , En son eventos
de un espacio muestral Ω, diremos que son mutuamente excluyentes si para cualquier
par de estos eventos sus intersecciones son vacías.
3.1.1. Formalización de la probabilidad
Sea ε un experimento aleatorio y sea Ω un espacio muestral asociado con ε. La proba-

bilidad de un evento A, denotada por p(A), es un número real que cumple las siguientes
condiciones:
p(A) ≥ 0
Si P (A) = 1, entonces A se llama evento seguro.
Si P (A) = 0, A se llama evento imposible.
P (Ω) = 1
Si A1 , A2 , A3 , . . . es una colección finita o infinita de eventos mutuamente ex-

cluyentes, entonces, (∞ )
∪ ∑
∞
P Ai = P (Ai )
i=1 i=1
Teorema: sea A un evento de un espacio muestral Ω, entonces:
0 ≤ p(A) ≤ 1
Si P (ϕ) = 0
Si A′ es el complemento de A, entonces, P (A′ ) = 1 − p(A), o también P (A) =

1 − p(A′ )
Figura 3.1: Representación de un evento A y de su complemento A′ .
Proposición: Sean A, B y C eventos de Ω
Si A ⊆ B entonces P (A) ≤ P (B)
Figura 3.2: Representación de dos eventos cuando uno está contenido en el otro.
Regla aditiva:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Para el caso de los tres eventos A, B y C, se tiene,
P (A∪B∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (A∩C)−P (B∩C)+P (A∩B∩C)

Ejemplo: En un artículo de la revista American of Drugs and Alcohol Abuse, Erickson y

Murray afirman que las mujeres están consideradas como un grupo con riesgo especial de
adicción a la cocaína, y que se ha sugerido que sus problemas con la cocaína son mayores
que en los hombres. Con base en la revisión de textos especializados y en el análisis
de los resultados de un estudio original, estos investigadores argumentan que no hay
evidencia de que el uso de la cocaína en las mujeres exceda al de los hombres. Erickson
y Murray tomaron una muestra de 75 hombres y 36 mujeres. La tabla 3.1 muestra la
frecuencia de uso de la cocaína en el tiempo de vida y el sexo de los individuos.
Tabla 3.1: Frecuencia de consumo de cocaína por género entre adultos adictos.
Frecuencia de uso de cocaína Hombres Mujeres
en el periodo de vida (M ) (F ) Total
1 - 9 veces (A) 32 7 39
20 - 99 veces (B) 18 20 38
100 o más veces (C) 25 9 34
Total 75 36 111
Si se selecciona aleatoriamente a una persona de los 111 individuos de la tabla 3.1,

¿Cuál es la probabilidad de que esa persona sea del sexo masculino (M ), o de que haya
consumido cocaína 100 veces o más durante su tiempo de vida o ambas (M ∪ C)?.
La probabilidad que se busca es P (M ∪ C). Sabemos que:
P (M ∪ C) = P (M ) + P (C) − P (M ∩ C)
75
P (M ) = = 0.6757,
111
34
P (C) = = 0.3063 y
111
25
P (M ∩ C) = = 0.2252.
111
Entonces,
P (M ∪ C) = 0.6757 + 0.3063 − 0.2252 = 0.7568
3.1.2. Probabilidad Condicional
En muchos experimentos la ocurrencia de un evento particular está usualmente asociado

a la ocurrencia de otros eventos, de manera que al calcular la probabilidad de dicho
evento es necesario considerar aquellos que condicionan su ocurrencia.
Ejemplo: De una habitación donde se encuentran 4 personas con lesiones musculares
y 5 completamente sanos, se seleccionan al azar y sin reemplazo dos personas, una a
una. ¿Cuál es la probabilidad de que la primera esté lesionada? ¿Cuál es la probabilidad
de que la segunda esté lesionada?
Solución!
Definamos los siguientes eventos:
Li : la i-ésima persona seleccionada está lesionada; i = 1, 2
Ni : la i-ésima persona seleccionada no está lesionada; i = 1, 2
4 5
P (L1 ) = , P (N1 ) =
9 9
Para calcular la probabilidad de L2 , se necesita saber el estado de la primera persona
seleccionada.
Si la primera persona seleccionada está lesionada, entonces
3
P (L2 ) =
8
Si la primera persona seleccionada no está lesionada, entonces
4
P (L2 ) =
8
La probabilidad de L2 depende del estado de la primera persona seleccionada.
Definición: Sean A y B eventos de un espacio muestral Ω. La probabilidad condicional
de “A dado B”, la cual denotamos P (A | B), está dada por:
P (A ∩ B)
P (A | B) = , P (B) > 0, Así mismo
P (B)
P (A ∩ B)
P (B | A) = , P (A) > 0
P (A)
Tenemos que:
P (A ∩ B) = P (A)P (B | A) = P (B)P (A | B)
“Regla multiplicativa”
Ejemplo: Se seleccionan al azar 100 personas de una gran comunidad y se some-

ten a un estudio para evaluar la incidencia del fumar en el desarrollo de enfermedad
pulmonar. Los resultados obtenidos después de un período de tiempo se muestran a
continuación. Defina los siguientes eventos:
H : La persona seleccionada es un hombre.

M : La persona seleccionada es una mujer.
F : La persona seleccionada fuma.
N : La persona seleccionada no fuma.
E : La persona seleccionada desarrolla la enfermedad pulmonar.
N E : La persona seleccionada no desarrolla la enfermedad pulmonar.
Se selecciona una persona al azar de estas 100. Calcule las siguientes probabilidades.
i) ¿Cuál es la probabilidad de que sea fumador y hombre? ¿fumador y mujer?
ii) ¿Cuál es la probabilidad de que desarrolle la enfermedad pulmonar?
iii) Si es mujer, ¿cuál es la probabilidad de que desarrolle la enfermedad pulmonar?
iv) Si es mujer y no fuma, ¿cuál es la probabilidad de que desarrolle la enfermedad

pulmonar ?
v) ¿Cuál es la probabilidad de que desarrolle la enfermedad pulmonar, dado que no

fuma o es mujer?
H M
Fuma Fuma
Si No Si No
Enfermedad Si 40 3 43 20 2 22
Pulmonar No 5 12 17 10 8 18
45 15 60 30 10 40
Solución!
i) p(F ∩ H) = 100
45
,
p(F ∩ M ) = 100
30
43+22 65
ii) p(E) = 100
= 100
iii) p(E | M ) = 22
40
iv) p(E | M ∩ N ) = 2
10
v)
p(E ∩ (N ∪ M )) p((E ∩ N ) ∪ (E ∩ M ))
p(E | M ∪ N ) = =
p(N ∪ M ) p(N ∪ M )
p(E ∩ N ) + p(E ∩ M ) − p(E ∩ N ∩ M ) 5
100
+ 22
100
− 2
100
= =
p(N ) + p(M ) − p(N ∩ M ) 25
100
+ 40
100
− 10
100
25
100 25
= 55 =
100
55
Teorema de probabilidad total: Sean A1 , A2 , . . . , An eventos no vacíos mutuamente

excluyentes tales que la unión de todos ellos conforman el espacio muestral. Si B es un
evento de S, entonces.
∑
n ∑
n
p(B) = p(B ∩ Ai ) = p(Ai )p(B | Ai )
i=1 i=1
Definición: Sean A y B eventos de un espacio muestral. Diremos que A y B son

estadísticamente independientes, si y sólo si, cualquiera de las siguientes propiedades
se cumple.
P (A | B) = P (A)
P (B | A) = P (B)
P (B ∩ A) = P (A)P (B)
En general, una colección de eventos A1 , A2 , . . . , An de un espacio muestral Ω, se dicen

mutuamente estadísticamente independientes, si y sólo si, la intersección de cualquier
subconjunto de eventos de esta colección, cumple que la probabilidad de dicha intersec-
ción será el producto de las probabilidades de los eventos involucrados.
Ejemplo: Un hospital cuenta con dos ambulancias que operan de forma independiente.
La probabilidad de que una de estas ambulancias esté disponible cuando se requiera es
de 0.97. Cuál es la probabilidad de que ninguna de las ambulancias esté disponible en
un momento determinado?
Solución! Sabemos que las ambulancias operan de forma independiente. Ahora, llamem-
os A1 : la ambulancia 1 está operando en el momento requerido, y A2 : la ambulancia 2
está operando en el momento requerido.
Sabemos además que
P (Ai ) = 0.97; para i = 1, 2.
P (A′i ) = 0.03; para i = 1, 2.
De aquí,
P (A′1 ∩ A′2 ) = P (A′1 )P (A′2 )

= 0.03 × 0.03
= 0.0009
3.1.3. Prueba Tamiz
En el campo de ciencias de salud se utilizan ampliamente la evaluación de pruebas de

detección y criterios de diagnóstico. Aquí, es de interés interesa tener mayor capacidad
para predecir correctamente la presencia o ausencia de una enfermedad en particular a
partir del conocimiento de los resultados (positivos o negativos) de pruebas y el estado
de los síntomas (presentes o ausentes) que se manifiestan.
Definición:
Un falso positivo resulta cuando una prueba indica que el estado es positivo,
cuando en realidad es negativo.
Un falso negativo resulta cuando una prueba indica que un estado es negativo,
cuando en realidad es positivo.
En resumen, se debe responder a las siguientes preguntas para evaluar la utilidad de los
resultados de la prueba y el estado de los síntomas para detectar si el individuo tiene o
no alguna enfermedad:
Dado que un individuo tiene la enfermedad, ¿qué probabilidad existe de que la

prueba resulte positiva (o la presencia de un síntoma)?
Dado que un individuo no tiene la enfermedad, ¿cuál es la probabilidad de que la

prueba resulte negativa (o la ausencia de un síntoma)?
Dada una prueba positiva de detección (o la presencia de un síntoma), ¿qué prob-

abilidad existe de que el individuo tenga la enfermedad?
Dado el resultado negativo de una prueba de detección (o la ausencia de un

síntoma), ¿cuál es la probabilidad de que el individuo no tenga la enfermedad?
Enfermedad
Resultado de
la prueba Presente (D) Ausente (D′ ) Total
Positivo (T ) a b a+b
′
Negativo (T ) c d c+d
Total a+c b+d n
Se puede calcular una gran variedad de probabilidades a partir de la información desple-

gada de la anterior tabla. Por ejemplo se puede calcular la estimación de la probabilidad
condicional S = P (T | D) = a+ca
× 100. Esta proporción es una estimación de la sensi-
bilidad de la prueba de detección.
Definición: La sensibilidad de una prueba es la capacidad para detectar los verdaderos

enfermos. Podemos decir que de cada 100 enfermos la prueba detecta al S % de ellos.
También se puede calcular la estimación de la probabilidad condicional E = P (T ′ | D′ ) =
d
b+d
× 100. Esta proporción es una estimación de la especificidad de la prueba de detec-
ción.
Definición: La especificidad de una prueba es la capacidad para detectar como sanos
a los que verdaderamente lo son. Podemos decir que de cada 100 personas sin la enfer-
medad, la prueba es negativa para el E % de ellos.
Definición: El valor predictivo positivo es la relación entre los casos realmente enfermos
y los probablemente enfermos detectados por la prueba. Se calcula como V P + = a+b a
×
100. Podemos decir que de cada 100 personas con pruebas de detección positiva, el
V P + % de ellos tiene realmente la enfermedad.
Definición: El valor predictivo negativo expresa la proporción de casos detectados como
sanos por la prueba entre los verdaderamente sanos. Se calcula como V P − = c+d
d
× 100.
Podemos decir que de cada 100 personas con pruebas de detección negativa, el V P − %
de ellos están completamente sanos.
Tabla 3.2: Ejemplo: Distribución absoluta de los resultados de la prueba de glucosuria

en diabéticos y no diabéticos.
Diabetes
Resultado de
la prueba de
glucosuria Si No Total
Positiva 45 15 60
Negativa 105 285 390
Total 150 300 450
45
S= × 100 = 30 %, es decir, de cada 100 enfermos con diabetes, la prueba de
150
glucosa detecta 30.
285
E= × 100 = 95 %, es decir, de cada 100 personas sin diabetes, la prueba de
300
glucosa es negativa en 95 de ellas.
45
V P+ = × 100 = 75 %, esto es, de cada 100 personas que presentan glucosuria
60
positiva, 75 tiene diabetes.
285
V P− = × 100 = 73 %, es decir, de cada 100 personas con resultado negativo
390
en la prueba de glucosuria, 73 de ellas realmente son sanos.
Medidas de la magnitud de un efecto mediante probabilidad condicional: En

estudios epidemiológicos, la probabilidad condicional se utiliza para detectar asociación.
Supongamos que queremos estudiar la relación entre una enfermedad y un factor de
riesgo, ambos medidos en nivel nominal en un estudio de cohorte.
Tabla 3.3: Distribución absoluta de la enfermedad vs. factor de riesgo.

Factor de Enfermedad
riesgo Enfermo Sano Total
Expuesto a b a+b
No expuesto c d c+d
Total a+c b+d n=a+b+c+d
Definimos el riesgo de enfermarse, dado que se está expuesto al factor de riesgo como
a
R1 =
a+b
Definimos el riesgo de enfermarse, dado que no se está expuesto al factor de riesgo como
c
R2 =
c+d
El riesgo relativo de enfermarse, que compara a los expuestos con los no expuestos al
factor de riesgo está dado por:
R1
λ=
R2
Cuando el estudio es de casos y controles la medida de magnitud del efecto usada se
denomina Razón de Odds.
El Odds de tener la enfermedad para los expuestos al factor de riesgo es:

a
O1 =
b
El Odds de tener la enfermedad para los no expuestos al factor de riesgo es:

c
O2 =
d
La razón de Odds que compara los expuestos con los no expuestos al factor de riesgo
se define como:
O1
OR =
O2
Ejemplo: Suponga que se desea estudiar la relación entre la cirrosis hepática y el

consumo de alcohol. Considere la tabla 3.4 la cual muestra la distribución absoluta de
dicha enfermedad en una población de consumidores y no consumidores de alcohol.
Tabla 3.4: Distribución absoluta de la enfermedad vs. factor de riesgo.

Consumo de Cirrosis
alcohol Si No Total
Si 145 220 365
No 10 315 325
Total 155 535 690
El riesgo relativo, que compara a los expuestos con los no expuestos al factor de riesgo
es:
145/365
λ= = 12.91
10/325
Las personas que consumen alcohol tienen aproximadamente 13 veces más riesgo de
padecer de cirrosis que los que no consumen alcohol.
Si el presente estudio fuera de casos y controles, la razón de Odds sería la medida de

asociación utilizada, en este caso tendríamos que, el Odds que compara a los expuestos
con los no expuestos al factor de riesgo es:
145/220
OR = = 20.76
10/315
Las personas que consumen alcohol tienen el Odds de padecer de cirrosis aproximada-
mente 21 veces más alto que para los que no consumen alcohol.
3.1.4. Teorema de Bayes
Es un caso especial de la probabilidad condicional en el cual se desea calcular la prob-

abilidad condicional de un evento que ocurrió primero dado otro que ocurrió después.
Definición: Sean A1 , A2 , . . . , An eventos no vacíos mutuamente excluyentes tales que
la unión de todos ellos conforman el espacio muestral. Si B es un evento de Ω, entonces.
P (Aj ∩ B) P (Aj )P (B | Aj )
P (Aj | B) = = ∑n
P (B) i=1 P (Ai )P (B | Ai )
Ejemplo: Suponga que tenemos 2 botiquines y que el botiquín 1 contiene 3 pastillas

de Aspirina y 2 de Dristán y el botiquín 2 contiene 2 de Aspirina y 3 de Dristán. Se
extrae una pastilla al azar. ¿Cuál es la probabilidad de que:
La pastilla extraída sea una Aspirina?

La extracción se haya efectuado del botiquín 1 dado que la pastilla extraída fue
una Aspirina?
Solución! En el problema hay dos pasos a saber:

Paso 1, elección del botiquín; Paso 2, extracción de la pastilla.
Sea A1 = La extracción se hace del botiquín 1. y A2 = la extracción se hace del botiquín
2.
Tenemos entonces que, P (A1 ) = 1/2 y P (A2 ) = 1/2.
Sea B el evento, la pastilla elegida es una Aspirina.
Por las condiciones del problema sabemos que:

P (B | A1 ) = 3/5 y P (B | A2 ) = 2/5.
P (B) = P (A1 ∩ B) + P (A2 ∩ B) = P (B | A1 )P (A1 ) + P (B | A2 )P (A2 )

( ) ( )
3 1 2 1
= × + × = 0.5
5 2 5 2
P (B | A1 )P (A1 )
P (A1 | B) =
P (B | A1 )P (A1 ) + P (B | A2 )P (A2 )
(3/5)(1/2)
= = 3/5 = 0.6
(1/2)
3.1.5. Curva ROC
La curva ROC (receiver operating characteristic) es usada como una herramienta para
comparar dos o más test diagnósticos. La representación de dicha curva es sensibilidad
contra (1 − especif icidad), es decir, en el eje X representamos (1 − especif icidad) de
la prueba, y en el eje Y la sensibilidad. De esta forma, un test perfecto se produce
cuando la curva va hacia arriba por el eje vertical hasta una sensibilidad de 1, y luego
se mantiene a esa altura paralelo al eje horizontal hasta alcanzar el punto (1, 1) en el
gráfico. Un test es mejor que otro, entre más se aproxime al test perfecto. Cuando la
curva es una recta diagonal en el plano, decimos que el test no discrimina entre una
decisión correcta cuando se tiene la enfermedad, o una decisión errada cuando no se
tiene la enfermedad.
Ejemplo: retomando el ejemplo de la prueba de diabetes, tenemos.
library(Epi)
x=c(rep(1,times=60),rep(0,times=390))
y=c(rep(1,times=45),rep(0,times=15),rep(1,times=105),rep(0,times=285))
ROC( form = y ~ x , plot="ROC" )
1.0
0.8
0.6
Sensitivity
0.4
.eta = 0.269
Variable est. (s.e.)

0.2
Sens: 30.0% (Intercept) −0.999 (0.114)

Spec: 95.0% x 2.097 (0.319)
PV+: 26.9%
PV−: 25.0% Model: y ~ x
0.0
Area under the curve: 0.625
0.0 0.2 0.4 0.6 0.8 1.0

1−Specificity
3.2. Variables aleatorias y distribuciones de probabil-

idad
Las variables aleatorias (v.a) resumen el conjunto de posibles resultados de un exper-
imento aleatorio asignando un número real a cada resultado del experimento, y por
tanto, facilita el cálculo de probabilidades en comparación con este procedimiento en
términos de eventos.
Usualmente, las variables aleatorias son denotadas con las últimas letras de abecedario
usando mayúsculas: X, Y, Z, T, etc.
Definición: Una variable aleatoria (v.a) es una función definida en un espacio muestral
Ω, que asigna un valor real a cada resultado de Ω, así:
X :Ω −→ R
ω −→ X(ω) = x
Por notación, A denotará el conjunto de posibles resultados de una v.a.

Ejemplo: . . .
Si el conjunto de posibles resultados de una v.a es contable, diremos que la v.a es
Discreta. Si el espacio de la v.a es un intervalo o unión de intervalos, diremos que la v.a
es Continua.
3.2.1. Variables aleatorias discretas
Definición: Sea X una v.a discreta definida en un espacio muestral Ω, la función

P (x) := P (X = x), ∀x ∈ A
será llamada Distribución de probabilidad de la v.a X si satisface las siguientes propiedades:
i.) P (x) ≥ 0, ∀x ∈ A
∑
ii.) x P (x) = 1
Definición: (f.d.a o c.d.f ) Sea X una v.a discreta con distribución de probabilidad
P (x). La Distribución acumulada de X, la cual denotaremos por F (x), está dada por:
∑
F (x) := P (X ≤ x) = P (x′ ), ∀x ∈ R.
x′ ≤x
Esto se conoce como probabilidad acumulada.

Propiedades:
1 ) 0 ≤ F (x) ≤ 1, ∀x ∈ R
2 ) P (X > x) = 1 − F (x)
3 ) Si x < y =⇒ F (x) ≤ F (y)
4 ) Si A ⊆ Z =⇒ P (n ≤ X ≤ m) = F (m) − F (n − 1).
3.2.2. Variables aleatorias continuas
Definición: Sea X una v.a continua. Una función f definida en Ω y de valor real, será
llamada Función de densidad de probabilidad de la v.a X si satisface las siguientes
propiedades:
i.) f (x) ≥ 0, ∀x ∈ R
∫∞
ii.) −∞ f (x)dx = 1 =⇒ Área bajo f es 1
∫b
iii.) Si a, b ∈ R, a ≤ b =⇒ P (a ≤ X ≤ b) = a
f (x)dx.
Así, P (X = a) = 0.
El cálculo de probabilidades se obtiene como el cálculo de áreas bajo la curva f (x), en

el rango especificado.
Definición: La distribución acumulada de una v.a continua X se define igual que en
el caso discreto:
∫ x
F (x) := P (X ≤ x) = f (x)dx, ∀x ∈ R.
−∞
Propiedades:
1 ) 0 ≤ F (x) ≤ 1, ∀x ∈ R
2) lı́m F (x) = 0 y lı́m F (x) = 1

x→−∞ x→+∞
3 ) Si x < y =⇒ F (x) < F (y).
∫x
d
dx
F (x) = f (x), ∀x donde exista F ′ (x). Así, F (x) = −∞
f (t)dt; f es la p.d.f
de x.
En R podemos obtener la distribución acumulada, la función de probabilidad o la

función de densidad de probabilidad de la siguiente forma: el siguiente ejemplo ilustra
la forma de obtener las respectivas distribuciones para una Binomial y una Normal.
par(mfrow=c(2,2))
# Función de probabilidad de una Binomial
plot(0:10,dbinom(0:10,10,0.35),type="h",xlab="x",ylab="P(X=x)",
xlim=c(-1,11),main="Función de probabilidad de X~Bin(10,0.35)")
# Función de distribución de una Binomial

plot(0:10,pbinom(0:10,10,0.35),type="n",xlab="x",ylab="F(x)",xlim=c(-1,11),
ylim=c(0,1),main="Función de distribución de X~Bin(10,0.35)")
segments(-1,0,0,0)
segments(0:10,pbinom(0:10,10,0.35),1:11,pbinom(0:10,10,0.35))
lines(0:9,pbinom(0:9,10,0.35),type="p",pch=16)
segments(-1,1,11,1,lty=2)
# Función de densidad de probabilidad de una Normal

plot(0:40,dnorm(0:40,25,3),type="l",xlab="x",ylab="f(x)",xlim=c(10,40),
main="Función de densidad de probabilidad de X~N(25,3)")
# Función de distribución de una Normal

plot(0:40,pnorm(0:40,25,3),type="l",xlab="x",ylab="F(x)",xlim=c(10,40),
main="Función de distribución de X~N(25,3)")
Función de probabilidad de X~Bin(10,0.35) Función de distribución de X~Bin(10,0.35)

0.20
0.8
P(X=x)
F(x)
0.10
0.4
0.00
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
Función de densidad de probabilidad de X~N(25,3) Función de distribución de X~N(25,3)

0.12
0.8
F(x)
f(x)
0.06
0.4
0.00
0.0
10 15 20 25 30 35 40 10 15 20 25 30 35 40
x x
Valor esperado de una variable aleatoria
Si un experimento aleatorio se realiza y una v.a de interés X es definida en Ω, podemos

determinar la distribución de la v.a X. Si el experimento se repite muchas veces, el
valor que se espera obtener de la v.a X, será un promedio ponderado de los posibles
valores observados para X en las repeticiones del experimento.
Definición: Sea X una v.a (Discreta o Continua) con distribución de probabilidad

P (x), o función de densidad de probabilidad f (x). El valor esperado de X, el cual
denotaremos E[X], µX o µ, está dado por:
{ ∑
x xP (x); si X es discreta
E[X] := ∫ +∞
−∞
xf (x)dx; si X es continua
Propiedades:
1. E[a] = a, ∀a ∈ R
2. E[a + bX] = a + bE[X], ∀a, b ∈ R
3. E[ag(X)] = aE[g(X)], donde g(X) es una función de X.
Si g(X) = (X − µ)2 y a = 1,
E[ag(X)] = E[(X − µ)2 ] = V [X] se conoce como la varianza de X y se denota
2
por V [X] o σX .
2
σX = E[(X − µ)2 ] = E[X 2 ] − µ2
La desviación estándar de X se denota por σX y está dada por:
√
σX = V [X]
3.2.3. Algunas distribuciones de probabilidad discretas
Ensayo Bernoulli
Un ensayo Bernoulli es un experimento aleatorio con dos posibles resultados: uno de-
notado por “éxito”, y el otro por “fracaso”. la probabilidad de éxito se denotará por p y
la de fracaso por q = 1 − p.
Ejemplo: Estado de un paciente (sano enfermo), género, encuesta de opinión, etc.
Suponga que un experimento Bernoulli es repetido, bajo las mismas condiciones, n
veces y que cada repetición es independiente de las demás. Si la probabilidad de éxito
permanece constante de repetición en repetición del experimento, y definimos la v.a
X : número de éxitos en las n repeticiones del experimento, el experimento se conoce
como ensayo Binomial.
La distribución de probabilidad de la v.a X viene dada por:
( )
n x
P (x) = p (1 − p)n−x ; x = 0, 1, 2, . . . , n.
x
Escribimos X ∼ bin(x; n, p).

Si X ∼ bin(x; n, p), entonces, E[X] = np y V [X] = np(1 − p).

Ejemplo: Suponga que la probabilidad de tener una enfermedad en particular en
una población de expuestos es de 0.08. Se seleccionan al azar 10 individuos de dicha
población.
a. ¿Cuál es pa probabilidad de que exactamente 2 tengan la enfermedad?
b. ¿Cuál es la probabilidad de que cuando mucho 1 tengan la enfermedad?
x=0:10
y=dbinom(0:10,10,0.08)
a=data.frame("Prob"=y,row.names=x)
# probabilidad de exactamente 2
dbinom(2,10,0.08)
# probabilidad de máximo 1
pbinom(1, size=10, prob=.08, lower.tail = TRUE)
# Gráfico de la distribución de probabilidad

plot(0:10,a[,1],type="h",ylab="Probabilidad",xlab="Número de
individuos con la enfermedad", main="Distribución de probabilidad de
X")
Distribución de probabilidad de X
0.4
0.3
Probabilidad
0.2
0.1
0.0
0 2 4 6 8 10
Número de individuos con la enfermedad
Otras distribuciones de probabilidad importantes son la distribución binomial negativa

y la distribución geométrica. Si consideramos la v.a X que cuenta el número de repeti-
ciones del experimento Bernoulli, hasta encontrar el k−ésimo éxito (manteniendo las
mismas condiciones de un experimento Binomial), esta v.a se conoce como Binomial
Negativa, y su distribución de probabilidad es:
( )
∗ x−1 k
b (x; k, p) = p (1 − p)x−k ; x = k, k + 1, k + 2, . . .
k−1
Ahora bien, la v.a X que cuenta el número de repeticiones del experimento Bernoulli,
hasta encontrar el primero éxito (manteniendo las mismas condiciones de un experi-
mento Binomial), se conoce como Geométrica, y su distribución de probabilidad es:
g(x; p) = p(1 − p)x−1 ; x = 1, 2, 3, . . .
Distribución Hipergeométrica
Suponga que se tiene una población de N elementos de los cuales, m son de interés. La
distribución hipergeométrica mide la probabilidad de obtener x elementos de interés en
una muestra sin reemplazo de n elementos de la población.
La distribución de probabilidad de una v.a Hipergeométrica X viene dada por:

( )( )
m N −m
x n−x
h(x; N, n, m) = ( ) ; máx{0, n − (N − m) ≤ x ≤ mı́n{n, m}}.
N
n
Ejemplo: De un grupo de 20 pacientes, de los cuales 5 tienen una condición particular

que los agrava, se eligen 8 aleatoriamente con el fin de realizar un chequeo.
¿Cuál es la probabilidad de que entre los 8 seleccionados, 2 tengan dicha condición de

salud?
Considere la v.a X, que cuenta el número de personas con dicha condición en la mues-
tra. Esta variable sigue una distribución Hipergeométrica con parámetros N = 20 (total
de pacientes), n = 8 (total de la muestra) y m = 5 (total de pacientes de interés).
Debemos calcular la siguiente probabilidad P (X = 2), por lo tanto, sólo necesitamos el

valor que toma X en el punto 2 de la función de densidad:
dhyper(2,8,20-8,5)
[1] 0.3973168
Distribución Poisson
Los experimentos que producen valores numéricos de una v.a X, que representa el
número de resultados que ocurren durante un intervalo dado de tiempo o en una región
específica, se llaman experimento Poisson.
Un proceso Poisson tiene las siguientes propiedades
1. El número de resultados que ocurren en un intervalo o región específica es in-

dependiente del número que ocurre en cualquier otra región o intervalo (esto se
conoce como carencia de memoria).
2. La probabilidad de que ocurra un solo resultado durante un intervalo muy corto o

una región muy pequeña, es proporcional a la longitud del intervalo o al tamaño
de la región.
3. La probabilidad de que ocurra más de un resultado en tal intervalo corto o que

caiga en tal región pequeña es insignificante.
La distribución de probabilidad de la v.a Poisson X, que representa el número de

ocurrencias de un evento en un intervalo dado de tiempo o región específica es:
e−λ λx
P (x; λ) = x = 0, 1, 2, . . .
x!
donde λ es el número promedio de resultados por unidad de tiempo, distancia, área o

volumen.
Ejemplo: Supongamos que estamos utilizando una nueva técnica de secuenciación

y la tasa de error es un error por cada 10000 pares de bases. Supongamos que es-
tamos secuenciando las regiones y se toman 2000 pares de bases a la vez. ¿Cuál es la
probabilidad de cometer exactamente 2 errores utilizando esta técnica? a lo más 1 error?
El modelo Poisson es el adecuado para solucionar este problema. Para ello, debemos
calcular el valor de λ. Teniendo en cuenta la propiedad 2, anteriormente descrita, ten-
emos que λ = 0.2.
Para calcular la probabilidad de 2 errores en las 2000 pares de secuencias de datos, lo

podemos resolver directamente con la distribución de probabilidad
e−0.2 0.22
P (X = 2) = = 0.01637
2!
La distribución de probabilidad de la v.a X : número de errores en la secuencia, la

podemos representar así:
x=0:10
y=dpois(0:10,0.2)
data.frame("Prob"=y,row.names=x)
Prob
0 8.187308e-01
1 1.637462e-01
2 1.637462e-02
3 1.091641e-03
4 5.458205e-05
5 2.183282e-06
6 7.277607e-08
7 2.079316e-09
8 5.198290e-11
9 1.155176e-12
10 2.310351e-14
plot(0:10, dpois(0:10,0.2), type="h", xlab="Errores en la

secuencia", ylab="Probabilidad", main=expression(paste("Distribución
Poisson con ", lambda,"=0.2")))
Distribución Poisson con λ=0.2
0.8
0.6
Probabilidad
0.4
0.2
0.0
0 2 4 6 8 10
Errores en la secuencia
Ahora, la probabilidad de cometer a lo más 1 error usando esta técnica es P (X ≤ 1) =

0.9824769.
ppois(1,0.2)
Qué pasa a la distribución Poisson cuando cambiamos el parámetro?
par(mfrow=c(2,2))
plot(0:10,dpois(0:10,0.5),xlab="",ylab="Prob",type="h",
main=expression(paste(lambda,"=0.5")))
plot(0:10,dpois(0:10,1),xlab="",ylab="Prob",type="h",
main=expression(paste(lambda,"=1")))
λ=0.5 λ=1
0.6
0.4
Prob
Prob
0.2
0.2
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
λ=2 λ=5
0.00 0.10 0.20
0.10
Prob
Prob
0.00
0 2 4 6 8 10 0 2 4 6 8 10
3.2.4. Algunas distribuciones de probabilidad continuas
Distribución normal
Una de las distribuciones más comunes es la distribución normal. Esta distribución jue-
ga un papel clave en el desarrollo de la inferencia estadística. Muchos estudios pueden
ser aproximados usando esta distribución: variables físicas, datos meteorológicos, medi-
ciones de organismos vivos, errores de instrumentación o de diversos procesos, etc.
Definición: Sea X una v.a continua. Diremos que X tiene una distribución Normal, si
su función de densidad de probabilidad (f.d.p) es de la forma:
1 1 (x−µ)
2
f (x) = √ e− 2 σ2 ; x ∈ R, µ ∈ R, σ > 0.
σ 2π
Escribimos, X ∼ N (µ, σ 2 ). Esta distribución es simétrica respecto a µ, y su valor es-
perado y la varianza, son respectivamente, µ y σ 2 .
Teorema: sea X una v.a tal que X ∼ N (µ, σ 2 ). Si Z = X−µ

σ
, entonces Z ∼ N (0, 1). Se
dice que Z sigue una distribución normal estándar, cuya f.d.p es:
1
f (z) = √ e− 2 z ;
1 2
z ∈ R.
2π
x<-seq(-6,6,length=100)
plot(x,dnorm(x,0,1),xlab="z", ylab="f(z)",type="l",
main="f.d.p de una normal estándar")
f.d.p de una normal estándar
0.4
0.3
0.2
f(z)
0.1
0.0
−6 −4 −2 0 2 4 6
z
par(mfrow=c(3,2))
x<-seq(-6,6,length=100)
plot(x,dnorm(x,0,1),xlab="x", ylab="f(x)", type="l",
main="f.d.p de una N(0,1)")
plot(x,pnorm(x,0,1),xlab="x", ylab="F(x)", type="l",
main="F(x) de una N(0,1)")
plot(x,dnorm(x,0,2),xlab="x",ylab="f(x)", type="l",
plot(x,dnorm(x,0,5),xlab="x",ylab="f(x)", type="l",
f.d.p de una N(0,1) F(x) de una N(0,1)
0.4
0.6
F(x)
f(x)
0.2
0.0
0.0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
x x

0.15
0.6
F(x)
f(x)
0.00
0.0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
x x

0.07
0.6
F(x)
f(x)
0.2
0.04
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
x x
Distribución chi-cuadrado
La distribución de chi-cuadrado indirectamente modela la varianza de la muestra. Esta

distribución juega in papel importante en la inferencia estadística, principalmente en
pruebas de hipótesis y estimación estadística. Abarca temas como distribuciones de
muestreo, análisis de varianza y estadística no paramétrica.
La relación de la varianza de la muestra con la verdadera varianza de la población se

modela como una chi-cuadrado de acuerdo a lo siguiente:
(n − 1)s2
∼ χ2υ
σ2
donde υ = (n − 1).
par(mfrow=c(1,1))
x <- seq(0,20,by=.1)
plot(x,dchisq(x, df=2),type="l",ylab="",main="Distribución Chi-cuadrado")
lines(x,dchisq(x,df=4),lty=2)
lines(x,dchisq(x,df=9),lty=3)
legend(10,0.3,c("df=2","df=4","df=9"),bty="n",lty=c(1,2,3),cex=.8)
Distribución Chi−cuadrado
0.5
0.4
0.3
df=2
df=4
df=9
0.2
0.1
0.0
0 5 10 15 20
x
Distribución t-student
La distribución t-student es muy similar a la distribución normal estándar, pues ambas

son simétricas alrededor del cero y tienen una forma de campana. Pero la distribución t
es más variable debido al hecho de que los valores de la v.a T dependen de las fluctua-
ciones de dos cantidades, X̄ y S 2 , mientras que los valores de Z dependen sólo de los
cambios de X̄ de una muestra a otra. La distribución T difiere de la Z en que la varianza
de T depende del tamaño muestral n y siempre es mayor que 1. Estas distribuciones
son las mismas cuando n → ∞.
Esta distribución es usada en el procedimiento de test de hipótesis cuando desconoce-

mos la desviación estándar de la población y el tamaño de muestra es pequeño.
Teorema: sea Z una variable aleatoria normal estándar, y V una variable aleatoria chi-
cuadrada con υ grados de libertad. Si Z y V son independientes, entonces, la distribución
de la variable aleatoria T , donde
Z
T =√
V /υ
está dada por la función de densidad
( )−(υ+1)/2
Γ[(υ + 1)/2] t2
h(t) = √ 1+ ; − ∞ < t < ∞.
Γ(υ/2) πυ υ
Esta distribución se conoce como distribución t con υ grados de libertad.
Grafiquemos algunas distribuciones t con distintos grados de libertad, y comparemos

con la normal.
x <- seq(-8,8,by=.1)
par(mfrow=c(2,2))
plot(x,dnorm(x),type="l",ylab="",main="df=2")
lines(x,dt(x,df=2),lty=2)
df=2 df=5
0.4
0.4
0.2
0.2
0.0
0.0
−5 0 5 −5 0 5
x x
df=10 df=20
0.4
0.4
0.2
0.2
0.0
0.0
−5 0 5 −5 0 5
x x
Distribución F de Fisher
Sabemos que la distribución t-student es útil en el caso de inferencia acerca de la media

de la población o en comparaciones de medias de dos poblaciones. Pero en algunos
casos, es requerido comparar las varianzas poblacionales, por lo cual, la distribución F
encuentra enorme aplicación. Esta distribución es frecuente utilizarla en problemas que
implican dos o más muestras.
El estadístico F se define como la razón de dos variables aleatorias chi-cuadradas inde-

pendientes, dividida cada una entre sus respectivos grados de libertad. De aquí, podemos
escribir
U/υ1
F = ,
V /υ2
donde U y V son variables aleatorias independientes que tienen distribuciones chi-
cuadradas con υ1 y υ2 grados de libertad, respectivamente.
x <- seq(0,10,by=.1)
plot(x,df(x, 1,2),type="l",ylab="",main="Distribución F de Fisher")
lines(x,df(x,15,2),lty=2)
lines(x,df(x,10,10),lty=3)
legend(3,0.4,c("df1=1 y df2=2","df1=15 y df2=2","df1=10 y df2=10"),
bty="n",lty=c(1,2,3),cex=.8)
Distribución F de Fisher
1.0
0.8
0.6
0.4
df1=1 y df2=2
df1=15 y df2=2
df1=10 y df2=10
0.2
0.0
0 2 4 6 8 10
x
Capítulo 4
Inferencia estadística
4.1. Distribuciones muestrales
4.1.1. Teorema del límite central
Una de las razones por la cual la distribución normal es tan importante, es por su
capacidad de englobar a otras distribuciones (bajo ciertas circunstancias), cuando el
número de observaciones es lo suficientemente grande.
El conjunto de medias provenientes de muestras aleatorias de tamaño n tiende a una

distribución normal. Entre más grande sean las muestras, mayor será la aproximación
de sus medias a la normalidad.
El teorema del límite central establece que para cualquier distribución con varianza
finita, la media de una muestra aleatoria tiende a estar normalmente distribuida.
La varianza de la distribución de las medias decrece conforme aumenta n; de hecho,

la varianza de la población de todas las posibles medias de muestras de tamaño n
provenientes de una población con varianza σ 2 es:
σ2
σx̄2 =
n
Al tomar raíz cuadrada de esta cantidad, obtenemos el llamado error estándar.

De lo anterior, si X̄ es la media de una muestra aleatoria de tamaño n tomada de una
población con media µ y varianza finita σ 2 , entonces la forma límite de la distribución
de
X̄ − µ
Z= √ ,
σ/ n
83
CAPÍTULO 4. INFERENCIA ESTADÍSTICA 84
conforme n → ∞, es la distribución normal estándar N (0, 1).

2 2 2
Veamos las distribuciones muestrales de x̄, (n−1)s
σ2
, (s x /σx )
(s2y /σy2 )
cuando x e y son N (µx , σx2 ) y
N (µy , σy2 )
pob.x = rnorm(1000,mean=50, sd = 3)
pob.y = rnorm(1000,mean=20, sd = 5)
media = chi2 = f = 0
for(i in 1:1000){
muestra.xi = sample(pob.x,size=10,replace=T)
muestra.yi = sample(pob.y,size=20,replace=T)
media[i] = mean(muestra.xi)
var.x = var(muestra.xi)
var.y = var(muestra.yi)
chi2[i] = (10-1)*var.x/9
f[i] = (var.x/9)/(var.y/25)
}
x = seq(0,100,.1)
par(mfrow=c(1,3))
hist(media,freq=FALSE)
lines(x,dnorm(x,mean=50,sd=sqrt(9/10)))
hist(chi2,freq=FALSE)
lines(x,dchisq(x, df=9))
hist(f,freq=FALSE)
lines(x,df(x, df1=9, df2=9))
Histogram of media Histogram of chi2 Histogram of f

0.8
0.10
0.4
0.08
0.6
0.3
0.06
Density
Density
Density
0.4
0.2
0.04
0.2
0.1
0.02
0.00
0.0
0.0
47 48 49 50 51 52 53 0 5 10 15 20 25 0 1 2 3 4 5
media chi2 f
4.1.2. Estimación
Se analiza ahora el comportamiento de algunos estimadores por el método de los mo-

mentos o vía máxima verosimilitud.
Ejemplo: Dada una muestra aleatoria x1 , x2 , . . . , xn de una distribución U (0, θ), el es-
timador de θ por el método de los momentos es θ̂ = 2x̄. Observemos su comportamiento
a medida que aumenta el tamaño de muestra:
pob = runif(1000,min=0,max=5)
n.max = 900
estimador = 0
for(i in 1:n.max){
muestra.i = sample(pob, size=i,replace=F)
estimador[i] = 2*mean(muestra.i)
}
plot(estimador,xlab="Tamaño muestral",ylab="Estimación")
7
6
Estimación
5
4
3
2
0 200 400 600 800
Tamaño muestral
Pero si se aplica el estimador máximo verosímil θ̂ = máx(xi ), el comportamiento es:
n.max = 900
estimador = 0
for(i in 1:n.max){
estimador[i] = max(muestra.i)
}
plot(estimador,xlab="Tamaño muestral",ylab="Estimación")
5.0
4.5
4.0
Estimación
3.5
3.0
2.5
2.0
0 200 400 600 800
Tamaño muestral
Ejemplo: Dada una muestra aleatoria x1 , x2 , . . . , xn de una distribución N (µ, σ 2 ), el

estimador de θ = (µ, σ 2 ) por el método de los momentos es θ̂ = (x̄, s2n ). Observemos su
comportamiento a medida que aumenta el tamaño de muestra:
pob = rnorm(1000,mean=50,sd=10)
n.max = 900
estimador = matrix(0,nrow=n.max,ncol=3)
for(i in 1:n.max){
estimador[i,] = c(mean(muestra.i),(i-1)/i*(sd(muestra.i))^2,
(sd(muestra.i))^2)
}
par(mfrow=c(1,3))
plot(estimador[,1],xlab="Tamaño muestral",ylab="Estimación media")
abline(h=50,col="red")
plot(estimador[,2],xlab="Tamaño muestral",ylab="Estimación varianza")
plot(estimador[,3],xlab="Tamaño muestral",ylab="Estimación varianza")

200
200
60
150
150
Estimación varianza
Estimación varianza
55
Estimación media
100
100
50
50
50
45
0
0 400 800 0 400 800 0 400 800
Tamaño muestral Tamaño muestral Tamaño muestral
Propiedades de los estimadores
Insesgamiento (Ejemplo): El estimador máximo verosímil del parámetro λ en la

[distribución exponencial
] fX (x; λ) = λe−λx es λ̂ = x̄1 . Luego una aproximación del sesgo
B(λ̂) = E(λ̂ − λ) se logra en R como:
pob = rexp(1000,rate=2)
n.max = 100
estimador = 0
for(i in 1:n.max){
muestra.i = sample(pob, size=10,replace=F)
estimador[i] = 1/mean(muestra.i)
}
sesgo = mean(estimador)-2
sesgo
[1] 0.03868989
Eficiencia (Ejemplo): Recuerde que θ̂1 se dice más eficiente que θ̂2 si V ar(θ̂1 ) <
V ar(θ̂2 ). Veamos que el estimador máximo verosímil es el más eficiente bajo la dis-
tribución U (0, θ).
n.max = 100
est.mom = est.mv = 0
for(i in 1:n.max){
muestra.i = sample(pob, size=10,replace=F)
est.mom[i] = 2*mean(muestra.i)
est.mv[i] = max(muestra.i)
}
var(est.mv)<var(est.mom)
[1] TRUE
Y podemos calcular la eficiencia relativa como:

var(est.mv)/var(est.mom)
0.1642539
Consistencia (Ejemplo): Recuerde que θ̂ se dice consistente si

[ ]
lı́m P r | θ̂n − θ |< ϵ = 1,
n→∞
para todo ϵ > 0. Veamos que el estimador máximo verosímil en una exponencial es
consistente.
pob = rexp(1000,rate=2)
n.max = 900
pr = 0
for(i in 1:n.max){
cont = 0
for(j in 1:50){
estimador = 1/mean(muestra.i)
if(abs(estimador-2) <.1) cont[j] = 1 else cont[j] = 0
}
pr[i] = sum(cont)/50
}
plot(pr,pch=20,xlab="Tamaño Muestral", ylab="Pr")
1.0
0.8
0.6
Pr
0.4
0.2
0.0
0 200 400 600 800
Tamaño Muestral
Y para la distribución normal
pob = rnorm(1000,mean=50, sd = 3)
n.max = 900
pr = 0
for(i in 1:n.max){
cont = 0
for(j in 1:200){
estimador = mean(muestra.i)
if(abs(estimador-50) <.1) cont[j] = 1 else cont[j] = 0
}
pr[i] <- sum(cont)/200
}
plot(pr,pch=20,xlab="Tamaño Muestral", ylab="Pr")
1.0
0.8
0.6
Pr
0.4
0.2
0.0
0 200 400 600 800
Tamaño Muestral
4.2. Intervalos de confianza y test de hipótesis

Los estimadores puntuales exhiben un solo valor como estimación del parámetro de
interés, pero en muchos casos esto no es suficiente. A veces, se requiere de un rango de
posibles valores para el parámetro de interés, es decir, un intervalo real donde se cree
que estará el valor del parámetro con una alta confianza.
Sea θ un parámetro de interés y θ̂ un estimador puntual para θ. una estimación de θ

por intervalo, es un intervalo de la forma (l, u) (l < θ < u), donde l y u dependen de θ̂
y de la distribución de θ̂.
Cada muestra aleatoria proporcionará un valor diferente para θ̂ y por lo tanto, valores
diferentes para l y u. Así, los extremos del intervalo en cuestión se convierten en v.a las
cuales denotaremos L y U . El intervalo (L, U ) es llamado intervalo aleatorio. Usando θ̂
y su distribución, se puede determinar L y U tal que P (L < θ < U ) = 1 − α; α ∈ (0, 1)
para α dado. Para una muestra en particular, se obtiene el intervalo (l, u) donde se
espera esté el verdadero valor de θ.
El intervalo (l, u) será llamado un Intervalo de Confianza al 100(1 − α) % para θ. l y

u son llamados límites de confianza y el valor 1 − α se le llama coeficiente o nivel de
confianza. Notación: I.C al 100(1 − α) % para θ.
Interpretación: “De todos los posibles I.C al 100(1 − α) % para θ, el 100(1 − α) % de

ellos, contendrá el verdadero valor de θ”.
4.2.1. Intervalo de confianza para la media
Sea X1 , . . . , Xn una muestra aleatoria (m.a) de una población normal N (µ, σ 2 ) con
media µ desconocida y varianza σ 2 conocida. Un I.C al 100(1 − α) % para µ es
( )
σ σ
x̄ − Zα/2 √ , x̄ + Zα/2 √
n n
Nota 1: Si la m.a no proviene de una distribución normal, pero el tamaño de muestra

es grande, podemos usar el mismo I.C, puesto que el teorema de límite central nos
garantiza su uso.
Nota 2: Si σ 2 es desconocida, usamos s2 en su lugar. Así, un I.C al 100(1 − α) % para

µ es ( )
s s
x̄ − Zα/2 √ , x̄ + Zα/2 √
n n
Nota 3: Si la m.a proviene de una distribución normal, pero el tamaño de muestra es

pequeño, sabemos que
x̄ − µ
√ ∼ t(n−1)
s/ n
De aquí, un I.C al 100(1 − α) % para µ es
( )
s s
x̄ − tα/2 (n − 1) √ , x̄ + tα/2 (n − 1) √
n n
Ejemplo: Suponga que un investigador está interesado en obtener una estimación del
nivel promedio de alguna enzima en cierta población de seres humanos. Para esto, toma
una muestra de 20 individuos, los datos se muestran a continuación.
x=c(26.58,24.19,28.61,32.02,24.65,24.82,17.43,26.12,22.06,16.68,
9.06,7.58,9.16,26.69,26.76,20.88,3.90,23.79,17.20,25.73)
Supongamos que la variable de interés se distribuye aproximadamente normal. Con-

struya un I.C al 95 % para µ: nivel de enzima promedio.
Solución!
t.test(x,conf.level=0.95)
El resultado que se obtiene de R es el siguiente:
95 percent confidence interval:

17.02149 24.36951
sample estimates: mean of x
20.6955
Podemos concluir entonces que el nivel promedio de enzimas en dicha población se

encuentra entre 17.02 y 24.37 con una confianza del 95 %.
4.2.2. Intervalo de confianza para una proporción
Sea X una v.a tal que X ∼ bin(x; n, p), un I.C aproximado para p, con n grande, viene
dado por: ( )
√ √
p̂ − Zα/2 p̂(1 − p̂)/n , p̂ + Zα/2 p̂(1 − p̂)/n
Ejemplo: Se lleva a cabo un estudio para determinar la efectividad de una vacuna

contra la gripe. Se administra la vacuna a una m.a de 3000 sujetos y 13 contraen gripe.
Obtenga un I.C al 95 % para la proporción real de sujetos vacunados que contraerían
gripe.
Solución!
prop.test(x=13,n=3000,conf.level=0.95,correct=T)

0.002411534 0.007609646
sample estimates:
p
0.004333333
Podemos decir que la proporción real de vacunados que contraerían gripe está entre
0.0024 y 0.0076 con un 95 % de confianza.
Nota: cuando las condiciones anteriores no se verifiquen, es posible la construcción de

un intervalo exacto. Con R lo obtenemos de la siguiente forma.
binom.test(x=13,n=3000,conf.level=0.95)

0.002309274 0.007398732
sample estimates:
probability of success
0.004333333
Podemos decir que la proporción real de vacunados que contraerían gripe está entre
0.0023 y 0.0074 con un 95 % de confianza.
4.2.3. Intervalo de confianza para la varianza
Si s2 es la varianza de una muestra aleatoria de tamaño n de una población normal, un

intervalo de confianza de 100(1 − α) % para σ 2 es
( )
(n − 1)s 2
(n − 1)s 2
2
,
χα/2 χ21−α/2
donde χ2α/2 y χ21−α/2 son valores χ2 con υ = n − 1 grados de libertad, que dejan áreas
de α/2 y 1 − α/2, respectivamente, a la derecha.
Un intervalo de confianza de 100(1 − α) % para σ se obtiene al tomar la raíz cuadrada
de cada exrtremo del intervalo para σ 2 .
Ejemplo: Suponga la muestra donde se registra el nivel de enzima de 20 individuos.

Estamos interesados ahora en construir un I.C al 95 % para la varianza de la población.
x=c(26.58,24.19,28.61,32.02,24.65,24.82,17.43,26.12,22.06,16.68,
9.06,7.58,9.16,26.69,26.76,20.88,3.90,23.79,17.20,25.73)
Solución!
Asumiendo normalidad, En R, tenemos que:
# Construyamos la función que nos permita obtener dicho intervalo.

intvar<-function(x,confianza){
n<- length(x)
alpha<- 1-confianza
L_inf<-(n-1)*var(x)/qchisq(alpha/2,df=n-1,lower.tail=F)
L_sup<-(n-1)*var(x)/qchisq(1-(alpha/2),df=n-1,lower.tail=F)
Intervalo<-data.frame(medida=c("L_inf","Varianza","L_sup"),
calculo=c(L_inf,var(x),L_sup))
Intervalo
}
Ahora, aplicando la función a los datos, tenemos:
intvar(x,0.95)
medida cálculo
1 L_inf 35.64105
2 Varianza 61.62587
3 L_sup 131.46459
sqrt(intvar(x,0.95)[,2])
[1] 5.970013 7.850215 11.465801
Podemos concluir entonces que la desviación del nivel de enzimas respecto al promedio
en dicha población, se encuentra entre 5.97 y 11.47 con una confianza del 95 %.
4.2.4. Intervalo de confianza para el cociente de varianzas
Si s21 y s22 son varianzas de muestras independientes de tamaño n1 y n2 , respectivamente,

de poblaciones normales, entonces un intervalo de confianza al 100(1 − α) % para σ12 /σ22
es: ( 2 )
s1 1 s21
, fα/2 (υ2 , υ1 )
s22 fα/2 (υ1 , υ2 ) s22
donde fα/2 (υ1 , υ2 ) es un valor f con υ1 = n1 − 1 y υ2 = n2 − 1 grados de libertad que

deja un área de α/2 a la derecha.
Ejemplo: un estudio tiene como finalidad determinar los efectos del ejercicio por un
tiempo prolongado en los ejecutivos de una compañía. Se registraron datos de 13 individ-
uos (deportistas) y de 17 individuos (sedentarios). Entre los datos que se recolectaron,
está el número máximo de sentadillas realizadas durante un período de 30 segundos.
Los grupos deportistas y sedentarios, presentaron los siguientes registros:
deportistas=c(21,25,18,12,25,19,26,25,28,25,16,26,23)
sedentarios=c(22,29,19,7,17,3,26,16,7,11,6,13,23,14,19,18,16)
Asuma que las observaciones provienen de poblaciones normal. Construya un I.C al

95 % para el cociente de varianzas σ12 /σ22 .
Solución!
En R, tenemos lo siguiente:
var.test(deportistas,sedentarios,conf.level = 0.95)

0.1456417 1.3260550
sample estimates:
ratio of variances
0.4207659
Podemos concluir que el cociente de las varianzas poblacionales está entre 0.15 y 1.33,
con una confianza del 95 %. Como el 1 está dentro del intervalo, esto apoyaría la hipótesis
de que las varianzas poblacionales son iguales.
4.2.5. Intervalo de confianza para diferencia de medias
Asumiendo muestras grandes, suponga que X1 , . . . , Xn es una muestra aleatoria (m.a)

de una población con media µ1 y varianza σ12 . Sea Y1 , . . . , Ym otra m.a independiente de
la anterior, de otra población con media µ2 y varianza σ22 (si desconocemos σ 2 , podemos
usar s2 ). Un I.C al 100(1 − α) % para µ1 − µ2 es
( √ √ )
s21 s22 s21 s22
(x̄ − ȳ) − Zα/2 + , (x̄ − ȳ) + Zα/2 +
n m n m
Intervalo de confianza para diferencia de medias (muestras pequeñas)
En el caso de muestras pequeñas, se deben distinguir dos casos, cuando las varianzas
poblacionales son desconocidas, pero se asumen iguales, o cuando éstas son desconoci-
das y se asumen distintas.
Caso 1: (asumiendo varianzas poblacionales iguales) se debe obtener el estadís-

tico
(n − 1)s21 + (m − 1)s22
Sp2 = .
n+m−2
El error estándar es: √
Sp2 Sp2
Sx̄−ȳ = + .
n m
Un I.C al 100(1 − α) % para µ1 − µ2 está dado por:
( √ √ )
Sp2 Sp2 Sp2 Sp2
(x̄ − ȳ) − tα/2 (υ) + , (x̄ − ȳ) + tα/2 (υ) +
n m n m
donde υ = n + m − 2.
Caso 2: (asumiendo varianzas poblacionales distintas) Se debe calcular los gra-
dos de libertad ( 2 )2
s1 s22
n
+m
υ = ( 2 )2 ( 2 )2 − 2
s1 s2
n m
n+1
+ m+1
y el I.C al 100(1 − α) % está dado por:
( √ √ )
s21 s22 s21 s22
(x̄ − ȳ) − tα/2 (υ) + , (x̄ − ȳ) + tα/2 (υ) +
n m n m
Ejemplo: continuando con el ejemplo anterior, se desea construir un I.C al 95 % para

la diferencia de media µ1 − µ2 . En R, tenemos lo siguiente.
Solución!
t.test(deportistas,sedentarios,var.equal=T,conf.level=0.95)

1.831448 11.335973
sample estimates:
mean of x mean of y
22.23077 15.64706
Concluimos que con una confianza del 95 %, la diferencia entre el promedio de sentadillas
de los deportistas, respecto a los sedentarios, se encuentra entre 2 y 11 sentadillas
aproximadamente. Esto nos da un indicio de que hay diferencias entre los promedios de
los dos grupos.
4.2.6. Intervalo de confianza para diferencia de medias pareadas
Cuando las muestras no son independientes y las varianzas poblacionales no necesari-

amente son iguales, procedemos a realizar intervalos de confianza para diferencia de
medias pareadas. Aquí, cada unidad experimental homogénea recibe ambas condiciones
poblacionales; como resultado, cada unidad experimental tiene un par de observaciones,
una para cada población.
A manera de ejemplo, si realizamos una prueba de una nueva dieta con 15 individuos,
los pesos antes y después de seguir la dieta forman la información de nuestras dos mues-
tras. Evidentemente, las observaciones en un par tienen algo en común. Para determinar
si la dieta es efectiva, consideramos las diferencias d1 , d2 , . . . , dn en las observaciones
pareadas. Estas diferencias son los valores de una muestra aleatoria D1 , D2 , . . . , Dn de
una población de diferencias, que supondremos distribuidas normalmente, con media
µD = µ1 − µ2 y varianza σD 2
. Estimamos σD2
, mediante s2D , la varianza de las diferencias
que constituyen nuestra muestra. El estimador puntual de µD está dado por D̄.
Ahora bien, si d¯ y sd son la media y la desviación estándar, respectivamente, de las

diferencias distribuidas normalmente de n pares de mediciones aleatorias, un intervalo
de confianza al 100(1 − α) % para µD = µ1 − µ2 es
( )
s d s d
d¯ − tα/2 √ , d¯ + tα/2 √
n n
donde tα/2 es el valor de t con υ = n − 1 grados de libertad que deja un área de α/2 a
la derecha.
Ejemplo: a un grupo de 12 individuos se les tomó la presión antes y después de

someterlos a un tratamiento, los resultados fueron los siguientes:
p.antes=c(120,124,130,118,140,128,140,135,126,130,126,127)
p.despues=c(128,131,131,127,132,125,141,137,118,132,129,135)
Construya un I.C del 95 % para la diferencia de medias.
Solución!
En R, hacemos lo siguiente:
t.test(p.antes,p.despues,paired=T,conf.level=0.95)
El resultado es el siguiente:

-5.536492 1.869825
sample estimates:
mean of the differences
-1.833333
Con una confianza del 95 %, la diferencia entre las presiones arterial promedio, se en-
cuentra entre -5.54 y 1.87. Esto indica que el nuevo tratamiento no disminuye la presión
arterial con una confianza del 95 %.
4.2.7. Intervalo de confianza para diferencia de proporciones
Si p̂1 y p̂2 son las proporciones de éxitos en muestras aleatorias de tamaño n1 y n2 ,

respectivamente, q̂1 = 1 − p̂1 y q̂2 = 1 − p̂2 , un intervalo de confianza aproximado al
100(1 − α) % para la diferencia de dos parámetros binomiales p1 − p2 , está dado por:
( √ √ )
p̂1 q̂1 p̂2 q̂2 p̂1 q̂1 p̂2 q̂2
(p̂1 − p̂2 ) − Zα/2 + , (p̂1 − p̂2 ) + Zα/2 +
n1 n2 n1 n2
Ejemplo: cierto genetista se interesa en la proporción de hombres y mujeres en la

población que tienen cierto trastorno sanguíneo menor. En una muestra aleatoria de
1000 hombres se encuentra que 250 lo padecen; mientras que 275 de 1000 mujeres ex-
aminadas parecen tener el trastorno. Construya un I.C al 95 % para la diferencia entre
la proporción de hombres y mujeres que padecen el trastorno.
Solución!
prop.test(x=c(250,275),n=c(1000,1000),conf.level=.95,correct=T)

-0.0645508 0.0145508
sample estimates:
prop 1 prop 2
0.250 0.275
Con una confianza del 95 %, la diferencia de la proporción de hombres con dicho

trastorno, respecto a la de las mujeres, está entre -0.065 y 0.015. Lo que indica que
no hay diferencias entre las proporciones.
4.2.8. Test de hipótesis
Una hipótesis estadística es una afirmación que se hace con respecto a una o algunas
características desconocidas de una población de interés o acerca de la misma población.
Dicha afirmación tiene sentido solo si es evaluada con base en la información recolectada
a partir de una muestra aleatoria de la población en estudio.
Como la afirmación puede o no ser cierta, dos hipótesis pueden ser planteadas (an-
tagónicas).
H0 : la hipótesis es cierta
Ha : la hipótesis es falsa.
H0 se rechaza, solo si la evidencia muestral apoya esta determinación fuertemente. En

otro caso, diremos que la evidencia muestral no es suficiente para rechazar H0 y se
asume como cierta. El proceso por medio del cual escogemos una de las dos hipótesis
es llamado test de hipótesis.
Ejemplo: un tratamiento para dejar de fumar ha mostrado ser efectivo en el 60 %

de los casos. Un investigador propone un nuevo método que se supone mejorará dicho
porcentaje. Para verificar esta información, se aplicó dicho tratamiento a 20 voluntarios
con hábito de fumar.
Cómo usar la información recolectada para decidir si el nuevo tratamiento es mejor?
Queremos determinar si la proporción de personas que deja de fumar a causa del nue-
vo tratamiento es mayor al 60 %. ¿Cuántas de las 20 personas mínimo deben dejar de
fumar para aceptar que el nuevo tratamiento es mejor?
Sea X : número de personas que dejan de fumar a causa del nuevo tratamiento.
X ∼ bin(20, p). Las hipótesis a probar son:
H0 : p ≤ 0.6 vs Ha : p > 0.6.
Suponga un valor k, tal que si x > k, se tiene suficiente evidencia para rechazar H0 . (es
decir, p > 0.6).
Siempre que el valor de la v.a X esté en el conjunto {x | x > k}, se debe rechazar H0 .
Cómo hallar un valor adecuado para k?
Observe que, x > k ⇔ x

n
> k
n
⇔ p̂ > k
20
= p0 .
Así, x > k ⇔ p̂ > p0 . La decisión recae sobre X o p̂.
La v.a X o p̂ son llamados estadísticos de prueba, y al conjunto {x | x > k} o {p̂ | p̂ > p0 }

se le llama región crítica o región de rechazo. El proceso aquí descrito constituye un
test de hipótesis.
Todo test de hipótesis consta de:
1.) Hipótesis nula, H0
2.) Hipótesis alterna, Ha
3.) Estadístico de prueba
4.) Región de rechazo
En general, sea θ un parámetro de interés desconocido, y sea θ0 un valor particular de

θ. Tres hipótesis alternas pueden ser planteadas:

 θ < θ0
H0 : θ = θ 0 vs Ha : θ > θ0

θ ̸= θ0
Si θ̂ es un estimador puntual para θ, los valores de θ̂ pueden ser usados para tomar una
decisión sobre H0 .
Las respectivas regiones de rechazo asociadas a Ha son:
{θ̂ | θ̂ < k}
{θ̂ | θ̂ > k}
{θ̂ | |θ̂| > k}.
El problema aquí es hallar valores adecuados para k.
En este proceso se pueden cometer dos tipos de errores.

Error tipo I: rechazar H0 , dado que H0 es cierta.
Error tipo II: no rechazar H0 , dado que H0 es falsa.
Sea α = P (error tipo I) y β = P (error tipo II). α es llamado nivel de significancia del
test o tamaño de la región de rechazo. Por otro lado, 1 − β es llamado potencia de la
prueba, es decir,
P (Rechazar H0 , dado que H0 es falsa). Note que si se fija α, es posible hallar valores
adecuados para k.
En muchas áreas, es común concluir en el procedimiento de test de hipótesis con el valor

p. El valor p es el mínimo nivel de significancia a partir del cual los datos observados
indican que se debe rechazar H0 .
También, valor p es “mínima probabilidad de equivocarse al rechazar H0 ”.
Test de hipótesis para medias (muestras grandes)
Sea X1 , . . . , Xn una muestra aleatoria (m.a) de una población con media µ y varianza
σ 2 . Sea µ0 un valor de interés para µ. Tres hipótesis pueden ser planteadas.

 µ < µ0
H0 : µ = µ 0 vs Ha : µ > µ0

µ ̸= µ0
El estadístico de prueba es:

X̄ − µ0
Zc = √
σ/ n
La región crítica es la siguiente:


 Zc | Zc < −Zα
Región crítica: Zc | Zc > Zα

Zc | |Zc | > Zα/2
Para α dado. Si σ es desconocida, usamos S 2 .
2
Ejemplo: se estudia el rendimiento de un proceso químico con base en la observación

de 50 días. Los datos se muestran a continuación.
x=c(90.85,89.37,90.08,89.77,92.10,90.34,91.46,91.54,90.96,92.02,
89.78,90.22,88.15,91.05,93.22,88.74,88.40,90.06,90.59,90.14,89.42,
90.18,90.28,91.40,89.02,90.14,92.46,91.36,92.81,90.14,
90.28,89.17,89.98,91.94,91.57,91.77,89.59,91.53,89.68,91.39,92.82,
90.93,89.27,88.59,89.40,91.53,91.13,90.67,90.20,90.39)
Se puede afirmar que el rendimiento promedio real del proceso es superior al 90 %? use
α = 0.01.
Solución!
t.test(x,alternative="greater",mu=90)
One Sample t-test
data: x
t = 3.3225, df = 49, p-value = 0.0008464
alternative hypothesis: true mean is greater than 90
90.27623 Inf
sample estimates:
mean of x
90.5576
La conclusión la tomamos con el valor p. Si valor p es menor que el nivel de significancia

especificado, rechazamos H0 con dicho nivel α, en caso contrario, decimos que no hay
evidencias suficientes para rechazar H0 . Aquí como p valor= 0.00085 < 0.01, rechaz-
amos H0 a un nivel de significancia de 0.01. Por tanto, concluimos que el rendimiento
promedio real del proceso es superior al 90 %. Note que el I.C al 95 % también nos
respalda la conclusión.
Nota: si el tamaño de muestra es pequeño y las poblaciones son normales, sabemos que
X̄ − µ
√ ∼ t(n−1)
s/ n
así, si µ0 es el valor de referencia para µ, tenemos las siguientes hipótesis


 µ < µ0
H0 : µ = µ 0 vs Ha : µ > µ0

µ ̸= µ0

X̄ − µ0
Tc = √
s/ n


 Tc | Tc < −Tα (n − 1)
Región crítica: Tc | Tc > Tα (n − 1)

Tc | |Tc | > Tα/2 (n − 1)
Para α dado.
Test de hipótesis para una proporción
Sea X una v.a tal que X ∼ bin(x; n, p). Sea p0 un valor de interés para p. Tres hipótesis
pueden ser planteadas.

 p < p0
H 0 : p = p0 vs Ha : p > p0

p ̸= p0

p̂ − p0
Zc = √
p0 (1 − p0 )/n



Zc | |Zc | > Zα/2
Para α dado.
Ejemplo: en una investigación con pacientes psiquiátricos en cierto país, se encontró

que 166 pacientes en una muestra de 947, tenían antecedentes de abuso sexual y mal-
trato físico. Use un nivel α = 0.05 para chequear que el porcentaje real de pacientes de
dicho país abusados sexual o físicamente es inferior al 20 %.
Solución!
prop.test(x=166,n=947,alternative="less",p=0.2,correct=F)
1-sample proportions test without continuity correction
data: 166 out of 947, null probability 0.2

X-squared = 3.6138, df = 1, p-value = 0.02865
alternative hypothesis: true p is less than 0.2
0.0000000 0.1965303
sample estimates:
p
0.1752904
Con un nivel α = 0.05, rechazamos H0 , es decir, el porcentaje de pacientes maltratados

es inferior al 20 %.
Test de hipótesis para diferencia de proporciones de dos poblaciones
Sean X una v.a tal que X ∼ bin(n, p1 ) y Y una v.a tal que Y ∼ bin(m, p2 ) con p1 y
p2 desconocidas. Sea p0 un valor de interés para p1 −p2 . Tres hipótesis se pueden plantear

 p1 − p2 < p0
H 0 : p 1 − p 2 = p0 vs Ha : p1 − p2 > p0

p1 − p2 ̸= p0

(pˆ1 − pˆ2 ) − p0
Zc = √
p0 (1−p0 ) p0 (1−p0 )
n
+ m



Zc | |Zc | > Zα/2
Para α dado.
Ejemplo: En un estudio de cuidados nutricionales en asilos para ancianos, se encontró

que entre 55 pacientes con hipertensión, 24 tenían una dieta con restricción de sodio.
De 149 pacientes pacientes sin hipertensión, 36 tenían una dieta sin sodio.
Es posible concluir que en las poblaciones muestreadas, la proporción de pacientes con

dieta restringida en sodio es mayor entre pacientes hipertensos que entre los no hiperten-
sos?. Use α = 0.05.
La hipótesis es la siguiente:
H0 : p 1 − p 2 = 0 vs H a : p1 − p2 > 0
Solución! En R, el procedimiento es el siguiente:
prop.test(x=c(24,36),n=c(55,149),alternative="greater",correct=F)
2-sample test for equality of proportions without continuity correction
data: c(24, 36) out of c(55, 149)

alternative hypothesis: greater
0.07055185 1.00000000
sample estimates:
prop 1 prop 2
0.4363636 0.2416107
La proporción de pacientes con dieta restringida en sodio es mayor entre pacientes

hipertensos que entre los no hipertensos, con α = 0.05.
4.2.9. Test de hipótesis para diferencia de medias
Suponga que se tienen dos poblaciones normales independientes y se extraen dos m.a.
Sea X1 , . . . , Xn una m.a de una población N (µ1 , σ12 ), y sea Y1 , . . . , Ym otra m.a de una
población N (µ2 , σ22 ), ambas m.a estadísticamente independientes. Se desea contrastar
la hipótesis acerca de la diferencia µ1 − µ2 . Las hipótesis a probar son de la forma:

 µ1 − µ2 < δ0
H0 : µ1 − µ2 = δ0 vs Ha : µ1 − µ2 > δ0

µ1 − µ2 ̸= δ0

(X̄ − Ȳ ) − δ0
Zc = √
σ12 σ2
n
+ m2
Cuando no se conocen las varianzas, recuerde que se deben distinguir dos casos.
Caso 1: (asumiendo varianzas poblacionales iguales) El estadístico de prueba

será
(x̄ − ȳ) − δ0
Tc = √ ∼ t(n+m−2) ,
Sp n1 + m1
donde
(n − 1)s21 + (m − 1)s22
Sp2 = .
n+m−2
Caso 2: (asumiendo varianzas poblacionales distintas) Aquí, el estadístico de

prueba es
(x̄ − ȳ) − δ0
Tc = √ 2 ,
s1 s22
n
+m
el cual se distribuye aproximadamente t(υ) , donde
( )2
s21 s22
n
+ m
υ= ( 2 )2 ( )2 −2
s1 s2
2
n m
n+1
+ m+1


 Tc | Tc < −tα (υ)
Región crítica: Tc | Tc > tα (υ)

Tc | |Tc | > tα/2 (υ)
Para α dado.
Note que para Caso 1, υ = n + m − 2.

Ejemplo: se midieron las concentraciones de cortisol en dos grupos de mujeres antes

de dar a luz. Al grupo 1 se le practicó una operación cesárea de urgencias después de
inducido el parto. Las del grupo 2, dieron a luz mediante operación cesárea o vía vaginal
después de presentarse el trabajo de parto expontáneamente. Los niveles de cortisol en
los dos grupos se presentan a continuación. (Asuma normalidad en el conjunto de datos)
grupo1=c(411,466,432,409,381,363,449,483,438,381)
grupo2=c(584,553,516,688,650,590,574,700,831,688,478,689)
Proporcionan estos datos evidencia suficiente para afirmar que existe diferencia en la
concentración media de cortisol en las poblaciones?. Use α = 0.05.
Solución!
Veamos si las varianzas son iguales o diferentes.
var.test(grupo1,grupo2)
El resultado en R es el siguiente
F test to compare two variances
data: grupo1 and grupo2

F = 0.16182, num df = 9, denom df = 11, p-value = 0.0108
alternative hypothesis: true ratio of variances is not equal to 1
0.04510143 0.63304938
sample estimates:
ratio of variances
0.1618194
Como el 1 no está en el intervalo, y p−valor es menor que 0.05, podemos asumir que
las varianzas son diferentes. Ahora procedamos a chequear las hipótesis principal del
problema.
t.test(grupo1,grupo2,var.equal=F,alternative="two.sided")
Welch Two Sample t-test
data: grupo1 and grupo2

t = -6.7277, df = 14.996, p-value = 6.787e-06
alternative hypothesis: true difference in means is not equal to 0

-272.7363 -141.4970
sample estimates:
mean of x mean of y
421.3000 628.4167
Como p−valor es menor que 0.05, concluimos que hay diferencia estadísticamente sig-
nificativa en las concentraciones medias de cortisol entre las dos poblaciones.
4.2.10. Test de hipótesis para diferencia de medias pareadas
En este caso, el estadístico de prueba es:
d¯ − d0
Tc = √ ∼ t(n − 1)
sd / n
donde d¯ y sd representan la media muestral y las desviaciones estándar de las diferencias

de las observaciones en las unidades experimentales.
Las hipótesis son:


 µd < d0
H0 : µd = d0 vs Ha : µd > d0

µd ̸= d0


 Tc | Tc < −tα (n − 1)
Región crítica: Tc | Tc > tα (n − 1)

Tc | |Tc | > tα/2 (n − 1)
Para α dado.
Ejemplo: a un grupo de 12 individuos se les tomó la presión antes y después de

someterlos a un tratamiento, los resultados fueron los siguientes:
p.antes=c(120,124,130,118,140,128,140,135,126,130,126,127)
p.despues=c(128,131,131,127,132,125,141,137,118,132,129,135)
Verifique a un nivel α = 0.05, si las medias poblacionales son diferentes.
Solución!
En R, tenemos lo siguiente:
t.test(p.antes,p.despues,paired=T)
El resultado es el siguiente:
Paired t-test
data: p.antes and p.despues

t = -1.0896, df = 11, p-value = 0.2992
alternative hypothesis: true difference in means is not equal to 0
-5.536492 1.869825
sample estimates:
mean of the differences
-1.833333
Como p−valor no es menor que 0.05, podemos concluir a un nivel α = 0.05, que no hay
diferencias entre los dos tratamientos.
4.2.11. Test de bondad de ajuste
En el desarrollo de los test de hipótesis vistos hasta ahora, nos hemos enfocado en con-
trastes de hipótesis acerca de un parámetro o diferencias de parámetros de la población;
µ, p, µ1 − µ2 , p1 − p2 , σ12 /σ22 . Los test de bondad de ajuste proporcionan información
para determinar si una población tiene una distribución teórica específica o no. Aquí,
el contraste de hipótesis es el siguiente:
H 0 : F = F0 vs Ha : F ̸= F0
Test chi-cuadrado
El test chi-cuadrado de bondad ajuste es una herramienta my simple y versátil que

determina cuantitativamente si una variable aleatoria realmente debería ser modelada
con una distribución particular. La forma de proceder del test es realizar particiones de
los datos en categorías, y calcula las frecuencias en cada categoría, similar a la construc-
ción de un histograma. De aquí, compara las frecuencias observadas con las esperadas
las cuales resultan de un perfecto ajuste de la distribución propuesta. Posteriormente,
se calcula la estadística de prueba que sigue una distribución chi-cuadrada con n − 1
grados de libertad.
∑
n
(oi − ei )2
2
χ =
i=1
oi
donde oi corresponde a las frecuencias observadas, y ei son las frecuencias esperadas.

Ejemplo: usaremos los datos de la base survey de la librería MASS de R, que corre-
sponden a 237 observaciones provenientes de una encuesta a estudiantes de estadística
de una Universidad en Australia.
Consideraremos la variable EJERCICIO (Exer) con los niveles: Freq, Some, y None.
Verificaremos si esta variable proviene de una población Multinomial con parámetros
0.5, 0.1 y 0.4 respectivamente, usando α = 0.05
Solución!
library(MASS)
tbl=table(survey$Exer)
tbl
En R, aplicamos la siguiente función.
chisq.test(tbl,p=c(0.5,0.1,0.4))
El resultado es el siguiente.
Chi-squared test for given probabilities
data: tbl
Con un nivel de significancia de α = 0.05, no podemos rechazar la hipótesis nula. Es

decir, los datos provienen de una multinomial con probabilidades p = (0.5, 0.1, 0.4),
respectivamente.
4.2.12. Algunas pruebas no paramétricas
Gran parte de los procedimientos descritos anteriormente de test de hipótesis, consid-

eran que las observaciones provienen de poblaciones normales. En muchas situaciones
este supuesto no se cumple. Una alternativa a la no normalidad de los datos, es proceder
a implementar test no paramétricos.
Test de Kolmogorov-Smirnov
El test de Kolmogorov-Smirnov es una alternativa al test chi-cuadrado cuando los datos

son continuos. Este test nos permite contrastar si un conjunto de datos muestrales
proviene de una población específica. En particular, se implementa para chequear nor-
malidad en un conjunto de datos.
En general, el contraste es el siguiente.
H 0 : F = F0 vs Ha : F ̸= F0
En R, usamos la función ks.test.
A manera de ejemplo, generemos 100 observaciones de una población normal con me-
dia 170 y desviación estándar 8. Note que estas pueden ser muestras de estaturas de
individuos. Veamos si los datos generados realmente provienen de una normal.
x=rnorm(100,170,8)
ks.test(x, "pnorm",170,8)
El resultado es el siguiente
One-sample Kolmogorov-Smirnov test
data: x
D = 0.07986, p-value = 0.5464
alternative hypothesis: two-sided
En este caso, no rechazamos la hipótesis de normalidad a un nivel α = 0.05.
Cuando no conocemos los parámetros de la distribución con la que deseamos contrastar,

podemos usar en R la función fitdistr. Esta función ajusta los datos vía máxima
verosimilitud a una distribución univariada, entre ellas tenemos las distribuciones: beta,
cauchy, chi-cuadrado, exponencial, f, gamma, geométrica, log-normal, logística, bino-
mial negativa, normal, Poisson, t, y weibull.
Para nuestros datos, si aplicamos esta función al vector de observaciones X, tenemos:
fitdistr(x,"normal")
mean sd
170.4975042 8.5821661
( 0.8582166) ( 0.6068508)
Podemos notar que los parámetros estimados son muy cercanos a los reales.
Test de Shapiro-Wilk
Este test se usa para contrastar normalidad de un conjunto de datos. Ésta es una
alternativa más potente que la prueba de Kolmogorov-Smirnov.
Ejemplo: Suponga los datos del ejemplo donde se mide las concentraciones de cortisol
en dos grupos de mujeres antes de dar a luz. Recuerde que al grupo 1 se le practicó una
operación cesárea de urgencias después de inducido el parto. Las del grupo 2, dieron
a luz mediante operación cesárea o vía vaginal después de presentarse el trabajo de
parto expontáneamente. Verifiquemos normalidad en estos conjuntos de datos usando
α = 0.05.
grupo1=c(411,466,432,409,381,363,449,483,438,381)
grupo2=c(584,553,516,688,650,590,574,700,831,688,478,689)
Solución!
Las instrucciones son las siguientes
shapiro.test(grupo1)
shapiro.test(grupo2)
Los resultados son los siguientes
Shapiro-Wilk normality test
data: grupo1
W = 0.96658, p-value = 0.8575
data: grupo2
W = 0.95245, p-value = 0.673
Con nivel α = 0.05, no rechazamos la normalidad en ambos conjuntos de datos.
Test de Mann-Whitney
La prueba U de Whitney, también llamada de Mann-Whitney-Wilcoxon, prueba de

suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney, es una prueba no
paramétrica con la cual se identifican diferencias entre dos poblaciones basadas en el
análisis de dos muestras independientes. Es la versión no paramétrica del test t-Student
de diferencias de medias.
En R usamos la función
wilcox.test(x, ...)
Esta función lleva a cabo un test de Wilcoxon para una y dos muestras sobre vectores
de datos.
Ejemplo: Usemos el ejemplo que aparece en el help de R. Los datos corresponden a

constantes de permeabilidad de la membrana chorioamnion en humanos (una membrana
placentaria) medida a las 12 y 26 semanas de edad gestacional. Usaremos α = 0.05 para
chequear la alternativa, mayor permeabilidad de la membrana chorioamnion para el ini-
cio del embarazo. Asuma que los datos no provienen de poblaciones normales.
Solución!
Los datos son los siguientes
x=c(0.80, 0.83, 1.89, 1.04, 1.45, 1.38, 1.91, 1.64, 0.73, 1.46)
y=c(1.15, 0.88, 0.90, 0.74, 1.21)
El procedimiento es el siguiente
wilcox.test(x,y, alternative = "g")
Tenemos el siguiente resultado
Wilcoxon rank sum test
data: x and y
W = 35, p-value = 0.1272
alternative hypothesis: true location shift is greater than 0
Como p−valor no es menor que 0.05, no rechazamos H0 . Es decir, No hay evidencia su-
ficiente para asumir que la constante de permeabilidad sea mayor al inicio del embarazo.
Si tenemos muestras pareadas, pequeñas y no normales, el procedimiento es similar.

Únicamente hay que especificar el pareo en la función wilcox.test.
Ejemplo: Usemos el ejemplo que aparece en el help de R. Los datos corresponden a

medidas de factor de escala de depresión de Hamilton en 9 pacientes con ansiedad y
depresión mixta, tomada en la primera (x) y la segunda visita (y) después de la ini-
ciación de una terapia (administración de un tranquilizante). Asuma que los datos no
provienen de poblaciones normales. Use α = 0.05.
Solución!
Los datos son los siguientes
x=c(1.830,0.500,1.620,2.48,1.68,1.88,1.55,3.06,1.30)
y=c(0.878,0.647,0.598,2.05,1.06,1.29,1.06,3.14,1.29)
El procedimiento es el siguiente
wilcox.test(x,y,paired=TRUE,alternative="g")
Tenemos el siguiente resultado
Wilcoxon signed rank test
data: x and y
V = 40, p-value = 0.01953
alternative hypothesis: true location shift is greater than 0
Como p−valor es menor que 0.05, rechazamos H0 . Es decir, la terapia mejora los niveles
de depresión.
Test de independencia
Dos variables aleatorias X e Y son llamadas independientes si la distribución de prob-

abilidad de una de las variables no es afectada por la presencia de la otra.
Asuma que oij es la frecuencia observada de eventos que pertenecen a ambos, la i−ésima
categoría de X y la j−ésima categoría de Y . Además, suponga que eij son las corre-
spondientes frecuencias esperadas si X e Y son independientes. La hipótesis nula de
supuesto de independencia es rechazada si el p−valor obtenido es menor que en nivel
de significancia dado.
∑ (oij − eij )2
χ2 =
i,j
eij
Ejemplo: usaremos los datos de la base survey de la librería MASS de R, que corre-
sponden a 237 observaciones provenientes de una encuesta a estudiantes de estadística
de una Universidad en Australia.
Tenemos dos variables de interés, FUMA (Smoke) con los niveles: Heavy, Regul, Occas
y Never, y la variable EJERCICIO (Exer) con los niveles: Freq, Some, y None.
library(MASS)
tbl=table(survey$Smoke, survey$Exer)
tbl
Debemos chequear si el hábito de fumar es independiente del nivel de ejercicios de los

estudiantes usando α = 0.05.
Solución!
En R, aplicamos la siguiente función.
chisq.test(tbl)
El resultado es el siguiente.
Pearson’s Chi-squared test
data: tbl
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect
Note que nos aparece un mensaje de alerta. Esto es debido a que en algunas celdas las
frecuencias son muy pequeñas. Podemos solucionar esto agrupando algunas columnas.
Por ejemplo:
ctbl = cbind(tbl[,"Freq"], tbl[,"None"] + tbl[,"Some"])

ctbl
Ahora, realizando nuevamente la prueba, tenemos:
chisq.test(ctbl)
Pearson’s Chi-squared test
data: ctbl
No se rechaza H0 : Independencia, a un nivel α = 0.05. Por lo que podemos concluir

que el hábito de fumar entre los estudiantes es independiente del nivel de ejercicios de
los mismos.
Test exacto de Fisher
El test exacto de Fisher es una prueba de significancia estadística muy usada cuando las
frecuencias observadas son muy pequeñas. Se usa en el análisis de tablas de contingen-
cia en vez de usar el test chi-cuadrado. El test calcula todas las posibles combinaciones
de los N valores en la tabla, creando una distribución de posibles valores, y calculando
cuán extremos son los datos observados respecto a la distribución exacta, es decir, cuán
extrema es la tabla observada.
En R usamos la función fisher.test para llevar a cabo la prueba. Realizaremos la

prueba con la tabla de contingencia del ejemplo anterior.
fisher.test(tbl)
Fisher’s Exact Test for Count Data
data: tbl
p-value = 0.4138
alternative hypothesis: two.sided
A un nivel α = 0.05, no rechazamos la hipótesis de independencia. Por tanto, cor-

roboramos que el hábito de fumar entre los estudiantes es independiente del nivel de
ejercicios de los mismos.
Capítulo 5
Introducción al Análisis de Regresión
El análisis de regresión es usado para explicar o modelar la relación entre una variable
Y , llamada respuesta o variable dependiente, y uno o más predictores, variables inde-
pendientes o explicativas, X1 , . . . , Xp . Cuando p = 1 es llamado regresión simple, pero
cuando p > 1 el modelo es llamado regresión múltiple o en algunos casos regresión multi-
variada. Cuando hay más de un Y , entonces es llamado Regresión múltiple multivariada.
El análisis de regresión tiene diferentes objetivos, entre ellos tenemos:
Predicción de observaciones futuras.

Evaluación del efecto de, o relación entre, variables explicativas y variable re-
spuesta.
Una descripción general de la estructura de los datos.
5.0.13. Correlación lineal
El análisis de correlación permite cuantificar el grado de asociación lineal entre variables

continuas, indica la fuerza y dirección de la relación lineal entre dos o más variables. La
presencia de correlación entre las variables indica la posibilidad de construir un modelo
de regresión.
Existen diferentes tipos de correlación, la correlación simple, la correlación múltiple y

la correlación parcial. Utilizaremos la correlación simple cuando contemos con una sola
variable predictora para explicar una respuesta, y los coeficientes de correlación parcial
y múltiple cuando se tienen varios predictores.
La siguiente figura muestra algunos ejemplos de diagramas de dispersión. Por medio de

este diagrama podemos verificar la existencia y la dirección de la correlación entre las
116
CAPÍTULO 5. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN 117
variables.
Cuanta mayor correlación haya entre dos variables en la representación de un diagrama

de dispersión, más próximos a la recta estarán los valores.
5.0
2.0
4.0
1.0
y
y
3.0
0.0
2.0
−1.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
20
10
15
8
10
6
y
y
4
5
2
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
Figura 5.1: Diagramas de dispersión
Correlación lineal simple
Es importante detectar si las variables en estudio están relacionadas linealmente, y

conocer cuál es la dirección de dicha asociación.
La relación puede ser lineal positiva, es decir, entre más aumente los valores de una de
las variables, la otra también aumentará. Si la relación es lineal negativa, ocurre que
entre más aumenta los valores de una de ellas, la otra disminuirá.
Luego de visualizar la relación entre las variables, una buena manera de cuantificarla
es mediante la covarianza
∑n
i=1 (xi − x) (yi − y)
Cov(X, Y ) = ,
N −1
donde N es el número de observaciones.

Sin embargo, la covarianza no es una medida útil para comparar el grado de asociación
lineal entre distintos pares de variables, ya que depende de las escalas de medida de las
variables. La solución está en estandarizarla y es de aquí donde surgen los coeficientes
de correlación.
Existen diferentes coeficientes de correlación, por ejemplo, coeficiente de Pearson (r),

Rho de Spearman (rs ) y la Tau de Kendall (τ ).
Note lo siguiente:
Todos los coeficientes varían entre −1 y 1. Si el valor del coeficiente es cercano a

−1, decimos que hay una correlación negativa entre las variables; si el coeficiente
es cercano a 1, decimos que las variables están correlacionadas positivamente; y
si el coeficiente es cercano a 0, decimos que no hay correlación entre las variables.
Se utilizan como una medida de la fuerza de asociación: valores ±0.1 representan

pequeñas asociación, ±0.3 asociación mediana, ±0.5 asociación moderada, ±0.7
gran asociación y ±0.9 asociación muy alta.
Por otro lado,
La correlación de Pearson funciona bien con variables cuantitativas que se dis-

tribuyan normal.
La correlación de Spearman se utiliza para datos ordinales o de intervalo que no

satisfacen la condición de normalidad. (usualmente tiene valores muy parecidos a
la de Pearson).
La correlación de Kendall es una medida no paramétrica para el estudio de la

correlación. Debemos utilizar este coeficiente en vez de la de Spearman cuando
tengamos un conjunto de datos pequeño y muchas puntuaciones estén en el mismo
nivel.
Coeficiente de Pearson
∑n
(xi − x) (yi − y)
r = √∑ i=1
2 ∑n
i=1 (xi − x) i=1 (yi − y)
n 2
Coeficiente de Spearman ∑
6 d2
rs = 1 − ,
n(n2 − 1)
donde d es la distancia entre los rangos (X menos Y ) y n es el total de datos.
Coeficiente de Kendall
C −D
τ= ,
1
2
− 1)
n(n
donde C es el número de pares concordantes, aquellos en los que el rango de la segunda
variable es mayor que el rango de la primera variable, y D el número de pares dis-
cordantes, cuando el rango de la segunda es igual o menor que el rango de la primera
variable.
En R calculamos la covarianza con la función
cov(x, y = NULL, use = "everything",

method = c("pearson", "kendall", "spearman"))
Además, los anteriores coeficientes de correlación se obtienen con la función
cor(x, y = NULL, use = "everything",

method = c("pearson", "kendall", "spearman"))
Las cuales calculan respectivamente la covarianza y la correlación de los vectores X y

Y . Si X e Y son matrices, entonces la función calcula las covarianzas o correlaciones
entre las columnas de X y las columnas de Y .
Podemos chequear la significancia de la correlación a través del siguiente juego de

hipótesis.
H0 : r = 0 vs Ha : r ̸= 0
En R usamos la función cor.test() para estudiar la significación estadística del coe-

ficiente y concluir sobre la posible existencia de relación lineal entre las variables.
Ejemplo: usaremos la base de datos gene.datos la cual contiene 18 mediciones

de expresión medidos durante un tiempo, de dos genes en las mismas condiciones de
tratamiento. Veamos si hay correlación entre los dos genes estudiados.
Solución! Hacemos la lectura de los datos
datos=read.table(file.choose(),header=T) # buscamos el archivo gene.datos

datos
attach(datos)
Veamos el gráfico de dispersión de estas dos variables

plot(gene1,gene2)
1.0
0.5
gene2
0.0
−0.5
−1.0
−1.0 −0.5 0.0 0.5

gene1
Con el gráfico parece haber una correlación lineal entre las variables. Usemos la función
cor.test para calcular la correlación de Pearson (por defecto), y chequear la signifi-
cancia de la misma.
cor.test(gene1,gene2)
Pearson’s product-moment correlation
data: gene1 and gene2

t = 7.5105, df = 16, p-value = 1.246e-06
alternative hypothesis: true correlation is not equal to 0
0.7071560 0.9556856
sample estimates:
cor
0.8826268
Notamos que r = 0.883, lo que nos indica una correlación positiva y fuerte entre los dos
genes. Además, como p−valor es menor que 0.05, podemos decir que esta correlación
es significativamente diferente de cero con un nivel α = 0.05.
De igual forma, podemos chequear la correlación de Spearman. La instrucción es la

siguiente
cor.test(gene1,gene2,method="spearman")
Tenemos lo siguiente
Spearman’s rank correlation rho
data: gene1 and gene2

S = 192, p-value = 8.498e-05
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.8018576
Aquí, la correlación es rs = 0.802 y p−valor es menor que 0.05. Los que nos indica
asociación lineal entre las expresiones de los dos genes a un nivel α = 0.05.
Correlación parcial
La correlación parcial es una correlación entre dos variables en la que se controla el
efecto de otras variables auxiliares que pueden modificar la verdadera relación entre las
dos primeras.
La correlación parcial es entonces un coeficiente que nos da una idea sobre la relación
lineal existente entre dos variables pero ajustada a los efectos lineales que sobre las
mismas puedan tener otra o más variables que intervengan. En R usaremos la función
pcor() del paquete ppcor.
Ejemplo: usaremos los siguientes datos del Help de R.

y.data=data.frame(
hl=c(7,15,19,15,21,22,57,15,20,18),
disp=c(0.000,0.964,0.000,0.000,0.921,0.000,0.000,1.006,0.000,1.011),
deg=c(9,2,3,4,1,3,1,3,6,1),
BC=c(1.78e-02,1.05e-06,1.37e-05,7.18e-03,0.00e+00,0.00e+00,0.00e+00,
4.48e-03,2.10e-06,0.00e+00)
)
Ahora, veamos la matriz de correlación parcial de estas variables usando el coeficiente

de Pearson.
pcor(y.data)
$estimate
hl disp deg BC
hl 1.0000000 -0.6720863 -0.6161163 0.1148459
disp -0.6720863 1.0000000 -0.7215522 0.2855420
deg -0.6161163 -0.7215522 1.0000000 0.6940953
BC 0.1148459 0.2855420 0.6940953 1.0000000
$p.value
hl disp deg BC
hl 0.00000000 0.06789202 0.10383620 0.78654997
disp 0.06789202 0.00000000 0.04332869 0.49299871
deg 0.10383620 0.04332869 0.00000000 0.05615021
BC 0.78654997 0.49299871 0.05615021 0.00000000
$statistic
hl disp deg BC
hl 0.0000000 -2.2232666 -1.916030 0.2831875
disp -2.2232666 0.0000000 -2.552768 0.7298173
deg -1.9160295 -2.5527682 0.000000 2.3617433
BC 0.2831875 0.7298173 2.361743 0.0000000
$n
[1] 10
$gp
[1] 2
$method
[1] "pearson"
5.0.14. Modelo lineal
Si tenemos tres variables explicativas X1 , X2 , X3 , el modelo es expresado de la siguiente

forma.
Y = β0 + β1 X1 + β2 X2 + β3 X3 + ε
donde βi , i = 0, 1, 2, 3 son parámetros desconocidos. β0 es llamado intercepto. Así, el
problema de regresión se reduce a la estimación de los parámetros.
Inicialmente nos ocuparemos del modelo de regresión lineal simple, donde la respuesta
Y se relaciona linealmente con la variable independiente X a través de la ecuación
Y = β0 + β1 X + ε (5.1)
donde β0 y β1 son el intercepto y la pendiente de la recta respectivamente, y ε es una

variable aleatoria que se supone está distribuida con E[ε] = 0 y V [ε] = σ 2 . Además, los
εi son no-correlacionados, es decir que, Cov[εi ; εj ] = 0; ∀(i, j); i ̸= j; i = 1, . . . n. Por
su parte, σ 2 se conoce como varianza del error o varianza residual.
Note que en un modelo lineal los parámetros entran linealmente, los predictores no
tienen que ser lineales. Por ejemplo,
Y = β0 + β1 log X + ε
es lineal, pero
Y = β0 + β1 X β2 + ε
no es lineal.
La respuesta media en cualquier valor fijo de la variable regresora será:
E[Y |X = x] = µy|x
= E[β0 + β1 X + ε]
= β0 + β1 X + E[ε]
= β0 + β1 X.
La varianza de Y para cualquier valor de X es:

V [Y |X = x] = σy|x
2
= V [β0 + β1 X + ε]
= V [ε]
= σ2.
De aquí, la verdadera recta de regresión es:
µy|x = β0 + β1 X.
Esta es una línea recta de valores promedios, es decir, la altura de la línea de regresión
en cualquier valor de X no es más que el valor esperado de Y para ese valor de X.
La pendiente β1 es el cambio de la media de Y por una cambio unitario de X. Además,

la variabilidad de Y en cualquier valor particular de X queda determinada por la vari-
anza del componente de error aleatorio del modelo ε, es decir, por σ 2 .
Esto implica que hay una distribución de valores de Y en cada valor de X y que la
varianza de dicha distribución es igual en cada valor de X.
Algunas características del modelo de regresión lineal
La respuesta Yi en el i-ésimo ensayo o prueba, es la suma de dos términos, a saber:

un término constante, β0 + β1 Xi y un término aleatorio, εi .
Como E[εi ] = 0, entonces se tiene que, E[Y i] = β0 + β1 Xi (constante), por lo

que, la respuesta Yi cuando el nivel de X es Xi , viene de una distribución de
probabilidad cuya media es: E[Y i] = β0 + β1 Xi , y por lo tanto la función de
regresión del modelo es: E[Y ] = β0 + β1 X
debido a que la función de regresión relaciona la media de la distribución de
probabilidad de Y para X dado a un nivel.
La respuesta Yi en el i-ésimo nivel de X, excede o cae cerca del valor de la función

de regresión, por una cantidad de tamaño εi .
Los εi , se asumen que tienen varianza constante σ 2 , por lo tanto, se sigue que
la respuesta Yi tiene la misma varianza, es decir, V ar[Y i] = σ 2 . De donde el
modelo (5.1), asume que la distribución de probabilidad de la variable respuesta Y
tiene la misma varianza constante σ 2 , independientemente del valor de la variable
predictora X.
Los términos de error εi , se asume que son no-correlacionados, es decir, la entrada

en cualquier nivel de X, no tiene efecto sobre el término de error de cualquier
otro nivel.
Como εi y εj son no-correlacionados, también lo son Yi y Yj .
Estimación por mínimos cuadrados
Usualmente los parámetros del modelo son estimados usando mínimos cuadrados. Éste
minimiza la suma de cuadrados de los errores del modelo de regresión. La estimación
por mínimos cuadrados es una buena selección, pero si los errores están correlaciona-
dos o tienen varianzas diferentes, hay mejores alternativas. Incluso, si los errores no se
distribuyen normal, entonces estimadores sesgados o no lineales pueden funcionar mejor.
Situaciones a considerar
Cuando los errores están correlacionados o tienen varianzas diferentes, se debe

considerar Mínimos Cuadrados Generalizados.
Cuando la distribución de los errores es de cola larga, estimadores robustos son

recomendados.
Cuando los predictores son altamente correlacionados (colineales), estimadores

sesgados son recomendados.
Dado un conjunto de observaciones o datos (X1 , Y1 ), . . . , (Xn , Yn ), se trata de hallar

valores apropiados de β0 y β1 , que se ajusten lo mejor posible a este conjunto de datos.
El método de mínimos cuadrados ordinario (ordinary least squares method (OLS)),

considera la desviación de Yi a su valor esperado, es decir,
Yi − (β0 + β1 Xi ).
Para hallar a β0 y β1 , se considera la suma de las n-desviaciones al cuadrado, denotada

por,
∑
n
Q(β0 , β1 ) = [Yi − (β0 + β1 Xi )]2 .
i=1
Las estimaciones de β0 y β1 , son aquellos valores βb0 y βb1 , que minimizan la cantidad Q
para las observaciones muestrales (X1 , Y1 ), . . . , (Xn , Yn ).
Para hallar βb0 y βb1 , se pueden usar procesos de búsqueda numérica, hasta hallar valores
de β0 y β1 que minimicen a Q, o bien, mediante procesos analíticos, cuando el modelo
de regresión propuesto no es tan complejo matemáticamente.
Mediante un acercamiento analítico, se tiene que derivando parcialmente la cantidad Q

con respecto a β0 y β1 e igualando a cero, se obtienen las siguientes ecuaciones, también
llamadas Ecuaciones Normales:
∑
n ∑
n
Yi = nβb0 + βb1 Xi ,
i=1 i=1
∑
n ∑
n ∑
n
Xi Yi = βb0 Xi + βb1 Xi2 ,
i=1 i=1 i=1
y resolviendo simultáneamente las ecuaciones anteriores, para βb0 y βb1 , se obtienen los
estimadores de mínimos cuadrados ordinario:
βb0 = Ȳ − βb1 X̄,
∑
(Xi − X̄)(Yi − Ȳ )
βb1 = ∑
(Xi − X̄)2
Sxy
=
Sxx
A las cantidades, Sxx y Sxy se les llama: suma corregida de cuadrados de X y suma
corregida de productos cruzados de X e Y , respectivamente.
El modelo de regresión lineal simple ajustado es:
ŷ = βb0 + βb1 X,
el cual representa una estimación de la media de Y para un valor específico de X, es

decir:
\
ŷ = βb0 + βb1 X ⇐⇒ E(Y |X) = βb0 + βb1 X.
Residuales
Se llama residual a la diferencia entre el valor observado yi y su valor estimado, ŷi , es

decir,
ei = yi − ŷi = yi − (βb0 + βb1 xi ).
Para i = 1, . . . , n.
NOTA: Es importante notar la diferencia entre los residuos , ei , y los errores del mod-
elo conceptual, εi . Note que los ei son observados y juegan un papel importante en la
validación de los supuestos de un modelo de regresión, pero los εi no son observados.
Consideraciones adicionales
Bajo las condiciones del modelo de regresión lineal simple, los estimadores obtenidos
mediante OLS β0 y β1 son insesgados y tienen mínima varianza.
La suma de residuales en cualquier modelo

∑ de∑regresión que contiene un intercepto
β0 es siempre igual a cero, es decir, ei = (yi − ŷi ) = 0.
La suma∑ de valores
∑ observados yi es igual a la suma de valores ajustados ŷi , es
decir; yi = ŷi .
La línea de regresión de mínimos cuadrados, siempre pasa a través del centroide

de los datos, es decir, a través de (x̄ , ȳ).
La suma de residuales ∑ ponderada por los correspondientes valores de las xi , es

siempre cero, es decir, xi ei = 0.
La suma de residuales
∑ por los correspondientes valores ajustados de yi , es siempre
cero, es decir, ŷi ei = 0.
Supuestos del modelo

Para cada xi , valor fijo de X, se cumple la ecuación yi = β0 + β1 xi + εi , donde β0 y β1
son constantes desconocidas. Las hipótesis básicas del modelo son:
Incorrelación de los residuos cor(εi , εj ) = 0. Cualquier par de errores εi y εj son

independientes.
Media cero de los residuos E (εi ) = 0.
Varianza constante de los residuos V ar (εi ) = σ 2 .
Normalidad de los residuos N (0, σ 2 ).
Como consecuencia:
Para cada valor xi de la variable aleatoria X,
(Y | X = xi ) ∼ N (β0 + β1 xi , σ 2 ).
Las observaciones yi de la variable Y son independientes.
Tamaño del efecto
El coeficiente de determinación R2 es una medida de la proporción de la variabilidad

explicada por el modelo ajustado. Con esta medida podemos saber cuánto de la vari-
abilidad de Y es explicada por las X. Esta medida resulta de elevar al cuadrado el
coeficiente de correlación de Pearson.
NOTA: el coeficiente de determinación tiende a aumentar a medida que aumenta el

número de variables predictoras en el modelo, por tanto, es necesario en estos casos cal-
cular el tamaño del efecto mediante el coeficiente de determinación ajustado o corregido
(R̄2 ) el cual mide el porcentaje de variación de la variable dependiente, pero teniendo
en cuenta el número de variables incluidas en el modelo.
n−1
R̄2 = 1 − [1 − R2 ],
n−k−1
donde n es el tamaño de la muestra y k el número de variables explicativas.
Inferencia
Estimación de σ 2
La varianza de los términos de error εi , es decir, V [εi ] = σ 2 , en un modelo de regresión

lineal simple necesita ser estimada para obtener una indicación de la variabilidad de las
distribuciones de probabilidad de Y para los distintos valores de X.
Además, es necesaria para hacer inferencias acerca de la función de regresión y para

hacer predicciones acerca de los valores de la respuesta Y .
Al igual que la varianza muestral S 2 , como estimador de σ 2 en una población, en el caso

del modelo de regresión lineal simple, se calcula la suma de cuadrados de las desviaciones
[i ]; ahora cada yi proviene de una
de yi alrededor de su propia media estimada, ŷi = E[ŷ
distribución de probabilidad distinta con medias diferentes que dependen del nivel de
X, es decir de Xi . En este caso la suma de cuadrados apropiada es:
∑
n ∑
n
SSE = (yi − ŷi )2 = e2i ,
i=1 i=1
llamada suma cuadrática de errores (o residuales).
La SSE tiene asociada n − 2 grados de libertad (gl), pues se pierden 2 (gl) al estimar
a β̂0 y a βb1 , para obtener a ŷi . De lo anterior se obtiene que la media cuadrática de
errores apropiada es:
∑
n ∑
n
(yi − ŷi )2 e2i
SSE i=1 i=1
M SE = = = .
n−2 n−2 n−2
Se puede demostrar que MSE, es un estimador insesgado de σ 2 para el modelo de RLS,

es decir que,
σ̂ 2 = M SE,
y además,
E(M SE) = σ.
Inferencia para los parámetros del modelo
Para hacer inferencia acerca de los parámetros del modelo de regresión lineal simple,
es necesario suponer que los errores del modelo εi siguen o tienen una distribución
normal. Con esta suposición adicional, se tiene el llamado modelo de regresión lineal
simple (RLS) normal (o modelo de RLS con errores normal), definido como:
yi = β0 + β1 xi + εi , (5.2)
con los supuesto: εi i.i.d. ∼ N (0, σ 2 ).
De lo anterior se sigue que las Yi′ s, son variables aleatorias independientes distribuidas
normales con media E[Yi ] = β0 + β1 Xi y varianza V ar[Yi ] = σ 2 , es decir,
Yi |Xi i.i.d. ∼ N (β0 + β1 Xi , σ 2 )
Inferencia para β1
Cuando hablamos de distribución muestral de βb1 , nos referimos a los diferentes valores
que βb1 podría tomar a partir de muestreos repetidos, con los niveles de la variable
regresora X constantes de muestra a muestra.
Como βb1 es combinación lineal de las Yi′ s y las Yi′ s son normalmente distribuidas,
entonces la distribución muestral de βb1 también es normal con media E[βb1 ] = β1 y

varianza dada por: V ar[βb1 ] = Sσxx , así,
2
( )
σ2 βb1 − β1
βb1 ∼ N β1 , σβ2b1 = =⇒ √ ∼ N (0, 1)
Sxx
V ar[βb1 ]
Una estimación de la varianza muestral de βb1 , es decir, una estimación para V ar[βb1 ],
está dada por:
\ b2
σ
V ar[βb1 ] = = Sβ2b1 , (5.3)
Sxx
luego, se tiene que la estadística estudentizada,
βb − β1 βb1 − β1
√1 = ∼ tn−2
\ b Sβb1
V ar[β1 ]
I.C para β1
De lo anterior, se tiene que
[ ]
1 − α = P βb1 − t(1−α/2,n−2) Sβb1 ≤ β1 ≤ βb1 + t(1−α/2,n−2) Sβb1
Ahora, un I.C del (1 − α) % para β1 es:

√
M SE
βb1 ± t(1−α/2,n−2)
Sxx
Test de hipótesis para β1
Un test t importante sobre la pendiente es el siguiente
H0 : β1 = 0 vs Ha : β1 ̸= 0
El estadístico de prueba es el siguiente
βb1
Tc = √ ,
M SE
Sxx
y cuya regla de decisión con dicha estadística de prueba es:

rechazo H0 si |tc | > t(1−α/2;n−2) .
El no rechazar H0 sugiere que no hay relación lineal entre Y y x.

Inferencia para β0
Igual que para el caso de βb1 , βb0 también es combinación lineal de las Yi′ s y por tanto
también tiene distribución normal con media y varianza como sigue:
( )
βb0 ∼ N β0 , V ar[βb0 ] ,
con varianza dada por:

[ ]
1 X̄ 2
V ar[βb0 ] = σ 2
+ ,
n Sxx
y la estimación de dicha varianza está dada por:
[ 2
]
\ 1 X̄
V ar[βb0 ] = M SE + = Sβ2b0
n Sxx
I.C para β0
De lo anterior, se tiene que la estadística estudentizada,
βb0 − β0
∼ tn−2 ,
Sβb0
y un I.C del (1 − α) % para β0 es:

√ [ ]
1 X̄ 2
βb0 ± t(1−α/2,n−2) M SE + ,
n Sxx
Test de hipótesis para β0
Un test t importante sobre la pendiente es el siguiente
H0 : β0 = 0 vs Ha : β0 ̸= 0
El estadístico de prueba es el siguiente
βb0
Tc = √ [ ],
X̄ 2
M SE n1 + Sxx
y cuya regla de decisión con dicha estadística de prueba es:

rechazo H0 si |tc | > t(1−α/2;n−2) .
I.C para la respuesta media µy = E[Y ]
En problemas de análisis estadístico que involucran el ajuste de modelos de regresión,

un objetivo común es estimar la media para una o más distribuciones de probabilidades
de la variable respuesta Y .
Sea Xh : el nivel de la variable regresora X para el cual se desea estimar la respuesta

media. Xh , puede ser un valor que ha ocurrido en la muestra o puede ser algún otro
valor de la variable predictora dentro del alcance del modelo o rango de X.
La respuesta media cuando X = Xh se denota por:
µy = E[Yh ] = β0 + β1 Xh .
Un estimador puntual de dicha respuesta media es:

\
cy = E[Y
µ b b
h ] = β0 + β1 Xh .
Distribución muestral de Ybh
La distribución muestral de Ybh es normal con los siguientes parámetros:
Ybh = βb0 + βb1 Xh ∼ N (E[Ybh ], V ar[Ybh ]),
en donde,
E[Ybh ] = E[βb0 + βb1 Xh ] = β0 + β1 Xh
y
[ ]
b b b 2 1 (Xh − X̄)2
V ar[Yh ] = V ar[β0 + β1 Xh ] = σ +
n Sxx
Ahora tenemos la distribución muestral de la siguiente variable estudentizada
Ybh − µyh
∼ t(n−2) , con
SYbh
√ [ ]
1 (Xh − X̄)2
SYbh = M SE +
n Sxx
de donde un I.C del (1 − α) % para µyh = E[Ybh ] es:
Ybh ± t(1−α/2;n−2) SYbh

Predicción e intervalo de predicción (I.P) para nuevas observaciones Ynew
Ahora se considera la predicción de una nueva observación Ynew que corresponde a un

nivel dado de X. Sea Xh el nivel de la variable regresora X en la nueva prueba o ensayo
a realizar y sea Yh(new) la nueva observación asociada a Xh .
Observación: La diferencia entre la estimación de la respuesta media µY = E[Yh ] y

la predicción de una nueva observación para el nivel Xh de X, es que, en la primera se
estima la respuesta media de la distribución de Y dado X = Xh , es decir se estima a un
parámetro de una distribución de probabilidad; mientras que en la segunda, se predice
una salida (o resultado) individual de la distribución de Y dado X = Xh , es decir se
estima el valor de una variable aleatoria.
Un I.P del (1 − α) % para Yh(new) es:

√
Ybh ± t(1−α/2;n−2) V\
ar[ψh ]
donde V ar[ψh ] = V ar[Yh − Ybh ] es:

[ ]
\ 1 (Xh − X̄)2
V ar[ψh ] = M SE 1 + +
n Sxx
Al compara este I.P con el I.C para la respuesta media, se observa que el I.P es siempre
más ancho que el I.C para la respuesta media E[Y ] en X = Xh , esto debido a que el I.P
depende tanto del error del modelo como del error asociado a las observaciones futuras.
Análisis de varianza en modelos de RLS
Ahora se considera el modelo de regresión desde la perspectiva del análisis de varianza,

lo cual es importante para el análisis del modelo de regresión lineal múltiple (RLM) y
otros tipos de modelos estadísticos.
Partición de la suma total de cuadrados
El acercamiento del análisis de varianza se basa en la partición de sumas de cuadrados

y sus grados de libertad asociados con la variable respuesta Y .
La medida de variación de Y alrededor de su media muestral Ȳ es:

∑
n
SST = (Yi − Ȳ )2 ,
i=1
la cual se le llama suma total de cuadrados. Si todas las observaciones Yi son iguales
entonces la SST = 0. Entre más variación exista entre las Yi′ s, mayor será la SST.
Cuando se usa la variable predictora o regresora X, la variación que refleja la incertidum-

bre con respecto a la variable Y está dada por las diferencias entre las observaciones
Yi′ s y la línea de regresión ajustada Ŷi , es decir, por Yi − Ŷi .
La medida de variación presente en las observaciones Yi′ s cuando se tiene en cuenta

la variable regresora X, es la suma de desviaciones al cuadrado, la cual se denota por
SSE y está dada por:
∑
n
SSE = (Yi − Ŷi )2 ,
i=1
y a la cual se le llama, suma cuadrática de errores. Si todas las Yi′ s caen sobre la línea de
regresión ajustada, entonces SSE = 0. Entre mayor es la variación de las Yi′ s alrededor
de la línea de regresión ajustada, mayor es la SSE.
A la diferencia entre la SST y la SSE se le llama, suma cuadrática de regresión y se

denota por, SSR y est definida por:
∑
n
SSR = (Ŷi − Ȳ )2
i=1
La SSR es una medida de la parte de la variabilidad de las Yi′ s, la cual está asociada
con la línea de regresión ajustada.
De lo anterior, se obtiene la identidad fundamental del análisis de varianza, la cual está

dada por:
SST = SSR + SSE
Aquí,
SST: Variabilidad muestral total y tiene n − 1 grados de libertad,
SSR: Variabilidad explicada por el modelo o por las variables regresoras X y tiene 1
grado de libertad,
SSE: Variabilidad no explicada por el modelo o error y tiene n − 2 grados de libertad.

Medias cuadráticas o cuadrados medios
Las medias cuadráticas se obtienen como las SS divididas por sus respectivos grados de
libertad, es decir que
SST
M ST = n−1
: Cuadrado medio total,
SSR
M SR = 1
: Cuadrado medio de la regresión,
SSE
M SE = n−2
: Cuadrado medio del error.
Tabla resumen de análisis de varianza
Ahora se presenta la tabla resumen del análisis de varianza (o ANOVA) para el modelo
de RLS.
F.V G.L SS MS Est. F

Regresión 1 SSR MSR Fc = ∼ F(1,n−2)
M SR
M SE
Error n − 2 SSE MSE
Total n − 1 SST MST
Prueba de Significancia de la regresión
Para realizar la siguiente prueba de hipótesis, también llamada prueba de significancia

de la regresión, la hipótesis es la siguiente
H0 : β1 = 0 vs Ha : β1 ̸= 0,
se utiliza la siguiente estadística de prueba:

M SR
Fc = ∼ F(1,n−2)
M SE
La regla de decisión para la prueba de significancia de la regresión es:
Rechazar H0 si Fc > F(1,n−2) .
Si rechazamos H0 , es decir que existe una asociación lineal entre X y Y .

Ejemplo: usaremos la base de datos gene.datos la cual contiene 18 mediciones de

expresión medidos durante un tiempo, de dos genes en las mismas condiciones de
tratamiento. Construyamos un modelo de regresión y hagamos inferencias sobre sus
parámetros.
Solución! Hacemos la lectura de los datos
datos=read.table(file.choose(),header=T) # buscamos el archivo gene.datos

datos
attach(datos)
Ahora, usamos las funciones lm() y anova() de R para estimar los parámetros del
modelo y hacer un poco de inferencia sobre los mismos y sobre el modelo en general.
modelo=lm(gene2~gene1)
summary(modelo)
anova(modelo)
Los resultados son los siguientes:
Call:
lm(formula = gene2 ~ gene1)
Residuals:
Min 1Q Median 3Q Max
-0.3811 -0.2196 -0.0084 0.1492 0.7595
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.05541 0.07330 -0.756 0.461
gene1 0.97070 0.12925 7.511 1.25e-06 ***
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
Residual standard error: 0.311 on 16 degrees of freedom

Multiple R-squared: 0.779, Adjusted R-squared: 0.7652
F-statistic: 56.41 on 1 and 16 DF, p-value: 1.246e-06
y del análisis de varianza tenemos:
Analysis of Variance Table
Response: gene2
Df Sum Sq Mean Sq F value Pr(>F)

gene1 1 5.4542 5.4542 56.408 1.246e-06 ***
Residuals 16 1.5471 0.0967
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
Podemos notar que β1 es estadísticamente significativo en el modelo. Es decir, a un

nivel α = 0.05, rechazamos H0 y podemos asumir linealidad entre X e Y . De igual
forma, el modelo en conjunto es significativo.
plot(gene1,gene2)
abline(modelo)
segments(gene1,fitted(modelo),gene1,gene2,lty=2)
title("Modelo ajustado con los segmentos de linea de residuales")
Modelo ajustado con los segmentos de linea de residuales

1.0
0.5
gene2
0.0
−0.5
−1.0
−1.0 −0.5 0.0 0.5

gene1
Ahora calculemos un intervalo de confianza para los parámetros del modelo. En R

hacemos los siguiente:
confint(modelo)
El resultado se muestra a continuación

2.5 % 97.5 %
(Intercept) -0.2107882 0.09997012
gene1 0.6967126 1.24468796
Con lo anterior podemos notar la no significancia de β0 en el modelo y la significancia

de β1 a un nivel α = 0.05.
Los intervalos de confianza para la respuesta media y los intervalos de predicción para
la respuesta se pueden obtener usando el comando predict. Por ejemplo, el siguiente
código calcula y representa los dos tipos de intervalos.
gen1<-gene1[order(gene1)]
# Estimación respuesta media y predicciones para ciertos valores del gen1
pred.m<-predict(modelo,interval="confidence")
pred.p<-predict(modelo,interval="prediction")
# I.C para respuesta media e I.P (predicciones)
interval.pred<-pred.p[order(gene1),]
interval.conf<-pred.m[order(gene1),]
matriz<-as.matrix(cbind(gen1,interval.conf,interval.pred[,-1]))
matplot(matriz[,1],matriz[,-1],type="l",lty=c(1,2,2,3,3),lwd=2,
xlab= "Gen 1",ylab="Gen 2",col=c(1,2,2,4,4),main="Recta de regresión
con intervalos de confianza y de predicción del 95%",cex.main=1)
points(datos,type="p",pch=19)
legend(locator(1),c("Recta ajustada","Interv.Conf","interv.Pred"),
col=c(1,2,4),bty="n",lty=1:3,cex=0.8,lwd=2)
#Hacer click sobre gráfico resultante, donde se desea colocar
#leyenda de las líneas
Recta de regresión con intervalos de confianza y de

predicción del 95%
1.5
1.0
0.5
0.0
Gen 2
−0.5
−1.0
Recta
ajustada
−1.5
Interv.Conf
interv.Pred
−1.0 −0.5 0.0 0.5
Gen 1
Figura 5.2: Intervalo de confianza e intervalo de predicción
Diagnóstico gráfico del modelo: Luego de ajustar el modelo, y de validar la sig-

nificancia del mismo, se procede a realizar un diagnóstico del modelo para en verificar
si satisface las hipótesis básicas, las cuales son: linealidad entre las variables X e Y ;
para los errores del modelo, media cero, varianza constante, incorrelación, y normalidad.
El análisis de los residuos nos permitirá detectar deficiencias en la verificación de estas

hipótesis, así como descubrir observaciones anómalas o especialmente influyentes en el
ajuste.
Como primera herramienta diagnóstica del modelo, tenemos el qqplot, el cual nos per-
mite verificar la normalidad de los errores. Si es cierta la normalidad de los residuos,
los puntos deben estar alineados con la diagonal.
Una segunda herramienta importante es el gráfico de los residuos versus los valores
ajustados. Si los residuos están distribuidos alrededor del cero y el gráfico no presenta
ninguna tendencia, entonces el modelo se considera adecuado. Note que si se observa
una tendencia, estaríamos violando el supuesto de linealidad (lo cual sugiere alguna
transformación), y si se observa una nube de puntos en forma de embudo, podemos
tener problemas con el supuesto de homocedasticidad de varianzas.
El gráfico secuencial de residuos o el gráfico residuo versus el anterior, nos permite

chequear el supuesto de incorrelación entre los errores. Lo ideal es no observar tenden-
cias en este tipo de gráficos. De lo contrario, consideraremos usar modelos autocorrela-

cionados como los modelos de series de tiempo.
En R podemos usar la función plot() para chequear algunos supuestos del modelo.
plot(modelo)
Tenemos lo siguiente
Residuals vs Fitted Normal Q−Q

0.8
9 9
Standardized residuals
2
0.4
Residuals
18 18
1
0.0
0
−0.4
−1
16
16
−1.0 −0.5 0.0 0.5 −2 −1 0 1 2

Fitted values Theoretical Quantiles
Scale−Location Residuals vs Leverage

3
9
1.5
9
1
2
16 18 0.5
18
1.0
1
0
0.5
−1
Cook’s distance 16
0.0
0.5
−1.0 −0.5 0.0 0.5 0.00 0.05 0.10 0.15 0.20 0.25
Fitted values Leverage
Los gráficos de la primera columna nos permiten validar los supuestos de media cero,
varianza constante y linealidad del modelo, aquí notamos que estos supuestos no son vi-
olados. Sabemos que el qqplot nos permite chequear normalidad de los errores, lo cual
se aprecia en el gráfico, pero hay indicaciones de algunas observaciones atípicas. Por
último, el gráfico de la parte inferior derecha permite detectar observaciones influyentes
en el modelo, por lo que podemos decir que posiblemente algunas observaciones pueden
estar influenciando en el modelo (observaciones 9, 18 y 16).
Ahora veamos el gráfico de los residuos versus el anterior.
library(MASS) # usamos la función stdres de la librería MASS

d=stdres(modelo) # Capturo los residuos
n<-length(d)
# Gráfico de d(i),d(i-1)
plot(d[1:(n-1)],d[2:n],xlab="Residuo i",ylab="Residuo i-1")

# Capturamos con una curva suavizada la tendencia:
lines(lowess(d[1:(n-1)],d[2:n]),col="red")
2
1
Residuo i−1
0
−1
−1 0 1 2
Residuo i
En este gráfico podemos apreciar que los errores no están correlacionados puesto que
no se observa una tendencia.
Linealización del modelo
Cuando falla la hipótesis de linealidad y quizá también la de homocedasticidad, una

solución sencilla y muy utilizada es transformar una o las dos variables X e Y .
Si sólo falla la linealidad, conviene transformar sólo X porque esto no afecta a las
propiedades de las perturbaciones. En cambio, si los residuos muestran heterocedasti-
cidad o no normalidad, conviene transformar al menos Y para intentar resolver todos
los problemas simultáneamente.
Veamos algunas consideraciones generales acerca de la trasformación de la variable re-

spuesta.
Suponga que contemplamos el log de la respuesta en un MRLS

log y = β0 + β1 x + ε
En la escala original de respuesta, se tiene
y = exp(β0 + β1 x) · exp(ε)
En este modelo los errores entran multiplicativamente y no de forma aditiva como

ocurre usualmente. Note que si creemos que el modelo para y es
y = exp(β0 + β1 x) + exp(ε)
entonces no podemos linealizar este modelo, por lo que se hace necesario usar
métodos de regresión no lineal.
Como usualmente en la práctica no sabemos cómo entran los errores al modelo,

lo ideal es usar diferentes transformaciones y analizar los residuos para verificar
si cumplen los requerimientos de un modelo lineal.
Aunque se puede transformar la variable respuesta, probablemente se necesita
expresar las predicciones en su escala original. Aquí, únicamente hay que regre-
sar la transformación, por ejemplo, en el caso anterior la predicción puede ser
exp(ŷ0 ). De igual forma, si el intervalo de predicción es [l, u], entonces podemos
usar [exp(l), exp(u)].
Cuando usamos la transformación log en la variable respuesta, los coeficientes de
regresión tienen una interpretación particular
log ŷ = β̂0 + β̂1 x1 + · · · + β̂p xp
ŷ = exp(β̂0 ) · exp(β̂1 x1 ) · · · exp(β̂p xp )

un incremento de una unidad en x1 es multiplicada la predicción de la respuesta
(en su escala original) por exp(β̂1 ), manteniendo constantes las otras variables.
Con el objetivo de garantizar los supuestos de un modelo lineal, se puede explorar otro
tipo de transformaciones para Y , por ejemplo una transformación potencia usando el
método Box-Cox, puede ser útil. Por otro lado, note que los modelos lineales general-
izados (GLM) pueden ser usados cuando la variable respuesta sigue una distribución
de la familia exponencial.
Al considerar transformaciones para las X, también podemos implementar el log para

X, la trasformación inversa (1/X), o incluso usar una transformación tipo método de
Box-Cox con el fin de minimizar SSR, pero esto último puede resultar un poco más
complejo. Adicionalmente, es importante considerar modelos lineales segmentados en
los casos en que se detecten grupos de observaciones en Y respecto a cambios en X.
Otra forma de generalizar el modelo es adicionando el término polinomial a la(s) X,

pero una opción más flexible es usar regresión spline, la cual es una alternativa bas-
tante útil cuando la relación de las variables no es lineal. Aquí se mezclan las ventajas
de adicionar el término polinomial, y de construir regresión segmentada.
Ejemplo: usemos datos simulados con el fin de verificar qué tan cerca están los modelos
ajustados respecto al verdadero. Suponga que conocemos el verdadero modelo el cual
es:
y = cos5 (−3πx2 ) + ε, ε ∼ N (0, (0.1)2 )
Ahora construiremos un modelo polinómico de orden 4, uno de orden 12 y un modelo
spline en R para compararlo con el modelo real.
El procedimiento en R es el siguiente:
funky <- function(x) cos(-3*pi*x^2)^5

x <- seq(0,1,by=0.01)
y <- funky(x) + 0.1*rnorm(101)
# modelo polinomial
g4=lm(y~poly(x,4)) # polinomio grado 4
g12=lm(y~poly(x,12)) # polinomio grado 12
# spline
library(splines)
knots <- c(0,0,0,0,0.2,0.4,0.5,0.6,0.7,0.8,0.85,0.9,1,1,1,1)
bx <- splineDesign(knots,x)
gs <- lm(y ~ bx) # usando spline
matplot(x,cbind(y,funky(x),g4$fit,g12$fit,gs$fit),type="pllll",ylab="y",
pch=18,lty=c(1,2,3,4),main="Tipo de modelos",lwd=c(2,2,2,2))
legend(0.1,-0.5,c("modelo real","polinomio orden 4","polinomio orden 12",
"regresión spline"),col=c(2,3,4,5),bty="n",
lty=c(1,2,3,4),cex=.8)
Podemos notar que el modelo spline es el que mejor se ajusta a la curva real.
Tipo de modelos
1.0
0.5
0.0
y
modelo real
polinomio orden 4
−1.0
polinomio orden 12
regresión spline
0.0 0.2 0.4 0.6 0.8 1.0

x
5.0.15. Regresión lineal múltiple
Vector aleatorio:
Un vector aleatorio es aquel cuyas componentes son variables aleatorias. Similarmente,

una matriz aleatoria es aquella cuyas entradas son variables aleatorias.
El vector,  
y1
 y2 
 
Y =  ..  ,
.
yn n×1
es un vector aleatorio si cada una de sus componentes Yi′ s son variables aleatorias.
Sea Y : un vector aleatorio, entonces el valor-esperado o esperanza de Y , denotado por

E[Y ], se define como:    
E[y1 ] µ1
 E[y2 ]   µ2 
   
E[Y ] =  ..  =  .. 
 .  .
E[yn ] µn
en donde, E[Yi ] = µi : representa el valor-esperado o esperanza de la variable aleatoria
yi .
Es decir, la esperanza de un vector aleatorio, es un vector aleatorio cuyas componentes
son las esperanzas de cada una de las variables a aleatorias Yi′ s, i = 1, 2, · · · n, que
conforman el vector aleatorio. Similarmente se define el valor esperado de una matriz
aleatoria.
Matriz de Varianzas-Covarianzas
Sea Y : un vector aleatorio, entonces la matriz de varianzas-covarianzas de Y , denotada

por ΣY = Cov(Y ), se define como:
 
V ar(y1 ) Cov(y1 , y2 ) . . . Cov(y1 , yn )
 Cov(y2 , y1 ) V ar(y2 ) . . . Cov(y2 , yn )
′  
ΣY = E[(Y − E[Y ])(Y − E[Y ]) ] =  .. .. . .. 
 . . . . . 
Cov(yn , y1 ) Cov(yn , y2 ) . . . V ar(yn )
Note que ΣY tiene en la diagonal las varianzas de cada una de las variables aleatorias
que conforman al vector aleatorio y fuera de la diagonal tiene las covarianzas entre los
pares de variables que conforman dicho vector aleatorio.
Modelo de regresión lineal múltiple (RLM)

Supongamos que la variable respuesta Y puede ser explicada por más de una variable
regresora o predictora, digamos (p − 1): X1 , X2 , · · · , Xp−1 .
Para el caso de dos variables regresoras X1 y X2 , se tiene que el modelo de RLM es:
yi = β0 + β1 xi1 + β2 xi2 + εi ,
con los supuestos que los ε′i s con i = 1, 2, · · · , n, son independientes e idénticamente
distribuidos normales con media cero y varianza constante, donde la función de regresión
está dada por:
Ŷ = E[Y\
|X1 , X2 ] = β̂0 + β̂1 X1 + β̂2 X2
Interpretación de los parámetros del modelo de RLM con dos variables re-
gresoras
β̂0 : Respuesta media estimada cuando X1 = 0 y X2 = 0, siempre y cuando el

punto (0,0) esté dentro del rango de valores posible de X1 y X2 .
β̂1 : Cambio en la respuesta media estimada por cada unidad de incremento en la

variable regresora X1 cuando la variable regresora X2 se mantiene fija.
β̂2 : Cambio en la respuesta media estimada por cada unidad de incremento en la

variable regresora X2 cuando la variable regresora X1 se mantiene fija.
Modelo de RLM General
Para el caso de (p − 1) variables regresoras X1 , X2 , · · · , Xp−1 , se tiene que el modelo de

RLM es:
yi = β0 + β1 xi1 + β2 xi2 + · · · + βp−1 xi,p−1 + εi ,
con los supuestos que los ε′i s con i = 1, 2, · · · , n, son independientes e idénticamente
distribuidos normales con media cero y varianza constante, donde la función de regresión
está dada por:
Ŷ = E[Y |X1 , \
X2 , · · · , Xp−1 ] = β̂0 + β̂1 X1 + β̂2 X2 + · · · + β̂p−1 X(p−1)
Interpretación de los parámetros del modelo de RLM general
β̂0 : Respuesta media estimada cuando X1 = X2 = · · · = Xp−1 = 0, siem-

pre y cuando el punto (0, 0, · · · , 0) esté dentro del rango de valores posible de
X1 , X2 , · · · , Xp−1
β̂j : Cambio en la respuesta media estimada por cada unidad de incremento en la

variable regresora Xj cuando las demás variable regresoras X1 , X2 , · · · , Xj−1 , Xj+1 , · · · , Xp−1
se mantienen fija.
Modelo de RLM en Forma Matricial
Ahora se considerara el modelo de RLM en forma matricial.

Sea el modelo de RLM
yi = β0 + β1 xi1 + β2 xi2 + · · · + βp−1 xi,p−1 + εi , i = 1, 2, · · · , n
El modelo anterior se puede escribir en forma matricial como sigue:

      
y1 1 x11 . . . x1,p−1 β0 ε1
 y2  1 x21 . . . x2,p−1   β1   ε2 
      
 ..  =  .. .. . . ..   ..  +  .. 
 .  . . . .  .   . 
yn 1 xn1 . . . xn,p−1 βp−1 εn
es decir, que el modelo de RLM en forma matricial es:
Yn×1 = Xn×p β p×1 + εn×1
con ε ∼ N (0, σ 2 In ), donde

Y: Es el vector de respuestas
β: Es el vector de parámetros
X: Es la matrix de diseño, con los valores de las variables predictoras en cada obser-
vación.
ε: Es el vector de términos de errores aleatorios.
Estimadores de mínimos cuadrados para el modelo de RLM en forma ma-

tricial
La idea es minimizar la expresión
SSE = (Y − Xβ)′ (Y − Xβ)
para el cálculo de β.
De aquí se obtiene el estimador de mínimos cuadrados para β, el cual es:
β̂ = (X′ X)−1 X′ Y.
Propiedades de los estimadores:
β̂ = (X′ X)−1 X′ Y, es insesgado para β, es decir E(β̂) = β
β̂ es el mejor estimador lineal-insesgado de β en el sentido de que β̂ = (X′ X)−1 X′ Y,

tiene varianza mínima entre todos los estimadores insesgados de β.
La matriz de varianzas-covarianzas de β̂ esta dada por V ar(β̂) = σ 2 (X′ X)−1
Residuales
Los residuales corresponden a εi = Yi − Ŷi . Por lo tanto, el vector de residuales es:

 
ε1
 ε2 
 
ε =  .. 
.
εn n×1
El vector de valores ajustados y el vector de residuales pueden ser también expresados
en términos de la matriz H = X(X′ X)−1 X′ conocida como la matriz hat o matriz
sombrero, la cual es una matriz (n × n) es simétrica e idempotente, a veces también
llamada matriz de proyección, asigna el vector de valores observados para el vector de
valores ajustados. En él se describe la influencia que cada valor observado tiene en cada
valor ajustado.
Al igual que en el modelo de regresión lineal simple, se tiene que:
SST = SSR + SSE
donde
1
SST = Y′ Y − Y′ JY
[ n( ) ]
1
= Y′ I − J Y,
n
donde J es una matrix n × n de unos, e I es la matriz identidad.
También, se tiene que:
1
SSR = βˆ′ X′ Y − Y′ JY.
n
′ ˆ′ ′
SSE = Y Y − β X Y.
Tabla de Análisis de varianza en forma matricial para el modelo de RLM
La tabla ANOVA para el modelo de RLM queda de la siguiente forma:

Regresión p−1 SSR MSR Fc = M SR
M SE
∼ F(p−1,n−p)
Error n−p SSE MSE
Total n−1 SST MST
Multicolinealidad
La multicolinealidad o dependencia lineal entre las variables independientes, debe con-

siderarse como un posible problema a tratar en el modelo. Existen situaciones en que
las variables explicativas se encuentran fuertemente correlacionadas, y esto puede oca-
sionar problemas en la estimación de los parámetros del modelo.
Una de las herramientas para chequear multicolinealidad es el V IF o Factor de Inflación

de la Varianza, el cual se obtiene como:
1
V IF (βi ) = ,
1 − RX
2
i
2
el cual si toma un valor mayor a 10 se considera una alta colinealidad. Note que RX i
es
el coeficiente de determinación obtenido al efectuar la regresión de Xi sobre el resto de
los regresores del modelo.
En R usamos la función vif del paquete car para obtener el V IF de todas las variables
explicativas.
Ejemplo: Para estimar la producción en madera de un bosque se suele realizar un

muestreo previo en el que se toman una serie de mediciones no destructivas. Disponemos
de mediciones para 20 árboles, así como el volumen de madera que producen una vez
cortados. Las variables observadas son:
HT = altura en pies
DBH = diámetro del tronco a 4 pies de altura (en pulgadas)
D16 = diámetro del tronco a 16 pies de altura (en pulgadas)
V OL = volumen de madera obtenida (en pies cúbicos).
El objetivo del análisis es determinar cuál es la relación entre dichas medidas y el vol-
umen de madera, con el fin de poder predecir este último en función de las primeras.
Los datos son los siguientes:
DBH <- c(10.2,13.72,15.43,14.37,15,15.02,15.12,15.24,15.24,15.28,

13.78,15.67,15.67,15.98,16.5,16.87,17.26,17.28,17.87,19.13)
D16 <-c(9.3,12.1,13.3,13.4,14.2,12.8,14,13.5,14,13.8,13.6,14,
13.7,13.9,14.9,14.9,14.3,14.3,16.9,17.3)
HT <-c(89,90.07,95.08,98.03,99,91.05,105.6,100.8,94,93.09,89,
102,99,89.02,95.09,95.02,91.02,98.06,96.01,101)
VOL <-c(25.93,45.87,56.2,58.6,63.36,46.35,68.99,62.91,58.13,
59.79,56.2,66.16,62.18,57.01,65.62,65.03,66.74,73.38,82.87,95.71)
bosque<-data.frame(VOL=VOL,DBH=DBH,D16=D16,HT=HT)
plot(bosque)
10 12 14 16 18 90 95 100 105
90
70
VOL
50
30
10 12 14 16 18
DBH
16
14
D16
12
10
105
100
HT
95
90
30 50 70 90 10 12 14 16
Veamos las correlaciones parciales de dichas variables.
install.packages(ppcor)
library(ppcor)
pcor(bosque)
$estimate
VOL DBH D16 HT
VOL 1.0000000 0.3683119 0.7627127 0.7285511
DBH 0.3683119 1.0000000 0.2686789 -0.3107753
D16 0.7627127 0.2686789 1.0000000 -0.4513110
HT 0.7285511 -0.3107753 -0.4513110 1.0000000
$p.value
VOL DBH D16 HT
VOL 0.0000000000 0.1326107 0.0002324675 0.0006056469
DBH 0.1326107400 0.0000000 0.2810102724 0.2094003059
D16 0.0002324675 0.2810103 0.0000000000 0.0601150552
HT 0.0006056469 0.2094003 0.0601150552 0.0000000000
$statistic
VOL DBH D16 HT
VOL 0.000000 1.584644 4.717295 4.254366
DBH 1.584644 0.000000 1.115742 -1.307862
D16 4.717295 1.115742 0.000000 -2.022984
HT 4.254366 -1.307862 -2.022984 0.000000
$n
[1] 20
$gp
[1] 2
$method
[1] "pearson"
Notamos que no es significativamente distinta de cero la relación entre VOL y DBH,

pues el p−valor es 0.1326. Además, la correlación parcial entre estas dos variables es
muy baja (cor(V OL, DBH) = 0.3683).
Ahora, obtenemos el modelo completo.
m1=lm(VOL~DBH+D16+HT)
summary(m1)
anova(m1)
Los resultados se muestran a continuación
Call:
lm(formula = VOL ~ DBH + D16 + HT)
Residuals:
-5.2548 -1.6765 -0.1277 1.5232 4.9990
Coefficients:
(Intercept) -108.5758 14.1422 -7.677 9.42e-07 ***
DBH 1.6258 1.0259 1.585 0.132611
D16 5.6714 1.2023 4.717 0.000232 ***
HT 0.6938 0.1631 4.254 0.000606 ***
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

# anova(m1)
Response: VOL
DBH 1 3085.79 3085.79 322.064 5.051e-12 ***
D16 1 331.85 331.85 34.635 2.303e-05 ***
HT 1 173.42 173.42 18.100 0.0006056 ***
Residuals 16 153.30 9.58
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
El R2 ajustado nos indica que las variables DBH, D16 y HT explican la variabilidad del
volumen de madera. De igual forma, el p−valor de la tabla anova nos corrobora esta
afirmación (p−valor=2.587e-11).
El error residual del modelo es 3.095. Si lo elevamos al cuadrado, tenemos la varianza

residual σ̂ 2 = 9.5813
Por otro lado, notamos que el coeficiente que acompaña a la variable DBH no es signi-
ficativamente diferente de cero (p−valor=0.132611), por lo que la variable no es signi-
ficativa en el modelo a un nivel α = 0.05. Ahora miremos los intervalos de confianza al
95 % para los coeficientes.
ic.ind<-confint(m1,level=0.95);ic.ind
2.5 % 97.5 %
(Intercept) -138.5559230 -78.595770
DBH -0.5491507 3.800682
D16 3.1227268 8.220064
HT 0.3480719 1.039469
Efectivamente, los intervalos de confianza nos muestran que los parámetros son signi-
ficativos en el modelo, excepto el correspondiente a la variable DBH.
Si observamos el resultado del anova, para evaluar el modelo completo, podemos ob-
servar que DBH es significativa en el modelo (p−valor=5.051e-12), luego al adicionar
D16, notamos que esta última si aporta a explicar la variabilidad de VOL, por último,
si se incorpora la variable HT, se aporta un poco más a la variabilidad del volumen,
pues p−valor=0.0006056.
El modelo ajustado es entonces el siguiente:
V[
OL = −108.5758 + 1.6258DBH + 5.6714D16 + 0.6938HT
Otro modelo que podemos considerar, es eliminando la variable DBH del modelo com-
pleto. De esta forma tendríamos
m2=lm(VOL~D16+HT)
summary(m2)
anova(m2)
Los resultados son los siguientes
Call:
lm(formula = VOL ~ D16 + HT)
Residuals:
-4.2309 -1.8386 -0.4012 1.0922 6.9373
Coefficients:
(Intercept) -105.9027 14.6520 -7.228 1.41e-06 ***
D16 7.4128 0.5088 14.568 4.92e-11 ***
HT 0.6765 0.1698 3.985 0.000959 ***
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

anova(m2)
Response: VOL
D16 1 3401.3 3401.3 326.019 1.58e-12 ***
HT 1 165.7 165.7 15.878 0.0009585 ***
Residuals 17 177.4 10.4
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
El modelo 2 (m2) es el siguiente
V[
OL = −105.9027 + 7.4128D16 + 0.6765HT
Podemos ver que todos los parámetros son significativos en el modelo a un nivel
α = 0.05. Además, el anova nos dice que el modelo general también es significativo
(p−valor=5.515e-12). Note que el R2 del modelo completo (m1) es de 0.9514 y el del
modelo 2 es 0.9471. Una pregunta que nos podemos hacer es, ¿cuál modelo es mejor?.
5.0.16. Selección de variables
En esta instancia se pretende seleccionar el “mejor‘” subconjunto de predictores.
Queremos explicar los datos de una forma simple
Predictores innecesarios pueden producir ruidos en la estimación.
El problema de colinealidad es causado frecuentemente por tener muchas vari-

ables.
Costo: si el modelo es usado para predicción, puede reducir costos.
Previo a la selección de variables
Identificar outliers y puntos influenciales.
De ser necesario, hacer transformaciones a la variable.

Procedimiento Stepwise
Este procedimiento es una combinación del método de eliminación backward y de se-

lección forward. Los cuales consisten en ir eliminando o incluyendo predictores en el
modelo teniendo en cuenta sus p-valores. En el caso del backward se remueven los pre-
dictores con más alto p-valor, y en el caso del forward se incluyen en el modelo los
predictores con más bajo p-valor.
Criterio basado en procedimiento
Si en un modelo tenemos p potenciales predictores, entonces podemos construir 2p mod-

elos posibles. Lo cual se vuelve una tarea muy extenuante. Algoritmos inteligentes, tales
como el método de “branch-and-bound” pueden evitar efectivamente el ajuste de todos
los modelos evaluando sólo los posibles candidatos.
El Criterio de Información de Akaike (AIC) y el Criterio de información de Bayes (BIC),

comprenden los criterios más comúnmente utilizados.
El AIC está basado en la función de verosimilitud e incluye una penalización que aumen-
ta con el número de parámetros estimados en el modelo. Además, premia los modelos
que dan un buen ajuste en términos de verosimilitud y a la vez son parsimoniosos
(tienen pocos parámetros). Entre tanto, el BIC comprende una modificación al AIC
que tiene en cuenta también el número de datos utilizados en el ajuste.
AIC = −2 ln(likelihood) + 2p
y
BIC = −2 ln(likelihood) + p ln(n)
En el proceso de selección de modelos, se quiere minimizar el AIC o el BIC.
En R podemos utilizar las funciones AIC() y BIC() para seleccionar el mejor modelo.
Para esto, entre menor sea el valor del AIC o del BIC, mejor es el modelo. Además, la
función step() que selecciona automáticamente un modelo usando el criterio AIC en
un algoritmo Stepwise.
Para nuestro ejemplo,
AIC(m1);AIC(m2)
BIC(m1);BIC(m2)
> AIC(m1);AIC(m2)
[1] 107.4909
[1] 108.4066
> BIC(m1);BIC(m2)
[1] 112.4696
[1] 112.3895
Si observamos el AIC, el mejor modelo es el modelo completo, pero si miramos el BIC,

el mejor modelo es el modelo m2. Si pensamos en el principio de la parcimonia, nos
quedamos con el modelo 2 debido a que no hay una ganancia muy grande en cuanto a
variabilidad explicada del modelo 1 respecto al modelo 2 (esto se puede apreciar con el
R2 ajustado).
Procedamos a hacer un chequeo gráfico de los supuestos del modelo seleccionado (mod-
elo 2).
opar=par()
par(mfrow=c(2,2))
plot(m2)
par(opar)

8
18 18
2
6
20
17 20 17
4
Residuals
1
2
0
0
−1
−4
30 40 50 60 70 80 90 −2 −1 0 1 2
Scale−Location Residuals vs Leverage

1.5
18
20
2
17 20
17 1
1.0
1 0.5
1
0
0.5
−1
0.5
Cook’s distance
0.0
30 40 50 60 70 80 90 0.0 0.1 0.2 0.3 0.4

Fitted values Leverage
Podemos ver que posiblemente hay una violación al supuesto de normalidad de los
errores, esto debido a la posible presencia de datos influyentes en el modelo. Sin embargo,
realizaremos un test de Shapiro-Wilk para verificar normalidad.
library(MASS) # usamos la función stdres de la librería MASS

shapiro.test(stdres(m2))
data: stdres(m2)
W = 0.9215, p-value = 0.1059
El p−valor nos indica no rechazar la normalidad de los errores. Por tanto, no hay una
violación a este supuesto. Verificaremos ahora el supuesto de autocorrelación cero de
los errores.
d=stdres(m2) # Capturo los residuos

n<-length(d)
# Gráfico de d(i),d(i-1)
plot(d[1:(n-1)],d[2:n],xlab="Residuo i",ylab="Residuo i-1")
# Capturamos con una curva suavizada la tendencia:
lines(lowess(d[1:(n-1)],d[2:n]),col="red")
2
1
Residuo i−1
0
−1
−1 0 1 2
Residuo i
Como no se observa un tendencia, podemos afirmar que los errores tienen correlación
cero. Por tanto, no hay una violación a este supuesto.
Por último, debemos chequear la no existencia de multicolinealidad entre las variables

independientes. Para ello, calculamos el V IF (factor de inflación de varianza).
install.packages("car")
library(car)
vif(m2)
D16 HT
1.228915 1.228915
Como el V IF no es mayor que 10, para ambas variables, no hay colinealidad entre los
regresores. De aquí, el modelo 2 cumple todos los supuestos.
Ejemplo: Usaremos un conjunto de datos económicos en 50 países diferentes. Estos

datos se encuentran disponibles en R software. Los datos corresponden a promedios
desde 1960-1970 (para eliminar el ciclo de los negocios u otras fluctuaciones a corto
plazo). dpi es el ingreso disponible per cápita en dólares estadounidenses; ddpi es la
tasa de porcentaje de cambio en el ingreso disponible per cápita; sr es el ahorro personal
agregado dividido por la renta disponible; El porcentaje de población menor de 15 años
(pop15) y más de 75 (pop 75) también son registrados.
data(LifeCycleSavings)
LifeCycleSavings
g <- lm(sr~pop15 + pop75 + dpi + ddpi, data=LifeCycleSavings)
summary(g)
Call:
lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = LifeCycleSavings)
Residuals:
-8.2422 -2.6857 -0.2488 2.4280 9.7509
Coefficients:
(Intercept) 28.5660865 7.3545161 3.884 0.000334 ***
pop15 -0.4611931 0.1446422 -3.189 0.002603 **
pop75 -1.6914977 1.0835989 -1.561 0.125530
dpi -0.0003369 0.0009311 -0.362 0.719173
ddpi 0.4096949 0.1961971 2.088 0.042471 *
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
Residual standard error: 3.803 on 45 degrees of freedom Multiple

R-squared: 0.3385, Adjusted R-squared: 0.2797 F-statistic:
5.756 on 4 and 45 DF, p-value: 0.0007904
La hipótesis nula para el test de hipótesis en predictor en particular es:
H0 : βi = 0
Si se quiere mirar el efecto de pop15 en el modelo podemos hace lo siguiente:
g2 <- lm(sr ~ pop75 + dpi + ddpi, data=LifeCycleSavings)

anova(g2,g)
Model 1: sr ~ pop75 + dpi + ddpi

Model 2: sr ~ pop15 + pop75 + dpi + ddpi
Res.Df RSS Df Sum of Sq F Pr(>F)
1 46 797.72
2 45 650.71 1 147.01 10.167 0.002603 **
Aquí, vemos que la inclusión de la variable pop15 en el modelo si es significativa

(p−valor=0.002603).
Una alternativa que ofrecen muchos paquetes es mirar directamente en el análisis de

varianza resultante del modelo.
Podemos emplear un mecanismo de selección automática de variables en el modelo.

Para esto, usamos la función step() de R.
Para nuestro ejemplo,
step(g)
Start: AIC=138.3
sr ~ pop15 + pop75 + dpi + ddpi
Df Sum of Sq RSS AIC

- dpi 1 1.893 652.61 136.45
<none> 650.71 138.30
- pop75 1 35.236 685.95 138.94
- ddpi 1 63.054 713.77 140.93
- pop15 1 147.012 797.72 146.49
Step: AIC=136.45
sr ~ pop15 + pop75 + ddpi
Df Sum of Sq RSS AIC

<none> 652.61 136.45
- pop75 1 47.946 700.55 137.99
- ddpi 1 73.562 726.17 139.79
- pop15 1 145.789 798.40 144.53
Call:
lm(formula = sr ~ pop15 + pop75 + ddpi, data = LifeCycleSavings)
Coefficients:
(Intercept) pop15 pop75 ddpi
28.1247 -0.4518 -1.8354 0.4278
Podemos notar que nos quedamos con el modelo
b = 28.1247 − 0.4518pop15 − 1.8354pop75 + 0.4278ddpi

sr
Capítulo 6
Introducción al análisis de varianza
6.1. Definiciones básicas

Al iniciar el estudio, el investigador desarrolla una lista de verificación de aspectos
concretos; algunos de los que suelen incluirse son:
Objetivos específicos del experimento.
Identificación de los factores que influyen y cuáles de ellos varían y cuáles per-
manecen constantes.
Características a medir.
Procedimientos particulares para realizar las pruebas o medir las características.
Número de repeticiones del experimento básico a realizar.
Recursos y materiales disponibles.
Las preguntas que centran nuestra atención a través del proceso de diseño incluyen:
¿Cuál es mi objetivo?, ¿Qué quiero saber? y ¿Por qué quiero saberlo?. Además, existen
preguntas de seguimiento productivo para cada actividad en el proceso, tales como:
¿Cómo voy a realizar el experimento? y ¿Por que hago el experimento?, dirigen la aten-
ción a definir el papel de cada actividad en el estudio de investigación.
Experimentos, tratamientos y unidades experimentales

un experimento debe limitarse a investigaciones que establecen un conjunto particular
de circunstancias, bajo un protocolo específico para observar y evaluar las implicaciones
de las observaciones resultantes. El investigador determina y controla los protocolos de
un experimento para evaluar y probar algo que en su mayor parte no se conoce hasta
ese momento.
164
CAPÍTULO 6. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA 165
Entre las aplicaciones del diseño experimental se encuentra:
La evaluación y comparación de configuraciones de diseños básicos.
La evaluación de materiales alternativos.
La selección de los parámetros del diseño para que el producto tenga un buen
funcionamiento en una amplia variedad de condiciones de campo.
La determinación de los parámetros claves del diseño del producto que afectan el
desempeño del mismo.
Experimento comparativo
El experimento comparativo es el tipo de experimento que utilizan los investigadores
en áreas como biología, medicina, agricultura, ingeniería, sicología y otras ciencias ex-
perimentales. El adjetivo comparativo implica que se establezca más de un conjunto
de circunstancias en el experimento y que se comparen entre sí las respuestas a las
diferentes circunstancias.
Tratamientos
Los tratamientos son el conjunto de circunstancias creados para el experimento, en res-
puesta a la hipótesis de investigación y son el centro de la misma. Entre los ejemplos de
tratamientos se encuentran dietas de animales, producción de variedades de cultivos,
temperaturas, tipos de suelo y cantidades de nutrientes.
En un estudio comparativo se usan dos o más tratamientos y se comparan sus efectos

en el sujeto de estudio.
Unidad experimental
La unidad experimental es la entidad física o el sujeto expuesto al tratamiento indepen-
dientemente de otras unidades. La unidad experimental, una vez expuesta al tratamien-
to, constituye una sola réplica del tratamiento.
Error experimental
El error experimental describe la variación entre las unidades experimentales tratadas
de manera idéntica e independiente. Los distintos orígenes del error experimental son:
1.) La variación natural entre unidades experimentales.
2.) La variabilidad en la medición de la respuesta.
3.) La imposibilidad de reproducir las condiciones del tratamiento con exactitud de

una unidad a otra.
4.) La interacción de los tratamientos con las unidades experimentales.
5.) Cualquier otro factor externo que influya en las características medidas.
Ejemplo: La imposibilidad de reproducir el tratamiento con exactitud se da cuando

las réplicas de los tubos de ensayo se preparan de modo independiente, con la misma
mezcla de compuestos, y el peso de los productos químicos obtenidos en cada tubo
difiere en 0.1 microgramo (pg). Los procesos en pipetas o básculas no son exactos, por
lo tanto, introducen una pequeña variación durante la preparación del tratamiento.
Un importante objetivo de los cálculos estadísticos es lograr una estimación de la va-

rianza del error experimental. En su forma más simple, el error experimental es la
varianza en unidades de las observaciones del experimento, cuando las diferencias entre
éstas se pueden atribuir sólo al error experimental.
Estudios por observaciones comparativas

Los estudios por observación comparativos son aquellos para los que desearíamos hacer
un experimento, pero no es posible por razones prácticas o éticas.
El investigador tiene en mente condiciones o tratamientos que tienen efectos causales

en sujetos para los que no es posible efectuar experimentos hasta obtener respuestas.
Los investigadores de las ciencias sociales, ecología, vida silvestre, vida marina y otros
recursos naturales, a menudo han de llevar a cabo estudios por observación en vez de
la experimentación directa.
Ejemplo: Considerando un estudio para comparar la severidad de las lesiones por

accidentes automovilísticos con y sin el cinturón de seguridad puesto; sería clara la
falta de ética si se asignara al azar un tratamiento de personas con cinturón y sin
cinturón y después se provocaran colisiones de los autos contra una pared de concreto,
tampoco habría quién se prestara para esto. En su lugar, los investigadores se apoyan
en los datos de lesiones en los accidentes y comparan los datos de cinturón puesto y sin
cinturón.
6.1.1. La hipótesis de investigación
La hipótesis de investigación establece un conjunto de circunstancias y sus consecuen-

cias. Los tratamientos son una creación de las circunstancias para el experimento. Así,
es importante identificar los tratamientos con el papel que cada uno tiene en la evalua-
ción de la hipótesis de investigación.
Relación entre los tratamientos y las hipótesis:

Cuando se eligen los tratamientos adecuados en respuesta a una hipótesis de inves-
tigación, es posible comprender mejor los mecanismos fundamentales, ya sean físicos,
químicos biológicos o sociales.
A continuación se presentan tratamientos, usados en el marco de investigaciones reales,

generados por hipótesis de investigación:
Se estudió la cinética de bebida de las abejas productoras de miel a diferentes tem-

peraturas ambientales, para responder a la hipótesis de que la energía requerida
al reunir comida para la colonia era independiente de la temperatura.
La supervivencia de siembras de Euphorbia (es un género de plantas de la familia
Euphorbiaceae) atacadas por un patógeno del suelo se determinó para distintos
tipos de tratamientos de fungicida, en respuesta a la hipótesis de que no todos los
fungicidas tienen la misma eficiencia para controlar tal patógeno.
Tratamiento control:
Muchas veces se requieren tratamientos adicionales para evaluar por completo las conse-
cuencias de la hipótesis. Una componente importante de muchos diseños de tratamiento
es el tratamiento de control.
El tratamiento de control es un punto necesario para evaluar el efecto de los tratamien-

tos experimentales; existen diversas circunstancias en las que el tratamiento de control
es útil y necesario. Un control al que no se da tratamiento revelará las condiciones en
las que se efectuó el experimento.
Control local de errores experimentales:

Los principales objetivos de la mayoría de los experimentos son las comparaciones claras
y exactas entre tratamientos a través de un conjunto apropiado de condiciones.
El control local describe las acciones que emplea un investigador para reducir o contro-
lar el error experimental, incrementar la exactitud de las observaciones y establecer la
base de la inferencia de un estudio.
El investigador controla:
1. Técnica.
2. Selección de unidades experimentales.
3. Bloquización o aseguramiento de la uniformidad de información en todos los
tratamientos.
4. Selección del diseño experimental.

5. Medición de covariables (son variables relacionadas con la variable respuesta que
nos interesa).
Replicar para obtener experimentos válidos:

La réplica implica una repetición independiente del experimento básico. Dicho de ma-
nera más específica, cada tratamiento se aplica de manera independiente a dos o más
unidades experimentales.
Existen diversas razones para hacer réplicas de un experimento, las más notables son:
Permiten estimar el error experimental

Ejerce control sobre la varianza del error experimental
Mejora la precisión de un experimento mediante la reducción de la desviación
estándar de una media de tratamiento
A mayor número de repeticiones mayor precisión
Aumenta el alcance de la inferencia (I.C. y pruebas de hipótesis.)
Las unidades de observación y las experimentales pueden ser claramente

distintas:
La unidad de observación puede no ser equivalente a la unidad experimental. La primera
puede ser una muestra de la última, como muestras individuales de plantas de una
parcela o muestras del plasma de un sujeto.
Ejemplo: Un estudio sencillo de raciones de dieta animal tiene un corral con seis
animales asignados a la ración A y otro con seis más asignados a la ración B. Se reúnen
datos sobre el aumento de peso o algún otro aspecto adecuado para examinar la efica-
cia de las raciones. Al final del estudio, se toman de cada animal las medidas necesarias.
El corral es la unidad experimental porque es la unidad a la que se administró el

tratamiento independiente. Los animales en el corral son las unidades de observación.
Aleatorizar para tener inferencias válidas:

Fisher (1926) señaló que la sola aleatorización proporciona estimaciones válidas de la
varianza del error para los métodos de inferencia estadística justificados para la esti-
mación y pruebas de hipótesis en el experimento. La aleatorización es la asignación
aleatoria de tratamientos a las unidades experimentales.
La aleatorización permite:
1. La validación del error experimental
2. Evita sesgos.
3. Garantiza la independencia de los errores.
La aleatorización puede realizarse por medio de muchos métodos algunos de los cuales
se describen a continuación:
Método 1:
Suponga que se tienen N = 15 unidades experimentales (UE) homogéneas, para un
experimento bajo un diseño completamente al azar (DCA) con t=3 tratamientos y
r = 5 réplicas. Marque las 15 unidades experimentales con los números 1, 2, . . . , 15.
Luego rotule unos papelitos con los números k = 1, 2, . . . , 15, colóquelos en una bolsa.
Seleccione un papelito de forma aleatoria y márquelo por el reverso de donde esta
marcado con el número (11), deje este papelito fuera de la bolsa.
Proceda nuevamente a seleccionar otro papelito y márquelo ahora con el número (12).
Continúe este proceso hasta que queden marcados todos los papelitos como 11, 12, . . . , 15,
21, 22, . . . , 25, 31, 32, . . . , 35. Si un papelito está rotulado 5 y por el reverso con la etique-
ta (34), entonces la unidad experimental marcada con el número 5 recibirá el tratamien-
to 3 y será la réplica 4.
Método 2:
Una forma simple de construir unos datos aleatorizados, donde el objetivo es dividir n
unidades experimentales en t tratamientos, se puede llevar a cabo usando el software
R. Por ejemplo, si el experimentados cuenta con tres diferentes tratamientos para la
variable tiempo (25 min, 30 min y 35 min) y desea realizar cuatro réplicas de cada uno,
esto se puede aleatorizar con el siguiente código de R.
set.seed(100)
f <- factor( rep( c(25, 30, 35 ), each = 4)) # crea el factor
fac <- sample( f, 12 ) # genera muestras del factor
eu <- 1:12 # se establecen las U.E
plan <- data.frame( loaf=eu, time=fac ) # crea el data.frame
write.csv( plan, file = "Plan.csv", row.names = FALSE) # crea la b.d
Método 3:
Mediante el uso de una tabla de números aleatorios.
6.2. Diseño Completamente al Azar (DCA)

Cuando el experimentador ha decidido arreglar el material experimental bajo un DCA
con igual número de réplicas por tratamiento, significa que debe realizar el siguiente
protocolo descrito por Hinkelman y Kempthorne (1994):
Supongamos que se tienen N = tr unidades experimentales (UE) homogéneas y t

tratamientos. Las N UE se dividen en t grupos de r UE. Los t tratamientos son asig-
nados al azar a los t grupos tales que el i−ésimo tratamiento es aplicado a cada una de
las r UE en el i−ésimo grupo (i = 1, 2, .., t).
Es claro de la definición que se tiene un diseño aleatorizado, si y solo si hay una asig-
nación aleatoria de los tratamientos a las UE.
Ventajas
Cuando en un experimento las unidades experimentales se arreglan bajo un Diseño
completamente al azar se tienen las siguientes ventajas:
Flexibilidad: Cualquier número de tratamientos y cualquier número de réplicas

pueden ser usadas, siempre y cuando se tengan suficientes UE homogéneas.
Análisis Estadístico simple: el análisis estadístico es simple ya sea cuando todos

los tratamientos tengan igual número de réplicas (balanceado), diferente número
de réplicas (desbalanceado) o pérdida de datos, caso en el cual se trata como un
análisis desbalanceado.
Máximo número de grados de libertad para el error: Esto ocurre porque el diseño
tiene solo dos fuentes de variación que son los tratamientos y el error y los grados
de libertad para este error están dados por la expresión t(r − 1).
Precisión: Es muy preciso si se tienen en cuenta UE homogéneas.
Desventajas
Se puede obtener baja precisión cuando las unidades experimentales no sean muy ho-
mogéneas y así ser ineficiente.
Usos
1. Es recomendado cuando es posible que gran parte de las UE no respondan al

tratamiento o puedan perderse durante el experimento.
2. Es útil en experimentos en los que el número de UE es limitado, ya que provee el

máximo número de grados de libertad del error.
Presentación de datos
Al arreglar el material experimental de manera aleatoria utilizando un procedimiento
de aleatorización para el caso de un experimento con 15 UE y 3 tratamientos y cinco
réplicas por tratamiento usted puede obtener por ejemplo el siguiente arreglo
Tratamiento
2 1 3
01 08 15
05 06 02
09 07 04
11 12 10
14 03 13
En este momento de la realización del experimento se debe decidir cual tratamiento se

aplica primero y a que UE, siempre que sea posible.
Al ejecutar el experimento se supone que usted ha estandarizado la técnica de medición,

ha calibrado el instrumento, el examinador ha realizado su calibración inter-examinador
(para determinar su exactitud con respecto a un gold estándar) e intra-examinador
(tomando varias veces la misma para evaluar su precisión en la medida).
Las pruebas estadísticas utilizadas para validar la calibración del examinador depende
de la escala en que es medida la variable, si la variable es categórica de escala nominal u
ordinal se puede utilizar entre otros el coeficiente de concordancia Kappa, si la variable
es continua se puede utilizar, entre otros, el coeficiente de correlación concordancia de
Lin o el coeficiente de variación.
Luego de ejecutar el experimento se recomienda organizar los datos como se presenta

en la siguiente tabla.
Tratamiento
1 2 3
25 14 30
22 16 32
20 18 30
24 13 31
25 15 30
Factor
Son las variables independientes que van a cambiar o van a ser controladas en el proceso.
Estos pueden ser:
1. Cuantitativos:
Por ejemplo: la temperatura en grados para un proceso de secado de masa de
maíz fermentadas.
2. Cualitativos
Por ejemplo: máquinas u operarios, tipos de maíz etc.
Es de interés del investigador conocer su efecto sobre la respuesta.
Los factores pueden ser de efectos fijos, aleatorios o mixtos:
1. Efectos fijos: Los niveles del factor han sido seleccionados por el investigador y
las conclusiones solo aplican a esos niveles escogidos, el modelo se llama modelo
de efectos fijos.
2. Efectos aleatorios: Los niveles del factor han sido seleccionados al azar de una
población y las conclusiones pueden generalizarse a esa población, el modelo se
llama modelo de efectos aleatorios. La inferencia se hace sobre la varianza de los
tratamientos.
3. La combinación de los modelos anteriores se denomina modelo de efectos mixtos.
Niveles
Son los niveles del factor que se esta examinando.
Ejemplo: El factor temperatura en un proceso de secado de masa de maíz fermen-

tadas, se realiza con cuatro temperaturas distintas, se dice que el factor temperatura
tiene cuatro niveles, que pueden ser 40, 50, 60, y 70o C.
En el caso de un factor cualitativo, por ejemplo si se trata de tres tipos de maíz (Tipo
I, II y III) el factor tipo de maíz tendrá tres niveles.
Tratamientos
Son los niveles o combinación de niveles de los factores que intervienen en el experi-
mento.
Ejemplo:
Factor Niveles Tratamientos
Tipo de Maíz I, II y III I, II y III
Factor Niveles Tratamientos

Tipo de Maíz I, II y III trat 1: (I-50),trat 2: (II-50)
Temperatura 50, 60 y 70o C trat 3: (III-50),. . .
Variable respuesta
La variable que se mide como resultado del experimento, puede ser cualitativa o cuan-
titativa.
Ejemplo: El deterioro de pitahaya con los diferentes tipos de empaque, temperatura,

etc.
Material experimental
Son todos aquellos implementos que se utilizan en la elaboración del experimento.
Ejemplo: Termómetro, balanza, mesa, etc.
Error experimental
Es la variación aleatoria que se presenta en los datos debido a factores controlados o
no controlables.
Factores no controlables
Variables propias del sistema que no se pueden controlar durante el experimento y ali-
mentan el error experimental.
Diseño de experimentos
Consiste en determinar cuántos factores, niveles y tratamientos se estudian y cómo se
asignaran los tratamientos a las unidades experimentales.
6.2.1. Diseños Completamente Aleatorizados DCA
El juego de hipótesis a contrastar para probar la igualdad de las medias de los t

tratamientos es el siguiente:
H0 : µ1 = µ2 = · · · = µt vs Ha : µi ̸= µj , ∀i ̸= j
Generalidades
Los tratamientos se ensayan en condiciones homogéneas del material experimen-

tal.
La respuesta observada de cada uno de los t tratamientos es una variable aleatoria.
Modelo para los datos:

yij = µ + τi + ϵij
• yij es la observación j-ésima del i-ésimo tratamiento.

• µ la media global.
• τi es el efecto del i-ésimo tratamiento.
• ϵij es el componente aleatorio que incorpora todas las demás fuentes de
variabilidad del experimento.
1. Los yij y los ϵij son variables aleatorias.
2. Los µ y los τi son parámetros.
Estructura de los datos para un ANAVA a una vía de clasificación.
Forma 1:
Replicas Niveles del factor

1 2 3 ... t
1 y11 y12 y13 . . . y1t
2 y21 y22 y23 . . . y2t
.. .. .. .. .. ..
. . . . . .
r yr1 yr2 yr3 ... yrt
Total
# Replicas
µ por ttto
Forma 2:
Tttos Replicas Total µ por ttto

1 2 3 ... r
1 y11 y12 y13 . . . y1r
2 y21 y22 y23 . . . y2r
.. .. .. .. .. ..
. . . . . .
t yt1 yt2 yt3 ... ytr
Expresiones para tener en cuenta
∑
t ∑
r
y.. = yij , esta expresión corresponde a sumar los valores de todas las obser-
i=1 j=1
vaciones recolectadas para el análisis del experimento.
y..
ȳ = , con N = rt el cual denominaremos número total de observaciones.
N
∑
r
yi. = yij , esta expresión corresponde a la suma de las observaciones por
j=1
tratamiento.
yi.
ȳi. = , esta expresión corresponde a el promedio de las observaciones por
r
tratamiento
Expresiones para determinar las fuentes de variabilidad
Total
∑
t ∑
r
y..2
SCT = yij2 −
i=1 j=1
N
Tratamientos
1 ∑ 2 y..2
t
SCtttos = y −
r i=1 i. N
Error
SCE = SCT − SCtttos
FV GL SC CM F
Tttos t − 1 SCttos SCtttos
t−1
= CM tttos CM tttos
CM E
Error N −t SCE SCE
N −t
= CM E
Total N − 1 SCT
Tabla 6.1: Tabla de Análisis de varianza en un DCA.
H0 se rechaza y se concluye que hay diferencias en las medias de los tratamientos si

CM ttos
F0 = > Fα (t − 1, N − t)
CM E
Donde Fα (t − 1, N − t) es el valor tabulado de la distribución F de Fisher con t − 1 y
N − t grados de libertad, a un nivel de significancia α.
1. De acuerdo con el número de repeticiones se tiene ANOVA con grupos iguales

para diseños balanceados, es decir, igual número de repeticiones por tratamiento
o ANOVA con grupos desiguales para diseños desbalanceados, o sea, diferente
número de repeticiones por tratamiento.
2. El objetivo central del ANOVA es la comparación de dos o más tratamientos,

cada uno de los cuales representa una población.
Expresiones para tener en cuenta (DCA desbalanceado)

∑
t ∑
r
y.. = yij , está expresión corresponde a sumar los valores de todas las obser-
i=1 j=1
vaciones recolectadas para el análisis del experimento.
y.. ∑
ȳ = , con N = rj el cual denominaremos número total de observaciones.
N
Expresiones para determinar las fuentes de variabilidad
Total
∑∑ y..2
SCT = yij2 −
i j
N
Tratamientos
∑ y2 y..2
SCtttos = i.
−
i
ri N
Error
SCE = SCT − SCtttos
FV GL SC CM F
Tttos t − 1 SCttos SCtttos
t−1
= CM tttos CM tttos
CM E
= F0
Error N −t SCE SCE
N −t
= CM E
Total N − 1 SCT
Tabla 6.2: Tabla de Análisis de varianza en un DCA para número de repeticiones de-
siguales.
H0 se rechaza si
CM ttos
F0 = > Fα (t − 1, N − t).
CM E
SCtttos
1. % factores controlados = SCT
SCE
2. % factores no controlados = SCT
, efectos de la aleatoriedad de las condiciones
externas no controladas.
Interpretación del ANOVA
1. Cuando σ̂ 2 = CM E es muy grande significa que probablemente no se ha ejercido

un buen control local del experimento.
2. Si SCttos > SCE, entonces los tratamientos tienen mayor contribución al modelo
que los errores o factores no controlados.
3. Si SCE > SCttos, indica que mayor es la variación en las observaciones que
pueden atribuirse al error aleatorio.
Para cada problema experimental es posible hacer estimaciones de sus parámetros:
1. Una estimación de la varianza del error experimental es σ̂ 2 = CM E, es muy útil

para el análisis siempre que las varianzas de los tratamientos sean homogéneas.
2. Una estimación puntual de la media global del experimento es µ̂ = ȳ.. , tiene

sentido estimarse la media sólo cuando no se rechaza H0 .
3. Las medias de los tratamientos se estiman a partir de las medias muéstrales o

medias de grupos para el tratamiento j−ésimo. La estimación es: µ̂j = ȳi. =
∑r
yij /rj
j
4. Los efectos de los tratamientos del factor A son las diferencias entre τ = µj − µ,
los cuales se estiman mediante τ̂ = µ̂j − µ̂.
Ejemplo: Se tienen 4 tratamientos médicos T1 , T2 , T3 , y T4 , aplicables a la misma

enfermedad, y se desea comparar la efectividad de cada uno de ellos.
T1 T2 T3 T4
Replicas
1 41 48 40 40
2 44 49 50 39
3 45 49 44 46
4 43 49 48 46
5 42 45 50 41
Total yi. 215 240 232 212
Medias ȳi. 43.0 48.0 46.4 42.2
Varianzas 2.5 3.0 18.8 11.3
Ejemplo: Para comparar 4 dietas D1 , D2 , D3 , y D4 , respecto a su influencia en el

tiempo de coagulación de la sangre, se seleccionaron 24 animales y cada uno recibió
aleatoriamente una de las dietas.
Replicas T1 T2 T3 T4
1 62 63 68 56
3 60 67 66 62
3 63 71 71 60
4 59 64 67 63
5 65 68 63
6 66 68 64
7 63
8 59
Total yi. 244 396 408 488
Medias ȳi. 61 66 68 61
Varianzas 4 6 6 8
Supuestos del modelo

La validez del análisis de varianza está supeditada al cumplimiento de algunos requisitos
de tipo matemático y probabilístico en los datos u observaciones.
1. Independencia de los errores εij .
2. Distribución normal de los errores εij .
3. Homogeneidad de las varianzas de los tratamientos.
6.2.2. Pruebas de igualdad de varianzas
A continuación, presentamos algunas pruebas de igualdad de varianzas.
Para probar la homogeneidad de varianzas entre los tratamiento, se pueden utilizar las
siguientes pruebas:
Prueba de Bartlett (Sensible al supuesto de normalidad).

H0 : σ12 = σ22 = · · · = σt2 = σ 2
vs
H1 : σi2 = σ 2 para algún i = 1, 2, . . . t
Estadístico de prueba:
q
χ2c = ,
c
∑t
donde, q = (N − t) log10 Sp2 − i=1 (ri − 1) log10 Si2
∑t
c=1+ 1
3(t−1) i=1 (ri − 1)−1 − (N − t)−1 ,
∑t S2
Sp2 = i=1 (ri − 1) N −t
i
,
Si2 : varianza muestral de la i-ésima población.
Región de rechazo:
Rechazo H0 si χ2c > χ21−α,t−1
Prueba LEVENE Modificada (Robusta a las desviaciones de la Nor-

malidad)
En este caso la prueba usa:
dij = |Yij − Yei |, i = 1, 2, . . . , t, j = 1, 2, . . . , ri

Yei : Mediana de las observaciones del i-ésimo nivel o tratamiento.
Esta prueba: Evalúa si la media de las dij son o no iguales para todos los tratamien-
tos.
Si las medias de las desviaciones son iguales entonces las varianzas de las obser-
vaciones en todos los tratamientos deberán ser iguales.
Luego, el estadístico de LEVENE es el estadístico F usual de la ANOVA para

igualdad de medias aplicado a dij .
6.2.3. Comparaciones múltiples
Cuando se rechaza H0 : µ1 = µ2 = · · · = µt , es necesario investigar cuales tratamientos

resultaron diferentes o cuales tratamientos son los responsables de la diferencia. Para
ello se realiza la siguiente prueba:


H0 : µi = µj


H1 : µi ̸= µj , i ̸= j
Existen diferentes métodos para la realización de estas comparaciones:
1. Método LSD (Mínima Diferencia Significativa)

Sirve para hacer la prueba de igualdad de todos los posibles pares de medias: Para
t(t−1)
t-tratamientos se tiene en total 2
pares de medias.
Se rechaza H0 : µi = µj si:
|Ȳi. − Ȳj. | > LSD,

√ ( )
LSD = (t1−α/2,N −t ) M SE r1i + 1
rj
LSD: Es la diferencia mínima que debe existir entre dos medias muestrales para
poder considerar que dos tratamientos son significativamente diferentes.
NOTA: Es una prueba para comparación de dos medias, su uso se justifica si:
Prueba F es significativa
Las comparaciones fueron planeadas antes de la realización del experimento.
2. Método de Tukey (HSD) Diferencia Significativa Honesta:

Este método usa la distribución de probabilidad del rango estudentizado dado
por:
Ȳmáx − Ȳmı́n
q= √ ,
M SE
r
qα (p; f ) : Punto percentil α-superior de la distribución de q donde f son los grados

de libertad asociados al MSE y p: Número de medias.
Se rechaza H0 si:
|Ȳi. − Ȳj. | > T ukey,
√
donde, T ukey = qα (t; f ) M SE/r (Diseño balanceado)
√ ( )
qα (t;f ) 1 1
T ukey = √ M SE + (Diseño desbalanceado)
2 ri rj
Se conoce como la diferencia significativa honesta.
¿Cuándo de usa? Para realizar comparaciones múltiples de medias cuando a posteriori

el diseño evidencia diferencia entre los tratamientos. Es similar a la prueba de Duncan
en cuanto a procedimiento, Duncan es más exigente.
3. Duncan
No necesita la prueba F: Se recomienda cuando ninguna diferencia entre medias

es significativa es un procedimiento potente y efectivo para detectar diferencias
entre medias cuando realmente éstas existen.
|Ȳi. − Ȳj. | > Rp ,

√
donde Rp = rα (p; f ) M SE/r
4. Dunnett
Se usa cuando se desea comparar todos los demás tratamientos con un control.
|Ȳi. − Ȳcontrol | > Dunnett,

√ ( )
donde Dunnett = dα (t − 1, f ) M SE r1i + r1j
5. False Discovery Rate (FDR)
La FDR se define como la proporción de hipótesis nulas verdaderas que se rechazan

dentro del total de hipótesis rechazadas. Ésta controla la proporción q de hipótesis
nulas falsamente rechazadas relativo al número total de hipótesis rechazadas.
Acepto H0 Rechazo H0 Total

H0 verdadera NT DF m0
H0 falsa NF DT m1
Total N D m
donde T : cierto; F : falso; D : descubrimiento (rechazo de H0 ); N : no descubrim-

iento. A partir de esta tabla, la FDR se define como
( )
DF
F DR = E | D > 0 P (D > 0).
D
El procedimiento FDR se reduce a:
a. probar m hipótesis independientes H0,1 , H0,2 , . . . , H0,m a partir de las cuales

se obtienen los estadísticos de prueba T0,m , T0,2 . . . , T0,m y los valores p0,1 , p0,2 , . . . , p0,m ,
respectivamente.
b. calcular κ como { }
i
κ̂ = máx i : p(i) ≤ α
m
para algún nivel de significancia α ∈ (0, 1).
c. rechazar H0,1 , H0,2 , . . . , H0,κ̂ . si no existe tal κ̂, ninguna hipótesis nula podrá
ser rechazada.
Ejemplo: Suponga que se tienen los siguientes valores artificiales de expresión genética
2,3,1,2 de grupo 1, 8,7,9,8 de grupo 2, y 11,12,13,12 de grupo 3. Asignemos estos valores
a un vector Y y construyamos un factor donde indiquemos el grupo al cual pertenece
cada valor.
y=c(2,3,1,2,8,7,9,8,11,12,13,12)
a=gl(3,4)
Hagamos un boxplot de esta variable dependiendo del tratamiento al que pertenece.
boxplot(y~a,notch=T)
10 12
8
6
4
2
1 2 3
Notamos que el boxplot muestra diferencias entre los tratamientos. Verifiquemos esto
con un análisis de varianza.
El análisis de varianza en R lo hacemos de la siguiente forma:
anova(lm(y~a))
Response: y
a 2 202.67 101.333 152 1.159e-07 ***
Residuals 9 6.00 0.667
---
Como el p−valor= 1.159e − 07, rechazamos la hipótesis de igualdad de medias. Usando

α = 0.05, hay diferencias entre las medias de los tratamientos. Esta conclusión va de la
mano con lo que se observa en el boxplot.
Ejemplo: Ahora ilustraremos el análisis de varianza usando los datos del ejemplo 3.1
del libro Diseño y análisis de experimentos de Montgomery, D. segunda Ed, pág 62. El
ejemplo es el siguiente:
Se tiene interés en investigar la resistencia a la tensión de una fibra sintética(lb/pulgada2 )

nueva que se usará para hacer tela de camisetas para caballero. Se sabe que la resisten-
cia a la tensión se afecta por el peso porcentual del algodón utilizado en la mezclade
materiales de la fibra. Además, se sospecha que al aumentar el contenido de algodón se
incrementará la resistencia. Se decide entonces probar ejemplares en cinco niveles del
peso porcentual del algodón: 15, 20, 25, 30 y 35 por ciento. También se decide realizar
cienco réplicas en cada nivel. Los datos se muestran como sigue:
p15=c(7,7,15,11,9)
p20=c(12,17,12,18,18)
p25=c(14,18,18,19,19)
p30=c(19,25,22,19,23)
p35=c(7,10,11,15,11)
porcentaje=gl(5,5,labels=c("p15","p20","p25","p30","p35"))
resistencia=c(p15,p20,p25,p30,p35)
25
20
15
10
p15 p20 p25 p30 p35

En el boxplot podemos notar que existe diferencia entre los tratamientos. Es necesario
realizar en análisis de varianza para verificar esto a través de la prueba F.
anv1=lm(resistencia~porcentaje)
summary(anv1)
anova(anv1)
Los resultado son los siguientes
Call:
lm(formula = resistencia ~ porcentaje)
Residuals:
-3.8 -2.6 0.4 1.4 5.2
Coefficients:
(Intercept) 9.800 1.270 7.719 2.02e-07 ***
porcentajep20 5.600 1.796 3.119 0.005409 **
porcentajep25 7.800 1.796 4.344 0.000315 ***
porcentajep30 11.800 1.796 6.572 2.11e-06 ***
porcentajep35 1.000 1.796 0.557 0.583753
---

Response: resistencia
porcentaje 4 475.76 118.94 14.757 9.128e-06 ***
Residuals 20 161.20 8.06
El p−valor de la prueba F nos permite rechazar la hipótesis de igualdad de medias.

Ahora bien, de los p−valores correspondientes a los t-test (2.02 × 10−7 , 0.005409,
0.000315, 2.11 × 10−6 , y 0.583753) podemos concluir que rechazamos las hipótesis nulas
H0 : µp15 = 0, H0 : µp20 − µp15 = 0, H0 : µp25 − µp15 = 0, H0 : µp30 − µp15 = 0 y
H0 : µp35 − µp15 = 0, respectivamente. Cabe notar que en esta prueba inicial sobre un
grupo de referencia, no se ha realizado corrección del p-valor por múltiples pruebas.
Como hemos aplicado un modelo lineal en el análisis de varianza, debemos chequear

los supuestos. En este caso, hay que verificar que los errores sean independientes y nor-
malmente distribuidos. Además, Hay que chequear el supuesto de homocedasticidad de
varianza.
Hagamos un chequeo gráfico de los dos primeros.
opar=par()
par(mfrow=c(2,2))
plot(anv1)
par(opar)

6
3 3
2
24 24
4
1
Residuals
2
0
0
−2
−1
−4
21
21
10 12 14 16 18 20 22 −2 −1 0 1 2
Constant Leverage:
Scale−Location Residuals vs Factor Levels
3
3
2
24
1.2
21 24
1
0.8
0
0.4
−1
21
0.0
porcentaje :
10 12 14 16 18 20 22 p15 p20 p25 p30 p35
Fitted values Factor Level Combinations
Gráficamente notamos una posible violación al supuesto de normalidad. Verifiquemos

esto con pruebas estadísticas.
Hagamos el test de Shapiro-Wilk para verificar normalidad.
shapiro.test(residuals(anv1))
data: residuals(anv1)
W = 0.94387, p-value = 0.1818
Podemos notar que no se rechazada la hipótesis de normalidad de los errores con un

nivel α = 0.05, pues (p−valor=0.1818).
Por otro lado, verifiquemos el supuesto de homocedasticidad de varianzas usando el test

de Bartlett el cual es sensible al supuesto de normalidad.
En R usamos la función bartlett.test(). NOTA: en caso de rechazo de normalidad,

usamos el test leveneTest() del paquete car.
bartlett.test(resistencia~porcentaje)
Bartlett test of homogeneity of variances
data: resistencia by porcentaje

Bartlett’s K-squared = 0.93309, df = 4, p-value = 0.9198
Como p−valor=0.9198, no rechazamos la hipótesis de igualdad de varianza.
Si hay únicamente desviaciones de varianzas iguales, podemos llevar a cabo el test

propuesto por Welch (1951) sobre una alternativa de comparación de medias cuando el
supuesto de homocedasticidad es violado. Para ello, usamos la función oneway.test()
de R.
Por ejemplo, haríamos lo siguiente:
oneway.test(resistencia~porcentaje)
One-way analysis of means (not assuming equal variances)
data: resistencia and porcentaje

F = 12.451, num df = 4.0000, denom df = 9.9164, p-value = 0.0006987
Con este resultado, rechazaríamos la hipótesis de igualdad de medias.
En caso de que el supuesto de normalidad sea violado, debemos hacer un test no

paramétrico. Se recomienda usar el test de suma de rangos de Kruskal-Wallis el cual
puede ser visto como una generalización del test de Wilcoxon. En R, usamos la función
kruskal.test().
kruskal.test(resistencia~porcentaje)
Kruskal-Wallis rank sum test
data: resistencia by porcentaje

Kruskal-Wallis chi-squared = 19.064, df = 4, p-value = 0.0007636
De igual forma, como p−valor=0.0007636, rechazamos la hipótesis de igualdad de me-

dias entre los tratamientos usando α = 0.05.
Comparaciones múltiples: luego de detectar diferencias entre las medias de los

tratamientos, es de interés conocer cuáles niveles o combinaciones de niveles son difer-
entes.
En caso de no rechazar el supuesto de normalidad, podemos usar la función pairwise.t.test(),

de lo contrario, usamos la función pairwise.wilcox.test(). Estas funciones real-
izan comparaciones entre niveles de grupos usando corrección para múltiples pruebas.
Además, estas funciones permiten, mediante el argumento p.adj, seleccionar el método
de comparación deseado, entre otros tenemos ’bonferroni’ y ’fdr’.
Para nuestro ejemplo, como se cumple el supuesto de normalidad, hacemos lo siguiente.
pairwise.t.test(resistencia,porcentaje,p.adj="fdr")
Pairwise comparisons using t tests with pooled SD
data: resistencia and porcentaje
p15 p20 p25 p30

p20 0.0090 - - -
p25 0.0010 0.2608 - -
p30 2.1e-05 0.0050 0.0469 -
p35 0.5838 0.0266 0.0029 3.5e-05
P value adjustment method: fdr
Notamos a un nivel α = 0.05, que hay diferencias significativas entre los promedios de
los tratamientos excepto entre p15 y p35, y p20 y p25, respectivamente. Note que la
diferencia más significativa se presenta entre los grupos p15 y p30.
6.2.4. Otras estrategias cuando se violan los supuestos
Una causa común de heterogeneidad de varianza entre los niveles de los tratamientos
es una relación no lineal entre la respuesta y los tratamientos. Una forma de corregir
esta situación es transformar la variable respuesta.
Transformación Box-Cox
Box and Cox (1964) propuso una serie de transformaciones potencia Y = y λ que nor-
malmente trabajan bien. Si la varianza tiende a incrementarse a medida que la media
incrementa, seleccione un valor de λ < 1, si la varianza tiende a decrecer a medida que
la media se incrementa, seleccione λ > 1.
En un DCA con réplicas en cada nivel de los tratamientos, una forma de determinar
el valor más apropiado de λ es graficar el máximo de la función de log verosimilitud,
versus el valor de λ usado en la transformación de los datos. El valor de λ que maximiza
la log verosimilitud puede ser el más apropiado para la transformación Box-Cox. Este
gráfico es llamado el Box-Cox plot y se puede obtener con la función boxcox del paquete
MASS de R.
Para nuestro ejemplo, tenemos los siguiente:
library(MASS)
anv1=lm(resistencia~porcentaje)
bc <- boxcox(anv1)
lambda <- bc$x[which.max(bc$y)]
lambda
95%
0
log−Likelihood
−5
−10
−15
−2 −1 0 1 2
Podemos notar que el valor recomendado para λ es 1.192. Note que el intervalos de
confianza para λ (línea punteada) incluye el 1, es decir, sin transformación. Esto nos
puede indicar la incertidumbre que tenemos acerca de una posible heterogeneidad de las
varianzas de los tratamientos. Sin embargo, a manera de ejemplo, consideremos dicha
transformación.
t.resistencia= resistencia^(1.191919)
anv2=lm(t.resistencia~porcentaje)
anova(anv2)
Response: t.resistencia
porcentaje 4 1905.13 476.28 15.149 7.542e-06 ***
Residuals 20 628.79 31.44
Note que el p-valor para los tratamientos en el modelo transformado disminuyó de

9.13 × 10−6 (modelo 1) a 7.54 × 10−6 . Por lo tanto, la transformación ha hecho que el
análisis sea ligeramente más sensible.
Para los experimentos donde la heterogeneidad de la varianza es más pronunciada, la
transformación de Box-Cox puede aumentar enormemente la sensibilidad en la detección
de los efectos del tratamiento.
Transformaciones basadas en distribución
Cuando de antemano se conoce que no se cumple que Yij ∼ N (µ+τi , σ 2 ), y que los datos
siguen una distribución como la Binomial, Poisson o Lognormal, por ejemplo, entonces
también se sabría que la desviación estándar no sería constante. En situaciones como
estas, donde la distribución de la variable respuesta es conocida y sigue una forma
específica, se propone las siguientes transformaciones.
Respuesta Varianza en términos de la media Transformación f (y)

√
Binomial µ(1−µ)
n
sin−1 y/n √(radianes)
√
Poisson µ y o y + 12
Lognormal cµ2 log(y)
Alternativa a análisis de mínimos cuadrados

Cuando la varianza del error experimental no es constante para todos los niveles de los
tratamientos, una transformación puede no ser adecuada para estabilizar la varianza.
Una solución más general a este problema es usar mínimos cuadrados ponderados.
Como ilustración de este método, considere el siguiente código de R para analizar los
datos de nuestro ejemplo:
da1=data.frame(resistencia,porcentaje)
with(da1,{std=tapply(resistencia,porcentaje,sd)
pesos=rep(1/std,each=5)
anv3=lm(resistencia~porcentaje,weights=pesos,data=da1)
anova(anv3)
})

Response: resistencia
porcentaje 4 169.107 42.277 15.075 7.817e-06 ***
Residuals 20 56.088 2.804
Notamos que los resultados son muy similares respecto a la transformación Box-Cox.
6.3. Contrastes
Un contraste es toda combinación lineal de medias de tratamiento, donde la suma
algebraica de sus coeficientes es igual a cero. En general una combinación lineal o
contraste es de la forma:
∑
t
Γ = c1 µ1 + c2 µ2 + · · · + ct µt = ci µi
i=1
∑t
donde se cumple que i=1 ci = 0.
En cualquier experimento se puede presentar la necesidad de comparar grupos de

tratamientos, en estos casos el método de los contrastes resulta una alternativa para
llevar a cabo dichas comparaciones.
Para entender un poco más la idea de los contrastes, continuemos con el ejemplo an-
terior, donde a un ingeniero de desarrollo de productos le interesa determinar si el
peso porcentual del algodón en una fibra sintética afecta la resistencia a la tensión.
Recuerde que este es un experimento completamente aleatorizado con cinco niveles del
peso porcentual del algodón y cinco réplicas. Los datos se muestran en la siguiente
tabla.
Repeticiones Totales Promedios

Niveles de peso 1 2 3 4 5 yi ȳi
T1 7 7 15 11 9 49 9.8
T2 12 17 12 18 18 77 15.4
T3 14 18 18 19 19 88 17.6
T4 19 25 22 19 23 108 21.6
T5 7 10 11 15 11 54 10.8
y.. = 376 ȳ.. = 15.04
Si observamos en el boxplot de la resistencia vs porcentaje (ver gráfico), podemos notar

que existen diferencias entre los tratamientos. Aquí, puede ser de interés, por ejemplo,
saber si los promedios de los niveles 1 y 2, no difieren del promedio de los niveles 4 y
5, es decir, promedio de niveles más bajos vs promedio de niveles más altos, por lo que
podemos estar interesados en el siguiente test:
H0 : µ1 + µ2 − µ4 − µ5 = 0 vs Ha : µ1 + µ2 − µ4 − µ5 ̸= 0
resistencia=c(7,7,15,11,9,12,17,12,18,18,14,18,18,19,19,19,25,
22,19,23,7,10,11,15,11)
porcentaje=gl(5,5,labels=c(’p15’,’p20’,’p25’,’p30’,’p35’))
boxplot(resistencia~porcentaje,ylab=’Resistencia’,xlab=’Porcentaje
de algodón’)
25
20
Resistencia
15
10
p15 p20 p25 p30 p35

Porcentaje
de algodón
De forma general, se quiere contrastar la siguiente hipótesis:
∑
t ∑
t
H0 : ci µi = 0 vs Ha : ci µi ̸= 0
i=1 i=1
Las constantes de los contrastes para la hipótesis de nuestro ejemplo son: c1 = c2 = 1,

c3 = 0, y c4 = c5 = −1.
Se tienen dos opciones de estadísticos de prueba:
1. El estadístico t-student, el cual está escrito en términos de los totales de los

tratamientos ∑t
i=1 ci yi.
t0 = √ ∑
nM SE ti=1 ci
La hipótesis nula se rechazaría si |t0 | > tα/2,N −t .
2. El estadístico F de Fisher
(∑t )2
i=1 ci yi.
F0 = t20 = ∑
nM SE ti=1 ci
La hipótesis nula se rechazaría si F0 > Fα,1,N −t .
Contrastes ortogonales
Dos contrastes con coeficientes {ci } y {di } son ortogonales o independientes si
∑
t
ci di = 0,
i=1
o para un diseño no balanceado, si
∑
t
n i c i di = 0
i=1
Se puede probar que dados t tratamientos, se pueden obtener a lo más t − 1 contrastes

ortogonales cada uno con 1 grado de libertad. Por lo tanto, las pruebas que se realizan
en los contrastes ortogonales son independientes.
En nuestro ejemplo, suponga que estamos interesados en las siguientes contrastes or-
togonales:
H0 : µ2 + µ3 − µ4 − µ5 = 0 vs Ha : µ2 + µ3 − µ4 − µ5 ̸= 0
H0 : 4µ1 − µ2 − µ3 − µ4 − µ5 = 0 vs Ha : 4µ1 − µ2 − µ3 − µ4 − µ5 ̸= 0
H0 : µ2 − µ3 = 0 vs Ha : µ2 − µ3 ̸= 0
H0 : µ4 − µ5 = 0 vs Ha : µ4 − µ5 ̸= 0
install.packages(’gmodels’)
library(gmodels)
MatrizContraste= rbind(’T2;T3 vs T4;T5’=c(0,1,1,-1,-1),
’T1 vs resto’=c(4,-1,-1,-1,-1),
’T2 vs T3’=c(0,1,-1,0,0), ’T4 vs T5’=c(0,0,0,1,-1))
mo=lm(resistencia~porcentaje)
Contrastes=fit.contrast(mo,’porcentaje’,MatrizContraste,conf=0.95)
Contrastes
Estimate Std. Error t value Pr(>|t|) lower CI upper CI

porcentajeT2;T3 vs T4;T5 0.6 2.539291 0.2362864 8.156135e-01 -4.696869 5.896869
porcentajeT1 vs resto -26.2 5.678028 -4.6142782 1.676859e-04 -38.044158 -14.355842
porcentajeT2 vs T3 -2.2 1.795550 -1.2252513 2.347148e-01 -5.945452 1.545452
porcentajeT4 vs T5 10.8 1.795550 6.0148699 7.011202e-06 7.054548 14.545452
Ejercicio:
Considere los datos de un experimento para determinar el efecto del tiempo respecto
a la altura o elevación de la masa de pan. Si el experimentador desea examinar tres
tiempos de elevación diferentes (35 minutos, 40 minutos y 45 minutos) y probar cuatro
barras de pan repetidas en cada tiempo. Los datos son los siguientes:
Tiempo Altura
35 4.5, 5, 5.5, 6.75
40 6.5, 6.5, 10.5, 9.5
45 975, 8.75, 6.5, 8.25
Estudie el posible efecto usando la teoría previamente vista.
6.4. Diseño en Bloques Completamente Aleatorizados-

DBCA
El objetivo principal de cualquier diseño estadístico es la reducción del error experi-
mental.
Generalmente el tamaño de este error depende de la variabilidad de las U.E., es decir que
si las U.E. son homogéneas se espera que la media cuadrática del error sea relativamente
pequeña y, por tanto las pruebas como las estimaciones subsiguientes tendrán mayor
sensibilidad y precisión.
En muchas investigaciones es necesario diseñar el experimento de tal forma que se pue-
da controlar sistemáticamente la variabilidad producida por diversas fuentes extrañas
(variables exógenas). Cuando esto no ocurre y existen otros factores que no se controlan
o nulifican los resultados del ANAVA, las comparaciones entre medias de tratamiento
y las conclusiones generales podrán resultar sensiblemente afectadas.
Ejemplos:
Se desean comparar varias máquinas en cuanto a su desempeño (unidades pro-

ducidas); si cada máquina es manejada por un operador diferente y se sabes que
éste tiene una influencia en el resultado, entonces es claro que el factor operador
debe tomarse en cuenta si se quiere comparar las máquinas de manera justa.
Un experimentador quisiera comparar varios métodos de ejercicio aeróbico para

ver cómo afecta el nivel de estrés y ansiedad de los sujetos experimentales. Dado
que existe una gran variabilidad en los niveles de estrés y ansiedad en la población
general, medida por puntajes de prueba estandarizados, sería difícil ver cualquier
diferencia entre los diversos métodos de ejercicio a menos que los sujetos reclutados
para el estudio fueran un grupo homogéneo, cada uno similar en su nivel de estrés.
Sin embargo, al experimentador le gustaría sacar conclusiones generales de su
estudio a personas de todos los niveles de estrés en la población general.
En diseño experimental, esta forma de anular una fuente de variabilidad externa se

conoce con el nombre de bloqueo.
En un DBCA con un tratamiento factor, cuando el factor tiene t niveles, pueden haber
b bloques (o subgrupos de unidades experimentales homogéneas) donde cada uno con-
tenga exactamente t unidades experimentales, para un total de t×b U.E. Las t unidades
experimentales en cada bloque son tan similares como sea posible, y los grupos de
unidades experimentales varían lo suficiente de bloque a bloque permitiendo hacer con-
clusiones generales en el estudio.
La aleatorización de las unidades experimentales a los niveles del factor tratamiento
en un DBCA se puede realizar usando un código R. Para ilustrar dicha aleatorización,
veamos el siguiente ejemplo: un estudiante quiere investigar un mito sobre un método
para extender la vida de las flores cortadas. El factor tratamiento fue el líquido para
llenar el vaso. Los niveles fueron:
El agua
El agua con una cucharada de azúcar añadida
El agua con una copa de agua carbonatada
El agua con una copa de 7up
Las unidades experimentales fueron las flores y la respuesta fue el tiempo en días hasta
que la flor se marchitara. Los estudiantes querían que sus conclusiones se puedan aplicar
en muchos tipos de flores, por lo que usaron un DBCA. Los bloques fueron:
Rosa
Clavel
Margarita
Tulipán
El código R para el ejemplo es como sigue:
f = factor(c(1,2,3,4))
b1t = sample(f,4)
b2t = sample(f,4)
b3t = sample(f,4)
b4t = sample(f,4)
t = c(b1t,b2t,b3t,b4t)
block = factor(rep(c(’Rosa’,’Clavel’,’Margarita’,’Tulipán’),each=4))
flnum = rep(f,4)
plan = data.frame(TipoFlor=block,NumFlor=flnum,Tratamiento=t)
write.table(plan,file=’DBCAPlan.csv’,sep =’,’,row.names=FALSE)
El DBCA también puede ser creado usando la función design.rcbd del paquete agricolae
de R. El código R es como sigue:
install.packages(’agricolae’)
library(agricolae)
treat = c(1,2,3,4)
outdesign = design.rcbd(treat, 4, seed = 11)
rcb = outdesign$book
levels(rcb$block) <- c(’Rosa’,’Clavel’,’Margarita’,’Tulipán’)
Modelo para el DBCA

El modelo para el análisis de un DBCA es:
yij = µ + bi + τj + ϵij ,
donde
yij : es la medición de la variable de estudio Y que corresponde al tratamiento j

y al bloque i
µ : es la media general común a todos los tratamientos
bi : es el efecto medio adicional debido al bloque i

τj : es el efecto medio adicional debido al tratamiento j
ϵij : es el error aleatorio atribuible a la medición yij
Se supone que los errores son iid con distribución normal de media cero y varianza
constante σ 2 , N (0, σ 2 ).
Nuevamente el interés radica en saber si estadísticamente existen diferencias significa-
tivas entre los tratamientos, y por otro lado, pero ya en un segundo plano, determinar
si el bloqueo fue efectivo.
Así, las pruebas de hipótesis correspondientes son:
Para los tratamientos:
H0 : µ.1 = µ.2 = · · · = µ.t vs Ha : µ.j ̸= µ.j ′ para algún j ̸= j ′
Para los bloques:
H0 : µ1. = µ2. = · · · = µb. vs Ha : µi. ̸= µi′ . para algún i ̸= i′
∑
b ∑
t
SCT otal = (yij − ȳ.. )2
i=1 j=1
∑
b ∑
t ∑
b ∑
t ∑
b ∑
t
= (ȳi. − ȳ.. ) +
2
(ȳ.j − ȳ.. ) +
2
(yij − ȳi. − ȳ.j + ȳ.. )2 ,
i=1 j=1 i=1 j=1 i=1 j=1
es decir, SCT otal = SCBloq + SCT T O + SCEE .

La tabla ANAVA para un DBCA está dada como sigue:

SCBloq M SBloq
Bloques b−1 SCBloq M SBloq = b−1 M SEE
Tratamientos t−1 SCT T O M ST T O = SCt−1
TTO M ST T O
M SEE
Error (b − 1)(t − 1) SCEE SCEE
M SEE = (b−1)(t−1)
Total bt − 1 SCT otal
La estimación de la varianza de las unidades experimentales homogéneas dentro de cada

bloque esta dado por:
2 SCEE
σ̂dbca =
(b − 1)(t − 1)
Se puede hacer una estimación de la varianza de todo el grupo de unidades experimen-

tales heterogéneas a partir de los cuadrados medios en el ANOVA del DBCA. Está dada
por la fórmula.
2 SCBloq + SCEE
σ̂dca = ,
t(b − 1)
el cual es un promedio ponderado del cuadrado medio para bloques y el cuadrado medio
para el error.
La eficiencia relativa de el DBCA es dada por la fórmula:

2
(νdbca + 1)(νdca + 3)σ̂dca
RE = 2
,
(νdbca + 3)(νdca + 1)σ̂dbca
donde νdbca = (b − 1)(t − 1) son los grados de libertad del error en el DBCA, y
νdca = t(b − 1) son los grados de libertad para el error en un DCA con el mismo
número de unidades experimentales.
Se puede usar RE para determinar el número de observaciones que se requerirían en un

DCA, con unidades experimentales heterogéneas, para tener las variaciones para las me-
dias de tratamiento equivalentes a las logradas con el DBCA. Si se usaran b×t unidades
experimentales en el diseño DBCA, entonces se requerirían RE × (b × t) unidades ex-
perimentales en un diseño DCA, sin bloqueo, para alcanzar variaciones equivalentes de
las medias de tratamiento.
Ejemplo 1:
En una empresa lechera se tienen varios silos para almacenar leche (cisternas de 60000L).
Un aspecto crítico para que se conserve la leche es la temperatura de almacenamiento.
Se sospecha que en algunos silos hay problemas, por ello, durante cinco días se decide
registrar la temperatura a cierta hora crítica. Obviamente la temperatura de un día
a otro es una fuente de variabilidad que podría impactar la variabilidad total de la
variable temperatura de la leche. Por estas razones se tuvo que bloquear por día de
medición. Los datos se presentan a continuación:
Silo
Día A B C D E
Lunes 4.0 5.0 4.5 2.5 4.0
Martes 4.0 6.0 4.0 4.0 4.0
Miércoles 5.0 2.0 3.5 6.5 3.5
Jueves 0.5 4.0 2.0 4.5 2.0
Viernes 3.0 4.0 3.0 4.0 4.0
Las hipótesis a probar son:

Para los tratamientos:
H0 : µ.A = µ.B = µ.C = µ.D = µ.E vs Ha : µ.j ̸= µ.j ′ para algún j ̸= j ′
Para los bloques:
H0 : µ1. = µ2. = µ3. = µ4. = µ5. vs Ha : µi. ̸= µi′ . para algún i ̸= i′
Los datos los ingresamos a R de la siguiente manera:
block = factor(rep(c("Lunes","Martes","Miércoles","Jueves","Viernes"),
each=5))
f = factor(rep(c("A","B","C","D","E"),5))
temp=c(4.0, 5.0, 4.5, 2.5, 4.0,
4.0, 6.0, 4.0, 4.0, 4.0,
5.0, 2.0, 3.5, 6.5, 3.5,
0.5, 4.0, 2.0, 4.5, 2.0,
3.0, 4.0, 3.0, 4.0, 4.0)
plan = data.frame(día=block,trat=f,temp=temp)
plan
El modelo se escribe como sigue:
attach(plan)
mod=aov(temp~día+trat)
summary(mod)

día 4 9.76 2.440 1.511 0.246
trat 4 4.46 1.115 0.690 0.609
Residuals 16 25.84 1.615
A un nivel de significancia del 5 %, no rechazamos la hipótesis de igualdad de medias

de tratamientos.
Ejemplo 2:
Considere los siguientes datos cuyo experimento corresponde al efecto del fármaco sulfa-
to de d-anfetamina sobre el comportamiento de las ratas (Lawson, J. (2014)).
El comportamiento estudiado en las ratas fue la velocidad a la que estas, privadas de

agua, presionaron una palanca para obtener agua. La respuesta fue la tasa de presión
de la palanca, definida como el número de presiones de palanca divididas por el tiempo
transcurrido de la sesión. Los niveles de factor de tratamiento fueron diferentes dosis
del fármaco en miligramos por kilogramo de peso corporal, incluida una dosis de control
que consistía en una solución salina. Un experimento, o corrida, consistió en inyectar

una rata con una dosis de medicamento, y después de una hora comenzar la sesión
experimental en la que una rata recibiría agua cada vez que se presionaba una segunda
palanca.
Rat 0.0 0.5 1.0 1.5 2.0

1 0.60 0.80 0.82 0.81 0.50
2 0.51 0.61 0.79 0.78 0.77
3 0.62 0.82 0.83 0.80 0.52
4 0.60 0.95 0.91 0.95 0.70
5 0.92 0.82 1.04 1.13 1.03
6 0.63 0.93 1.02 0.96 0.63
7 0.84 0.74 0.98 0.98 1.00
8 0.96 1.24 1.27 1.20 1.06
9 1.01 1.23 1.30 1.25 1.24
10 0.95 1.20 1.18 1.23 1.05
Los datos hacen parte de la librería daewr de R. El modelo es entonces como sigue:
install.packages("daewr")
library(daewr)
mod1 = aov( rate ~ rat + dose, data = drug )
summary(mod1)

rat 9 1.6685 0.18538 22.20 3.75e-12 ***
dose 4 0.4602 0.11505 13.78 6.53e-07 ***
Residuals 36 0.3006 0.00835
Los resultados del Anova muestran que hay una diferencia significativa en los promedios
de los niveles de los tratamientos usando un nivel de significancia del 5 %. Por lo que
se requiere hacer comparaciones de medias.
La función contr.poly puede ser usada para calcular el contraste lineal, cuadrático o
cúbico para la dosis.
contrasts(drug$dose) = contr.poly(5)
mod2 = aov( rate ~ rat + dose, data = drug)
summary.aov(mod2,split = list(dose = list("Linear" = 1,"Quadratic" = 2,
"Cubic" = 3, "Quartic" = 4)))
Los resultados muestran que existe una tendencia lineal y cuadrática significativa en la
tasa de presión de la palanca sobre la dosis del fármaco.

rat 9 1.6685 0.1854 22.205 3.75e-12 ***
dose 4 0.4602 0.1151 13.781 6.53e-07 ***
dose: Linear 1 0.0610 0.0610 7.308 0.0104 *
dose: Quadratic 1 0.3943 0.3943 47.232 4.83e-08 ***
dose: Cubic 1 0.0041 0.0041 0.491 0.4882
dose: Quartic 1 0.0008 0.0008 0.094 0.7613
Residuals 36 0.3006 0.0083
Las tendencias lineales y cuadráticas significativas en el rango de dosis se pueden visu-

alizar graficando las medias como función de la dosis.
R = do.call("cbind", split(drug$rate, drug$rat))

y = apply(R, 1, mean )
x = as.double( levels(drug$dose) )
plot( x, y, xlab = "dose", ylab = "average lever press rate" )
xx = seq( 0.0, 2.0, .1 )
rate.quad <- lm( y ~ poly( x, 2) )
lines(xx, predict( rate.quad, data.frame( x = xx) ))
1.00
0.95
average lever press rate
0.90
0.85
0.80
0.0 0.5 1.0 1.5 2.0
dose
La varianza estimada de las unidades experimentales (ensayos) dentro de un bloque (o

2
rata) es el error cuadrático medio σ̂rcb = 0.00835.
La varianza de las unidades experimentales heterogéneas está dada por
2 1.6685 + 0.3006
σ̂crd = = 0.04376
5(9)
Note que esta es aproximadamente cinco veces mayor que la varianza dentro de una
rata y demuestra la efectividad del bloqueo por rata en el experimento.
La eficiencia relativa está dada por:
2
(νdbca + 1)(νdca + 3)σ̂dca (37)(48)0.04376
RE = 2
= = 5.2413
(νdbca + 3)(νdca + 1)σ̂dbca (39)(46)0.00835
Esto significa que el bloqueo ha reducido la varianza de las unidades experimentales

aproximadamente 80 % = 1 − 0.00835
0.04376
, y que tomaría aproximadamente cinco veces más
ensayos tener las varianzas equivalentes para las medias de tratamiento si cada rata se
hubiera utilizado para solo un ensayo en un DCA, y la variabilidad de rata a rata no
se había eliminado del término de error.
ANAVA no paramétrico para un DBCA

Cuando el diseño es en bloques y el análisis paramétrico no cumple con los supuestos
del modelo, la prueba de Friedman, basada en rangos, es una alternativa no paramétrica
para el análisis de la información.
Este también es conocida como ANAVA no paramétrico para un DBCA. La hipótesis
a contrastar es:
H0 : µ.1 = µ.2 = · · · = µ.t vs Ha : µ.j ̸= µ.j ′ para algún j ̸= j ′
Los pasos a seguir son los siguientes:
Asignar rango a las observaciones de cada bloque, en forma independiente, de

menor a mayor.
Sumar los rangos para cada tratamiento.
Calcular el estadístico de prueba y compararlo con el valor de la tabla correspon-

diente.
La estadística de prueba correspondiente es:
12 ∑ t
H= R2 − 3b(t + 1),
tb(t + 1) j=1 .j
donde b es el número de bloques y t el número de tratamientos utilizados en el ex-

perimento. R.j es la suma de los rangos asignados a las observaciones del j−ésimo
tratamiento.
La estadística H tiene distribución χ2 con t − 1 grados de libertad, así H0 es rechazada
a un nivel de significancia α si H > χ2α,t−1 .
Para ilustrar la prueba de Friedman en R nuevamente usaremos el Ejemplo 1.
block = factor(rep(c("Lunes","Martes","Miércoles","Jueves","Viernes"),
each=5))
f = factor(rep(c("A","B","C","D","E"),5))
temp=c(4.0, 5.0, 4.5, 2.5, 4.0,
4.0, 6.0, 4.0, 4.0, 4.0,
5.0, 2.0, 3.5, 6.5, 3.5,
0.5, 4.0, 2.0, 4.5, 2.0,
3.0, 4.0, 3.0, 4.0, 4.0)
plan = data.frame(día=block,trat=f,temp=temp)
library(agricolae)
attach(plan)
Fried=friedman(día,trat,temp,alpha=0.05,group=T)
Fried
$‘statistics‘
Chisq Df p.chisq F DFerror p.F t.value LSD
3.853659 4 0.4261731 0.9546828 16 0.4586031 2.119905 9.642074
$parameters
test name.t ntr alpha
Friedman trat 5 0.05
$means
temp rankSum std r Min Max Q25 Q50 Q75
A 3.3 11.5 1.7175564 5 0.5 5.0 3.0 4.0 4.0
B 4.2 19.0 1.4832397 5 2.0 6.0 4.0 4.0 5.0
C 3.4 13.0 0.9617692 5 2.0 4.5 3.0 3.5 4.0
D 4.3 17.5 1.4404860 5 2.5 6.5 4.0 4.0 4.5
E 3.5 14.0 0.8660254 5 2.0 4.0 3.5 4.0 4.0
$comparison
NULL
$groups
Sum of ranks groups
B 19.0 a
D 17.5 a
E 14.0 a
C 13.0 a
A 11.5 a
attr(,"class")
[1] "group"
Entonces, no existen diferencias significativas entre los tratamientos (Silos).

Ejercicio:
Se llevó a cabo un experimento con 5 diluciones de jugo de naranja agria desamargada
enzimáticamente. Los tratamientos fueron:
T1: 100 % de naranja agria y 0 % de agua,
T2: 75 % de naranja agria y 25 % de agua,
T3: 50 % de naranja agria y 50 % de agua
T4: 25 % de naranja agria y 75 % de agua y
T5: 1 % de naranja agria y 99 % de agua.
Se tomaron 10 catadores previamente entrenados, quienes calificaron, en general, cada

bebida en una escala de 0 a 10. Los datos son los siguientes:
Catador T1 T2 T3 T4 T5
1 9 7 8 8 5
2 7 9 7 7 8
3 7 9 8 8 8
4 9 8 9 9 6
5 7 8 7 8 7
6 7 9 7 6 8
7 8 8 6 8 8
8 8 9 7 7 8
9 7 9 6 7 7
10 8 9 6 8 8
Verificar si existen diferencias en la calificación para las cinco diluciones de jugo de

naranja agria y compare los resultados con un DCA.
6.5. Diseños factoriales

Una estrategia para la experimentación cuando se tienen múltiples factores es usar un
diseño factorial. En un diseño factorial las celdas corresponden a las posibles combina-
ciones de los niveles de los factores bajo estudio. El diseño factorial acentúa el efecto
de los factores, permite la estimación de efectos de interdependencia (interacciones), y
es la primera técnica en la categoría llamada diseño de tratamientos.
Al examinar todas las combinaciones posibles de niveles del factor, el número de repeti-
ciones de un nivel específico de un factor se incrementa por el producto del número de
niveles de todos los otros factores en el diseño, y así se puede obtener la misma potencia
o precisión con menos réplicas.
Interacción
Si hay una interacción o efecto conjunto entre dos factores, entonces el efecto de un
factor sobre la respuesta variará dependiendo del nivel del otro factor. Las interacciones
son comunes en el mundo real, pero cuando se usa una estrategia de diseño uno a uno
(con un solo factor), se asume que no existe interacciones, lo cual puede ir en contra de
los resultados obtenidos.
La siguiente Tabla muestra los resultados de un experimento factorial llevado a cabo
por Derringer (1974) para determinar el efecto de los compuestos de elastómero sobre
la sílice de viscosidad a 100o C. El compuestos de elastómero estudiados fueron aceite
de nafteno, en 4 niveles, y contenido de relleno, en 6 niveles.
Relleno (phr)
Nafteno (phr) 0 12 24 36 48 60
0 25 30 35 40 50 60
10 18 21 24 28 33 41
20 13 15 17 20 24 29
30 11 14 15 17 18 25
Los datos los podemos ingresar en R como sigue:
naft=rep(c(0,10,20,30),each=6)
fill1=rep(c(0,12,24,36,48,60),times=4)
resp=scan()
25 30 35 40 50 60
18 21 24 28 33 41
13 15 17 20 24 29
11 14 15 17 18 25
d1=data.frame(naft,fill1,resp)
View(d1)
attach(d1)
El gráfico de interacción se obtiene con la siguiente instrucción.
with(d1, (interaction.plot(fill1, naft, resp, type = "b",

pch=c(18,24,22,20), leg.bty = "o",
main = "Gráfico de interacción de nafteno y relleno",
xlab = "Relleno",ylab = "Viscosidad")))
Gráfico de interacción de nafteno y relleno

60
naft
0
10
50
20
30
40
Viscosidad
30
20
10
0 12 24 36 48 60
Relleno
La Figura anterior muestra una representación gráfica de los datos de la tabla. Notamos
que a medida que el relleno aumenta de 0 a 60, la viscosidad aumenta a lo largo de una
tendencia bastante lineal. Sin embargo, la pendiente de la línea de tendencia depende
del nivel de aceite de nafteno. Cuando no se agrega aceite de nafteno, aumentar el
relleno de 0 a 60 hace que la viscosidad aumente rápidamente de 25 a 60; pero cuando
hay 30 phr de aceite de nafteno, aumentar el relleno de 0 a 60 provoca un aumento más
gradual de la viscosidad de 11 a 25.
Dado que las interacciones son comunes en los experimentos factoriales, es importante
aprender a explicar o interpretar una interacción para presentar claramente los resul-
tados de los estudios de investigación. Esto se hace mejor describiendo el efecto de un
factor sobre la respuesta, y luego contrastando o comparando cómo ese efecto cambia
dependiendo del nivel del otro factor. El gráfico de interacción es una buena herramienta
para interpretar este tipo de efecto.
Creación de plan factorial de dos factores en R
Un diseño factorial puede ser creado en R de diferentes maneras. Por ejemplo, se puede
usar la función expand.grid para crear un data frame que contenga todas las posibles
combinaciones de los factores.
D=expand.grid(F1=c(3.25, 3.75, 4.25),F2=c(4, 5, 6))

D
Como se puede observar, este código crea un diseño factorial sin réplicas 32 para los
factores F1 y F2. Para crear las réplicas podemos usar la función rbind.
D=rbind(D,D)
Para aleatorizar podemos usar la función sample.
set.seed(123)
D=D[order(sample(1:18)), ]
D
6.5.1. Análisis de un diseño de dos factores
El modelo matemático para un diseño factorial completamente aleatorizado de dos

factores se puede escribir como sigue:
yijk = µij + ϵijk ,
donde i representa el nivel del primer factor, j representa el nivel del segundo factor,
y k representa la réplica. Este modelo es llamado modelo de medias de celdas y µij
representa la respuesta esperada en la ij-ésima celda. Otra forma de representar el
modelo es la siguiente:
yijk = µ + αi + βj + αβij + ϵijk .
En este modelo, αi , βj son los efectos principales y representan la diferencia entre

el promedio marginal de todos los experimentos en el i-ésimo nivel del primer factor
y el promedio global, y la diferencia entre el promedio marginal en el j-ésimo nivel
del segundo factor y el promedio global, respectivamente. El efecto interacción, αβij
representa
∑ la
∑diferencia∑entre la celda promedio,
∑ µij , y µ+αi +βj . Con estas definiciones,
i αi = 0, j βj = 0, i αβij = 0 y j βij = 0.
Los supuestos usuales son que los errores experimentales son independientes y ϵijk ∼
N (0, σ 2 ). El supuesto de independencia es garantizado si las combinaciones de tratamien-
tos son asignadas de forma aleatoria a las unidades experimentales, y los supuestos de
igualdad de varianza y normalidad pueden ser verificados con el gráfico de los residuales
versus los predichos y el qqplot para los residuales.
Representación matricial del modelo

El modelo puede ser representado en notación matricial como sigue:
 
µ
 βA 
y = Xβ + ϵ = (1 | XA | XB | XAB )  
 βB  + ϵ
βAB
]
La suma de cuadrado de lo errores es ssE = y ′ y − β̂ ′ X ′ y = y ′ (I − X(X ′ X)−1 X ′ )y,
donde β̂ = (X ′ X)−1 X ′ y son las estimaciones producidas por la función lm de R.
Suponiendo que tenemos dos niveles para el factor A y tres niveles para el factor B,
las hipótesis a probar son H0 : α1 = α2 = 0, H0 : β1 = β2 = β3 = 0, y H0 : αβ11 =
αβ21 = αβ12 = αβ22 = αβ13 = αβ23 = 0, donde la razones de verosimilitud del test F
son obtenidas calculando las razones de los cuadrados medios del ANOVA. La función
lm designa la suma de cuadrado para el factor A como ssA = β̂ ′ X ′ y − (1′ y)2 /(1′ 1),
la cual es denotada por R(α|µ). El modelo simplificado si solo incluye el efecto del
primer factor, esto es, X = (1 | XA ) y la suma de cuadrado del error para este modelo
simplificado es denotada como ssEA . La suma de cuadrados del factor B es denotada
por R(β|αµ) = ssEA − ssEB donde ssEB es la suma de cuadrado del error para el
modelo reducido donde X = (1 | XA | XB ). Finalmente, la suma de cuadrado para
la interacción es denotada por R(αβ|βαµ) = ssEB − ssE. En general, cuando hay a
niveles del factor A, b niveles del factor B, y r réplicas por celda, la tabla anova para un
diseño factorial de dos factores puede ser representada como se muestra en la siguiente
tabla:
F.V G.L SS MS F-ratio
A a−1 R(α|µ) ssA
a−1
msA
F = ms E
B b−1 R(β|αµ) ssB
b−1
F = ms
msE
B
AB (a − 1)(b − 1) R(αβ|βαµ) ssAB

(a−1)(b−1)
F = ms AB
msE
Error ab(r − 1) ssE ssE
ab(r−1)
Ejemplo
Para ilustrar el análisis de un experimento factorial de dos factores usando la función
aov de R, consideremos los datos de la siguiente tabla, los cuales corresponden a los
resultados de un experimento de dos factores llevado a cabo por Hunter (1983). Aquí,
un experimento consistió en quemar una cantidad de combustible y determinar las
emisiones de CO liberadas. La unidad experimental es la porción de un combustible
estándar requerido para una ejecución, y la respuesta, y, es la concentración de emi-
siones de monóxido de carbono (CO) en gr/mt3 determinada a partir de esa ejecución.
Hubo dos ejecuciones repetidas para cada combinación de niveles de factor separados
por punto y coma en la Tabla. El factor A es la cantidad de etanol agregado a una
unidad experimental o porción del combustible estándar, y el factor B es la relación
combustible-aire utilizada durante la quema de ese combustible.
A=adición de etanol B=razón combustible-aire y =emisión CO

0.1 14 66 ; 62
0.1 15 72 ; 67
0.1 16 68 ; 66
0.2 14 78 ; 81
0.2 15 80 ; 81
0.2 16 66 ; 69
0.3 14 90 ; 94
0.3 15 75 ; 78
0.3 16 60 ; 58
Los datos para este experimento están guardados en el data frame COdata en el paquete
daewr donde los niveles de etanol y la razón son guardados como factores Eth y Ratio.
El comando de R para analizar los datos es como sigue:
library(daewr)
View(COdata)
mod1=aov(CO~Eth*Ratio,data = COdata )
summary(mod1)
Los resultados se muestran a continuación:

Eth 2 324.0 162.0 31.36 8.79e-05 ***
Ratio 2 652.0 326.0 63.10 5.07e-06 ***
Eth:Ratio 4 678.0 169.5 32.81 2.24e-05 ***
Residuals 9 46.5 5.2
Los resultados de la tabla ANOVA muestran que tanto los dos efectos de los factores
como su interacción son significativos a un nivel de significancia del 5 %.
La función model.tables produce los resultados que se muestran a continuación:
model.tables( mod1, type = "means", se = T )
Tables of means
Grand mean
72.83333
Eth
Eth
0.1 0.2 0.3
66.83 75.83 75.83
Ratio
Ratio
14 15 16
78.5 75.5 64.5
Eth:Ratio
Ratio
Eth 14 15 16
0.1 64.0 69.5 67.0
0.2 79.5 80.5 67.5
0.3 92.0 76.5 59.0
Standard errors for differences of means

Eth Ratio Eth:Ratio
1.312 1.312 2.273
replic. 6 6 2
En la parte inicial tenemos la media global µ̂. Las siguientes dos secciones muestran las
medias marginales para cada factor junto con la desviación estándar de los valores pro-
mediados en cada media. Si la interacción no fuera significativa, las medias marginales
revelarían la dirección de los efectos de los factores, pero se podrían usar comparaciones
preplaneadas u otros procedimientos de comparación múltiple para sacar conclusiones
definitivas.
Podemos usar la función estimable del paquete gmodels para realizar contrastes.
Para esto, primero hay que construir los contrastes para reemplazar los contrastes de
tratamiento por defecto usado por la función aov de R. Por ejemplo, si en un factor de
tres niveles queremos comparar el primero con el tercero, y luego queremos construir
un segundo contraste ortogonal al primero, y llamamos a la matriz de contrastes cm, el
código puede ser como sigue:
c1 = c(-1/2, 0, 1/2)
c2 = c(.5, -1, .5)
cm = cbind( c1, c2 )
La ejecución del modelo lo realizamos de la siguiente manera:
mod2=aov(CO~Eth*Ratio, contrasts=list(Eth=cm,Ratio=cm),data=COdata)
install.packages("gmodels")
library(gmodels)
c = rbind( "Etanol 0.3 vs 0.1" = c(0,1,0,0,0,0,0,0,0),
"Razón 16 vs 14" = c(0,0,0,1,0,0,0,0,0) )
estimable(mod2,c)
Note que el objeto c permite seleccionar el primer coeficiente para etanol y para la
razón. Por su parte, los parámetros a estimar son, en su orden, los siguientes
(Intercept), Ethc1, Ethc2, Ratioc1, Ratioc2, Ethc1:Ratioc1,

Ethc2:Ratioc1, Ethc1:Ratioc2, Ethc2:Ratioc2
Estas son funciones estimables, y las estimaciones junto

∑ con sus respectivos
∑ errores
estándar y las razones t para probar las hipótesis H0 : i ci αi = 0 y H0 : j cj βj = 0
se muestran a continuación.
Estimate Std. Error t value DF Pr(>|t|)

Etanol 0.3 vs 0.1 9 1.312335 6.858007 9 7.406588e-05
Razón 16 vs 14 -14 1.312335 -10.668011 9 2.083651e-06
Estas estimaciones serían estimables y válidas si no hubiera una interacción significativa

entre el nivel de adición de etanol y la relación aire-combustible, pero en este caso hay
una interacción significativa y la diferencia en las emisiones de CO causada por el
cambio de la cantidad de adición de etanol dependerá de la relación aire-combustible, y
la diferencia en la emisión de CO causada por el cambio de la relación aire-combustible
dependerá de la cantidad de etanol agregado. Un gráfico de interacción es una mejor
manera de interpretar estos resultados.
with(COdata,(interaction.plot(Eth,Ratio,CO,type="b",pch=c(18,24,22),
leg.bty = "o", main = "Gráfico de interacción de Etanol y razón
aire-combustible", xlab = "Etanol",ylab = "Emisión de CO")))
Gráfico de interacción de Etanol y razón

aire−combustible
Ratio
90
14
15
85
16
80
Emisión de CO
75
70
65
60
0.1 0.2 0.3
Etanol
En este gráfico podemos ver más claramente la dependencia de los efectos. El aumento
de la cantidad de etanol agregado al combustible de 0.1 a 0.3 hace que las emisiones de
CO aumenten linealmente de 64 gramos/litro a 92 gramos/litro cuando la relación aire-
combustible está en su nivel bajo de 14 (Esto se muestra mediante la línea de puntos con
diamantes negros representando los promedios de las celdas). Sin embargo, cuando la
relación aire-combustible está en su nivel alto de 16, el aumento del etanol agregado al
combustible de 0.1 a 0.3 en realidad provoca una disminución en las emisiones de CO de
67 gramos/litro a 59 gramos/litro a lo largo de una tendencia casi lineal. Finalmente,
cuando la relación aire-combustible se mantiene constante en su nivel medio de 15,
el aumento del etanol de 0,1 a 0,2 hace que las emisiones de CO aumenten en 11
gramos/litro; pero un aumento adicional en etanol a 0.3 causa una disminución en las
emisiones de CO de 4 gramos/litro a 76.5.
Al considerar interacción, se suponen relaciones de causa y efecto. De esta forma, deci-
mos que el cambio en la respuesta es causado por el cambio en el factor o el cambio en
la respuesta es el resultado de cambiar el factor. Es de notar que esta afirmación no se
puede hacer cuando se discuten los resultados de un estudio observacional.
6.5.2. Chequeando interacción con una observación por celda
Cuando hay una adecuada potencia en la prueba para detectar efectos principales con
r = 1 réplica por celda, se puede llevar a cabo un diseño factorial con solo una obser-
vación por celda y tend´riamos un total de a × b observaciones. Sin embargo, bajo estas
condiciones no hay forma de calcular la ssE del ANOVA y además no hay manera de
hacer el test F de la forma tradicional sobre los efectos principales y la interacción. Si
se asume que el término de interacción es cero, el test F sobre los efectos principales se
puede llevar a cabo usando el modelo aditivo yij = µ + αi + βj + ϵij , pero esto puede
no ser adecuado si la interacción en realidad existe.
Si los niveles de ambos factores son cuantitativos como en el experimento de combustible
de etanol, las sumas de cuadrados para el término de interacción se pueden dividir en
grados de libertad individuales de polinomios ortogonales, y puede ser aproximada
usando la porción lineal×lineal de la interacción. Esto se puede ilustrar con los datos
de combustible de etanol.
Ejemplo
Consideremos que los promedios de las dos réplicas en cada celda del ejemplo anterior
son el resultado de un solo experimento. El código R que se muestra a continuación
promedia los datos en cada celda para producir el data frame con una observación por
celda, para luego ajustar el modelo con la función lm de R.
library(daewr)
data(COdata)
Cellmeans=tapply(COdata$CO,list(COdata$Eth,COdata$Ratio),mean)
dim(Cellmeans) = NULL
Eth = factor(rep(c(.1, .2, .3), 3))
Ratio = factor(rep(c(14,15,16), each=3))
cells = data.frame( Eth, Ratio, Cellmeans )
modnr = lm(Cellmeans ~ Eth*Ratio, data=cells )

anova(modnr)
Note que en los resultados del modelo ANOVA aparece cero grados de libertad para el
error y no aparece el test F.
Response: Cellmeans
Eth 2 162 81.00
Ratio 2 326 163.00
Eth:Ratio 4 339 84.75
Residuals 0 0
Para obtener las sumas de cuadrados para la porción lineal×lineal de la interacción, los
factores Eth y Ratio se convierten primero en factores ordenados como se muestra a
continuación:
Ethc = as.ordered(cells$Eth)
Ratioc = as.ordered(cells$Ratio)
Cuando se usan factores ordenados, la función lm de R usa contrastes polinomiales or-

togonales para las columnas en la matriz X en lugar de las codificaciones de tratamiento
predeterminadas. En el siguiente código, se ajusta el modelo llamado mbo usando solo
el contraste polinomial ortogonal lineal×lineal para la interacción de Ethc y Ratioc.
EthLin=contr.poly(Ethc)[Ethc,".L"]
RatioLin=contr.poly(Ratioc)[Ratioc,".L"]
mbo=lm(Cellmeans~Ethc + Ratioc + EthLin:RatioLin, data=cells)
anova(mbo)
Los resultados se muestran como sigue:
Response: Cellmeans
Ethc 2 162 81 16.2 0.024670 *
Ratioc 2 326 163 32.6 0.009226 **
EthLin:RatioLin 1 324 324 64.8 0.004004 **
Residuals 3 15 5
El error o la suma residual de cuadrados en esta tabla de ANOVA es la diferencia entre

la suma de cuadrados de la interacción que se muestran en el anova anterior y la suma
de cuadrado de la interacción lineal obtenida en este nuevo anova. Esta diferencia se usa
para construir el denominador para las pruebas F en la tabla anterior. Los resultados
muestran que la porción lineal×lineal de la interacción es significativa y representa la
mayor parte de las sumas de cuadrados de la interacción. Dado que la interacción es
significativa, el modelo aditivo es inapropiado, y los efectos de los efectos principales
pueden diferir dependiendo del nivel del otro factor. Los resultados pueden interpretarse
mejor examinando el gráfico de interacción.
La gráfica de interacción que incluye solo la parte lineal×lineal de la interacción se
puede construir graficando las predicciones del modelo mbo. En el siguiente código se
obtienen las predicciones del modelo, se crea un data frame con esto y se obtiene el
gráfico de interacción.
Pred=predict(mbo,newdata=data.frame(Ethc,Ratioc,EthLin,RatioLin))
pred.means=aggregate(Pred,by=list(Ethc=Ethc,Ratioc=Ratioc),"mean")
Ethanol = pred.means$Ethc
interaction.plot(pred.means$Ratioc, Ethanol, pred.means$x,
type="b", pch = c(18,24,22), leg.bty ="o", xlab = "Ratio", ylab
= "predicted CO emissions")
90
Ethanol
0.1
0.2
85
0.3
80
predicted CO emissions
75
70
65
60
14 15 16
Ratio
Note que los resultados confirman lo observado en la tabla ANOVA.

Cuando el etanol está en su nivel alto (0.3), y la relación aire-combustible aumenta de
14 a 16, esto causa una fuerte disminución de las emisiones de CO. Además, cuando
el etanol está en su nivel medio (0.2), y la relación aire-combustible aumento de 14 a
16, esto causa una ligera disminución en las emisiones de CO. Sin embargo, cuando
el etanol está en su nivel bajo (0.1), y la relación aire-combustible aumenta de 14 a
16 en realidad provoca un aumento en las emisiones de CO ilustrado por la línea con
pendiente positiva.
Cuando solo hay una réplica por celda en un experimento factorial y los factores no
tienen niveles cuantitativos, la partición de las sumas de cuadrados de interacción en
contrastes polinomiales ortogonales y la combinación de los términos de orden superior
como una suma de cuadrados de error puede no ser apropiada. Sin embargo, Tukey
(1949b) ha desarrollado un método alternativo para probar un solo grado de libertad
dividido a partir de sumas de cuadrados de interacción. Este método es equivalente a
restringir el término αβij en el modelo aditivo para que sea una función polinomial de
segundo grado de los efectos principales αi y βj , (ver Scheffé, 1959). Para esto, la suma
de cuadrados
[∑ ∑ ]
j yij ȳi. ȳ.j − (ssA + ssB + abȳ.. )ȳ..
2
ab i
ssA B =
(ssA )(ssB )
Para probar la hipótesis restringida H0 : αβij = 0 para todo i y j tendrá un grado

de libertad y la diferencia entre este y el término de error para el modelo aditivo

formará la suma de cuadrados del error similar al ejemplo anterior con niveles de factor
cuantitativo.
Para ilustrar el uso de la prueba de un único grado de libertad de Tukey para la
interacción, considere los siguientes datos, que es una parte de los datos de un estudio
para validar un ensayo de contaminación viral reportado por Lin y Stephenson (1998).
Muestra
1 2 3 4 5 6
3 1.87506 1.74036 1.79934 2.02119 1.79934 1.59106
Dilución 4 1.38021 1.36173 1.25527 1.39794 1.20412 1.25527
5 0.60206 0.90309 0.95424 1.00000 0.60206 0.60206
Los ensayos de contaminación viral se utilizan para determinar la presencia (y la canti-

dad) de un virus específico en productos biológicos como el factor ocho de coagulación
de la sangre. Un experimento, o corrida, consiste en hacer una solución con una contam-
inación viral conocida, permitiendo que el virus crezca en una solución contaminada y
luego mida el resultado. La unidad experimental es la muestra viral específica en com-
binación con el lugar y el momento en que se le permite crecer. El factor A representa el
número de la muestra o la solución con la que se mezcla (o enriquece) la muestra viral.
El factor B representa diferentes diluciones de la muestra enriquecida. La respuesta
medida es el log10 de las unidades formadoras de placa por ml de solución.
Como el factor A (muestra) no es un factor cuantitativo, sería inapropiado utilizar con-
trastes polinomiales ortogonales para dividir sus sumas de cuadrados o las sumas de
cuadrados de su interacción con el factor B (Dilución). Para determinar si el modelo
aditivo es apropiado para estos datos, haremos una prueba para ver si hay una interac-
ción significativa usando el método de Tukey. La función Tukey1df del paquete daewr
de R, calcula las sumas de cuadrados sin aditividad o interacción de Tukey.
El código para abrir los datos de la Tabla anterior, se muestra a continuación. La
primera columna en el data frame es una respuesta numérica, la segunda columna es
el indicador del factor A y la tercera columna es el indicador del factor B. El número
de filas en el data frame debe ser exactamente igual al número de niveles del factor A
multiplicado por el número de niveles del factor B, ya que el diseño no tiene réplicas.
library(daewr)
Tukey1df(virus)
Source df SS MS F Pr>F
A 5 0.1948 0.039
B 2 3.1664 1.5832
Error 10 0.1283 0.0513
NonAdditivity 1 0.0069 0.0069 0.51 0.4932

Residual 9 0.1214 0.0135
Como se puede notar en los resultados, la interacción (o no aditividad) no es significati-

va. Por lo tanto, para estos datos, sería apropiado usar el modelo aditivo con la función
lm o aov de R .
6.5.3. Análisis con diferente número de réplicas por celdas
Los datos de un experimento factorial pueden terminar con un número desigual de répli-
cas debido a experimentos que no pudieron completarse, o respuestas que no pudieron
medirse, o simplemente datos perdidos. Siempre que la posibilidad de perder una ob-
servación no esté relacionada con los niveles de factor de tratamiento, los datos de un
experimento factorial con un número desigual de réplicas por celdas, pueden analizarse
e interpretarse de una manera similar a la forma en que se haría el caso igual número
de réplicas.
Ejemplo
Considere nuevamente el ejemplo del combustible de etanol. Pero esta vez asumamos
que se perdió una sola observación en la celda donde la relación aire-combustible es 16
y el nivel de etanol es 0.3.
Entonces, los datos son como se ilustran a continuación. La siguiente tabla muestra las
observaciones y su respectivo valor esperado.
library(daewr)
COdatam = COdata
COdatam[18, 3] = NA
View(COdatam)
aire-combustible
14 15 16
66 72 68
0.1 62 67 66
µ + α1 + β1 + αβ11 µ + α1 + β2 + αβ12 µ + α1 + β3 + αβ13
78 80 66
Etanol 0.2 81 81 69
90 75 60
0.3 94 78
Para calcular las sumas de cuadrado ajustadas con desigual número de réplicas para
la hipótesis nula del efecto principal, se usa la opción contr.sum de la función lm y la
función Anova del paquete car. Las opciones type II y III en la función Anova calculan las
sumas de cuadrado tipo II y III respectivamente. La suma de cuadrado tipo II para los
factores A y B pueden ser representadas como ssAII = R(α | µ, β) y ssBII = R(β | µ, α).
R(α | µ, β) es la diferencia de la suma de cuadrado del error para el modelo reducido
donde X = (1 | XB ) y el modelo completo donde X = (1 | XA | XB | XAB ).
La suma de cuadrado tipo III para los factores A y B pueden ser representadas como
ssAIII = R(α | µ, β, αβ) y ssBIII = R(β | µ, α, αβ). R(α | µ, β, αβ) es la diferencia de
la suma de cuadrado del error para el modelo reducido donde X = (1 | XB | XAB ) y
el modelo completo donde X = (1 | XA | XB | XAB ).
El código de R para producir el ANOVA tipo III luego de eliminar una observación es
el siguiente:
library(car)
mod2=lm(CO~Eth*Ratio,data=COdatam,contrasts
= list( Eth = contr.sum, Ratio = contr.sum ))
Anova( mod2, type="III" )
Anova Table (Type III tests)
Response: CO
Sum Sq Df F value Pr(>F)
(Intercept) 86198 1 15496.351 1.939e-14 ***
Eth 319 2 28.715 0.0002235 ***
Ratio 511 2 45.973 4.105e-05 ***
Eth:Ratio 555 4 24.945 0.0001427 ***
Residuals 44 8
Algunos analistas prefieren usar la suma de cuadrados tipo II, pero otros prefieren la
tipo III. Aquí ilustraremos el ejemplo con la opción tipo III, si queremos la suma de
cuadrados tipo III, únicamente hay que cambiar la opción type=II por type=III en el
código.
El paquete lsmeans calcula automáticamente las medias ajustadas, también llamadas
medias de mínimos cuadrados a través de las medias marginales de las medias predichas
de las celdas. Adicionalmente, el paquete los errores estándar y los límites de confianza.
El siguiente código muestra el uso de este paquete para obtener las medias marginales
tanto para etanol como para la relación aire-combustible. Note que la interpretación de
las medias marginales puedes ser errónea debido a la presencia de interacción.
install.packages("lsmeans")
install.packages("emmeans")
library(emmeans)
library(lsmeans)
lsmeans(mod2,~ Eth)
lsmeans(mod2,~Ratio)
NOTE: Results may be misleading due to involvement in interactions

Eth lsmean SE df lower.CL upper.CL
0.1 66.83333 0.9628517 8 64.61299 69.05367
0.2 75.83333 0.9628517 8 73.61299 78.05367
0.3 76.16667 1.1118053 8 73.60284 78.73049
Results are averaged over the levels of: Ratio Confidence level
used: 0.95
NOTE: Results may be misleading due to involvement in interactions

Ratio lsmean SE df lower.CL upper.CL
14 78.50000 0.9628517 8 76.27966 80.72034
15 75.50000 0.9628517 8 73.27966 77.72034
16 64.83333 1.1118053 8 62.26951 67.39716
En general, se deben usar las sumas de cuadrados y lsmeans de tipo II o III, ya que
probarán las hipótesis correctas y proporcionarán las medias insesgadas de los niveles
de los factores si el número de réplicas es igual o desigual
6.5.4. Diseño factorial con múltiples factores
Los diseños factoriales de dos factores son más eficientes que estudiar cada factor por
separado en los diseños de un factor. Del mismo modo, cuando se están estudiando
muchos factores, es más eficiente estudiarlos juntos en un diseño multifactorial que es-
tudiarlos por separado en grupos de dos utilizando diseños factoriales de dos factores.
Cuando se estudian múltiples factores simultáneamente, la potencia para detectar efec-
tos principales aumenta en comparación con lo que sería en diseños factoriales separados
de dos factores. Además, es posible detectar interacciones entre cualquiera de los fac-
tores en estudio.
En un diseño multifactorial, no solo es posible detectar interacciones de dos factores
entre cualquier par de factores, sino que también es posible detectar interacciones de or-
den superior entre grupos de factores. Una interacción de tres factores entre los factores
A, B y C, por ejemplo, significa que el efecto del factor A difiere según la combinación
de los niveles de los factores B y C.
Ejemplo
Considere el problema 8.6 en Oehlert (2010): Un estudio acerca del manejo de varias
gramas tropicales para mejorar la producción, medida como rendimiento de materia
seca en cientos de libras por acre durante un período de estudio de 54 semanas. Las
variables de estudio fueron la altura de corte (1, 3 o 6 pulgadas), el intervalo de corte
(1, 3, 6 o 9 semanas) y la cantidad de fertilizante nitrogenado (0, 8, 16 o 32 cientos
de libras de amonio sulfatado por acre por año). Se asignaron 48 parcelas de manera
completamente al azar a las 48 combinaciones de nivel de factor.
Leeremos la base de datos con nombre ejem.csv en nuestros archivos.
data1=read.table(file.choose(),header=T,sep=",")
data1[,"ht"]=factor(data1[,"ht"], labels = c("1", "3", "6"))
data1[,"fert"]=factor(data1[,"fert"], labels = c("0", "8", "16", "32"))
data1[,"int"]=factor(data1[,"int"], labels = c("1", "3", "6", "9"))
View(data1)
Como no tenemos réplicas, no podemos ajustar el modelo completo incluyendo las

interacciones de tres factores, por lo que ajustaremos el modelo incluyendo únicamente
las interacciones de dos factores.
mo1=aov(y~(ht+fert+int)^2,data=data1)
anova(mo1)
Response: y
ht 2 29 14.6 0.0830 0.92068
fert 3 42072 14023.9 80.0153 1.334e-10 ***
int 3 73887 24629.0 140.5241 1.120e-12 ***
ht:fert 6 406 67.7 0.3860 0.87835
ht:int 6 3005 500.9 2.8578 0.03903 *
fert:int 9 5352 594.6 3.3927 0.01313 *
Residuals 18 3155 175.3
Existe evidencia de que tanto los efectos de altura de corte (ht) como de cantidad de
fertilizante (fert) dependen del nivel de intervalo de corte (int), ya que tanto las
interacciones ht:int como fert:int son significativas.
Usando polinomios ortogonales, con el siguiente código, podemos verificar si la interac-
ción de los tres factores es significativa.
htc = as.ordered(data1$ht)
fertc = as.ordered(data1$fert)
intc = as.ordered(data1$int)
htLin=contr.poly(htc)[htc,".L"]
fertLin=contr.poly(fertc)[fertc,".L"]
intLin=contr.poly(intc)[intc,".L"]
mbo=lm(y~htc + fertc + htLin:fertLin + htLin:intLin +

fertLin:intLin + htLin:fertLin:intLin, data=data1)
anova(mbo)
Lo que arroja como resultado lo siguiente:
Response: y
htc 2 29 15 0.0440 0.9570
fertc 3 42072 14024 42.3996 3.315e-12 ***
htLin:fertLin 1 4 4 0.0131 0.9096
htLin:intLin 1 72645 72645 219.6327 < 2.2e-16 ***
fertLin:intLin 1 373 373 1.1279 0.2949
htLin:fertLin:intLin 1 214 214 0.6460 0.4265
Residuals 38 12569 331
Esto nos muestra que la interacción de los tres factores no es significativa.
6.5.5. Diseño factorial de dos niveles
Es claro que incrementar el número de factores a un diseño factorial, incrementaría

exponencialmente el número de combinaciones o tratamientos, lo cual puede hacerse
poco práctico en la realidad debido a los altos costos o la imposibilidad de ejecución del
experimento. Una forma de reducir el número de combinaciones de tratamientos es usar
únicamente dos niveles por factor, lo cual incrementaría la posibilidad de realización del
experimento. Por ejemplo que tenemos cinco factores con dos niveles cada uno, el diseño
se tendría 25 = 32 posibles combinaciones, lo cual es inferior al total de combinaciones
posibles en nuestro ejemplo anterior con únicamente tres factores. Un diseño factorial
con k factores y dos niveles por factor, es llamado diseño 2k .
En los diseños factoriales de dos niveles, si un factor tiene niveles cuantitativos, los
dos niveles se indican simbólicamente por (−) y (+), donde (−) representa el nivel
más bajo que el experimentador consideraría, y (+) representa el nivel más alto que el
experimentador considere. Lo alto y lo bajo generalmente se extienden en la medida de
lo posible para acentuar la señal o la diferencia en la respuesta entre los dos niveles. Si
un factor tiene niveles cualitativos, las designaciones (−) y (+) son arbitrarias, pero los
dos niveles elegidos normalmente serían dos que el experimentador cree que deberían
dar como resultado la máxima diferencia en la respuesta.
El modelo para un diseño factorial con tres factores se puede escribir como sigue:
yijkl = µ + αi + βj + αβij + γk + αγik + βγjk + αβγijk + ϵijkl ,
donde αi , βj , etc., son los efectos tal como se han definido con anterioridad. Sin embargo,
en el caso donde cada factor tiene solo dos niveles representados por (−) y (+), i, j,
k y l pueden ser remplazados con (−) o (+), y α− = −α+ , ya que α− = ȳ−... − ȳ.... ,
α+ = ȳ+... − ȳ.... y ȳ.... = (ȳ−... + ȳ+... )/2.
La anterior igualdad es similar para todos los efectos e interacciones. Una manera
más compacta de definir los efectos principales para un factorial de dos niveles es
EA = ȳ+... − ȳ−... . Esto se puede visualizar en el lado izquierdo de la siguiente figura
(tamada de Lawson (2015)) y representa el cambio en la respuesta promedio causada
por un cambio en el factor desde su nivel bajo (−) hasta su nivel alto (+). Este efecto
puede ser representado por la diferencia en dos promedios ȳ+... y ȳ−... .
La pendiente del modelo de regresión βA , que se muestra en el lado derecho de la Figura,

es el cambio vertical en la respuesta promedio para un cambio de una unidad (es decir,
de 0 a +1) en el nivel de factor en unidades simbólicas. Por lo tanto, la pendiente, βA ,
es solo la mitad del efecto, EA , o la diferencia de los dos promedios dividido por 2.
Una de las propiedades deseables de un plan factorial de 2k es que los efectos de los
factores no están ocultos por los cambios planificados en otros factores. También, en el
nivel bajo de cada factor, hay un número igual de niveles altos y bajos de todos los demás
factores. Por lo tanto, el efecto de un factor, o la diferencia en la respuesta promedio
entre el nivel alto y bajo de ese factor, representa el efecto de ese factor únicamente,
porque la influencia de todos los demás factores ha sido promediada. Matemáticamente
esta propiedad es conocida como ortogonalidad.
Interacción
cuando todos los factores tienen solo dos niveles, el efecto de interacción AB es definido
como un medio la diferencia en el efecto simple del factor A, (ȳ++.. − ȳ−+.. ), cuando
el factor B se fija en su nivel alto (+), y el efecto simple del factor A, (ȳ+−.. − ȳ−−.. ),
cuando factor B se fija en su nivel bajo (−), es decir, ((ȳ++.. − ȳ−+.. ) − (ȳ+−.. − ȳ−−.. ))/2.
Ejemplo
Para ilustrar el diseño y análisis de un experimento factorial 23 , consideremos el sigu-
iente ejemplo (ver Lawson y Erjavec, 2001). Los estudiantes en un laboratorio de elec-
trónica de una universidad consideran que las mediciones de voltaje realizadas en un
circuito que construyeron en clase eran inconsistentes. El asistente de enseñanza de
laboratorio (TA) decidió realizar un experimento para tratar de identificar la fuente
de la variación. Los tres factores que varió fueron A = la temperatura ambiente donde
se realizó la medición de voltaje, B = el tiempo de calentamiento del voltímetro y C
= el tiempo en que se conectó la alimentación al circuito antes de tomar la medición.
La respuesta fue la tensión medida en milivoltios. Los dos niveles para el factor A
fueron − = 22o C (temperatura ambiente) y + = 32o C (cerca de la temperatura en
algunos entornos industriales). Se usó un horno y el circuito se dejó estabilizar durante
al menos cinco minutos antes de las mediciones. Los niveles para los factores B y C
fueron − = 30 segundos o menos, y + = 5 minutos. El mismo circuito se midió para
cada combinación de factores de tratamiento, por lo que la unidad experimental no fue
más que el ensayo o el momento en el que se aplicó la combinación particular de niveles
de factor de tratamiento para realizar la medición. Se ejecutaron dos réplicas de cada
una de las ocho combinaciones experimentales en un orden aleatorio para evitar sesgos.
Los resultados del experimento se muestran en la siguiente tabla.
Niveles del factor Código del factor

Run A B C XA XB XC Rep Order y
1 22 0.5 0.5 − − − 1 5 705
2 32 0.5 0.5 + − − 1 14 620
3 22 5.0 0.5 − + − 1 15 700
4 32 5.0 0.5 + + − 1 1 629
5 22 0.5 5.0 − − + 1 8 672
6 32 0.5 5.0 + − + 1 12 668
7 22 5.0 5.0 − + + 1 10 715
8 32 5.0 5.0 + + + 1 9 647
1 22 0.5 0.5 − − − 1 4 680
2 32 0.5 0.5 + − − 1 7 651
3 22 5.0 0.5 − + − 1 2 685
4 32 5.0 0.5 + + − 1 3 635
5 22 0.5 5.0 − − + 1 11 654
6 32 0.5 5.0 + − + 1 16 691
7 22 5.0 5.0 − + + 1 6 672
8 32 5.0 5.0 + + + 1 13 673
Los niveles codificados del factor se pueden calcular fácilmente a partir del valor real
del factor utilizando la fórmula de codificación y escala. En esta fórmula, restamos el

punto medio de los dos ajustes de factor, luego dividimos por la mitad del rango. Por
ejemplo, para el factor A, el punto medio entre 22 y 32 es 27, y la mitad del rango es
5, por lo tanto
( )
Valor real del factor − 27
XA = .
5
La función contr.FrF2 de R, realiza esta codificación y escala en factores. El data frame

volt se encuentra en el paquete daewr y contiene los factores con los niveles reales y la
variable respuesta de la tabla anterior. El código para abrir el data frame, el código y
la escala de los factores, y el ajuste del modelo de regresión con la función lm (junto
con los coeficientes estimados de la regresión) se muestran a continuación.
install.packages("DoE.base")
library(DoE.base)
library(daewr)
modv = lm( y ~ A*B*C, data=volt, contrast=list(A=contr.FrF2,
B=contr.FrF2, C=contr.FrF2))
summary(modv)
Residuals:
-21.50 -11.75 0.00 11.75 21.50
Coefficients:
(Intercept) 668.5625 4.5178 147.985 4.86e-15 ***
A1 -16.8125 4.5178 -3.721 0.00586 **
B1 0.9375 4.5178 0.208 0.84079
C1 5.4375 4.5178 1.204 0.26315
A1:B1 -6.6875 4.5178 -1.480 0.17707
A1:C1 12.5625 4.5178 2.781 0.02390 *
B1:C1 1.8125 4.5178 0.401 0.69878
A1:B1:C1 -5.8125 4.5178 -1.287 0.23422
---

F-statistic: 3.869 on 7 and 8 DF, p-value: 0.0385
Se puede observar que el factor A (temperatura ambiente) y la interacción A×C, o

interacción entre la temperatura ambiente y el tiempo de calentamiento del circuito
son significativos a un nivel de significancia de 0.05. Note que la regresión se realizó en
los niveles del factor codificado, de modo que los coeficientes de regresión producidos
por la función lm de R son exactamente la mitad de los efectos. Por tanto, el efecto
del factor A es el doble del coeficiente de regresión que se muestra en el output, o
EA = 2 × β̂A = 2(−16.8125) = −33.625. Esto significa que, en promedio, cuando
la temperatura ambiente aumenta de 22o a 32o , la medición de voltaje disminuirá en
33.6 milivoltios. Sin embargo, dado que la interacción es significativa en este ejemplo,
realmente no tiene sentido hablar del efecto principal promedio porque el efecto de la
temperatura ambiente depende del tiempo de calentamiento del circuito.
Veamos ahora el gráfico de interacción.
C_Warmup=volt$C
with(volt, (interaction.plot(A, C_Warmup, y, type = "b",
pch = c(24,22), leg.bty = "o", xlab = "Temperatura",ylab =
"Voltaje")))
690
C_Warmup
5
0.5
680
670
Voltaje
660
650
640
22 32
Temperatura
La mejor manera de describir o interpretar la interacción es observar el gráfico de

interacción anterior. Aquí, se puede ver que cuando el tiempo de calentamiento del
circuito es corto (0,5 minutos o 30 segundos), cambiar la temperatura ambiente de
22o a 32o provoca una gran disminución (58,7 milivoltios) en la lectura del voltaje.
Sin embargo, cuando el tiempo de calentamiento del circuito es largo (5 minutos),
cambiar la temperatura ambiente de 22o a 32o solo causa una pequeña disminución (8.5
milivoltios) en la lectura del voltaje. Por lo tanto, para que las lecturas de voltaje sean
más consistentes, el laboratorio recomendó a sus estudiantes que dejen que sus circuitos
se calienten 5 minutos antes de realizar las mediciones de voltaje.
La ortogonalidad del diseño también permite escribir una ecuación de predicción re-
ducida a partir de los resultados de la regresión, simplemente eliminando los términos
insignificantes. Esta ecuación se puede usar para predecir la lectura de voltaje en mili-
voltios para cualquier temperatura ambiente entre 22o y 32o , y cualquier tiempo de
calentamiento del circuito entre 30 segundos y 5 minutos.
( ) ( )( )
T emp − 27 CW arm − 2.75 T emp − 27
y = 668.563 − 16.813 + 12.563 .
5 2.25 5
Ejercicio:
Yang-Gyu y Woolley (2006), realizaron un experimento factorial 4 × 3 donde se var-
ió la concentración del regulador de crecimiento de plantas CPPU en una solución y
el momento en que se sumergieron las espárragos en una solución. Los resultados se
muestran en la tabla de abajo.
Tiempo de inmersión
CPPU Conc. 30 60 90
0 (control) 92.5 92.9 91.3
0.5 ppm 97.8 94.9 101.3
1 ppm 97 98.5 101.6
10 ppm 103.4 102.9 98.6
Verifique si la interacción entre los factores es significativa. ¿Recomienda el modelo

aditivo para estos datos?.
Capítulo 7
Modelos lineales generalizados
7.1. Introducción al modelo logístico

El modelo logístico hace parte de los modelos lineales generalizados, los cuales se com-
ponen en tres partes:
La componente aleatoria que corresponde a la variable Y , la cual debe seguir una

distribución que pertenezca a la familia exponencial.
La componente sistemática o predictor lineal, usualmente denotada por η, donde
η = xT β
La función link o de ligadura g(·) que relaciona la esperanza matemática de la

variable dependiente con el predictor lineal.
η = g(µ)
Supongamos que observamos respuestas y1 , . . . , yN de poblaciones binomiales con pro-

porciones π1 , . . . , πN y sus correspondientes tamaños muestrales n1 , . . . , nN . Asociado
con la i-ésima observación hay un vector de covariables xi y la proporción πi es enca-
denada a las covariables xi por medio del modelo logístico
( )
πi
logit(π) = log = xTi β
1 − πi
Ejemplo: Niñas Polacas Consideramos la famosa base sobre la edad de la menarquia

de una niñas en Polonia en los años 60. En esta base se presenta la edad de una niña y
si ya ha tenido su primera menstruación.
226
CAPÍTULO 7. MODELOS LINEALES GENERALIZADOS 227
edad=c(10.83,11.08,11.33,11.58,11.83,12.08,12.33,12.58,12.83,13.08,
13.33,13.58,13.83,14.08,14.33,14.58,14.83,15.08,15.33,15.58)
exitos=c(2,2,5,10,17,16,29,39,51,47,67,81,88,79,90,113,95,117,107,92)
n=c(120,90,88,105,111,100,93,100,108,99,106,105,117,98,97,120,102,
122,111,94)
En R obtenemos el modelo logístico de la siguiente manera:
mod1=glm(cbind(exitos,n-exitos)~edad,family="binomial")
summary(mod1)
Los resultados del modelo son los siguientes:
Call:
glm(formula = cbind(exitos, n - exitos) ~ edad, family = "binomial")
Deviance Residuals:
-1.2267 -0.8613 -0.3124 0.7507 1.2841
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -20.4692 0.8349 -24.52 <2e-16 ***
edad 1.5755 0.0638 24.69 <2e-16 ***
---
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1278.571 on 19 degrees of freedom

Residual deviance: 14.893 on 18 degrees of freedom
AIC: 100.35
El modelo logístico es el siguiente:

logit(π) = −20.46917 + 1.57545 × edad
Del modelo podemos decir que la posibilidad de que una niña Polaca presente la menar-
quia a sus 14 años es e(1.57545(14−13)) = 4.8 veces mas alta a que la presente a sus 13 años.
Podemos evaluar la calidad de ajuste del modelo usando los grados de libertad del
Residual deviance evaluado en la cola de la distribución Chi-cuadrado, y compararlo
con el estadístico Chi-cuadrado. esto es:
a=qchisq(0.95,18)
> a
[1] 28.8693
Ahora, como el Residual deviance que es igual a 14.893 es menor que a = 28.8693, no
rechazo la hipótesis nula que el modelo ajustado es adecuado, relativo al modelo nulo.
7.2. Referencias
Abel D (1999). Diseño Estadístico de experimentos. Universidad de Antioquía,
primera edición. Páginas 231-261.
Aparicio, J., Martínez, M. y Morales, J. (2004). Modelos Lineales Aplicados en R.

Universidad Miguel Hernández.
Benjamini, Yoav; Hochberg, Yosef (1995). “Controlling the false discovery rate: a
practical and powerful approach to multiple testing”. Journal of the Royal Statis-
tical Society, Series B 57 (1). 289-300.
Correa, J. y Barrera, C. (2010). Introducción al R. Fondo Editorial ITM.
Faraway, J. (2002). Practical Regression and Anova using R. Ann Arbor, MI,
self-published. http : //cran.r − project.org/doc/contrib/F araway − P RA.pdf
Fawcett, T. (2005). An introduction to ROC analysis. Pattern Recognition Letters.

Vol. 27, 861-874.
Febrero-Bande, M., Galeano, P., González, J. y Pateiro, B. (2008). Prácticas de

Estadística en R. Ingeniería Técnica en Informática de Sistemas. Departamento
de Estadística e Investigación Operativa. Universidad de Santiago de Compostela.
ISBN-13: 978-84-691-0975-1, DL: C-350-2008.
García, J. (2005). Apuntes de Bioestadística. Universidad La Salle, México.
Grisales, H. (2002). Estadística aplicada en salud pública. Estadística descriptiva

y probabilidad. Facultad Nacional de Salud Pública “Hector Abad Gómez”.
Krijnen, W. (2009). Applied Statistics for Bioinformatics using R. Hanze Univer-

sity.
Kuehl R.O (2001). Diseño de experimentos: principios estadísticos de diseño y

análisis de investigación. Segunda edición. Thomson Learning.
Montgomery D.C. Design and analysis of experiments. Jhon Wiley & Sons, INC
2001, quinta edición. 392-422.
Lawson, J. Design and Analysis of Experiments with R. Chapman and Hall/CRC,

2014, 1st Edition. 1-618.
Milicer, H. y Szczotka, F. (1966). Age at Menarche in Warsaw girls in 1965. Human

Biology, Vol. 38, pp. 199-203.
R Core Team (2014). R: A Language and Environment for Statistical Computing.

R Foundation for Statistical Computing, Vienna, Austria, URL http://www.R-
project.org/.
Sáez, A. (2010). Métodos estadísticos con R y R Commander. Universidad de

Jaén.
Seefeld, K. y Linder, E. (2007). Statistics Using R with Biological Examples. Uni-

versity of New Hampshire, Durham, NH. Department of Mathematics & Statistics.
Silva, L. (2000). Diseño razonado de muestras y captación de datos para la inves-

tigación sanitaria. Ed. Díaz de Santos.
http : //www.virtual.unal.edu.co/cursos/ciencias/2000352/html/un2/cont2 03−

23.html
Welch, B. L. (1951), On the comparison of several mean values: an alternative

approach. Biometrika, 38, 330-336.

Bioestadística Notas PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioestadística Notas PDF

Cargado por

Copyright:

Formatos disponibles

Bioestadística: notas de clase

Carlos Javier Barrera Causil

2.1.4. Filtrado de datos con R-Commander . . . . . . . . . . . . . . . 17

3.2.1. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . 68

5. Introducción al Análisis de Regresión 116

6. Introducción al análisis de varianza 164

7. Modelos lineales generalizados 226

Población: Es el conjunto de individuos u objetos que poseen una o varias caracterís-

Muestra: Es un subconjunto de la población.

Muestra aleatoria: Es un subconjunto de la población seleccionado según un esque-

Marco de muestreo: Es un listado o mapa que contiene todas las unidades de

Parámetro: Desde la óptica frecuentista o clásica, el parámetro es un valor ﬁjo de

Estimador: Es un estadístico que se utiliza para estimar o inferir un parámetro.

1.1. Variables y su clasiﬁcación

1.1.1. Clasiﬁcación de las variables según su naturaleza

Cualitativas Nominales: Los niveles o categorías de la variable no tienen un

Cualitativas Ordinales: Los niveles o categorías de la variable tienen un orden

2. Variables Cuantitativas: Representan cantidades provenientes de mediciones

Cuantitativas Discretas: Son aquellas cuyas unidades resultan de hacer con-

Cuantitativas Continuas: Sus unidades resultan de hacer mediciones, por ejem-

Considerando la naturaleza de las mediciones, clasiﬁquemos las siguientes variables.

1.1.2. Clasiﬁcación de las variables según su forma de interrela-

3. Intervinientes (De Control): Inﬂuyen o confunden el efecto de las independi-

Factores o variables de confusión: Estas son variables externas a la relación que

Variables de interacción: Sus valores cambian la intensidad o el sentido de la

1.2. Nociones de Muestreo

Las principales ventajas del muestreo comparadas con el censo son:

Costo reducido: Si la información se obtienen únicamente para una parte de la

1.2.1. Criterio para aceptar un muestreo

1.2.2. Muestreo Aleatorio Simple (MAS)

El muestro aleatorio simple es el más sencillo y conocido procedimiento probabilístico

Deﬁnición: MAS Supongamos que se quiere seleccionar una muestra de tamaño n

Para determinar el tamaño de la muestra se debe elegir el principal objetivo y calcular

El tamaño de la muestra depende básicamente de:

Tamaño de la población. Lo notaremos por N .

Nivel de conﬁanza o conﬁabilidad de las estimaciones (usualmente es un 95 %). A

Grado de variación o dispersión de la variable a estudiar (puede ser estimada con

Tamaño de muestra para estimar una media

Solución: Tenemos que N = 98, ε = 0.5, Zα/2 = 1.96, y S = 1.2.

Se debe seleccionar una muestra aleatoria de 18 operarios.

Tamaño de muestra para estimar una proporción

El número de jóvenes de dicha población es N = 2000. Determinar el tamaño de mues-

Solución: Como no nos dan ninguna estimación de la proporción, tomaremos P = 0.5

1.3.1. Pasos previos a la elaboración del formulario

Antes de elaborar la encuesta, debe considerarse los siguientes aspectos.

Decidir si las preguntas que se harán son cerradas o abiertas.

Responder a las preguntas: ¿Quién recogerá la información?, ¿Dónde y cuándo se

Realizar una prueba piloto.

Anexar instrucciones necesarias.

Elementos para el diseño del formulario

Composición del formulario

Título del estudio o de la encuesta

Número de identiﬁcación del formulario

Tipos de preguntas en el formulario

Preguntas cerradas: En estas preguntas se limitan las respuestas a un grupo de

a. ) Dicótomas: Su respuesta tiene dos alternativas

Ejemplo de una encuesta

1.4. Planeación y diseño de un experimento controla-

R es un lenguaje o ambiente para trabajos computacionales que permite crear informes

Más que un programa de estadística, R puede ser considerado un lenguaje de alto

Opera con objetos,

El programa se puede obtener, para diferentes plataformas, de la siguiente dirección en

Para la instalación de R nos dirigimos a la página de internet http://cran.r-project.org,