Está en la página 1de 271

Estadística para Ingenieros

Con Aplicaciones en R

Prof. Dr. Antonio José Sáez Castillo


Copyright © 2018 A. J. Sáez-Castillo

Licensed under the Creative Commons Attribution-NonCommercial 3.0 Unported License (the
“License”). You may not use this file except in compliance with the License. You may obtain a copy
of the License at http://creativecommons.org/licenses/by-nc/3.0. Unless required by
applicable law or agreed to in writing, software distributed under the License is distributed on an
“AS IS ” BASIS , WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and limitations under the License.

Version 0.1 beta, Octubre de 2018


Índice general

1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1 Qué significa Estadística 11
1.2 La Estadística en el ámbito de la Ciencia y la Ingeniería 12
1.3 Definiciones más relevantes 16
1.4 Organización de los datos. La hoja de datos 17
1.5 Ejercicios 18

I Estadística Descriptiva

2 Estadística Descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1 Tipos de variables 23
2.2 Distribuciones de frecuencias y gráficos asociados 24
2.2.1 Distribución de frecuencias de una variable cualitativa . . . . . . . . . . . . . . . . . 24
2.2.2 Distribución de frecuencias de una variable cuantitativa continua . . . . . . . . 25
2.2.3 Distribución de frecuencias de una variable cuantitativa discreta . . . . . . . . . 29
2.3 Métodos numéricos para describir datos cuantitativos 30
2.3.1 Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.2 Medidas de variación o dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.3 Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4 Detección de valores atípicos. El diagrama de caja 40
2.5 Resumen y aplicación de lo aprendido 42
2.5.1 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.5.2 Aplicación. Análisis del grosor de las capas de óxido de silicio . . . . . . . . . . . . 44
2.6 Para saber más 48
2.7 Ejercicios 48

II Probabilidad y Variable Aleatoria

3 Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1 Introducción 56
3.2 Experimentos aleatorios y experimentos determinísticos 56
3.3 Definición axiomática de probabilidad 56
3.3.1 Álgebra de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.2 Espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.3 Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.4 Interpretación frecuentista de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.5 Espacio muestral finito con resultados equiprobables. Fórmula de Laplace . . 61
3.4 Probabilidad condicionada. Independencia de sucesos 61
3.5 Teorema de la probabilidad total y Teorema de Bayes 65
3.6 Resumen 68
3.7 Para saber más 70
3.8 Ejercicios 70

4 Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1 Introducción 73
4.2 Variable aleatoria discreta 75
4.3 Variable aleatoria continua 77
4.4 Media y varianza de una variable aleatoria 81
4.5 Modelos de distribuciones de probabilidad 83
4.5.1 Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.5.2 Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.5.3 Distribucion geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.5.4 Distribución uniforme continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.5.5 Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.5.6 Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.5.7 Distribución binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.5.8 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.6 Cuantiles de una distribución. Aplicaciones 109
4.6.1 La bombilla de bajo consumo marca ANTE . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.6.2 Las visitas al pediatra de los padres preocupados . . . . . . . . . . . . . . . . . . . . . 110
4.7 Resumen 111
4.8 Para saber más 111
4.9 Ejercicios 112

5 Variables aleatorias con distribución conjunta . . . . . . . . . . . . . . . . 115


5.1 Introducción 115
5.2 Distribuciones conjunta, marginal y condicionada 117
5.2.1 Distribución conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.2.2 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.2.3 Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.3 Independencia estadística 124
5.4 Medias, varianzas y covarianzas asociadas a un vector aleatorio 126
5.4.1 Covarianza y coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . . . . 127
5.4.2 Vector de medias y matriz de varianzas-covarianzas de un vector . . . . . . . . 132
5.5 Distribución normal multivariante 133
5.6 Para saber más 138

III Inferencia estadística


6 Introducción a la inferencia estadística . . . . . . . . . . . . . . . . . . . . . . . 143
6.1 Introducción 143
6.2 Muestreo aleatorio 144
6.3 Parámetros muestrales y parámetros poblacionales 145
6.4 Formas de estimar un parámetro poblacional 146
6.5 Para saber más 147

7 Estimación puntual de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . 149


7.1 Introducción 149
7.2 Estimadores puntuales y su error asociado 150
7.3 Estimación Bootstrap del error estándar de un estimador 151
7.4 Estimación insesgada de media, varianza y proporción y error estándar
asociado 154
7.4.1 Estimación insesgada de la media y error estándar asociado . . . . . . . . . . . . 154
7.4.2 Estimación insesgada de la varianza y error estándar asociado . . . . . . . . . . 155
7.4.3 Estimación insesgada de la proporción y error estándar asociado . . . . . . . . 156
7.5 Estimación de parámetros mediante el método de los momentos 157
7.6 Estimación de parámetros mediante el método de máxima verosimilitud
160
7.7 Resumen 165
7.8 Para saber más 167
7.9 Ejercicios 167

8 Estimación por intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . 169


8.1 Introducción 169
8.2 Intervalos de confianza aproximados para medias y proporciones con
muestras grandes 171
8.2.1 Intervalo de confianza para una media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
8.2.2 Intervalos de confianza para una proporción . . . . . . . . . . . . . . . . . . . . . . . . 173
8.3 Intervalos de confianza en variables normales para media y varianza 176
8.3.1 Intervalo de confianza para la media de una distribución normal . . . . . . . . 176
8.3.2 Intervalo de confianza para la varianza de una distribución normal . . . . . . . 177
8.4 Determinación del tamaño muestral 178
8.4.1 En el muestreo de la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
8.4.2 En el muestreo de la proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
8.5 Resumen 179
8.6 Para saber más 179
8.7 Ejercicios 181

9 Contraste de hipótesis estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 183


9.1 Introducción 184
9.1.1 Hipótesis paramétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
9.1.2 Hipótesis no paramétricas. Contraste de bondad de ajuste . . . . . . . . . . . . . 186
9.2 Toma de la decisión en un contraste de hipótesis. Concepto de p-valor186
9.2.1 Errores tipo I y tipo II. Significación y confianza. Potencia . . . . . . . . . . . . . . . . 187
9.2.2 Toma de la decisión: p-valor de un contraste de hipótesis . . . . . . . . . . . . . . . 189
9.2.3 Cálculo del p-valor en un contraste paramétrico . . . . . . . . . . . . . . . . . . . . . 191
9.3 Contrastes para la media 191
9.3.1 Contraste para la media de una población . . . . . . . . . . . . . . . . . . . . . . . . . . 191
9.3.2 Contraste para la diferencia de medias de dos poblaciones independientes 194
9.3.3 Contraste para la diferencia de medias de dos poblaciones relacionadas . 198
9.3.4 Comparación de medias de más de dos poblaciones independientes . . . . 200
9.3.5 Contraste para una proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
9.3.6 Contraste para la diferencia de proporciones . . . . . . . . . . . . . . . . . . . . . . . . 205
9.3.7 Contraste para la varianza de una población normal . . . . . . . . . . . . . . . . . . 207
9.3.8 Contraste para el cociente de varianzas de v.a. normales . . . . . . . . . . . . . . 208
9.4 Contrastes de bondad de ajuste 209
9.4.1 Contraste de bondad de ajuste para variables discretas. Test χ2 de bondad de
ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
9.4.2 Contraste de bondad de ajuste para distribuciones continuas. Test de Kolmogorov-
Smirnoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
9.5 Relación entre contrastes de hipótesis paramétricas e intervalos de con-
fianza 215
9.6 Resumen 218
9.7 Para saber más 218
9.8 Ejercicios 219

10 Regresión Lineal Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223


10.1 Introducción 223
10.2 Definición y ajuste del modelo 224
10.2.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
10.2.2 Ajuste por mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
10.2.3 Fiabilidad de la recta de regresión ajustada. El coeficiente de determinación lineal
231
10.3 Inferencias sobre el modelo 233
10.3.1 Inferencia sobre la pendiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
10.3.2 Inferencia sobre la ordenada en el origen . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
10.4 Correlación lineal simple 240
10.5 Predicción y estimación a partir del modelo 241
10.6 Diagnosis del modelo 243
10.6.1 Normalidad de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
10.6.2 Gráfica de residuos frente a valores ajustados . . . . . . . . . . . . . . . . . . . . . . . . 244
10.7 Resumen 247
10.8 Para saber más 247
10.9 Ejercicios 247

IV Procesos aleatorios
11 Introducción a los procesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . 253
11.1 Introducción 253
11.2 Descripción de un proceso aleatorio 256
11.3 Tipos más comunes de procesos aleatorios 258
11.3.1 Procesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
11.3.2 Procesos con incrementos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . 258
11.3.3 Procesos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
11.3.4 Procesos débilmente estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
11.3.5 Procesos ergódicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
11.4 Ejemplos de procesos aleatorios 262
11.4.1 Ruidos blancos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
11.4.2 Procesos gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
11.4.3 Procesos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
11.5 Para saber más 267

Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
Prólogo

Por qué un libro como éste

El objetivo fundamental que pretende cubrir este manual es facilitar al alumnado de un primer
curso de cualquier grado universitario de Ingeniería el material para el estudio de una asignatura de
Estadística básica. En particular, contiene todo lo que mis estudiantes de los distintos grados de la
Escuela Politécnica Superior de Linares de la Universidad de Jaén necesitan, tanto como apoyo en
las lecciones teóricas, como en lo que a la preparación de ejercicios se refiere. Desde un punto de
vista más amplio, espero que sea útil, en alguna medida, a quien necesite conocimientos básicos de
las técnicas estadísticas más usuales en un ambiente científico-tecnológico.

El enfoque de los contenidos es eminentemente práctico, y en ello el uso del software estadístico
R (R Core Team, 2018) va a cumplir un papel fundamental. Hoy en día nadie realiza los cálculos
vinculados a cualquier análisis estadístido si no es mediante la ayuda del ordenador y de algún
software adecuado. Vincular, por tanto, la docencia de la Estadística a la realización de complejos
cálculos y la construcción de laboriosas tablas no conduce, a mi juicio, más que a distraer la
atención de lo realmente importante: el aprender a utilizar la Estadística como herramienta de
análisis en presencia de datos sujetos a incertidumbre.

Sin embargo, debe quedar claro que éste no es un libro de R, sino de Estadística. R será
utilizado exclusivamente para obtener los resultados que plasman los conceptos y técnicas que se
irán introduciendo.

Debido al enfoque fundamentalmente práctico, se ha prescindido casi completamente de


las demostraciones de tipo matemático, incluyendo sólo aquellas que suponen una ayuda en la
comprensión de los contenidos. También se han simplificado algunas definiciones en aras, de nuevo,
a fijar la atención en su interpretación práctica.

Finalmente, se ofrecen en cada tema referencias para ampliar el estudio en aspectos que no se
tocan aquí.
10

Cómo leer este libro


Creo que es importante insistir de nuevo en que éste es un libro de Estadística en el que R se
utiliza como una simple calculadora. El lector debe tratar de comprender los conceptos y las técnicas
que son la base de los resultados que conducen a resolver un problema práctico, no centrando la
atención en cómo se obtienen esos resultados mediante R.
Con respecto a la inclusión del código de R, se ha tratado de diferenciar claramente las líneas de
código que facilitan el análisis en sí de aquellas que proporcionan tablas en un formato imprimible,
cuando esto es necesario. Este aspecto, el del formato de las tablas y, en general, de las salidas no
gráficas, ha sido tradicionalmente uno de los más criticado en R, ya que otros programas estadísticos,
sobre todo los de licencias comerciales, las crean fácil y rápidamente, mientras que las salidas de R
son, en su versión inicial, simplemente texto. Sin embargo, el uso de complementos de R como
Sweave (Leisch, 2002) o Knitr (Xie, 2015) permite hoy en día obtener las salidas con la misma
facilidad y, sobre todo, con mayor versatilidad que cualquier otro software. Es más, estas librerías
permiten, de hecho, unificar la edición de texto y el análisis estadístico mediante código en un
único entorno. Prueba de ello es este mismo libro, creado íntegramente mediante Sweave.
De cara a facilitar el entrenamiento del lector, todos los datos que se utilizan en los ejemplos
o que se mencionan en los ejercicios propuestos están accesibles en una URL pública, y pueden
cargarse desde este enlace.
Al final de cada capítulo se incluye un resumen y, en ocasiones, una aplicación práctica que trata
de integrar los contenidos expuestos, ya que, en ocasiones, los ejemplos que aparecen dentro de
cada apartado están principalmente destinados a ilustrar aspectos específicos. También se proponen
ejercicios en la misma línea, siempre con un carácter integrador de las competencias que se trata de
desarrollar.

Agradecimientos
A mis estudiantes, los de ahora y los de siempre: ellos, con sus ganas de saber, son los únicos
capaces de obligarme a sentarme unos meses a escribir estas líneas.
1. Introducción

La estadística es la primera de las ciencias inexactas.

Edmond de Concourt

Resumen y Objetivos
El capítulo incluye una introducción del término Estadística, que debe vincularse a una rama
de la matemática que proporciona herramientas para el análisis de datos, y define los conceptos
más básicos, relativos a datos o variables, poblaciones y muestras. Se define también la hoja de
datos como matriz que contiene la información de una o varias variables sobre una muestra o una
población finita. Más concretamente, se plantea los siguientes objetivos:
1. Comprender el significado de la palabra Estadística.
2. Diferenciar poblaciones tangibles y conceptuales.
3. Diferenciar datos cualitativos y cuantitativos.
4. Diferenciar población y muestra.
5. Comprender el concepto de hoja de datos y aprender a construirla.

1.1 Qué significa Estadística


El Diccionario de la Real Academia Española de la Lengua incluye entre las acepciones del
vocablo Estadística:
1. Estudio de los datos cuantitativos de la población, de los recursos naturales e industriales, del
tráfico o de cualquier otra manifestación de las sociedades humanas.
2. Conjunto de datos estadísticos.
3. Rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener
inferencias basadas en el cálculo de probabilidades.
Probablemente el más común de los significados conocidos de la palabra sea el segundo, y por
ello solemos ver en los medios de comunicación que cualquier recopilación de cifras referentes a
algún asunto es llamado (de forma muy reduccionista) estadística o estadísticas.
12 Capítulo 1. Introducción

Sin embargo, el valor real de la Estadística como ciencia tiene que ver mucho más con la primera
y la tercera acepción del DRAE. Concretamente, el primero de los significados se corresponde con
lo que se denomina Estadística Descriptiva, donde la Estadística se utiliza para resumir, describir
y explorar datos, y el tercero con lo que se conoce como Inferencia Estadística, cuyo objetivo es
utilizar datos de un conjunto reducido de casos para inferir características de éstos al conjunto de
todos ellos.

1.2 La Estadística en el ámbito de la Ciencia y la Ingeniería


El papel de la Estadística en la Ciencia y la Ingeniería hoy en día es crucial, fundamentalmente,
a mi juicio, por dos motivos:
1. Porque al analizar datos recopilados en experimentos de cualquier tipo, se observa en la
mayoría de las ocasiones que dichos experimentos están sujetos a algún tipo de incertidumbre.
El investigador o el profesional debe tomar decisiones respecto de su objeto de análisis
basándose en esos datos, para lo cual debe dotarse de herramientas adecuadas.
2. Porque los datos que puede recopilar son tantos, que resulta prácticamente imposible ver en
ellos la información realmente relevante que contienen, como si los árboles no dejaran ver el
bosque.
A continuación vamos a describir una serie de problemas prácticos en los que se plantean
situaciones de este tipo, y vamos a mencionar dónde y cómo resolveremos dichos problemas.
 Ejemplo 1.1 En Czitrom y Reece (1997) se describe un proceso para el crecimiento de una
capa delgada de dióxido de silicio sobre placas de este elemento que se usan en la fabricación de
semiconductores; nosotros los tenemos en la hoja de datos oxidosilicio. En dicho trabajo aparecen
datos relativos a las mediciones del espesor, en angstroms (Å), de la capa de óxido generada para
pruebas realizadas en 24 placas (Wafer): en concreto, se realizaron 9 mediciones en cada una de
las 24 placas. Además, las placas se fabricaron en dos series distintas (Run), 12 placas en cada
serie. Estas placas eran de distintos tipos y se procesaron en distintas posiciones en el horno, ya que
entre otros aspectos, el propósito de la recopilación de los datos era determinar si el espesor de la
capa de óxido estaba afectado por el tipo de placa y por la posición en el horno. Por el contrario, el
experimento se diseñó de tal manera que no se esperaba ninguna diferencia sistemática entre las
dos series. Los datos se muestran en la Tabla 1.1.
Lo primero que salta a la vista al mirar esos datos es que es muy complicado hacerse una idea
global de los resultados. Parecen estar en torno a 90 Å, pero con variaciones importantes respecto
de ese valor. Algunas de esas variaciones son especialmente llamativas (77.5, 106.7, ...): ¿qué pasó
en esas placas? En suma, es evidente que se hace necesaria una manera sistemática de analizar
los datos, tratando de describirlos de forma precisa y objetiva, respondiendo a las preguntas que
subyacen en el diseño del experimento: ¿son las dos series de experimentos homogéneas? ¿afecta
el tipo de placa? ¿afecta la posición en el horno? ... La Tabla 1.1 muestra los primeros datos.

> tabla <- xtable::xtable(oxidosilicio,


+ caption = "Grosor de las capas de óxido de silicio",
+ label = "tab:oxidosilicio")
> print(tabla, include.rownames = FALSE)

Este ejemplo pone de manifiesto la necesidad de dotarnos de técnicas adecuadas de descripción


y visualización de los datos, cuestión que abordaremos en el capítulo dedicado a la Estadística
Descriptiva. Deberemos ser capaces de extraer de esos datos la información más relevante que
contienen, de cara a responder a las preguntas que el experto se planteará en el contexto donde
aparecen.
1.2 La Estadística en el ámbito de la Ciencia y la Ingeniería 13

Run Wafer Pos_1 Pos_2 Pos_3 Pos_4 Pos_5 Pos_6 Pos_7 Pos_8 Pos_9
1 1 90.00 92.20 94.90 92.70 91.60 88.20 92.00 98.20 96.00
1 2 91.80 94.50 93.90 77.30 92.00 89.90 87.90 92.80 93.30
1 3 90.30 91.10 93.30 93.50 87.20 88.10 90.10 91.90 94.50
1 4 92.60 90.30 92.80 91.60 92.70 91.70 89.30 95.50 93.60
1 5 91.10 89.80 91.50 91.50 90.60 93.10 88.90 92.50 92.40
1 6 76.10 90.20 96.80 84.60 93.30 95.70 90.90 100.30 95.20
1 7 92.40 91.70 91.60 91.10 88.00 92.40 88.70 92.90 92.60
1 8 91.30 90.10 95.40 89.60 90.70 95.80 91.70 97.90 95.70
1 9 96.70 93.70 93.90 87.90 90.40 92.00 90.50 95.20 94.30
1 10 92.00 94.60 93.70 94.00 89.30 90.10 91.30 92.70 94.50
1 11 94.10 91.50 95.30 92.80 93.40 92.20 89.40 94.50 95.40
1 12 91.70 97.40 95.10 96.70 77.50 91.40 90.50 95.20 93.10
2 1 93.00 89.90 93.60 89.00 93.60 90.90 89.80 92.40 93.00
2 2 91.40 90.60 92.20 91.90 92.40 87.60 88.90 90.90 92.80
2 3 91.90 91.80 92.80 96.40 93.80 86.50 92.70 90.90 92.80
2 4 90.60 91.30 94.90 88.30 87.90 92.20 90.70 91.30 93.60
2 5 93.10 91.80 94.60 88.90 90.00 97.90 92.10 91.60 98.40
2 6 90.80 91.50 91.50 91.50 94.00 91.00 92.10 91.80 94.00
2 7 88.00 91.80 90.50 90.40 90.30 91.50 89.40 93.20 93.90
2 8 88.30 96.00 92.80 93.70 89.60 89.60 90.20 95.30 93.00
2 9 94.20 92.20 95.80 92.50 91.00 91.40 92.80 93.60 91.00
2 10 101.50 103.10 103.20 103.50 96.10 102.50 102.00 106.70 105.40
2 11 92.80 90.80 92.20 91.70 89.00 88.50 87.50 93.80 91.40
2 12 92.10 93.40 94.00 94.70 90.80 92.10 91.20 92.30 91.10

Tabla 1.1: Grosor de las capas de óxido de silicio

 Ejemplo 1.2 Hace tiempo decidí cambiar las bombillas incandescentes que tenía en casa por
bombillas de bajo consumo. Adquirí entonces varias bombillas de la marca ANTE de 14W donde
se afirmaba literalmente ’Lámpara ahorradora de energía. Duración 8 años’.
Desde el principio, esa afirmación me generó bastantes dudas. Para empezar, ¿es que a los 8
años, de repente, la lámpara se rompe? Por otra parte, creo que todos nosotros hemos experimentado
el hecho de que éstas lámparas, que supuestamente tienen una duración mayor que las tradicionales
lámparas incandescentes (según el envoltorio, 8 veces mayor), por el contrario, se rompen con
facilidad. Luego, ¿qué quiere decir exactamente el envoltorio al afirmar que su duración es de 8
años?
En realidad, nosotros deberemos aprender a analizar este problema, asumiendo que la duración
de esta bombilla no es un valor fijo y conocido, sino que está sujeto a incertidumbre. Lo que
haremos será dotarnos de un modelo matemático que nos permita valorar si es probable o no que
una lámpara ANTE se rompa antes de un año, después de tres años, etc. 

Fenómenos como el de la duración de la bombilla evidencian la necesidad de analizar un tipo


de variables habitualmente ignoradas en la matemática determinística, las variables aleatorias.
Nosotros tendremos que comenzar sentando las bases que permiten formalizar la definición de
estas variables, mediante el cálculo de probabilidades, para después definir modelos matemáticos
de distribuciones de probabilidad que sean capaces de responder a la pregunta de si 8 años es una
duración baja o no, por ejemplo.
 Ejemplo 1.3 En Weber y col. (2002) se presenta un estudio de la contaminación en vertederos
14 Capítulo 1. Introducción

que contienen desechos de construcción y desperdicios de demoliciones. En un vertedero concreto


se tomaron 42 muestras de lixiviado, de las cuales 26 resultaron contener niveles detectables de
plomo. Se pone así de manifiesto que una parte de ese vertedero está contaminada por plomo. La
cuestión es ¿qué proporción supone esta parte contaminada de la superficie total?
Si alguien desea obtener a partir de esos datos una estimación de la proporción del vertedero
que contiene niveles detectables de plomo debe ser consciente de dos cuestiones:
1. Es imposible analizar todos los rincones del vertedero.
2. Si se basa sólo en los datos del artículo, esa estimación será sólo eso, una estimación basada
en esa muestra, que es de sólo 42 datos. Debería, por tanto obtener también una estimación
del error que está cometiendo al hacer la estimación. Con ambos resultados, la estimación en
sí y una cuantificación del error que podría cometer con ella, incluso podrá obtener un rango
donde la verdadera proporción se encuentra, con un alto nivel de confianza.


La mera existencia de las variables aleatorias pone de manifiesto la aparición de cantidades


sujetas a la misma incertidumbre que tienen dichas variables. La proporción del vertedero que está
contaminado es un parámetro que nunca podremos conocer con absoluta certeza, que sólo podremos
aproximar de alguna manera, basándonos en los datos de una muestra limitada. Este problema
es el que se aborda en el contexto de la inferencia estadística bajo el epígrafe de estimación de
parámetros.
 Ejemplo 1.4 Un indicador habitual a tener en cuenta en evaluaciones del estado de salud es el
porcentaje de grasa corporal (PGC). Con frecuencia se asocia un mayor PGC con un mayor peso,
pero realmente no sabemos a priori si hay una relación tan directa. En este sentido, la Sociedad
Española para el Estudio de la Obesidad (SEEDO) no recomienda un PGC por encima de 21 para
varones entre 18 y 35 años.
Los datos que se muestran en la Tabla 1.2 se refieren al peso de una muestra de varones de
entre 18 y 35 años e informan también de si estaban por encima o por debajo de 21 en su PGC. Son
datos reales obtenidos de un trabajo de investigación no publicado y se recogen en la hoja llamada
PGCvsPESO.
La pregunta que surge es si el peso de quienes tienen un PGC por encima de 21 es realmente
mayor que el de quienes lo tienen por debajo. Sin embargo, esa pregunta, así formulada, no tiene
una respuesta única posible, al ser tanto el peso como el PGC valores aleatorios cuyo valor concreto
depende del individuo. La pregunta debemos hacerla en términos de algún parámetro que hable de
una tendencia a un mayor peso en individuos con PGC por encima de 21, por ejemplo, la media.
Tenemos, así, formulada una hipótesis sobre un parámetro, la media del peso, y contamos sólo
con una muestra con la cual pretendemos confirmar dicha hipótesis. 

> load("EstadisticaBasicaIngenieros.RData")
> titulo <- "Peso y porcentaje de grasa corporal en muestra de varones jóvenes"
> tabla <- xtable::xtable(PGCvsPESO, caption = titulo, label = "tab:pesoVSpgc")
> print(tabla)

Este tipo de problemas se analizan en el contexto de los contrastes de hipótesis paramétricas.


Hay que insistir que la hipótesis se refiere a toda la población (en el caso del ejemplo, a todos
los varones entre 18 y 35 años), no sólo a los que forman parte de la muestra. Nosotros aquí
aprenderemos a realizar contrastes sobre medias, varianzas y proporciones, bajo determinadas
condiciones. Aprenderemos también que estos contrastes están sujetos a la posibilidad de error y a
cuantificar dicho error.
Ejemplo 1.5 La ley de Hook establece que, dado un muelle, el alargamiento, yx , que provoca un
peso de x kilos, es proporcional a este peso, según una constante llamada constante de elasticidad
1.2 La Estadística en el ámbito de la Ciencia y la Ingeniería 15

PGC PESO PGC__1 PESO__1


1 >21 85.40 <21 64.00
2 >21 91.00 >21 75.60
3 >21 70.40 >21 85.80
4 <21 88.00 <21 72.00
5 <21 55.30 >21 85.40
6 <21 65.00 >21 73.00
7 >21 101.20 >21 68.40
8 <21 64.60 >21 70.50
9 >21 74.40 >21 79.70
10 <21 75.60 >21 79.50
11 >21 81.30 <21 82.20

Tabla 1.2: Peso y porcentaje de grasa corporal en muestra de varones jóvenes

del muelle, K; es decir, yx = K × x.


Si queremos conocer la constante de elasticidad, podemos probar el muelle con distintos pesos y
aprovechar el hecho de que se conoce la ley de Hook para obtener una aproximación del valor de K;
pero no olvidemos que debido al error experimental, los valores que obtendremos no cumplirán al
100 % la ley de Hook, y tendremos que utilizar alguna técnica apropiada para encontrar información
sobre el valor de K. 

El hecho de utilizar una fórmula lineal que relaciona una variable y con otra variable x será
analizado en el tema dedicado a regresión lineal simple. Las aplicaciones de la regresión son
innumerables, como veremos, y aportan un conocimiento más completo que el que se suele
proporcionar cuando se utiliza en un contexto similar la técnica de aproximación por mínimos
cuadrados.
 Ejemplo 1.6 Reduciendo mucho el problema, supongamos que una antena de telefonía móvil
tiene una cobertura que abarca a cualquier móvil dentro de un círculo de radio r. Un ingeniero puede
suponer que un teléfono concreto puede estar situado en cualquier punto al azar de ese círculo, pero
¿cómo plasmar eso? Por ejemplo, si nos centramos en la distancia a la antena, ¿cualquier distancia
es igualmente probable? ¿Y qué podemos decir de las coordenadas en un momento concreto del
móvil, por ejemplo? 

Este ejemplo motiva la necesidad de considerar vectores formados por variables aleatorias.
De la misma forma que en el tema dedicado a estas variables deberemos ser capacer de describir
cuál es su comportamiento en términos de probabilidades, en el caso de los vectores aleatorios
habrá que, adicionalmente, ser capaces de comprender cuál cómo es la distribución conjunta de la
probabilidad del vector.
 Ejemplo 1.7 Imaginemos que estamos diseñando un dispositivo que reconoce voz. Este disposi-
tivo debería tener en cuenta que una misma palabra no es pronunciada exactamente igual por una
persona; dicho de otro modo, la forma en que se pronuncia una palabra es también aleatoria. 

En el contexto particular de las telecomunicaciones, cualquier señal debe considerarse aleatoria,


es decir, debe tenerse en cuenta que cuando la observamos, parte de ella es debida a la incertidumbre
inherente a cualquier proceso de comunicación. Y es que, por multitud de razones, nadie tiene
garantías que la señal enviada sea exactamente igual a la señal recibida. Esto motiva la necesidad
de estudiar procesos aleatorios, como modelos de este tipo de señales.
Un ingeniero debe tener en cuenta eso y, a pesar de todo, ser capaz de analizar las propiedades
más relevantes de cualquier señal y de estudiar su comportamiento en cualquier momento del
16 Capítulo 1. Introducción

proceso de comunicación.

1.3 Definiciones más relevantes


Para finalizar este primer tema de introducción, vamos a ir fijando las definiciones más ele-
mentales que utilizaremos más adelante y que implícitamente ya han aparecido en los ejemplos
anteriores.
Definición 1.3.1 Se denomina población a un conjunto particular de individuos o casos.

Existe una clasificación, un tanto artificial, de las poblaciones en tangibles o conceptuales,


dependiendo de si es posible conocer todos los casos o sólo se un subconjunto de ellos.
Definición 1.3.2 Una población es tangible si consta de elementos físicos reales que forman
un conjunto finito.

Por ejemplo, si estamos considerando el estudio de la altura de los alumnos de la Escuela, el


conjunto de estos alumnos es una población tangible.
Definición 1.3.3 Una población es conceptual si no tiene elementos reales, sino que sus casos
se obtienen por la repetición de un experimento.

Por ejemplo, cuando planteábamos las pruebas sobre placas de silicio, vemos que hay tantos
casos como pruebas puedan hacerse, lo que supone un conjunto infinito de casos.
En poblaciones conceptuales es imposible, por tanto, conocer todos los casos, y tenemos que
conformarnos con subconjuntos (o muestras) de los mismos.
Definición 1.3.4 Una variable o dato es una característica concreta de una población.

Por ejemplo:
Si consideramos la población de todos los alumnos de la Escuela, podemos fijarnos en la
variable altura.
Si consideramos el supuesto de las pruebas sobre placas de silicio, podemos considerar la
variable espesor de la capa de óxido de silicio generada.
Definición 1.3.5 Se denomina muestra a cualquier subconjunto de datos seleccionados de una
población.

El objetivo de una muestra, ya sea en una población tangible o en una población conceptual, es
que los elementos de la muestra representen al conjunto de todos los elementos de la población.
Esta cuestión, la construcción de muestras adecuadas, representativas, es uno de los aspectos más
delicados de la Estadística.
Nosotros vamos a considerar en esta asignatura sólo un tipo de muestras, denominadas muestras
aleatorias simples. En una muestra aleatoria simple, todos los elementos de la población deben tener
las mismas posibilidades de salir en la muestra y, además, los elementos de la muestra deben ser
independientes: el que salga un resultado en la muestra no debe afectar a que ningún otro resultado
salga en la muestra.
Por ejemplo, podríamos estar interesados en la población de todos los españoles con derecho
a voto (población tangible, pero enorme), de los que querríamos conocer un dato o variable, su
intención de voto en las próximas elecciones generales. Dado que estamos hablando de millones de
personas, probablemente deberemos escoger una muestra, es decir, un subconjunto de españoles a
los que se les realizaría una encuesta. Si queremos que esa muestra sea aleatoria simple, deberemos
tener cuidado de que todos los españoles con derecho a voto tengan las mismas posibilidades de
caer en la muestra y de que la respuesta de un entrevistado no afecte a la de ningún otro. Como nota
curiosa, la mayoría de las encuestas nacionales se hacen vía telefónica, lo cual es una violación de
1.4 Organización de los datos. La hoja de datos 17

las hipótesis de muestra aleatoria simple, ya que hay españoles con derecho a voto que no tienen
teléfono o no aparecen en listines telefónicos, luego es imposible que salgan en la muestra.

1.4 Organización de los datos. La hoja de datos


A la hora de analizar los datos que observemos de una determinada población o muestra
debemos establecer algún convenio acerca de cómo organizarlos.
Vamos a suponer que hemos observado k variables de una muestra de tamaño N de una
población. En Estadística, ese conjunto de datos se organiza en forma de matriz de tal manera que
cada muestra de cada variable ocupe una columna de la matriz y cada fila contenga los valores de
las variables de cada caso de la muestra.
Definición 1.4.1 Dada una muestra de una población, una hoja de datos para esa muestra
es una matriz donde cada columna incluye una variable observada para dicha muestra, de tal
manera que cada fila contiene los datos de cada variable de un caso concreto de la muestra.

 Ejemplo 1.8 En el Ejemplo 1.1 de las capas de óxido de silicio los datos se han presentado en
forma de matriz con 11 variables y 24 filas. Cada fila se refiere a una placa, de la cual se conocen
11 variables: el número con el que se identifica la placa (Wafer), la serie en la que se introdujo en el
horno (Run) y las 9 mediciones del espesor en diferentes posiciones de la placa.
En ese caso está claro que para nosotros la muestra es una muestra de placas. Sin embargo,
supongamos que lo que nos interesa no son las placas, sino lo que se observa en cada posición de
cada placa. Entonces la matriz de datos debe cambiar, porque ahora tenemos 12 × 2 × 9 observa-
ciones, tantas como medidas se han tomado del espesor de la capa de óxido de silicio. La nueva
matriz de datos ha de tener entonces 216 filas y 3 columnas, que representan los tres datos que
conocemos para cada posición donde se mide: la placa en la que se midió, la serie y el espesor de la
capa; convendría, además, incluir una variable inicial para identificar cuál era la posición donde se
midió. La construimos mediante R de la siguiente manera:

> placas <- data.frame(matrix(nrow = 9*24, ncol = 3))


> for (i in 0:8){
+ placas[24*i + (1:24), 1:2] <- oxidosilicio[, 1:2]
+ placas[24*i + (1:24), 3] <- oxidosilicio[1:24, i + 3]
+ }
> names(placas) <- c("Serie", "Placa", "Espesor")

Ahora, por cuestión de espacio, mostramos sólo los datos de las 6 primeras mediciones, que
aparecen en la Tabla 1.3.

> tabla <- xtable::xtable(head(placas),


+ caption = "Mediciones del grosor de óxido de silicio",
+ label = "tab:placas")
> print(tabla, include.rownames = FALSE)

 Ejemplo 1.9 Los datos sobre el peso y el PGC en una muestra de varones jóvenes que se han
comentado en el Ejemplo 1.4 y que aparecen en la Tabla 1.2 no constituyen una hoja de datos.
Una verdadera hoja de datos que describa ese problema debe tener tantas filas como varones en
la muestra y dos columnas, una para el peso y otra para el PGC. Se mostraron así por una simple
cuestión de economía de espacio.
18 Capítulo 1. Introducción

Serie Placa Espesor


1 1 90.00
1 2 91.80
1 3 90.30
1 4 92.60
1 5 91.10
1 6 76.10

Tabla 1.3: Mediciones del grosor de óxido de silicio

Construimos la verdadera hoja de datos que describe estadísticamente el problema uniendo


las filas de peso y PGC y colocándolas en columnas, con cuidado de no modificar el orden en que
aparecen:

> pesoVSpgc <- data.frame(Peso = numeric(11*2), PGC = character(11*2))


> pesoVSpgc[, 1] <- c(PGCvsPESO$PESO, PGCvsPESO$PESO__1)
> pesoVSpgc[, 2] <- c(PGCvsPESO$PGC, PGCvsPESO$PGC__1)

La Tabla 1.4 muestra los 6 primeros casos de esta nueva hoja, que sí describe el problema
correctamente.

> tabla <- xtable::xtable(head(pesoVSpgc),


+ caption = "Peso y PGC en la muestra de varones",
+ label = "tab:varones")
> print(tabla, include.rownames = FALSE)

Peso PGC
85.40 >21
91.00 >21
70.40 >21
88.00 <21
55.30 <21
65.00 <21

Tabla 1.4: Peso y PGC en la muestra de varones

En resumen, debemos prestar especial atención a la manera de organizar los datos, teniendo en
cuenta cuáles son nuestras observaciones, y cuáles nuestras variables.

1.5 Ejercicios
Ejercicio 1.1 Considera una encuesta electoral en España en la que se realizan 1000 entrevistas
telefónicas reproduciendo las cuotas de género y de franjas de edad de la poblacion española
para tratar de averiguar la intencion de voto. Se pide:
1. ¿Cuál es la población objeto de estudio? ¿Es tangible o conceptual?
2. ¿Cuáles son las variables que se observan en toda la entrevista?
3. ¿Cuántas filas y cuántas columnas tendría la hoja de datos que contuviera los datos de la
1.5 Ejercicios 19

encuesta?


Ejercicio 1.2 Imagina la persona encargada del control de calidad de una empresa, que debe
inspeccionar cada día un número fijo de productos de la empresa, decidiendo si los elementos
inspeccionados son defectuosos o están dentro de los estándares, para comprobar que el proceso
de control está bajo control. Se pide:
1. ¿Cuál es la población objeto de estudio? ¿Es tangible o conceptual?
2. ¿Cuáles son las variables que se observan en cada producto?
3. ¿Cuántas filas y cuántas columnas tendría la hoja de datos que contuviera los datos de un
día, si cada día analiza 250 productos?


Ejercicio 1.3 Imagina que trabajas en una empresa que desea implantar un nuevo proceso de
producción. Antes de hacerlo, la empresa te solicita que realices una prueba piloto para evaluar
si el nuevo proceso mejora el existente. Existen dos turnos de producción, de mañana y de tarde,
y la empresa te permite utilizar 20 trabajadores en total para las pruebas. La conveniencia del
nuevo proceso frente al existente quedará demostrada si el tiempo en realizar una tarea por parte
de un empleado disminuye. Se pide:
1. ¿Cuál es la población objeto de estudio? ¿Es tangible o conceptual?
2. ¿Cómo organizarías el estudio? Piensa en varias posibilidades para que la muestra de los
20 trabajadores de las que dispones sea lo más representativa y lo más adecuada posible.
3. Simula una hoja de datos que contuviera toda la información del estudio.

I
Estadística Descriptiva

2 Estadística Descriptiva . . . . . . . . . . . . . . . 23
2.1 Tipos de variables
2.2 Distribuciones de frecuencias y gráficos asociados
2.3 Métodos numéricos para describir datos cuantitati-
vos
2.4 Detección de valores atípicos. El diagrama de caja
2.5 Resumen y aplicación de lo aprendido
2.6 Para saber más
2.7 Ejercicios
2. Estadística Descriptiva

Lo terrible de la situación –señaló- es que las empresas disponen de los datos, pero los tienen
almacenados en múltiples bases de datos, lo que les impide disponer de la información y responder
a preguntas tan sencillas como el número de clientes que tienen, o si están o no satisfechos, o
quiénes son sus proveedores y la inversión que realizan con cada unos de ellos.

Larry Ellison, fundador de Oracle

Objetivos del capítulo


Obtenidos a través de encuestas, experimentos, recopilados a través de bases de datos o mediante
cualquier cualquier otro método, los datos suelen ser tan numerosos que resultan prácticamente
inútiles si no son resumidos de forma adecuada. Para ello la Estadística utiliza tanto técnicas
gráficas como numéricas, algunas de las cuales describimos en este capítulo.
Teniendo en cuenta esto, los objetivos generales del capítulo son:
1. Aprender a identificar variables cuantitativas, cualitativas, discretas y continuas.
2. Interpretar distribuciones de frecuencias según el tipo de variable.
3. Representar distribuciones de frecuencias en diagramas de barras, diagrama de sectores e
histogramas.
4. Interpretar medidas de posición (media, mediana, cuantiles), dispersión (varianza, desviación
típica, coeficiente de variación) y forma (coeficiente de asimetría).
5. Identificar datos atípicos mediante el diagrama de caja.

2.1 Tipos de variables


Las variables pueden ser de dos tipos, cuantitativas y cualitativas.
Definición 2.1.1 Son variables cuantitativas las que representan una cantidad reflejada en una
escala numérica. A su vez, pueden clasificarse como cuantitativas discretas si se refieren al
conteo de alguna característica, o cuantitativas continuas si se refieren a una medida.
24 Capítulo 2. Estadística Descriptiva

Definición 2.1.2 Son variables cualitativas las que se refieren a características de la población
que no pueden asociarse a cantidades con significado numérico, sino a características que sólo
pueden clasificarse.

Esta distinción entre variables cuantitativas o cualitativas es importantísima, porque el análisis


de ambos tipos va a ser completamente diferente. Algo parecido ocurre a la hora de distinguir datos
cuantitativos discretos de continuos, aunque la gravedad de confundirlos será realmente dramática
más adelante, cuando volvamos a ellos desde la perspectiva de las variables aleatorias.
 Ejemplo 2.1 Veamos algunos ejemplos de cada uno de estos tipos de variables:
En el Ejemplo 1.1, del óxido de silicio, la variable grosor de las mediciones de las placas es
cuantitativa continua, mientras que tanto la placa como la serie a la que está asociada cada
medición del grosor son cualitativas.
En el Ejemplo 1.3 cada muestra es clasificada en función de si contiene niveles detectables
de plomo o no, por lo que es una variable cualitativa con dos categorías.
En el Ejemplo 1.4 tenemos dos variables de cada tipo, el peso, cuantitativa, y el PGC,
cualitativa, ya que se encuentra codificada en dos categorías.
Cualquier variable que, en cualquier contexto se observe como número de... es cuantitativa
discreta: número de hijos, número de accidentes, número de unidades de información, etc.


2.2 Distribuciones de frecuencias y gráficos asociados


La distribución de las frecuencias de unos datos constituye una de las formas más sencillas de
resumir la información que proporcionan. Se trata simplemente de hacer un recuento y expresar
en forma de frecuencias cuáles son los valores más repetidos y los menos repetidos. Dependiendo
del tipo de datos que manejemos, este recuento se hará de una manera u otra, como vamos a ver a
continuación.

2.2.1 Distribución de frecuencias de una variable cualitativa


En el caso de datos de una variable cualitativa, la distribución de frecuencias se construye
contando cuántas veces se da cada valor de la variable, expresándolo en términos absolutos o
relativos, ya sea en porcentajes o en proporciones.
Definición 2.2.1 Dado un conjunto de valores de una variable cualitativa, se denomina dis-
tribución de frecuencias al conjunto de los recuentos de cada valor de la variable. Dichas
frecuencias pueden ser absolutas o relativas; éstas últimas pueden presentarse en escala de
proporción (entre 0 y 1) o de porcentaje (entre el 0 % y el 100 %).

 Ejemplo 2.2 La página web del Instituto de Estadística y Cartografía de Andalucía facilita
información sobre los municipios de esta comunidad autónoma. En particular, he obtenido una
hoja de datos (JaenIndicadores) que contiene tres indicadores: el consumo de agua (en m3 / día),
el consumo eléctrico (en MW h) y la cantidad (en toneladas métricas) y el destino de los residuos
sólidos urbanos generados, todos ellos referidos al año 2001. Adicionalmente, aparece también el
número de habitantes, el número de núcleos de población que componen el municipio y el nombre
de cada municipio.
En este caso nos vamos a fijar en la variable cualitativa sobre el destino de los residuos
sólidos urbanos, para obtener una distribución de frecuencias absolutas y relativas, en proporción y
porcentaje. Aparecen en la Tabla 2.1, construida a partir del siguiente código:

> frecuencias <- table(JaenIndicadores$Residuos.destino)


> proporciones <- frecuencias / sum(frecuencias)
2.2 Distribuciones de frecuencias y gráficos asociados 25

> porcentajes <- 100 * proporciones


> datos <- data.frame(row.names = names(frecuencias),
+ Frecuencias = as.vector(frecuencias),
+ Proporciones = as.vector(proporciones),
+ Porcentajes = as.vector(porcentajes))

> titulo <- "Residuos sólidos urbanos. Distribución de frecuencias"


> tabla <- xtable::xtable(datos, caption = titulo, label = "tab:frec_res")
> print(tabla)

Frecuencias Proporciones Porcentajes


Compostaje 24 0.25 25.00
Vertedero controlado 61 0.64 63.54
Vertedero incontrolado 11 0.11 11.46

Tabla 2.1: Residuos sólidos urbanos. Distribución de frecuencias

La tabla muestra que, aunque la mayoría de los municipios depositan sus residuos en vertederos
controlados (63.54 %), en el momento de la observación había un porcentaje significativo que lo
hacía en vertederos incontrolados (11.46 %). 

La información que proporciona una distribución de frecuencias puede plasmarse en dos


representaciones gráficas habituales, el diagrama de barras y el diagrama de sectores.
Definición 2.2.2 Un diagrama de barras es una representación gráfica de una distribución de
frecuencias en la que cada frecuencia está asociada a una barra vertical con altura proporcional
a dicha frecuencia.
Un diagrama de sectores es una representación gráfica una distribución de frecuencias
en forma de círculo en el que cada frecuencia está asociada a un sector circular con ángulo
proporcional a dicha frecuencia.

En relación a los diagramas de sectores, si bien su uso está ampliamente extendido, sobre todo
en medios de comunicación, hay que decir que no son recomendables en absoluto, ya que, por un
lado, la percepción humana es mucho más imprecisa a la hora de valorar áreas relativas como las
de los sectores circulares (Cleveland, 1985) y, por otro, pueden ser manipulados fácilmente para
destacar los sectores que se deseen.
 Ejemplo 2.3 Para los datos del Ejemplo 2.2 sobre el destino de los residuos sólidos urbanos
podemos obtener los diagrama de barras y de sectores de la Figura 2.1.
Se percibe de una forma visual, claramente, que lo más frecuente es el uso de vertederos
controlados para el depósito de los residuos, seguido de las plantas de compostaje.


2.2.2 Distribución de frecuencias de una variable cuantitativa continua


En el caso de conjuntos de datos de una variable cuantitativa continua no tiene sentido hacer
un recuento de cada valor de la variable: normalmente habrá tantos valores posibles que en dicho
recuento cada dato aparecerá una sóla vez.
Para evitarlo, debemos agrupar los datos en intervalos y hacer el recuento, en forma de distribu-
ción de frecuencias, exactamente como si se tratara de una variable cualitativa donde los niveles de
la variable son los intervalos.
Sin embargo, a la hora de representar gráficamente esa distribución de frecuencias con la
agrupación por intervalos, no se debe jamás utilizar un diagrama de sectores, ya que los intervalos
26 Capítulo 2. Estadística Descriptiva

> par(mfrow = c(1, 2))


> barras <- barplot(frecuencias, col = rainbow(nrow(frecuencias)),
+ ylab = "Número de municipios", xaxt = 'n')
> text(x = barras, y = frecuencias, label = frecuencias, pos = 3, xpd = TRUE)
> pie(porcentajes, labels = paste(round(porcentajes, 2),"%"),
+ col = rainbow(length(names(porcentajes))))
> legend('top', legend = names(porcentajes), pch = 16, cex = 0.75,
+ col = rainbow(length(names(porcentajes))))

61
60

● Compostaje
● Vertedero controlado
● Vertedero incontrolado
50
Número de municipios

40

25 %
30

24 63.54 % 11.46 %
20

11
10
0

Figura 2.1: Diagramas de barras y sectores. Destino de los residuos sólidos urbanos
2.2 Distribuciones de frecuencias y gráficos asociados 27

tienen un orden lógico; sí es adecuado un diagrama de barras, pero que en este caso recibe el
nombre de histograma.
Definición 2.2.3 Un histograma es un diagrama de barras que representa la distribución de
frecuencias de los datos de una variable cuantitativa que han sido objeto previamente de una
agrupación en intervalos.

En esta definición hay que matizar que existen diferentes escalas en las que las barras del
histograma representan las frecuencias. De entre ellas, destacamos:
1. En escala de frecuencias, la más habitual: la altura de la barra representa el número de valores
en cada intervalo.
2. En escala de densidad, que utilizaremos más adelante en el contexto de las variables aleatorias:
el área de la barra representa la proporción de valores en cada intervalo.
Dado que, por defecto, la amplitud de todos los intervalos es la misma, en realidad ambas
escalas darán como resultado la misma forma en el histograma, cambiando tan sólo las unidades
del eje Y.
Por otra parte, hay aspectos prácticos que hay que determinar a la hora de dividir el rango de
valores de la muestra en intervalos, y quizá el más importante es el número de intervalos. En este
sentido, dicho número debe guardar un equilibrio entre el proporcionar un número suficiente para
permitir ver la forma de la distribución de frecuencias pero que, a la vez, no suponga un número
excesivo de divisiones que genere muchos recuentos nulos en dicha distribución. Hoy en día, lo
mejor es dejarse llevar, en principio, por el número de intervalos que, por defecto, consideran la
gran mayoría de programas estadísticos, dado por el método de Sturges:

k = [log2 N] + 1,

donde N es el número total de datos y [] simboliza la función parte entera.


 Ejemplo 2.4 Vamos a tratar de analizar cómo es el consumo de agua en los municipios de la
provincia de Jaén en el año observado.
En primer lugar, debemos prevenirnos en el tratamiento de los datos del sesgo que supone el
distinto tamaño de la población; si analizamos la cantidad total de agua consumida, lo que va a
ocurrir es que los municipios con más habitantes serán los que consuman más agua y viceversa,
pero en ese caso no estaríamos analizando realmente el consumo de agua, sino la población.
Si queremos centrarnos en el consumo de agua, conviene previamente definir una tasa de
consumo por habitante. En el código siguiente aparece la definición de dicha tasa, junto con la
generación de un histograma para describirlo (Figura 2.2) y de la tabla de frecuencias asociada
(Tabla 2.2):

> JaenIndicadores$tasa.agua.hab <- with(


+ JaenIndicadores,
+ (Consumo.agua.Invierno + Consumo.agua.Verano) / Habitantes)

> intervalos <- character(length(histo.agua$breaks) - 1)


> for (i in 1:(length(histo.agua$breaks) - 1)){
+ intervalos[i] <-
+ paste("[", histo.agua$breaks[i], ", ", histo.agua$breaks[i + 1], ")"
+ , sep = "")
+ }
> dist <- data.frame(Consumo = intervalos, Municipios = histo.agua$counts,
+ Porcentaje = 100 * histo.agua$counts / sum(histo.agua$counts))
28 Capítulo 2. Estadística Descriptiva

> histo.agua <- hist(JaenIndicadores$tasa.agua.hab,


+ xlab = "Metros cúbicos por habitante y dı́a",
+ ylab = "Frecuencia", main = "", col = 2)
40
30
Frecuencia

20
10
0

0.2 0.4 0.6 0.8 1.0

Metros cúbicos por habitante y día

Figura 2.2: Histograma del consumo de agua por habitante en los municipios de la provincia de
Jaén
2.2 Distribuciones de frecuencias y gráficos asociados 29

La tasa de consumo se encuentra muy concentrada entre 0.4 y 0.6 metros cúbicos de promedio
por habitante y día, intervalo que concentra el 77.66 % de los municipios, si bien se producen
importantes diferencias que será interesante estudiar más adelante.

> titulo <- "Metros cúbicos de agua por habitante y dı́a"


> tabla <- xtable::xtable(dist,
+ caption = titulo,
+ label = "tab:frecs_agua")
> print(tabla)

Consumo Municipios Porcentaje


1 [0.1, 0.2) 2 2.13
2 [0.2, 0.3) 1 1.06
3 [0.3, 0.4) 2 2.13
4 [0.4, 0.5) 39 41.49
5 [0.5, 0.6) 34 36.17
6 [0.6, 0.7) 8 8.51
7 [0.7, 0.8) 4 4.26
8 [0.8, 0.9) 1 1.06
9 [0.9, 1) 1 1.06
10 [1, 1.1) 2 2.13

Tabla 2.2: Metros cúbicos de agua por habitante y día

2.2.3 Distribución de frecuencias de una variable cuantitativa discreta


Una variable cuantitativa discreta puede describirse, en cuanto a su distribución de frecuencias
se refiere, de forma similar a una cualitativa, ya que los valores que puede tomar son sólo los
enteros no negativos (0, 1, 2, ...). Lo único que tendremos que hacer es contar cuántas veces se
repite cada valor. Sin embargo, lo más cómodo es obtener esta distribución de frecuencias como el
correspondiente a un histograma en el que nosotros determinemos los puntos de corte obligando
a que los intervalos sólo contengan un número entero, en el centro del mismo. Así, por ejemplo,
estableceremos el intervalo [−0.5, 0.5) para contar los ceros, el [0.5, 1.5) para contar los unos, etc.
Sin embargo, en el caso de que tengamos valores de una variable cuantitativa discreta con un
rango muy grande, la mayoría de los intervalos así establecidos tendrán frecuencia de recuento
nula, por lo que conviene tratarla como si fuera una variable continua.
 Ejemplo 2.5 Los datos en este enlace (Vílchez-López, A. J. Sáez-Castillo y Olmo-Jiménez,
2016) incluyen, entre otras variables, el número de goles marcados por jugadores de la liga española
de fútbol entre las temporadas 2004-05 y 2013-14. Nosotros vamos a quedarnos con esa variable,
el número de goles de cada jugador, en la temporada 2013-14.

> football <- read.table("https://goo.gl/SAKvrz")


> football.1314 <- football[football$Season == "2013-14", ]

Obtenemos la distribución de frecuencias de los datos de la variable a partir del histograma en


el que los puntos de corte obligan al gráfico a contar los enteros desde el mínimo hasta el máximo:

> datos <- football.1314$Goals


> cortes <- (min(datos) - 0.5) : (max(datos) + 0.5)
30 Capítulo 2. Estadística Descriptiva

> histo <- hist(datos, breaks = cortes, plot = FALSE)


> dist <-
+ data.frame(Goles = min(datos):max(datos), Frecuencia = histo$counts,
+ Porcentaje = 100 * histo$counts / sum(histo$counts))
> dist_partida <- data.frame(dist[1:16, ], dist[17:32, ])
> names(dist_partida)[4:6] <- c("Goles ", "Frecuencia ", "Porcentaje ")
> titulo <- "Distribución del número de goles por jugador"
> tabla <- xtable::xtable(dist_partida, caption = titulo,
+ label = "tab:frecs_goles")
> print(tabla, include.rownames = FALSE)

Goles Frecuencia Porcentaje Goles Frecuencia Porcentaje


0 168 40.78 16 2 0.49
1 81 19.66 17 2 0.49
2 45 10.92 18 0 0.00
3 33 8.01 19 1 0.24
4 23 5.58 20 0 0.00
5 12 2.91 21 0 0.00
6 9 2.18 22 0 0.00
7 4 0.97 23 0 0.00
8 7 1.70 24 0 0.00
9 3 0.73 25 0 0.00
10 3 0.73 26 0 0.00
11 2 0.49 27 1 0.24
12 5 1.21 28 1 0.24
13 3 0.73 29 0 0.00
14 2 0.49 30 0 0.00
15 4 0.97 31 1 0.24

Tabla 2.3: Distribución del número de goles por jugador

Se aprecia que lo más frecuente son los jugadores que no marcan ningún gol. Además, queda
patente la gran diferencia que se da entre la mayoría de jugadores que marcan pocos o ningún gol,
y unos pocos jugadores, que marcan a partir de 10 goles. 

2.3 Métodos numéricos para describir datos cuantitativos


Una distribución de frecuencias, en forma de tabla o representada gráficamente, informa acerca
de los valores más habituales y más raros en el conjunto de los datos, pero proporciona sólo una
información parcial sobre el comportamiento de éstos. Por ejemplo, resulta difícil comparar las
frecuencias de distribuciones asociadas a diferentes conjuntos de datos.
En el caso de variables cuantitativas, proporcionar medidas numéricas capaces de describir
conjuntos de datos contribuye a proporcionar un análisis más preciso y objetivo. Dicho análisis
siempre debería responder, al menos, a tres preguntas básicas:
1. ¿Cuál es, en términos generales, la posición de los datos?
2. ¿Están los datos muy concentrados o, por el contrario, presentan mucha variabilidad?
3. ¿En qué forma se reparte esa variabilidad?
A estas tres preguntas responden lo que vamos a describir mediante medidas de posición, de
dispersión y de forma.
2.3 Métodos numéricos para describir datos cuantitativos 31

> hist(datos, breaks = cortes, main = "", xlab = "Número de goles",


+ ylab = "Frecuencia", col = 2)
150
100
Frecuencia

50
0

0 5 10 15 20 25 30

Número de goles

Figura 2.3: Histograma del número de goles por jugador


32 Capítulo 2. Estadística Descriptiva

2.3.1 Medidas de posición


De entre las medidas de posición podemos diferenciar aquellas que indiquen, en algún sentido,
el centro de la distribución de los datos frente a las que indiquen otros puntos de referencia.
La primera y más conocida medida de posición central es la media.
Definición 2.3.1 Dada una muestra de N valores de una variable, x1 , ..., xN , se define su media
o, más específicamente, su media muestral, como,

∑Ni=1 xi
x̄ = .
N
Pero mucho más importante que conocer la definición de la media es entender cómo debe
ser interpretada. En numerosas ocasiones la media se interpreta como el centro de los datos, sin
especificar en qué sentido, lo cual es un error.
En realidad, la media debe interpretarse como el centro de gravedad de la distribución de los
datos, centro de gravedad que podría visualizarse físicamente en el histograma.
Cuando decimos que la media es el centro de gravedad de los datos, queremos expresar en
realidad una propiedad que se conoce como Teorema de Konig. Este teorema establece que la suma
de las desviaciones al cuadrado de los valores de la variable respecto a una constante a cualquiera,
∑ i = 1N (xi − a)2 , se hace mínima cuando esa constante es igual a la media. Si entendemos que la
suma de las desviaciones al cuadrado de los valores de la variable respecto a una constante mide la
distancia de los valores a esa constante, eso implica que la media es el valor que está más cerca de
los datos.
 Ejemplo 2.6 En relación a los datos sobre el consumo eléctrico en los municipios de la provincia
de Jaén, vamos a obtener de nuevo un promedio de consumo por habitante, para compararlo con el
consumo de agua por habitante que ya definimos. Después, representaremos los histogramas de
ambas tasas de consumo por habitante, eléctrico y de agua, calcularemos las respectivas medias y,
finalmente, situaremos las media en sus histogramas (2.4).
> JaenIndicadores$tasa.elec.hab <-
+ with(JaenIndicadores, Consumo.electrico / Habitantes)
Se aprecia que debido a la forma de la distribución de los datos sobre el consumo eléctrico, la
media (2.66) se ha desplazado a la derecha con respecto al intervalo que contiene a la mayoría de
datos, en torno a 2; aún así, se observa que hay datos muy altos a mucha distancia de la media. En
el consumo de agua, por el contrario, la media (0.53) sí se haya en lo que podemos entender que es
el centro de los datos, ya que la distribución de éstos es, de hecho, simétrica. 

Independientemente de la posición de los datos con respecto a la media y del hecho de que ésta
ocupe el centro o no de éstos, otro riesgo en el uso de la media como resumen es considerarla una
representación fiable de todos los datos, cuando es tan sólo un valor central de éstos.
En la Figura 2.4 se observa que la tasa de consumo eléctrico se mueve en valores entre 0 y 10
MWh por habitante y año; en ese contexto, la media de 2.66 no parece un buen resumen. Por el
contrario, la tasa de consumo de agua se mueve entre 0.2 y 1.0 metros cúbicos por habitante y día,
por lo que su media de 0.53 sí parece un valor más representativo de los datos.
Esta posibilidad de que la media no sea un buen resumen de los datos debido a una alta
variabilidad de éstos hace recomendable acompañar siempre una media de alguna otra medida de
variabilidad, como veremos en breve.
Además de la media, interpretable como centro de gravedad de los datos, conviene proporcionar
otras medidas de posición relativas que permitan valorar cuán extremo es un dato en relación a la
posición que ocupa en el contexto de la distribución. Estas medidas se conocen como cuantiles o
percentiles.
2.3 Métodos numéricos para describir datos cuantitativos 33

> par(mfrow = c(1, 2), xpd = TRUE)


> histo1 <- hist(JaenIndicadores$tasa.elec.hab, main = '',
+ xlab = "Electricidad", ylab = "Frecuencia", col = 2)
> lines(
+ c(mean(JaenIndicadores$tasa.elec.hab), mean(JaenIndicadores$tasa.elec.hab)),
+ c(0, max(histo1$counts)), col = 3, lwd = 2)
> text(mean(JaenIndicadores$tasa.elec.hab), max(histo1$counts),
+ expression(bar(x)), pos = 3)
> histo2 <- hist(JaenIndicadores$tasa.agua.hab, main = '',
+ xlab = "Agua", ylab = "Frecuencia", col = 2)
> lines(
+ c(mean(JaenIndicadores$tasa.agua.hab, na.rm = TRUE),
+ mean(JaenIndicadores$tasa.agua.hab, na.rm = TRUE)),
+ c(0, max(histo2$counts)), col = 3, lwd = 2)
> text(
+ mean(JaenIndicadores$tasa.agua.hab, na.rm = TRUE),
+ max(histo2$counts), expression(bar(x)), pos = 3)

x x
40

40
30

30
Frecuencia

Frecuencia
20

20
10

10
0

0 2 4 6 8 10 0.2 0.6 1.0

Electricidad Agua

Figura 2.4: Histogramas y medias de las tasas de consumo eléctrico y de agua por habitante en los
municipios de la provincia de Jaén
34 Capítulo 2. Estadística Descriptiva

Definición 2.3.2 Dado un conjunto de valores de una variable en una muestra, el percentil K
es el primer valor tal que, una vez ordenados los datos de menor a mayor, deja por debajo un
porcentaje K del resto de las observaciones, y se nota PK . Si el porcentaje se expresa en escala
de proporción, como k = K/100, los percentiles se denominan cuantiles y se notan como Qk .

Esta definición tiene sus matices, ya que dejar un porcentaje K de observaciones por debajo,
dependiendo de si K es o no un número entero, puede dar lugar a otras interpretaciones. Existen
definiciones ligeramente diferentes de los percentiles, pero las diferencias sólo son apreciables
cuando hay pocos datos. De cara a la interpretación, en este libro hemos preferido utilizar la que se
ha mostrado, aunque en los cálculos utilizaremos R para obtenerlos: en este sentido, los paquetes
estadísticos habituales utilizan fórmulas de interpolación para proporcionar los percentiles de forma
que separen de manera más exacta la distribución en dos partes, el K % por un lado, y el (100 − K) %
por el otro.
De entre el conjunto de todos los percentiles, destaca aquél que divide los datos en dos partes y
que, por tanto, puede considerarse propiamente el centro de éstos.
Definición 2.3.3 Se define la mediana de unos datos como el percentil 50 (o el cuantil 0.5).

De igual forma, podemos destacar el percentil 25 y el percentil 75, ya que junto a la mediana
dividen el conjunto ordenado de los datos en cuatro partes.
Definición 2.3.4 Los percentiles 25, 50 y 75 son también conocidos como cuartiles primero,
segundo y tercero, respectivamente.

Estos tres cuartiles pueden ser de gran ayuda si, por ejemplo, deseamos valorar si un dato
es muy pequeño, moderadamente pequeño, moderadamente grande o muy grande, considerando
que esté, respectivamente, por debajo del percentil 25, entre éste y la mediana, por encima de la
mediana y por debajo del percentil 75 o por encima de éste.
Ejemplo 2.7 Para los datos sobre el consumo eléctrico, calculemos los tres cuartiles y valoremos
cómo es el dato de Jaén capital y de Linares en el contexto de la distribución.

> quantile(JaenIndicadores$tasa.elec.hab, probs = c(0.25, 0.5, 0.75))

25% 50% 75%


1.754325 2.195468 3.096219

La tasa de consumo por habitante en Jaén y Linares es de 3.14 y 3.6, ambas por encima del
percentil 75, 3.1, por lo que podemos calificarlas de valores muy altos. 

 Ejemplo 2.8 En una nota de prensa, el Instituto Nacional de Estadística informó que

El salario medio mensual (en términos brutos) fue de 1878,1 euros en el año 2016, con
un descenso del 0,8 % respecto a 2015.

La misma nota de prensa decía que

El 40 % de los asalariados ganó entre 1229,3 y 2137,5 euros en 2016. Un 30 %


ganó más de 2137,5 euros y el 30 % restante menos de 1229,3 euros.
Implícitamente, nos está diciendo que P30 = 1229, 3 y P70 = 2137, 5 euros. En ese
caso, la media está entre ese 40 % de salarios más habitual, pero no siempre tiene
porqué ser así.
La nota también daba el salario mediano, 1594, 5 euros. Obsérvese que, como es
habitual en este tipo de datos, sobre riqueza, la media está claramente por encima de
2.3 Métodos numéricos para describir datos cuantitativos 35

la mediana. Eso, por un lado, se debe a que hay salarios de unas pocas personas muy
altos, que desplazan la media a la derecha; además, supone que bastante más del 50 %
de las personas asalariadas cobren por debajo de la media, con el consiguiente enfado
al oir la noticia. 

2.3.2 Medidas de variación o dispersión


Las medidas de variación o dispersión están relacionadas con las medidas de tendencia central,
ya que lo que pretenden es cuantificar cómo de concentrados o dispersos están los datos respecto a
estas medidas. Nosotros nos vamos a limitar a dar medidas de dispersión asociadas a la media.
Por tanto, nos centramos en valorar en qué medida los datos están agrupados en torno a la
media. Esta cuestión tan simple es uno de los motivos más absurdos de la mala prensa que tiene la
Estadística en la sociedad en general. La gente no se fía de lo que ellos llaman la Estadística, entre
otros motivos, porque parece que todo el mundo cree que una media tiene que ser un valor válido
para todos, y eso es materialmente imposible.
En el Ejemplo 2.8 hemos visto que bastante más del 50 % de los asalariados en España
cobraban por debajo de la media, lo que compromete, en este caso, el valor de la media como dato
representativo de la población. ¿Eso supone que la media no sea válida o que la Estadística haya
fallado? ¡En absoluto! El problema es que se pretende que la media sea lo que no es.
En cualquier caso, ese ejemplo también pone de manifiesto la necesidad de dotarnos de medidas
de variación o dispersión que maticen la representatividad de la media.
Nosotros nos vamos a centrar en la varianza y dos estadísticos asociados, la desviación típica y
el coeficiente de variación.
Definición 2.3.5 Dados unos valores de una variable cuantitativa, x1 , ..., xN , la varianza mues-
tral a de esos datos es
2
∑N (xi − x̄)
s2N−1 = i=1 .
N −1
a En algunas ocasiones a s2N−1 se le llama cuasivarianza muestral y a s2N , varianza muestral. Es importante ver las
definiciones en cada caso para no confundirse.

Cuanto mayor sea la varianza muestral de unos datos, más dispersos, heterogéneos o variables
son esos datos. Cuanto más pequeña sea una varianza muestral de unos datos, más agrupados u
homogéneos son dichos datos.
El principal problema de la varianza es su unidad de medida, ya que utiliza los datos al cuadrado.
Es por ello que se define la desviación típica o estandar.
Definición
q 2.3.6 La desviación típica o estandar muestral de los datos se define como sN−1 =
s2N−1 . Su unidad de medida es la misma que la de la media.

Siempre deberíamos proporcionar cada media junto con la desviación típica para permitir que
se pueda discernir si los datos están realmente cerca de la media. Una forma de valorar esto en
términos relativos es mediante el cociente entre la desviación típica y la media, lo que se conoce
como coeficiente de variación.
Definición 2.3.7 Dado un conjunto de datos de media x̄ y desviación típica sN−1 , se define su
coeficiente de variación como
sN−1
CV = .
|x̄|

Hay que tener en cuenta que este coeficiente, tal y como está definido, sólo tiene sentido para
conjuntos de datos positivos.
El coeficiente de variación suele expresarse en porcentaje. Al expresarse así se suele pensar,
36 Capítulo 2. Estadística Descriptiva

erróneamente, que no puede superar el 100 %. Hay que decir que sí puede hacerlo, y simplemente
indica que la desviación típica es mayor que la media.
La principal ventaja del coeficiente de variación es que no tiene unidades de medida, lo que
hace más fácil su interpretación.
 Ejemplo 2.9 Existe una frase muy conocida que dice que La Estadística es el arte por el cuál, si
un español se come un pollo y otro no se come ninguno, se ha comido medio pollo cada uno. Tiene,
además, sus variantes. Por ejemplo, le atribuyen a George Bernard Shaw decir que La estadística
es una ciencia que demuestra que, si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno,
y al poeta Nicanor Parra Hay dos panes. Usted se come dos. Yo ninguno. Consumo promedio: un
pan por persona. El problema es que esa frase se usa en muchas ocasiones para ridiculizar a la
Estadística, cuando en realidad debería servir para desacreditar a quien la utiliza para eso, por su
ignorancia.
Veamos lo que dice la Estadística sobre esto. Consideramos los dos datos disponibles, x1 = 0
pollos y x2 = 1 pollo. Calculamos media, varianza, desviación típica y coeficiente de variación:
> datos <- c(0, 1)
> print(media <- mean(datos))
[1] 0.5
> print(varianza <- var(datos))
[1] 0.5
> print(desviacion_tipica <- sd(datos))
[1] 0.7071068
> print(coeficiente_de_variacion <- desviacion_tipica / media)
[1] 1.414214
Como vemos, el coeficiente de variación es del 141 %, lo que pone de manifiesto que esos dos
datos no quedan en absoluto representados por la media. 

Hay que decir que la Estadística no tiene la culpa de que la gente espere de una media algo
diferente de lo que es, ni de que muy poca gente conozca medidas de dispersión asociadas.
Por último, a la hora de interpretar el coeficiente de variación, inmediatamente surge la pregunta
de ¿cuándo podemos decir que es alto y cuándo que es bajo? Realmente, no existe una respuesta
precisa, sino que depende del contexto de los datos que estemos analizando. Si, por ejemplo,
estamos analizando unos datos que por su naturaleza deben ser muy homogéneos, un coeficiente
de variación del 10 % sería enorme, pero si por el contrario estamos analizando datos que por su
naturaleza son muy variables, un coeficiente de variación del 10 % sería muy pequeño. Por ello
se recomienda analizar el coeficiente de variación entendiendo su significado numérico, es decir,
entendiendo que se refiere a la comparación de la desviación típica con la media, e interpretando su
valor en relación al contexto en el que estemos trabajando.

2.3.3 Medidas de forma


Las medidas de forma comparan la forma que tiene la representación gráfica de la distribución
de frecuencias con una situación ideal en la que los datos se reparten en igual medida a la derecha y
a la izquierda de la media.
2.3 Métodos numéricos para describir datos cuantitativos 37

Definición 2.3.8 Una distribución de frecuencias en la que los datos están repartidos de igual
forma a uno y otro lado de la media se conoce como distribución simétrica (ver Figura 2.5 en
el centro). En ese caso, además, la mediana y la media coinciden.
Por contra, se dice que una distribución es asimétrica a la derecha si las frecuencias
(absolutas o relativas) descienden más lentamente por la derecha que por la izquierda (ver Figura
2.5 a la derecha). Si las frecuencias descienden más lentamente por la izquierda que por la
derecha diremos que la distribución es asimétrica a la izquierda (ver Figura 2.5 a la izquierda).

Asimetría a la izquierda Simetría Asimetría a la derecha

2.0
2.0

2.0
1.5
1.5

1.5
1.0
1.0

1.0
0.5
0.5

0.5
0.0

0.0

0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Figura 2.5: Representación de las formas habituales de asimetria a la derecha, simetría y asimetría
a la izquierda en distribuciones de datos

El estudio de la forma de una distribución de frecuencias debe centrarse en los motivos que
alejan de la simetría. Si una distribución es asimétrica a la derecha (respectivamente, a la izquierda)
se debe a la existencia de un subconjunto de datos a la derecha (a la izquierda) de la distribución
que, por alguna razón, se han alejado del centro de la distribución sin que existan datos en el otro
lado con el mismo comportamiento.
Uno de los ejemplos más conocidos de datos asimétricos a la derecha son los relativos a riqueza.
Por la propia esencia del capitalismo, una distribución de rentas en un país capitalista es asimétrica
a la derecha, ya que un conjunto reducido de personas suelen poseer rentas muy altas. Otro ejemplo,
propio de la sociedad 2.0, es el de los fenómenos virales: si, por ejemplo, consideramos el número
de retuits de un conjunto de tuits, la distribución será claramente asimétrica a la derecha, ya que
unos pocos son muy retuiteados, mientras que la mayoría permanecen en valores muy bajos.
Por el contrario, hay un gran número de fenómenos donde los datos, por su propia naturaleza, se
dan por azar a izquierda y derecha de la media en igual medida. Ejemplos típicos son cualesquiera
variables relacionados con medidas fisiológicas en seres vivos, como el peso, la altura, niveles en
sangre de distintos indicadores, etc.
Para valorar la simetría de la distribución de unos datos debe, en primer lugar, observarse
su histograma. Pero la valoración de la forma de una distribución no puede ni debe hacerse
exclusivamente mirando el histograma, por dos motivos:
1. A veces la forma no es muy clara.
2. Aún cuando es clara, no tenemos una medida de si es algo simétrica, muy asimétrica...
Para cuantificar la simetría de una distribución de datos se utilizan varios estadísticos. Nosotros
vamos a considerar el llamado coeficiente de asimetría de Fisher.
38 Capítulo 2. Estadística Descriptiva

Definición 2.3.9 Dado un conjunto de valores de una variable, x1 , ..., xN , el coeficiente de


asimetría de Fisher viene dado por

∑Ni=1 (xi − x̄)3 /N


As =
s3N

La forma de interpretar el coeficiente es muy sencilla:


1. Si el coeficiente está cerca de cero, indica que la distribución está cerca de ser simétrica. De
hecho, si fuera totalmente simétrica, el coeficiente sería cero.
2. Cuanto más asimétrica a la derecha es una distribución, más alto y positivo es el coeficiente.
3. Cuanto más asimétrica a la izquierda es una distribución, más negativo se hace el coeficiente.
Como decir que está cerca de cero es bastante subjetivo, en ocasiones se acepta, por llegar a
un consenso, que cerca de cero es el intervalo (−0.9, 0.9). Hay que insistir que esto es sólo una
orientación, y no debe entenderse como una verdad absoluta.
Aunque existen varias librerías que tienen funciones para el cálculo del coeficiente de asimetría
de Fisher1 , en la base de R no existe una función para este coeficiente, pero puede obtenerse
fácilmente desde su definición:
> coef.asim <- function(datos){
+ x <- datos[is.na(datos) == FALSE]
+ N <- length(x)
+ sn <- sqrt(sum((x - mean(x))^2) / N)
+ return((sum((x - mean(x))^3) / N) / sd(x)^3)
+ }
 Ejemplo 2.10 Consideremos de nuevo los datos sobre el número de goles por jugador en
la temporada 2013-2014 de la liga española, ya comentados en el Ejemplo 2.5. La forma del
histograma ya sugiere una clarísima asimetría a la derecha, debido a que, en general, los que meten
los goles son unos pocos jugadores cuya posición en el campo y habilidad los hace mucho más
propensos que el resto a meter goles.
Ahora podemos cuantificar esta asimetría mediante el coeficiente de asimetría:
> coef.asim(football.1314$Goals)
[1] 3.198945
Es evidente que el coeficiente ratifica que la distribución es claramente asimétrica a la derecha.


 Ejemplo 2.11 En el Ejemplo 2.6 describimos mediante histogramas las distribuciones de fre-
cuencias de tasas del promedio del consumo eléctrico y de agua por habitante en los municipios
de la provincia de Jaén. Vamos a volver sobre esos datos para analizar una tercera variable con un
comportamiento curioso.
A partir de la variable Residuos.cantidad, que proporciona la cantidad total en toneladas en cada
municipio, construimos la tasa de generación de residuos urbanos por habitante en los municipios:
> JaenIndicadores$tasa.resid.hab <-
+ with(JaenIndicadores, Residuos.cantidad / Habitantes)
La Figura 2.6 muestra el histograma junto con el coeficiente de asimetría. Ambos confirman
una clara asimetría a la derecha. Sin embargo, se observan en el histograma dos partes bien
diferenciadas, separadas aproximadamente en el valor 0.27, y tales que, por separado, ambas
parecen estar próximas a la simetría.
1 Véase, por ejemplo, la librería e1071 (Meyer y col., 2017).
2.3 Métodos numéricos para describir datos cuantitativos 39

> hist(JaenIndicadores$tasa.resid.hab, col = 2,


+ xlab = "Toneladas por habitante y a~
no", ylab = "Frecuencias", main = "")
> text(x = 0.3, y = 30,
+ paste("As = ", round(coef.asim(JaenIndicadores$tasa.resid.hab), 2)))
30

As = 1.39
25
20
Frecuencias

15
10
5
0

0.20 0.25 0.30 0.35

Toneladas por habitante y año

Figura 2.6: Histograma de la tasa de generación de residuos urbanos por habitante


40 Capítulo 2. Estadística Descriptiva

Gráficos de este tipo suelen sugerir que los datos incluyen en realidad valores de dos poblaciones
diferentes. En el caso concreto de estos datos, carecemos de información suficiente para saber cuál
es la razón que diferencia esas dos poblaciones dentro de los datos, pero sería muy interesante
encontrarla.
Si separamos los datos en el valor 0.27 y analizamos por separado la forma de ambos conjuntos
de datos, se obtiene el resultado que muestra la Figura 2.7.
Como se puede ver, ahora los datos están cerca de la simetría, sobre todo la parte de los valores
más bajos. 

2.4 Detección de valores atípicos. El diagrama de caja


Hay ocasiones en que un conjunto de datos contiene una o más observaciones inconsistentes en
algún sentido.
 Ejemplo 2.12 La base de datos del IECA, consultada el 23 de mayo de 2018, informaba que el
municipio de Jun, en la provincia de Granada, tenía en 2014 un consumo medio de agua 220173 m3
diarios, lo que equivale a 88 piscinas olímpicas al día. En 2014 este municipio tenía una población
de 1869 habitantes, por lo que el dato es difícilmente creíble. Consultado el IECA, confirmaron que
era un error en la información suministrada por el Instituto Nacional de Estadística para su base de
datos. Este dato, que obviamente no debemos tener en cuenta, es un ejemplo claro de dato atípico o
valor fuera de rango. 

Definición 2.4.1 En general, una observación que es inusualmente grande o pequeña en relación
con los demás valores de un conjunto de datos se denomina dato atípico, dato fuera de rango
o outlier.
Los valores atípicos son atribuibles, por lo general, a una de las siguientes causas:
1. El valor ha sido introducido en la base de datos incorrectamente.
2. El valor proviene de una población distinta a la que estamos estudiando.
3. El valor es correcto pero representa un suceso muy poco común.
Lo más importante es determinar cuál de las causas provoca el dato atípico, ya que ésta puede
arrojar mucha información sobre el proceso del que procede. Sólo en caso de que quede probado
que el dato atípico se debe a un error o a que procede de una población diferente a la que es el
objeto del estudio, puede justificarse su eliminación.
La cuestión es cómo establecer, dentro de un conjunto de datos, qué valores son atípicos.
Nosotros vamos a utilizar para ello un criterio basado en los cuartiles y que se visualiza con claridad
en el llamado diagrama de caja.
Definición 2.4.2 Dado un conjunto de valores de una variable, su diagrama de caja es una
representación gráfica que incluye:
1. Una caja central que, en sentido vertical, tiene como lados inferior y superior el P25 y el
P75 , respectivamente, y en su interior, la mediana.
2. Unas líneas que emanan de la caja central, llamadas bigotes, que van desde el P25 hasta el
primer dato posterior a
Li = P25 − 1.5 × (P75 − P25 )
y desde el P75 hasta el último dato anterior a

Ls = P75 + 1.5 × (P75 − P25 ).

3. Los datos anteriores a Li y posteriores a Ls , señalados con puntos, y que son los considera-
dos como datos atípicos.
2.4 Detección de valores atípicos. El diagrama de caja 41

> par(mfrow = c(2, 1))


> filtro <- JaenIndicadores$tasa.resid.hab < 0.27
> parte.baja <- JaenIndicadores$tasa.resid.hab[filtro]
> parte.alta <- JaenIndicadores$tasa.resid.hab[!filtro]
> hist(parte.baja, col = 2,
+ xlab = "Toneladas por habitante y a~
no", ylab = "Frecuencias", main = "")
> text(x = 0.25, y = 16, paste("As = ", round(coef.asim(parte.baja), 2)))
> hist(parte.alta, col = 2,
+ xlab = "Toneladas por habitante y a~
no", ylab = "Frecuencias", main = "")
> text(x = 0.35, y = 4.5, paste("As = ", round(coef.asim(parte.alta), 2)))

As = −0.01
Frecuencias

10
5
0

0.18 0.20 0.22 0.24 0.26

Toneladas por habitante y año

As = 0.73
Frecuencias

4
2
0

0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36

Toneladas por habitante y año

Figura 2.7: Histogramas de la tasa de generación de residuos urbanos por habitante, separando en
el valor 0.27
42 Capítulo 2. Estadística Descriptiva

Figura 2.8: Descripción de un diagrama de caja. Fuente:


http://es.wikipedia.org/wiki/Diagrama_de_caja

Una representación del diagrama de caja aparece en la Figura 2.8

 Ejemplo 2.13 Vamos a analizar la presencia de datos atípicos en los datos sobre el consumo
eléctrico por habitante y año en los municipios de la provincia de Jaén. El diagrama de caja aparece
en la Figura 2.9.
Este diagrama permite valorar, en primer lugar, la asimetría a la derecha de los datos, ya que es
más alargado por encima de la mediana que por debajo.
En segundo lugar, se observa que dicha simetría a la derecha es debida en gran medida a la
presencia de 5 valores atípicos, de entre los que destacan dos, Villanueva de la Reina y Mengíbar.
Ambos son municipios de tamaño pequeño (3308 y 8360 habitantes, respectivamente), pero en cuyo
término municipal se sitúan dos grandes empresas, una dedicada a la fabricación de materiales de
construcción y la otra al reciclaje de papel. Dado que la variable se refiere al consumo eléctrico total
de los municipios, la presencia de estas dos grandes empresas en municipios de tamaño pequeño
origina una tasa por habitante que puede ser calificada de atípica. 

2.5 Resumen y aplicación de lo aprendido


2.5.1 Resumen
Este capítulo ha descrito cómo afrontar el análisis desde un punto de vista descriptivo de un
conjunto de datos de una variable. Para ello:
1. Debemos distinguir el tipo de variable (cuantitativa o cualitativa).
2. Las variables cualitativas quedan descritas por su distribución de frecuencias, que puede
representarse gráficamente en un diagrama de barras o de sectores.
3. Las cuantitativas plasman su distribución de frecuencias en el histograma, que permite
identificar en torno a qué valores tenemos más datos.
4. Para las cuantitativas debemos aportar, además:
a) La media y percentiles, como medidas de posición que permitan enmarcar los datos en el
contexto de la distribución.
b) Medidas de dispersión, principalmente el coeficiente de variación, para valorar el grado
de homogeneidad de los datos en torno a la media.
c) Medidas de forma, como el coeficiente de asimetría, para identificar si existen datos con
un comportamiento diferenciado a uno u otro lado de la media.
2.5 Resumen y aplicación de lo aprendido 43

> x <- JaenIndicadores$tasa.elec.hab


> p25 <- quantile(x, probs = 0.25)
> p75 <- quantile(x, probs = 0.75)
> diagrama <- boxplot(x, ylab = "KW por habitante y a~
no")
> Li <- p25 - 1.5 * (p75 - p25)
> Ls <- p75 + 1.5 * (p75 - p25)
> atip <- x < Li | x > Ls
> nombres.atip <- JaenIndicadores$Municipio[atip]
> text(rep(1, sum(atip)), x[atip], nombres.atip, pos = 4, cex = 0.5)

● Villanueva de la Reina

● Mengibar
8
KW por habitante y año

● Martos
● Guarroman
● Lupion
Torredonjimeno
4
2

Figura 2.9: Diagrama de caja y valores atípicos de la tasa de consumo eléctrico por habitante en los
municipios de la provincia de Jaén
44 Capítulo 2. Estadística Descriptiva

5. Además, debemos ser capaces de identificar valores atípicos de las variables cuantitativas y
tratar de discernir el porqué de su presencia.
Podemos esquematizar este proceso en el diagrama de flujo de la Figura 2.10.

2.5.2 Aplicación. Análisis del grosor de las capas de óxido de silicio


Vamos a retomar los datos del Ejemplo 1.1, en el que modificamos los datos originales para
considerar como variable el grosor de la capa de óxido de silicio de las 9 mediciones que se
realizaban en 12 placas de silicio introducidas en 2 series en un horno. Teníamos, por tanto, en
una hoja de datos llamada placas, 9 × 12 × 2 = 216 casos (las mediciones) y 3 variables, el grosor
(Espesor), la serie (Serie) y la placa (Placa).
Nosotros vamos a centrarnos en el análisis descriptivo de la variable Espesor en cada una de las
dos series porque, como hipótesis de partida, creemos que no debería haber diferencias importantes
en las características del grosor de las capas creadas entre las dos series.
Comenzamos constatando que, en efecto, tenemos el mismo número de mediciones en ambas
series:

> table(placas$Serie)

1 2
108 108

Ahora nos centramos en el análisis del grosor de las 108 mediciones de cada serie. Comenzamos
por visualizar la distribución de frecuencias en sendos histogramas, en la Figura 2.11.
De entrada, la comparación de los histogramas pone de manifiesto unas diferencias inesperadas:
en la Serie 1 hay valores bajos que provocan clara asimetría a la izquierda y lo contrario ocurre en
la Serie 2, donde se perciben unos pocos casos que provocan clara asimetría a la derecha. Esto no
parece lógico, ya que en principio cabría pensar en una situación donde el espesor de las placas se
repartiera en igual medida a izquierda y derecha de la media.
La Tabla 2.4 muestra en qué medida esta anomalía se refleja en los estadísticos de posición,
dispersión y forma de ambos conjuntos de datos. Se hace patente que sólo el coeficiente de asimetría
es capaz de mostrar de forma evidente la diferencia entre ambas muestras, mientras que tanto las
medias, como los percentiles y el coeficiente de variación son relativamente parecidos. En ambos
casos la media y la mediana se sitúan en valores próximos a 92, si bien las respectivas asimetrías
han desplazado las medias ligeramente a izquierda y derecha, respectivamente. Los percentiles 25
y 75 también presentan leves diferencias, porque son ellos los que, en cada caso, determinan la
posición de los valores bajos y altos, donde se dan las diferencias. Por su parte, el coeficiente de
variación indica una baja variabilidad de los datos de ambas muestras.

> desc_serie1 <- c(mean(x1), quantile(x1, probs = c(.25, .5, .75)),


+ sd(x1) / mean(x1), coef.asim(x1))
> desc_serie2 <- c(mean(x2), quantile(x2, probs = c(.25, .5, .75)),
+ sd(x2) / mean(x2), coef.asim(x2))
> estad <- c("Media", "P25", "Me", "P75", "CV", "As")
> tabla <- data.frame(row.names = estad,
+ "Serie 1" = desc_serie1, "Serie 2" = desc_serie2)
> tabla.tex <- xtable::xtable(tabla,
+ caption = "Grosor de las capas de óxido de silicio",
+ label = "tab:desc_silicio",
+ sanitize.colnames.function = function(x)gsub("\\."," ",x))
> print(tabla.tex)
2.5 Resumen y aplicación de lo aprendido 45

Inicio

Conjunto de
datos de una
variable

¿Cualitativa o
Cuantitativa Cualitativa
cuantitativa?
Obtén una
distribución de
¿Discreta o
Continua frecuencias
continua?

Agrupa por
intervalos
Discreta

Obtén
distribución de
frecuencias

Representa la
distribución en un
histograma Representa la
distribución en un
diagrama de
Obtén Obtén Obtén Analiza la
barras o de
medidas de medidas de medidas de presencia
sectores
posición dispersión forma de atípicos

Varianza Coeficiente
Media Desviación típica Diagrama
Coeficiente de
de asimetría
Percentiles de Fisher de caja
variación

Valora la
Valora la
posición de los Interpreta la Interpreta la
homogeneidad
datos con
de los datos ausencia de presencia
respecto a
en torno a la simetría de atípicos
media y Fin
media
percentiles

Figura 2.10: Diagrama de flujo del proceso de análisis descriptivo de los datos de una variable
46 Capítulo 2. Estadística Descriptiva

> x1 <- placas$Espesor[placas$Serie == 1]


> x2 <- placas$Espesor[placas$Serie == 2]
> par(mfrow = c(2, 1))
> hist(x1, main = "Serie 1", xlab = "", ylab = "", col = 2)
> hist(x2, main = "Serie 2", xlab = "", ylab = "", col = 2)

Serie 1
50
20
0

75 80 85 90 95 100 105

Serie 2
25
0 10

90 95 100 105

Figura 2.11: Histograma del grosor de las mediciones en ambas series


2.5 Resumen y aplicación de lo aprendido 47

> bp <- boxplot(Espesor ~ Serie, data = placas)


> serie1 <- placas[placas$Serie == 1, ]
> serie2 <- placas[placas$Serie == 2, ]
> x1 <- serie1$Espesor
> x2 <- serie2$Espesor
> atip1 <- x1 < bp$stats[1, 1] | x1 > bp$stats[5, 1]
> atip2 <- x2 < bp$stats[1, 2] | x2 > bp$stats[5, 2]
> n.atip1 <- sum(atip1)
> n.atip2 <- sum(atip2)
> text(rep(1, n.atip1), x1[atip1], serie1$Placa[atip1], pos = 4)
> text(rep(2, n.atip2), x2[atip2], serie2$Placa[atip2], pos = 4)

● 10
105

● 10

● 10
10


10
10
● 10
100

● 6


5
5
95
90

● 3
85

● 6
80


● 12
2
● 6
75

1 2

Figura 2.12: Diagrama de caja, con identificación de atípicos, en los datos de las dos series del
grosor de óxido de silicio
48 Capítulo 2. Estadística Descriptiva

Serie.1 Serie.2
Media 92.01 92.74
P25 90.50 90.80
Me 92.20 92.10
P75 94.03 93.60
CV 0.04 0.04
As -1.79 1.71

Tabla 2.4: Grosor de las capas de óxido de silicio

La Figura 2.12 muestra los diagramas de caja donde, además, se ha identificado el número
de la placa. En la Serie 2 llama la atención que los atípicos con valores más altos corresponden
a la misma placa, la número 10. Para conocer la causa hay que remitirse a la información que
proporcionan los autores (Czitrom y Reece, 1997), que descubrieron que esta placa presentaba
resultados anómalos debido a que se había contaminado con un residuo. Además, con respecto a
los datos más extremos de la Serie 1, encontraron que habían sido erróneamente medidos debido a
un calibre mal configurado.

2.6 Para saber más


De entre los aspectos relacionados con el tema que no se han abordado aquí, destacamos los
siguientes, con referencias para cada uno de ellos.
1. Dentro de los datos cualitativos pueden distinguirse los de tipo nominal y ordinal (véase, por
ejemplo, Calot (1970)).
2. Otros gráficos para representar los datos: diagrama de tallos y hojas, gráfico de puntos, ...
(González, 2012).
3. Un tipo particular de datos cuantitativos son aquellos donde las observaciones se recogen en
determinados instantes a lo largo del tiempo. Estos datos se denominan series temporales, y
su dependencia del tiempo supone que deben describirse de una forma diferente (véase, por
ejemplo, Peña (2010)).
4. Existen otros muchos estadísticos de posición, dispersión y forma: medias geométricas y
harmónicas, medias robustas, desviaciones absolutas con respecto a la mediana, coeficiente
de asimetría de Pearson, ... Una descripción de todas ellas puede encontrarse en Calot (1970).
5. Otro aspecto que puede cuantificarse en los datos, más allá de la posición, la dispersión y la
forma, tiene que ver con el apuntamiento del histograma, y se mide mediante el coeficiente de
apuntamiento o kurtosis (ver, por ejemplo, (Calot, 1970)).
6. Existen medidas relacionadas con las de dispersión, más habituales en el contexto de la
Economía, conocidas como medidas de concentración. Quizá la más habitual sea el índice de
concentracion de Gini (véase, por ejemplo, Gamero-Burón (2017)).
7. En este tema hemos abordado el análisis descriptivo de variables tomadas individualmente; de
ahí que se hable de Estadística Descriptiva Univariante. La Estadística Descriptiva Bivariante
o, en general, Multivariante, analiza, además, las relaciones entre dos o más variables. Véase,
por ejemplo, Calot (1970).

2.7 Ejercicios
Recordemos que los datos están accesibles lanzando la línea de código

> load(url("http://cort.as/-BXu-"))
2.7 Ejercicios 49

Ejercicio 2.1 Los datos que se presentan en la hoja de datos llamadas se refieren a varias
variables relativas a una muestra de llamadas telefónicas realizadas a través de la centralita de
un operador local de servicios de telecomunicaciones (Olea-Mata y A. Sáez-Castillo, 2012).
Concretamente, nos centramos en las siguientes variables:
Duracion: duración en segundos de las llamadas.
Resultado: resultado del intento de llamada. Puede tomar los valores ANSWERED, NO
ANSWER y BUSY. Sólo las llamadas etiquetadas como ANSWERED supusieron real-
mente una conversación, ya que el resto no fueron contestadas o encontraron la línea
ocupada.
Lab.Festivo: especifica si el día en que se realizó la llamada era laborable o festivo.
El ejercicio se centra exclusivamente en las llamadas que fueron contestadas, por lo que, en
primer lugar, debe realizarse un filtro para eliminar el resto. El objetivo es realizar un análisis
descriptivo en el que se compare la duración de las llamadas realizadas en días laborables con
las realizadas en días festivos. Específicamente, se pide:
1. Obtener una tabla y una representación gráfica adecuada para la distribución de frecuencias
de la variable Lab.festivo. ¿Cuándo se producen más llamadas, en días laborables o
festivos?
2. Obtener representaciones gráficas de la distribución de frecuencias de la duración de las
llamadas realizadas en los días laborables, por un lado, y festivos, por otro. En términos
generales, ¿puedes intuir a partir de esos dos histogramas si las llamadas realizadas en días
festivos son más largas?
3. Obtener el coeficiente de variación por separado de la duración de las llamadas en días
laborables y festivos. ¿Cuál de los dos tipos de llamadas presentan valores más homogéneos
en relación a su media? Trata de interpretar el resultado y tu respuesta.
4. Obtener, por separado, el coeficiente de asimetría de la duración de las llamadas en días
laborables y festivos. Determina si estas distribucions son claramente asimétricas a la
izquierda, están próximas a la simetría o son claramente asimétricas a la derecha y trata de
interpretar los resultados.
5. Identifica cuántas llamadas pueden considerarse atípicas por su elevada duración.
6. Imagina que queremos establecer una clasificación de las llamadas separándolas en cinco
grupos con el mismo número de llamadas en cada grupo: llamadas muy cortas, llamadas
cortas, llamadas de duración intermedia, llamadas largas y llamadas muy largas. Realiza
esa clasificación, de forma justificada, estableciendo los límites para la duración de cada
grupo y clasifica una llamada de 128 segundos.


Ejercicio 2.2 Una variable muy importante en Hidrología e Hidrogeología es la precipitación


diaria máxima anual (PMA), en mm., recogida a lo largo de los años en una estación meteoroló-
gica. A partir de esos datos se establece un modelo estadístico para cuantificar la precipitación
máxima que se dará en la zona a lo largo de distintos períodos de retorno, precipitación que, una
vez transformada en caudal en función de las variables del entorno, determinan características
importantes de las obras civiles que se desarrollan en la zona (ver, por ejemplo, Monsalve-Sáenz
(1999)).
Los datos del ejercicio corresponden a la PMA recogida en la estación meteorológica 1070
de Abadiano (Mendiola), Vizcaya (España) entre 1961 y 1999, y se incluyen en la hoja de datos
pma. Para ellos, se pide:
1. Obtén un histograma que represente la distribución de frecuencias y determina el intervalo
más frecuente de precipitaciones máximas diarias anuales.
50 Capítulo 2. Estadística Descriptiva

2. Valora de forma cuantitativa mediante el estadístico adecuado la concentración de los datos


de precipitación máxima en torno a la media.
3. Los datos, en el histograma, ¿se perciben claramente asimétricos a la derecha? Obtén el
coeficiente de asimetría para cuantificar esto y trata de justificar por qué la variable tiene
este comportamiento.
4. Imagina que queremos establecer una clasificación de los valores de la PMA en cuatro
grupos: valores muy bajos, moderadamente bajos, moderadamente altos y muy altos.
Determina los valores que permiten dicha clasificación y decide si el valor de 111 mm.
que, hipotéticamente, se ha dado este año, puede considerarse muy alto.


Ejercicio 2.3 Los datos que aparecen en la hoja meteoritos proceden del portal de datos abiertos
de la NASA, y se refieren a características de los 45716 meteoritos conocidos que han caído
sobre la tierraa . Concretamente, en este ejercicio nos centramos en la masa de los meteoritos, en
gramos (mass..g.).
Trata de obtener una representación gráfica de la distribución de frecuencias de la variable
mediante un histograma y de visualizar los datos en un diagrama de caja. ¿Qué problema
observas?
El problema que presentan datos como los de esta variable es frecuente. Lo que suele
hacerse es tratarlos en escala logarítmica. Por ello, considera ahora como variable el
logaritmo de la masa de los meteoritos y realiza un análisis descriptivo básico (histograma,
medidas de posición, dispersión y forma y detección de valores atípicos).
Si tenemos la media, la mediana y los percentiles P25 y P75 , la desviación típica y el
coeficiente de asimetría de los datos en escala logarítmica, ¿es posible calcular, a partir
de ellos, estos mismos estadísticos en los datos originales? (Sugerencia: analiza cómo se
calcula cada estadístico y piensa cómo afecta la función logaritmo a dicho cálculo).


a Los datos proceden de The Meteoritical Society, y la tabla final se debe a Javier de la Torre.

Ejercicio 2.4 La página web del Instituto de Estadística y Cartografía de Andalucía proporciona
información sobre la edad media total y por sexo de todos los municipios de la comunidad
autónoma. Los datos están en la hoja edadmedia. Se pide:
1. Describir mediante histogramas la distribución de frecuencias de la edad media de hombres
y mujeres por separado en los municipios de Andalucía. ¿Percibes a partir de ambas figuras
diferencias entre ambos géneros?
2. Calcula media, mediana y percentiles 5 y 95 de la edad media de hombres y mujeres por
separado y comenta las diferencias que observes.
3. Determina cuál de las dos variables, la edad media de hombre o de mujeres en cada
municipio, presenta datos más homogéneos en torno a su media.
4. Obtén el coeficiente de asimetría de la edad media global y trata de interpretar por qué
datos de este tipo, relacionados con la edad, presentan esta forma.
5. Identifica qué municipios pueden ser considerados atípicos por su elevada edad media o
por su reducida edad media.


Ejercicio 2.5 Los datos que se incluyen en la hoja metales corresponden al nivel de contami-
nación del suelo por diversos elementos (en mg/kg) en 126 cuadrículas de 1 km2 del Distrito
2.7 Ejercicios 51

Minero de Linares - La Carolina (Martínez-López y col., 2008). En este ejercicio nos centramos
en la presencia de Cu y Pb en el suelo. El rango y la variabilidad de las observaciones de ambas
variables es enorme, lo que justifica que las tratemos en escala logarítmica.
1. Obtén sendos histogramas que te permitan visualizar la distribución de frecuencias de cada
variable en escala logarítmica. Interpreta las diferencias.
2. Determina cuál de las dos variables presenta, en términos relativos, una mayor variabilidad
en escala logarítmica en relación a su media.
3. Compara el coeficiente de asimetría en ambos conjuntos de datos analizados en escala
logarítmica. ¿Ha logrado el trabajar en esta escala que la distribución de los datos esté
cerca de la simetría? Interpreta la respuesta.
4. Determina qué cuadrículas presentaban niveles fuera de rango por una elevada presencia
de Cu o Pb.

52 Capítulo 2. Estadística Descriptiva

——————————————————————————–
II
Probabilidad y Variable
Aleatoria

3 Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1 Introducción
3.2 Experimentos aleatorios y experimentos determinís-
ticos
3.3 Definición axiomática de probabilidad
3.4 Probabilidad condicionada. Independencia de
sucesos
3.5 Teorema de la probabilidad total y Teorema de
Bayes
3.6 Resumen
3.7 Para saber más
3.8 Ejercicios

4 Variable aleatoria . . . . . . . . . . . . . . . . . . . 73
4.1 Introducción
4.2 Variable aleatoria discreta
4.3 Variable aleatoria continua
4.4 Media y varianza de una variable aleatoria
4.5 Modelos de distribuciones de probabilidad
4.6 Cuantiles de una distribución. Aplicaciones
4.7 Resumen
4.8 Para saber más
4.9 Ejercicios

5 Variables aleatorias con distribución con-


junta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.1 Introducción
5.2 Distribuciones conjunta, marginal y condicionada
5.3 Independencia estadística
5.4 Medias, varianzas y covarianzas asociadas a un
vector aleatorio
5.5 Distribución normal multivariante
5.6 Para saber más
3. Probabilidad

Usted cree en un Dios que juega a los dados, y yo en un orden y una ley completos en un mundo
que existe objetivamente, y que yo, en una forma altamente especulativa, intento capturar... ni
siquiera el gran éxito inicial de la teoria cuántica me hace creer en el juego de dados fundamental,
aún cuando estoy advertido que sus colegas más jóvenes lo interpretan como una consecuencia de
la senilidad.

Albert Einstein, en carta a Max Born (1926)

La casualidad es quizá el seudónimo de Dios, cuando no quiere firmar.

Anatole France

Vemos que la teoría de la probabilidad en el fondo sólo es sentido común reducido a cálculo; nos
hace apreciar con exactitud lo que las mentes razonables toman por un tipo de instinto, incluso sin
ser capaces de darse cuenta[...] Es sorprendente que esta ciencia, que surgió del análisis de los
juegos de azar, llegara a ser el objeto más importante del conocimiento humano[...] Las principales
cuestiones de la vida son, en gran medida, meros problemas de probabilidad.

Pierre Simon, Marqués de Laplace

Objetivos
El capítulo supone una introducción al Cálculo de Probabilidades, imprescindible como
herramienta matemática para dar cobertura a los innumerables fenómenos naturales de naturaleza
no determinística. Los objetivos generales son:
1. Definir el concepto matemático de Probabilidad y comprender que se corresponde con nuestro
concepto intuitivo de probabilidad.
2. Desarrollar las fórmulas básicas del cálculo de probabilidades para el manejo del concepto de
probabilidad en las aplicaciones reales.
56 Capítulo 3. Probabilidad

3.1 Introducción
En nuestra vida cotidiana asociamos usualmente el concepto de Probabilidad a su calificativo
probable, considerando probables aquellos eventos en los que tenemos un alto grado de creencia en
su ocurrencia. Visto así, Probabilidad es un término vinculado a la medida del azar.
También pensamos en el azar vinculado, fundamentalmente, con los juegos de azar, pero desde
esa óptica tan reducida se nos escapan otros muchísimos ejemplos de fenómenos de la vida cotidiana
o asociados a disciplinas de distintas ciencias donde el azar juega un papel fundamental. Por citar
algunos:
¿Qué número de unidades de producción salen cada día de una cadena de montaje? No
existe un número fijo, conocido a priori, pero cada día se da un cierto número de unidades
producidas, y el experto podrá asegurarnos que es más probable que se produzcan, por decir
un número, 10 unidades que 1000 unidades, basándose en su experiencia.
¿Cuál es el tamaño de un paquete de información que se transmite a través de HTTP?
Tampoco existe en realidad un tamaño fijo, sino que éste es desconocido a priori. Pero nuestra
experiencia observando el tráfico observado en el pasado también nos da una información
sobre un rango de valores que se da con frecuencia.
¿Cuál es la posición de un objeto detectado mediante GPS? Dicho sistema obtiene, realmente,
una estimación de dicha posición, pero existen márgenes de error que determinan una región
del plano donde el objeto se encuentra con alta probabilidad.
¿Qué ruido se adhiere a una señal que se envía desde un emisor a un receptor? Dependiendo
de las características del canal, dicho ruido será más o menos relevante, pero su presencia no
podrá ser conocida a priori, y deberá ser diferenciada de la señal primitiva, sin que se conozca
ésta, teniendo en cuenta que se trata de un ruido aleatorio.
En todos estos ejemplos podemos ver que el azar es un factor insoslayable para conocer
el comportamiento del fenómeno en estudio. Lo que pretende el Cálculo de Probabilidades es
establecer una medida de ese azar que permita hablar sin ambigüedad del grado de creencia que
tendremos en las observaciones posibles. No se trata de ser adivinos, porque el azar, cuando seamos
capaces de medirlo, seguirá estando ahí; se trata más bien de aceptar su existencia y aprender a
convivir con él en un ambiente donde, a pesar de todo, debemos tomar decisiones.

3.2 Experimentos aleatorios y experimentos determinísticos


Definición 3.2.1 En general, un experimento del que se conocen todos sus posibles resultados
y que, repetido en las mismas condiciones, no siempre proporciona los mismos resultados, se
conoce como experimento aleatorio.
En contraposición, un experimento determinístico es aquel donde las mismas condiciones
aseguran que se obtengan los mismos resultados.

Como ya hemos dicho, lo que el Cálculo de Probabilidades busca es encontrar una medida de la
incertidumbre o de la certidumbre que se tiene de todos los posibles resultados de un experimento
aleatorio, ya que jamás (o muy difícilmente) se podrá conocer a priori el resultado de cualquier
experimento donde el azar esté presente: a esta medida de la incertidumbre la denominaremos
probabilidad.

3.3 Definición axiomática de probabilidad


En términos coloquiales podemos decir que probabilidad es la asignación que hacemos del
grado de creencia que tenemos sobre la ocurrencia de algo. Esta asignación, sin embargo, debe ser
coherente.
3.3 Definición axiomática de probabilidad 57

Esta necesidad de que asignemos probabilidades adecuadamente se va a plasmar en esta sección


en tres reglas, conocidas como axiomas de la probabilidad, que debe cumplir cualquier reparto de
probabilidades.

3.3.1 Álgebra de conjuntos


Los ejemplos de experimentos aleatorios y sus resultados posibles pueden ser tan variados que
se necesitan conceptos suficientemente abstractos para servir de modelos a todos ellos. La solución,
en este caso, la aporta la teoría de conjuntos, porque si consideramos un experimento aleatorio,
podemos caracterizar los posibles resultados de dicho experimento como conjuntos.
Es de interés, por tanto, repasar los conceptos y propiedades básicas del álgebra de conjuntos,
pero no debemos olvidar que los conjuntos representarán para nosotros los posibles resultados de
un experimento aleatorio.
Definición 3.3.1 Un conjunto es una colección de elementos.
Se dice que B es un subconjunto de A si todos sus elementos lo son también de A, y se
notará B ⊂ A.
Dos conjuntos especiales son el conjunto vacío, 0, / que no contiene ningún elemento, y el
conjunto total, Ω, formado por todos los elementos.
A continuación definimos las dos operaciones básicas entre conjuntos, la unión y la intersección.
Definición 3.3.2 La unión de dos conjuntos, A y B, es un conjunto cuyos elementos son
los elementos de A y B, y se nota A ∪ B. Esta operación verifica la propiedad conmutativa y
asociativa.

Definición 3.3.3 La intersección de dos conjuntos, A y B, es el conjunto formado por los


elementos comunes de A y B, y se nota AB o A ∩ B. Esta operación verifica la propiedad
conmutativa, asociativa y distributiva respecto de la unión.

Definición 3.3.4 Dos conjuntos cuya intersección es vacía se denominan mutuamente ex-
cluyentes, disjuntos o incompatibles. Podemos generalizar esa definición a una colección de
conjuntos A1 , ..., AN que se dicen mutuamente excluyentes si Ai ∩ A j = 0/ para todo i 6= j.

Definición 3.3.5 Una partición es una colección de conjuntos, A1 , ..., AN tal que:
a) A1 ∪ ... ∪ AN = Ω
b) Ai ∩ A j = 0/ para todo i 6= j.

Definición 3.3.6 El conjunto complementario de un conjunto A, Ā ó Ac , está formado por


todos los elementos de Ω que no pertenecen a A.

De forma trivial podemos demostrar que se verifica que A ∪ Ā = Ω, A ∩ Ā = 0,


/ Ā = A y Ω̄ = 0.
/
También, si B ⊂ A, entonces Ā ⊂ B̄.
Otras propiedades interesantes son las llamadas Leyes de Morgan:

A ∪ B = Ā ∩ B̄
A ∩ B = Ā ∪ B̄.

3.3.2 Espacio muestral


Vamos a imaginar el experimento aleatorio que consiste en elegir un número real al azar entre 0
y 1. Ese experimento nos puede servir para, por ejemplo, sortear algo a cara o cruz, en cuyo caso
todos los resultados posible del experimento están estructurados en dos subconjuntos: los menores
o iguales a 1/2 y los mayores que 1/2. Pero el mismo experimento nos podría servir para echar a
58 Capítulo 3. Probabilidad

suertes algo entre 10 personas, en cuyo caso la estructura de los resultados posibles viene dada por
los conjuntos [0, 0.1), [0.1, 0.2), ..., [0.9, 1). Este sencillo ejemplo puede servir para comprender
que, dado un experimento aleatorio, yo tengo que especificar de qué manera observo sus resultados,
dicho de otro modo, en qué forma estructuro sus resultados posibles.
Pero si queremos que nuestros razonamientos sobre los resultados de un experimento tengan
sentido, cualquier estructura de este tipo bajo la que observemos estos resultados debe cumplir unas
propiedades básicas. Concretamente, dado un experimento cuyos resultados son el conjunto Ω, una
familia de subconjuntos de Ω, representada por Σ, debe ser una σ -álgebra.
Definición 3.3.7 Dada una colección de subconjuntos, Σ, de un conjunto Ω, decimos que Σ
tiene estructura de σ -álgebra si cumple las siguientes propiedades:
1. 0/ ⊂ Σ.
2. Si A ⊂ Σ, entonces A ⊂ Σ.
3. Si E1 , E2 , E3 , ... es una sucesión de elementos de Σ, entonces la unión (contable) de todos
ellos también está en Σ.
Estas propiedades básicas que cumplen las σ -álgebras garantizan que las operaciones que
realicemos sobre sus elementos continúan siendo elementos suyos.
Que tengamos que pensar en un experimento aleatorio y especificar una σ -álgebra puede
resultar algo extraño, pero hay que insistir en que la σ -álgebra representa la forma que tenemos de
estructurar los resultados del experimento, por lo que debe especificarse. A esa dupla formada por
el conjunto de resultados junto con una estructura de σ -álgebra se le llama espacio muestral.
Definición 3.3.8 Se define un espacio muestral asociado a un experimento aleatorio, como
un par formado por el conjunto de sus resultados posibles junto con alguna σ -álgebra sobre él.
Cualquier subconjunto de la σ -álgebra de un espacio muestral recibe el nombre de suceso o
evento.
Una observación importante en la que hay que insistir es que el espacio muestral asociado a un
experimento aleatorio no tiene por qué ser único, sino que dependerá de la σ -álgebra, es decir, de
lo que deseemos observar del experimento aleatorio. Vamos a poner este hecho de manifiesto en un
ejemplo.
 Ejemplo 3.1 Si consideramos el lanzamiento de un dado, Ω = {1, 2, 3, 4, 5, 6}.
Podemos definir una σ -álgebra formada por todos los subconjuntos posibles de Ω. Esa es, de
hecho, la mayor σ -álgebra que podemos definir, y corresponde a observar la puntuación del dado
por completo.
Pero si sólo estamos interesados en si sale par o impar, también podemos definir como σ -álgebra
la formada por 0,/ par, impar y Ω. 

En resumen, cuando nos enfrentemos a un experimento aleatorio tenemos que tener claro los
sucesos que nos interesa observar en ese experimento, y que deben constituir una σ -álgebra.

3.3.3 Función de probabilidad


Definición 3.3.9 Dado un espacio muestral, (Ω, Σ) correspondiente a un experimento aleatorio,
una función de probabilidad para ese espacio muestral es cualquier función que asigne a cada
suceso de Σ un número en el intervalo [0, 1) y que verifique
1. P[A] ≥ 0 para cualquier A ∈ Σ.
2. P[Ω] = 1
3.3 Definición axiomática de probabilidad 59

3. Dada una colección de sucesos A1 , A2 , ... ∈ Σ, mutuamente excluyentes,


n
P[∪i Ai ] = ∑ P[Ai ].
i=1

Hay que notar, de nuevo, que se puede dar más de una función de probabilidad asociada al
mismo espacio muestral. Por ejemplo, asociado al experimento de lanzar una moneda al aire y el
espacio muestral dado por Ω = {cara, cruz} y la σ -álgebra

Σ = {0,
/ {cara}, {cruz}, Ω}

pueden darse un número infinito no numerable de medidas de la probabilidad; concretamente,


asociadas a cada elección

P[cara] = p
P[cruz] = 1 − p,

para cada p ∈ [0, 1]. Aunque si la moneda no está cargada, como sucede habitualmente, se considera
el caso en que p = 12 .
Por este motivo, formalmente es necesario especificar la terna dada por Ω, conjunto de resulta-
dos, Σ, la σ -álgebra, y P[], la función de probabilidad.
Definición 3.3.10 La terna (Ω, Σ, P[]) se denomina espacio de probabilidad.

 Ejemplo 3.2 Volviendo sobre el lanzamiento del dado, si éste no está cargado, podemos definir
la siguiente función de probabilidad:
1
P[i] = , i = 1, 2, ..., 6.
6
El resto de probabilidades las podemos deducir a partir de los axiomas. Por ejemplo:

P[par] = P[2, 4, 6]
= P[2] + P[4 + P[6]
1 1 1
= + + = 0.5.
6 6 6
En este cálculo se ha tenido en cuenta el tercer axioma. 

Como consecuencia de la definición se verifican, entre otras, las siguientes propiedades, que
además facilitan bastante los cálculos:
/ = 0.
P[0]
Sea A ∈ Σ un suceso cualquiera. Entonces, P[A] = 1 − P[A].
Sean A y B dos sucesos cualesquiera. Entonces, en general, P[A ∪ B] = P[A] + P[B] − P[A ∩ B].
 Ejemplo 3.3 El circuito que aparece en la Figura 3.1 está constituido por dos interruptores en
paralelo. Vamos a suponer que la probabilidad de que cualquiera de ellos esté cerrado, dejando
pasar corriente, es 21 .
Para que pase corriente a través del circuito basta con que pase corriente por alguno de los dos
interruptores, esto es, que al menos uno de ellos esté cerrado. Por tanto, si notamos por E al suceso
que pase corriente a través del circuito y Ei al suceso que el interruptor i esté cerrado, entonces,

P[E] = P[E1 ∪ E2 ] = P[E1 ] + P[E2 ] − P[E1 ∩ E2


1 1
= + − P[E1 ∩ E2 ].
2 2
60 Capítulo 3. Probabilidad

Figura 3.1: Circuito con dos interruptores en paralelo

Lanzamientos 10 100 250 500 750 1000


Caras 4 46 124 244 379 501

Tabla 3.1: Aproximación frecuentista a la probabilidad de cara en el lanzamiento de una moneda

No debe extrañarnos el término P[E1 ∩ E2 ], porque puede pasar corriente por los dos circuitos a la
vez, pero para conocer la probabilidad de que pase corriente necesitamos saber precisamente esa
probabilidad, que determina cómo actúan de forma conjunta ambos circuitos, y ahora mismo no
tenemos esa información. 

3.3.4 Interpretación frecuentista de la probabilidad


Probablemente la interpretación más conocida del concepto de probabilidad tiene que ver con
los promedios de ocurrencia de los sucesos del experimento en cuestión.
Pensemos en el lanzamiento de una moneda: si decimos que la probabilidad de cara es 0.5,
entendemos que si lanzamos la moneda un gran número de veces y anotamos el número de caras,
éstas serán más o menos la mitad.
Generalizando este proceso, podríamos decir que la probabilidad de un evento A, P[A], es
nA
P[A] = lı́m ,
n→∞ n

donde nA es el número de ocurrencias de A en n ensayos del experimento.


Esta interpretación se conoce como definición frecuentista de la probabilidad. Se trata de
una interpretación de carácter eminentemente práctico porque permite una aproximación física al
concepto de probabilidad, pero se ve limitada por las complicaciones que supone la definición en
términos de un límite que, como tal, sólo se alcanza en el infinito. Además, desde un punto de vista
realista, ¿en qué ocasiones podremos repetir el experimento un gran número de veces?
 Ejemplo 3.4 He simulado 1000 lanzamientos de una moneda. En la Tabla 3.1 aparece un resumen
de ese proceso. Puede observarse que cuanto mayor es el número de lanzamientos, más se aproxima
la frecuencia relativa al valor 12 , de manera que podríamos pensar que la probabilidad de cara es
igual que la probabilidad de cruz e iguales ambas a 12 , aunque esto sólo es una suposición, o una
aproximación, ya que para aplicar estrictamente la definición frecuentista deberíamos continuar
hasta el infinito, lo que resulta imposible. 

Esta interpretación frecuentista de la probabilidad permite inferir lo que podemos llamar


frecuencias esperadas. Si un evento A tiene asignada una probabilidad P[A], entonces, si repetimos
el experimento aleatorio n veces, lo más esperable es que el número de veces que se de el evento
A será n × P[A]. Más adelante podremos matizar con más rigor a qué nos referimos con lo más
esperable.
3.4 Probabilidad condicionada. Independencia de sucesos 61

 Ejemplo 3.5 Siguiendo con el ejemplo de la moneda, si la lanzamos 348 veces, lo esperable es
que salgan alrededor de 348 × 0.5 = 174 caras. 

3.3.5 Espacio muestral finito con resultados equiprobables. Fórmula de Laplace


Otro punto de vista que permite abordar el proceso práctico de asignación de probabilidad,
aunque en condiciones muy restringidas, es el siguiente. En general, si el espacio muestral está
formado por N resultados posibles y todos ellos tienen la misma probabilidad (equiprobables),
podríamos decir que la probabilidad de un evento A, P[A], es
NA
P[A] = ,
N
donde NA es el número de resultados favorables a la ocurrencia de A.
Esta fórmula, conocida como fórmula de Laplace nos permite, por ejemplo, deducir que
1
P [cara] =
2
en el lanzamiento de una moneda sin tener que lanzar la moneda un gran número de veces.
Sin embargo, la definición tiene dos grandes inconvenientes: el conjunto de resultados posibles,
N, tiene que ser finito y, además, todos los resultados posibles deben tener la misma probabilidad
(con lo cual, lo definido queda implícitamente inmerso en la definición).

3.4 Probabilidad condicionada. Independencia de sucesos


Para introducir de manera intuitiva el concepto de probabilidad condicionada debemos pensar
en la probabilidad como medida de la creencia en la ocurrencia de los sucesos.
Pensemos en un experimento aleatorio y en un suceso de dicho experimento, A, en el que, en
principio, tenemos un grado de creencia P[A]; pero supongamos que conocemos algo del resultado
de dicho experimento; concretamente, sabemos que ha ocurrido un suceso B. Parece lógico pensar
que esa información conocida sobre el resultado del ensayo modificará nuestro grado de creencia en
A: llamemos a este nuevo grado de creencia P[A | B], probabilidad de A conocida B o probabilidad
de A condicionada a B.
 Ejemplo 3.6 Consideremos el suceso A : el día de hoy va a llover y el suceso B : el día de hoy
está nublado. Obviamente, la probabilidad P[A] será menor que la probabilidad P[A | B], ya que el
hecho de que esté nublado refuerza nuestra creencia en que llueva. 

 Ejemplo 3.7 Consideremos el experimento aleatorio consistente en extraer una carta de una
baraja española. Sea el suceso A : obtener una sota, el suceso B1 : obtener una figura y el suceso
B2 :obtener una carta de copas.
Las distintas probabilidades, condicionadas o no, bajo la definición clásica, son las siguientes:
4 sotas 1
P[A] = =
40 cartas 10
4 sotas 1
P[A | B1 ] = =
12 f iguras 3
1 sota de copas 1
P[A | B2 ] = = .
10 copas 10
Como puede verse, B1 modifica la probabilidad a priori, pero no así B2 . Puede decirse que B2 no
ofrece información acerca de A, o que A y B2 son independientes. 

A la vista de estos dos ejemplos, vamos a introducir una definición de probabilidad con-
dicionada que responde a esta idea de recalcular la probabilidad en función de la información
existente.
62 Capítulo 3. Probabilidad

Definición 3.4.1 Dados dos sucesos, A y B, éste último con probabilidad no nula, la probabili-
dad de A, condicionada a B, denotada por P[A | B], se define como el cociente

P[A ∩ B]
P[A | B] = .
P[B]

Una función de probabilidad condicionada, P[· | B] es una función de probabilidad en toda regla:
por tanto, cumple las mismas propiedades que cualquier función de probabilidad sin condicionar.
Como hemos comentado, la idea de la probabilidad condicionada es utilizar la información
que nos da un suceso conocido sobre la ocurrencia de otro suceso. Pero, como ya hemos puesto de
manifiesto en uno de los dos ejemplos previos, no siempre un suceso da información sobre otro.
Definición 3.4.2 Dos sucesos A y B se dicen independientes si P[A | B] = P[A] o, equivalente-
mente, si P[B | A] = P[B] o, equivalentemente, si P[A ∩ B] = P[A] × P[B].

 Ejemplo 3.8 Continuando con el Ejemplo 3.3, lo más lógico es pensar que los dos interruptores
actúan de forma independiente, en cuyo caso P[E1 ∩ E2 ] = P[E1 ] × P[E2 ] y tenemos que,

1 1
P[E] =+ − P[E1 ∩ E1 ]
2 2
1 1 11 3
= + − = .
2 2 22 4


R Hay una tendencia generalizada a pensar que la probabilidad de la intersección de dos sucesos
es igual al producto de sus probabilidades. Es muy importante recordar que esto sólo curre en
el caso de que los sucesos sean independientes.

R Hay otra confusión más que suele darse, sobre todo al comienzo del manejo del cálculo básico
de probabilidades: es la de sucesos independientes con sucesos incompatibles o mutuamente
excluyentes.
En este sentido, recordemos que dos sucesos A y B son incompatibles o mutuamente exclu-
yentes si A ∩ B = ∅, en cuyo caso P[A ∩ B] = 0.
Por su parte, A y B serán independientes si P[A ∩ B] = P[A] × P[B].
Las diferencias entre ambos conceptos son obvias.

 Ejemplo 3.9 Supongamos que en una empresa de reparto, la probabilidad de que un envío no
llegue a tiempo es 0.05. Se solicitan tres envíos que, por el tamaño de la empresa, no iterfieren entre
sí.
1. ¿Cuál es la probabilidad de que todos los pedidos se envíen a tiempo?
En primer lugar, notemos Ei al suceso enviar a tiempo el pedido i-ésimo. En ese caso, sabemos
que P[Ei ] = 0.95.
Con esta notación, el suceso que todos los pedidos se envíen a tiempo es E1 ∩ E2 ∩ E3 , y su
probabilidad,

P[E1 ∩ E2 ∩ E3 ] = P[E1 ] × P[E2 ] × P[E3 ] = 0.953 ,

debido a que los envíos pueden considerarse independientes.


2. ¿Cuál es la probabilidad de que exactamente un envío no llegue a tiempo?
En este caso, el suceso que nos piden es más complejo, y debe expresarse como una unión de
subconjuntos incompatibles, ya que tenemos tres posibilidades de que exactamente un envío
3.4 Probabilidad condicionada. Independencia de sucesos 63

no llegue a tiempo:

P[E 1 ∩ E2 ∩ E3 ∪ E1 ∩ E 2 ∩ E3 ∪ E1 ∩ E2 ∩ E 3 ] = P[E 1 ∩ E2 ∩ E3 ]
+ P[E1 ∩ E 2 ∩ E3 ]
+ P[E1 ∩ E2 ∩ E 3 ]
= 0.05 × 0.952
+ 0.05 × 0.952
+ 0.05 × 0.952
= 0.135,

donde se ha utilizado que los sucesos E 1 ∩ E2 ∩ E3 , E1 ∩ E 2 ∩ E3 y E1 ∩ E2 ∩ E 3 son incompa-


tibles.
3. ¿Cuál es la probabilidad de que dos o más pedidos no se envíen a tiempo?
Si expresamos ese suceso como una unión de sucesos incompatibles para expresar todas las
posibilidades, tendremos una unión de 4 sucesos. Pero si pensamos en el complementario del
suceso que dos o más pedidos no se envíen a tiempo, vemos que es la unión de los sucesos
todos se envíen a tiempo y un pedido no se envíe a tiempo, sucesos de los que conocemos su
probabilidad, calculada previamente. Por tanto, podemos calcular la probabilidad que se nos
pide a partir de la probabilidad de su complementario:

1 − P[todos se envíen a tiempo ∪ un pedido no se envíe a tiempo] =


1 − (0.953 + 0.135).

 Ejemplo 3.10 Consideremos un proceso industrial como el que se esquematiza en la Figura

3.2. En dicho esquema se pone de manifiesto que una unidad será producidad con éxito si pasa en
primer lugar un chequeo previo (A); después puede ser montada directamente (B), redimensionada
(C) y después montada (D) o adaptada (E) y después montada (F); posteriormente debe ser pintada
(G) y finalmente embalada (H).
Consideremos que las probabilidades de pasar exitosamente cada subproceso son todas ellas
iguales a 0.95, y que los subprocesos tienen lugar de forma independiente unos de otros.
Vamos a calcular, en esas condiciones, la probabilidad de que una unidad sea exitosamente
producida.
Si nos damos cuenta, A, G y H son ineludibles, mientras que una unidad puede ser producida si
pasa por B, por C y D o por E y F. En notación de conjuntos, la unidad será producida si se da el
suceso

A ∩ (B ∪C ∩ D ∪ E ∩ F) ∩ G ∩ H.

Como los procesos son independientes unos de otros, no tenemos problemas con las probabilidades
de las intersecciones, pero tenemos que calcular la probabilidad de una unión de tres conjuntos,
B ∪C ∩ D ∪ E ∩ F.
64 Capítulo 3. Probabilidad

En general,
P[A1 ∪ A2 ∪ A3 ] = P[(A1 ∪ A2 ) ∪ A3 ]
= P[A1 ∪ A2 ] + P[A3 ] − P[(A1 ∪ A2 ) ∩ A3 ]
= P[A1 ] + P[A2 ] − P[A1 ∩ A2 ] + P[A3 ] − P[A1 ∩ A3 ∪ A2 ∩ A3 ]
= P[A1 ] + P[A2 ] − P[A1 ∩ A2 ] + P[A3 ]
− (P[A1 ∩ A3 ] + P[A2 ∩ A3 ] − P[A1 ∩ A2 ∩ A3 ])
= P[A1 ] + P[A2 ] + P[A3 ]
− P[A1 ∩ A2 ] − P[A1 ∩ A3 ] − P[A2 ∩ A3 ]
+ P[A1 ∩ A2 ∩ A3 ]
En nuestro caso,
P[B ∪C ∩ D ∪ E ∩ F] = P[B] + P[C ∩ D] + P[E ∩ F]
− P[B ∩C ∩ D] − P[B ∩ E ∩ F] − P[C ∩ D ∩ E ∩ F]
+ P[B ∩C ∩ D ∩ E ∩ F]
= 0.95 + 2 × 0.952 − 2 × 0.953 − 0.954 + 0.955
= 0.9995247
Ya estamos en condiciones de obtener la probabilidad que se nos pide:
P[A ∩ (B ∪C ∩ D ∪ E ∩ F) ∩ G ∩ H] = P[A]P[B ∪C ∩ D ∪ E ∩ F]P[G]P[H]
= 0.95 × 0.9995247 × 0.95 × 0.95
= 0.8569675.


Figura 3.2: Esquema del proceso industrial del ejemplo

En estos ejemplos, el cálculo de la probabilidad de las intersecciones ha resultado trivial porque


los sucesos son independientes. Sin embargo, esto no siempre ocurre. ¿Cómo podemos, en general,
obtener la probabilidad de la intersección de dos o más sucesos no necesariamente independientes?
En el caso de sólo dos sucesos, A y B, de la definición de probabilidad condicionada podemos
deducir que
P[A ∩ B] = P[A | B] × P[B]
A partir de esta fórmula, por inducción, se puede obtener la llamada fórmula producto, que se
enuncia de la siguiente forma.
3.5 Teorema de la probabilidad total y Teorema de Bayes 65

Proposición 3.4.1 Si A1 , A2 , ..., AN son sucesos de un espacio muestral no necesariamente inde-


pendientes, se verifica

P[A1 ∩ A2 ∩ ... ∩ AN ] = P[A1 ]P[A2 | A1 ]...P[AN | A1 ∩ A2 ∩ ... ∩ AN−1 ]

 Ejemplo 3.11 Un lote de 50 arandelas contiene 30 arandelas cuyo grosor excede las especifica-
ciones de diseño. Suponga que se seleccionan 3 arandelas al azar y sin reemplazo del lote. ¿Cuál es
la probabilidad de que las tres arandelas seleccionadas sean más gruesas que las especificaciones
de diseño?
Comenzamos notando los sucesos Ai : la í-ésima arandela extraida es más gruesa que las
especificaciones de diseño, i = 1, 2, 3. Entonces, nos piden

P[A1 ∩ A2 ∩ A3 ] = P[A1 ]P[A2 | A1 ]P[A3 | A1 ∩ A2 ]


30 29 28
= .
50 49 48

3.5 Teorema de la probabilidad total y Teorema de Bayes

Los siguientes dos resultados se conocen como Teorema de la probabilidad total y Teorema de
Bayes respectivamente, y juegan un importante papel a la hora de calcular probabilidades. Los dos
utilizan como principal herramienta el concepto de probabilidad condicionada.

Teorema 3.5.1 — Teorema de la Probabilidad Total. Sea P una función de probabilidad


sobre un espacio muestral. Sea {A1 , ..., AN } ⊂ F una partición del espacio muestral Ω y sea B un
suceso cualquiera. Entonces,

P[B] = P[B | A1 ]P[A1 ] + ... + P[B | AN ]P[AN ].

Teorema 3.5.2 — Teorema de Bayes. En esas mismas condiciones, si P[B] 6= 0,

P[B | Ai ]P[Ai ] P[B | Ai ]P[Ai ]


P[Ai | B] = = .
P[B] P[B | A1 ]P[A1 ] + ... + P[B | AN ]P[AN ]

 Ejemplo 3.12 Una gran empresa tiene 4 plantas donde produce componentes electrónicas. La

planta 1 produce el 40 % de las componentes, y tiene constatado que de ellas, el 5 % suelen ser
defectuosas; la planta 2 produce el 10 % de las componentes de la empresa, con un 40 % de ellas
defectuosas; las plantas 3 y 4 producen el 25 % cada una, y se conoce que en ellas un 10 % de la
producción son defectuosas.
1. ¿Cuál es la probabilidad, en general, de que una componente de la empresa sea defectuosa?
En primer lugar, debemos destacar sucesos que describan el espacio muestral que puede aso-
ciarse al ejercicio. En este sentido, notemos D al suceso escoger una componente defectuosa
y Ci a los sucesos escoger una componente de la caja i-ésima (con i = 1, 2, 3, 4).
En segundo lugar, vamos a identificar los datos que se ofrecen en términos de probabilidades
66 Capítulo 3. Probabilidad

los datos que se nos ofrecen:

P[C1 ] = 0.4
P[C2 ] = 0.1
P[C3 ] = P[C4 ] = 0.25
P[D | C1 ] = 0.05
P[D | C2 ] = 0.4
P[D | C3 ] = P[D | C4 ] = 0.1

En tercer lugar, debemos identificar también, en términos de probabilidad, lo que se nos


pregunta y obtener un resultado basado en alguna de las fórmulas que hemos descrito. En este
caso, utilizando el Teorema de la probabilidad total,

P[D] = P[D | C1 ]P[C1 ] + P[D | C2 ]P[C2 ] + P[D | C3 ]P[C3 ] + P[D | C4 ]P[C4 ]


= 0.05 × 0.4 + 0.4 × 0.1 + 0.1 × 0.25 + 0.1 × 0.25 = 0.11

2. Si se escoge una componente al azar y resulta ser defectuosa, ¿cuál es la probabilidad de que
proceda de la planta 1?
Utilizando el Teorema de Bayes,

P[D | C1 ]P[C1 ] 0.05 × 0.4


P[C1 | D] = = = 0.182.
P[D] 0.11


 Ejemplo 3.13 La Figura 3.3 describe un canal de comunicaciones ternario en el que se producen
errores en la transmisión con probabilidades que dependen del dígito enviado. Además, se ha
observado en el emisor que el dígito 3 es enviado tres veces más frecuentemente que 1, y 2 dos
veces más frecuentemente que 1.
1. Calcúlese la probabilidad de que un dígito cualquiera enviado a través del canal sea recibido
correctamente.
En primer lugar debemos aclarar la notación. Expresaremos X = i al suceso que se emita el
dígito i, e Y = j al suceso que se reciba el dígito j.
Si notamos P[X = 1] = p, entonces P[X = 2] = 2p y P[X = 3] = 3p. Por otra parte, como la
suma de las probabilidades deben sumar 1, tenemos que

1 = P[X = 1] + P[X = 2] + P[X = 3] = 6p,

de donde se tiene que P[X = 1] = 16 , P[X = 2] = 13 y P[X = 3] = 12 .


Además, la figura describe las probabilidades de recibir cada dígito condicionadas al dígito
emitido.
Ahora vamos a utilizar el teorema de la probabilidad total considerando como partición del
espacio muestral la dada por los tres dígitos que se pueden emitir. Además, por simplicidad
en la notación, llamemos OK al suceso recibir un dígito correcto. Entonces,

P[OK] = P[OK |X=1 ]P[X = 1] + P[OK |X=2 ]P[X = 2] + P[OK |X=3 ]P[X = 3]
= P[Y = 1 |X=1 ]P[X = 1] + P[Y = 2 |X=2 ]P[X = 2] + P[Y = 3 |X=3 ]P[X = 3]
1 1 1
= (1 − α) + (1 − β ) + (1 − γ) .
6 3 2
2. Si se recibe un 1, ¿cuál es la probabilidad de que realmente se hubiera enviado un 1?
3.5 Teorema de la probabilidad total y Teorema de Bayes 67

Figura 3.3: Canal ternario de comunicaciones con probabilidad de cruce

Utilizando ahora el teorema de Bayes,

P[Y = 1 |X=1 ]P[X = 1]


P[X = 1 |Y =1 ] =
P[Y = 1]
P[Y = 1 |X=1 ]P[X = 1]
=
P[Y = 1 |X=1 ]P[X = 1] + P[Y = 1 |X=2 ]P[X = 2] + P[Y = 1 |X=3 ]P[X = 3]
P[Y = 1 | X = 1]P[X = 1]
=
1−α
6 + β6 + 4γ


 Ejemplo 3.14 Supongamos que un juez debe decidir si un sospechoso es inocente o culpable.
Él sabe que debe ser cuidadoso y garantista con los derechos del acusado, pero también por su
experiencia parte de una creencia en que el sospechoso puede ser culpable que, en cualquier caso,
estima por debajo de lo que realmente cree para, insisto, ser garantista con los derechos del acusado.
Pongamos que estima esta probabilidad en un 10 %.
Ahora empieza a examinar las pruebas. La primera de ellas es una prueba de ADN en la que el
acusado dio positivo: encontraron material genético en el arma del crimen que, según la prueba, es
suyo. Esa prueba de ADN da positivo en el 99.5 % de las veces en que se comparan dos ADN’s
idénticos, pero también da positivo (erróneamente) en el 0.005 % de las veces en que se aplica a dos
ADN’s distintos. Teniendo en cuenta esta información, el juez aplica por primera vez el Teorema
de Bayes con los siguientes datos:
P[cul pable] = 0.1, que es la probabilidad a priori que el juez considera.
La probabilidad de que la prueba de ADN de positivo si el acusado es culpable es

P[ADN+ |cul pable ] = 0.995.

La probabilidad de que la prueba de ADN de positivo si el acusado es inocente es

P[ADN+ |inocente ] = 0.00005.

Ahora ya puede actualizar su grado de creencia en la culpabilidad del sospechoso:

P[ADN+ |cul pable ] × P[cul pable]


P[cul pable |ADN+ ] =
P[ADN+ |cul pable ] × P[cul pable] + P[ADN+ |inocente ] × P[inocente]
0.995 × 0.1
= = 0.999548
0.995 × 0.1 + 0.00005 × 0.9
68 Capítulo 3. Probabilidad

Es decir, ahora piensa que el sospechoso es culpable con un 99.9548 % de certeza. Fijémonos en
que nuestra probabilidad a priori aparece en los términos 0.1 en el numerador y 0.1 y 0.9 en el
denominador. Esa, 0.1, era la probabilidad que teníamos antes de la prueba de que fuera culpable
(y 0.9 de que fuera inocente); después de la prueba esa probabilidad es 0.999548 (y 0.000452 de
que sea inocente).
Sin embargo, el sospechoso insiste en su inocencia, y propone someterse a una prueba de un
detector de mentiras. Los expertos saben que un culpable es capaz de engañar a esta máquina en
el 10 % de las veces, y que la máquina dirá el 1 % de las veces que un inocente miente. Nuestro
sospechoso se somete a la máquina y ésta dice que es inocente. ¿Cuál será ahora la probabilidad
que el juez asigna a la culpabilidad del sospechoso? Teniendo en cuenta que:
P[detector− |cul pable ] = 0.1,
P[detector+ |inocente ] = 0.01,
y suponiendo que la prueba de ADN y la del detector de mentiras son independientes, debe aplicar
de nuevo el Teorema de Bayes para calcular

P[cul pable |detector−∩ADN+ ].

Comencemos calculando la probabilidad de la condición, maquina − ∩ADN+, utilizando para


ello el Teorema de la probabilidad total:

P[detector − ∩ADN+] = P[detector − ∩ADN+ |cul pable ] × P[cul pable]


+ P[detector − ∩ADN+ |inocente ] × P[inocente]
= P[detector− |cul pable ]P[ADN+ |cul pable ] × P[cul pable]
= P[detector− |inocente ]P[ADN+ |inocente ] × P[inocente]
= 0.1 × 0.995 × 0.1 + (1 − 0.01) × 0.00005 × 0.9
= 0.00999455.

Entonces,

P[detector − ∩ADN+ |cul pable ] × P[cul pable]


P[cul pable |detector−∩ADN+ ] =
P[detector − ∩ADN+]
P[detector− |cul pable ]P[ADN+ |cul pable ] × P[cul pable]
=
P[detector − ∩ADN+]
0.1 × 0.995 × 0.1
= = 0.9955431.
0.00999455

Es decir, aún con esa prueba negativa, el juez aún tiene un 99.55431 % de certidumbre de que el
sospechoso es culpable. 

3.6 Resumen
El tema ha presentado una introducción al concepto de probabilidad y de espacio probabilístico.
Cuando nos enfrentamos a un experimento aleatorio, es decir, en el que no hay total certidumbre con
respecto al resultado, el Cálculo de Probabilidades propone representar los resultados posibles como
conjuntos pertenecientes al espacio muestra, identificar el grado de certidumbre de esos resultados
como probabilidades, posiblemente condicionadas, y obtener probabilidades más complejas a partir
de las fórmulas que se deducen de la definición axiomatica de la probabilidad.
Tenemos una ilustración de este proceso en la Figura 3.4.
3.6 Resumen 69

Experimento aleatorio, con sucesos


posibles

Expresa los sucesos del experimento


como conjuntos abstractos

Interpreta los datos y las preguntas


como probabilidades de esos conjuntos

¿Se refieren a un suceso


sobre el todo o sobre
No una de las partes?
En el todo
En una parte

Probabilidades Probabilidades
simples condicionadas

¿Te permite identificar


todos los datos?

Resuelve usando fórmulas conocidas

Figura 3.4: Esquema del proceso de aplicación de la probabilidad a un problema real


70 Capítulo 3. Probabilidad

1 3 5

2 4 6

Figura 3.5: Representación de un sistema fotovoltaico

3.7 Para saber más


1. Hay una rama del Cálculo de Probabilidades con importantes aplicaciones en Ingeniería que
no hemos desarrollado aquí. Es la Combinatoria, centrada en la construcción y propiedades
de configuraciones, ordenaciones o agrupaciones de un determinado número de elementos
que satisfacen ciertas condiciones establecidas (ver, por ejemplo, Colegio24hs (2004)).
2. Todas las demostraciones y una introducción totalmente rigurosa de la definición axiomática
puede encontrarse en Juan-González (2016).

3.8 Ejercicios
Ejercicio 3.1 En un proceso industrial de producción en serie de capós de coche, existe una
máquina encargada de detectar desperfectos que desechen una pieza de capó. Esa máquina está
calibrada para detectar una pieza defectuosa con un 90 % de acierto, pero también detecta como
defectuosas el 5 % de las piezas no defectuosas. El encargado de calidad estima, por estudios
previos, que el porcentaje general de piezas defectuosas es del 1 %.
Este encargado, consciente de que la máquina puede dar por buenas piezas que son defectuo-
sas, decide actuar de la siguiente forma: una pieza que sea detectada como no defectuosa pasará
otras dos veces por la misma máquina detectora y sólo será declarada no defectuosa cuando en
ninguna de esas tres pruebas, de defectuosa.
1. Supongamos que una pieza pasa las tres veces y da no defectuosa: ¿cuál es la probabilidad
de que realmente sea no defectuosa?
2. Calcular la probabilidad de que una pieza probada tres veces, dando dos como defectuosa
y la tercera como no defectuosa, sea realmente defectuosa.


Ejercicio 3.2 El diagrama que se presenta en la Figura 3.5 representa un sistema fotovoltaico
formado por 6 celdas solares de silicio cristalino (Gautam y Kaushika, 2002). Como se observa,
está formado por dos subsistemas en paralelo; a su vez, cada subsistema está formado por
tres celdas conectadas en serie. La probabilidad de que una cualquiera de esas celdas continúe
funcionando tras un período de tiempo t0 es 0.86. Podemos suponer que las celdas se comportan
de forma independiente unas de otras. En esas condiciones, calcúlese la probabilidad de que el
sistema, en su conjunto, supere un tiempo de vida t0 . 
3.8 Ejercicios 71

Ejercicio 3.3 En el campo de las Ciencias de la Salud, la proporción de la población que padece
una determinada enfermedad se denomina prevalencia de la enfermedad. Para decidir sobre
la presencia o no de esta enfermedad sobre un paciente concreto, los profesionales de la salud
se apoyan en pruebas que, si dan positivo, le sugieren que el paciente presenta la enfermedad,
mientras que si da negativo, le sugieren que está sano. Sin embargo, dado que estas pruebas
diagnósticas no son perfectas, una prueba puede sugerir que un paciente sano está enfermo,
lo que se conoce como falso positivo, y también puede sugerir que un paciente enfermo está
sano, lo que se conoce como falso negativo. Por el contrario, la probabilidad de que la prueba de
positivo en un enfermo es conocida como sensibilidad de la prueba, mientras que la probabilidad
de que la prueba de negativo en un paciente sano es conocida como especificidad de la prueba.
En la práctica, los datos con los que se cuenta son la prevalencia de la enfermedad (conocida
por estudios epidemiológicos previos), y la sensibilidad y la especificidad de una prueba
(conocidas gracias a los experimentos de las propias empresas farmaceúticas). Desde luego, con
estos datos, lo que interesa conocer en mayor medida es la probabilidad de que un paciente que
ha dado positivo en la prueba esté realmente enfermo (conocida como valor predictivo positivo)
y la probabilidad de que un paciente cuya prueba ha dado negativo esté realmente sano (valor
predictivo negativo).
Supongamos que un índice que evalúa la muerte repentina de un niño tiene una sensibilidad
del 85 % y una especificidad del 98 %. La prevalencia de la muerte repentina de niños en la zona
es de un 0.001 %. Se pide:
1. ¿Qué consideras más grave desde el punto de vista médico, la posibilidad de un falso
positivo o de un falso negativo?
2. Calcular el valor predictivo positivo del índice.
3. Calcular el valor predictivo negativo del índice.
4. Calcula la probabilidad de que un diagnóstico positivo del índice nos conduzca a un error
de diagnóstico.
5. Calcula la probabilidad de que un diagnóstico negativo del índice nos conduzca a un error
de diagnóstico.
6. Calcula la probabilidad, en general, de un diagnóstico erróneo.


Ejercicio 3.4 En un proceso de fabricación de componentes se producen chips buenos y malos.


La probabilidad de que un chip bueno dure más de t horas es exp(−t/10), mientras que esa
misma probabilidad para los chips malos es de exp(−t/5). Estudios de control de calidad
realizados en la empresa determinan que se producen, en general, un porcentaje del 1.5 % de
chips malos. Se pide:
1. Probabilidad de que un chip elegido al azar dure más de 15 horas.
2. Un chip lleva funcionando ya 15 horas y aún no se ha estropeado. ¿Cuál es la probabilidad
de que sea un chip bueno?
3. La ingeniera responsable del control de calidad quiere implementar una prueba para
descubrir los chips que son malos: pondrá a funcionar los chips durante un tiempo, t horas,
de manera que si en ese tiempo el chip se rompe, lo considerará un chip malo, mientras
que si en ese tiempo no se rompe, lo considerará un chip bueno. ¿Cuál es el valor de t
necesario para que la probabilidad de que un chip que ha superado las t horas de prueba
sea realmente un chip bueno sea superior o igual al 99 %?

4. Variable aleatoria

Mas a pesar de todo eso, aunque la mala suerte exista, muy pocos reporteros veteranos creen de
verdad en ella. En la guerra, las cosas suelen discurrir más bien según la ley de las probabilidades:
tanto va el cántaro a la fuente que al final hace bang.

Arturo Pérez Reverte, en Territorio comanche

No existe la casualidad, y lo que se nos presenta como azar surge de las fuentes más profundas.

Johann Christoph Friedrich von Schiller (1759-1805) Poeta y dramaturgo alemán

Objetivos
1. Comprender el concepto de variable aleatoria.
2. Distinguir variables aleatorias discretas y continuas.
3. Describir el comportamiento de la distribución de probabilidad de las variables aleatorias a
partir de su función masa o densidad de probabilidad.
4. Comprender el concepto de función de distribución y de los cuantiles de una variable aleatoria.
5. Comprender el siginificado de la media (o esperanza matemática) y la varianza de una
variable aleatoria.
6. Caracterizar los modelos de distribuciones de probabilidad discretas y continuas más habitua-
les.

4.1 Introducción
En el tema anterior hemos visto que la Estadística se ocupa de experimentos aleatorios. En
general, en Ciencia y Tecnología se suele analizar cualquier experimento mediante una o varias
medidas del mismo. Por ejemplo, se analiza un objeto según su peso, su volumen, su densidad, su
contenido de agua...; o se analiza el tráfico de Internet según el número de conexiones a un servidor,
el volumen total de tráfico generado, la velocidad...
74 Capítulo 4. Variable aleatoria

En estos sencillos ejemplos observamos que se ha descrito un fenómeno físico, como puede ser
un objeto o el estado de una red de comunicaciones en un momento dado, mediante uno o varios
números o variables. Cuando ese fenómeno es de tipo aleatorio, vamos a llamar a esa asignación
variable aleatoria
Definición 4.1.1 Consideremos un espacio probabilístico asociado a un conjunto de resultados
de experimento aleatorio Ω, con una σ -álgebra Σ representando los sucesos relevantes y una
función de probabilidad P proporcionando la probabilidad de esos sucesos. Una variable
aleatoria (a partir de ahora v.a.) es la asignación de un número real a cada suceso de Σ. Se trata,
por tanto, de una función real con dominio en Σa :

X : Σ → R.
a Enrealidad es necesario añadir una condición para llamar a una función sobre el espacio muestral v.a., y es que
sea medible. Se darán referencias sobre ello al final del capítulo.

R En la notación que vamos a utilizar representaremos las variables aleatorias como funciones
siempre en mayúsculas, y a sus valores concretos siempre en minúscula. Es decir, si queremos
referirnos a una v.a. antes de observar su valor, podemos notarla como X, por ejemplo; pero
una vez que se observa el valor de dicha variable (ya no es, por tanto, algo aleatorio), debemos
notar a ese valor en minúscula, por ejemplo, como x.
Por ejemplo, podemos decir que la variable aleatoria X que corresponde a la puntuación
obtenida al lanzar el dado puede tomar los valores x = 1, 2, 3, 4, 5, 6. Podremos preguntarnos
por la probabilidad de que X tome el valor x = 4 o de que X ≤ 6. Si lanzamos el dado y
observamos que ha salido un 6, diremos que x = 6.

No olvidemos que el objeto de la Estadística con respecto a la observación de fenómenos


aleatorios es medir la certidumbre o la incertidumbre asociada a sus posibles resultados. Al describir
estos resultados mediante variables aleatorias, lo que tenemos son resultados numéricos sujetos
a incertidumbre. El objetivo ahora es cuantificar la probabilidad de esos resultados numéricos de
alguna forma.
Sea cual sea el tipo de v.a., que a continuación vamos a describir, hay una forma de cuantificar
esta probabilidad, y es la función de distribución.
Definición 4.1.2 Dada una v.a., X, se define su función de distribución de probabilidad o
simplemente función de distribución como aquella función real de variable real, F, que para
cada valor x ∈ R proporciona como resultado P[X ≤ x].

El nombre función de distribución de probabilidad debe ayudar a recordar la utilidad de esta


función, ya que, efectivamente, indica cómo se distribuye la probabilidad entre los valores de la
variable.
 Ejemplo 4.1 Sea una v.a., X, con función de distribución



 0 si x<1
 0.25 si 1 ≤ x < 2


F(x) = 0.60 si 2 ≤ x < 3
0.85 si 3 ≤ x < 4




1 x≥4

si

Podemos ver que esta función es escalonada y creciente a saltos, y que esos saltos se dan en los
4.2 Variable aleatoria discreta 75

puntos x = 1, 2, 3, 4. Además, teniendo en cuenta que P[X = x] = P[X ≤ x] − P[X < x], se tiene que


 0 si x<1



 0.25 si x=1
0.35 si x=2

P[X = x] =

 0.25 si x=3
0.15 si x=4





0 si x>4

Por tanto, la variable sólo puede tomar los valores donde la función de distribución crece con saltos
cuya altura es precisamente la probabilidad de cada valor. 

 Ejemplo 4.2 Consideremos una v.a. cuya función de distribución viene dada por

 0 si x<1
x
F(x) = si 1 ≤ x<3
 2
1 si x≥3

Ahora la función de distribución no es escalonada, sino que es continua, aunque también es


creciente; más aún, es estrictamente creciente en el intervalo [1, 3] y constante en el resto de valores.
La probabilidad de que la v.a. tome valores fuera del intervalo [1, 3] es cero, mientras que
podemos calcular la probabilidad de que, por ejemplo, la variable tome valores entre 1.5 y 2.5 como

P[1.5 < X < 2.5] = F(2.5− ) − F(1.5) = 0.5,

aunque en realidad, en esa probabilidad no importa si ponemos símbolos de desigualdad estrictos o


no. 

Estos dos ejemplos de tipos de funciones de distribución se corresponden con los dos tipos de
variables aleatorias que vamos a estudiar, si bien la forma de definirlas y utilizarlas es mucho más
intuitiva si la vinculamos a cómo es el conjunto de valores que puede tomar.
Para finalizar, conviene que tengamos en cuenta las propiedades de las funciones de distribución
que detallamos ahora.
Proposición 4.1.1 Dada una v.a. X, y su función de distribución F (x), entonces
1. lı́mx→−∞ F(x) = F(−∞) = 0.
2. lı́mx→∞ F(x) = F(∞) = 1.
3. F es creciente.
Si interpretamos estas propiedades desde el punto de vista de lo que representa la función de
distribución, diríamos:
1. Es lógico que F(−∞) = P[X ≤ −∞] = 0 porque no puede haber probabilidad en valores
menores o iguales que menos infinito.
2. Es lógico que F(∞) = P[X ≤ ∞] = 1 porque todos los valores son menores o iguales que
infinito.
3. Si x1 < x2 , es lógico que F(x1 ) = P[X ≤ x1 ] ≤ F(x2 ) = P[X ≤ x2 ] porque hay más valores
menores o iguales que x2 que menores o iguales que x1 .

4.2 Variable aleatoria discreta


Definición 4.2.1 Una v.a., X, discreta es la que se utiliza como modelo para experimentos
aleatorios donde realizamos un conteo o recuento de alguna característica de la población. Por
tanto, puede tomar un conjunto de valores finito o infinito numerable. Además, su función de
76 Capítulo 4. Variable aleatoria

distribución, F(x), será escalonada, siendo el incremento de F(x) en los puntos de crecimiento
la probabilidad de dichos valores.

Definición 4.2.2 Dada una v.a. discreta, X, la función que a cada valor posible de X le asigna
su probabilidad se denomina función masa de probabilidad o simplemente función masa. Es
decir, la función masa de probabilidad es la función

f (x) = P[X = x] = P[X ≤ x] − P[X < x] = F(x) − F(x− ).

 Ejemplo 4.3 Son variables discretas:


El número de accidentes laborales en una empresa al año.
El número de errores en un mensaje transmitido.
El número de piezas defectuosas producidas a lo largo de un día en una cadena de producción.
El número de días de baja de un trabajador al mes.


¿Qué tienen en común todas esas variables? Son variables aleatorias discretas porque se refieren
al recuento o el conteo de cantidades que, a priori, son desconocidas. Aún siendo desconocidas,
intuimos que hay valores que serán más probables que otros; por ejemplo, si una empresa produce
134 piezas en un día y tiene procesos de calidad razonables, será mucho más probable que produzca
3 unidades defectuosas que 134 unidades defectuosas. En el fondo, eso nos hace ver que, en función
de las características de la variable, podemos, al menos, intuir cómo será su función masa de
probabilidad.
Las siguientes propiedades de las funciones masa son muy útiles en la práctica, sobre todo la
última de ellas.
Proposición 4.2.1 Sea X una v.a. discreta y f (x) su función masa de probabilidad. Entonces:
1. f (x) ≥ 0 para todo x ∈ R.
2. ∑x∈R f (x) = 1.
3. En general, para cualquier conjunto B de números reales,

P[X ∈ B] = ∑ f (xi ),
xi ∈B

donde xi son valores posibles de X en B.


En la práctica casi nunca conoceremos la auténtica función masa de una variable discreta, X,
pero podemos aproximarla mediante la función masa de probabilidad empírica asociada a una
muestra de resultados, x1 , ..., xN , definida como la función que asigna al valor x la frecuencia relativa
con la que dicho valor se da en la muestra, es decir,
No de valores xi = x
fN (x) = .
N
Decimos que fN aproxima a f porque si el tamaño, N, de la muestra es grande, esta función
tiende a la auténtica, es decir, para cada x ∈ R.

lı́m fN (x) = f (x).


N→∞

 Ejemplo 4.4 En la Figura 4.1 aparece la función masa empírica correspondiente al lanzamiento
de un dado 600 veces. Esta función empírica aparece representada en barras verticales, mientras
que la función masa teórica, f (x) = 16 , para x = 1, 2, 3, 4, 5, 6 aparece representada como una línea
horizontal. Puede apreciarse cómo proporcionan probabilidades teóricas y empíricas bastante 26
parecidas. No obstante, ¿deberíamos concluir a la luz de estos 600 datos que el dado no está
cargado? 
4.3 Variable aleatoria continua 77

Figura 4.1: Función masa empírica de una muestra de 600 lanzamientos de un dado

Si recordamos lo que vimos en el tema de Estadística Descriptiva, este resultado lo que nos
dice es que la función masa sería como el histograma de una variable discreta de los infinitos datos
que ésta tomará.
En resumen, hemos visto que una v.a. discreta es aquella que sirve para contar cosas sujetas a
incertidumbre, y que la función que mide esa incertidumbre es la función masa de probabilidad,
una especie de histograma límite de los valores de la variable.

4.3 Variable aleatoria continua


Definición 4.3.1 Una v.a. continua es la que se utiliza en experimentos aleatorios como modelo
para características numéricas asociadas a medidas de la población que pueden tomar todos
los valores de intervalos de números reales, formando, por tanto, un conjunto con un número
infinito no numerable de elementos. Su función de distribución será continua y estrictamente
creciente precisamente en aquellos intervalos de valores que puede tomar la variable.

 Ejemplo 4.5 Son variables aleatorias continuas:


La tensión de fractura de una muestra de asfalto.
El grosor de una lámina de aluminio.
El pH de una muestra de lluvia.
La duración de una llamada telefónica.
Todos estos ejemplos se corresponden con medidas físicas que pueden tomar valores reales positivos.


Debemos caer en la cuenta desde el principio que hay una diferencia fundamental entre las v.a.
discretas y las continuas:
Una v.a. discreta podría tomar cualquier valor entero positivo, 0, 1, 2, ..., pero podríamos, al
menos, plantearnos contar cuántas veces sale el 0, cuántas el 1, cuántas el 2, ...
Sin embargo, por el carácter que tienen los intervalos de números reales, ni siquiera podríamos
plantearnos cuántas veces sale el primer valor posible, porque no hay un primer valor posible.
Además, si tomamos suficientes decimales, por muchos valores de la variable que tuviéramos,
ninguno se repetiría más de una vez.
Por esa razón, en una variable continua no podemos definir una función masa, precisamente
porque los valores de una variable continua son tantos que no tienen masa de probabilidad.
Sin embargo, como sabemos, existe una representación en Estadística Descriptiva que nos
permitía resumir las frecuencias de una variable continua: el histograma. En un histograma ya
comentamos que las barras podían representarse para que su área fuera equivalente a la probabilidad
78 Capítulo 4. Variable aleatoria

Histograma con N=100 datos Histograma con N=1000 datos

0.8
0.8

0.6
0.6
Densidad

Densidad

0.4
0.4

0.2
0.2
0.0

0.0
0 1 2 3 4 5 6 0 2 4 6 8

Figura 4.2: Histogramas de dos muestras con 100 y 1000 valores, respectivamente

de cada intervalos, y era absolutamente necesario agrupar por intervalos para poder contar cuántos
datos aparecían en cada intervalo.
 Ejemplo 4.6 Vamos a considerar un sencillo ejemplo para ilustrar esta cuestión. Mediante R
simulamos dos muestras de una variable, una con N = 100 valores y otra con N = 1000. Histogramas
asociados a estas muestras, con 10 y 31 intervalos, respectivamente, aparecen en la Figura 4.2.
Teniendo en cuenta que el área de las barras representa la frecuencia relativa con que se dan los
valores de los sucesivos intervalos en la muestra, en estos histogramas podemos ver que la variable
toma mayoritariamente valores cercanos a cero; tanto más lejano al cero es un valor, menos probable
parece ser. Este descenso de la probabilidad es además, muy acusado, casi exponencial.
Por otra parte, obsérvese que al pasar de 100 datos en la muestra a 1000 datos, el histograma
esboza la forma de una función real de variable real. En general, cuanto mayor es N más se
aproximarán los histogramas a la forma de una función continua, porque más intervalos y de menor
longitud podrán representar. Vamos a ir viendo cuál es la utilidad de esa función desde el punto de
vista del Cálculo de Probabilidades.
Si en el histograma de la izquierda de la Figura 4.2 quisiéramos calcular la probabilidad en la
muestra de alguno de los intervalos que definen el gráfico, la respuesta sería el área de la barra sobre
dicho intervalo. Si quisiéramos la probabilidad en la muestra de varios intervalos, sumaríamos las
áreas de las barras.
El problema es que para que las probabilidades en la muestra se parezcan a las verdaderas
probabilidades es necesario que el tamaño de la muestra sea grande, cuanto mayor, mejor. En ese
caso, tendríamos un histograma más parecido al de la derecha de la Figura 4.2. En él, de nuevo, si
queremos, por ejemplo, calcular
P[a < X < b],
deberíamos sumar las áreas de las barras que forman el intervalo (a, b), si es que hay intervalos que
forman, exactamente, el intervalo (a, b).
Pero si el tamaño de la muestra es lo suficientemente amplio para poder pasar al límite y
encontrar una función real de variable real f (x) que represente la línea que define el histograma,
calcular una probabilidad del tipo P[a < X < b] sumando las áreas de las barras de los intervalos
infinitesimales que forman el intervalo (a, b) equivale a integrar dicha función en el intervalo (a, b),
4.3 Variable aleatoria continua 79

es decir, Z b
P[a < X < b] = f (x)dx.
a


Definición 4.3.2 Dada una v.a. continua, X, la función de densidad de probabilidad de X es


aquella función f (x) tal que para cualesquiera a, b ∈ R o a, b = ±∞,
Z b
P[a < X < b] = f (x)dx
a

R Dado que a efectos del cálculo de integrales un punto no afecta al resultado de la integral, si
a, b ∈ R, podemos decir que
Z b
P[a < X < b] = f (x),
a
Z b
P[a ≤ X < b] = f (x),
a
Z b
P[a < X ≤ b] = f (x),
a
Z b
P[a ≤ X ≤ b] = f (x).
a

Este hecho pone de manifiesto que, como decíamos, los valores concretos de una variable
aleatoria continua no tienen masa de probabilidad, ya que
Z x0
P[X = x0 ] = f (x)dx = 0,
x0

pero sí tienen densidad de probabilidad, f (x0 ). Esta densidad de probabilidad representa


la probabilidad de los intervalos infinitesimales de valores alrededor de x0 . Así, aunque
P[X = x0 ] = 0, si f (x0 ) toma un valor alto, querrá decir que los valores alrededor de x0 son
muy probables.

Es posible que ya estemos percibiendo la similitud que guarda la función de densidad con la
función masa de probabilidad de una v.a. discreta. Puede que aún se vea más claro después del
siguiente resultado.
Proposición 4.3.1 Dada una v.a. continua, X, con función de densidad f (x):
1. Rf (x) ≥ 0 para todo x ∈ R.

2. −∞ f (x) = 1.
3. En general, para cualquier conjunto de números reales, B,
Z
P[X ∈ B] = f (x)dx.
B

Por otra parte, dado el papel que juega la integral de la función de densidad en el cálculo de
probabilidades de intervalos de números reales, es el momento que recordemos el papel que jugaba
en ese cálculo la función de distibución de la v.a. y la relación entre ambas funciones, dado por el
teorema fundamental del cálculo.
Teorema 4.3.2 Sea una v.a. continua, X, con función de densidad f (x) y función de distribución
F(x). Entonces,
1. f (x) = F 0 (x).
80 Capítulo 4. Variable aleatoria

Figura 4.3: Función de densidad (izquierda) y de distribución (derecha).

Rx
2. F(x) = −∞ f (t)dt.

 Ejemplo 4.7 Considérese una variable aleatoria continua, X, con función de densidad,
a
f (x) = × e−a|x| .
2
Calculemos, en primer lugar, su función de distribución:
Z x  1 ax
2 e si x <0
F(x) = f (t)dt = 1 1−e−ax
−∞ 2+ 2 si x ≥ 0

Utilicemos la función de distribución para calcular alguna probabilidad relativa a la variable.


Por ejemplo, para calcular la probabilidad de que sea positiva:
1 1
Z ∞
P[X ≥ 0] = f (x)dx = F(∞) − F(0) = 1 − = .
0 2 2
La función de densidad y la de distribución, para a = 1, aparecen en la Figura 4.3. 

 Ejemplo 4.8 Consideremos una v.a. continua con función de distribución dada por

 0 si x < 0
F(x) = x si 0 ≤ x < 1
1 si x ≥ 1

En ese caso, la función de densidad es



0 1 si 0 ≤ x ≤ 1
f (x) = F (x) =
0 en otro caso

Gráficamente, ambas funciones aparecen en la Figura 4.4. En esta variable, todos los puntos tienen
la misma densidad de probabilidad, indicando que todos los intervalos de la misma longitud dentro
de [0, 1] tienen la misma probabilidad.
Por ejemplo,
Z 0.35
P[0.1 < X < 0.35] = f (x)dx = F(0.35) − F(0.1) = 0.25
0.1
4.4 Media y varianza de una variable aleatoria 81

Figura 4.4: Función de densidad (izquierda) y de distribución (derecha).

y
Z 0.7
P[0.45 < X < 0.7] = f (x)dx = F(0.7) − F(0.45) = 0.25.
0.45

En resumen, la v.a. continua es la que sirve para medir magnitudes, por lo que puede tomar
decimales y no tiene probabilidad en puntos aislados. Para calcular la probabilidad de un intervalo
integramos en el intervalo su función de densidad, utilizando su primitiva, la función de distribución.

4.4 Media y varianza de una variable aleatoria


Definición 4.4.1 Dada una v.a., X, con función masa de probabilidad o de densidad f (x), y
una función cualquiera de X, g(X), se define la media o esperanza matemática de la función
como ∞
E[g(X)] = ∑ g(x) × f (x)
x=0

si la variable es discreta o Z ∞
E[g(X)] = g(x) × f (x)dx
−∞
si la variable es continua.
En particula, se define la media o esperanza matemática como E[X] y la varianza como
VarX = E[(X − E[X])2 ].

Como en el caso de la media muestral de unos datos, la media de una v.a. se interpreta como el
centro de gravedad de los valores que puede tomar la variable, con la diferencia que en una media
muestral, el peso de cada valor lo da la frecuencia de dicho valor en los datos y aquí el peso lo
determina la probabilidad, dada por la función masa, o la densidad de probabilidad, dada por la
función de densidad.

R La forma más cómoda de calcular en la práctica la varianza es desarrollando previamente el


82 Capítulo 4. Variable aleatoria

cuadrado que aparece en su definición, ya que

VarX = ∑ (x − E[X])2 × f (x)


x
= ∑ (x2 − 2xE[X] + E[X]2 ) × f (x)
x
= ∑ x2 × f (x) − 2E[X] × ∑ x × f (x) + E[X]2 × ∑ f (x)
x x x
2 2 2
=E[X ] − 2E[X] + E[X]
=E[X 2 ] − E[X]2 ,

en el caso de que la variable sea discreta; la demostración para el caso continuo es idéntica
cambiando la suma por una integral. En concreto,
h i h i
Var [X] = E (X − EX)2 = E X 2 − 2X · EX + (EX)2

= E X 2 − 2 · EX · EX + (EX)2 = E X 2 − (EX)2 .
   

Al igual que√
ocurre con la varianza muestral, es conveniente definir la desviación típica de una
v.a., como σ = VarX, que tiene las mismas unidades que la media y que se puede interpretar
como una media del grado de variación del conjunto de valores que puede tomar la v.a. respecto del
valor de la media.

R Probablemente las mentes más despiertas ya se hayan planteado qué relación hay entre la
media y la varianza de una v.a. (discreta o continua) y la media y la varianza de unos datos,
definidas en el capítulo de Estadística Descriptiva.
La respuesta la veremos más adelante, pero podemos ir avanzando que la relación es parecida
a la que se da entre los diagramas de barras y las funciones masa o entre los histogramas y las
funciones de densidad.
Es decir, si tenemos unos datos de una variable, en otras palabras, una muestra de una variable,
la media y la varianza de la muestra serán aproximaciones de la media y la varianza de la
variable aleatoria, aproximaciones que deben ser tanto mejores cuanto mayor sea el tamaño
de la muestra.

Un cambio de origen de una variable consiste en sumar o restar una determinada cantidad a los
valores de la variable, mientras que un cambio de escala supone multiplicar por un factor dichos
valores. En general, si X es una variable cualquiera, un cambio de origen y escala supone considerar
la v.a. aX + b.
Proposición 4.4.1 Si X es una v.a. y a, b ∈ R, entonces

E[aX + b] = aE[X] + b
Var(aX + b) = a2VarX

Si tenemos una colección de variables aleatorias independientes, es decir, que son observadas
sin que ninguna de ellas pueda influir sobre las otras, es muy útil plantearse en ocasiones por la
media y la varianza de la suma de todas ellas.
Proposición 4.4.2 Sean las variables independientes X1 , ..., XN , que pueden ser discretas o conti-
nuas. Pues bien, se tiene que la media de la suma es la suma de las medias y que la varianza de la
suma es la suma de las varianzas; es decir,

E[X1 + ... + XN ] = EX1 + ... + EXN


Var(X1 + ... + XN ) = VarX1 + ... +VarXN
4.5 Modelos de distribuciones de probabilidad 83

Es importante mencionar que en este resultado el hecho de que las v.a. sean independientes
sólo es necesario para lo relativo a la varianza.
En resumen, hemos visto los conceptos de media y varianza (y desviación típica) de una v.a.,
conceptos análogos en cuanto a su interpretación a la media y varianza de muestras de datos, pero
que se calculan a partir de la suma o la integral de las funciones masa o densidad. También hemos
visto el comportamiento de la media y la varianza con respecto a la suma y a la multiplicación por
constantes.

4.5 Modelos de distribuciones de probabilidad


Hasta ahora, lo que hemos hecho en este capítulo es introducir el concepto de v.a. como
abstracción matemática para cualquier número que varía con el resultado de un experimento
aleatorio. Para reflejar esa variación, especificando qué valores son más frecuentes y cuáles menos
frecuentes, hemos hablado de la función masa, para variables discretas, y de la función de densidad,
para las continuas.
Sin embargo, todo ha sido bastante teórico, sin duda, porque no nos hemos preocupado en
cómo podemos averigurar en la práctica, dada una v.a., cuál es esa función masa o esa función de
densidad, y esa es la pregunta realmente interesante.
El problema es que para dar respuesta a esa pregunta tenemos que conocer muy bien las
características de la v.a., por un lado, y conocer también posibles funciones masa o densidad de
probabilidad que sean respuesta a ella.
Y cuando hablamos de posibles funciones masa o densidad nos referimos a que la forma en que
se reparte la probabilidad de las v.a., en general, suele responder a un patrón más o menos común,
si se está atento a ello.
Existen patrones en la forma de repartir la probabilidad, lo que llamamos distribuciones de
probabilidad, porque en la vida real las cosas casi nunca ocurren a lo loco, sino según unas leyes
físicas que nos hacen pensar en un universo ordenado. Y en este punto estamos: es decir, al igual que
en Física estudiamos las leyes universales que explican el comportamiento de la materia y la energía,
de la masa o del movimiento, es decir, de variables consideradas determinísticas, en Estadística,
gracias al Cálculo de Probabilidades, estudiamos las leyes que explican el comportamiento de las
v.a.
En esta sección vamos a estudiar algunas de esas leyes, las más sencillas, que pueden aplicarse
bajo determinadas condiciones, en realidad, algo restrictivas. Intentemos asumir esas leyes como se
asume la ley de Hook, la de Boyle, o la de gravitacion universal.

4.5.1 Distribución binomial


La distribución binomial está asociada a v.a. discretas, concretamente, como vamos a detallar a
continuación, como modelo de variables que cuenten la ocurrencia de un suceso de un experimento
que se repite un número fijo de veces.

Teorema 4.5.1 — Distribución binomial. Consideremos un experimento aleatorio donde esta-


mos observando si se da o si no se da como resultado un determinado suceso que llamaremos
éxito. Supongamos, en concreto, que el experimento se repite n veces, y que cada vez que se
repite, la probabilidad de que se de el suceso éxito es la misma, p. Entonces, la v.a. que cuenta
el número exacto de éxitos que se va a dar en las n repeticiones del experimento, X, es una v.a.
84 Capítulo 4. Variable aleatoria

0.4
B(10,0.25)
0.3

0.2

0.1

0
0 1 2 3 4 5 6 7 8 9 10

0.4
B(10,0.5)
0.3

0.2

0.1

0
0 1 2 3 4 5 6 7 8 9 10

0.4
B(10,0.75)
0.3

0.2

0.1

0
0 1 2 3 4 5 6 7 8 9 10

Figura 4.5: Funciones masa de distribuciones binomiales

discreta que toma los valores x = 0, 1, ..., n cuya función masa de probabilidad es
n
f (x) = px (1 − p)n−x
x
n!
= px (1 − p)n−x ,
x!(n − x)!

para x = 0, 1, 2, ..., n. Se dice entonces que X sigue una distribución binomial de parámetros
n y p y se escribe de forma abreviada X → B(n, p).
Además,

E[X] = np
VarX = np(1 − p).

En esta descripción de la ley binomial es importante observar que las dos hipótesis fundamenta-
les de esta distribución son:
los experimentos se repiten de forma independiente y
la probabilidad de éxito es constante.
En la medida en que estas dos hipótesis no sean válidas, la distribución binomial no será adecuada
para la variable que cuenta el número de éxitos.

 Ejemplo 4.9 Consideremos como v.a., X, el número de días a la semana que un joven consume
alcohol. Si consideramos éxito al consumo de alcohol en un día de la semana, ¿podríamos pensar
que se trata de una v.a. con distribución B(7, p), donde p fuera la probabilidad de que un joven
consuma alcohol un día cualquiera?
Si fuera así, podríamos preguntarnos, por ejemplo, ¿cuál es la probabilidad de que un joven
4.5 Modelos de distribuciones de probabilidad 85

Nº de días de consumo a la semana 0 1 2 3 4 5 6 7


Frecuencia 47 54 43 40 40 41 39 95

Tabla 4.1: Tabla de frecuencias para el número de días a la semana de consumo de alcohol en una
muestra de 399 jóvenes en Holanda

consuma alcohol más de dos días a la semana? Y la respuesta debería ser


7
n!
P[X > 2] = ∑ x!(7 − x)! px (1 − p)7−x .
x=3

Pero probablemente esa distribución de probabilidad no es una buena distribución en este caso,
porque:
1. Puede darse el efecto resaca, es decir, si se consume mucho un día, huir del alcohol al día
siguiente; o el efecto inverso (un clavo quita otro clavo); o ...; en definitiva, circunstancias
que rompan la hipótesis de independencia en el consumo en días distintos.
2. Está claro que la probabilidad de consumir un martes no es, en general, la misma que un
sábado. Tampoco todos los jóvenes tienen la misma probabilidad de consumir alcohol un día
cualquiera.
La Tabla 4.1 recoge las frecuencias observadas correspondientes a una muestra de jóvenes en
Holanda. Cada joven, de un total de 399, fue observado a lo largo de una semana, contabilizando
cuántos días de esa semana consumió alcohol. Por tanto, la proporción de días en que se consumió
alcohol fue de
0 × 47 + 1 × 54 + 2 × 43 + 3 × 40 + 4 × 40 + 5 × 41 + 6 × 39 + 7 × 95
= 0.546.
7 × 399
Podríamos considerar que p = 0.546 y comprobar si la distribución binomial es adecuada como
modelo para estos datos, comparando las frecuencias observadas con las que se esperarían si el
modelo fuera adecuado. Para ello debemos calcular, en primer lugar, todas las probabilidades de la
distribución, desde x = 0 hasta x = 7:
> print(probs <- dbinom(0:7, 7, 0.546))
[1] 0.003975493 0.033467695 0.120749084 0.242030102
[5] 0.291075850 0.210036230 0.084199546 0.014466001
A continuación, multiplicamos las probabilidades por el número de datos de la muestra, 399, para
obtener las frecuencias esperadas:
> print(esp <- 399 * probs)
[1] 1.586222 13.353610 48.178884 96.570011 116.139264
[6] 83.804456 33.595619 5.771935
Finalmente, la Figura 4.6 representa un diagrama de barras con las frecuencias observadas en
la muestra y una poligonal con los valores de las frecuencias esperadas según el modelo, que
acabamos de calcular. Es muy evidente que el modelo no tiene nada que ver con los datos, y esto es
debido a que no se cumplen, como hemos comentado antes, las condiciones de independencia y
probabilidad constante de éxito.


Ejemplo 4.10 Un ingeniero se ve obligado a transmitir dígitos binarios a través de un sistema


de comunicaciones bastante imperfecto. Por estudios previos, estima que la probabilidad de que
un dígito se transmita incorrectamente es del 20 % y se asume que los dígitos se transmiten de
86 Capítulo 4. Variable aleatoria

> obs <- c(47, 54, 43, 40, 40, 41, 39, 95)
> barras <- barplot(obs, xlab = "Número de dı́as de consumo", ylab = "Frecuencias",
+ names.arg = 0:7, col = 2, ylim = c(0, max(esp)))
> text(x = barras, y = obs, label = obs, pos = 3, xpd = TRUE)
> lines(0:7, esp, col = 3, lwd = 2)
100

95
80
Frecuencias

60

54
47
43 41
40 40 39
40
20
0

0 1 2 3 4 5 6 7

Número de días de consumo

Figura 4.6: Frecuencias observadas (barras) y esperadas (línea verde) para el número de días de
consumo de alcohol en una muestra de 399 jóvenes
4.5 Modelos de distribuciones de probabilidad 87

x 0   1   2   3   4
4 4 4 4
( 40 )0.20 0.84 1
1 0.2 0.8
3 2
2 0.2 0.8
2 3
3 0.2 0.8
1 4
4 0.2 0.8
0
P[X = x]
= 0.41 = 0.41 = 0.15 = 0.03 = 0.00

Tabla 4.2: Función masa de una B (4, 0.2)

forma independiente. El ingeniero envía un mensaje de 4 dígitos y se pregunta cuántos se recibirán


incorrectamente.
Desde el punto de vista estadístico nosotros no podemos responder a esa pregunta. En realidad,
nadie puede responder a esa pregunta con certeza, porque existe incertidumbre latente en ella: el
azar determinará cuántos dígitos se cruzan. Lo que sí podemos hacer es facilitarle el grado de
certeza, es decir, la probabilidad, de cada uno de los posibles resultados.
Concretamente, si analizamos la variable X: número de dígitos que se reciben incorrectamente,
teniendo en cuenta que el ensayo de cada envío de cada dígito se hará de forma independiente y
que nos ha dicho que la probabilidad de que un dígito se reciba incorrectamente es 0.2, podemos
afirmar que un modelo de probabilidad adecuado para dicha variable es una distribución B(4, 0.2).
Esta distribución nos permite calcular la probabilidad de que se crucen 0, 1, 2, 3 o 4 dígitos. Lo
esquematizamos en la Tabla 4.2. Vistos los resultados, debemos decirle al ingeniero que es harto
improbable que le fallen los 4 dígitos, pero que tiene una probabilidad
4  
4
P[X > 0] = ∑ 0.2x 0.84−x = 0.5904.
x=1 x

de que le falle el envío de al menos uno de ellos, ya que


> sum(dbinom(1:4, 4, 0.2))
[1] 0.5904


4.5.2 Distribución de Poisson


La distribución de Poisson corresponde también a v.a. discretas, concretamente, que cuentan el
número de ocurrencias de un evento cuando la población está expuesta a un riesgo permanente.

Teorema 4.5.2 — Distribución de Poisson. Supongamos un experimento aleatorio en el que


se dan circunstancias que exponen a la ocurrencia, totalmente al azar, de un determinado suceso
que denominaremos éxito, y que contamos el número de éxitos durante un intervalo especifico;
suponemos, además, que los sucesos ocurren un promedio de λ veces por intervalo y de forma
independiente. Entonces, se dice que la v.a. X, número de ocurrencias de un suceso en un intervalo
(que puede ser un intervalo de tiempo, distancia, área, volumen o alguna unidad similar), sigue
una distribución de Poisson de parámetro λ , y se escribe de forma abreviada X → P(λ ). La
función masa está dada por la siguiente fórmula:

λx
f (x) = e−λ
x!
88 Capítulo 4. Variable aleatoria

para x = 0, 1, 2, .... Además,

E[X] = λ
VarX = λ .

Es importante que nos fijemos que en este teorema las hipótesis fundamentales ahora son:
la independencia de las realizaciones y
el promedio constante de ocurrencias por unidad de tiempo.
 Ejemplo 4.11 La distribución de Poisson a veces se utiliza como modelo para el número de

accidentes ocurridos en los individuos de una población a lo largo de un periodo de tiempo. Lo


que mucha gente no termina de asumir es que hacer esa suposición equivale a decir que todos esos
individuos tienen el mismo riesgo de tener un accidente y que el hecho de que un individuo tenga
un accidente no modifica para nada la probabilidad de sufrir un nuevo accidente. El modelo, por
tanto, no será adecuado en la mayoría de las situaciones de la vida real, ya que, por ejemplo:
1. Normalmente hay individuos con mayor propensión a tener accidentes, por ejemplo, porque
son más imprudentes (conductores temerarios frente a conductores precavidos) o porque
tienen una mayor exposición al riesgo (camioneros frente a conductores esporádicos).
2. Es posible que el hecho de tener un accidente modifique la probabilidad de tener un nuevo
accidente, ya que la experiencia nos hará más precavidos.


 Ejemplo 4.12 Otra aplicación muy común de la distribución de Poisson es como modelo para el
número de partículas por unidad de volumen en un fluido cuando una disolución está realmente
bien disuelta. Si esto ocurre, es decir, si la disolución está realmente bien diluida, el promedio de
partículas en el fluido será constante y las partículas estarán repartidas absolutamente al azar, según
una distribución de Poisson. Por tanto, en el caso de que los datos indiquen que la distribución de
Poisson no es adecuada como distribución de probabilidad para el número de particulas por unidad
de volumen, podríamos, de hecho, inferir que la disolución no está bien disuelta. 

 Ejemplo 4.13 En el contexto de las redes de telecomunicaciones, el uso más común de la


distribución de Poisson es como modelo para el número de solicitudes de servicio a un servidor. Por
ejemplo, se suele considerar que el número de llamadas a una centralita o el número de conexiones
a un servidor sigue una distribución de Poisson.
Sin embargo, hay que decir que aunque este uso de la distribución de Poisson es muy común,
es evidente que la hipótesis de que el promedio λ sea constante no se da en estas aplicaciones, ya
que uno de los fenómenos más habituales en telecomunicaciones es el de la hora cargada: no es el
mismo promedio de llamadas el que se produce a las 12 del mediodía que el que se da a las 3 de la
mañana.
Lo que se suele hacer es aplicar uno de los principios más importantes aunque menos escritos
de la ingeniería, la ley de Murphy (si algo puede ir mal, prepárate para ello, porque en algun
momento irá mal): así, las redes de telecomunicaciones suelen dimensionarse para ser capaces de
funcionar en el peor de los escenarios posibles, es decir, cuando el promedio de solicitudes es el
que se da en la hora cargada. 

 Ejemplo 4.14 Durante la II Guerra Mundial, en concreto desde junio de 1944 hasta marzo de

1945, la aviación alemana lanzó un total de 9251 bombas V-1 contra Inglaterra, de las cuales 535
fueron dirigidas contra el sur de Londres (Clarke, 1946).
Para los británicos era vital saber si los bombardeos alemanes iban dirigidos contra objetivos
concretos, lo que implicaba que conocían la posición de esos objetivos, o por el contrario, las
bombas eran lanzadas completamente al azar.
La forma de responder a esa pregunta fue brillante. Se dividió la región del sur de Londres
4.5 Modelos de distribuciones de probabilidad 89

0.4
P(1)
0.3

0.2

0.1

0
−5 0 5 10 15 20 25

0.2
P(5)
0.15

0.1

0.05

0
−5 0 5 10 15 20 25

0.2
P(10)
0.15

0.1

0.05

0
−5 0 5 10 15 20 25

Figura 4.7: Funciones masa de distribuciones de Poisson

en 576 regiones del mismo área y se contabilizó, en cada una de ellas, el número de impactos de
bombas V-1. Fijémonos que, dado que impactaron 535 bombas en 576 regiones, el promedio de
impactos por región es de 0.929 = 535/576. En concreto, los datos fueron 229 regiones sin ningún
impacto, 211 con un impacto, 93 con dos impactos, 35 con tres, 7 con cuatro, y 1 región con cinco
impactos.
Los estrategas británicos pensaron que si las bombas se lanzaban completamente al azar, la
distribución de X, número de impactos por región, debía estar cerca de una distribución de Poisson
de parámetro λ = 0.929. Entonces, podían usar la fórmula

λx
P[X = x] = e−0.929 ×
x!
con x = 0, 1, 2, ... para obtener la probabilidad de que una región hubiera sufrido x impactos. Por
ejemplo, la proporción esperada, si el modelo de Poisson es adecuado, de regiones sin impactos, es

λ0
P[X = 0] = e−0.929 × = 0.395,
0!
que, en un conjunto de 576 regiones se corresponde con un número esperado de 0.395×576 = 227.5
regiones que no deberían haber recibido ningún impacto. Después compararon ésta y el resto de
frecuencias teóricas que da el modelo teórico de Poisson con las frecuencias observadas de impactos
por región.
Nosotros realizamos esa misma comparación en la Tabla 4.3. Visto el enorme parecido entre
los datos reales y lo que establece la Ley Poisson, concluyeron que el ejército alemán desconocía la
existencia de objetivos en la zona y que simplemente lanzaban bombas al azar.
> obs <- c(229, 211, 93, 35, 7, 1)
> esp <- 576 * c(dpois(0:4, 0.929), 1 - sum(dpois(0:4, 0.929)))
> dist <- t(data.frame(obs, esp))
> rownames(dist) <- c("Observadas", "Esperadas")
90 Capítulo 4. Variable aleatoria

> colnames(dist) <- c("0", "1", "2", "3", "4", "5 o más")
> titulo <- "Frecuencias observadas y esperadas según la ley de Poisson
+ en el número de impactos por bombas V-1 en Londres en la II Guerra Mundial"
> tabla <- xtable::xtable(dist, caption = titulo, label = "tab:londres")
> print(tabla)

0 1 2 3 4 5 o más
Observadas 229.00 211.00 93.00 35.00 7.00 1.00
Esperadas 227.49 211.34 98.17 30.40 7.06 1.55

Tabla 4.3: Frecuencias observadas y esperadas según la ley de Poisson en el número de impactos
por bombas V-1 en Londres en la II Guerra Mundial

Una última cuestión, ésta totalmente ficticia. Supongamos que vivíamos en Londres en aquellos
duros años, no en el sur, pero sí en una de las regiones que fueron alcanzadas, nada menos que
por 5 impactos de V-1. Seguramente estaríamos alarmados, pensando que los alemanes nos tienen
manía, pero ¿hasta qué punto es este hecho extraordinario? En el contexto de una distribución de
Poisson de parámetro 0.929, la probabilidad de que se de un valor de 5 o superior es de
> 1 - sum(dpois(0:4, 0.929))
[1] 0.002682857
es decir, aproximadamente de 27 entre 10000, lo que, en principio, parece muy bajo: la conclusión
puede ser en efecto, los alemanes nos tienen manía. Ahora bien, debemos tener en cuenta que un
dato improbable, por muy improbable que sea, puede darse, más aún si el experimento (en este
caso, las cuadrículas de 1 km2 de Londres) se repite una y otra vez1 . De hecho, en la actualidad
Londres tiene algo más de 1500 km2 : no he encontrado el dato de 1945, así que trabajemos con ese
número; por tanto, es esperable que en 1500 regiones se den
> 1500 * (1 - sum(dpois(0:4, 0.929)))
[1] 4.024286
algo más de 4 en las que caigan 5 bombas V-1 o más. En conclusión, visto con perspectiva,
probablemente no se trataría de que los alemanes nos tuvieran manía, sino más de una cuestión de
mala suerte. 

4.5.3 Distribucion geométrica


La distribución geométrica es el tercer modelo para v.a. discretas que nosotros vamos a describir
en estos apuntes. El contexto es el mismo que el que dio lugar a la distribución binomial, es decir,
el de un experimento que se repite de forma independiente con probabilidad de éxito constante,
pero la v.a. ahora cuenta el número de fracasos hasta que se produce el primer éxito.

Teorema 4.5.3 — Distribución geométrica. Consideremos de nuevo un experimento aleatorio


que se repite de forma independiente y que en ese experimento hay un suceso que denominamos
éxito, que ocurre con probabilidad constante p. En ese caso, la variable aleatoria X que cuenta el
número de fracasos hasta que ocurre el primer éxito sigue una distribución llamada distribución
geométrica de parámetro p, y se nota abreviadamente X → Geo(p), cuya función masa de

1 Recordemos el refrán Tanto va el cántaro a la fuente que al final se rompe, luego reformulado por Arturo Pérez

Reverte en Territorio Comanche.


4.5 Modelos de distribuciones de probabilidad 91

0.4
Geo(0.25)
0.3

0.2

0.1

0
−5 0 5 10 15 20 25

0.8
Geo(0.5)
0.6

0.4

0.2

0
−5 0 5 10 15 20 25

0.8
Geo(0.75)
0.6

0.4

0.2

0
−5 0 5 10 15 20 25

Figura 4.8: Funciones masa de distribuciones geométricas

probabilidad es
f (x) = p(1 − p)x
para x = 0, 1, 2, .... Además,
1− p
E[X] =
p
1− p
VarX = 2 .
p

 Ejemplo 4.15 Siguiendo con el Ejemplo 4.10 sobre el ingeniero que envía dígitos a través de
un canal imperfecto, ahora se plantea cuántos dígitos se recibirán correctamente hasta que uno se
cruce, sabiendo que la probabilidad de que uno cualquiera lo haga es de 0.2.
La variable de interés en este caso es Y , número de dígitos que se reciben bien hasta el primero
que se cruza. Esta variable tiene como modelo de probabilidad una distribución Geo(0.2). Gracias
a este modelo, podemos decirle, por ejemplo, que la probabilidad de que envíe bien dos y que falle
el tercero es de
P[Y = 2] = 0.2 × 0.82 = 0.128.
También podemos valorar, por ejemplo, cuan extraño sería que pasaran 7 dígitos correctos hasta
recibir el primer incorrecto,
∞ 6
P[Y ≥ 7] = ∑ 0.2 × 0.8y = 1 − ∑ 0.2 × 0.8y
y=7 y=0

que toma el valor:


> 1 - sum(dgeom(0:6, 0.2))
[1] 0.2097152
92 Capítulo 4. Variable aleatoria

Así pues, debemos valorar que 7 dígitos correctos hasta el incorrecto forma parte del 20 % de
valores más altos que pueden darse, lo que no es especialmente extraordinario. 

 Ejemplo 4.16 Las carreteras, entre otras construcciones civiles, suelen diseñarse bajo condiciones
que garanticen que pase mucho tiempo antes de que queden inoperativas. Más concretamente,
suelen elevarse del suelo, a menudo con tubos de evacuación bajo ellas, una altura suficiente para
que el agua de la lluvia no invada el firme. Las administraciones que licitan la obra exigen a las
empresas que optan a ella que garanticen que la probabilidad de que la carretera se inunde un año
sea de 1/T , donde T es el llamado periodo de retorno.
Si consideramos la variable X, número de años que van a pasar antes de que la carretera se
inunde, dicha variable seguiría una distribución geométrica de parámetro p = 1/T , ya que el éxito
sería la inundación de la carretera. La media de la variable sería
1 − 1/T
E[X] = = T − 1.
1/T

Si contamos el año que se inunda, la variable observada es X + 1, porque contamos el número de


fracasos y el éxito; en ese caso la media, el número medio de años hasta la próxima inundación es
T : de ahí que se le llame período de retorno.
Vamos a suponer que imponen la construcción de una carretera con un período de retorno de 25
años. En ese caso, la probabilidad de que la carretera se inunde antes de que pasen 25 años es
23
1 1
P[X + 1 < 25] = P[X < 24] = ∑ (1 − )x .
i=1 25 25

Obtenemos el resultado mediante R:


> sum(dgeom(0:24, 1/25))
[1] 0.6396033
Por tanto, aunque se imponga un período de retorno de 25 años, lo que equivale a imponer que la
carretera se inunde en promedio una vez cada 25 años, lo cierto es que lo más probable es que se
inunde antes de 25 años. 

4.5.4 Distribución uniforme continua


En esta primera distribución para v.a. continuas describimos aquella que plantea un reparto
absolutamente al azar entre todos los valores de un intervalo dado. En Ingeniería se utiliza con
frecuencia para simular un sorteo puro.

Teorema 4.5.4 — Distribución uniforme continua. Sea una v.a. continua, X, que puede tomar
sólo valores en un intervalo (a, b) de tal manera que la probabilidad de intervalos dentro de (a, b)
con la misma longitud sea siempre la misma. En ese caso, X sigue una distribución uniforme
en (a, b), (se nota X → U(a, b)) y su función de densidad es constante, dada por

1
f (x) =
b−a
4.5 Modelos de distribuciones de probabilidad 93

si a < x < b y 0 en cualquier otro caso. Además,

a+b
E[X] =
2
(b − 1)2
VarX = .
12
El ejemplo más habitual de esta distribución es la U(0, 1); valores simulados de esta variable
son los que se calculan con la orden RND de cualquier calculadora. Hay que tener en cuenta que a
partir de los valores de una U(0, 1) se pueden obtener valores cualesquiera de una U(a, b) sin más
que multiplicar por b − a y sumar a.
De cara a calcular probabilidades, dado que necesitamos realizar la integral de la función de
densidad, conviene, si es posible, tener la expresión de la primitiva de ésta, es decir, de la función
de distribución. En este caso, dado que la densidad es constante, la función de distribución es muy
fácil de obtener: 
 0 si x ≤ a
x
F(x) = si a<x≤b
 b−a
1 si x > b

4.5.5 Distribución exponencial


El segundo ejemplo para v.a. continuas, el de la distribución exponencial, se utiliza frecuente-
mente como modelo de fenómenos aleatorios que miden el tiempo (o el espacio, o la distancia, ...)
que transcurre entre que ocurren dos sucesos, bajo condiciones que describimos a continuación.

Teorema 4.5.5 — Distribución exponencial. Sea una v.a. N → P(λ ) que cuenta el número
de eventos en un intervalo específico, con un promedio, por tanto, de λ eventos por unidad del
intervalo. Consideremos la v.a. continua X que mide el intervalo que ocurre entre dos eventos
consecutivos. Entonces, X sigue una distribución exponencial de parámetro λ , y se nota
X → exp(λ ), con función de densidad

f (x) = λ × e−λ x

si x ≥ 0 y 0 en otro caso. Además,


1
E[X] =
λ
1
VarX = 2 .
λ
En cuanto a su función de distribución, útil para obtener probabilidades, se tiene:
F(x) = P[X ≤ x] = 1 − e−λ x
si x ≥ 0 y cero en otro caso.
 Ejemplo 4.17 Un elemento radiactivo emite partículas según una variable de Poisson con un

promedio de 15 partículas por minuto. En ese caso, el tiempo, T , que transcurre entre la emisión de
una partícula y la siguiente sigue una distribución exponencial de parámetro λ = 15 partículas por
minuto. Este modelo nos permite, por ejemplo, calcular la probabilidad de que entre partícula y
partícula pasen más de 10 segundos, dada por
Z ∞
P[T > 10/60] = 15e−15t dt = e−15/6 .
1/6

94 Capítulo 4. Variable aleatoria

 Ejemplo 4.18 Recordemos que habíamos comentado que la distribución de Poisson se solía
utilizar en el contexto de las redes de comunicaciones como modelo para el número de solicitudes
a un servidor por unidad de tiempo. Según esta caracterización que acabamos de ver, eso equivale a
decir que el tiempo que pasa entre dos solicitudes a un servidor sigue una distribución exponencial.
Por ejemplo, supongamos que el número de conexiones a un servidor FTP sigue una distribución
de Poisson de media 2.5 conexiones a la hora. En ese caso, podríamos preguntarnos cuál es la
probabilidad de que pasen más de dos horas sin que se produzca ninguna conexión.
Teniendo en cuenta que el tiempo entre conexiones seguiría una distribución exponencial de
parámetro 2.5, esa probabilidad sería
Z ∞
P[T > 2] = 2.5e−2.5x dx = e−5
2

o bien
P[T > 2] = 1 − P[T ≤ 2] = 1 − FT (2) = 1 − (1 − e−2.5×2 ) = e−5 .

Hay una interesante y curiosa propiedad de la distribución exponencial, conocida como propie-
dad de no memoria.
Proposición 4.5.6 Si X es una v.a. con distribución exp(λ ) y t y s son dos números positivos.
Entonces:
P[X > t + s|X > s] = P[X > t]

Demostración. La forma de demostrarlo es muy sencilla:

P[X > t + s ∩ X > s] P[X > t + s]


P[X > t + s|X > s] = =
P[X > s] P[X > s]
e−λ (s+t)
= = e−λt = P[X > t]
e−λ s

Vamos a tratar de entender la trascendencia de esta propiedad en el siguiente ejemplo.


Ejemplo 4.19 Consideremos un circuito cuyo tiempo de vida, T , sigue una distribución expo-
nencial de media dos años. Calculemos entonces la probabilidad de que el circuito dure más de tres
años:
1
P[T > 3] = e− 2 3

Supongamos ahora que el circuito lleva 5 años funcionando, y que nos planteamos la probabilidad
de que aún funcione 3 años más. Según la propiedad de no memoria, esa probabilidad es la misma
que si el circuito acabara de comenzar a funcionar, es decir,
1
P[T > 3 + 5|T > 5] = P[T > 3] = e− 2 3

Desde un punto de vista práctico, parece poco creible, porque entendemos que los 5 años previos de
funcionamiento deben haber afectado a la fiabilidad del circuito, pero si creemos que la distribución
del tiempo de vida de éste es exponencial, tenemos que asumir esta propiedad. 
4.5 Modelos de distribuciones de probabilidad 95

1
exp(1)

0.5

0
0 2 4 6 8 10 12 14 16 18 20

0.2
exp(5)
0.15

0.1

0.05

0
0 2 4 6 8 10 12 14 16 18 20

0.1
exp(10)

0.05

0
0 2 4 6 8 10 12 14 16 18 20

Figura 4.9: Funciones de densidad de distribuciones exponenciales

4.5.6 Distribución Gamma


La distribución Gamma es un nuevo modelo para distribuciones continuas que es más general
que la distribución exponencial. Como caso particular, puede convertirse en ésta, pero es mucho
menos restrictiva y, por lo tanto, se puede considerar como distribución de probabilidad de muchas
más variables aleatorias.
Definición 4.5.1 Sea X una v.a. continua que puede tomar valores x ≥ 0. Se dice que X sigue
una distribución Gamma de parámetros a y λ (y se nota X → Gamma(a, λ )) si su función
de densidad es
λ (λ x)a−1 e−λ x
f (x) = ,
Γ(a)
para valores x > 0 y cero en el resto. En esa expresión,
Z ∞
Γ(x) = sx−1 e−s ds
0

es la función gamma. Además,


a
E[X] =
λ
a
VarX = 2 .
λ

R El primer comentario que debemos hacer sobre la función de densidad de la distribucion


Gamma es acerca de cómo evaluarla. La función Gamma se define como una integral que no
se puede expresar en términos de las funciones elementales que solemos usar (polinomios,
funciones trigonométricas, logaritmos, exponenciales, ...), y sólo puede evaluarse mediante
métodos numéricos. Esto puede resultar extraño y muy complicado, pero en realidad es más
común y más sencillo de lo que parece: ¿acaso no ocurre lo mismo, por ejemplo, con la
96 Capítulo 4. Variable aleatoria

función exponencial?
Lo que es cierto es que la función Gamma y la integral de la función de densidad de la
distribución Gamma requieren calculadoras algo más especializadas en estadística o el uso de
software avanzado, como R. Para un programa como R, calcular las integrales de la densidad
de una Gamma es tan trivial como las de cualquier otra distribución. Por lo tanto, no debemos
preocuparnos por el hecho de que la expresión de la función de densidad nos parezca compleja
y no sepamos hacer su integral a mano.

R Obsérvese que, como decíamos antes, si consideramos a = 1, la función de densidad se


convierte en la de una distribución exponencial. Es decir, Gamma(1, λ ) = exp(λ ).

0.00 0.05 0.10 0.15 0.20


Gamma(2.5,1) Gamma(5,1)
0.20
0.10
0.00

0 5 10 15 20 25 30 0 5 10 15 20 25 30
0.00 0.01 0.02 0.03 0.04
0.06

Gamma(2.5,0.2)
0.04
0.02

Gamma(5,0.2)
0.00

0 5 10 15 20 25 30 0 5 10 15 20 25 30
0.030

0.000 0.005 0.010 0.015


0.020
0.010

Gamma(2.5,0.1) Gamma(5,0.1)
0.000

0 5 10 15 20 25 30 0 5 10 15 20 25 30

Figura 4.10: Funciones de densidad de distribuciones Gamma

R Otro caso particular de la distribución Gamma lo constituye la distribución χ 2 con r gra-


dos de libertad, que no es más que una Gamma( 2r , 12 ). Veremos importantes aplicaciones
prácticas de esta distribución más adelante.

La relación entre la distribución Gamma y la exponencial va más allá del hecho de que la
segunda sea un caso particular de la primera. En el siguiente resultado vemos que una familia
particular de distribuciones Gamma, las que tienen parámetro a siendo un número natural, pueden
verse como una suma de distribuciones exponenciales.

Teorema 4.5.7 Sean X1 , ..., Xn v.a. independientesa con distribución exp(λ ). En ese caso,
n
X = ∑ Xi
i=1

sigue una distribución Gamma(n, λ ).


a Aunque la definición formal de v.a. independientes requiere cierta complejidad, desde un punto de vista práctico

es fácil de entender que unas v.a. son independientes cuando el valor que tome cualquiera de ellas no afecta para nada
4.5 Modelos de distribuciones de probabilidad 97

al valor que toman las otras.

Este teorema tiene una interesante aplicación si recordamos la relación que se daba entre la
distribución exponencial y la distribución de Poisson.

Corolario 4.5.8 Sea X → P(λ ) una v.a. discreta que cuenta el número de éxitos en un determi-
nado intervalo. En ese caso, el intervalo que pasa entre un éxito y r-ésimo éxito posterior, T , es
una v.a. que sigue una distribución Gamma(r, λ ).

Este resultado empezó a utilizarse frecuentemente en el campo de las telecomunicaciones, en


concreto cuando se aplica al tiempo que pasa en una centralita entre una llamada y la r-ésima
llamada siguiente. Uno de los pioneros en este campo fue un ingeniero llamado Erlang: de hecho,
las distribuciones Gamma cuyo parámetro a es un número entero también son conocidas como
distribuciones Erlang.
De todas formas, la distribución Gamma no sólo se aplica cuando a es un número entero. La
Figura 4.10 muestra el papel que juega este primer parámetro a la hora de dar lugar a formas de la
función de densidad que jamás podrían ser formas de la densidad de, por ejemplo, una distribución
exponencial. En general, podríamos decir que la densidad de una distribución Gamma
puede tomar el máximo (la moda, por ser el valor más frecuente) en cero o en cualquier valor
positivo, al contrario que la distribución exponencial, que siempre tiene el máximo en el valor
cero; y
siempre es asimétrica a la derecha, lo que implica que la media siempre está a la derecha de
la mediana (es decir, el valor de la variable, Me, tal que F(Me) = 0.5).

4.5.7 Distribución binomial negativa


La principal crítica que se le puede hacer a la distribución de Poisson es el hecho de que
presupone que el parámetro, que coincide con la media, no suele ser fijo.
Retomemos el Ejemplo 4.14 sobre los bombardeos de Londres en la II Guerra Mundial. ¿Qué
hubiera pasado si la Luftwaffe sí hubiera tenido planos con información sobre objetivos concretos
de Londres? Claramente habrían intentado dirigir las V-1 contra esos objetivos, y habríamos
encontrado cuadrículas del mapa donde el promedio de impactos sería mayor que en el resto, en
cuyo caso, no habría un promedio λ constante y válido para todas las cuadrículas, sino que habría
distintos promedios Λ para cada cuadrícula.
La distribución de probabilidad que vamos a describir ahora, la distribución binomial negativa
aparece a partir de la distribución de Poisson precisamente en el caso en el que el parámetro no es
fijo, sino que puede considerarse que en realidad sigue una v.a. con una distribución específica.

Teorema 4.5.9 Sea una v.a. discreta X que sigue una distribución de Poisson cuyo parámetro,
Λ, no toma un valor fijo sino que, en realidad, es a su vez otra v.a. continua con distribución
Gamma(a, λ ). En ese caso, la distribución de probabilidad de X se conoce como binomial
negativa de parámetros a y λ (y se nota X → BN(a, λ )), y su función masa de probabilidad es

Γ(a + x) a
f (x) = p (1 − p)x
Γ(a)x!

para x = 0, 1, 2, ... y cero en el resto, donde


1
p= .
1+λ
98 Capítulo 4. Variable aleatoria

Además,
1− p
E[X] = aλ = a
p
1− p
VarX = aλ (λ + 1) = a
p2

R Observemos que para obtener probabilidades de una distribución binomial negativa de nuevo
vamos a necesitar valores de la función Gamma.

R Hay un problema en cuanto a la notación. Observemos que la función masa queda con una
expresión muy sencilla cuando la escribimos en términos de p = 1/(1 + λ ). Es por eso,
y por el resultado que vamos a enunciar a continuación, que en muchos sitios se denota
a distribución como BN(a, p). Lo que nosotros vamos a hacer para evitar la confusión es
escribir indistintamente BN(a, λ ) o BN(a, p), simplemente especificando si con el segundo
parámetro nos referimos a p o a λ .

Ejemplo 4.20 Para ilustrar la utilidad de la distribución binomial negativa como distribución que
extiende la distribución de Poisson, en el sentido de que relaja la hipótesis de que el promedio de
ocurrencias deba ser constante vamos a realizar una simulación. Continuando con el ejemplo del
bombardeo de Londres, vamos a imaginar que la aviación alemana sí tenía mapas de la zona de
Londres donde se recibieron los impactos de las 535 bombas V-1. Concretamente:
1. Supongamos que el 20 % de las bombas cayeron buscando objetivos militares según una
distribución de Poisson con un promedio de 4 bombas por cuadrícula observada.
2. El restante 80 % cayó sobre las cuadrículas según una distribución de Poisson con un promedio
0.16125, para que, en general, el promedio fuera

0.8 × 0.16125 + 0.2 × 4 = 0.929,

que es el mismo valor que se dio en la realidad.

> set.seed(1)
> x1 <- rpois(535*0.2, 4)
> x2 <- rpois(535*0.8, (0.929 - 0.2 * 4) / 0.8)
> datos <- c(x1, x2)

Bajo esas condiciones, vamos a comparar las frecuencias que las distribuciones Poisson y
Binomial Negativa proporcionan para ajustar los datos, tratando de discernir, cuál de las dos
distribuciones supone un más fiel reflejo de la realidad.
Lo primero que tendríamos que hacer es encontrar parámetros a y λ para esos datos. Esa tarea la
describiremos con detalle en el tema siguiente, pero por ahora podemos realizar una aproximación
con cierta lógica:
1. Sabemos que la media poblacional es E[X] = aλ y la varianza poblacional es VarX =
aλ (1 + λ ).
2. Despejando, tenemos que λ = VarX/E[X] − 1 y a = E[X]2 /(VarX − E[X]).
3. A partir de las frecuencias observadas, podemos calcular la media muestral, x̄ y la varianza
muestral, s2N−1 , y considerar que serán aproximaciones razonables de la media poblacional
E[X] y de la varianza poblacional VarX, respectivamente.
4.5 Modelos de distribuciones de probabilidad 99

4. Obtendremos, por tanto, estimaciones de los parámetros a y λ dadas por

x̄2
â =
s2N−1 − x̄
s2N−1
λ̂ = −1

Realizamos estos cálculos con R:
> print(a <- mean(datos)^2 / (var(datos) - mean(datos)))
[1] 0.3932301
> print(lam <- var(datos) / mean(datos) - 1)
[1] 2.42896
Ahora vamos a obtener las frecuencias esperadas según la distribución binomial negativa que
acabamos de ajustar, para compararlas con las frecuencias observadas. Además, vamos a incluir
también las frecuencias según la distribución de Poisson, para valorar las diferencias. En esta
ocasión vamos a mostrar las frecuencias en un histograma junto con las poligonales de ambos
ajustes en vez de en una tabla, en la Figura 4.11.
Podemos destacar:
1. La distribución de Poisson muestra unas frecuencias esperadas que para nada se parecen a las
observadas. Según la distribución de Poisson, debería haber menos regiones sin impactos y
muchas más con uno y dos impactos.
2. Las frecuencias de la distribución binomial negativa se parecen bastante más a las frecuencias
observadas, sin llegar a proporcionar un ajuste perfecto.
La primer conclusión es que, dado que la distribución de Poisson no ajusta bien los datos, hay
que descartar que los impactos se produzcan por azar según un promedio constante. Y esta es
la situación real, puesto que en realidad hemos simulado el 80 % de los datos con un promedio
0.16125 y el 20 % con un promedio 4.
La segunda conclusión es que, dado que la distribución binomial negativa sí proporciona un
buen ajuste, cabría pensar que el promedio de impactos por región no es constante, sino que
corresponde a su vez a valores de una distribución Gamma. Y esto no es del todo cierto, ya que, en
realidad, sólo hay dos promedios2 . 

Lo que resulta un poco extraño, quizás, es el nombre de binomial negativa de la distribución.


En realidad, definida así, la distribución también es conocida como distribución Poisson-Gamma.
El hecho de que se le llame distribución binomial negativa, sin entrar en muchos detalles, es
porque históricamente una familia particular de estas distribuciones surgieron en el contexto en que
nosotros hemos definido tanto la distribución binomial como la geométrica, como vamos a ver a
continuación.
Teorema 4.5.10 Sea un determinado experimento aleatorio que se repite sucesivamente de
forma independiente y donde hay un suceso que denominamos éxito, que ocurre con probabilidad
constante p. En ese caso, la variable aleatoria X que cuenta el número de fracasos hasta que
ocurre el k-ésimo éxito sigue una BN(k, p), siendo p el parámetro de probabilidad.

2 Los datos se han generado mezclando dos distribuciones de Poisson. Esto es un ejemplo de una mixtura finita.
100 Capítulo 4. Variable aleatoria

> x <- 0:max(datos)


> esp.pois <- length(datos) * c(dpois(x, mean(datos)))
> p <- 1 / (1 + lam)
> esp.bn <- length(datos) * c(dnbinom(x, a, p))
> hist(datos, breaks = -0.5:(max(datos) + 0.5), main = "",
+ xlab = "Número de impactos", ylab = "Frecuencia")
> lines(x, esp.pois, col = 2)
> lines(x, esp.bn, col = 3)
> legend('topright', legend = c("Frecuencias Poisson", "Frecuencias BN"),
+ pch = 16, cex = 0.75, col = 2:3)

● Frecuencias Poisson
● Frecuencias BN
300
Frecuencia

200
100
0

0 2 4 6 8 10

Número de impactos

Figura 4.11: Frecuencias observadas y esperadas según la ley de Poisson y BN en la simulación de


impactos por bombas V-1
4.5 Modelos de distribuciones de probabilidad 101

Además, dado que Γ(r = (r − 1)! si r es un entero cualquiera, se tiene que

(k + x − 1)! k
f (x) = p (1 − p)x
(k − 1)!x!
k+x−1 k
=( )p (1 − p)x
k−1
Obsérvese que la distribución geométrica aparece como caso particular cuando consideramos
k = 1, como ocurría en la distribución Gamma, dando lugar la exponencial. De hecho, el resultado
que vamos a ver a continuación establece una relación entre la geométrica y la binomial negativa
completamente análogo al que se da entre la exponencial y la Gamma3 .

Teorema 4.5.11 Sean X1 , ..., Xn v.a. independientes con distribución Geo(p). En ese caso, X =
∑ki=1 Xi sigue una BN(k, p).

Este resultado, por su parte, está cargado de lógica, ya que el número de fracasos hasta el
k−ésimo éxito será la suma de los fracasos que se dan entre los éxitos desde el primero hasta el
último, y cada sumando de esta suma sigue, según lo que hemos visto, una distribución geométrica.
 Ejemplo 4.21 Continuando con el ejemplo de la transmisión de dígitos a través de un sistema
imperfecto, ¿cuántos dígitos se transmitirán correctamente hasta que dos lo hagan incorrectamente?
De nuevo tenemos que asumir que no hay una respuesta para esto, pero sí podemos considerar un
modelo de probabilidad para ello que nos ayude a tomar decisiones.
Sea Z: nº de dígitos que se reciben bien hasta que dos se cruzan. Esta v.a. sigue una distri-
bución BN(2, p = 0.2). Gracias a este modelo, podemos decirle al ingeniero, por ejemplo, que la
probabilidad de que se le crucen 2 dígitos con 10 o menos envíos es

8 8
(2 + z − 1)! 2 z
P[Z ≤ 8] = ∑ P[Z = z] = ∑ 0.2 0.8 = 0.62
z=0 z=0 (2 − 1)!z!

Para terminar este apartado, dadas las distintas posibilidades de entender una distribución
BN(a, λ ), es conveniente que hagamos un breve resumen de cómo debemos considerarla:
1. Si a no es un número entero, tenemos que pensar que esta distribución es el modelo del conteo
de sucesos que ocurren según una P(Λ) pero donde Λ no es un valor fijo, sino que toma
diferentes valores, según una distribución Gamma(a, λ ).
2. Si a es un número entero, podemos pensar también que la distribución es el modelo del conteo
del número de fracasos que se tienen que dar hasta conseguir a éxitos, cuando la probabilidad
de éxito es p = 1/(1 + λ ) y los experimentos son independientes.
3. Si a es un número entero, podemos pensar también que la distribución es el modelo que surge
al sumar a distribuciones Geo(p), siendo p = 1/(1 + λ ).

4.5.8 Distribución normal


La distribución normal se conoce también como distribución gaussiana, en honor a Carl
Fiedrich Gauss, debido a que Gauss la usó profusamente cuando analizaba datos astronómicos.
Sin embargo, atribuir esta importante distribución a Gauss es uno de los muchos ejemplos en
el mundo de la Ciencia donde se otorga el nombre de un hallazgo a una persona distinta de su
primer descubridor, lo que se suele conocer como la ley de Stigler. En realidad, aunque hay cierta
3 Es más, puede demostrarse sin dificultad que la distribución geométrica y la binomial negativa surgen al tomar la

parte entera de la exponencial y la Gamma, respectivamente.


102 Capítulo 4. Variable aleatoria

0.1 0.06
BN(2.5,0.25) BN(5,0.25)

0.04
0.05
0.02

0 0
−10 0 10 20 30 40 −10 0 10 20 30 40

0.4 0.2
BN(2.5,0.5) BN(5,0.5)
0.3 0.15

0.2 0.1

0.1 0.05

0 0
−10 0 10 20 30 40 −10 0 10 20 30 40

0.8 0.4
BN(2.5,0.75) BN(5,0.75)
0.6 0.3

0.4 0.2

0.2 0.1

0 0
−10 0 10 20 30 40 −10 0 10 20 30 40

Figura 4.12: Funciones masa de distribuciones binomiales negativas

controversia aún al respecto, la distribución normal debería conocerse como distribución de De


Moivre, en honor a Abraham De Moivre.
En cualquier caso, más allá de la controversia histórica, nos vale el nombre de gaussiana para
motivar esta distribución en el contexto en que Gauss la utilizó, el de los datos astronómicos y,
más en concreto, asociada al error que en las observaciones astronómicas cometían los aparatos de
medida. Gauss observó que los errores accidentales de un instrumento de medida que realiza un
gran número de observaciones en idénticas condiciones cumplían dos propiedades:
1. Los distintos errores posibles se presentan con tanta mayor frecuencia cuanto menor sea su
valor absoluto.
2. Los errores del mismo valor absoluto pero de distinto signo se presentan con igual frecuencia.
Es decir, es más normal encontrar pequeños errores que grandes errores y es igualmente probable
encontrar un error por exceso que por defecto.
Esta forma de repartir la incertidumbre en una observación aleatoria es enormemente frecuente
en muy diferentes contextos, más allá del error relativo a los datos astronómicos. Es una de las
razones por las que con el tiempo la distribución terminó llamándose normal.
Definición 4.5.2 Sea X una v.a. continua que puede tomar cualquier valor real. Se dice que X
sigue una distribución normal o gaussiana de parámetros µ y σ (y se nota X → N(µ, σ )) si
su función de densidad es
1 (x − µ)2
f (x) = √ exp(− )
2πσ 2 2σ 2
para todo x ∈ R, donde µ es la media de la distribución y σ 2 la varianza.

Si observamos la forma de la densidad normal para distintos valores de la media y la varianza


en la Figura 4.13, entenderemos los postulados de Gauss. En su caso él consideraba que la media
del error es cero, pero en general, lo que podemos decir es que son más probables valores cercanos
a la media que lejos de ella, y que un valor es igualmente probable si se encuentra a la misma
4.5 Modelos de distribuciones de probabilidad 103

0.4 0.1
N(0,1) N(0,4)
0.3

0.2 0.05

0.1

0 0
−10 −5 0 5 10 −10 −5 0 5 10

0.4 0.1
N(1,1) N(1,4)
0.3

0.2 0.05

0.1

0 0
−10 −5 0 5 10 −10 −5 0 5 10

0.4 0.1
N(−1,1) N(−1,4)
0.3

0.2 0.05

0.1

0 0
−10 −5 0 5 10 −10 −5 0 5 10

Figura 4.13: Funciones de densidad de la distribución normal

distancia de la media, ya sea a la derecha o a la izquierda de ésta. A esta forma se le conoce como
campana de Gauss; de ahí que con frecuencia, y de forma bastante reduccionista, se suele decir
que la distribución normal sirve para datos que tienen forma de campana.
Como ya hemos mencionado, el propio nombre de la distribución normal indica su frecuente
uso en muy diferentes ámbitos de la ciencia y la tecnología: hay muchas variables asociadas a
fenómenos naturales cuyas características son compatibles con el modelo aleatorio que supone el
modelo de la normal. Por ejemplo:
Caracteres morfológicos de individuos (personas, animales, plantas, ...) de una especie, como
la talla, el peso, el diámetro o el perímetro de ciertas partes del cuerpo.
Caracteres fisiológicos, como los niveles de concentración en sangre o el efecto de una misma
dosis de un fármaco o de una misma cantidad de abono.
Caracteres sociológicos, como el consumo de cierto producto por un mismo grupo de indivi-
duos, las puntuaciones de un examen...
Caracteres psicológicos, como el cociente intelectual o el grado de adaptación a un medio.
En general, como veremos enseguida, cualquier característica que se obtenga como suma de
muchos factores independientes encuentra en la distribución normal un modelo adecuado.
Existe otra razón más pragmática para el uso tan extendido de la distribución normal: sus
propiedades matemáticas son, como iremos viendo, casi inmejorables, lo que provoca que, en
muchas ocasiones, se trate de forzar al modelo normal como modelo para cualquier variable
aleatoria; esto puede conducir a errores importantes en las aplicaciones prácticas. Lo cierto es que
también son frecuentes las aplicaciones en las que los datos no siguen una distribución normal. En
ese caso puede ser relevante estudiar qué factores son los que provocan la pérdida de la normalidad
y, en cualquier caso, pueden aplicarse técnicas estadísticas que no requieran de esa hipótesis.
Uno de los primeros comentarios que hay que hacer sobre la distribución normal es respecto
a las integrales de su función de densidad, que permiten, como sabemos, obtener probabilidades
de intervalos de valores de la variable. Al igual que le ocurre a la densidad de la distribución
Gamma, no existe una expresión explícita en términos de funciones elementales de la integral
104 Capítulo 4. Variable aleatoria

de la densidad normal, de tal manera que cuando necesitamos obtener una integral definida que
representa la probabilidad de un intervalo, deben utilizarse técnicas de cálculo numérico mediante
calculadoras especializadas o mediante algún software adecuado y un ordenador. Hoy en día eso no
supone ninguna complicación, pero imaginemos qué ocurría en el siglo XVIII, por ejemplo, cuando
comenzaron a extenderse las aplicaciones de la distribución o, sin irnos tan lejos, qué ocurría a
finales de los años 80 del siglo XX, justo antes de que empezara a extenderse el uso generalizado
de ordenadores personales.
La respuesta a este problema práctico, aunque en realidad comienza a ser una curiosidad
histórica, supone una importante herramienta metodológica que debe conocerse y utilizarse en las
aplicaciones. Dicha respuesta se basa en los dos siguientes resultados.

Teorema 4.5.12 — Invarianza de la distribución normal frente a cambios de origen y


escala. Sea X → N(µ, σ ). Entonces, para cualesquiera valores a, b ∈ R, Y = a × X + b →
N(aµ + b, |a| × σ )

Corolario 4.5.13 — Tipificación de la distribución normal. Sea X → N(µ, σ ). Entonces,


X−µ
Z= σ → N(0, 1).

¿Cuál es la relación de este segundo resultado con la posibilidad de obtener integrales de la


densidad normal? Nuestro problema sigue siendo que no es posible calcular a mano probabilidades
asociadas a la normal de forma exacta, ya que las integrales del tipo
" #
(x − µ)2
Z b
1
√ exp − dx,
a 2πσ 2 2σ 2

que representan P[a < X < b], no pueden ser expresadas en términos de las funciones usuales, y
sólo pueden aproximarse por métodos numéricos con calculadoras y ordenadores.
Lo que nuestros predecesores hicieron cuando comenzaron a utilizar la distribución normal fue
construir con mucha paciencia tablas donde aparecen multitud de valores de la función de distribu-
ción de la distribución N(0, 1) y, a partir de ellos, se pueden calcular otras tantas probabilidades,
utilizando la propiedad de tipificación. Por ejemplo, si queremos calcular la probabilidad de que
una variable X → N(µ, σ ) esté en el intervalo [a, b], tenemos
a−µ X −µ b−µ b−µ a−µ
P[a ≤ X ≤ b] = P[ ≤ ≤ ] = FZ ( ) − FZ ( ,
σ σ σ σ σ
donde FZ (·) es la función de distribución de una variable Z → N(0, 1), que, como decíamos, puede
evaluarse mediante el uso de tablas. Esas tablas solían venir (y en algunos libros aún vienen) entre
los apéndices. Vamos a verlo en un ejemplo.
 Ejemplo 4.22 En el artículo Índices de relación peso-talla como indicadores de masa muscular
en el adulto del sexo masculino de la revista Revista Cubana Aliment. Nutr. (1998;12(2):91-5) se
habla de un colectivo de varones con un peso sigue una distribución normal cuya media y desviación
típica son, respectivamente, 65.6 y 11.7.
1. ¿Cómo podemos, mediante las tablas de la N(0, 1), calcular, por ejemplo, la probabilidad de
que uno de esos varones pese más de 76.25 kilos?
X − 65.6 76.25 − 65.6
P[X > 76.25] = P[ > ]
11.7 11.7
= P[Z > 0.91] = 1 − P[Z < 0.91] = 1 − 0.819,

donde P[Z < 0.91] = 0.819 se obtiene de las tablas de la distribución N(0, 1).
4.5 Modelos de distribuciones de probabilidad 105

Figura 4.14: Búsqueda de probabilidades en la tabla de la N(0, 1). Valor de la probabilidad a la


izquierda de 0.91

2. ¿Y la probabilidad de que pese menos de 60 kilos?

X − 65.6 60 − 65.6
P[X < 60] = P[ < ]
11.7 11.7
= P[Z < −0.48] = P[Z > 0.48]
= 1 − P[Z < 0.48] = 1 − 0.684,

donde P[Z < 0.48] = 0.684 se obtiene de las tablas de la distribución N(0, 1).
3. ¿Y la probabilidad de que pese entre 60 y 76.25 kilos?

P[60 < X < 76.25] = P[X < 76.25] − P[X < 60] = 0.819 − (1 − 0.684)

4. ¿Cuánto pesará aquel varón tal que un 5 % de varones de ese colectivo pesan más que él? Es
decir, ¿cuál será el valor de x tal que P[X > x] = 0.05 o, equivalentemente, P[X < x] = 0.95.
En realidad, nos están preguntando por el percentil 95 de la distribución N(65.6, 11.7). Dado
que
X − 65.6 x − 65.6 x − 65.6
P[X < x] = P[ < ] = P[Z < ]
11.7 11.7 11.7
tan sólo tenemos que buscar en la tabla de la N(0, 1) el percentil 95 de la N(0, 1), es decir, el
valor z = x−65.6
11.7 tal que P[Z < z] = 0.95; ese valor es 1.645 (aproximadamente), en cuyo caso,
despejando, se tiene que x = 65.6 + 11.7 × 1.645.
En las figuras 4.14 y 4.15 se ilustra cómo se usan las tablas de la N(0, 1).
En cualquier caso, calcular las probabilidades y los percentiles así hoy en día está totalmente
en desuso, por engorroso, lento e inexacto. Obtener esos resultados con R es totalmente trivial, ya
que la función de distribución y la función cuantil de la distribución normal y de cualquier otra
distribución habitual está implementada. Resolvemos de nuevo las preguntas anteriores mediante R
de la siguiente forma:
106 Capítulo 4. Variable aleatoria

Figura 4.15: Búsqueda de valores z en la tabla de la N(0, 1). Valor de Z que deja a la derecha una
probabilidad de 0.95

1. ¿Cómo podemos, mediante las tablas de la N(0, 1), calcular, por ejemplo, la probabilidad de
que uno de esos varones pese más de 76.25 kilos?

P[X > 76.25] = 1 − P[X ≤ 76.25]

> 1 - pnorm(76.25, 65.6, 11.7)


[1] 0.1813437
2. ¿Y la probabilidad de que pese menos de 60 kilos?
> pnorm(60, 65.6, 11.7)
[1] 0.3161001
3. ¿Y la probabilidad de que pese entre 60 y 76.25 kilos?
> pnorm(76.25, 65.6, 11.7) - pnorm(60, 65.6, 11.7)
[1] 0.5025563
4. ¿Cuánto pesará aquel varón tal que un 5 % de varones de ese colectivo pesan más que él?
> qnorm(0.95, 65.6, 11.7)
[1] 84.84479


 Ejemplo 4.23 En un sistema de comunicaciones hay un emisor que envía una cierta señal
mediante un voltaje V , constante, pero dicha señal se contamina en el canal por un ruido aleatorio N
don distribución normal de media 0 y desviación típica 2, de tal manera que lo que llega al receptor
es otra señal, en este caso aleatoria, dada por Y = 10−2 ×V + N. Se pide:
1. Si V = 985 voltios, calcular la media y la desviación típica de Y .

E[Y ] = 10−2 × 985 + E[N] = 10− 2 × 985,

porque la media del ruido es 0.


4.5 Modelos de distribuciones de probabilidad 107

2. Si V = 508 voltios, calcular la probabilidad de que Y esté entre 4 y 6 voltios.


La señal Y es un cambio de origen y escala del ruido, N, donde el cambio de origen es
a = 10−2 × 508 y el cambio de escala es b = 1. Por la invarianza de la normal frente a
cambios de origen y escala, sabemos que Y también sigue una distribución normal, de media
a + b × E[N] = 10−2 × 508 + 0 y desviación típica |b| × σY = 1 × 2. Por tanto, se nos pide
P[4 < Y < 6], siendo Y → N(0.508, 2):
> pnorm(6, 0.508, 2) - pnorm(4, 0.508, 2)
[1] 0.03738914
3. Calcular la señal V que tendría que enviarse para que la probabilidad de que Y sea un voltaje
negativo sea inferior a 10−6 .
Siguiendo el mismo razonamiento anterior para una señal V cualquiera, tenemos que Y →
N(10−2 × V, 2). Se nos pide el valor de V tal que P[Y < 0] < 10−6 . Ahora bien, por la
propiedad de tipificación,

Y − 10−2 ×V 0 − 10−2 ×V 10−2 ×V


P[Y < 0] = P[ < ] = P[Z < − ]
2 2 2

donde Z → N(0, 1). Por tanto, buscamos el cuantil 10−6 de Z:


> qnorm(10^(-6), 0, 1)
[1] -4.753424
−2 ×V
y, despejando de − 10 2 = −4.753424, tenemos que V = 950.6849.


Para finalizar esta introducción sobre la distibución normal, vamos a enunciar un importantísimo
resultado teórico sobre ella, aquél que permite comprender por qué aparece tanto y en tan diversos
ámbitos, concretamente, en aquellas observaciones aleatorias que son resultado de la suma de
pequeñas aportaciones individuales.

Teorema 4.5.14 — Teorema Central del Límite. Sean X1 , ..., XN v.a. independientes, todas
ellas con la misma distribución de probabilidad, de media µX y desviación típica σX . En ese caso,
la suma de estas variables sigue aproximadamente una distribución normal cuando N es elevado,
es decir,
N √
∑ Xi ≈ N(NµX , NσX ).
i=1

Tipificando, podemos reenunciar el Teorema Central del Límite diciendo que

∑Ni=1 Xi − NµX
√ ≈ N(0, 1).
NσX

 Ejemplo 4.24 Consideremos X1 , ..., XN variables q


independientes con distribución U(0, 1). Según
el teorema central del límite, ∑Ni=1 Xi ≈ N(0.5 × N, 12
N
). Para poner este resultado de manifiesto
se ha realizado el siguiente experimento.
Para N = 1, 2, 5 y 10, se ha simulado una muestra de 10000 datos de ∑Ni=1 Xi , dibujando su
histograma en cada caso. Estos histogramas aparecen en la Figura 4.16. En ella se pone de manifiesto
cómo, según N crece, el histograma se va pareciendo cada vez más a una densidad gaussiana. 

 Ejemplo 4.25 Supongamos que estamos realizando un examen de 150 preguntas, cada una de
ellas con una puntuación de 1 punto y que en función de cómo hemos estudiado, consideramos que
la probabilidad de contestar acertadamente una pregunta cualquiera es de 0.7. Démonos cuenta que
108 Capítulo 4. Variable aleatoria
140 250
N=1 N=2
120
200
100

80 150

60 100
40
50
20

0 0
0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2

300 350
N=5 N=10
250 300

250
200
200
150
150
100
100
50 50

0 0
0 1 2 3 4 5 0 2 4 6 8 10

Figura 4.16: Ilustración del Teorema Central del Límite.

el resultado de una pregunta cualquiera sigue una distribución B(1, 0.7), cuya media es 1×0.7 = 0.7
y cuya varianza es 1 × 0.7 × (1 − 0.7) = 0.21.
Por su parte, el resultado final de la prueba será la suma de las 150 puntuaciones. Podríamos ver
este resultado según una B(150, 0.7), pero los cálculos serían muy tediosos debido a los factoriales
de la función masa de la distribución binomial. En este caso, merece la pena que utilicemos el
Teorema Central del Límite, según el cuál el resultado final, X, seguiría aproximadamente una
distribución √
N(150 × 0.7, 150 × 0.21),
es decir, X → N(105, 31.5). Así, si por ejemplo, nos planteamos cuál es la probabilidad de aprobar,
ésta será
P[X ≥ 75] = 0.830,
donde hemos utilizado
> 1 - pnorm(75, 105, 31.5)
[1] 0.8295481
Esta aplicación se conoce, en general, como aproximación normal de la binomial. 

Enunciando el Teorema Central del Límite en términos de la media, X̄, de las variables X1 , ..., XN ,
podemos decir que si N es grande,

X̄ ≈ N(µ, σ / N).

Veamos una aplicación sobre este resultado.


 Ejemplo 4.26 Un ingeniero diseña un aparato de medida que realiza una aproximación más
imprecisa que el aparato tradicional pero mucho más barata. Para reducir el margen de error de la
medida realizada, el ingeniero propondrá que se realicen un número determinado de medidas sobre
el mismo objeto y que se considere la media de estas medidas como valor final de la medida del
objeto.
Inicialmente, el ingeniero hace una valoración que le lleva a concluir que el aparato está bien
calibrado, es decir, que la media de la medida del aparato coincide con la medida real (error
promedio cero), y que la desviación típica de las medidas del aparato es igual a 0.75.
¿Cuántas medidas debe proponer el ingeniero para que el error de medida sea inferior a 0.1 con
un 95 % de probabilidad?
4.6 Cuantiles de una distribución. Aplicaciones 109

Empecemos considerando que cada medida, Xi , tiene como media el verdadero valor de la
N
Xi
medida del objeto, x0 , y desviación típica 0.75. Por su parte, la medida final será X̄ = ∑i=1
N , donde
realmente nos interesa conocer el valor de N. Para ello, tengamos en cuenta que se nos pide que
P[|X̄ − x0 | < 0.1] ≥ 0.95.
y que, considerando el Teorema Central del Límite, X̄ → N(x0 , 0.75
√ ). Por su parte,
N
√ √
0.1 N 0.1 N
P[|X̄ − x0 | < 0.1] = P[x0 − 0.1 < X̄ < x0 + 0.1 = P[− <Z< ]
√ 0.75 0.75
0.1 N
= 1 − 2 × (1 − P[Z < ]).
0.75
√ √
Si queremos que P[|X̄ − x0 | < 0.1] ≥ 0.95, entonces P[Z < 0.1 N 0.1 N
0.75 ] ≥ 0.975, de donde 0.75 ≥ 1.96
y entonces, N ≥ 216.09.
Como conclusión, necesitaría 217 medidas como mínimo, así que más le vale al ingeniero
disminuir la desviación típica del aparato. 

4.6 Cuantiles de una distribución. Aplicaciones


Para acabar el tema vamos a ver una de las aplicaciones más sencillas pero a la vez más útiles
de los modelos de probabilidad. Debo decir que son numerosas las ocasiones que desde distintos
ambientes científicos y de la Ingeniería he asesorado a profesionales con respecto a cuestiones que
tienen que ver con lo que esta sección analiza. Los ejemplos que vamos a considerar son, grosso
modo, síntesis de ellas.
Concretamente, vamos a comenzar definiendo con rigor el cuantil p (p ∈ [0, 1]) de una distribu-
ción de probabilidad de una v.a. X. Sea ésta discreta o continua, denominemos f (x) a su función
masa o de densidad.
Definición 4.6.1 Se define el cuantil p, Q p de su distribución, como el primer valor, x, de la
variable, tal que
P[X ≤ x] ≥ p :
Si la variable es discreta, Q p será, por tanto, el primer valor tal que

∑ f (x) ≥ p.
xi ≤x

Nótese que, al ser la variable discreta, puede que no logremos obtener una igualdad del
tipo ∑xi ≤x f (x) = p.
Si la variable es continua, Q p sí puede obtenerse como el valor x tal que
Z x
f (t)dt = p,
−∞

o lo que es lo mismo, como el valor x tal que F(x) = p, siendo F la función de distribución
de la variable.
Es muy frecuente que la probabilidad p a la que se asocia un cuantil se exprese en porcentaje.
En ese caso, como en Estadística Descriptiva, los cuantiles también se pueden llamar percentiles.
Desde luego, lo más importante es que interpretemos qué significa el cuantil p de una v.a.
Como en Estadística Descriptiva, se refiere al (primer) valor de la variable que deja por debajo de sí
una proporción p de valores de la distribución. Entonces, si un valor concreto corresponde con un
cuantil alto, podemos decir que realmente es un valor alto dentro de la distribución de probabilidad
de la variable, y viceversa. Vamos a tratar de aclararlo con algunos ejemplos.
110 Capítulo 4. Variable aleatoria

4.6.1 La bombilla de bajo consumo marca ANTE


En el capítulo de introducción comentábamos las especificaciones técnicas que aparecían en
el envoltorio de una bombilla de 14W de la marca ANTE, entre las que se decía que tenía una
duración de 8 años. Eso contradice nuestra sensación de que este tipo de lámparas duran mucho
menos y, en cualquier caso, es una simplificación inadmisible, porque es evidente que la duración
de la bombilla es una variable sujeta a incertidumbre, es decir, una variable aleatoria.
Vamos a hacer un par de suposiciones. En primer lugar, es probable que lo que quisieran decir en
el envoltorio es que la duración media es de 8 años (lo cuál, por cierto, también podría ser objeto
de controversia). En segundo lugar, dado que tenemos que proponer un modelo de distribución de
probabilidad para la duración de la lámpara, vamos a considerar el más sencillo que suele emplearse
en este tipo de aplicaciones: la distribución exponencial. Esta hipótesis también podría ser discutida,
pero otros modelos más complejos, como la distribución Weibull, complicarían bastante nuestros
cálculos que, por otra parte, tienen sólo fines ilustrativos.
Por tanto, vamos a suponer que la duración de la bombilla es una variable aleatoria, D, con
distribución exponencial de media 8 años y, por tanto, con parámetro λ = 1/8. Ahora que ya
tenemos un modelo probabilístico podemos plantearnos muchas cosas:
¿Es muy probable que la lámpara alcance su vida media?

1
Z ∞
x
P[D > 8] = e− 8 dx = e−8/8 = 0.3678794.
8 8

Obsérvese que eso es algo que ocurrirá con cualquier exponencial: la probabilidad de que
se supere la media es sólo del 36.79 %. Dicho de otra forma, la media es el percentil 63
aproximadamente, lo que implica que sólo el 37 % aproximadamente de las lámparas superan
su vida media... ¿sorprendente?
¿Y cuál es el valor que superan el 50 % de las lámparas? Se trata de la mediana, Me =
F −1 (0.5), donde F() es la función de distribución. Por tanto, la mediana es la solución de la
ecuación
1 − e−λ Me = 0.5,

que resulta ser Me = log0.5


−λ = 8 × log2 = 5.545177. Luego, visto de otra forma, el 50 % de las
lámparas se rompen antes de 5.545 años, a pesar de que su duración media sea 8 años.

4.6.2 Las visitas al pediatra de los padres preocupados


Los que tenemos o hemos tenido hijos pequeños observamos con cierta ansiedad la evolución
de su peso y su altura. Cuando vamos al pediatra, éste pesa y mide al bebé y, obviamente, te dice
cómo está. Pero el problema es que no basta con que me diga cuánto pesa y mide mi hijo o mi hija,
sino que me diga cuánto pesa y cuánto mide en relación con los niños o niñas de su misma edad.
En esa cuestión es dónde entran los percentiles.
En este caso jugamos con la ventaja de que se han hecho multitud de estudios previos que
determinan que tanto el peso como la altura son variables que siguen una distribución normal. Más
aún, se han determinado las medias y las desviaciones típicas de niños y niñas desde los cero meses
hasta la edad adulta.
Vamos a ponernos en una situación concreta, centrándonos en el peso. El segundo de mis
hijos tenía, en una de mis visitas al pediatra, tres meses, y pesaba 5.6 kilos. En aquel momento, la
pregunta que yo me hacía era ¿está gordo? En cualquier caso, cómo de gordo.
Por su parte, cualquier pediatra sabe por estudios previos4 que el peso de niños de tres meses es
una N(6, 1.2). Lo que se plantea es en qué posición se sitúa el peso de mi hijo, 5.6 kilos, dentro de
4 Fuente: http://www.familia.cl/salud/curvas_de_crecimiento/curvas_de_crecimiento.htm
4.7 Resumen 111

Figura 4.17: Curvas de crecimiento de 0 a 24 meses.

esa distribución. Si X es el peso, dado que

P[X ≤ 5.6] = 0.369,

el pediatra me diría que mi hijo estaba en el percentil 37, lo que quiere decir que estaba un pelín
bajo de peso, pero dentro de niveles razonables.

4.7 Resumen
Cuando observamos un fenómeno que puede cuantificarse mediante números enteros o no
enteros y que está sujeto a incertidumbre, observamos que las frecuencias de aparición de los
números obedece a determinadas leyes; en cierto modo, parece que esas frecuencias determinan
una firma que hace pensar en un modelo de ocurrencia. En este capítulo hemos llamado a esas
observaciones cuantificables variables aleatorias (v.a.) y a las leyes que determinan las frecuencias
de ocurrencia distribuciones de probabilidad. Hemos descrito las distribuciones de probabilidad
más relevantes a partir del concepto de función masa o función de densidad, dependiendo de si
la variable está contando observaciones (variables discretas) o midiendo (variables continuas),
respectivamente. En concreto, hemos estudiado las distribuciones binomial, Poisson, geométrica,
binomial negativa, uniforme continua, exponencial, gamma y normal.

4.8 Para saber más


La definición de v.a. requiere de una condición adicional que no hemos mencionado: la
asignación de un número real a cada suceso debe hacerse de manera que la función resultante
sea medible: véase García Nogales (2008, cap. 2).
112 Capítulo 4. Variable aleatoria

La llamada desigualdad de Chebychev permite algunas aplicaciones interesantes aplicables a


cualquier distribución de probabilidad: ver, por ejemplo, Miranda y Palacín (2006).
Hemos dejado en el tintero otras muchas distribuciones de probabilidad, discretas y conti-
nuas, con importantes aplicaciones en Ingeniería y otros ámbitos. Cabe mencionar, entre
otras, las distribuciones hipergeométrica, log-normal o Weibull. Para ampliar en este aspecto
recomiendo Trivedi (2016)
En el ejemplo sobre el bombardeo de Londres motivando la distribución binomial negativa
hemos utilizado una simulación de una mixtura finita de distribuciones. Para profundizar en
este tema puede verse, por ejemplo, Green (2017).

4.9 Ejercicios

R Antes de plantear estos ejercicios me gustaría comentar algo relevante de cara a comprender
el proceso de inferencia necesario en toda aplicación práctica, y que describiremos más
adelante: en todos ellos el enunciado va a proporcionar como dato el valor exacto de al
menos un parámetro de la distribución que interviene en el problema. Es muy importante
que entendamos que en la realidad nadie conoce ese valor exacto, sino que debe estimarse
(o elicitarse); el hecho de que se proporcione por ahora en el enunciado es sólo por razones
metodológicas.

R De cara a la resolución de este tipo de ejercicios, recomiendo tratar de utilizar el diagrama de


la Figura 4.18.

Ejercicio 4.1 Un ingeniero químico afirma que una suspensión perfectamente preparada para
un proceso industrial tiene una concentración promedio de 6 partículas por mL. Supongamos
que extraemos una muestra de 10mL de la suspensión.
1. Consideremos que la afirmación del ingeniero es cierta. Con esta información, ¿sería
inusualmente extraño encontrar menos de 15 partículas en la muestra? (Aclaración: cal-
cúlese la probabilidad de encontrar menos de 15 partículas en la muestra y concluir
afirmativamente si ésta es inferior al 5
2. Consideremos de nuevo que el promedio de partículas en la suspensión es de 6 partículas
por mL. Calcular la probabilidad de que la muestra de 10mL contenga más de 10 partículas.


Ejercicio 4.2 Una ingeniera mecánica está realizando pruebas de resistencia de soldaduras
consistentes en someter a cargas hasta la ruptura a dos vigas unidas por la soldadura de ambas.
Por estudios previos, sabe que el 35 % de las rupturas ocurren por la soldadura que las une, y
que en el 65 % restante la ruptura se produce en alguna de las dos vigas. A ella le interesa en
especial estudiar qué pasa con esas vigas, por lo que repetirá las pruebas de soldadura hasta
conseguir una en la que se rompa alguna de las vigas.
1. ¿Cuál es el promedio de pruebas que tendrá que realizar hasta conseguir una en que se
rompa alguna de las vigas (contando esta última prueba en que se rompe alguna de las
vigas)?
2. ¿Sería inusualmente extraño que tuviera que realizar más de 5 pruebas hasta conseguir
una en que se rompa alguna de las vigas (contando ésta última)? (Aclaración: calcular la
probabilidad de que tuviera que realizar más de 5 pruebas hasta conseguir una en que se
rompa alguna de las vigas y concluir afirmativamente si ésta es inferior al 5 %)

4.9 Ejercicios 113

Variable aleatoria, con diferentes


valores posibles

Expresa los valores de como una


variable abstracta

Interpreta los datos y las preguntas


como probabilidades de esa variable

¿Es variable de conteo (discreta)


o de medida (continua)?

De conteo De medida

Probabilidades Probabilidades como


como sumas integrales de
de la función masa... la función de densidad...
de la distribución... de la distribución...

Binomial
Binomial Poisson Geométrica Exponencial Gamma Normal Uniforme
negativa

si representa si representa si representa si representa si representa si representa si representa si representa

Número de Especificado por


Número de
Número de fracasos hasta el Tiempo entre el enunciado y Valores
Número de éxitos ocurrencias al Varias
fracasos hasta el k-ésimo éxito o ocurrencias de motivado por el completamente al
en n experimentos azar en un caracterizaciones
éxito mixtura de Poisson Teorema Central azar
intervalo
Poisson del Limite

Figura 4.18: Diagrama de flujo sobre variable aleatoria


114 Capítulo 4. Variable aleatoria

Ejercicio 4.3 Una empresa produce láminas de aluminio en cuyo proceso de fabricación
aparecen ocasionalmente imperfecciones. La distancia entre dos imperfecciones consecutivas
sigue una distribución exponencial y se ha estimado que la distancia media entre imperfecciones
consecutivas es 1.5 metros.
1. ¿Cuál es el número medio de imperfecciones por metro de lámina?
2. ¿Cuál es la probabilidad de que en un metro de lámina se produzca más de una imperfec-
ción?


Ejercicio 4.4 Una empresa de ingeniería desea ofrecer un nuevo servicio a los clientes que
acudan a su sede y estima que el 15 % de ellos lo va a requerir. Para que el servicio sea rentable
necesitan al menos 10 clientes que lo soliciten. Se pide:
1. Cuál es el número medio de clientes a los que deberían ofrecer el servicio para que fuera
rentable?
2. Calcular la probabilidad de que tengan que ofrecer el servicio a más de 15 clientes para
que sea rentable.
3. Un comercial de la compañía tiene fuera de la sede una cartera de sólo 20 clientes. ¿Cuál
es la probabilidad de que el servicio sea solicitado por al menos 10 de ellos?


Ejercicio 4.5 El sistema A está compuesto por dos componentes electrónicas dispuestas en
serie cuyo tiempo hasta el fallo siguen distribuciones exponenciales independientes de media 18
meses. Por su parte, el sistema B está compuesto por dos componentes dispuestas en paralelo
cuyo tiempo hasta el fallo siguen sendas distribuciones exponenciales independientes de media
9 meses. Se llama fiabilidad en el instante t a la probabilidad de que el sistema continúe
funcionando en el instante t. Se pide:
1. Calcular la fiabilidad de los dos sistemas al mes.
2. ¿Cuál de los dos sistemas es más fiable en general?


Ejercicio 4.6 Un sistema de comunicaciones toma un voltaje V (input), constante, y devuelve


otro voltaje (output) dado por Y = 10−2 ×V + N, donde N es una perturbación aleatoria que
sigue una distribución normal de media 0 y desviación típica 2. Se pidea :
1. Si V = 1000 voltios, calcular la media y la desviación típica del output.
2. Si V = 500 voltios, calcular la probabilidad de que el output esté entre 4 y 6 voltios.
3. Calcular el input V que tendría que darse para que la probabilidad de que el output sea un
voltaje negativo sea inferior a 10−6 .


a Adaptado de Leon-Garcia, A. (1994). Probability and Random Processes for Electrical Engineers, Wiley.
5. Variables aleatorias con distribución conjunta

Todo lo que nace proviene necesariamente de una causa; pues sin causa nada puede tener origen.

Platón (427 AC-347 AC), filósofo griego.

Objetivos
En el estudio de las variables aleatorias hemos pasado por alto el hecho de que un conjunto
de dos o más variables puede verse afectado por una serie de relaciones entre ellas. El análisis
desde el punto de vista estadístico de estas relaciones es el objetivo de este capítulo. De forma más
específica, nos planteamos los siguientes objetivos:
Comprender el concepto de distribución conjunta como descripción del comportamiento
aleatorio de un vector.
Obtener las distribucines marginales asociadas a una distribución conjunta.
Obtener distribuciones condicionadas relativas a una distribución conjunta.
Aprender a utilizar la covarianza y el coeficiente de correlación como medidas del grado de
relación lineal entre variables.
Estudiar la distribución normal multivariante.

5.1 Introducción
El mundo real está repleto de relaciones a todos los niveles. Nosotros, por razones obvias,
estaremos interesados principalmente en las relaciones que afectan a variables que describen
fenómenos propios del ambiente científico-tecnológico. Estas relaciones pueden tener muy diversas
tipologias. Por ejemplo, podríamos pensar en relaciones causa-efecto, como la que, por ejemplo,
explicaría que una página Web tenga un tamaño considerable debido a que lleva incrustado varios
archivos de vídeo y audio, o la que se establece entre la edad en años de un vestigio y su contenido
en carbono 14 1 . Pero no sólo tendremos relaciones causa-efecto: por ejemplo, sabemos que el peso
1 Relación que, por cierto, sabemos que permite la datación del vestigio.
116 Capítulo 5. Variables aleatorias con distribución conjunta

y la estatura de un ser humano son variables muy relacionadas, hasta el punto que no podemos
decir que una persona este obesa sólo con saber su peso, sino que debemos valorarlo en relación a
su estatura.
Por otra parte, cuando un fenómeno es determinístico y está bien estudiado, las relaciones entre
variables son leyes más o menos sencillas, pero, en cualquier caso, son inmutables. Por ejemplo,
masa
densidad = .
vol.
Pero, ¿qué ocurre cuando el fenómeno es aleatorio? Las variables en ese caso son aleatorias y las
relaciones que se puedan dar entre ellas no siempre tienen por qué obedecer a una ley objetiva e
inamovible. Por ejemplo, todos somos conscientes de que, como decíamos, existe una relación
entre el peso y la altura de una persona, pero no existe una razón de conversión capaz de calcular el
peso exacto de alguien a partir de su altura. Es evidente que el tiempo de descarga de una página
web estará relacionado con el tamaño de los archivos que la configuran, pero ¿cómo de evidente?
y ¿de qué forma es esa relación? Ambas preguntas tratarán de ser contestadas a lo largo de este
capítulo.
0
Definición 5.1.1 Sean X1 , ..., XN variables aleatorias. El vector ordenado (X1 , ..., XN ) es un
vector aleatorio de dimensión N.

Definición 5.1.2 Hablaremos de vectores aleatorios continuos o vectores aleatorios discre-


tos cuando cada una de sus variables sean continuas o discretas, respectivamente.

R Podrían darse vectores mixtos, pero su tratamiento estadístico no nos interesa por ahora.

 Ejemplo 5.1 Consideremos el valor de una señal analógica que depende del tiempo, x (t). En esta

notación, entendemos que el valor de la señal podría ser distinto en cada instante de tiempo t. Es
muy frecuente que la señal se observe realmente contaminada por un ruido aleatorio que también
dependerá del tiempo, N (t).
En ese caso, si observamos la señal en los instantes t1 , ...,tN , el vector
 
x (t1 ) + N (t1 )
 .. 
 . 
x (tn ) + N (tn )
es un vector aleatorio. 

 Ejemplo 5.2 Se estudia el tiempo que un usuario de Internet dedica a ver una página WEB (T )
en relación con variables como la cantidad de texto que contiene (T x), el número de imágenes (I)
y animaciones Flash (F) de la página. Entonces, el vector
 
T
 Tx 
 
 I 
F
es un vector aleatorio. 

 Ejemplo 5.3 Se contabiliza la duración de las llamadas telefónicas a una centralita. Para cada
conjunto de n-usuarios de la centralita, cada uno de ellos ocupa un tiempo Ti en su llamada. En ese
caso, el vector  
T1
 .. 
 . 
Tn
5.2 Distribuciones conjunta, marginal y condicionada 117

es un vector aleatorio. 

5.2 Distribuciones conjunta, marginal y condicionada


El principal objetivo a abordar en el tema es cómo medir la incertidumbre asociada a los sucesos
que describe un vector aleatorio. Ya vimos que en el caso de una variable aleatoria se trataba de
hacerlo a partir de la función masa o la función de densidad. Ahora, como vamos a ver, es algo más
complejo.

5.2.1 Distribución conjunta


La distribución conjunta de probabilidad de un vector aleatorio es, esencialmente, la manera
en que se reparte la probabilidad entre todos los posibles resultados del vector. Para describirla
vamos a definir los conceptos de función de densidad o función masa análogos a los asociados a
una variable aleatoria.
Definición 5.2.1 Sea (X1 , ..., XN ) un vector aleatorio discreto. Entonces, se define su función
masa conjunta como

fX1 ,...,XN (x1 , ..., xN ) = P [X = x1 , ..., XN = xN ] .

Definición 5.2.2 Sea (X1 , ..., XN ) es un vector aleatorio continuo, entonces, su función de
densidad conjunta es una función tal que
 Z Z
P (X1 , ..., XN ) ∈ A ⊂ RN =

... fX1 ,...,XN (x1 , ..., xN ) dx1 ...dxN
A⊂RN

0
 Ejemplo 5.4 Consideremos un vector aleatorio bidimensional,(X,Y ) , que tiene densidad con-
junta
ce−x−y si 0 < y < x

fX,Y (x, y) = .
0 en otro caso
En primer lugar, podemos calcular la constante c teniendo en cuenta que
Z
fX,Y (x, y) dxdy = 1.
R2

Por ello, Z ∞ Z x 
c
Z ∞
−x −y
ce−x 1 − e−x dx = ,

1= ce e dy dx =
0 0 0 2
de donde c = 2.
En segundo lugar, por ejemplo, calculemos
Z 1 Z 1−y
P [X +Y ≤ 1] = 2e−x e−y dxdy
0 y
Z 1 h i
= 2e−y e−y − e−(1−y) dy
0
−1 − 2e + e2
= .
e2
(ver Figura 5.1) 

 Ejemplo 5.5 Consideremos dos variables, X e Y , que tienen densidad conjunta


1

15 si 0 ≤ x ≤ 3, 0 ≤ y ≤ 5
fX,Y (x, y) = .
0 en otro caso
118 Capítulo 5. Variables aleatorias con distribución conjunta

Figura 5.1: Región del plano donde se calcula la probabilidad

Esta densidad constante en el rectángulo definido indica que la distribución de probabilidad es


uniforme en dicho rectángulo. Vamos a calcular la probabilidad de que Y sea mayor que X (ver
Figura 5.2)
Z 3 Z 5 
1
P [Y > X] = dy dx
0 x 15
Z 3
5−x
= dx
0 15
x x2 3 7
= − | = .
3 30 0 10


Figura 5.2: Región del plano donde se calcula la probabilidad

5.2.2 Distribuciones marginales


Una vez que somos capaces de describir la distribución de probabilidad de un vector aleatorio
mediante su función masa o su función de densidad conjunta, surge un nuevo problema: qué ocurre
si deseamos conocer la distribución de probabilidad de una o más variables del vector, no del vector
en su conjunto. Esa distribución de una o más variables de un vector se conoce como distribución
marginal.
0
Definición 5.2.3 Sea (X1 , ..., XN ) un vector aleatorio y (Xi1 , ..., Xik ) un subvector de variables
suyo. En ese caso:
Si el vector es continuo,
Z Z
fXi1 ,...,Xik (xi1 , ..., xik ) = ... fX1 ,...XN (x1 , ..., xn ) ∏ dx j .
/ (xi1 ,...,xik )
x j∈ / (xi1 ,...,xik )
x j∈
5.2 Distribuciones conjunta, marginal y condicionada 119

Si el vector es discreto,

fXi1 ,...,Xik (xi1 , ..., xik ) = ∑ fX1 ,...XN (x1 , ..., xn ) .


/ (xi1 ,...,xik )
x j∈

 Ejemplo 5.6 Sea el vector bidimensional (X,Y ) con función de densidad conjunta fX,Y (x, y) =
x · e−x(y+1) para x, y > 0.
La función de densidad marginal de X es
Z ∞ Z ∞
fX (x) = fX,Y (x, y) dy = xe−x(y+1) dy = e−x
−∞ 0

para x > 0.
Análogamente, la función de densidad marginal de Y es
1
Z ∞ Z ∞
fY (y) = fX,Y (x, y) · dx = xe−x(y+1) dx =
−∞ 0 (1 + y)2
para y > 0. 

 Ejemplo 5.7 Consideremos dos variables discretas, Q y G, cuya función masa, fQ,G (q, g) , viene
dada por
fQ,G (q, g) g=0 g=1 g=2 g=3
q=0 0.06 0.18 0.24 0.12 .
q=1 0.04 0.12 0.16 0.08
Sus marginales respectivas son:

fQ (q) = ∑ fQ,G (q, g)


g

0.06 + 0.18 + 0.24 + 0.12 si q = 0
=
0.04 + 0.12 + 0.16 + 0.08 si q = 1

0.6 si q = 0
=
0.4 si q = 1
y 


0.06 + 0.04 si g = 0

0.18 + 0.12 si g = 1
fG (g) =


0.24 + 0.16 si g = 2

0.12 + 0.08 si g = 3


 Ejemplo 5.8 En un ejemplo anterior considerábamos dos variables X e Y que tienen densidad
conjunta
1

15 si 0 ≤ x ≤ 3, 0 ≤ y ≤ 5
fX,Y (x, y) = .
0 en otro caso
Vamos a calcular sus densidades marginales:
Z ∞
fX (x) = fX,Y (x, y) dy
−∞
 R5 1
0 15 dy si 0 ≤ x ≤ 3
=
0 en otro caso
1

3 si 0 ≤ x ≤ 3
=
0 en otro caso
120 Capítulo 5. Variables aleatorias con distribución conjunta

Z ∞
fY (y) = fX,Y (x, y) dx
−∞
 R3 1
0 15 dx si 0 ≤ y ≤ 5
=
0 en otro caso
1

5 si 0 ≤ y ≤ 5
= .
0 en otro caso

Por tanto, ambas marginales corresponden a sendas densidades uniformes. 

 Ejemplo 5.9 La densidad conjunta de X e Y es

2x si 0 ≤ x ≤ 1, |y| < x2

fX,Y (x, y) = .
0 en otro caso

Calculemos ambas marginales:


Z ∞
fX (x) = fX,Y (x, y) dy
(−∞R
x2
−x2 2xdy si 0 ≤ x ≤ 1
=
0 en otro caso
4x3 si 0 ≤ x ≤ 1

=
0 en otro caso

Z ∞
fY (y) = fX,Y (x, y) dx
−∞
( R1
√ 2xdx si − 1 ≤ y ≤ 1
= |y|
0 en otro caso

1 − |y| si − 1 ≤ y ≤ 1
= .
0 en otro caso

5.2.3 Distribuciones condicionadas


0
Definición 5.2.4 Sea un vector aleatorioX = (X1 , ..., XN ) . Consideremos la distribución de
probabilidad de un vector formado por un subconjunto de variables de X, (Xi1 , ..., Xik )0 , condi-
cionada al hecho de que se han dado determinados valores en otro subconjunto de variables
de X, X j1 = x j1 , ..., X jl = x jl . Esta distribución vendrá caracterizada por su función masa o
su función de densidad condicionadas, según sea el vector discreto o continuo, y tendrá la
expresión

fXi1 ,...,Xik ,X j1 ,...,X jl (xi1 , ..., xik , x j1 , ..., x jl )


fXi1 ,...,Xik |X j1 =x j1 ,...,X jl =x jl (xi1 , ..., xik ) = ,
fX j1 ,...,X jl (x j1 , ..., x jl )

donde fXi1 ,...,Xik ,X j1 ,...,X jl (xi1 , ..., xik , x j1 , ..., x jl ) es la función masa o la función de densidad con-
junta de las variables Xi1 , ..., Xik , X j1 , ..., X jl y fX j1 ,...,X jl (x j1 , ..., x jl ) es la función masa o la función
de densidad conjunta de las variables X j1 , ..., X jl .
5.2 Distribuciones conjunta, marginal y condicionada 121

En el caso más habitual en el que el vector tenga dimensión dos, tenemos la densidad o la
función masa de X condicionada a Y = y,

fX,Y (x, y)
fX|Y =y (x) =
fY (y)
o la densidad o la función masa de Y condicionada a X = x,
fX,Y (x, y)
fY |X=x (y) = .
fX (x)

 Ejemplo 5.10 Sean las variables X e Y con la función masa conjunta siguiente:

y\x 0 1 2
0 3/28 9/28 3/28
1 3/14 3/14 0
2 1/28 0 0

Las marginales son


3 3 1

 28 + 14 + 28 si x = 0
9 3
fX (x) = 28 + 14 + 0 si x = 1
3
28 + 0 + 0 si x = 2

y
3 9 3

 28 + 28 + 28 si y = 0
3 3
fY (y) = 14 + 14 + 0 si y = 1
1
28 + 0 + 0 si y = 2

Como ejemplos de las condicionadas (hay 6 en total) calculemos la función masa de X condicionada
a Y = 1 y la de Y condicionada a X = 1.
 3
 146 si x = 0
 14

 3
fX|Y =1 (x) = 6 si x = 1
14 .
 14
 06 si x = 2


14

9




28
15 si y = 0
 28
3
fY |X=1 (y) = 14
15 si x = 1 .
 28
0

si x = 2

 15
28


Como es evidente, una vez que tenemos caracterizada la distribución condicionada de una
variable aleatoria al valor de otra, cualquier característica de dicha distribución, como la media o la
varianza, puede calcularse a partir de su función masa o su función de densidad.
 Ejemplo 5.11 Supongamos que la posición (X,Y ) de un teléfono móvil que recibe cobertura de
una antena de telefonía se encuentra dentro de un círculo de radio r alrededor de esa antena, que
supondremos sin pérdida de generalidad que se encuentra en el origen del plano.
Vamos a suponer que esa posición es completamente al azar dentro del círculo. Eso equivale a
considerar que la densidad conjunta debe ser constante en el círculo; para que su integral sea la
unidad, es evidente que
1
fX,Y (x, y) = 2
πr
122 Capítulo 5. Variables aleatorias con distribución conjunta

si x2 + y2 ≤ r2 y cero en cualquier punto fuera del círculo.


Vamos a ver qué podemos averiguar sobre las coordenadas X e Y por separado (marginales) y
sobre cómo afectan la una a la otra (condicionadas).
En primer lugar, √
Z √r2 −x2
1 2 r 2 − x2
fX (x) = √ 2
dy =
− r2 −x2 πr πr2
si −r < x < r. La marginal de Y es análoga,
p
2 r 2 − y2
fY (y) =
πr2
si −r < y < r. Está claro que para cada coordenada por separado, los puntos más densos, más
probables, son los cercanos al origen, que es donde se da el máximo de ambas funciones.
Ahora supongamos que conocemos una de las coordenadas y veamos qué podemos decir sobre
la otra:
fX,Y (x, y0 ) 1
fX|Y =y0 (x) = = q
fY (y0 ) 2 r2 − y2 0
q q
si − r − y0 < x < r2 − y20 . Análogamente,
2 2

fX,Y (x0 , y) 1
fY |X=x0 (y) = = q
fX (x0 ) 2 r2 − x02
q q
si − r2 − x02 < y < r2 − x02 . Si nos damos cuenta, ambas son distribuciones uniformes, lo que
equivale a decir que saber una coordenada no me da ninguna información sobre la otra coordenada.


 Ejemplo 5.12 A las 12 de la noche de un día de la semana comienzan a ser registrados las nuevas
llamadas a un switch de telefonía. Sea X el instante de llegada de la primera llamada, medida en
segundos transcurridos tras la medianoche. Sea Y el instante de llegada de la segunda llamada. En
el modelo más habitual utilizado en telefonía, X e Y son variables aleatorias continuas con densidad
conjunta dada por  2 −λ y
λ e si 0 ≤ x < y
fX,Y (x, y) = ,
0 en otro caso
donde λ es una constante positiva. Vamos a calcular las distribuciones marginales y condicionadas
que pueden darse:
Marginal de X: Z ∞
fX (x) = λ 2 e−λ y dy = λ e−λ x si 0 ≤ x,
x
luego se trata de una distribución exponencial de parámetro λ .
Marginal de Y : Z y
fY (y) = λ 2 e−λ y dx = λ 2 ye−λ y si y ≥ 0.
0
Si nos fijamos, esta densidad es una Gamma (2, λ ), es decir una Erlang de parámetros 2 y λ .
Condicionada de Y a los valores de X :
fX,Y (x, y)
fY /X=x (y) = = λ e−λ (y−x) si y > x.
fX (x)
En esta expresión no debe olvidarse que x es un valor fijo, dado.
5.2 Distribuciones conjunta, marginal y condicionada 123

Condicionada de X a los valores de Y :


fX,Y (x, y) 1
fX/Y =y (x) = = si 0 ≤ x < y.
fY (y) y
Es decir, conocido el instante en que llegó la segunda llamada (y), no se sabe nada de cuándo
llegó la primera llamada, ya que la distribución de X condicionada a Y = y es uniforme en
(0, y).


 Ejemplo 5.13 Consideremos que la variable X representa el input de un canal de comunicación,


con posibles valores +1 y −1 equiprobables, y sea Y el dígito que llega al destino, con valores
también +1 y −1. El canal es un canal binario simétrico con probabilidad de cruce del 5 %.
Con los datos expuestos podemos caracterizar mediante sus funciones masa las distribuciones
marginales de X e Y , la distribución conjunta de ambos y las dos distribuciones condicionadas
posibles de cada variable respecto de la otra.
La distribución marginal de X viene dada por
 1
fX (x) = 2 si x = 1
1
2 si x = −1
La distribución marginal de Y viene dada por
P [Y = +1] = P [Y = +1 | X = +1] P [X = +1] + P [Y = +1 | X = −1] P [X = −1]
= 0.95 × 0.5 + 0.05 × 0.5 = 0.5
P [Y = −1] = 0.5,
es decir
1

2si y = 1
fY (y) = 1
2 si y = −1
La distribución de Y condicionada al suceso X = +1 viene dada por:

0.95 si y = 1
fY |X=+1 (y) =
0.05 si y = −1
La distribución de Y condicionada al suceso X = −1 viene dada por:

0.95 si y = −1
fY |X=−1 (y) =
0.05 si y = 1
La distribución conjunta de X e Y viene dada por
fX,Y (x, y) = P [Y = y | X = x] P [X = x]


 0.95 × 0.5 si x = +1, y = +1
 0.05 × 0.5 si x = +1, y = −1


= 0.05 × 0.5 si x = −1, y = +1
0.95 × 0.5 si x = −1, y = −1




0

en otro caso
La distribución de X condicionada al suceso Y = +1 viene dada por:

fX,Y (x, +1) 0.95 si x = 1
fX|Y =+1 (x) = = .
fY (+1) 0.05 si x = −1
La distribución de X condicionada al suceso Y = −1 viene dada por:

fX,Y (x, −1) 0.05 si x = 1
fX|Y =−1 (x) = = .
fY (−1) 0.95 si x = −1

124 Capítulo 5. Variables aleatorias con distribución conjunta

5.3 Independencia estadística


En el capítulo referente a probabilidad hablamos de independencia de sucesos. Decíamos
entonces que dos sucesos A y B eran independientes si y sólo si P [A ∩ B] = P [A] · P [B] .
Esta definición puede extenderse al caso en que tengamos dos variables aleatorias X e Y .
Definición 5.3.1 X e Y son v.a. estadísticamente independientes si y sólo si

fX,Y (x, y) = fX (x) · fY (y) ,

donde fX,Y (·), fX (·) y fY (·) son función de densidad o función masa, dependiendo de si las
variables son discretas o continuas.
La interpretación del hecho de que dos variables aleatorias sean estadísticamente independientes
es que el comportamiento de una no tiene ningún efecto sobre la otra y viceversa. Cabe preguntarse
en ese caso, qué sentido tiene una distribución condicionada de una variable a otra que no guarda
ninguna relación con ella. Vamos a comprobarlo calculando las distribuciones condicionadas de
variables aleatorias estadísticamente independientes:
fX,Y (x, y) fX (x) · fY (y)
fX|Y =y (x) = = = fX (x) ;
fY (y) fY (y)
es decir, el comportamiento aleatorio de una variable aleatoria condicionada al valor de otra que es
estadísticamente independiente de ella (descrito mediante la función fX|Y =y (x)) es completamente
igual que si no se condiciona a dicho valor (descrito por la función fX (x)).
 Ejemplo 5.14 Sea el vector (X,Y ) con función de densidad conjunta

24xy si x, y ≥ 0 y x + y ≤ 1
fX,Y (x, y) = .
0 en otro caso
La función de densidad marginal de X :
Z 1−x
fX (x) = 24xy · dy = 12x (1 − x)2 si 0 ≤ x ≤ 1
0

La función de densidad marginal de Y :


Z 1−y
fY (y) = 24xy · dx = 12y (1 − y)2 si 0 ≤ y ≤ 1.
0

Como
fX,Y (x, y) 6= fX (x) · fY (y) ,
las variables X e Y no son independientes. 

 Ejemplo 5.15 Sea ahora el vector (X,Y ) con función de densidad conjunta

4xy si 0 ≤ x, y y x, y ≤ 1
fX,Y (x, y) =
0 en otro caso
La función de densidad marginal de X:
Z 1
fX (x) = 4xy · dy = 2x si 0 ≤ x ≤ 1
0

La función de densidad marginal de Y :


Z 1
fY (y) = 4xy · dx = 2y si 0 ≤ y ≤ 1.
0
5.3 Independencia estadística 125

Como
fX,Y (x, y) = fX (x) · fY (y) ,
las variables aleatorias X e Y son independientes. 

 Ejemplo 5.16 Supongamos que dos componentes electrónicas tienen una duración cuya distribu-
ción de probabilidad puede considerarse exponencial de parámetro λ = 2 horas−1 . Las componentes
funcionan en paralelo, por lo que podemos considerar que son independientes. Por lo tanto, su
función de densidad conjunta será

fX,Y (x, y) = 2e−2x 2e−2y = 4e−2(x+y)

si x, y > 0.
¿Cuál será la probabilidad de que alguna de las componentes dure más de dos horas? Podemos
plantearlo como

P [X > 2 ∪Y > 2] = P [X > 2] + P [Y > 2] − P [X > 2 ∩Y > 2]


= P [X > 2] + P [Y > 2] − P [X > 2] P [Y > 2] ,

donde se ha utilizado en la probabilidad de la intersección el hecho de que las variables son


independientes. Ahora sólo bastaría recordar que P [X > 2] = e−2×2 y P [Y > 2] = e−2×2 .
¿Cuál sería la probabilidad de que la duración total de ambas componentes sea inferior a dos
horas? La duración total vendría dada por X +Y , luego se nos pregunta por
Z 2 Z 2−x
P [X +Y < 2] = 4e−2(x+y) dydx
0 0
Z 2h  i
= 2e−2x 1 − e−2(2−x) dx
0
Z 2
2e−2x − 2e−4 dx

=
0
= 1 − e−4 − 2e−4 × 2


= 1 − 5e−4

De la interpretación que hemos dado de variables independientes se sigue de manera inmediata


que si dos variables aleatorias son independientes, esto es, no mantienen ninguna relación, tampoco
lo harán funciones suyas. Este hecho se recoge en el siguiente resultado.

Teorema 5.3.1 Si X e Y son variables aleatorias independientes y V = g (X) y W = h (Y ) son


funciones suyas, entonces, V y W también son independientes.

En el ámbito de las Telecomunicaciones se dan numerosas situaciones donde aparece una varia-
ble aleatoria W , suma de otras dos variables aleatorias (generalmente continuas) estadísticamente
independientes, X e Y, es decir, W = X +Y. Por ejemplo, se da cuando a una señal X se le adhiere
un ruido que le es completamente ajeno (independiente), Y . En ese caso, la suma representa la señal
resultante y querremos conocer su comportamiento aleatorio a partir del de X e Y . Esto se conoce
como teorema de convolución.
Teorema 5.3.2 — Teorema de convolución. Sean X e Y dos variables aleatorias indepen-
dientes y sea W = X +Y . Entonces:
126 Capítulo 5. Variables aleatorias con distribución conjunta

Si X e Y son continuas,
Z ∞
fW (w) = fY (y) · fX (w − y) · dy
−∞
= fX ∗ fY (w)

donde fX y fY son las funciones de densidad de X e Y , respectivamente.


Si X e Y son discretas,

fW (w) = ∑ fY (y) · fX (w − y)
y

= fX ∗ fY (w)

donde fX y fY son las funciones masa de X e Y , respectivamente.

 Ejemplo 5.17 Un sistema opera con una componente clave cuya duración, T1 , sigue una dis-
tribución exponencial de parámetro λ . Si esta componente falla, inmediatamente se pone en
funcionamiento una componente exactamente igual que hasta entonces ha funcionado en standby,
cuya duración notamos por T2 , variable aleatoria independiente de T1 .
Si pretendemos conocer la distribución de probabilidad de la duración total del sistema, que
vendrá dada por la variable aleatoria T = T1 + T2 , podemos poner en práctica el teorema de
convolución. Para ello, tengamos en cuenta que

fTi (x) = λ e−λ x , i = 1, 2,

para x > 0. Por tanto, Z z


fT (z) = λ e−λ x λ e−λ (z−x) dx = λ 2 ze−λ z
0

para z > 0. Se trata de una distribución Erlang de parámetros 2 y λ . De hecho, ésta es una de las
caracterizaciones de la distribución Erlang, suma de exponenciales independientes. 

En el caso de que en vez de dos variables aleatorias se tenga un vector X = (X1 , ..., XN )0 , la
manera natural de extender el concepto de independencia es inmediata.
Definición 5.3.2 Se dice que el vector está formado por componentes independientes si

fX1 ,...,XN (x1 , ..., xN ) = fX1 (x1 ) · ... · fXN (xN ) .

Definición 5.3.3 Si se tienen dos vectores aleatorios XN×1 e YM×1 , se dice que son indepen-
dientes si
fX,Y (x1 , ..., xN , y1 , ..., yM ) = fX (x1 , ..., xN ) fY (y1 , ..., yM ) .

5.4 Medias, varianzas y covarianzas asociadas a un vector aleatorio


Definición 5.4.1 Si tenemos un vector aleatorio formado por las variables aleatorias X1 , ..., XN
y g (·) es una función de estas variables, entonces, la media o esperanza matemática de esta
función es
Z ∞ Z ∞
E [g (X1 , ..., XN )] = ... g (x1 , ..., xN ) · fX1 ,...,XN (x1 , ..., xN ) · dxN · ... · dx1
−∞ −∞

donde fX1 ,...,XN (x1 , ..., xN ) es la función de densidad o la función masa del vector aleatorio
(entendiendo en este último caso la integral como una suma).
5.4 Medias, varianzas y covarianzas asociadas a un vector aleatorio 127

Como consecuencia inmediata de esta definición, tenemos una primera e importante propiedad:
este operador esperanza multivariante también es lineal, en el sentido que se recoge en el siguiente
resultado.
0
Teorema 5.4.1 Si tenemos un vector aleatorio (X1 , ..., XN ) y α1 , ..., αN escalares cualesquiera,
entonces
E [α1 X1 + ... + αN XN ] = α1 E [X1 ] + ... + αN E [XN ] ,
es decir, la media de la suma ponderada es la suma ponderada de las medias.

Podemos tratar de recordar este resultado si pensamos que es exactamente la misma propiedad
que tiene el operador integral, que parte las sumas y saca fuera los escalares.

5.4.1 Covarianza y coeficiente de correlación lineal


Anteriormente hemos comentado que estudiar vectores aleatorios desde una perspectiva estadís-
tica tiene sentido, sobre todo, porque permite analizar las relaciones que se dan entre las variables
del vector.
Por ejemplo, vimos cómo los valores de una variable pueden afectar en mayor o menor medida
a la distribución de probabilidad de las otras variables.
Sin embargo, sería muy interesante disponer de una medida numérica sencilla de calcular y
de interpretar para cuantificar al menos en parte cuál es el grado de relación existente entre dos
variables de un vector aleatorio.
Definición 5.4.2 Dado el vector aleatorio (X,Y ), se define la correlación entre X e Y como

RXY = m11 = E [XY ] ,

a partir de la cual se define la covarianza entre X e Y como

Cov (X,Y ) = E [(X − EX) · (Y − EY )] = E [XY ] − EX · EY = RXY − EX · EY.

La covarianza entre dos variables2 es una medida de la asociación lineal existente entre ellas.
Será positiva si la relación entre ambas es directa (si crece una crece la otra) y negativa si es inversa
(si crece una decrece la otra); además, será tanto mayor en valor absoluto cuanto más fuerte sea la
relación lineal existente.
Para poder valorar esta relación lineal en términos relativos se estandariza la covarianza, dando
lugar a lo que se conoce como coeficiente de correlación lineal.
Definición 5.4.3
Cov [X,Y ]
ρ=p .
Var [X] ·Var [Y ]

Vamos a detallar claramente los posibles valores de ρ y su interpretación:


Este coeficiente es siempre un número real entre -1 y 1.
Si es cero, indica una ausencia total de relación lineal entre las variables.
Si es uno o menos uno indica una relación lineal total entre las variables, directa o inversa
según lo indique el signo (esto lo veremos enseguida).
En la medida en que esté más lejos del cero indica una relación lineal más intensa entre las
variables.
2 Si se considera la covarianza de una variable aleatoria consigo misma,
h i
Cov (X, X) = E [(X − EX) (X − EX)] = E (X − EX)2 = VarX,

esta cantidad coincide con su varianza.


128 Capítulo 5. Variables aleatorias con distribución conjunta

Definición 5.4.4 Si dos variables aleatorias tienen covarianza cero o equivalentemente, si


RXY = EX · EY, se dicen que son incorreladas. Por su parte, si dos variables aleatorias son tales
que RXY = 0, se dice que son ortogonales.

Dos variables aleatorias son incorreladas si carecen de cualquier tipo de relación lineal. Por otra
parte, definimos anteriormente el concepto de independencia entre variable aleatoria, que implicaba
la ausencia de relación entre ellas. Tenemos, así, dos conceptos, independencia e incorrelación, que
están bastante relacionados.
En concreto, dos variable aleatoria independientes, X e Y , son siempre incorreladas, es decir,
ρX,Y = 0. La razón es que, por ser independientes,

fX,Y (x, y) = fX (x) · fY (y) ,

luego
Z ∞Z ∞
RXY = xy · fX (x) · fY (y) · dy · dx
Z−∞

−∞
Z ∞
= x fX (x) dx · y fY (y) dy = EX · EY,
−∞ −∞

en cuyo caso Cov [X,Y ] = 0.


La pregunta obvia que surge a la luz de este resultado es: ¿y al contrario? ¿Dos variables
aleatoria incorreladas serán independientes? O equivalentemente, ¿si dos variable aleatoria no
tienen ninguna relación de tipo lineal (incorreladas), ocurrirá que tampoco tienen ninguna relación
de ningún tipo (independientes)? La respuesta es que no en general.
 Ejemplo 5.18 Sea α una variable aleatoria con distribución uniforme en (0, 2π). Sean

X = cos α
Y = sin α.

Se tiene que
Z 2π
1
EX = cos α dα = 0
0 2π
Z 2π
1
EY = sin α dα = 0
0 2π
Z 2π
1
E [XY ] = sin α cos α dα
0 2π
1 2π
Z
= sin 2αdα = 0,
2π 0
por lo que X e Y son variables incorreladas. Sin embargo, puede demostrarse fácilmente que no son
independientes. 

R La relación más fuerte de tipo lineal que puede darse corresponde al caso en que una variable
aleatoria Y es exactamente una combinación lineal de otra, X, es decir, Y = aX + b. En ese
caso,
ρXY = 1 · signo (a) .
La demostración es muy sencilla. Tengamos en cuenta que

E [XY ] = E [X (aX + b)] = aE X 2 + bE [X] ,


 
5.4 Medias, varianzas y covarianzas asociadas a un vector aleatorio 129

luego

Cov (X,Y ) = E [XY ] − EX · EY


= aE X 2 + bE [X] − EX (aEX + b)
 

= a E X 2 − EX 2 = aVarX
  
h i
VarY = E ((aX + b) − (aEX + b))2
h i h i
= E (aX − aEX)2 = E a2 (X − EX)2
h i
= a2 E (X − EX)2 = a2VarX,

y
Cov (X,Y ) aVarX
ρXY = √ =√ = 1 · signo (a) .
VarX ·VarY VarXa2VarX

R Es importante insistir en que la covarianza y su versión estandarizada, el coeficiente de


correlación lineal, proporcionan una medida de la relación lineal, no de otro tipo. Por ejemplo,
supongamos que la Figura 5.3 representa los valores conjuntos de dos variables X e Y . Está
claro que ambas guardan una clarísima relación dada por una parábola: de hecho, Y = X 2 . Sin
embargo, el coeficiente de correlación lineal entre ambas será muy bajo, ya que en realidad, la
relación que las une no es lineal en absoluto, sino parabólica. En este caso, lo recomendable

sería, a la vista del gráfico, decir que sí existe una fuerte relación lineal entre X e ± Y .

Figura 5.3: Muestra conjunta de valores de dos variables aleatorias

Cuando se tienen muestras de pares de variables aleatorias, podemos calcular la versión muestral
del coeficiente de correlación lineal. Esa versión muestral dará una estimación del verdadero valor
del coeficiente de correlación (poblacional). Esta cuestión se aborda con más detalle en el capítulo
de regresión. Aquí tan sólo queremos plasmar con ejemplos cómo se traduce el hecho de que
dos variables tengan un mayor o menor coeficiente de correlación. En la Figura 5.4 observamos
representaciones conjuntas de muestras de pares de variables en unos ejes cartesianos (nubes de
puntos). Cada punto de cada eje cartesiano representa un valor dado de la muestra del par (X,Y ).
Aparecen 4 figuras, correspondientes a 4 simulaciones de pares de variables (X,Y ) con distintos
coeficientes de correlación.
 Ejemplo 5.19 Sean X e Y las variable aleatoria que miden el tiempo que transcurre hasta la
primera y la segunda llamada, respectivamente, a una centralita telefónica. La densidad conjunta de
estas variables es fX,Y (x, y) = e−y para 0 < x < y. En un ejemplo anterior ya vimos que, lógicamente,
el tiempo hasta la segunda llamada depende del tiempo hasta la primera llamada, pero ¿en qué
130 Capítulo 5. Variables aleatorias con distribución conjunta

ro=1 ro=−1
8 6

6 5

4
4
3
2
2
0
1
−2 0

−4 −1
−4 −2 0 2 4 −4 −2 0 2 4

ro=0 ro=0.7075
4 6

3
4
2

1 2

0 0
−1
−2
−2

−3 −4
−4 −2 0 2 4 −4 −2 0 2 4

Figura 5.4: Nubes de puntos correspondientes a distintos posibles coeficientes de correlación lineal

grado? Vamos a abordar este problema calculando el coeficiente de correlación lineal entre ambas
variables.
)
Como ρX,Y = √Cov(X,Y
VarXVarY
, tenemos que calcular Cov (X,Y ), VarX y VarY.
Z Z
E [XY ] = xy fX,Y (x, y) dxdy
y
x2
Z ∞Z y Z ∞ 
= xye−y dxdy = ye−y dy
0 0 0 2 0
Z ∞ y3
= e−y dy = 3.
0 2
Z Z ∞
fX (x) = fX,Y (x, y) dy = e−y dy = e−x , para x > 0,
x
luego Z Z ∞
EX = x fX (x) dx = xe−x dx = 1.
0
Z Z y
fY (y) = fX,Y (x, y) dx = e−y dx = ye−y , para y > 0,
0
luego Z Z ∞
EY = y fY (y) dy = y2 e−y dy = 2.
0
5.4 Medias, varianzas y covarianzas asociadas a un vector aleatorio 131

Por tanto,
Cov (X,Y ) = 3 − 1 × 2 = 1.
Por su parte,
 2 Z 2 Z ∞
E X = x fX (x) dx = x2 e−x dx = 2
0
VarX = 2 − 12 = 1

y
 2 Z 2 Z ∞
E Y = y fY (y) dy = y3 e−y dy = 6
0
VarY = 6 − 22 = 2,

así que, finalmente,


1
ρX,Y = √ = 0.707.
1×2
El resultado indica que, en efecto, el grado de relación lineal es alto y directo. 

Las propiedades del operador esperanza son muy útiles en la práctica, por ejemplo, cuando se
trata de conocer la varianza de combinaciones lineales de varias variables. Veamos algún ejemplo
al respecto y después un resultado general que los englobe todos.
 Ejemplo 5.20 Calculemos la varianza de X1 + X2 :
h i
E (X1 + X2 )2 = E X12 + X22 + 2X1 X2 = E X12 + E X22 + 2E [X1 X2 ]
     

h i
Var (X1 + X2 ) = E (X1 + X2 )2 − E [X1 + X2 ]2
= E X12 + E X22 + 2E [X1 X2 ] − (EX1 + EX2 )2
   

= E X12 + E X22 + 2E [X1 X2 ] − EX12 − EX22 − 2EX1 EX2


   

= E X12 − EX12 + E X22 − EX22 + 2 (E [X1 X2 − EX1 EX2 ])


   

= VarX1 +VarX2 + 2Cov (X1 , X2 ) .

 Ejemplo 5.21 Calculemos la varianza de X1 − X2 :


h i
E (X1 − X2 )2 = E X12 + X22 − 2X1 X2 = E X12 + E X22 − 2E [X1 X2 ]
     

h i
Var (X1 − X2 ) = E (X1 − X2 )2 − E [X1 − X2 ]2
= E X12 + E X22 − 2E [X1 X2 ] − (EX1 − EX2 )2
   

= E X12 + E X22 − 2E [X1 X2 ] − EX12 − EX22 + 2EX1 EX2


   

= E X12 − EX12 + E X22 − EX22 − 2 (E [X1 X2 − EX1 EX2 ])


   

= VarX1 +VarX2 − 2Cov (X1 , X2 ) .

Podemos generalizar estos ejemplos en el siguiente resultado.


132 Capítulo 5. Variables aleatorias con distribución conjunta

Teorema 5.4.2 Sea una suma de N−variables, X = ∑N


i=1 αi · Xi . Entonces,

N N
Var [X] = ∑ ∑ αi · α j ·Cov (Xi , X j ) ,
i=1 j=1

donde Cov (Xi , Xi ) = Var (Xi ), para i = 1, ..., N.

La demostración es bien sencilla. Como X̄ = ∑Ni=1 αi · EXi ,


h i
2
Var [X] = E (X − X̄)
" ! !#
N N
=E ∑ αi · (Xi − X̄i ) ∑ αi · (Xi − X̄i )
i=1 i=1
N N
= ∑ ∑ αi · α j · E [(Xi − X̄i ) (X j − X̄ j )]
i=1 j=1
N N
= ∑ ∑ αi · α j ·Cov (Xi , X j )
i=1 j=1

Fijémonos que, en el caso en que las variables sean incorreladas,


N N N
Var [X] = ∑ ∑ αi · α j ·Cov (Xi , X j ) = ∑ αi2 ·Var [Xi ] ,
i=1 j=1 i=1

ya que 
0 si i 6= j
Cov [X,Y ] = .
Var [Xi ] si i = j

5.4.2 Vector de medias y matriz de varianzas-covarianzas de un vector


0
Definición 5.4.5 Dado un vector de N−variables, X = (X1 , ..., XN ) , se define su vector de
medias como  
E [X1 ]
µX =  ..
,
 
.
E [XN ]
y su matriz de varianzas-covarianzas como

CX = (Ci, j )i, j=1,...,N ,

donde 
Var (Xi ) si i = j
Ci, j = .
Cov (Xi , X j ) si i 6= j
Esta matriz contiene las varianzas de cada variable del vector en la diagonal y en el elemento
(i, j) la covarianza entre la i−ésima y la j−ésima variable.

En forma matricial, la matriz de covarianzas puede definirse como

CX N×N = E (X − µX )N×1 (X − µX )01×N .


 

Por otra parte,


CX = E (X − µX ) (X − µX )0 = E XX 0 − µX µX0 ,
   
5.5 Distribución normal multivariante 133

donde a la matriz E [XX 0 ] se le suele denominar matriz de correlaciones o de autocorrelaciones,


y se le nota RX .
Ambas matrices, CX y RX , son matrices simétricas.
La linealidad del operador media facilita rápidamente la expresión del vector de medias y
la matriz de varianzas-covarianzas de combinaciones lineales de vectores, como se recoge en el
siguiente resultado.

Teorema 5.4.3 Si tenemos el vector aleatorio XN×1 con vector de medias µX y matriz de
varianzas covarianzas CX y el vector YM×1 = AM×N · XN×1 + bM×1 , entonces, el vector de medias
y la matriz de varianzas covarianzas de Y vienen dadas por

µY = AµX + b
CY = ACX A0 .

 Ejemplo 5.22 Vamos a ver que la aplicación de este resultado facilita bastante determinados

cálculos. Por ejemplo, si queremos calcular Var (X1 + X2 ), podemos tener en cuenta que
 
 X1
X1 + X2 = 1 1 ,
X2

de manera que
  
 VarX1 Cov (X1 , X2 ) 1
Var (X1 + X2 ) = 1 1
Cov (X1 , X2 ) VarX2 1
= VarX1 +VarX2 + 2Cov (X1 , X2 ) .

De igual forma, si queremos calcular Var (5X1 − 3X2 ) , dado que


 
 X1
5X1 − 3X2 = 5 −3 ,
X2

se tiene que
  
 VarX1 Cov (X1 , X2 ) 5
Var (5X1 − 3X2 ) = 5 −3
Cov (X1 , X2 ) VarX2 −3
= 25VarX1 + 9VarX2 − 30Cov (X1 , X2 ) .

5.5 Distribución normal multivariante


En el contexto de los modelos de distribuciones de probabilidad para variables aleatorias, la
distribución normal constituye el ejemplo más relevante, tanto por la frecuencia de su aplicación en
casos reales como por la gran versatilidad de sus propiedades matemática. En el contexto de los
vectores aleatorios que estamos tratando en este capítulo, nos ocupamos de la versión multivariante
de esta distribución. De nuevo podemos estar seguros de que se trata del caso más interesante
por dos motivos: porque aparece como modelo adecuado en un gran número de fenómenos de la
naturaleza y porque sus propiedades matemáticas son inmejorables.
0
Definición 5.5.1 Un vector formado por N variables aleatorias X = (X1 , ..., XN ) se dice que
sigue una distribución normal multivariante o distribución conjuntamente normal o con-
juntamente gaussiana, con vector de medias µX y matriz de varianzas-covarianzas CX , si su
134 Capítulo 5. Variables aleatorias con distribución conjunta

función de densidad conjunta es de la forma


 
1 1
fX (x) = q · exp − (x − µX )0 ·CX−1 (x − µx ) ,
2
(2π)N det (CX )

donde

CX = (Ci, j )i, j=1,...,N



Var [Xi ] si i = j
Ci j =
Cov [Xi , X j ] si i 6= j
x = (x1 , ..., xN )0
µX = (EX1 , ..., EXN )0

y se nota X → NN (µX ;CX ) .

Vamos a destacar algunas de las excelentes propiedades de la distribución normal multivarian-


te.
Teorema 5.5.1 Cualquier marginal sigue también una distribución normal. En concreto,
si tenemos un vector XN×1 = (X1 , ..., XN )0 con distribución conjuntamente gaussiana de
vector de medias µ y matriz de covarianzas CX , en ese caso, el subconjunto de variables del
vector, (Xi1 , ..., XiM ), con M < N también sigue distribución conjuntamente gaussiana, de
parámetros (µi1 , ..., µiM )0 y matriz de covarianzas constituida por las filas y las columnas
de CX correspondientes a las variables Xi1 , ..., XiM .
Cualquier distribución condicionada sigue también una distribución normal. Concretamente,
la distribución de XN×1 condicionada a YM×1 = yM×1 , siendo (X,Y )0(M+N)×1 conjuntamente
gaussiano, es gaussiana de vector de medias
X
+ (CXY )N×M CY−1 M×M yM×1 − µM×1 Y
 
E [X |Y=y ] = µN×1

y matriz de varianzas-covarianzas
 
Var X |Y=y = CX −CXY CY−1CXY
0
,

donde el elemento (i, j) de CXY es Cov (Xi ,Y j ).


Cualquier combinación lineal de un vector normal es también normal.

0
 Ejemplo 5.23 Sea un vector (X1 , X2 , X3 ) gaussiano, de vector de medias cero y matriz de
covarianzas

 
2 1 0
 1 3 1 .
0 1 1

En aplicación del resultado anterior, las marginales univariantes siguen las distribuciones
siguientes: X1 → N (0, 2) , X2 → N (0, 3) , X3 → N (0, 1).
5.5 Distribución normal multivariante 135

Por su parte, las marginales bivariantes siguen las distribuciones siguientes:


   
0 0 2 1
(X1 , X2 ) → N2 ,
0 1 3
   
0 0 2 0
(X1 , X3 ) → N2 ,
0 0 1
   
0 0 3 1
(X2 , X3 ) → N2 ,
0 1 1


 Ejemplo 5.24 Siguiendo con el ejemplo anterior, vamos a considerar la distribución de X1


condicionada a (X2 , X3 )0 = (0.5, 0.25)0 . Según el resultado, ésta es gaussiana, de vector de medias
 3 1 −1
   
0.5 − 0
E [X1 |X2 =0.5, X3 =0.25 ] = 0 + 1 0 = 0.125
1 1 0.25 − 0
y matriz de covarianzas (es decir, varianza)
 −1  
 3 1 1
Var (X1 |X2 =0.5, X3 =0.25 ) = 2 − 1 0 = 1.5
1 1 0


Ejemplo 5.25 Como caso particular, vamos a describir con más detalle el caso bivariante, tanto
en lo que respecta a su densidad como a las distribuciones marginales y condicionadas.
Sea por tanto un vector (X,Y )02×1 , con distribución conjuntamente gaussiana de vector de
medias (µX , µY )0 y matriz de covarianzas
σX2
 
ρσX σY
C(X,Y ) = ,
ρσX σY σY2
)
donde ρ = Cov(X,Y 2σ 2 1 − ρ2 y

σX σY es el coeficiente de correlación lineal. Entonces, detC(X,Y ) = σX Y

1 ρ !
−1 1 σX2 − σ σ
X Y
C(X,Y ) = 1 − ρ2 − σXρσY 1 .
σ2 Y

Por tanto, la función de densidad conjunta es


1
fX,Y (x, y) = p
2πσX σY 1 − ρ 2
( " #)
−1 (x − µX )2 2ρ (x − µx ) (y − µY ) (y − µY )2
· exp − + .
2 (1 − ρ 2 ) σX2 σX σY σY2
1√
Esta función alcanza su máximo, ,
en el punto (µX , µY ).
2πσX σY 1−ρ 2
Evidentemente, las distribuciones marginales son N µX , σX2 y N µY , σY2 .
 

En lo que respecta a las distribuciones condicionadas, aplicando el correspondiente resultado


tenemos que
 
σX 2 2

X | Y = y0 → N µX + ρ (y0 − µY ) ; σX 1 − ρ
σY
 
σY 2 2

Y | X = x0 → N µY + ρ (x0 − µX ) ; σY 1 − ρ .
σX
Obsérvese que, curiosamente, la varianza condicionada no depende del valor que condiciona. 
136 Capítulo 5. Variables aleatorias con distribución conjunta

0.15 0.15
z

0.10 0.10

z
0.05 0.05
0.00
3 3
2 2
1 1
0 0
y

y
−1 3 −1 3
1 2 1 2
−2 −2
−1 0x −1 0x
−3−3 −2 −3−3 −2

µ1 = 0 , σ1 = 1 , µ2 = 0 , σ2 = 1 , ρ = 0 µ1 = 0 , σ1 = 1 , µ2 = 0 , σ2 = 1 , ρ = 0.5

0.3 0.3
0.2 0.2
z

0.1 0.1
0.0 0.0
3 3
2 2
1 1
0 0
y

−1 3 −1 3
1 2 1 2
−2 −2
−1 0x −1 0x
−3−3 −2 −3−3 −2

µ1 = 0 , σ1 = 1 , µ2 = 0 , σ2 = 1 , ρ = 0.9 µ1 = 0 , σ1 = 1 , µ2 = 0 , σ2 = 1 , ρ = −0.9

Figura 5.5: Ejemplos de densidades de la normal bivariantes con µX = µY = 0, σX = σY = 1 y


ρ = 0, 0.5, 0.9 y −0.9
5.5 Distribución normal multivariante 137
Continuando con las propiedades, una de las más útiles es su invarianza frente a transformacio-
nes lineales.
0
Teorema 5.5.2 Si tenemos un vector aleatorio XN×1 = (X1 , ..., XN ) con distribución gaussiana,
vector de medias µX y matriz de covarianzas CX , entonces una combinación lineal suya,

YM×1 = AM×N · XN×1 + bM×1

tiene distribución gaussiana de vector de medias µY = A · µX + b y matriz de covarianzas


CY = A ·CX · A0 .

 Ejemplo 5.26 Sean dos variable aleatoria X1 y X2 con distribución conjuntamente gaussiana con
medias cero, varianzas σX21 = 4 y σX22 = 9 y covarianza, cX1 ,X2 = 3. Si estas variables se transforman
linealmente en las variables
Y1 = X1 − 2X2
Y2 = 3X1 + 4X2
las nuevas variables tienen distribución conjuntamente gaussiana, con medias
     
0 1 −2 0 0
(µY1 , µY2 ) = · =
3 4 0 0
y matriz de covarianzas
σY21 cY1 ,Y2
       
1 −2 4 3 1 3 28 −66
= =
cY1 ,Y2 σY22 3 4 3 9 −2 4 −66 252


Otra de las más importantes propiedades es que se trata del único caso en el que independencia
e incorrelación son equivalentes.

Teorema 5.5.3 Si XN×1 es un vector con distribución conjuntamente gaussiana, entonces sus
componentes son incorreladas si y sólo si son independientes.

La demostración es sencilla. Ya sabemos que si son independientes son incorreladas (incluso si


la distribución no es conjuntamente gaussiana). Por su parte, para probar que si son incorreladas
entonces son independientes sólo hay que tener en cuenta que si son incorreladas, la matriz de
covarianzas es diagonal y la densidad conjunta puede expresarse como producto de las marginales,
ya que
 
1 1 0 −1
fX (x1 , ..., xN ) = q exp − (x − µX ) CX (x − µX )
2
(2π)N det (CX )
(  )
1 N xi − µi 2

1
=q exp − ∑
N 2 2 2 i=1 σi
(2π) σ1 ...σN
N
= ∏ fXi (xi ) .
i=1

donde x = (x1 , ..., xN )0 , µX = (µ1 , ..., µN )0 y


 2 
σ1 . . . 0
CX =  ... . . . ...  .
 

0 . . . σN2
138 Capítulo 5. Variables aleatorias con distribución conjunta

5.6 Para saber más


Se recomienda leer los capítulos correspondientes a vectores aleatorios de Leon-Garcia (2011),
Viniotis (1998) y Woods y Stark (2011).
5.6 Para saber más 139

——————————————————————————–
III
6 Introducción a la inferencia estadística
Inferencia estadística
6.1
143
Introducción
6.2 Muestreo aleatorio
6.3 Parámetros muestrales y parámetros poblacionales
6.4 Formas de estimar un parámetro poblacional
6.5 Para saber más

7 Estimación puntual de parámetros . . 149


7.1 Introducción
7.2 Estimadores puntuales y su error asociado
7.3 Estimación Bootstrap del error estándar de un esti-
mador
7.4 Estimación insesgada de media, varianza y propor-
ción y error estándar asociado
7.5 Estimación de parámetros mediante el método de
los momentos
7.6 Estimación de parámetros mediante el método de
máxima verosimilitud
7.7 Resumen
7.8 Para saber más
7.9 Ejercicios

8 Estimación por intervalos de confianza


169
8.1 Introducción
8.2 Intervalos de confianza aproximados para medias
y proporciones con muestras grandes
8.3 Intervalos de confianza en variables normales para
media y varianza
8.4 Determinación del tamaño muestral
8.5 Resumen
8.6 Para saber más
8.7 Ejercicios

9 Contraste de hipótesis estadísticas . . 183


9.1 Introducción
9.2 Toma de la decisión en un contraste de hipótesis.
Concepto de p-valor
9.3 Contrastes para la media
9.4 Contrastes de bondad de ajuste
9.5 Relación entre contrastes de hipótesis paramétri-
cas e intervalos de confianza
9.6 Resumen
9.7 Para saber más
9.8 Ejercicios

10 Regresión Lineal Simple . . . . . . . . . . . . . 223


10.1 Introducción
10.2 Definición y ajuste del modelo
10.3 Inferencias sobre el modelo
10.4 Correlación lineal simple
10.5 Predicción y estimación a partir del modelo
10.6 Diagnosis del modelo
10.7 Resumen
10.8 Para saber más
10.9 Ejercicios
6. Introducción a la inferencia estadística

¡Datos! ¡Datos! ¡Datos! - exclamó con impaciencia - ¡No puedo fabricar ladrillos si no tengo
arcilla!

Sherlock Holmes, en El Misterio de Copper Beeches, de Arthur Conan Doyle

La vida es el arte de sacar conclusiones suficientes a partir de datos insuficientes

Samuel Butler (1612-1680), poeta inglés.

Objetivos
Este capítulo es fundamentalmente teórico y su objetivo principal es poner de manifiesto la
necesidad de inferir a partir de los datos. Se introducen los conceptos básicos de la inferencia
paramétrica. Los objetivos particulares son:
1. Aprender a diferenciar parámetros muestrales de parámetros poblacionales.
2. Distinguir las formas de realizar inferencia sobre los parámetros de una población: estimación
puntual, por intervalos de confianza y contraste de hipótesis.

6.1 Introducción
El concepto de variable aleatoria, como ya hemos puesto de manifiesto, viene motivado por el
hecho de que muchas de las variables que se observan en la vida real en general y en el ambiente
de las Ingenierías en particular, están sujetas a incertidumbre. Eso quiere decir que si nosotros
obtenemos observaciones de esas variables (muestras), estas observaciones no son idénticas.
De hecho, al hablar de distribuciones teóricas de probabilidad, lo que pretendíamos era proponer
un modelo que describiera las posibles ocurrencias de la variable en términos de frecuencias
esperadas y que permitiera calcular probabilidades asociadas, no a una muestra en particular de
datos, sino a todas las posibles muestras, con todos los posibles datos de la variable.
144 Capítulo 6. Introducción a la inferencia estadística

Si pensamos en los datos que se recogen en las muestras de una variable aleatoria y en su
relación con las distribuciones de probabilidad que los describen, podemos establecer una analogía
que en ocasiones resulta muy útil: las distribuciones de probabilidad son a los datos de la variable
como un traje que elegimos para ponernos cualquier día durante un periodo de tiempo amplio. En
la medida que el traje de una variable, su distribución, le quede bien, los resultados que obtengamos
mediante el cálculo de probabilidades podrán aplicarse a cualquier dato o conjunto de datos de
la variable. Pero igualmente, si un traje (una distribución de probabilidad teórica) no le queda
bien a una variable, los resultados teóricos, obtenidos a partir de una función masa o una función
de densidad teóricas, pueden no ser realistas respecto a los resultados empíricos que se obtengan
mediante muestras de la variable.
¿Cuál es, entonces, el objetivo ahora, en este y sucesivos capítulos? Sabemos que, en general,
las distribuciones teóricas de probabilidad dependen de uno o más parámetros. Lo que nos ocupará
a partir de ahora, y es un proceso complejo, es tratar de elegir adecuadamente esos parámetros. En
la analogía del traje podríamos pensar que inferir los parámetros es como aprender a escoger la
talla.
En este capítulo vamos a comenzar tratando de diferenciar claramente lo que son parámetros
muestrales de los poblacionales, y vamos a emplear simulaciones basadas en muestras pseudoalea-
torias para poner ejemplos de cómo se realizaría el proceso de inferencia.

6.2 Muestreo aleatorio


En multitud de ámbitos de la vida real es evidente que la mejor forma de aprender algo es a
partir de la experiencia. Eso quiere decir que solemos utilizar aquello que vivimos para aprender
pautas y conductas que aplicamos de forma general en nuestra vida diaria. Por poner un ejemplo,
de pequeños aprendimos a subir y bajar una escalera, probablemente la que tenemos en casa, pero
luego inferimos inconscientemente que lo que nos servía para esa escalera, valía para todas (o casi
todas).
En Estadística pasa algo muy similar: necesitamos basarnos en la experiencia, en forma de
datos recogidos en muestras de una variable, para poder aprender de ella y generalizar, inferir,
aspectos referentes a toda la población. Sin embargo, como en la vida real, en Estadística también
debemos ser muy cuidadosos con los datos sobre los que basamos nuestro aprendizaje. ¿Qué pasaría
si basamos nuestro aprendizaje en experiencias incorrectas o poco significativas?
Para que esto no ocurra debemos basarnos en muestras donde todos los individuos de la
población puedan verse representados. El concepto clave en este planteamiento es el de muestra
aleatoria simple. Supongamos que estamos observando una variable aleatoria, X, en una población
determinada. Ya dijimos en el capítulo de introducción que una muestra aleatoria simple de X
consiste en la recopilación de datos de la variable, mediante la repetición del experimento al que
está asociada, con dos condiciones básicas:
1. Que todos los elementos de la población tengan las mismas posibilidades de salir en la
muestra.
2. Que las distintas observaciones de la muestra sean independientes entre sí.
En ese caso, los valores que toma la variable en cada una de las observaciones de una muestra de
tamaño N, X1 , ..., XN , son en sí mismos, variables aleatorias independientes que siguen la misma
distribución de probabilidad, llamada distribución poblacional. Esta distribución es, en principio,
desconocida, por lo que se intentará utilizar la muestra para hacer inferencia sobre ella y, al menos,
aproximar la forma de esta distribución.
 Ejemplo 6.1 Supongamos que queremos obtener una muestra aleatoria simple de cuentas de

Twitter para analizar la variable número de seguidores. Imaginemos que, para ello, seleccionamos
al azar un gran número de tuits y anotamos, para cada uno de ellos, el número de seguidores que
6.3 Parámetros muestrales y parámetros poblacionales 145

tiene quien escribió el tuit.


Eso sería un error que no conduciría a una muestra aleatoria simple, ya que estaríamos dándole
más probabilidades de salir en la muestra a las cuentas que más tuits producen. El muestreo debería
hacerse de tal manera que todas las cuentas tuvieran la misma probabilidad de ser elegidas en la
muestra, lo cual no es fácil. 

 Ejemplo 6.2 Uno de los errores más garrafales debido a la inadecuada elección de la muestra se
dio en la elecciones presidenciales de Estados Unidos en 1936. La revista The Literary Digest había
realizado un sondeo de nada menos que 10 millones de electores y vaticinó con rotundidad y apenas
margen de error la victoria del candidato republicano, Alf Landon, sobre el demócrata, Franklin D.
Roosevelt, quien se presentaba a la reelección. La realidad fue que Roosevelt arrasó, obteniendo la
victoria en 46 de los entonces 48 estados de la Unión. Mientras tanto, un entonces casi desconocido
George Gallup, al mando del reciente Instituto Estadounidense de Opinión Pública, acertó en la
predicción con una muestra de ... ¡5000 electores!
El fracaso del sondeo de The Literary Digest se debió a que utilizó para su vaticinio la respuesta
de sus propios suscriptores enviaban a través de unos cupones que recibían en casa tras contactar
con ellos por teléfono: eso sesgó el tipo de respuesta a un colectivo de personas de poder adquisitivo
alto, que simpatizaban más con las ideas republicanas. Por el contrario, la mayoría de los votantes
de Roosevelt no tenían teléfono ni estaban suscritos a esta revista, por lo que directamente no
podían estar representados en la muestra.
Se dice que este enorme error minó la popularidad de la revista The Literary Digest hasta que,
finalmente, tuvo que cerrar. Por el contrario, el Instituto Estadounidense de Opinión Pública ha
continuado hasta nuestros días, cuando se le conoce como el Instituto Gallup, siendo actualmente
un referente en el mundo de las encuestas y una enorme empresa de prestigio internacional con
más de 2000 empleados. 

En la vida real, obtener muestras aleatorias simples depende enormemente del contexto. Es
mucho más fácil hacerlo, por ejemplo, cuando se trabaja en un laboratorio donde pueden controlarse
todas las condiciones de contorno, que si se trata de una encuesta electoral. Excede por completo
los objetivos de estos apuntes el entrar en el detalle sobre las técnicas que se emplean para obtener
muestras representativas. Nosotros vamos a partir de la hipótesis de que nuestros datos constituyen
una muestra aleatoria simple.

6.3 Parámetros muestrales y parámetros poblacionales


Definición 6.3.1 Dada una v.a., un parámetro poblacional es una cantidad que se obtendría (en
teoría) a partir de todas las observaciones de la variable o sus probabilidades y que determinan,
total o parcialmente, las características de la v.a. en la población.

En v.a. que pueden tomar muchos valores los parámetros poblacionales más habituales son
la media o la varianza, pero también lo son, por ejemplo, los percentiles. En v.a. que sólo toman
dos valores, 0 representando el fracaso y 1 representando el éxito, el parámetro poblacional más
importante es la proporción de éxitos.
Muchas de las distribuciones de probabilidad que hemos visto dependen exclusivamente de la
media, la varianza o la proporción, como la binomial, Poisson, geométrica o la normal; otras, como
la exponencial, la Gamma o la binomial negativa, dependen de otros parámetros poblacionales que
no siempre tienen una interpretación clara.
Por su propia naturaleza, los parámetros poblacionales son números reales, constantes y únicos,
aunque desgraciadamente serán desconocidos en la mayoría de las aplicaciones reales1 . Por ejemplo,
debemos recordar la definición de la media de una v.a. como suma o integral asociada a la función
1 La excepción son las poblaciones finitas, aquellas con un número limitado de casos posibles.
146 Capítulo 6. Introducción a la inferencia estadística

masa o densidad. Dado que en la mayoría de las aplicaciones reales no se conoce la verdadera
función masa o de densidad de la v.a., tampoco se conocerá su verdadera media poblacional.
Definición 6.3.2 Dada una v.a., un parámetro muestral es una cantidad que se obtiene a partir
de una muestra de observaciones de la variable.
Los parámetros muestrales más habituales son la media muestral, la varianza muestral o la
proporción muestral, pero también lo son cualesquiera percentiles o el coeficiente de asimetría, por
ejemplo, de los datos de la muestra.
Dado que los parámetros muestrales dependen de los datos de la muestra y la muestra en sí es
aleatoria, estos parámetros no son constantes, sino también variables aleatorias.
 Ejemplo 6.3 Supongamos que queremos conocer la altura media de las mujeres entre 26 y 30
años en España. Partimos de la v.a. teórica X: altura de una mujer española entre 26 y 30 años y
queremos, por tanto, conocer la media de esta variable, µ = E[X].
Si pudiéramos juntar a la vez a todas las mujeres españolas entre 26 y 30 años, no habría
problema en medirlas y obtener la altura media, pero eso es prácticamente imposible: por eso
entendemos que µ es un parámetro poblacional desconocido.
Lo que sí podríamos hacer es obtener una muestra aleatoria simple de N mujeres españolas
entre 26 y 30 años y medirlas. Si representamos las medidas como x1 , ..., xN , podríamos obtener la
media muestral,
N
xi
x̄ = ∑ .
i=1 N
Es evidente que cuanto mayor sea N más cerca estará x̄ de µ. Por otra parte, si conociéramos la
función de densidad de la v.a. X, f (x), calcularíamos µ como
Z ∞
µ= x × f (x)dx,
−∞
pero esa función es desconocida. 

6.4 Formas de estimar un parámetro poblacional


El ejemplo anterior refleja que dado un parámetro poblacional, desconocido, que queremos
aproximar o estimar (por ejemplo, la media), lo ideal es encontrar un parámetro muestral que me
de información sobre él (por ejemplo, la media muestral).
La forma de gestionar esa información es la que determina la distinta manera en que expresamos
nuestra estimación del parámetro. En Estadística, hay tres tipos de estimación, que ahora mismo
describimos de forma intuitiva y que posteriormente desarrollamos:
1. Estimación puntual: dado el parámetro poblacional desconocido, lo estimamos mediante
un valor numérico fijo y único. Por ejemplo, estimamos que la altura media de las jóvenes
españolas entre 26 y 30 años es 1.68 metros.
2. Estimación por intervalos de confianza: dado el parámetro poblacional desconocido, lo
estimamos mediante un rango de valores en el que confiamos que se encuentre. Por ejemplo,
afirmamos con un 95 % de confianza que la altura media de las jóvenes españolas entre 26 y
30 años está entre 1.64 y 1.70.
3. Contraste de hipótesis paramétricas: dado el parámetro poblacional desconocido, podemos (o
no) confirmar una hipótesis con un cierto nivel de seguridad de no equivocarnos. Por ejemplo,
afirmamos con un 95 % de confianza que la altura media de las jóvenes españolas es superior
a 1.65.
Como vamos a ver en los tres próximos capítulos, las tres formas están relacionadas entre sí:
la estimación puntual (y la cuantificación de su error asociado) suele ser la base del intervalo de
confianza, y éste puede reformularse en forma de contraste de hipótesis.
6.5 Para saber más 147

6.5 Para saber más


1. Para ampliar conceptos sobre técnicas de muestreo, ver, por ejemplo, Alba-Fernández y Ruiz-
Fuentes (2004).
2. El mismo manual ofrece detalles sobre el muestreo en poblaciones finitas.
7. Estimación puntual de parámetros

Pocas observaciones y mucho razonamiento conducen al error; muchas observaciones y poco


razonamiento, a la verdad.

Alexis Carrel

Objetivos
1. Comprender el concepto de estimador de un parámetro poblacional.
2. Motivar la propiedad de insesgadez como criterio para la elección de parámetros.
3. Comprender la necesidad de cuantificar el error que se comete con las estimaciones puntuales
mediante el error estandar.
4. Obtener estimadores insesgados de la media, la varianza y la proporción y aprender a cuantifi-
car su error estandar.
5. Obtener estimadores de las distribuciones habituales mediante el método de los momentos y
el de máxima verosimilitud.
6. Valorar el ajuste de distribuciones teóricas a conjuntos de datos mediante la comparación
gráfica de las frecuencias empíricas y esperadas.

7.1 Introducción
Vamos a tratar de describir muy bien el contexto de este capítulo. Partimos de que tenemos
entre manos una v.a., X, con una distribución de probabilidad que se describe mediante una función
masa o de densidad, f (x), que depende de algún parámetro poblacional desconocido, θ . Ese
parámetro puede ser la media, la varianza, la proporción o cualquier otro de los parámetros que
determinaban las distribuciones de probabilidad de las que hemos hablado. Como ese parámetro es
desconocido por ser poblacional, necesitamos obtener alguna aproximación o estimación a partir
de la información que proporciona una muestra aleatoria simple de la variable, X1 , ..., XN .
Por otra parte, centrándonos en la aplicación de este proceso de estimación de parámetros,
vamos a enfatizar dos líneas de trabajo:
150 Capítulo 7. Estimación puntual de parámetros

1. Debemos utilizar las estimaciones de la media, la varianza o la proporción para inferir caracte-
rísticas de la población, ya que estos tres parámetros poblacionales tienen una interpretación
muy clara, como medidas de posición, dispersión y de la presencia de una característica en la
población, respectivamente.
2. Debemos utilizar las estimaciones de los parámetros de una distribución teórica para concretar
un modelo capaz de representar y explicar los datos. En términos de la analogía que pusimos
anteriormente, en la que comparábamos las distribuciones de probabilidad con un traje que se
le pone a los datos, podríamos decir que la estimación de los parámetros de la distribución
equivale a elegir la talla de ese traje. Y tener un traje para los datos, es decir, un modelo
teórico que explica el mecanismo aleatorio que ha generado los datos, supone una enorme
ventaja.

7.2 Estimadores puntuales y su error asociado


Definición 7.2.1 Un estimador puntual de θ , θ̂ , es cualquier cálculo realizado sobre los
valores de una muestra para tratar de aproximar o estimar θ mediante un único valor.

 Ejemplo 7.1 Si el parámetro es la media, θ = µ, podemos considerar como estimadores, por


ejemplo, la media muestral,
∑N xi
µ̂1 = x̄ = i=1 ,
N
pero también, por ejemplo, la media geométrica muestral
s
N
N
µ̂2 = ∏ xi .
i=1

Visto así, el concepto de estimador es muy general y bastante ambiguo, ya que hablamos
simplemente de cualquier transformación de la muestra en un número que intente aproximar θ .
Lógicamente, deseamos buenos estimadores en el sentido de que proporcionen aproximaciones
cercanas a θ , pero debemos detenernos primero a analizar qué entendemos como buenos.
A propósito del hecho de que el estimador puede dar aproximaciones cercanas o lejanas al
parámetro, tenemos que incidir en el hecho de que el estimador, al calcularse a partir de los datos
de la muestra, es una v.a.: para cada muestra distinta obtendremos una estimación diferente. Y al
ser una v.a., tiene sentido que tratemos de averiguar todo lo que podamos del estimador de la forma
que hemos descrito las v.a. hasta ahora: función de densidad, media, varianza, etc.
Definición 7.2.2 Un estimador insesgado de θ es aquel cuya media es precisamente θ , es
decir, aquel que verifica E[θ̂ ] = θ . A la diferencia

s(θ̂ ) = E[θ̂ − θ ]

se le denomina sesgo del estimador.

Definición 7.2.3 Se define el error cuadrático medio o MSE como

MSE = E[(θ̂ − θ )2 ] = Var(θ̂ ) + E[θ̂ − θ ]2 .

De la definición de MSE podemos ver que este indicador de la cercanía del estimador al
parámetro es la suma de dos cantidades no negativas que están relacionadas con las propiedades
deseables de un estimador.
7.3 Estimación Bootstrap del error estándar de un estimador 151

Parece lógico tratar de tener estimadores insesgados y nosotros, en principio, los vamos a
buscar con esta propiedad. Pero además, parece lógico tratar de buscar estimadores con MSE lo
más pequeño posible. En este sentido, si el estimador es insesgado, dado que

MSE = Var(θ̂ ) + s(θ )2 = Var(θ̂ ),

tiene sentido que nos preocupemos de Var(θ̂ ) como criterio de cercanía entre el estimador θ̂ y el
parámetro, θ .
Definición 7.2.4 A la desviación típica del estimador θ̂ , notada como s.e.(θ̂ ), la llamaremos
error estándar.
En resumen, lo que buscamos son
1. estimadores insesgados
2. cuyo error estándar sea pequeño.
Hay que advertir de entrada que no siempre será fácil conocer el valor real del error estándar,
por lo que tendremos que aproximarlo. Básicamente, usaremos la muestra para a partir de ella,
obtener aproximaciones del error estándar.

7.3 Estimación Bootstrap del error estándar de un estimador


En las definiciones de la sección anterior vemos que aparecen cantidades teóricas como E[θ̂ ] o
s.e.(θ̂ ). En ocasiones podremos utilizar cálculos matemáticos para obtener el valor exacto de estas
cantidades, pero en otros no. ¿Qué haremos entonces?
Para obtener, al menos, aproximaciones del error estándar de un estimador podemos aplicar
una técnica que se llama bootstrap o de remuestreo. Básicamente consiste en replicar B muestras
dentro de nuestra muestra y utilizar esas réplicas para aproximar la cantidad que desconocemos a
partir de su análogo muestral. Veámoslo en un ejemplo.
 Ejemplo 7.2 Vamos a suponer que nuestra v.a. X sigue una distribución Gamma de parámetros
a = 2.5 y λ = 3.5.
Queremos estimar la media de esta distribución, θ = E[X], a partir de una muestra que tenemos
de N = 20 datos de la variable. Elegimos como estimador a la media muestral, θ̂ = X̄, y queremos
comprobar, al menos de forma aproximada, si ese estimador es insesgado y obtener un valor,
también aproximado, de su error estándar.
La muestra de la variable es la siguiente:
> N <- 20
> print(x <- rgamma(N, 2.5, 3.5))
[1] 0.5587695 0.4805145 0.8954373 0.2986068 0.6497447
[6] 0.2068834 0.7692504 0.3333349 0.6273184 0.2107792
[11] 1.5890152 0.2960327 0.1351317 0.3388117 0.4007669
[16] 0.7970475 0.6270303 0.9080925 0.8289362 0.7707275
Para esa muestra, si hemos elegido el estimador dado por la media muestral, la estimación que
obtenemos es
> print(est_media <- mean(x))
[1] 0.5861116
Lo que queremos es comprobar si el estimador que proporciona esa estimación, la media
muestral, es insesgado y aproximar su error estándar. Para ello, la metodología bootstrap lo que
hace, en primer lugar, es obtener réplicas de la muestra un gran número de veces, entendiendo
152 Capítulo 7. Estimación puntual de parámetros

por réplicas a muestras con reemplazamiento del mismo tamaño de la muestra. Por ejemplo, una
réplica de la muestra es
> sample(x, N, replace = TRUE)

[1] 0.3333349 0.7970475 0.9080925 1.5890152 0.1351317


[6] 0.6497447 0.3333349 0.7707275 1.5890152 0.3333349
[11] 1.5890152 0.1351317 0.8289362 0.2107792 1.5890152
[16] 0.1351317 0.2960327 0.8289362 0.4805145 0.5587695

Así pues, obtenemos B = 2000 réplicas de la muestra, que organizamos en forma de matriz con
B filas y N columnas:
> B <- 2000
> x.bootstrap <- matrix(sample(x, N*B, replace = TRUE), ncol = N, nrow = B)
En segundo lugar, a partir de las B réplicas de nuestra muestra de datos, obtenemos B réplicas
de nuestro estimador, X̄, considerando las B medias muestrales de las B muestras replicadas:
> ests_media_boostrap <- apply(x.bootstrap, 1, mean)
No ofrecemos una salida de las B = 2000 medias calculadas, pero sí podemos resumirlas mediante
un histograma, que aparece en la Figura 7.1. También hemos señalado dentro de ese histograma el
valor exacto de nuestra estimación de la media y el valor exacto de la media. Hay tres cuestiones
que creo que merece la pena destacar:
1. Para tratar de ver si el estimador es insesgado necesitamos un análisis teórico que compruebe,
más allá de la muestra, que E[X̄] coincide con E[X]. Lo único que podemos hacer es aproximar
E[X̄] con la media de las réplicas, que es 0.59 y compararla con la media poblacional,
a/λ = 0.71. De todas formas, esto no nos sirve mucho, porque es normal que no coincidan.
En suma, hacer bootstrap no es una buena forma de comprobar si un estimador es insesgado,
porque necesitamos obtener el valor exacto de la media del estimador.
2. Obsérvese que hay réplicas de la muestra que producen medias bastante diferentes a la media
de la muestra original: esas diferencias son un signo de la inestabilidad que podemos tener
al estimar con la media muestral con 20 datos, inestabilidad que cuantificamos con el error
estándar, que aproximamos como la desviación típica muestral de las réplicas de la media,
s.e.(X̄) ≈ 0.07.
3. El histograma de las réplicas de la media indica claramente que la media muestral, como
v.a., sigue aproximadamente una distribución normal. Este resultado se puede generalizar a
cualquier distribución, no sólo la Gamma, como consecuencia del Teorema Central del Límite,
ya que la media muestral es suma de v.a. independientes.
En resumen, partíamos de una muestra de N = 20 datos de una v.a. y queríamos, a partir de
ella, obtener una estimación de la media muestral. ¿Qué hemos conseguido?
1. Estimamos que la media poblacional es 0.59.
2. Conscientes de que eso sólo es una estimación, estimamos que el error estándar que cometemos
con ella es 0.07.
No olvidemos que en esta ocasión, de forma privilegiada, conocemos el valor de la media
poblacional, a/λ = 0.71.


En general, la técnica de bootstraping o remuestreo nos va a permitir aproximar cantidades


teóricas asociadas a v.a. sin tener que acudir a desarrollo matemático, pero el ejemplo ha puesto de
manifiesto que tiene sus limitaciones. La técnica, aplicada al error estándar de un estimador, puede
resumirse en los siguientes pasos.
7.3 Estimación Bootstrap del error estándar de un estimador 153

> hist(ests_media_boostrap, xlab = "Réplicas de la media muestral",


+ ylab = "Frecuencia", main = "", col = 2)
> lines(c(est_media, est_media), c(0, 100), lwd = 5, col = 4)
> text(est_media, 100, expression(bar(x)), pos = 3)
> lines(c(2.5 / 3.5, 2.5 / 3.5), c(0, 100), lwd = 5, col = 4)
> text(2.5 / 3.5, 100, expression(mu), pos = 3)
400
300
Frecuencia

200

µ x
100
0

0.5 0.6 0.7 0.8 0.9 1.0

Réplicas de la media muestral

Figura 7.1: Histograma de las réplicas de la media muestral. Aparece también señalada la propia
media muestral
154 Capítulo 7. Estimación puntual de parámetros

Definición 7.3.1 — Aproximación bootstrap o por remuestreo del error estándar. Su-
pongamos que queremos aproximar el error estándar de un estimador, θ̂ de un parámetro θ a
partir de una muestra x1 , ...xN . Entonces:
1. Obtendremos B réplicas de nuestra muestra original. Se sugiere B = 2000.
2. Obtendremos las correspondientes B réplicas de θ̂ (x1 , ...xN ) aplicando θ̂ a las B muestras
replicadas.
3. Aproximamos s.e.(θ̂ ) como la desviación típica de las B réplicas del paso anterior.

7.4 Estimación insesgada de media, varianza y proporción y error estándar


asociado
7.4.1 Estimación insesgada de la media y error estándar asociado
La situación es la que describíamos en un ejemplo anterior. Suponemos que tenemos una
muestra, X1 , ..., XN de una v.a. X y queremos un estimador insesgado de su media, E[X].
El estimador sin duda más empleado para ello es la media muestral,
∑Ni=1 Xi
X̄ = .
N
¿Es realmente un estimador insesgado? Lo es, y es fácilmente demostrable, ya que

∑Ni=1 Xi N
E[Xi ] N
E[X]
E[X̄] = E[ ]=∑ =∑ = E[X]
N i=1 N i=1 N

La segunda cuestión relevante es obtener el error estándar de la media muestral. Desde un


punto de vista teórico, en una demostración que utiliza el hecho de que la muestra√ está formada
por variables independientes, se obtiene como propiedad general que s.e.(X̄) = σ / N, siendo σ la
desviación típica de X. El problema es que σ es desconocido por ser un parámetro poblacional, de
manera que se suele estimar por su análogo muestral, sN−1 .
Resumimos ambos resultados en el siguiente teorema.

Teorema 7.4.1 — Estimación de la media poblacional. Sea X una v.a. con media µ y
desviación típica σ . Sea X1 , ..., XN una muestra aleatoria simple de X. Entonces, la media
muestral,
∑N Xi
X̄ = i=1 ,
N
es un estimador insesgado de µ con error estándar
σ
s.e.(X̄) = √ ,
N
que se puede aproximar como
sN−1
s.e.(X̄) ≈ √ ,
N

Algunos comentarios importantes sobre el error estándar:


1. El error estándar es tanto mayor cuanto mayor sea la desviación típica. Por tanto, estimar la
media de una v.a. es tanto más difícil cuanto más inestable sea.
2. El error estándar es tanto menor cuanto mayor sea el tamaño de la muestra. Por tanto, estimar
la media de una v.a. es tanto más fácil cuanto más datos tengamos.
Ejemplo 7.3 En el apartado 2.5.2 tratamos una muestra de la v.a. espesor de las capas de óxido
de silicio generadas en placas tratadas en un horno a alta temperatura. Volvamos a considerar esos
datos y a organizarlos para su análisis:
7.4 Estimación insesgada de media, varianza y proporción y error estándar
asociado 155
> load("EstadisticaBasicaIngenieros.RData")
> placas <- data.frame(matrix(nrow = 9*24, ncol = 3))
> for (i in 0:8){
+ placas[24*i + (1:24), 1:2] <- oxidosilicio[, 1:2]
+ placas[24*i + (1:24), 3] <- oxidosilicio[1:24, i + 3]
+ }
> names(placas) <- c("Serie", "Placa", "Espesor")
Tenemos, por tanto, una muestra de N = 216 datos de la variable espesor, pero tenemos que
eliminar los valores que se detectaron como anómalos por el problema con la placa contaminada y
el calibrador mal configurado para que la muestra sea realmente representativa:
> muestra <- placas$Espesor[placas$Espesor > 80 & placas$Espesor < 100]
Eso nos deja con N = 204 datos en la muestra para poder estimar el espesor medio de las capas
de óxido de silicio que se van a generar en el proceso de tratado de las placas de silicio en el horno
a alta temperatura. Con ella, afirmamos:
1. Estimamos que ese promedio del espesor toma un valor cercano a la media de la muestra:
> print(mean(muestra))
[1] 92.13039
2. Estimamos que el error estándar asociado a esta estimación es
> print(sd(muestra) / sqrt(length(muestra)))
[1] 0.1647928


7.4.2 Estimación insesgada de la varianza y error estándar asociado


Teorema 7.4.2 — Estimación insesgada de la varianza. Sea X una v.a. con media µ y
desviación típica σ . Sea X1 , ..., XN una muestra aleatoria simple de X. Entonces, la varianza
muestral,
2
2 ∑N (Xi − X̄)
SX,N−1 = i=1 ,
N −1
es un estimador insesgado de σ 2 con error estándar que puede aproximarse mediante remuestreo
o bootstraping.

R Quizá alguien se haya extrañado desde el comienzo de estos apuntes de que en el denominador
de la varianza muestral aparezca N − 1 y no N. En este sentido, si consideramos el estimador
2
2 ∑Ni=1 (Xi − X̄)
SX,N = ,
N
se trataría de un estimador no insesgado. A este estimador de la varianza se le conoce
habitualmente como cuasivarianza muestral, aunque hay que advertir que en algunos libros
la manera de nombrar a la varianza y a la cuasivarianza muestrales es justo al contrario.

Desgraciadamente, el que la varianza muestral, SN−1 2 , sea un estimador insesgado de la


R q
2
varianza, σ , no implica que la desviación típica muestral, SN−1 = SN−1 2 , sea un estimador
insesgado de σ . No conozco ningún estimador insesgado de la desviación típica en general,
que se aplicable a todas las distribuciones de probabilidad. De todas formas, nosotros vamos
a utilizar SN−1 como estimador de σ .
156 Capítulo 7. Estimación puntual de parámetros

 Ejemplo 7.4 Retomamos la aplicación del apartado 2.5.2 sobre el espesor de las capas de óxido
de silicio y la muestra depurada de N = 204 datos que hemos considerado en el ejemplo anterior
para estimar ahora la varianza poblacional del espesor, en general, de las capas de óxido de silicio:
1. Estimamos que esa varianza del espesor toma un valor cercano a la varianza muestral de la
muestra:
> print(var(muestra))
[1] 5.539958
2. Debemos estimar el error estándar asociado a esta estimación mediante remuestreo:
> # 1. Obtenemos B réplicas de la muestra de tama~ no N
> N <- length(muestra)
> B <- 2000
> muestras.bootstrap <- matrix(sample(muestra, N*B, replace = TRUE),
+ ncol = N, nrow = B)
> # 2. Obtenemos las correspondientes B réplicas de la varianza muestral
> ests_var_boostrap <- apply(muestras.bootstrap, 1, var)
> # 3. Aproximamos el error estándar como la desviación tı́pica
> # de esas B réplicas
> print(sd(ests_var_boostrap))
[1] 0.5506053


7.4.3 Estimación insesgada de la proporción y error estándar asociado


La situación a la hora de plantear la estimación de una proporción cambia, ya que ahora no
tenemos una v.a. cuantitativa, como en el caso en que queríamos estimar la media y la varianza, sino
que se supone que deseamos estimar una proporción p, desconocida, que representa la probabilidad
de un suceso dentro de un espacio muestral. Para ello, se realizan N experimentos asociados al
espacio muestral y se cuenta el nº de veces que ocurre ese suceso del cuál queremos estimar su
probabilidad, k.

Teorema 7.4.3 — Estimación insesgada de la proporción. En ese caso, la proporción mues-


tral,
k
p̂ = ,
N
es un estimador insesgado de p. Además, su error estandar es
r r
p(1 − p) p̂(1 − p̂)
s.e.( p̂) = ≈ ,
N N
que verifica
1
s.e.( p̂) ≤ √ .
2 N

Sobre el error estandar, obsérvese de nuevo que, dado que p es desconocido, en realidad la
expresión de s.e.( p̂) no puede evaluarse. Sin embargo, es bastante común que si el tamaño de la
muestra, N, no es muy reducido, se utilice el valor de la estimación, p̂, en lugar de p, para obtener
una aproximación del error estándar.
 Ejemplo 7.5 En el ejemplo de las placas de óxido de silicio tuvimos que eliminar 12 de las 216
muestras debido a problemas relacionados con la instrumentación. Cabe pensar que esto ocurra en
futuras nuevas aplicaciones del procedimiento de generación de las placas, así que tiene sentido
que nos planteemos estimar, en general, la proporción, p, de muestras que se despreciarán.
7.5 Estimación de parámetros mediante el método de los momentos 157

En aplicación del resultado que acabamos de enunciar, podemos decir que:


1. Estimamos que esa proporción de muestras que se despreciarán estará cerca de

p̂ = 12/216 = 0.056,

es decir, del 5.6 %.


2. Conscientes de que es sólo una estimación, sujeta a error, estimamos que el error estándar de
dicha estimación es aproximadamente
r
12/216(1 − 12/216)
s.e.( p̂) ≈ = 0.0156,
216
es decir, del√1.56 %. En cualquier caso, podemos afirmar que ese error será siempre inferior o
igual a 1/2 216, es decir, que

1 1
s.e.( p̂) ≤ √ = √ = 0.034.
2 N 2 216



R Con respecto a la cota superior del error estándar, dada por 1/2 N, parece extraño que,
pudiendo obtener una estimación del error, prestemos atención a esa cota. Sin embargo,
veremos en el capítulo siguiente que dicha cota es clave para calcular el número de muestras
necesarias bajo un nivel de precisión dado.

7.5 Estimación de parámetros mediante el método de los momentos


Media, varianza y proporción son parámetros poblacionales con una interpretación muy clara
y, dada una muestra, tienen análogos muestrales, la media muestral, la varianza muestral y la
proporción muestral, que proporcionan de forma intuitiva estimadores naturales.
Sin embargo, si recordamos algunas de las distribuciones teóricas que hemos estudiado, hay
otros parámetros que no tienen una interpretación tan clara. Véase, por ejemplo, los dos parámetros
de la distribución Gamma: ¿qué significan y cómo podemos estimar de manera natural los paráme-
tros a y λ ? Los dos métodos que vamos a estudiar en esta sección y la siguiente permiten obtener
estimadores de una forma mucho más general que la que hemos descrito hasta ahora para media,
varianza y proporción.
El método de los momentos es una técnica que puede utilizarse, en principio, para cualquier
distribución con un número arbitrario de parámetros, aunque aquí vamos a describirlo sólo para
distribuciones de uno o dos parámetros poblacionales.
Definición 7.5.1 Sea X1 , ..., XN una muestra de una variable aleatoria, X:
1. Si la distribución de X depende de un sólo parámetro, θ , la media poblacional de X,
E[X] = µ, será función de θ , es decir, será de la forma µ = f (θ ). En ese caso, el estimador
mediante el método de los momentos de θ , θ̂ , se obtiene despejándolo (si es posible) de la
ecuación x̄ = f (θ̂ ).
2. Si la distribución de X depende de dos parámetros, θ1 y θ2 , la media poblacional de X,
E[X] = µ, será función de ambos, µ = f (θ1 , θ2 ) e igualmente la varianza poblacional
estará expresada como función de estos parámetros, VarX = σ 2 = g(θ1 , θ2 ). En ese caso,
los estimadores mediante el método de los momentos de θ1 y θ2 , θ̂1 y θ̂2 , se obtienen
158 Capítulo 7. Estimación puntual de parámetros

despejándolos (si es posible) del sistema de ecuaciones

x̄ = f (θ̂1 , θ̂2 )
s2n−1 = g(θ̂1 , θ̂2 ).
 Ejemplo 7.6 La distribución binomial de parámetros n y p es una distribución de un solo
parámetro (n es siempre conocido) en la que E[X] = n × p, por lo que p = E[X]
n . Por tanto, dada la
muestra de tamaño N de la variable, el método de los momentos propone como estimador de p a


p̂ = .
n
Es importante que nos demos cuenta de que este estimador coincide con la proporción muestral,
es decir, p̂ = k/N, pero puede haber alguna confusión en la notación, por lo que vamos a verlo con
cuidado, evitando confusiones en la notación.
Se supone que tenemos una muestra de tamaño N de datos de una binomial de parámetro n fijo
y conocido, es decir, tenemos n experimentos en cada uno de los N elementos de la muestra, o sea,
un total de n × N experimentos, con un total de ∑i Xi éxitos en ellos. Luego, en efecto,

x̄ ∑ xi
p̂ = = i ,
n n×N
es decir, la proporción muestral, cociente del nº de éxitos entre el nº total de experimentos. No
debemos confundirnos con la expresión k/N que pusimos antes porque N no significa lo mismo en
ambos contextos.
En el Ejemplo 4.9 consideremos como v.a., X, el número de días a la semana que un joven
consumía alcohol, planteando como posible modelo la distribución B(7, p), donde p fuera la
probabilidad de que un joven consuma alcohol un día cualquiera. Los datos de la Tabla 4.1 se
refierían a una muestra de N = 399 jóvenes en Holanda para los que se contabilizó cuántos días
de semana consumieron alcohol a lo largo de una semana. Aplicando el método de los momentos,
tendríamos que
0×47+1×54+2×43+3×40+4×40+5×41+6×39+7×95
399
p̂ = = 0.546.
7
Es importante destacar que el hecho de que, como ya se mencionó, las frecuencias reales
(empíricas) no queden ajustadas por las frecuencias teóricas que proporciona la distribución
B(7, 0.546), significa que las hipótesis del modelo binomial, es decir, que existe una proporción
constante de éxito y que los experimentos son independientes, no se cumplen en su totalidad.


 Ejemplo 7.7 La distribución geométrica es también una distribución uniparamétrica en la que


E[X] = 1p − 1, de donde p = 1+E[X]
1
. Por tanto, el método de los momentos propone como estimador
a
1
p̂ = .
1 + X̄
Para ilustrar el ejemplo, consideremos como v.a. el tiempo (en años) que transcurre en-
tre ataques de tiburón en Eastern Cape Province (South Africa); la hoja de datos es attacks.
Hemos encontrado información al respecto en la WEB https://www.kaggle.com/teajay/
global-shark-attacks, desde donde pueden descargarse los datos originales. Comenzamos
filtrando los datos y ciñéndonos a un período, a partir de los 80, donde parece que ya existían
registros fidedignos:
7.5 Estimación de parámetros mediante el método de los momentos 159

> year <- attacks$Year[attacks$Area == "Eastern Cape Province"]


> year <- sort(year[!is.na(year)])
> year <- year[year > 0]
> x <- diff(year)
Aplicando el método de los momentos, tenemos una estimación de p de
> print(p.est <- 1 / (1 + mean(x)))
[1] 0.5410959
En la Figura 7.2 comparamos el diagrama de barras de la muestra con la distribución Geo(0.541)
que resulta de estimar p por el método de los momentos. Se observa que el perfil de las frecuencias
esperadas se parece algo al histograma que describe los datos de la muestra, pero también se
perciben discrepancias importantes, sobre todo en los valores 1 y 2, por lo que el ajuste mediante la
distribución geométrica queda en entredicho para describir la v.a. No obstante, se trata sólo de una
valoración basada en una comparación a partir de figuras; queda latente la necesidad de establecer
algún criterio de cercanía entre el modelo teórico ajustado y los datos y, a partir de él, una manera
de decidir si ese ajuste es realmente aceptable o debe rechazarse. Abordaremos esta cuestión más
adelante. 

 Ejemplo 7.8 En el caso de la binomial negativa tenemos dos parámetros, dados por

a(1 − p)
E[X] =
p
a(1 − p)
Var(X) =
p2
De esta expresión debemos despejar a y p. Dado que
E[X]
= p,
Var(X)
se tiene que
E[X]
p Var(X) E[X]2
a = E[X] × = E[X] × =
1− p 1 − E[X] Var(X) − E[X]
Var(X)

de donde se proponen como estimadores


p̂ = 2
SX,N−1
X̄ 2
â = 2
.
SX,N−1 − X̄

Vamos a considerar de nuevo los datos sobre ataques de tiburón en Eastern Cape Province para
comparar el ajuste que se logra tras estimar los parámetros de la distribución geométrica con el que
conseguimos con la distribución binomial negativa, ambos mediante el método de los momentos.
En el caso de esta última, tendríamos p̂ = s2 x̄ dado por
X,N−1

> print(p.est2 <- mean(x)/var(x))


[1] 0.2473313
x̄2
y â = s2X,N−1 −x̄
que toma el valor
> print(a.est <- mean(x)^2 / (var(x) - mean(x)))
160 Capítulo 7. Estimación puntual de parámetros

[1] 0.278691
La poligonal de la función masa correspondiente a la distribución ajustada BN(0.28, 0.54) aparece
en la Figura 7.2. Se observa un ajuste más preciso por parte de esta distribución que el proporcionado
por la distribución geométrica. 

R Hay que tener en cuenta que el método de los momentos parte de dos premisas: en primer
lugar, que existen fórmulas para la media o la varianza; en segundo lugar, que esas fórmulas
son lo suficientemente sencillas como para despejar de ellas el valor de los parámetros.
Aunque en las distribuciones que hemos manejado hasta ahora cumplen ambas premisas, es
importante saber que esto no siempre ocurre.

¿Y qué podemos decir del error estándar de las estimaciones obtenidas por el método de los
momentos? En general, poco. En realidad el método tiene escasas posibilidades desde el punto de
vista teórico a la hora de estudiar sus propiedades. Lo único que podríamos hacer es aproximar esos
errores estándar mediante bootstraping.

7.6 Estimación de parámetros mediante el método de máxima verosimilitud


Para comprender la filosofía del método de máxima verosimilitud es importante insistir en las
condiciones en que se realiza el proceso de estimación: recordemos que, por un lado, tenemos unos
datos que entendemos que son representativos porque proceden de una muestra aleatoria simple y,
por otro, queremos obtener valores de los parámetros de la distribución adecuados para esos datos.
La idea consiste en elegir como estimaciones de los parámetros aquellos valores que hagan más
creibles, más verosímiles, los datos de la muestra.
Para desarrollar el método debemos tener en cuenta, como propiedad matemática, que si
tenemos una muestra aleatoria simple de una variable X, X1 , ..., Xn , y la función masa o densidad
de la variable es f (x), entonces la función masa o densidad de la muestra es

f (x1 , ..., xn ) = f (x1 )... f (xn ).

Dado que esta función masa o densidad representa en cierto modo la credibilidad de los datos de
la muestra, se le conoce como función de verosimilitud. El método establece que debemos elegir
los parámetros que hagan máxima la credibilidad de nuestros datos, con lo cual, el problema de
la búsqueda de las estimaciones de los parámetros se convierte en un problema matemático de la
búsqueda de máximo.
Definición 7.6.1 — Método de máxima verosimilitud. Dada una v.a. X con función masa o
función de densidad f (x), que depende de uno o dos parámetros, y una muestra aleatoria simple
de X, X1 , ..., Xn , la función de verosimilitud de la muestra es la función

L = f (x1 )... f (xn ),

función que dependerá de los parámetros desconocidos de la variable.


Dada la verosimilitud de una muestra, L, si L depende de un sólo parámetro, θ , entonces el
estimador máximo-verosímil (o MLE) de θ , MLE(θ ), se obtiene resolviendo el problema de
máximo siguiente:  
θ̂ = arg máx L .
θ

Si L depende de dos parámetros, θ1 y θ2 , entonces el estimador máximo-verosímil (o


7.6 Estimación de parámetros mediante el método de máxima verosimilitud 161

> hist(x, col = 2, xlab = "A~nos entre ataques", ylab = "Frecuencia",


+ breaks = -0.5:(max(x) + 0.5), main = "")
> lines(0:max(x), length(x) * dgeom(0:max(x), p.est), col = 4, lwd = 3)
> lines(0:max(x), length(x) * dnbinom(0:max(x), a.est, p.est2), col = 5,
+ lwd = 3)
> legend('topright', legend = c(paste("Geo(", round(p.est, 3), ")",
+ sep = ""),
+ paste("BN(", round(a.est, 3), ", ",
+ round(p.est2, 3), ")", sep = "")),
+ pch = "-", col = 4:5, lwd = 3)

− Geo(0.541)

80

BN(0.279, 0.247)
60
Frecuencia

40
20
0

0 5 10 15

Años entre ataques

Figura 7.2: Histograma y frecuencias esperadas según distribuciones geométrica y binomial negativa
ajustadas para los datos sobre ataques de tiburón
162 Capítulo 7. Estimación puntual de parámetros

MLE) de θ1 y θ2 , MLE(θ1 , θ2 ), se obtiene resolviendo el problema de máximo siguiente:


 

θ̂1 , θ̂2 = arg máx L .
θ1 ,θ2

R De cara a resolver el problema de máximo por los procedimientos habituales, esto es,
igualando a cero la derivada de la función a optimizar, nos encontramos con la complejidad
de realizar la derivada del producto que define la función de verosimilitud. Sin embargo, hay
un truco muy sencillo para evitar esa dificultad: dado que el máximo de una función coincide
con el máximo de su logaritmo, es mucho más útil maximizar el logaritmo de la función de
verosimilitud o función de log-verosimilitud en vez de la función de verosimilitud.

 Ejemplo 7.9 Vamos a calcular el MLE del parámetro λ de una distribución P(λ ) basado en una
muestra X1 , ..., XN .
En primer lugar, la función de verosimilitud es

N
λ xi
LX1 ,...,XN (λ ) = ∏ e−λ
i=1 xi !
N
−Nλ λ ∑i=1 xi
=e .
∏Ni=1 xi

Su logaritmo resulta
N
!
−Nλ λ ∑i=1 xi
ln LX1 ,...,XN (λ ) = ln e
∏Ni=1 xi !
N N
= −Nλ + ∑ xi ln(λ ) − ∑ ln(xi !)
i=1 i=1

Para maximizar esta función derivamos respecto a λ e igualamos a cero:

∑Ni=1 xi
−N + = 0,
λ
de donde
∑Ni=1 xi
λ= = x̄.
N
Luego el estimador es
λ̂ = X̄.

Vamos a aplicar el resultado para ajustar y valorar la adecuación de este ajuste de unos datos
muy curiosos.
En 1898, el economista ruso Ladislaus Bortkiewicz publicó un libro en el que utilizaba, por
primera vez, la distribución de Poisson para tratar de explicar cómo se producían determinados
fenómenos sujetos a incertidumbre, en el que incluyó dos ejemplos llamativos: el primero de ellos,
relativo al número de suicidios de niños y el segundo, el que vamos a considerar aquí, concerniente
al número de muertes anuales debidas a coces de caballos en unidades del ejército prusiano entre
1875 y 1894.
Los datos que Bortkiewicz recopiló aparecen en la Tabla 7.1. Lo que él planteaba puede
esquematizarse de la siguiente forma:
7.6 Estimación de parámetros mediante el método de máxima verosimilitud 163

Número de muertes Frecuencia observada Frecuencia esperada


0 109 108.7
1 65 66.3
2 22 20.2
3 3 4.1
4 1 0.6
≥5 0 0.1

Tabla 7.1: Número de muertes por coces de caballos, frecuencias observadas en el ejemplo del
ejército prusiano y frecuencias esperadas según un ajuste con la distribución de Poisson

1. Si esas frecuencias con las que se dan las muertes queda bien representada por las de una
distribución de Poisson, quiere decir que el mecanismo oculto que ha generado los datos es
el mecanismo de la distribución de Poisson. Y recordemos que la distribución de Poisson
establece que los eventos ocurren absolutamente al azar según un promedio constante. En el
contexto de la aplicación, equivale a decir que las muertes ocurren por pura mala suerte.
2. Si, por el contrario, las frecuencias empíricas no coinciden con las que proporciona el ajuste
de la distribución de Poisson a los datos, hay algo en ellos que no puede explicarse por el puro
azar y por un promedio constante: ¿unidades con más caballos y, por tanto, más exposición al
riesgo? ¿unidades con caballos más violentos? ¿unidades con menos precauciones?
El modelo de la distribución de Poisson supone el traje que queremos probarle a los datos.
Ahora debemos elegir la talla, siguiendo la analogía que ya hemos comentado, ya que hay infinitas
posibilidades de distribuciones P(λ ), tantas como posibles valores de λ . Nosotros estimamos el
parámetro mediante el método de máxima-verosimilitud como

λ̂ = x̄ = 0.61,

de tal manera que tenemos un ajuste para los datos dado por la distribución P(0.61). Las frecuencias
de esta distribución para los valores 0, 1, 2, 3, 4 y mayores o iguales que 5 aparecen en la tercera
columna de la Tabla 7.1. Aunque queda latente la cuestión de cómo comparar formalmente las
frecuencias reales con las que da un modelo, es muy evidente que hay una enorme similitud entre
las frecuencias observadas y las que facilita el modelo de Poisson ajustado, el modelo P(0.61), así
que la conclusión es que las muertes se producían por puro azar y de forma probabilísticamente
indistinguible en las distintas unidades del ejército prusiano. 

 Ejemplo 7.10 Vamos a obtener el MLE del parámetro λ de una distribución exp(λ ) basado en
una muestra X1 , ..., XN . Operamos paso a paso:
1. Función de verosimilitud:
N
N
LX1 ,...,XN (λ ) = ∏ λ e−λ Xi = λ N e−λ ∑i=1 Xi .
i=1

2. Función de log-verosimilitud:
N
ln LX1 ,...,XN (λ ) = N ln λ − λ ∑ Xi .
i=1

3. Derivamos respecto a λ e igualamos a cero:


N
N
− ∑ Xi = 0,
λ i=1
164 Capítulo 7. Estimación puntual de parámetros

4. Despejamos λ :
N 1
λ̂ = = .
∑Ni=1 Xi X̄
Puede comprobarse que el MLE coincide con el proporcionado por el método de los momentos. 
 Ejemplo 7.11 En el caso de la distribución normal, tenemos dos parámetros. Veamos cómo
proceder en esta situación. Vamos a preocuparnos por los estimadores de la media y de la varianza:
1. La función de verosimilitud:
N (X −µ )2
 N ∑n (X −µ )2
2
 1 − i 2 1 − i=1 i2
LX1 ,...,XN µ, σ = ∏ √ e 2σ = √ e 2σ .
2 2πσ 2
i=1 2πσ

2. Función de log-verosimilitud:
N N  ∑N (Xi − µ)2
ln LX1 ,...,XN µ, σ 2 = − ln (2π) − ln σ 2 − i=1 2

.
2 2 2σ
3. Para maximizar esta función, derivamos respecto a µ y σ 2 e igualamos a cero:
d  ∑N (Xi − µ)
ln LX1 ,...,XN µ, σ 2 = i=1 2 =0
dµ σ
d 2
 N 1 ∑Ni=1 (Xi − µ)2
ln LX1 ,...,XN µ, σ = − + =0
dσ 2 2σ 2 2 (σ 2 )2
4. Despejamos: de la primera ecuación se sigue
N N
∑ (Xi − µ) = ∑ Xi − Nµ = 0,
i=1 i=1

de donde
∑Ni=1 Xi
µ̂ = = X̄.
N
De la segunda, sustituyendo en ella µ por X̄,
2
∑Ni=1 (Xi − X̄) N
2
= 2,
(σ 2 ) σ
de donde
2
∑Ni=1 (Xi − X̄)
σ̂ 2 = = s2n .
N
Hay que llamar la atención sobre el hecho de que hemos buscado un estimador de máxima
verosimilitud de σ 2 , no de σ . Sin embargo, no es muy difícil demostrar que el MLE de σ en la
distribución normal es también la cuasidesviación típica muestral, sn .
En esta ocasión debemos comparar el resultado con el que ya conocíamos con respecto a la
estimación insesgada de la media y la varianza:
Recordemos que si buscamos un estimador insesgado de la media en una distribución cual-
quiera, hemos decidido utilizar la media muestral. Esto coincide con el MLE de la media de
la distribución normal que, como acabamos de demostrar, es también la media muestral.
En el caso de la varianza, sin embargo, decidimos utilizar la varianza muestral, SN−12 como
estimador insesgado. Por el contrario, en el caso de la distribución normal, el MLE ha resultado
ser SN2 que ya comentamos que es un estimador con sesgo. Esta disparidad no debe extrañar:
2
SN−1 y SN2 son buenos estimadores de la varianza según criterios diferentes, el primero en
cuanto que es insesgado en todas las distribuciones y el segundo es el MLE en el caso de la
distribución normal. En cualquier caso, cabe observar que las diferencias entre SN−1 2 y SN2
sólo son apreciables para valores bajos de N, es decir, para muestras pequeñas.
7.7 Resumen 165

Vamos a ilustrar el hallazgo de los MLE de la normal en un ejemplo antropométrico. Concreta-


mente, el paquete dslabs Irizarry, 2018 contiene una hoja de datos con la altura de 1050 individuos
y su sexo. Vamos a ajustar distribuciones normales para ambos sexos bajo el criterio de máxima
verosimilitud:
> library("dslabs")
> data("heights")
> x <- heights$height[heights$sex == "Male"]
> y <- heights$height[heights$sex == "Female"]
> N_varones <- sum(heights$sex == "Male")
> N_mujeres <- sum(heights$sex == "Female")
> mu_varones <- mean(x)
> mu_mujeres <- mean(y)
> s2_varones <- var(x) * (N_varones - 1) / N_varones
> s2_mujeres <- var(y) * (N_mujeres - 1) / N_mujeres
> print(c(mu_varones, mu_mujeres))

[1] 69.31475 64.93942

> print(c(s2_varones, s2_mujeres))

[1] 13.02343 14.08311

La adecuación de los dos ajustes a los datos, mediante distribuciones N(69.31, 3.61) y N(64.94, 3.75),
se aprecia en la Figura 7.3. Aparentemente, en ambos casos parece que los datos son acordes con
un ajuste mediante una distribución normal, como cabía esperar por el tipo de variable.


R Al igual que ocurre en el método de los momentos, no siempre es posible despejar la expresión
de los parámetros cuando se iguala a cero la función de log-verosimilitud. Ese es el caso, por
ejemplo, de las distribuciones Gamma o binomial negativa. En ese caso deben emplearse
métodos numéricos para obtener el máximo: aunque esto parezca complejo, gracias a las
técnicas del cálculo numérico y la potencia de los ordenadores que manejamos hoy en día,
eso no suele suponer ningún problema.

Para finalizar, es importante mencionar al menos que las propiedades de los MLE son mucho
mejores que las del método de los momentos. A mi humilde entender, excede los contenidos de un
curso como aquél al que van dirigidas estas notas el entrar en el detalle de esas propiedades. De
entre ellas sólo querría mencionar que los errores estándar sí pueden ser calculados (bajo determi-
nadas hipótesis), y los programas estadísticos, como R, los facilitan sin problemas. Estas buenas
propiedades de la estimación por máxima-verosimilitud hacen que el método sea, probablemente,
el más utilizado.

7.7 Resumen
Hemos aprendido en primer lugar a estimar la media, la varianza y la proporción mediante
sus análogos muestrales, que son estimadores insesgados, y a estimar el error estándar asociado a
dichas estimaciones. Posteriormente hemos aprendido a estimar otros parámetros poblacionales
de las distribuciones teóricas mediante el método de los momentos y de máxima verosimilitud,
siendo éste último el que presenta mejores propiedades, con lo que obtenemos un ajuste completo
de las frecuencias de los datos de la muestra; estas estimaciones permiten especificar totalmente la
distribución y plantearse la adecuación del modelo teórico a los datos.
166 Capítulo 7. Estimación puntual de parámetros

> par(mfrow = c(1, 2), xpd = TRUE)


> hist(x, col = 2, xlab = "Altura de los varones", ylab = "Frecuencia",
+ freq = FALSE, main = "")
> curve(dnorm(x, mean = mu_varones, sd = sqrt(s2_varones)), from = min(x),
+ to = max(x), add = TRUE, col = 3, lwd = 3)
> hist(y, col = 2, xlab = "Altura de las mujeres", ylab = "Frecuencia",
+ freq = FALSE, main = "")
> curve(dnorm(x, mean = mu_mujeres, sd = sqrt(s2_mujeres)), from = min(y),
+ to = max(y), add = TRUE, col = 3, lwd = 3)

0.10
0.10

0.08
0.08

0.06
0.06
Frecuencia

Frecuencia

0.04
0.04

0.02
0.02
0.00

0.00

50 60 70 80 50 60 70 80

Altura de los varones Altura de las mujeres

Figura 7.3: Histograma y ajuste mediante distribuciones normales de la altura de varones y mujeres
7.8 Para saber más 167

Distribución MLE(θ ) θ̂ )
s.e.(q
B(n, p) p̂ = x̄
n s.e.( p̂) ≈ p̂(1− p̂)
N×n
s√
Poisson(λ ) λ̂ = x̄ s.e.(λ̂ ) ≈ N−1
N
q
1 p̂(1− p̂)
Geo(p) p̂ = s.e.( p̂) ≈ (
1+x̄ ∑Ni=1 xi )+N
BN(a, p) Por métodos numéricos Sin fórmula: se aproximan por remuestreo
exp(λ ) λ̂ = 1x̄ Sin fórmula: se aproximan por remuestreo
Gamma(a, λ ) Por métodos numéricos Sin fórmula: se aproximan por remuestreo
N(µ, σ ) µ̂ = x̄, σ̂ = sN s.e.(µ̂) ≈ s√N−1
N
, s.e.(σ̂ ): por remuestreo

Tabla 7.2: Estimadores por el método de máxima verosimilitud de los parámetros de las distribucio-
nes más usuales.

A modo de resumen, la Tabla 7.2 facilita los estimadores de máxima-verosimilitud de los


parámetros de todas las distribuciones que hemos descrito en estos apuntes, junto con la forma de
calcular sus errores estándar.
Finalmente, el diagrama de la Figura 7.4 pretende facilitar un esquema de todo lo expuesto en
el tema.

7.8 Para saber más


1. Hemos mencionado la propiedad de insesgadez como criterio para elegir estimadores. Existen
otros criterios, como la eficiencia, la consistencia, la insesgadez asintótica, la mínima varianza,
etc. Para ampliar sobre este tema, recomiendo, por ejemplo, Villegas (2005).
2. Existen otros métodos de estimación. De entre ellos, a mí me gusta particularmente el de los
métodos bayesianos. Sobre ellos puede consultarse también Villegas (2005).
3. Sobre las propiedades de los estimadores de máxima-verosimilitud puede encontrarse infor-
mación igualmente en Villegas (2005).

7.9 Ejercicios
Ejercicio 7.1 Los datos del Ejercicio 2.1 incluían entre sus variables los de una muestra de la
duración en segundos de las llamadas contestadas (con valor ANSWERED). Se pide:
1. Estimar la media y la varianza de la duración de las llamadas en días laborables y festivos,
por separado y proporcionar una estimación de los respectivos errores estándar.
2. Buscar una distribución de probabilidad adecuada para la duración de las llamadas en
días laborables, estimar sus parámetros mediante máxima verosimilitud y obtener una
representación gráfica adecuada para comparar el modelo teórico con las frecuencias
empíricas.
3. Idem para las llamadas en días festivos.


Ejercicio 7.2 Para los datos sobre precipitación máxima anual (PMA) del Ejercicio 2.2, se pide:
1. Estimar la media y la varianza de la PMA y los errores estándar asociados.
2. Ajustar distribuciones Gamma y normal mediante estimadores de máxima verosimilitud y
comparar gráficamente los ajustes con las frecuencias empíricas para decidir cuál de los
dos modelos parece más adecuado a los datos.

168 Capítulo 7. Estimación puntual de parámetros

Inicio: tengo un
experimento
aleatorio

representado en una

muestra
aleatoria La media
La media utiliza
simple muestral

Parámetros Aproxima el s.e.


Necesito poblacionales La varianza como criterio
La varianza utiliza
aproximar... que los muestral del error que
resumen cometes
Binomial
Poisson
Geométrica
Binomial
negativa Distribución teórica La proporción
Exponencial que los represente La proporción utiliza
muestral
Gamma
Normal
...

Método de
los
requiere momentos

Realiza gráfico de
Aproxima el s.e.
Estimar Método de comparación
como criterio
sus ¿Método? máxima para visualizar
del error que
parámetros verosimilitud la precisión
cometes
del ajuste

Otros
métodos

Figura 7.4: Diagrama de flujo del proceso de estimación puntual de parámetros

Ejercicio 7.3 En Yamanaka (2004) se menciona que la duración del flujo IP en un determinado
switch sigue una distribución geométrica. Vamos a imaginar que los datos que aparecen en la hoja
datagramas del fichero de datos descargable desde http://cort.as/-BXu- corresponden a
una situación real (en realidad, son datos simulados). Se pide:
1. Estimar la proporción de duraciones menores que 100. Respecto del error estándar de
dicha estimación, se pide una estimación y una cota superior.
2. Estimar la media de la duración del flujo IP y proporcionar una estimación del error
estándar.
3. Ajustar una distribución geométrica a los datos de la muestra mediante el método de
máxima-verosimilitud y valorar gráficamente la adecuación del modelo ajustado a las
frecuencias empíricas de los datos de la muestra.

8. Estimación por intervalos de confianza

Hay tres cosas que nunca podemos aspirar a lograr con el razonamiento: la certeza absoluta, la
precisión absoluta, la universalidad absoluta.

Charles Sanders Peirce, filósofo y químico estadounidense.

Objetivos
1. Comprender el concepto de intervalo de confianza.
2. Comprender los conceptos de confianza y significación y su relación con la precisión de los
intervalos de confianza.
3. Estimar por intervalos de confianza media, varianza y proporción poblacionales.
4. Aprender a establecer el tamaño muestral mínimo de un intervalo de confianza para la media
y la proporción, para una precisión dada y un nivel de significación establecido.

8.1 Introducción
En este capítulo abordamos la estimación de un parámetro poblacional a partir de una muestra
mediante el establecimiento de un intervalo de valores en los que tenemos una fuerte confianza.
Dicha confianza, junto con la información que contienen los datos de la muestra determinarán la
precisión del intervalo, en relación con su longitud.
Comenzamos proporcionando las definiciones más importantes.
Definición 8.1.1 Sea X1 , ..., XN una muestra aleatoria simple de una determinada v.a., X, cuya
distribución depende de un parámetro desconocido θ . Definimos intervalo de confianza (en
adelante, IC) para θ con nivel de confianza 1 − α y nivel de significación α como un
intervalo basado en la muestra, (L(x1 , ..., xN ),U(x1 , ..., xN )) tal que

P[θ ∈ (L(x1 , ..., xN ),U(x1 , ..., xN ))] = 1 − α


170 Capítulo 8. Estimación por intervalos de confianza

Confidence intervals based on z distribution Confidence intervals based on z distribution Confidence intervals based on z distribution

50

50

50
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |

40

40

40
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
30

30

30
| | |
| | |
| | |
| | |
Index

Index

Index
| | |
| | |
| | |
| | |
| | |
| | |
20

20

20
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
10

10

10
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
0

0
−0.4 −0.2 0.0 0.2 0.4 0.6 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 −1.0 −0.5 0.0 0.5 1.0

Confidence Interval Confidence Interval Confidence Interval

Figura 8.1: Distintos intervalos de confianza para una media µ = 0 a un 68 % (izquierda), a un 90 %


(centro) y a un 99 % (derecha). Aparecen coloreados los intervalos que no contienen a la media
poblacional

o, lo que es lo mismo,

P[θ 6∈ (L(x1 , ..., xN ),U(x1 , ..., xN ))] = α.

Con respecto al tipo de intervalo:


Si L(x1 , ..., xN ) y U(x1 , ..., xN ) son finitos, el intervalo se denomina bilateral.
Si L(x1 , ..., xN ) es finito pero U(x1 , ..., xN ) = ∞, el intervalo se denomina unilateral a la
izquierda y a L(x1 , ..., xN ), cota inferior de confianza para θ .
Si L(x1 , ..., xN ) = ∞ y U(x1 , ..., xN ) es finito, el intervalo se denomina unilateral a la
derecha y a U(x1 , ..., xN ), cota superior de confianza para θ .
Entonces, la interpretación del nivel de confianza es la fiabilidad que le damos al intervalo,
mientras que el nivel de significación es lo opuesto, es la desconfianza que nos genera el intervalo,
en el sentido en que podría no contener al parámetro θ .
Por otra parte, es obvio que nos interesan ICs con mucha confianza, pero observaremos que
si pedimos mucha confianza, nos vamos a encontrar con que los intervalos son de una enorme
amplitud. Esa amplitud significa que estamos dando un enorme rango de valores posibles para el
parámetro θ , lo que tampoco es deseable. Podríamos decir que esos IC son muy imprecisos.
La Figura 8.1 contiene 300 ICs simulados, 100 de ellos (a la izquierda) con un 68 % de confianza,
100 (en el centro) con un 90 %, y los 100 restantes (a la derecha) con un 99 %. Se percibe que, en
efecto, a mayor nivel de confianza, los ICs tienen mayor amplitud. Todos los intervalos simulados
lo son de una media poblacional que toma el valor µ = 0. En esta situación privilegiada dada
por el proceso de simulación, podemos, por tanto, saber cuáles son los ICs que han errado en la
estimación: aquellos que no contienen el valor µ = 0. Y lo que observamos es que el número de
ICs errados es aproximadamente el dado por el nivel de significación, es decir, aproximadamente
32, 10 y 1, de izquierda a derecha. El problema es que en la vida real no tendremos la posibilidad
de conocer más que un IC, el dado por nuestra muestra, y no sabremos tampoco si ese IC realmente
contiene o no el parámetro: lo único que podemos saber es, una vez más, es la confianza que nos
genera, dado por 1 − α.
8.2 Intervalos de confianza aproximados para medias y proporciones con
muestras grandes 171
Hay un caso particular de ICs, llamados intervalos centrados, que son de la forma
(θ̂ − tol, θ̂ + tol),
donde θ̂ es un estimador puntual de θ . En ese caso, diremos que el intervalo tiene tolerancia (o
precisión) tol y amplitud 2 × tol. En general, la amplitud será la longitud del intervalo. Como
veremos en seguida, la precisión, opuesta a la tolerancia, está relacionada con el error estándar de θ̂ .
Los dos ejemplos más importantes de este tipo de intervalos se aplican a la media y a la proporción,
como vamos a ver a continuación.

8.2 Intervalos de confianza aproximados para medias y proporciones con


muestras grandes
En el caso de disponer de un tamaño muestral que permita la aplicación del Teorema Central
del Límite, el hecho de que los estimadores muestrales de media y proporción estén relacionados
con la distribución normal facilita la obtención de ICs basados en cuantiles de esta distribución. Es
importante no olvidar que son intervalos aproximados, no exactos.

8.2.1 Intervalo de confianza para una media


Vamos a suponer que tenemos una muestra grande, entendiendo como grande aquél que permite
la convergencia que se enuncia en el Teorema Central del Límite. En general, se considera que
N ≥ 30 es suficiente. En este contexto, buscamos un IC para la media, µ de una v.a. X cualquiera.

Teorema 8.2.1 Sea X1 , ..., XN con N ≥ 30 una muestra aleatoria simple de la v.a. X con media
µ. Consideramos como estimador de µ a la media muestral, X̄, cuyo error estándar viene dado
aproximadamente por
SN−1
s.e.(X̄) ≈ √
N
Entonces:
1. Un intervalo de confianza bilateral aproximado con nivel de significación α para µ, es:

(X̄ − z1−α/2 × s.e.(X̄), X̄ + z1−α/2 × s.e.(X̄)

donde z1−α/2 es el cuantil 1 − α/2 de la distribución N(0, 1).


2. Una cota superior aproximada con nivel de significación α para µ es

X̄ + z1−α × s.e.(X̄)

donde z1−α es el cuantil 1 − α de la distribución N(0, 1).


3. Una cota inferior aproximada con nivel de significación α para µ es

X̄ − z1−α × s.e.(X̄)

donde z1−α es el cuantil 1 − α de la distribución N(0, 1).

Centrándonos en el IC bilateral, podemos observar que la tolerancia del intervalo es z1−α/2 ×


s√
N−1
N
. Por tanto:
Cuantos más datos, mayor precisión.
Cuanto más variabilidad, menor precisión.
Ejemplo 8.1 — Estimando la media en una muestra Poisson. Vamos a utilizar simulación
para realizar un ejercicio donde podamos ver si el IC contiene o no a la auténtica media poblacional.
Concretamente:
172 Capítulo 8. Estimación por intervalos de confianza

1. Simulamos una muestra de tamaño N = 100 de una distribución P(2.5)1 :


> set.seed(1)
> mu <- 2.5
> N <- 100
> x <- rpois(N, mu)
2. Para esa muestra, aplicamos el teorema y obtenemos un IC al 95 % de confianza:
> alfa <- 0.05
> print(mu.est <- mean(x))
[1] 2.55
> print(se <- sd(x) / sqrt(N))
[1] 0.1402559
> print(z <- qnorm(1-alfa/2))
[1] 1.959964
> c(mu.est - z* se, mu.est + z * se)
[1] 2.275103 2.824897
Podemos expresar el resultado diciendo que estimamos el valor de λ en 2.55 con una precisión
de ±0.275 y un 95 % de confianza.
3. Como puede verse, en este caso el intervalo, en efecto, contiene a la verdadera media µ = 2.
Animo al lector a que repita este proceso K = 100 veces para comprobar cuántas veces el IC
resultante contiene a la media. 

Ejemplo 8.2 — Estimando el parámetro de una distribución exponencial. El parámetro λ


de una distribución exp(λ ) no es la media, por lo que no podemos aplicar directamente el teorema.
Sin embargo, es frecuente, por la sencillez del argumento, obtener un IC de λ a partir del IC para la
media, teniendo en cuenta que λ = 1/µ.
En concreto, consideremos λ = 0.4 y un nuevo proceso de simulación para comprobar si el
parámetro finalmente es incluido o no en el intervalo:
1. Simulamos muestra de tamaño N = 100 de una exp(0.4), por tanto, de media 1/0.4 = 2.5:
> set.seed(1)
> lambda <- 0.4
> N <- 100
> x <- rexp(N, lambda)
2. Obtenemos el IC para la media al 95 % de confianza:
> alfa <- 0.05
> se <- sd(x) / sqrt(N)
> c(mean(x) - qnorm(1-alfa/2) * se, mean(x) + qnorm(1-alfa/2) * se)# para la media
[1] 2.117823 3.035559
3. Invertimos ese intervalo para obtener un IC para λ :
> 1 / c(mean(x) + qnorm(1-alfa/2) * se, mean(x) - qnorm(1-alfa/2) * se)# para lambda
[1] 0.3294286 0.4721829
4. Comprobamos que, en efecto, contiene al valor λ = 0.4.


 Ejemplo 8.3 Para dimensionar el tamaño del buffer de un modem ADSL es necesario estimar el
promedio de paquetes de datos por milisegundo que recibe el modem.
1 Mediante set.seed(1) se establece una semilla inicial en el proceso de simulación para que los resultados siempre

sean los mismos.


8.2 Intervalos de confianza aproximados para medias y proporciones con
muestras grandes 173
Se considera que el tiempo (en milisegundos) que transcurre entre paquete y paquete sigue
una distribución exponencial de parámetro λ . Obsérvese que la media de esta distribución es
µ = λ1 , tiempo medio entre paquetes, por lo que λ es precisamente el promedio de paquetes por
milisegundo que recibe el modem.
El objetivo es estimar el parámetro λ , que es el que se utilizará para dimensionar el modem.
Mediante un sniffer acoplado al modem para capturar datos del tráfico, se toman datos de los
tiempos entre paquetes de 1001 paquetes, por lo que se tienen 1000 datos de tiempos entre paquetes.
La media de estos tiempos resulta ser x̄ = 2.025, siendo la desviación típica muestral de 1.921.
En primer lugar, vamos a calcular un intervalo de confianza (al 95 %) para la media de la
distribución, µ:
 
sn−1 sn−1 1.921
x̄ − z0.975 √ , x̄ + z0.975 √ = 2.025 ∓ 1.96 × √ = (1.906, 2.144).
n n 1000

Finalmente, dado que λ = µ1 , el intervalo de confianza al 95 % de λ es 2.144 1 1



, 1.906 =
(0.466, 0.525) .
A título informativo, decir que el valor que se considera en el dimensionamiento del modem es
un múltiplo (el doble, por ejemplo) del extremo superior del intervalo, en este caso 0.525. 

8.2.2 Intervalos de confianza para una proporción


Ahora se supone que queremos un IC para una proporción, p, de alguna característica que se da
en alguna población. La muestra aleatoria ahora consistiría en tomar N datos y contar los éxitos, k.
La estimación puntual, ya lo sabemos, es p̂ = Nk . Se recomienda que k y N − k, es decir, tanto los
éxitos como los fracasos en la muestra, sean al menos 5, para que la aproximación del Teorema
Central del Límite sea razonable.
Intervalo clásico
El IC que detallamos a continuación se ha explicado y utilizado durante años por su simplicidad,
aunque no es el más preciso. Lo llamaremos por ello el IC clásico.

Teorema 8.2.2 Dada una muestra aleatoria simple para la estimación de la proporción p de
una característica de una población, siendo k el número de éxitos en la muestra y N el tamaño
muestral, consideramos como estimador de p a la proporción muestral, p̂ = k/N, cuyo error
estándar aproximado es r
p̂ × (1 − p̂)
s.e.( p̂) =
N
Entonces, se tiene:
1. Un IC bilateral aproximado, con nivel de significación α, viene dado por

( p̂ − z1−α/2 × s.e.( p̂), p̂ + z1−α/2 × s.e.( p̂))

2. Una cota superior de confianza aproximada, con nivel de significación α, viene dado por

p̂ + z1−α × s.e.( p̂)

3. Una cota inferior de confianza aproximada, con nivel de significación α, viene dado por

p̂ − z1−α × s.e.( p̂)


q
p̂×(1− p̂)
Obsérvese que el IC bilateral tiene tolerancia z1−α/2 × N , por lo que nos interesa que
N sea grande para aumentar la precisión.
174 Capítulo 8. Estimación por intervalos de confianza

 Ejemplo 8.4 Considerando de nuevo el ejemplo de las placas de óxido de silicio del apartado
2.5.2, recordemos que tuvimos que eliminar 12 de las 216 muestras debido a problemas relacionados
con la instrumentación. En el capítulo anterior ya dijimos que cabía pensar que esto ocurriera en
futuras nuevas aplicaciones del procedimiento por lo que nos planteemos estimar la proporción, p,
de muestras que se despreciarán. Ahora queremos una estimación mediante un IC. En el caso del
IC clásico, viene dado por:
> N <- 216
> k <- 12
> alfa <- 0.05
> print(p.est <- k / N)
[1] 0.05555556
> print(z <- qnorm(1 - alfa / 2))
[1] 1.959964
> print(se <- sqrt(p.est * (1-p.est) / N))
[1] 0.01558566
> c(p.est - z * se, p.est + z * se)
[1] 0.02500823 0.08610288
Podemos expresar el resultado diciendo que se estima la proporción de medidas invñalidas en 5.6 %
con un margen de error del ±3.1 % y un 95 % de confianza. Obsérvese que la amplitud del intervalo
es 0.061). 

 Ejemplo 8.5 En España los Servicios Sociales son competencia de las comunidades autónoma.
Vamos a imaginar que una de ellas pretende implantar un programa de ayuda a familias con
familiares dependientes. Dado que la mayor parte de los Servicios Sociales son competencia de los
municipios, la comunidad autónoma proporcionará los medios económicos, pero serán éstos, los
ayuntamientos los encargados de ejecutar el programa.
Los Servicios Sociales de cualquier municipio asumen que, por errores inevitables, no todas las
familias a las que subvencionan reunen los requisitos exigidos, pero la comunidad autónoma les
responsabiliza de que esto no ocurra en más del 4 % de ellas. Si se supera este porcentaje, penalizará
al municipio.
En un municipio concreto se muestrean 200 familias y se detecta que 12 de ellas (6 %) no
cumplen las condiciones exigidas. ¿Debe la comunidad autónoma sancionar al municipio?
Si nos fijamos sólo en el valor de la estimación puntual, 6 %, sí debería hacerlo, pero no sería
justo: 12 errores en una muestra de 200 pueden no ser una evidencia suficiente de que el porcentaje
superara el 4 %.
Consideremos una cota inferior de confianza para la proporción de errores (5 % de significación)
con los datos obtenidos:
r
0.06(1 − 0.06)
0.06 − 1.644854 = 0.0323782.
200
Por tanto, si confiamos con un 95 % de confianza que la auténtica proporción de ayudas fraudulentas
es superior al 3.24 %, no podemos estar seguros a un 95 % de que el porcentaje sea superior al 4 %
y, por tanto, no debe sancionarse al municipio. 

Intervalo de confianza score


8.2 Intervalos de confianza aproximados para medias y proporciones con
muestras grandes 175
Teorema 8.2.3 En las mismas condiciones que el teorema anterior, siendo p̂ = k/N, se define
un nuevo estimador de p dado por

p̂ + z21−α/2 /(2N)
pe = .
1 + z21−α/2 /N

Su error estándar viene dado por


q
( p̂ × (1 − p̂) + z21−α/2 /(4N))/N
s.e.( pe) =
(1 + z21−α/2 /N)

En esas condiciones:
1. Un IC bilateral aproximado para p con nivel de significación α viene dado por

( pe − z1−α/2 × s.e.( pe)

2. Una cota superior de confianza aproximada con nivel de significación α viene dado por

pe + z1−α × s.e.( pe)

3. Una cota inferior de confianza aproximada con nivel de significación α viene dado por

pe − z1−α × s.e.( pe)

 Ejemplo 8.6 Continuando con el Ejemplo 8.4, apliquemos ahora el IC score a los mismos datos:
> N <- 216
> k <- 12
> alfa <- 0.05
> p.est <- k / N
> z <- qnorm(1 - alfa / 2)
> p.score <- (p.est + z^2 / (2*N)) / (1 + z^2 / N)
> se.score <- sqrt((p.est * (1-p.est) + z^2 / (4*N)) / N) / (1 + z^2 / N)
> c(p.score - z * se.score, p.score + z * se.score)

[1] 0.03206234 0.09458101

Expresamos el resultado diciendo que se estima el porcentaje de medidas inválidas en un 6.332 %


con un margen de error del ±3.055 % y un 95 % de confianza. Obsérvese que, si en el intervalo
clásico la amplitud del intervalo era 0.061), ahora es 0.063). 

Comparando ambos intervalos, el clásico y el score, podemos decir que, en realidad, ambos se
parecen mucho cuando se tiene un N grande. También es importante comentar que R proporciona
el test score con correcciones relativas al tamaño muestral, mediante la función prop.test y su
salida conf.int. En los datos del ejemplo anterior, tenemos
> prop.test(k, N)$conf.int

[1] 0.03035972 0.09741396


attr(,"conf.level")
[1] 0.95

En general, si no se busca una precisión exhaustiva con muestras pequeñas, se recomienda el


uso del intervalo clásico, por su simplicidad en el cálculo.
176 Capítulo 8. Estimación por intervalos de confianza

8.3 Intervalos de confianza en variables normales para media y varianza


Debido a las magníficas propiedades matemáticas de la distribución normal, es muy fácil
obtener intervalos de confianza exactos, no basados en la aproximación que propone el Teorema
Central del Límite, para su media, y también para su varianza (y con ello, para su desviación típica).

8.3.1 Intervalo de confianza para la media de una distribución normal


Teorema 8.3.1 Sea X1 , ..., XN una muestra aleatoria simple de una v.a., X, que sigue una distri-
bución N(µ, σ ). Consideramos X̄ como estimador de µ, cuyo error estándar es

SN−1
s.e.(X̄) ≈ √ .
N
Entonces:
1. Un IC para µ con un nivel de significación α viene dado por

(x̄ − t1−α/2,N−1 × s.e.(X̄), x̄ + t1−α/2,N−1 × s.e.(X̄)).

2. Una cota superior de confianza para µ con un nivel de significación α viene dado por

x̄ + t1−α,N−1 × s.e.(X̄).

3. Una cota inferior de confianza para µ con un nivel de significación α viene dado por

x̄ − t1−α,N−1 × s.e.(X̄).

En todos los casos, ta,v denota el cuantil a de una distribución t − Student con v grados de
libertad.

R [Acerca de la distribución t-Student] La distribución llamada t − Student es una distribu-


ción muy relacionada con la normal. Su función de densidad es irrelevante para nosotros.
Baste decir para nuestros propósitos que se parece bastante a la distribución N(0, 1), sien-
do, como ésta, simétrica con respecto a su media cero. Su único parámetro se denomina
gradosdelibertad, nombre peculiar que se debe a razones históricas.
Lo más relevante para nosotros es que esta t − Student se parece más a la N(0, 1) cuanto
mayor es su parámetro. En el caso del teorema que acabamos de ver, se puede observar que el
parámetro será tanto mayor cuanto más datos tengamos, de tal manera que cuando el número
de datos sea alto, el teorema es exactamente el mismo que hemos dado anteriormente para
una media cualquiera, no necesariamente el de una distribución normal.
Para la obtención de cuantiles de la distribución t − Student mediante R se utiliza qt(a, v),
donde a es la probabilidad asociada al cuantil y v son los grados de libertad.

 Ejemplo 8.7 Volviendo de nuevo sobre los datos del apartado 2.5.2 acerca del grosor de las
capas de óxido de silicio, vamos a estimar mediante un IC al 95 % de confianza la media de la
hipotética distribución normal que sigue la variable; esta hipótesis queda avalada por la forma de
su histograma. Previamente al análisis, eliminamos de nuevo los datos que descubrimos que no
estaban bien tomados.
> placas <- data.frame(matrix(nrow = 9*24, ncol = 3))
> for (i in 0:8){
+ placas[24*i + (1:24), 1:2] <- oxidosilicio[, 1:2]
+ placas[24*i + (1:24), 3] <- oxidosilicio[1:24, i + 3]
+ }
8.3 Intervalos de confianza en variables normales para media y varianza 177

> names(placas) <- c("Serie", "Placa", "Espesor")


> muestra <- placas$Espesor[placas$Espesor > 80 & placas$Espesor < 100]
Quedándonode con los N = 204 datos depurados, obtenemos el IC:
> alfa <- 0.05
> N <- length(muestra)
> t <- qt(1 - alfa/2, N-1)
> mu.est <- mean(muestra)
> se <- sd(muestra) / sqrt(N)
> c(mu.est - t * se, mu.est + t * se)

[1] 91.80547 92.45532

8.3.2 Intervalo de confianza para la varianza de una distribución normal


Teorema 8.3.2 Sea X1 , ..., XN una muestra aleatoria simple de una v.a., X, que sigue una distri-
bución N(µ, σ ). Entonces:
1. Un IC para σ 2 con un nivel de significación α viene dado por
2
(N − 1)SN−1 2
(N − 1)SN−1
( 2
, 2
).
χ1−α/2,N−1 χα/2,N−1

2. Una cota superior de confianza para σ 2 con un nivel de significación α viene dado por
2
(N − 1)SN−1
2
.
χα,N−1

3. Una cota inferior de confianza para σ 2 con un nivel de significación α viene dado por
2
(N − 1)SN−1
2
.
χ1−α,N−1

2 denota el cuantil a de una distribución χ 2 con v grados de libertad.


En todos los casos, χa,v

R [Acerca de la distribución χ 2 ] La distribución χ 2 con v grados de libertad es en realidad una


distribución Gamma(v/2, 1/2), y la veremos en varios contextos, en este caso, relacionada
con la inferencia sobre la varianza. En R sus cuantiles se obtienen con la función qchisq.

R Dado que la desviación típica es la raiz cuadrada de la varianza, el teorema facilita de forma
trivial ICs para la desviación típica, sin más que realizar la raiz cuadrada a los extremos de
los intervalos.

 Ejemplo 8.8 Continuando con el ejemplo sobre el grosor de las placas de silicio, el IC para la
varianza 95 % es
> c((N-1) * var(muestra) / qchisq(1-alfa/2, N-1),
+ (N-1) * var(muestra) / qchisq(alfa/2, N-1))

[1] 4.602442 6.797912


178 Capítulo 8. Estimación por intervalos de confianza

y, por tanto, para la desviación típica,


> sqrt(c((N-1) * var(muestra) / qchisq(1-alfa/2, N-1),
+ (N-1) * var(muestra) / qchisq(alfa/2, N-1)))
[1] 2.145330 2.607281


8.4 Determinación del tamaño muestral


Imaginemos que pretendemos estimar un parámetro, como una media o una proporción, toman-
do datos. ¿Cuántos debemos coger? Teniendo en cuenta lo que hemos aprendido estudiando los
errores estándar de los estimadores y el papel que juegan en los IC, podríamos responder cuantos
más, mejor. Pero la toma de datos supone normalmente un coste, así que esa respuesta no nos vale.
Lo que se suele hacer es establecer el tamaño mínimo que debe tener la muestra para obtener la
estimación mediante un IC con una precisión o tolerancia establecidas de antemano, concretando
la pregunta en la siguiente: ¿cuántos datos tendré que tomar para obtener una estimación del
parámetro con una tolerancia (precisión) dada? Vamos a tratar de analizarlo.

8.4.1 En el muestreo de la media


Vamos a imaginar que nos piden una tolerancia tol con un nivel de significación α. Entonces,
la idea es despejar el valor de N de la fórmula de la tolerancia, tol = z1−α/2 × s√N−1
N
; el problema es
que si todavía no tenemos los datos, ¿cómo vamos a conocer sN−1 ?
La solución pasa por hacer una encuesta previa, de tamaño reducido, cruzar los dedos y usar
como sN−1 el valor que se obtenga como extremo superior del IC para la desviación típica en esa
encuesta.
En resumen, el proceso es:
1. Consideramos que se nos pide estimar la media µ con una tolerancia de ∓tol y un (1 − α) × %
de confianza.
2. Se realiza un muestreo previo y se obtiene un intervalo de confianza para la desviación típica,
dado por (sL , sU ).
3. El tamaño muestral N requerido es el primer entero superior a
 sU 2
z1−α/2 × .
tol
 Ejemplo 8.9 Vamos a suponer que tenemos una muestra de una v.a. que sigue una distribución
N(10, 2). Lógicamente esto es una simulación, y en la vida real no conoceremos, de ningún modo,
el valor de los parámetros poblacionales, µ = 10 y σ = 2. ¿Cuál sería el tamaño de la muestra que
necesitamos para estimar la media µ con una tolerancia de ∓0.1 y un 95 % de confianza?
1. Tenemos tol = 0.1 y α = 0.05:
> tol <- 0.1
> alfa <- 0.05
2. Consideramos un muestreo previo (simulado) de la v.a. de N = 30 datos:
> n.previa <- 30
> x.previa <- rnorm(n.previa, 10, 2)# Encuesta previa
3. Calculamos un IC para la desviación típica al 95 % para la pre-muestra, y nos quedamos con
la cota superior:
> s_U <- sqrt((n.previa - 1) * var(x.previa) / qchisq(1 - alfa / 2, n.previa - 1))
4. Determinamos el tamaño muestral mínimo requerido:
8.5 Resumen 179

> ceiling((qnorm(1 - alfa / 2) * s_U / tol)^2)


[1] 767


8.4.2 En el muestreo de la proporción


El cálculo se establece a partir del IC clásico, siendo la idea la misma: en la fórmula de la
tolerancia teórica, p
tol = z1−α/2 × p̂(1 − p̂)/N
ahora
q lo que no conocemos es p̂. Pero recordemos que tenemos una cota superior del error estándar,
p̂(1− p̂) √
N , dada por 1/2 N, de manera que, despejando de

tol ≤ z1−α/2 × 1/2 N,

se tiene que
z 2
1−α/2
N≥ .
2tol
El proceso resumido es:
1. Consideramos que se nos pide estimar una proporción p con una tolerancia de ∓tol y un
(1 − α) × % de confianza.
2. El tamaño muestral N requerido es el primer entero superior a
z 2
1−α/2
.
2tol
 Ejemplo 8.10 En las encuestas electorales en España se suele poner en la letra pequeña que
las estimaciones tienen un margen de error del ∓3.1 % con un 95 % de confianza. ¿Por qué ese
∓3.1 %? Veamos qué tamaño muestral exige esos requisitos, dados por 0.031 y 0.05.
> ceiling(qnorm(1 - alfa / 2) / (2 * tol))^2

[1] 1024

Así pues, el tamaño corresponde con las 1000 encuestas (normalmente telefónicas) que se realizan
en la mayoría de los sondeos electorales. 

8.5 Resumen
Hemos aprendido a estimar mediante intervalos de confianza medias, varianzas y proporciones.
En el caso de medias y proporciones, el intervalo puede expresarse como una estimación puntual
más/menos un margen de error y un determinado nivel de confianza. Además, en ambos casos es
posible determinar el tamaño muestral mínimo a priori para obtener con posterioridad el intervalo
para una cierta precisión requerida.
Recogemos un esquema del proceso en la Figura 8.2.

8.6 Para saber más


1. Nosotros sólo hemos enunciado los resultados que nos permiten estimar los parámetros que
más nos interesan. Exixte, no obstante, una metodología que, por un lado, permite demostrar
esos resultados y, por otro, la obtención de otros muchos intervalos de confianza. Para ampliar
sobre ello puede verse, por ejemplo, (Villegas, 2005).
180 Capítulo 8. Estimación por intervalos de confianza

Queremos
estimar
un
parámetro
desconocido

Varianza ¿Cuál? Proporción

¿De una
No sabes No
normal?
¿Tamaño
Media
muestral?

¿Tamaño
muestral?

1. Pre-muestra
2. Cota superior de la
varianza

3.

No
¿De una o
normal? no se
sabe

Figura 8.2: Diagrama de flujo sobre la estimación por intervalos de confianza


8.7 Ejercicios 181

2. El IC para el parámetro λ de una distribución exponencial que hemos visto en el Ejemplo 8.2
no es el único, ni el más preciso. Un intervalo centrado, exacto y específico para el parámetro
λ aparece en este enlace
3. La determinación del tamaño muestral en poblaciones finitas exige una corrección que puede
verse detallada, por ejemplo, en (Thompson, 2012).
4. Existe una metodología alternativa para la obtención de ICs basada en bootstrapping. Ver, por
ejemplo, (Rizzo, 2007).
5. La Estadística Bayesiana tiene una metodología diferente para la estimación por intervalos,
negando el concepto de confianza, hablando de intervalos de probabilidad. Véase, por ejemplo,
(Meeker, Hahn y Escobar, 2017).

8.7 Ejercicios
Como habitualmente, todas las hojas de datos necesarias para estos ejercicios se encuentran en
http://cort.as/-BXu-.

Ejercicio 8.1 La ingeniera encargada del control de calidad de una empresa desea estimar con
una precisión del 1 % la proporción de componentes defectuosas que se dan en su cadena de
producción. Para ello pretende utilizar un intervalo de confianza al 95 %.
1. Calcular el tamaño muestral mínimo necesario para obtener una estimación de la propor-
ción defectuosas con un ±1 % mediante un intervalo de confianza al 95 %.
2. Si la ingeniera encuentra un estudio anterior que sitúa la proporción de defectuosas en el
100p %, utilícese este valor para estimar el error estandar y obténgase de nuevo el tamaño
muestral mínimo necesario para obtener una estimación de la proporción defectuosas con
un ±1 % mediante un intervalo de confianza al 95 %.
3. Durante el estudio, finalmente la ingeniera consigue realizar 128 pruebas y encuentra en
ellas 26 componentes defectuosas. Obtener la estimación puntual de la proporción de
componentes defectuosas, la estimación del error estándar, una cota superior de dicho error
y un intervalo de confianza al 95 % de dicha proporción.


Ejercicio 8.2 La norma E23 de la ASTM (American Society for Testing Materials) describe las
pruebas de impacto de probetas metálicas entalladas. La entalladura en V de Charpy (CVN)
es una técnica que permite conocer el comportamiento que tienen los materiales al impacto y
es a menudo utilizada para determinar si un material experimenta una transición de dúctil a
quebradizo con la disminución de la temperatura. Se han recogido datos de la energía de impacto
(J) en muestras de acero A238 cortado a 60ºC, que se recogen en la hoja acero. Asumiendo que
el impacto de energía se distribuye de forma normal, se pide:
1. Obtener un IC al 95 % de confianza de la media de la energía de impacto.
2. Obtener un IC al 95 % de la desviación típica de la energía de impacto.


Ejercicio 8.3 Los datos de la hoja computing se refieren al tiempo de respuesta (en ms.) a
cierto comando en una muestra de 27 computadoras. Se tienen evidencias de que los datos
proceden de una distribución normal. Se pide:
1. Calcular un intervalo de confianza al 95 % del promedio del tiempo de respuesta.
2. Calcular un intervalo de confianza al 95 % de la desviación típica del tiempo de respuesta.
3. El ingeniero encargado desea obtener una estimación más precisa del promedio del tiempo
182 Capítulo 8. Estimación por intervalos de confianza

de respuesta, es decir, con un intervalo de confianza menos amplio. De hecho, quiere


imponer una precisión al intervalo de confianza de 1 ms. ¿Cuál debe ser el tamaño muestral
mínimo para ello?


Ejercicio 8.4 En el artículo Limited Yield Estimation for Visual Defect Sources (IEEE Trans. on
Semiconductor Manuf., 1997: 17-23) aparecían datos sobre un proceso de inspección de obleas.
Supongamos que en una reproducción que realizamos de dicho estudio encontramos que de 360
matrices examinadas, 204 pasaron el proceso de inspección. Se pide:
1. Calcular una estimación insesgada de la proporción de matrices que pasan la inspección y
una cota del error estándar de dicha estimación.
2. Calcular un intervalo de confianza al 95 % de la proporción de matrices que pasan la
inspección.
3. Se desea realizar un nuevo estudio encaminado a proporcionar un intervalo de confianza
al 95 % más preciso. Calcula el tamaño mínimo que debería tener la muestra para que el
intervalo de confianza tuviera una tolerancia inferior al 1 %.

9. Contraste de hipótesis estadísticas

Si los hechos contradicen las predicciones, entonces la hipótesis es incorrecta, no importa cuán
atractiva sea.

David Douglass (1799-1834), botánico y explorador escocés.

La gran tragedia de la ciencia: la destrucción de una bella hipótesis por un antiestético conjunto
de datos.

Thomas H. Huxley.

I do not yet want to form a hypothesis to test, because as soon as you make a hypothesis, you
become prejudiced.

Bernd Heinrich, en A Year in the Maine Woods.

Un hecho es una declaración simple que todo el mundo cree. Es inocente, mientras no sea
declarado culpable. Una hipótesis es una propuesta novedosa que nadie quiere creer. Es culpable,
hasta que se demuestre efectiva.

Edward Teller (1908-2002), físico estadounidense de origen hungaro.

Objetivos
En este capítulo explicamos qué se entiende por contraste de hipótesis estadística y aprendemos
a realizar contrastes de este tipo a partir de datos, referidos bien a algún parámetro poblacional
desconocido, bien al ajuste mediante una distribución teórica. Los objetivos específicos son:
184 Capítulo 9. Contraste de hipótesis estadísticas

1. Comprender el concepto de hipótesis nula y alternativa y aprender a enunciarlas en el contexto


de un contraste de hipótesis.
2. Comprender los conceptos de error tipo I y error tipo II
3. Comprender los conceptos de p-valor, nivel de confianza y nivel de significación asociados a
un contraste de hipótesis.
4. Aprender a realizar contrastes de medias, varianzas y proporciones.
5. Aprender a realizar contrastes de bondad de ajuste de unos datos mediante una distribución
teórica.

9.1 Introducción
Una prueba, test o contraste de hipótesis es un procedimiento para inferir decisiones que
se refieren a una cierta hipótesis basándose en muestras de una variable. Esta hipótesis puede
referirse a algún parámetro poblacional, en cuyo caso se habla de un contraste de hipótesis
paramétrica o a otro tipo de hipótesis estadística, en cuyo caso se habla de contrastes de hipótesis
no paramétricas.
Vamos a comenzar a explicar el funcionamiento de un contraste de hipótesis con un ejemplo.
Es importante que entendamos que este ejemplo no representa exactamente cómo se realizan los
contrastes, sino que tiene exclusivamente un carácter metodológico.
 Ejemplo 9.1 Algunos organismos medioambientales recomiendan que, para prever el calenta-
miento global, la concentración de gases de efecto invernadero no debe exceder las 350 partes
por millón. Vamos a imaginar que una organización de protección del medio ambiente quiere
determinar si el nivel medio, µ, de gases de efecto invernadero en una región cumple con las pautas
requeridas, que establecen un límite máximo de 350 partes por millón. Para ello tomará una muestra
de mediciones diarias de aire para decidir si se supera el límite, es decir, si µ > 350 o no. Por tanto,
la organización desea encontrar apoyo para la hipótesis µ > 350, llamada hipótesis alternativa,
obteniendo pruebas en la muestra que indiquen que la hipótesis contraria, µ = 350 (o µ ≤ 350),
llamada hipótesis nula, es falsa.
Dicho de otra forma, la organización va a someter a juicio a la hipótesis nula µ ≤ 350. Partirá
de su inocencia, suponiendo que es cierta, es decir, suponiendo que, en principio, no se superan
los límites de presencia de gases de efecto invernadero, y sólo la rechazará en favor de H1 si hay
pruebas evidentes en los datos de la muestra para ello.
La decisión de rechazar o no la hipótesis nula en favor de la alternativa deberá basarse en
la información que da la muestra, a través de alguna medida asociada a ella, que se denomina
estadístico de contraste. Por ejemplo, si se toman 30 lecturas de aire y la media muestral es mucho
mayor que 350, lo lógico será rechazar la hipótesis nula en favor de µ > 350, pero si la media
muestral es sólo ligeramente mayor que 350 o directamente es menor que 350, no habrá pruebas
suficientes para rechazar µ ≤ 350 en favor de µ > 350.
La cuestión clave es en qué momento se decide rechazar la hipótesis nula en favor de la alterna-
tiva. En nuestro ejemplo, en qué momento podemos decir que la media muestral es suficientemente
mayor que 350. El conjunto de estos valores del estadístico de contraste, que permiten rechazar
µ = 350 en favor de µ > 350 se conoce como región de rechazo. 

A la luz de este ejemplo, vamos a tratar de definir de forma general los conceptos que acabamos
de introducir.
Definición 9.1.1 Un contraste de hipótesis es una prueba que se basa en los datos de una
muestra de una v.a. mediante la cuál podemos rechazar una hipótesis sobre un parámetro de la
población, llamada hipótesis nula, que se notará como (H0 ), en favor de una hipótesis contraria,
llamada hipótesis alternativa, notada como (H1 ).
9.1 Introducción 185

La prueba se basa en una transformación numérica de los datos de la muestra, es decir, en


una función que transformará los datos en un valor numérico, llamado estadístico de contraste,
a partir del cuál se decidirá si se rechaza o no la hipótesis nula en favor de la alternativa,
Uno de los aspectos más importantes y que se suele prestar a mayor confusión se refiere a qué
hipótesis considerar como H0 y cuál como H1 . Una regla práctica para hacerlo correctamente puede
ser la siguiente:
1. Si estamos intentando probar una hipótesis, ésta debe considerarse como la hipótesis alternati-
va.
2. Por el contrario, si deseamos desacreditar una hipótesis, debemos incluir ésta como hipótesis
nula.

 Ejemplo 9.2 Para una determinada edificación se exige que los tubos de agua tengan una
resistencia media a la ruptura, µ, por encima de 30 kg por centímetro.
Como primera situación, supongamos que un proveedor quiere facilitar un nuevo tipo de tubo
para ser utilizado en esta edificación. Entonces, es el proveedor el que necesita demostrar que
sus tubos son válidos, por lo que deberá poner a trabajar a sus ingenieros, que deben realizar
una prueba para verificar que esos tubos cumplen con las especificaciones requeridas. Eso
se traduce en que deben proponer un contraste que incluya como hipótesis nula H0 : µ ≤ 30
frente a la alternativa H1 : µ > 30. Si al realizar el contraste de hipótesis se rechaza H0 en
favor de H1 , el tubo podrá ser utilizado, pero si no se puede rechazar H0 en favor de H1 , no se
tienen suficientes garantías sobre la calidad del tubo y no podrá ser utilizado.
Como segunda situación, un proveedor lleva suministrando su tipo de tubo desde hace años,
sin que se hayan detectado, en principio, problemas con ellos. Sin embargo, un ingeniero que
trabaja para el gobierno controlando la calidad en las edificaciones viene teniendo sospechas
de que ese tipo de tubo no cumple con las exigencias requeridas. En ese caso, es el ingeniero
quien debe demostrar que algo raro está pasando con los tubos, por lo que ahora deberá
considerar un contraste de la hipótesis nula H0 : µ ≥ 30 frente a H1 : µ < 30. Dicho de otra
forma, sólo podrá contrastar su hipótesis si encuentra datos empíricos que permitan rechazar
esa hipótesis nula en favor de su alternativa, que demuestren con un alto nivel de fiabilidad que
el proveedor, que estaba siendo aceptado ahora (hipótesis nula), no cumple con los requisitos.


En este sentido, es importantísimo que desde el principio tengamos claro qué tipo de decisiones
puede proporcionarnos un contraste de hipótesis. Aunque ya las hemos comentado, vamos a insistir
en ellas. Son las dos siguientes:
1. Si el valor del estadístico de contraste para los datos de la muestra es muy contradictorio con
la hipótesis nula, podremos afirmar con un determinado nivel de confianza que los datos de la
muestra permiten rechazar la hipótesis nula en favor de la alternativa.
2. Si el valor del estadístico de contraste para los datos de la muestra no es altamente contra-
dictorio con la hipótesis nula, no podremos afirmar con el nivel de confianza exigido que los
datos de la muestra permiten rechazar la hipótesis nula en favor de la alternativa.
La clave radica en que entendamos desde el principio que la hipótesis nula no necesita ser
demostrada, ni hacerlo es nuestro objetivo. Es asumida sólo como punto de partida, pero será
abandonada cuando los datos empíricos muestren evidencias claras en su contra y a favor de
la alternativa. La carga de la prueba de hipótesis radica siempre en la hipótesis alternativa, que
es la única hipótesis en la que podremos garantizar un determinado nivel de confianza. Queda
pendiente, obviamente, definir qué entendemos en este contexto por nivel de confianza o ser
altamente contradictorio.
186 Capítulo 9. Contraste de hipótesis estadísticas

9.1.1 Hipótesis paramétricas


Como hemos mencionado en la introducción, cuando las hipótesis H0 y H1 se refieren a un
parámetro estadístico poblacional, θ , se habla de contraste de hipótesis paramétricas. En ese caso,
la hipótesis H0 se suele enunciar como una igualdad1 , del tipo H0 : θ = θ0 , donde θ es un parámetro
de una población y θ0 es un valor hipotético para ese parámetro. Por su parte, H1 puede tener tener
tres formas:
1. H1 : θ > θ0 , en cuyo caso se habla de contraste unilateral a la derecha o de una cola a la
derecha o de un extremo a la derecha.
2. H1 : θ < θ0 , en cuyo caso se habla de contraste unilateral a la izquierda o de una cola a
la izquierda o de un extremo a la izquierda.
3. H1 : θ 6= θ0 , en cuyo caso se habla de contraste bilateral o de dos colas o de dos extremos.

9.1.2 Hipótesis no paramétricas. Contraste de bondad de ajuste


Bajo el término de contraste de hipótesis no paramétricas se encierran en realidad una gran
diversidad de tipos de contrastes que, incluso, en ocasiones, y para mayor confusión, se refieren a
parámetros como la mediana.
Nosotros no vamos a entrar en detalle en este tipo de contrastes, sino sólo describir dos de ellos,
que se utilizan para testear la hipótesis nula de que unos datos quedan descritos por una distribución
de probabilidad teórica. Estos dos contrastes darán, por tanto, respuesta a algo que dejamos en el
aire en el capítulo de estimación de parámetros: la bondad de los ajustes originados.
Nuestro punto de partida era una muestra aleatoria simple de una v.a., X, dada por x1 , ..., xN .
Viendo las características de la variable, bien por el contexto en el que se produce, bien por la
forma del histograma, considerábamos la posibilidad de que esa v.a. X siguiera una determinada
distribución de probabilidad F(θ ) donde θ representa uno o más parámetros poblacionales de
la distribución. Dado que esos parámetros son desconocidos, aprovechábamos la muestra y las
técnicas de estimación puntual que aprendimos allí (método de los momentos o, sobre todo, método
de máxima-verosimilitud) para obtener una estimación de θ , que notábamos como θ̂ .
A la distribución F(θ̂ ) que hipotéticamente modeliza las frecuencias observadas de X en la
muestra la llamábamos el ajuste de los datos. Lo que hicimos allí es sólo tratar de visualizar si
las frecuencias teóricas del ajuste se parecían o no, en una simple representación gráfica, a las
frecuencias empíricas.
Sin embargo, ya dijimos entonces que eso era poco riguroso. Ahora sí es el momento de dar una
respuesta adecuada, en forma de un contraste de hipótesis que, por todo lo comentado, se denomina
contraste de bondad de ajuste. El contraste establece como hipótesis nula
H0 : X → F(θ̂ )
frente a la alternativa
H1 : X 9 F(θ̂ )
Si podemos aceptar H0 nuestra conclusión será que F(θ̂ ) proporciona un ajuste aceptable de
los datos. Pero si debemos rechazar H0 en favor de H1 , concluiremos que el ajuste de los datos
mediante F(θ̂ ) es inaceptable.

9.2 Toma de la decisión en un contraste de hipótesis. Concepto de p-valor


Puede que algún lector impaciente considere que estamos dando muchas vueltas a las definicio-
nes y que estamos tardando mucho en ofrecer, de una vez, la forma práctica de realizar un contraste,
porque todavía está latente la pregunta clave:
1 De todas formas, también es frecuente expresar H como negación exacta de H , en cuyo caso puede ser una
0 1
desigualdad no estricta. Matemáticamente no hay diferencias en estas dos posibilidades.
9.2 Toma de la decisión en un contraste de hipótesis. Concepto de p-valor 187

Situación real
H0 H1
Decisión en H0 Decisión correcta (β ) Error tipo II (1 − β )
el contraste H1 Error tipo I (α) Decisión correcta (1 − α)

Tabla 9.1: Esquematización de los errorres tipo I y tipo II, con las probabilidades asociadas, α
(nivel de significación) y 1 − β

Tenemos H0 y H1 .
Tenemos los datos de la muestra, x1 , ..., xN .
Tenemos el estadístico, t(x1 , ..., xN ) que me da una medida de cuánto contradicen los datos a
la H0
Entonces, ¿rechazamos o no rechazamos H0 en favor de H1 ?
El problema es que la toma de esta decisión es compleja porque debemos garantizar mediante
algún criterio que la posibilidad de equivocarnos, que la hay, esté de alguna manera controlada, y
este criterio depende de que tomemos conciencia de las dos formas que tenemos de equivocarnos,
que vamos a describir a continuación.

9.2.1 Errores tipo I y tipo II. Significación y confianza. Potencia


En el contraste de hipótesis paramétricas debemos distinguir claramente entre la situación real
y la decisión que nosotros tomamos. Es decir, de entre las hipótesis H0 y H1 sólo una de ellas es
cierta, y la otra, falsa; por otra parte, nosotros examinamos los datos y llegamos a a una conclusión,
a una decisión basada en alguna regla aún por definir, optando por aceptar H0 o rechazarla en favor
de H1 . Por desgracia, esa decisión será correcta o no lo será, y la diferencia entre la realidad y
nuestra decisión nos puede llevar a cometer errores de dos tipos que detallamos a continuación.
Definición 9.2.1 Se llama error tipo I o falso negativo a rechazar la hipótesis nula cuando es
cierta.

Definición 9.2.2 A la probabilidad de cometer un error tipo I la vamos a notar α, llamado nivel
de significación. Por otra parte, llamaremos nivel de confianza a la probabilidad de aceptar la
hipótesis nula cuando es cierta, es decir, 1 − α.

Definición 9.2.3 Se llama error tipo II o falso positivo a aceptar la hipótesis nula cuando es
falsa.

Definición 9.2.4 A la probabilidad de cometer un error tipo II la notaremos por β , y llamaremos


potencia a la probabilidad de rechazar la hipótesis nula cuando es falsa, es decir, 1 − β .

Esquemáticamente, los conceptos de error tipo I, error tipo II, nivel de significación, nivel de
confianza y potencia aparecen en la Tabla 9.1.
¿Cuál de los dos errores es más grave? Probablemente eso depende de cada contraste, pero en
general se le da mucha más gravedad al error tipo I, es decir, a rechazar la hipótesis nula cuando es
cierta, de manera que lo que se pretende es acotar ese error tipo I y tratar de minimizar el error tipo
II. Es decir, tratamos de elegir contrastes lo más potentes posibles, pero garantizando siempre que
la probabilidad del error tipo I es inferior a un determinado nivel.
A continuación vamos a ver un ejemplo donde tratamos de clarificar la relevancia del error tipo
I y calculamos su probabilidad en función de cómo tomamos la decisión.
 Ejemplo 9.3 Un fabricante de minicomputadoras quiere vender un software adicional con sus
ordenadores portátiles, pero la inversión que le supone sólo resultará rentable si más del 20 % de
188 Capítulo 9. Contraste de hipótesis estadísticas

quienes compran sus computadoras compran ese software.


Como estudio de mercado se seleccionaron al azar 10 posibles compradores de la computadora
y se les preguntó si estarían interesados en el paquete de software. De estas personas, 4 indicaron
que pensaban comprar el paquete.
¿Proporciona esta muestra suficientes pruebas de que más del 20 % de los compradores finales
de la computadora adquirirán el paquete de software?
Llamemos p a la verdadera proporción de compradores que adquirirán el paquete de software.
Primero de todo, observemos que desconocemos el valor de p, pero no nos interesa saber en realidad
cuánto vale, sino simplemente confirmar si p > 0.2. Tenemos, por tanto, un contraste de hipótesis
con
H0 : p = 0.2
y
H1 : p > 0.2
¿Y con qué información contamos? Sea X: el número de posibles compradores de la muestra
del estudio de mercado. Podemos asegurar que X → B(10, p), y utilizaremos el valor de X en la
muestra (x = 4) como estadístico del contraste, rechazando H0 si X es grande.
La regla de decisión se establece en términos del estadístico del contraste. Supongamos, en
primer lugar, que establecemos como región de rechazo, es decir, que tomaremos la decisión de
rechazar H0 si X ≥ 4. En ese caso, dado que en la muestra x = 4, rechazaríamos H0 en favor de H1 ,
llegando a la conclusión de que el fabricante puede realizar la inversión en el software con cierta
garantía de que eso no le suponga pérdidas.
Pero, ¿cuál es esa garantía? Concretando más la pregunta, ¿cuál es la probabilidad de no estar
equivocándose al decidir realizar la inversión? El error sería lanzarse a comercializar el software
cuando en realidad no es rentable, es decir, pensar que H1 es cierta cuando en realidad lo es H0 .
Esa garantía, es por tanto, el nivel de confianza del contraste.
Calculemos entonces la probabilidad de error tipo I, α, que nos dará el nivel de confianza,
1 − α. Para ello, en la Tabla 9.2 aparece la distribución de probabilidad del estadístico de contraste
que hemos elegido, suponiendo que H0 es cierta:

α = P[Rechazar H0 |H0 es cierta ] = P[X ≥ 4| p=0.2 ]


= 0.08808 + 2.6424 × 10−2 + 5.505 × 10−3 + 7.8643 × 10−4
+ 7.3728 × 10−5 + 4.096 × 10−6 + 1.024 × 10−7
= 0.12087,

Por tanto, el nivel de confianza del contraste es del (1 − 0.12087) × 100 % = 87.913 %. La
conclusión sería que, a la luz de los datos, podemos afirmar con un 87.913 % de confianza que
p > 0.2.
¿Y si queremos un nivel de confianza mayor, es decir, una probabilidad de error tipo I menor?
En ese caso debemos ser más exigentes con el valor del estadístico de contraste para rechazar la H0 ,
es decir, debemos reducir la región de rechazo. Si ponemos como región de rechazo ahora X > 4,
ya no podremos rechazar H0 en favor de H1 , es decir, ya no debemos sacar el software al mercado,
ya que x = 4 no conduce al rechazo. Además, ahora

α = 2.6424 × 10−2 + 5.505 × 10−3 + 7.8643 × 10−4


+ 7.3728 × 10−5 + 4.096 × 10−6 + 1.024 × 10−7
= 3.2793 × 10−2 ,
9.2 Toma de la decisión en un contraste de hipótesis. Concepto de p-valor 189

x P [X = x]
10 0 10

0 0 0.2 0.8 = 0.10737
10 1 9
1 1 0.2 0.8 = 0.26844 Región de
10 2 8
2 2 0.2 0.8 = 0.30199 aceptación
10 3 7
3 3 0.2 0.8 = 0.20133
10 4 0.86 = 0.08808
4  4 0.2
10 5 5 −2
5 5 0.2 0.8 = 2.6424 × 10
10 6 4 −3
6 6 0.2 0.8 = 5.505 × 10 Región
10 7 3 −4
7 7 0.2 0.8 = 7.8643 × 10 de
10 8 2 −5
8 8 0.2 0.8 = 7.3728 × 10 rechazo
10 9 1 −6
9 9 0.2 0.8 = 4.096 × 10
10 10 0 −7
10 10 0.2 0.8 = 1.024 × 10

Tabla 9.2: Función masa del estadístico de contraste suponiendo cierta H0 , es decir, suponiendo que
p = 0.2

luego el nivel de confianza sería 1 − 3.2793 × 10−2 × 100 % = 96.721 %, y la conclusión sería


que, a la luz de los datos no podemos afirmar que p > 0.2 con un 96.721 % de confianza. 

El estudio de β es algo más complicado y no lo abordaremos.

9.2.2 Toma de la decisión: p-valor de un contraste de hipótesis


Históricamente, la forma más común de actuar en un contraste de hipótesis pasa por elegir un
nivel de significación bajo (o lo que es lo mismo, un nivel de confianza alto), que determina un
límite para el error tipo I que estamos dispuestos a asumir. Ese nivel de significación determina
toda la región de rechazo y, examinando si el valor del estadístico cae en ella, podemos concluir
si rechazamos o no la hipótesis nula en favor de la alternativa con el nivel de confianza requerido.
Analicemos este argumento despacio, paso a paso:
1. Dado que nos preocupa mucho el error tipo I, que se comete cuando la hipótesis nula es cierta,
vamos a suponer que, en efecto, lo es.
2. Si, como hemos supuesto, la hipótesis nula es cierta, el valor del estadístico no debe ser muy
extremo, ya que el valor del estadístico del contraste mide de alguna manera la adecuación de
los datos de la muestra a la hipótesis nula.
3. Decidiremos rechazar H0 , por tanto, si el estadístico es muy extremo. Ahora bien, estaremos
cometiendo entonces un error tipo I, ya que siendo cierta H0 también pueden darse, por pura
casualidad, valores muy extremos del estadístico.
4. Precisamente por ello elegimos un nivel de significación α como la probabilidad de cometer
el error tipo I, que equivale a la probabilidad de esos valores muy extremos que a veces se
dan en el estadístico de contraste incluso cuando H0 es cierta.
En la práctica, esta forma de decidir se lleva a cabo a partir del valor del estadístico de contraste,
valorando cómo es de extremo este valor bajo la distribución del estadístico en la hipótesis nula. Si
es más extremo que el nivel de significación deseado, se rechazará la hipótesis nula en favor de la
alternativa. Y a esta medida de cuán extremo es el valor del estadístico se llama p-valor.
Definición 9.2.5 — Definición de p-valor. Supongamos que queremos contrastar una hipó-
tesis H0 frente a la alternativa H1 . Supongamos además que el contraste se realiza mediante
un estadístico que notaremos S, y que el valor del estadístico para la muestra es s. El p-valor
asociado al contraste se define como la probabilidad de que se den valores del estadístico S más
extremos que el valor que ha tomado en nuestros datos, s, suponiendo que la hipótesis nula es
cierta.
190 Capítulo 9. Contraste de hipótesis estadísticas

 Ejemplo 9.4 En el Ejemplo 9.3 el estadístico cuenta el número de clientes que comprarán el
software. Por tanto, valores extremos contra la hipótesis nula serán valores altos de X. Por su parte,
en nuestros datos el estadístico toma el valor x = 4. Entonces, el p-valor sería

P[X > 4] = 0.12087.

Podemos decir que p = 0.12087 es una medida de cúan raros son nuestros datos bajo el prisma
de la hipótesis nula. Y lo cierto es que datos que están en un rango del 12 % de la probabilidad de
una distribución no parecen especialmente raros. 

Definición 9.2.6 — Regla de decisión en un contraste. Consideremos las siguientes hipó-


tesis:
1. Queremos contrastar una hipótesis H0 frente a la alternativa H1 .
2. Se elige un nivel de significación, α, que representa la probabilidad de cometer un error
tipo I que estamos dispuestos a asumir.
3. El contraste se realiza mediante un estadístico que notaremos S.
4. El estadístico, en nuestros datos, toma el valor s.
5. Se calcula el p-valor midiendo cuán extremo es s en la distribución de S cuando H0 es
cierta.
La regla de decisión del contraste es la siguiente:
Si p < α, rechazamos H0 en favor de H1 con más de un (1 − α) × 100 % de confianza.
Si p ≥ α, no podemos rechazar H0 en favor de H1 con un (1 − α) × 100 % de confianza.

R Como nota final sobre el concepto de p-valor, es importante señalar que, al contrario de lo
que erróneamente se piensa en demasiadas ocasiones, el p-valor no es la probabilidad de la
hipótesis nula.
Mucha gente piensa esto porque es cierto que cuando el p-valor es pequeño es cuando
se rechaza la hipótesis nula. Sin embargo, para empezar, no tiene sentido plantearnos la
probabilidad de la hipótesis nula, ya que ésta, o es cierta, o es falsa: desde una perspectiva
clásica de la probabilidad, se habla de la probabilidad de un suceso porque a veces ocurre y
a veces no, pero en este caso no podemos pensar así, ya que la hipótesis nula o se da o no
se da. En realidad, el p-valor lo que da es un indicio de la certidumbre que tenemos, de la
confianza en que la hipótesis nula sea verdad, teniendo en cuenta los datos de la muestra. Esta
interpretación tiene más que ver con la interpretación subjetiva de la probabilidad.
Hay que decir que, en relación a esta interpretación subjetiva de la probabilidad, existe una
visión de la Estadística, la Estadística Bayesiana, en la que el p-valor sí puede entenderse
como la probabilidad de la hipótesis nula, pero entendiendo que medimos la probabilidad
de la hipótesis nula, no porque pueda ocurrir o no ocurrir en función del azar, sino porque
tenemos incertidumbre sobre ella.

Una vez que tenemos la regla que nos permite tomar la decisión de un contraste cualquiera,
resumamos el proceso que deberemos seguir para aplicar un contraste de hipótesis:
1. Se establecen las hipótesis nula, H0 , y alternativa, H1 .
2. Se determina el nivel de significación, α, que representa la probabilidad máxima de error que
asumimos en la decisión de rechazar H0 en favor de H1 .
3. Se calcula el valor del estadístico de la prueba a partir de los datos de la muestra.
4. Se calcula el p-valor.
5. Se toma la decisión, basada en la siguiente regla:
Si p < α, rechazamos H0 en favor de H1 con más de un (1 − α) × 100 % de confianza.
Si p ≥ α, no podemos rechazar H0 en favor de H1 con un (1 − α) × 100 % de confianza.
9.3 Contrastes para la media 191

9.2.3 Cálculo del p-valor en un contraste paramétrico


La clave en el cálculo de cualquier p-valor está en cómo medir lo extremos que son los datos
contra H0 y en favor de H1 , teniendo en cuenta que un dato puede ser extremo en una distribución
por ser muy alto, por ser muy bajo o por ambos.
Precisamente por ello para calcular el p-valor de un contraste paramétrico es necesario distinguir
entre contrastes unilaterales, en sus dos sentidos, y bilaterales.
1. En un contraste paramétrico bilateral tenemos H0 : θ = θ0 , frente a H1 : θ 6= θ0 . El rechazo de
la hipótesis nula en favor de la alternativa puede producirse porque el estadístico de contraste,
S, tome valores muy altos o muy bajos. Si el estadístico aplicado a nuestros datos toma el
valor s, tenemos el problema de saber si es un valor alto o bajo. La respuesta nos la da el peso
de la distribución que tenga a su derecha o a su izquierda. Una manera muy formal de calcular
entonces el p-valor es la siguiente:
p − valor = 2 × mı́n(P[S > s |H0 ], P[S > s |H0 ]),
si bien veremos enseguida que en la mayoría de las aplicaciones es mucho más fácil obtenerlo.
2. En un contraste paramétrico unilateral a la derecha tenemos H0 : θ = θ0 , frente a H1 : θ > θ0 .
El rechazo de la hipótesis nula en favor de la alternativa se produce porque el estadístico de
contraste toma valores muy altos, así que
p − valor = P[S > s |H0 ].
3. Finalmente, en un contraste paramétrico unilateral a la izquierda tenemos H0 : θ = θ0 , frente
a H1 : θ < θ0 . El rechazo de la hipótesis nula en favor de la alternativa se produce porque el
estadístico de contraste toma valores muy bajos, así que
p − valor = P[S < s |H0 ].
En lo que resta del tema lo que vamos a hacer es enunciar distintos contrastes de hipótesis
concretos y específicos, con casos reales, para la media, la varianza y la proporción de una población,
y para comparar las medias, las varianzas y las proporciones en dos poblaciones distintas (incluso
más en el caso de la media). También vamos a aprender a realizar dos contrastes de bondad de
ajuste, uno para la datos discretos y otro para variables continuas.
A la hora de describir estos contrastes no nos vamos a centrar en los detalles de cómo se deducen
sino sólo en cómo se utilizan en la práctica, pero sí debemos insistir en un aspecto importante:
para que los contrastes realmente garanticen el nivel de confianza con el que se enuncian, deben
cumplirse unos requisitos o condiciones que serán especificados en cada caso, requisitos que, en el
caso de los contrastes paramétricos, habitualmente se centran en garantizar un tamaño muestral
adecuado o en la hipótesis de normalidad de la variable.
En cada caso, vamos a acompañar el contraste con un ejemplo que trataremos de comentar
extensamente.

9.3 Contrastes para la media


9.3.1 Contraste para la media de una población
Teorema 9.3.1 — Contraste para una media. Sea una muestra aleatoria simple x1 , ..., xN
de una v.a. con media poblacional µ. Notaremos X̄ a la media muestral y SN−1 2 a la varianza
muestral. Supongamos que se da, al menos, una de las siguientes dos hipótesis:
1. El tamaño muestral, N, es suficiente para la aplicación del Teorema Central del Límite. Se
considera suficiente N ≥ 30.
2. La v.a. X sigue una distribución normal.
192 Capítulo 9. Contraste de hipótesis estadísticas

En ese caso, consideremos el contraste de hipótesis sobre la media µ para la hipótesis nula
H0 : µ = µ0 que utiliza el estadístico

X̄ − µ0
t= √
SN−1 / N

Entonces, el p-valor del contraste viene dado por:


1. Si H1 : µ 6= µ0 ,
p − valor = 2 × P[tN−1 > |t|]
2. Si H1 : µ > µ0 ,
p − valor = P[tN−1 > t]
3. Si H1 : µ < µ0 ,
p − valor = P[tN−1 < t]
donde tN−1 denota a una distribución t − Student con N − 1 grados de libertad.

R Como ya comentamos, cuando el parámetro grados de libertad es grande, la distribución


t − Student es muy parecida a la distribución N(0, 1), por lo que en ocasiones se utiliza la
distribución N(0, 1) como aproximación de la tN−1 cuando N ≥ 30. Hoy en día esa aproxima-
ción me parece injustificada, ya que cualquier software permite calcular probabilidades de la
tN−1 con total normalidad.

 Ejemplo 9.5 En ocaciones los arqueólogos utilizan el hecho conocido de que los húmeros de los
animales de la misma especie tienden a tener aproximadamente las mismas razones longitud/anchura
para tratar de discernir si los húmeros fósiles que encuentran en un yacimiento corresponden o no a
una nueva especie.
Supongamos que una especie común en la zona donde se enclava un yacimiento, la Bichus
localis, queda caracterizada por el hecho de que tiene una razón media longitud/anchura de 9.
Los arqueólogos encargados del yacimiento han hallado 50 húmeros fósiles, cuyas ratios longi-
tud/anchura aparecen en el vector humeros de los datos facilitados para los ejemplos. Viendo
ciertas características morfológicas de los fósiles, creen que podrían hallarse ante el descubrimiento
de una nueva especie en la zona.
La pregunta que nos hacemos es la siguiente: ¿tienen los arqueólogos indicios suficientes para
concluir que han descubierto en el yacimiento una especie distinta de la Bichus localis?
Realicemos el contraste paso a paso:
1. En primer lugar, debemos transformar la pregunta en una hipótesis paramétrica. Concreta-
mente, consideramos como hipótesis nula que los animales descubiertos continúan siendo del
tipo Bichus localis, como hasta ahora venía haciéndose, lo que equivale a suponer

H0 : µ = 9

Por el contrario, los arqueólogos pretenden demostrar que no es así, sino que estamos ante
una nueva especie, lo que equivale a afirmar

H1 : µ 6= 9

2. Una vez establecidas las hipótesis nula y alternativa se debe especificar el nivel de confianza
requerido. En ese sentido, observemos que no nos han especificado ningún nivel de significa-
ción en el enunciado. En este caso, lo habitual es considerar α = 0.05 o, lo que es lo mismo,
un nivel de confianza del 95 %. En caso de que la decisión tuviera mucha trascendencia,
elegiríamos un nivel más bajo.
9.3 Contrastes para la media 193

Paremos un momento a pensar qué es en este caso el error tipo I, ya que acabamos de acotar
en un 5 % la probabilidad que asumimos de cometer dicho error. Teniendo en cuenta H0 y H1 ,
un error tipo I vendría dado por rechazar H0 , es decir, que los fósiles sean Bichus localis, y
afirmar H1 , es decir, que son una nueva especie, cuando realmente sí que son Bichus localis.
Podemos imaginar que si los arqueólogos llegan por error a pensar que han descubierto una
nueva especie, publicarán el hallazgo. A la larga, cuando se descubra el error, eso supondrá
un enorme desprestigio.
¿Y en qué consistiría un error tipo II en este caso? Se daría cuando, siendo H0 falsa, es decir,
siendo realmente los fósiles una nueva especie, los arqueólogos concluyan que son Bichus
localis. Lo cierto es que como eso es lo que se pensaba desde el principio, el error no tendría
mayor repercusión, más allá de la desgracia de no haber podido sacar a la luz un hallazgo
importante.
3. El siguiente paso es comprobar que se da alguno de los requisitos que establece el teorema.
En este caso tenemos un tamaño muestral N = 50 ≥ 30, de manera que podemos aplicarlo
con la garantía de que el p-valor será correcto.
Obtenemos entonces el valor del estadístico:
X̄ − µ0
t= √ .
SN−1 / N

En R lo calculamos de la siguiente forma:


> load("EstadisticaBasicaIngenieros.RData")
> N <- length(humeros)
> t <- (mean(humeros) - 9) / (sd(humeros) / sqrt(N))
4. Calculamos el p-valor. Dado que es un contraste bilateral, tenemos que

p − valor = 2 × P[t49 > |2.363|] = 0.018,

calculado en R como
> p_valor <- 2 * (1 - pt(t, N-1))
Cabe destacar que el p-valor representa la probabilidad de los datos más extremos que los
nuestros contra la hipótesis nula y en favor de la alternativa. En este caso, al ser bilateral la
H1 , un dato extremo puede serlo por ser muy pequeño o muy grande.
5. Tomamos la decisión: dado que el p-valor es inferior a α = 0.05, podemos rechazar la
hipótesis nula en favor de la alternativa con un 95 % de confianza, concluyendo con ese nivel
de confianza que la razón media longitud/anchura de los húmeros del yacimiento es distinta
de la del Bichus localis y, con ello, que se trata de una nueva especie.
Sólo como aclaración, debe quedar claro que lo que hemos demostrado desde el punto de vista
estadístico es que la razón media es distinta de 9. Son los arqueólogos los que deciden que eso
implica el descubrimiento de una nueva especie.
La Figura 9.1 representa la distribución t49 junto con el valor que el estadístico toma en nuestros
datos, destacando en rojo el área que representa el p-valor y en verde el área que representa el nivel
de significación.
Por último, comentar que R facilita el test de forma más rápida y cómoda mediante la función
t.test. En el ejemplo, quedaría de la siguiente forma:
> t.test(humeros, mu = 9, alternative = "two.sided")
One Sample t-test

data: humeros
194 Capítulo 9. Contraste de hipótesis estadísticas

t = 2.3641, df = 49, p-value = 0.02208


alternative hypothesis: true mean is not equal to 9
95 percent confidence interval:
9.06214 9.76666
sample estimates:
mean of x
9.4144

9.3.2 Contraste para la diferencia de medias de dos poblaciones independientes


Comencemos aclarando qué entendemos por poblaciones independientes: nos referimos a
aquellas que se muestrean de manera que el valor que tomen los elementos de la muestra de
cualquier v.a. de una de ellas no tienen ninguna relación con ninguno de los valores de una v.a.
de la otra muestra. Posblemente comprendamos mejor este concepto cuando, en contraposición,
hablemos de muestras relacionadas.
Teorema 9.3.2 — Contraste para una diferencia de medias en muestras independien-
tes. Sean dos muestras, X1 , ..., XN1 e Y1 , ...,YN2 , de v.a. independientes con medias µX y µY . Sean
X̄, Ȳ , (SX;NX −1 )2 y (SY ;NY −1 )2 sus medias y varianzas muestrales. Supongamos que se da, al
menos, una de las siguientes dos hipótesis:
1. Los tamaños muestrales, NX y NY , son suficientes para la aplicación del Teorema Central
del Límite. Se considera suficiente NX ≥ 30 y NY ≥ 30.
2. Las v.a. X e Y siguen distribuciones normales.
En ese caso, consideremos el contraste de hipótesis sobre la diferencia de las medias µX − µY
para la hipótesis nula H0 : µX − µY = ∆ que utiliza el estadístico

X̄ − Ȳ − ∆
t=q .
(SX;NX −1 )2 (SY ;NY −1 )2
NX + NY

Entonces, el p-valor del contraste viene dado por:


1. Si H1 : µX − µY 6= ∆,
p − valor = 2 × P[tv > |t|]
2. Si H1 : µ > µ0 ,
p − valor = P[tv > t]
3. Si H1 : µ < µ0 ,
p − valor = P[tv < t]
donde tv denota a una distribución t − Student con v grados de libertad, siendo
2
(SX;NX −1 )2 )2

(S
NX + Y ;NNYY−1
v= 2 2
2 .
(SY ;N −1 )2
  
(SX;N −1 )
X Y
NX NY

NX −1 + NY −1

R Existe una variante del contraste que se donde el estadístico es más potente y que se puede
aplicar cuando las varianzas son iguales. A mi juicio es un contraste controvertido, porque
¿cómo estar seguros de que las varianzas son iguales?, pero es muy utilizado cuando un
contraste previo sobre la comparación de las varianzas, que describiremos más adelante,
9.3 Contrastes para la media 195

> N <- length(humeros)


> t <- (mean(humeros) - 9) / (sd(humeros) / sqrt(N))
> curve(dt(x, 49), from = -3.5, to = 3.5, xlab = expression(t[49]), ylab = "Densidad")
> cord.x <- c(qt(0.975, N-1), seq(qt(0.975, N-1), 3.5,0.01), 3.5)
> cord.y <- c(0, dt(seq(qt(0.975, N-1), 3.5,0.01), N-1), 0)
> polygon(cord.x, cord.y, col='green')
> polygon(-cord.x, cord.y, col='green')
> cord.xx <- c(t, seq(t, 3.5,0.01), 3.5)
> cord.yy <- c(0, dt(seq(t, 3.5,0.01), N-1), 0)
> polygon(cord.xx, cord.yy, col='red')
> polygon(-cord.xx, cord.yy, col='red')
> text(x = t, y = dt(t, 49), paste("t =", round(t, 2)), pos = 3, cex = 0.75)
0.4
0.3
Densidad

0.2
0.1

t = 2.36
0.0

−3 −2 −1 0 1 2 3

t49

Figura 9.1: Distribución del estadístico bajo la hipótesis H0 (t49 ), valor del estadístico en los datos,
área correspondiente al p-valor (en rojo) y al nivel de significación (en verde) para el ejemplo de
los húmeros fósiles
196 Capítulo 9. Contraste de hipótesis estadísticas

permite aceptar que éstas son iguales.

 Ejemplo 9.6 Vamos a considerar un ejemplo donde aplicar el contraste. Imaginemos que un

ingeniero inventa un nuevo método de producción con el que cree que pueden reducirse los tiempos
de producción. Para comprobarlo, produce 50 unidades con el nuevo proceso y 30 con el antiguo,
contabilizando el tiempo (en segundos) que se tarda en producir cada unidad. Los datos están en la
hoja procesos del fichero de datos de los ejemplos.
¿Proporcionan estas muestras pruebas suficientes para concluir que el promedio de tiempo de
producción disminuye con el nuevo proceso? La prueba debe realizarse con un nivel de significación
α = 0.05.
De nuevo, tratemos de realizar el contraste paso a paso:
1. Llamemos µX al tiempo medio de producción bajo el nuevo proceso y µY al tiempo medio
de producción bajo el antiguo proceso. Nos piden que contrastemos H0 : µX = µY frente a
H1 : µX < µY o, lo que es lo mismo,

H0 : µX − µY = 0

frente a
H1 : µX − µY < 0

Se trata, por tanto, de un test unilateral a la izquierda para una diferencia hipotética ∆ = 0.
Como NX = 50 ≥ 30 y NY = 30 ≥ 30, se dan los requisitos para poder aplicarlo. Lo vamos a
realizar directamente con R, mediante el siguiente código:
> t.test(procesos$x, procesos$y, mu = 0, alternative = "less")
Welch Two Sample t-test

data: procesos$x and procesos$y


t = -2.0023, df = 50.059, p-value = 0.02534
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -18.10645
sample estimates:
mean of x mean of y
1228.612 1339.687
2. El estadístico toma el valor t = −2.002. La distribución teórica, si H0 fuera cierta, sería la de
una t − Student con v = 50.059 grados de libertad.
3. Para tomar la decisión, obtenemos el p-valor. Al ser un contraste a la izquierda, se calcula
como
p − valor = P[tv < t] = 0.025

Dado que p − valor < α = 0.05, podemos rechazar la hipótesis nula en favor de la alternativa
con el nivel de significación α = 0.05, concluyendo que, en efecto, el nuevo proceso supone
una reducción en el tiempo promedio de producción.


R Si, como hemos comentado antes, pudiéramos suponer que las varianzas son iguales, el
contraste en R se realiza añadiendo la opción var.equal = TRUE.
9.3 Contrastes para la media 197

> t_medias <- t.test(procesos$x, procesos$y, mu = 0, alternative = "less")


> t <- t_medias$stat
> v <- t_medias$parameter
> curve(dt(x, v), from = -3.5, to = 3.5, xlab = expression(t[v]), ylab = "Densidad")
> cord.x <- c(-3.5, seq(-3.5, qt(0.05, v), 0.01), qt(0.05, v))
> cord.y <- c(0, dt(seq(-3.5, qt(0.05, v), 0.01), v), 0)
> polygon(cord.x, cord.y, col='green')
> cord.xx <- c(-3.5, seq(-3.5, t, 0.01), t)
> cord.yy <- c(0, dt(seq(-3.5, t, 0.01), v), 0)
> polygon(cord.xx, cord.yy, col='red')
> text(x = t, y = dt(t, v), paste("t =", round(t, 3)), pos = 3, cex = 0.75)
0.4
0.3
Densidad

0.2
0.1

t = −2.002
0.0

−3 −2 −1 0 1 2 3

tv

Figura 9.2: Distribución del estadístico bajo la hipótesis H0 (t50.059 ), valor del estadístico en los
datos, área correspondiente al p-valor (en rojo) y al nivel de significación (en verde) para el ejemplo
de la comparación de los dos procesos industriales
198 Capítulo 9. Contraste de hipótesis estadísticas

9.3.3 Contraste para la diferencia de medias de dos poblaciones relacionadas


El test que acabamos de describir permite comparar la media de v.a. de las que no se conoce
relación alguna. En ese contraste el estadístico se ve afectado por el hecho de que tiene que recoger
toda la variabilidad de cada muestra, lo que le resta potencia. En ocasiones, por el contrario, es
posible diseñar el experimento o tomar los datos de las muestras de manera que reduzcamos la
variabilidad inherente al muestreo. Pongamos un ejemplo que luego completaremos con resultados
numéricos.
 Ejemplo 9.7 Una empresa farmaceútica está investigando un medicamento que trata de reducir
la presencia en sangre de un componente no deseado2 . Antes de sacarlo al mercado necesita realizar
un ensayo clínico mediante lo que se llama un estudio de casos-controles que demuestre su eficacia.
Ese estudio de casos controles consiste en encontrar un número determinado de parejas de
personas con características fisiológicas parecidas. En cada una de esas parejas, una actúa como
caso, tomando la medicación en estudio, y la otra como control, tomando un producto inocuo
llamado placebo. Ninguna de las dos personas, ni siquiera el médico o el farmaceútico que controla
el proceso, sabe quién es el caso y quién el control. Sólo quien recopila y analiza los resultados, sin
contacto alguno con el paciente, tiene esos datos. Esta metodología se conoce como doble ciego
y evita que el conocimiento de que se está administrando la medicina provoque un efecto en sí
mismo.
La variable que se mide en cada individuo, sea caso o control, es la diferencia en los niveles del
componente no deseado en sangre antes y después de la toma del medicamento. El objetivo para la
empresa, claro está, sería demostrar que el grupo que toma el medicamento, los casos, ven reducido
el nivel medio en mayor medida que el grupo que toma el placebo. De hecho, deberían verlo
reducido en una cantidad suficiente que justifique el coste económico que tiene el medicamento.
Estadísticamente, nosotros tenemos que, al estar los datos recogidos por parejas caso-control,
las muestras no corresponden a poblaciones independientes, sino relacionadas; la relación entre las
parejas caso-control la establecen las condiciones fisiológicas similares entre ellos.
¿Y qué aporta el emparejamiento frente a un diseño en el que hubiéramos tomado las muestras
de forma completamente independiente? Al considerar las parejas caso-control evitamos que, por
azar, uno de los grupos pudiera estar formado por individuos especialmente propensos a niveles
altos del componente, o individuos con especial capacidad de reducir por sí solos esos niveles. Es
poco probable, sí, pero posible. Sin embargo, al considerar el emparejamiento de casos y controles
evitamos (al menos en parte) que las diferencias observadas en los niveles antes y después de la
toma del medicamento, se deban a factores que no sean el propio medicamento. 

Afortunadamente, la forma de realizar un contraste de diferencia de medias en poblaciones


relacionadas no supone tener que plantear un nuevo contraste. Lo que se hace en realidad es llevar
a cabo un contraste sobre la media de las diferencias. Vamos a aclararlo con detalle.
En el contexto de la comparación de medias en poblaciones relacionadas tendremos una v.a.,
X, y una v.a., Y , con medias µX y µY respectivamente. Las poblaciones estarán relacionadas por
alguna característica que establece un emparejamiento en cada dato de X con un dato de Y , por lo
que la muestra vendrá dada por un conjunto de N parejas, (x1 , y1 ), ..., (xN , yN ).
Se supone que, como en el caso de poblaciones independientes, querremos contrastar la hipótesis
H0 : µX − µY = ∆ frente a
H1 : µX − µY 6= ∆
H1 : µX − µY > ∆ o
H1 : µX − µY < ∆
La forma de hacerlo es considerar una nueva variable, que sea la diferencia entre X e Y , es
2 Podría ser colesterol, ácido úrico, ...
9.3 Contrastes para la media 199

decir, definir
D = X −Y,
cuya media es µD = µX − µY . Así,
H0 : µX − µY = ∆ es lo mismo que H0 : µD = ∆,
H1 : µX − µY 6= ∆ es lo mismo que H1 : µD 6= ∆,
H1 : µX − µY > ∆ es lo mismo que H1 : µD > ∆ y
H1 : µX − µY < ∆ es H1 : µD < ∆
Por tanto, el contraste de comparación de las medias de X e Y es, en realidad, equivalente al
contraste sobre a media de D.
 Ejemplo 9.8 Continuando con el Ejemplo 9.7, consideramos en particular los datos de la hoja

casocontrol del fichero de datos de los ejemplos. La hoja contiene, para cada individuo, caso o
control, el descenso observado al finalizar el estudio con respecto al inicio del estudio del nivel del
componente no deseado.
La empresa necesita demostrar que el medicamento (aplicado a los casos) hace descender el
nivel medio en sangre más de dos unidades con respecto al descenso medio que es imputable al
placebo (administrado a los controles). Planteamos para ello un contraste de hipótesis con un 95 %
de confianza, como habitualmente.
1. Empezando por la notación, vamos a llamar X al descenso observado con el medicamento e Y
al descenso con el placebo. Con esta notación, nos piden que contrastemos

H0 : µX − µY = 2

frente a
H1 : µX − µY > 2
o equivalentemente,
H0 : µD = 2
frente a
H1 : µD > 2
En este caso, la muestra tiene un tamaño N = 10 < 30, por lo que el contraste sólo puede
realizarse si suponemos que D sigue una distribución normal. Dejamos ese tema para el
apartado de bondad de ajuste, pero asumimos que, en efecto, podemos aceptar la hipótesis de
que los datos de D se explican según una distribución normal.
2. Realizamos el contraste directamente con R, mediante
> d <- caso_control$Dif_casos - caso_control$Dif_controles
> t.test(d, mu = 2, alternative = "greater")
One Sample t-test

data: d
t = 1.7057, df = 9, p-value = 0.06112
alternative hypothesis: true mean is greater than 2
95 percent confidence interval:
1.992167 Inf
sample estimates:
mean of x
2.104893
Observamos que el valor del estadístico para nuestros datos es 1.7057.
200 Capítulo 9. Contraste de hipótesis estadísticas

3. La distribución del estadístico si la hipótesis nula es cierta es una t9 , y se trata de un contraste


a la derecha, por lo que, como aparece en la tabla de resultados de R, el p-valor es
p − valor = P[t9 > t]
que calculamos mediante
> 1 - pt(1.7057, 9)
[1] 0.06112646
4. Para tomar la decisión final observamos que p − valor = 0.06112 ≥ 0.05, por lo que no
podemos rechazar la hipótesis nula en favor de la alternativa con un 95 % de confianza, es
decir, la empresa no tiene evidencias suficientes para afirmar que la mejora promedio con el
medicamento es dos unidades superior a la que provoca el placebo.


9.3.4 Comparación de medias de más de dos poblaciones independientes


En los dos apartados anteriores hemos conseguido contrastes de hipótesis para valorar si existen
diferencias significativas entre dos grupos, independientes o relacionados. Lo que nos planteamos
aquí es extender el contraste sobre grupos o poblaciones independientes para poder comparar no
sólo dos, sino tres o más grupos.
El contexto establece ahora que existe un factor que separa los valores de la variable en varios
grupos (más de dos, aunque no habría problema en aplicarlo sólo al caso de dos). Existe, además,
una variable cuantitativa que podría depender o no del factor, lo que es objeto de nuestro contraste
de hipótesis.

Teorema 9.3.3 — Contraste ANOVA para la comparación de medias. Supongamos m


muestras independientes con un tamaño Ni a , x1i , ..., xNi i con i = 1, ..., m, de v.a. con distribución
normal de medias µi y varianzas todas iguales, σ 2 .
Consideremos la hipótesis nula

H0 : µ1 = ... = µm

frente a la alternativa
H1 : no todas las medias son iguales.
Sean x̄i y s2i,Ni −1 las medias y varianzas muestrales, respectivamente, de cada una de las
muestras, con i = 1, ..., m. Consideremos además la media total de la unión de todas las muestras
N
∑m i i
i=1 ∑ j=1 x j
x̄ = ,
N
donde N = ∑mi=1 Ni .
Se define la suma de los cuadrados totales como
m Ni 2
SCT = ∑ ∑ xij − x̄ ,
i=1 j=1

que mide la variación total de los datos varían globalmente respecto a la media total.
Se define la suma de los cuadrados entre-grupos como
m
SCE = ∑ Ni (x̄i − x̄)2 ,
i=1
9.3 Contrastes para la media 201

> t_medias_rel <- t.test(d, mu = 2, alternative = "greater")


> t <- t_medias_rel$stat
> v <- t_medias_rel$parameter
> curve(dt(x, v), from = -3.5, to = 3.5, xlab = expression(t[v]), ylab = "Densidad")
> cord.xx <- c(t, seq(t, 3.5, 0.01), 3.5)
> cord.yy <- c(0, dt(seq(t, 3.5, 0.01), v), 0)
> polygon(cord.xx, cord.yy, col='red')
> cord.x <- c(qt(0.95, v), seq(qt(0.95, v), 3.5, 0.01), 3.5)
> cord.y <- c(0, dt(seq(qt(0.95, v), 3.5, 0.01), v), 0)
> polygon(cord.x, cord.y, col='green')
> text(x = t, y = dt(t, v), paste("t =", round(t, 3)), pos = 3, cex = 0.75)
0.4
0.3
Densidad

0.2

t = 1.706
0.1
0.0

−3 −2 −1 0 1 2 3

tv

Figura 9.3: Distribución del estadístico bajo la hipótesis H0 (t9 ), valor del estadístico en los datos,
área correspondiente al p-valor (en rojo) y al nivel de significación (en verde) para el ejemplo de la
comparación del efecto del medicamento frente al placebo
202 Capítulo 9. Contraste de hipótesis estadísticas

que mide las diferencias entre las medias muestrales de los grupos.
Por último, se define la suma de los cuadrados dentro de los grupos o intra-grupos como
m Ni 2 m
SCD = ∑ ∑ xij − x̄i = ∑ (Ni − 1) s2i,Ni −1 .
i=1 j=1 i=1

Entonces, se verifica que


SCT = SCE + SCD,
por lo que consideramos el estadístico de contraste dado por
SCE
m−1
F= SCD
,
N−m

que, suponiendo que la hipótesis nula es cierta, sigue una distribución llamada F de Snedecor
con m − 1 y N − m grados de libertad, por lo que el p-valor viene dado por

p − valor = P[Fm−1;N−m > F].


a No es necesario, aunque sí deseable, que todas las muestras tengan el mismo tamaño.

Este contraste se denomina ANOVA como acrónimo de Analysis of Variance porque se basa
en analizar a qué se debe la variabilidad total que presentan los datos, si al azar o a las diferencias
entre las poblaciones de las que proceden las muestras.
 Ejemplo 9.9 Vamos a considerar un ejemplo basado en una simulación para controlar perfec-
tamente las condiciones de partida y comprobar si los resultados son coherentes. Concretamente,
vamos a considerar que tenemos un factor que diferencia m = 3 muestras de v.a. normales con
medias µ1 = 5, µ2 = 5 y µ3 = 6, varianza común e igual a 2 y tamaños N1 = 50 y N2 = N3 = 35.
Pretendemos realizar un contraste sobre la hipótesis nula µ1 = µ2 = µ3 . Sabemos que esa hipótesis
es falsa, porque µ1 = µ2 = 5 6= µ3 = 6, por lo que entendemos que el contraste debe ser capaz de
rechazarla en favor de la alternativa H1 : no todas las medias son iguales. Vamos a realizar los
cálculos con R, primero paso a paso y finalmente mediante la función específica que realiza el
contraste:
> m1 <- mean(datos_aov$x[datos_aov$Grupo==1])
> m2 <- mean(datos_aov$x[datos_aov$Grupo==2])
> m3 <- mean(datos_aov$x[datos_aov$Grupo==3])
> N <- 50 + 35 + 35
> mt <- mean(datos_aov$x)
> sce <- 50 * (m1 - mt)^2 + 35 * (m2 - mt)^2 + 35 * (m3 - mt)^2
> scd <- sum((datos_aov$x[datos_aov$Grupo==1] - m1)^2) +
+ sum((datos_aov$x[datos_aov$Grupo==2] - m2)^2) +
+ sum((datos_aov$x[datos_aov$Grupo==3] - m3)^2)
> print(f <- (sce / (3 - 1)) / (scd / (N - 3)))
[1] 4.785397
Por tanto, el p-valor es
> print(p_valor <- 1 - pf(f, 3-1, N-3))
[1] 0.01005455
y nuestra conclusión es que debemos rechazar la hipótesis nula de que las medias son iguales y
afirmar que existen diferencias entre ellas, como de hecho sabemos que ocurre.
9.3 Contrastes para la media 203

Todos los cálculos implicados pueden realizarse mediante la función aov, de la siguiente forma:
> summary(aov(x ~ Grupo, data = datos_aov))
Df Sum Sq Mean Sq F value Pr(>F)
Grupo 2 30.2 15.117 4.785 0.0101 *
Residuals 117 369.6 3.159
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


R Los requisitos más importantes del ANOVA son la normalidad de las variables y la igualdad
de las varianzas. No tenemos por ahora herramientas precisas que permitan abordar su
comprobación, si bien en breve seremos capaces de contrastar la hipótesis de normalidad.
Con respecto a la igualdad de varianzas, se recomienda al menos comprobar que las varianzas
muestrales no son muy distintas entre sí.

9.3.5 Contraste para una proporción


En esta ocasión nos planteamos que existe una población donde una proporción dada presenta
una determinada característica, que denominamos éxito, y cuya probabilidad es p, desconocida.
Deseamos hacer inferencia sobre esta proporción. Para ello seleccionamos una muestra aleatoria
simple de tamaño N y contabilizamos la proporción de éxitos en la muestra, p̂.
El contraste que vamos a describir se basa en un estadístico que compara las frecuencias reales
de éxitos y fracasos con las frecuencias de éxitos y fracasos que deberían darse si la hipótesis nula
fuera cierta. Dicho estadístico sigue una distribución χ12 que, en principio, sólo permite calcular el
p-valor del contraste bilateral. Sin embargo, con un poco de ingenio, y aprovechando la relación
que guarda la χ12 con la N(0, 1), se pueden calcular también los p-valores correspondientes a los
contrastes unilaterales. No es conveniente preocuparse excesivamente por los detalles técnicos del
cálculo de estos p-valores, sobre todo porque lo más recomendable es realizar los cálculos con la
función que R utiliza para aplicar el contraste.

Teorema 9.3.4 — Contraste sobre una proporción. Sea p la proporción desconocida de


una característica en una población. Supongamos que en un muestreo de N experimentos se
contabilizan k éxitos, y que tanto N × p0 , el número esperado de éxitos, como N × (1 − p0 ), el
número esperado de fracasos, son mayores o iguales a 5. En ese caso, consideremos el contraste
de hipótesis sobre la proporción p para la hipótesis nula H0 : p = p0 que utiliza el estadístico

(k − N × p0 )2 ((N − k) − N × (1 − p0 ))2
χ2 = + .
N × p0 N × (1 − p0 )

Entonces, el p-valor del contraste viene dado por:


1. Si H1 : p 6= p0 ,
p − valor = P[χ12 > χ 2 ]
2. Si H1 : p > p0 , p
p − valor = P[Z > signo(k − N × p0 ) χ 2 ]
3. Si H1 : p < p0 , p
p − valor = P[Z < signo(k − N × p0 ) χ 2 ]
204 Capítulo 9. Contraste de hipótesis estadísticas

donde Z denota a la distribución N(0, 1) y χ12 a la χ 2 con un grado de libertad.

Aunque, como hemos comentado antes, no conviene aquí entrar en los detalles matemáticos
sobre el cálculo del p-valor, que se basan en la relación de la distribución N(0, 1) con la χ12 , sí es
interesante que analicemos con más detalle por qué el estadístico nos ayuda en la toma de decisión
y por qué el cálculo del p-valor tiene sentido:
1. k mide el número de éxitos, mientras que N × p0 mide el número esperado de éxitos si
H0 : p = p0 es cierta; lo mismo ocurre con el número de fracasos, N − k frente al número
esperado de fracasos, N × (1 − p0 ). Por lo tanto, cuanto más se parezcan los éxitos y los
fracasos reales a los éxitos y los fracasos que se esperan si H0 es cierta, menor será el
estadístico y mayor el p-valor. Tiene sentido.
2. Si tenemos una H1 bilateral, nos da lo mismo si los éxitos y los fracasos reales son mayores o
menores que los éxitos y fracasos esperados; lo que nos conduce a H1 es que son diferentes,
en cualquiera de los dos sentidos que puedan darse esas diferencias.
3. Si, por el contrario, H1 es unilateral, el p-valor debe ser pequeño sólo si la diferencia entre
k y N × p0 se da en la dirección de esa hipótesis, y es lo que logramos dando al valor de
la raíz cuadrada de χ 2 el signo de k − N × p0 . El que se considere para estos p-valores la
probabilidad de una N(0, 1) se debe a que una χ12 surge como una N(0, 1) al cuadrado.
 Ejemplo 9.10 Supongamos que la Dirección General de Tráfico tiene contabilizado que en una
determinada poblacion el 60 % de los conductores son varones. Por otra parte, un estudio realizado
sobre los datos de 120 accidentes de tráfico ocurridos en esa población muestra que en ellos 84
accidentes fueron provocados por un varón conductor. ¿Podemos, con esos datos, confirmar que los
varones son más propensos a los accidentes que las mujeres?
Antes de comenzar debemos aclarar que la afirmación de que los hombres sean más propensos a
los accidentes que las mujeres sería cierta cuando la proporción de varones implicados en accidentes
de tráfico fuera superior a la proporción de varones conductores; sería un error afirmarlo si fuera
superior al 50 %, porque no hay un 50 % de varones conductores.
Por tanto, establecemos en primer lugar como hipótesis nula que la proporción poblacional, p,
de varones implicados en accidentes de tráfico es la misma que la que se da en general entre los
conductores y conductoras, es decir, H0 : p = 0.6. Como hipótesis alternativa tenemos H1 : p > 0.6.
Desde el punto de vista de la estimación puntual tenemos que p̂ = 84/120 = 0.7, pero eso no
nos permite tomar la decisión, porque no sabemos si esa estimación por encima de 0.6 es suficiente
para concluir con al menos un 95 % de confianza que p > 0.6. ¡Podría ocurrir que p̂ = 0.7 por puro
azar!
Realizamos el contraste que acabamos de enunciar, calculando en primer lugar el estadístico
del contraste para nuestros datos:

(84 − 120 × 0.6)2 (36 − 120 × 0.4)2


χ2 = + = 5,
120 × 0.6 120 × 0.4
con la garantía de que se dan los requisitos, ya que 120 × 0.6 = 72 > 5 y 120 × 0.4 = 48 > 4.
Obtenemos el p-valor como
√ √
p − valor = P[Z > signo(84 − 120 × 0.6) × 5] = P[Z > 5] = 0.0127.

Considerando α = 0.05, podemos, por tanto, rechazar H0 en favor de H1 , ya que p − valor < α,
y concluir con un 95 % de confianza que los varones son más propensos a los accidentes en esta
población.
Mediante R podemos reproducir exactamente estos cálculos que acabamos de realizar mediante
> prop.test(x = 84, n = 120, p = 0.6, alternative = "greater", correct = FALSE)
9.3 Contrastes para la media 205

1-sample proportions test without continuity


correction

data: 84 out of 120, null probability 0.6


X-squared = 5, df = 1, p-value = 0.01267
alternative hypothesis: true p is greater than 0.6
95 percent confidence interval:
0.6274011 1.0000000
sample estimates:
p
0.7
No obstante, conviene, de cara a obtener una mejor aproximación del p-valor, no aplicar la opción
correct = FALSE. Veamos que los cambios no son muy relevantes:
> prop.test(x = 84, n = 120, p = 0.6, alternative = "greater")
1-sample proportions test with continuity correction

data: 84 out of 120, null probability 0.6


X-squared = 4.592, df = 1, p-value = 0.01606
alternative hypothesis: true p is greater than 0.6
95 percent confidence interval:
0.623066 1.000000
sample estimates:
p
0.7


9.3.6 Contraste para la diferencia de proporciones


En esta ocasión partimos de dos poblaciones dentro de las cuales hay proporciones p1 y p2
de individuos con la característica éxito. Pretendemos comparar estas proporciones mediante la
toma de muestras de tamaño N1 y N2 . Notaremos k1 y k2 el número de éxitos en las muestras.
Supondremos de nuevo que las muestras son tales que ninguna de las frecuencias esperadas de
éxitos ni fracasos son inferiores a 5. El test que consideramos, de nuevo, es un test basado en un
estadístico χ 2 .
Lo que hace el test es comparar las frecuencias observadas de éxitos, k1 y k2 y fracasos, N1 − k1
y N2 − k2 con las que se darían si p1 = p2 . Si ese fuera el caso, no habría diferencia entre las dos
poblaciones, y podríamos estimar la proporción de éxito general que se da entre las dos poblaciones
como
k1 + k2
p̂ = ,
N1 + N2
según la cual, el número esperado de éxitos sería N1 × p̂ y N2 × p̂, mientras que el de fracasos sería
N1 × (1 − p̂) y N2 × (1 − p̂), respectivamente.

Teorema 9.3.5 — Contraste de comparación de proporciones. Sean p1 y p2 las propor-


ciones desconocidas de una característica en dos poblaciones independientes. Supongamos que
en un muestreo de N1 y N2 experimentos se contabilizan los éxitos y fracasos que aparecen en la
Tabla 9.3.
206 Capítulo 9. Contraste de hipótesis estadísticas

Éxitos Fracasos Éxitos esperados Fracasos esperados


Muestra 1 k1 N1 − k1 Muestra 1 N1 × p̂ N1 × (1 − p̂)
Muestra 2 k2 N2 − k2 Muestra 2 N2 × p̂ N2 × (1 − p̂)

Tabla 9.3: Frecuencias observadas Tabla 9.4: Frecuencias esperadas

Igualmente, dada la proporción general de éxitos entre las dos muestras,

k1 + k2
p̂ =
N1 + N2
supongamos que todas las frecuencias de la Tabla 9.4 son mayores o iguales a 5.
En ese caso, consideremos el contraste de hipótesis sobre la diferencia de proporciones
p1 − p2 para la hipótesis nula H0 : p1 − p2 = 0 que utiliza el estadístico

(k1 − N1 × p̂)2
χ2 =
N1 × p̂
((N1 − k1 ) − N1 × (1 − p̂))2
+
N1 × (1 − p̂)
(k2 − N2 × p̂)2
+
N2 × p̂
((N2 − k2 ) − N2 × (1 − p̂))2
+ .
N2 × (1 − p̂)

Entonces, el p-valor del contraste viene dado por:


1. Si H1 : p1 − p2 6= 0,
p − valor = P[χ12 > χ 2 ]
2. Si H1 : p1 − p2 > 0,
p
p − valor = P[Z > signo(k1 /N1 − k2 /N2 ) χ 2 ]

3. Si H1 : p < p0 , p
p − valor = P[Z < signo(k1 /N1 − k2 /N2 ) χ 2 ]
donde Z denota a la distribución N(0, 1).

Como en el caso del contraste sobre una proporción, la peculiaridad de que tengamos que
obtener el p-valor de los contrastes unilaterales basándonos en probabilidades de la N(0, 1) se debe
al hecho de que el estadístico χ 2 no puede distinguir en qué sentido se dan las diferencias entre p1
y p2 , sólo es capaz de encontrar diferencias.
 Ejemplo 9.11 Vamos a considerar un estudio con datos reales, aunque algo anticuados, referente
a la relación entre los accidentes de tráfico y el consumo de alcohol, realizado por la DGT en la
Comunidad Autónoma de Navarra en 1991.
Se realizaron pruebas de alcoholemia en 274 conductores implicados en accidentes de tráfico
con heridos, de los cuales, 88 dieron positivo. Por su parte, la Guardia Civil de Tráfico realizó en la
misma zona 1044 controles de alcoholemia al azar, de los cuales 15 dieron positivo.
Lo que la DGT quiere mostrar es una relación entre el alcohol y los accidentes de tráfico. Desde
el punto de vista estadístico sólo podemos contrastar la hipótesis de que la proporción de positivos
en la prueba de alcoholemia es mayor en el grupo de conductores implicados en accidentes de
tráfico.
9.3 Contrastes para la media 207

Notemos por p1 y p2 a las verdaderas proporciones en el grupo de implicados en accidentes


y en el grupo de conductores no implicados. Es decir, p1 representa la proporción poblacional de
conductores que han consumido alcohol dentro de los que estuvieran implicados en accidentes de
tráfico, mientras que p2 representa la proporción general de conductores que consumen alcohol
dentro de los conductores no implicados en accidentes de tráfico.
Se nos pide contrastar H0 : p1 = p2 frente a H1 : p1 > p2 .
Nuestros datos son k1 = 88, N1 = 274, k2 = 15, N2 = 1044,
88 + 15
p̂ = = 0.0781,
274 + 1044
cumpliéndose los requisitos de frecuencias esperadas superiores a 5. El valor del estadístico
es bestial: 283.57.
Obviamente, el p-valor, sin necesidad de calcularlo es prácticamente cero.
Por lo tanto, tal y como los datos sugerían claramente desde el principio, tenemos fuertes
evidencias de que la proporción de conductores que han consumido alcohol es muy superior
entre aquellos que están involucrados en accidentes de tráfico.
El test se realiza mediante R de nuevo con la función prop.test, proporcionando como datos
la tabla de frecuencias observadas:
> tabla <- matrix(c(88, 15, 274 - 88, 1044 - 15), 2, 2)
> prop.test(tabla, alternative = "greater")
2-sample test for equality of proportions with
continuity correction

data: tabla
X-squared = 279.33, df = 1, p-value < 2.2e-16
alternative hypothesis: greater
95 percent confidence interval:
0.2577045 1.0000000
sample estimates:
prop 1 prop 2
0.32116788 0.01436782


9.3.7 Contraste para la varianza de una población normal


Teorema 9.3.6 — Contraste sobre una varianza de una v.a. normal. Sea una v.a. X con
varianza poblacional σ 2 desconocida. Sea una muestra de tamaño N de dicha variable y notemos
2
su media y varianza muestral como X̄ y SN−1 , respectivamente. Supongamos que X sigue una
distribución normal.
En ese caso, si consideremos el contraste de hipótesis sobre la varianza σ 2 para la hipótesis
nula
H0 : σ 2 = σ02 ,
que utiliza el estadístico
2
∑Ni=1 (Xi − X̄)2 (N − 1)SN−1
χ2 = = ,
σ02 σ02

el p-valor de dicho contraste viene dado por:


208 Capítulo 9. Contraste de hipótesis estadísticas

Si H1 : σ 2 6= σ02 , entonces
2
p − valor = 2 × mı́n(P[χN−1 > χ 2 ], P[χN−1
2
< χ 2 ]).

Si H1 : σ 2 > σ02 , entonces


2
p − valor = P[χN−1 > χ 2 ].
Si H1 : σ 2 < σ02 , entonces
2
p − valor = P[χN−1 < χ 2 ].

Los contrastes sobre la varianza tienen una enorme importancia en el control de calidad, como
pone de manifiesto el siguiente ejemplo.
 Ejemplo 9.12 Hace unos años, la empresa Sidel afirmaba en un folleto comercial que su máquina
de llenado HEMA poseía una desviación típica en el llenado de contenedores de 500ml de producto
homogéneo no superior a 0.8 ml.
Vamos a suponer que el supervisor de control de calidad quiere realizar una comprobación al
respecto. Recopila para ello una muestra del llenado de 50 contenedores, obteniendo su volumen
en ml., y recogiendo la infomación en el vector hema del fichero de datos de los ejemplos. ¿Puede
el supervisor de calidad considerar que el proceso está bajo control, es decir, puede aceptarse la
afirmación del folleto?
Tal y como se plantea la pregunta, en términos de aceptación de la afirmación, debemos situar
dicha afirmación en la hipótesis nula, es decir, plantear H0 : σ 2 ≤ 0.64, frente a H1 : σ 2 > 0.64. Las
hipótesis habrían ido en el sentido contrario en el caso de que el supervisor necesitara demostrar
que se cumple la afirmación.
Realizamos los cálculos mediante R, aunque es importante señalar que para ello estamos
suponiendo que los datos proceden de una distribución normal:
> N <- length(hema)
> chi2 <- (N-1) * var(hema) / 0.64
> print(p_valor <- 1 - pchisq(chi2, N-1))
[1] 0.4577821
La conclusión, tomada al 95 % de confianza, debe ser que, dado que 0.458 > 0.05, podemos
aceptar la afirmación de que, en efecto, la desviación típica de la cantidad de llenado no es superior
a 0.8 ml.


9.3.8 Contraste para el cociente de varianzas de v.a. normales


En el contexto de este contraste tenemos dos v.a. con varianzas desconocidas, σX2 y σY2 . El
objetivo es comparar dichas varianzas, y para ello se considera su cociente. La razón de que se hable
del cociente de varianzas y no de la diferencia, como hicimos con las medias o las proporciones,
es que el estadístico basado en el cociente de las varianzas muestrales sigue una distribución de
probabilidad F de Snedecor, mientras que no se conoce una distribución para la diferencia de las
varianzas.
Teorema 9.3.7 — Contraste para la comparación de varianzas en poblaciones norma-
les. Consideremos dos muestras, X1 , ..., XN1 e Y1 , ...,YN2 , de dos variables aleatorias independien-
tes, que siguen ambas distribuciones normales, con varianzas σX2 y σY2 . Notaremos SX;N
2
X −1
y
2
SY ;NY −1 a las respectivas varianzas muestrales.
9.4 Contrastes de bondad de ajuste 209

Entonces, el estadístico
2
SX;NX −1
f=
SY2 ;NY −1
permite contastar la hipótesis nula
H0 : σX2 = σY2
con el p-valor dado por:
Si H1 : σX2 6= σY2 ,

p − valor = 2 × mı́n(P[FNX −1,NY −1 < f ], P[FNX −1,NY −1 > f ]).

Si H1 : σX2 > σY2 ,


p − valor = P[FNX −1,NY −1 > f ].
Si H1 : σX2 < σY2 ,
p − valor = P[FNX −1,NY −1 < f ].
En esas expresiones, FNX −1,NY −1 denota a una distribución F de Snedecor con NX − 1 y NY − 1
grados de libertad.

 Ejemplo 9.13 Para practicar sobre el contraste, consideremos que se han realizado 20 mediciones

de la dureza en la escala Vickers de acero con alto contenido en cromo y otras 20 mediciones
independientes de la dureza de una soldadura producida sobre ese metal. Las desviaciones estándar
de las muestras de dureza del metal y de dureza de la soldadura sobre éste fue de 12.06µHV y
11.41µHV , respectivamente. Podemos suponer que las durezas corresponden a variables normales
e independientes. ¿Podemos concluir que la dureza del metal básico es más variable que la dureza
medida en la soldadura?
Observemos que no se nos pregunta sobre la diferencia en la dureza, sino de su variabilidad,
por lo que debemos cuantificarlo en términos de la varianza.
Vamos a llamar a la dureza sobre el acero, X, y a la dureza sobre la soldadura, Y . Se nos pide
que contrastemos H0 : σX2 = σY2 frente a la alternativa H1 : σX2 > σY2 . Se trata, por tanto, de una
prueba unilateral a la derecha.
El estadístico de contraste toma en nuestros datos el valor
12.062
f= = 1.1172.
11.412
Vamos a tomar un nivel de significación de α = 0.05. El p-valor, por su parte, es

p − valor = P[F19,19 > 1.1172] = 0.4058,

por lo que no tenemos evidencias, con un 95 % de confianza, de que existan diferencias en la


variabilidad de la dureza de ambos tipos de soldadura.

9.4 Contrastes de bondad de ajuste


Gracias a lo estudiado en el capítulo correspondiente a la estimación puntual de parámetros
ahora somos capaces de ajustar una distribución a unos datos mediante algún método de estimación.
Sin embargo, ya habíamos comentado que no disponíamos de ninguna herramienta capaz de juzgar
si ese ajuste es bueno o malo, o cómo de bueno es. De hecho, hasta ahora habíamos dejado abierta
esta cuestión, ya que sólo podíamos valorar esta bondad del ajuste mediante representaciones
gráficas, lo que sólo proporciona una visión del problema que puede resultar imprecisa y muy
subjetiva.
210 Capítulo 9. Contraste de hipótesis estadísticas

Resultado Observados Esperados


1 105 100
2 107 100
3 89 100
4 103 100
5 111 100
6 85 100
Total 600 600

Tabla 9.5: Frecuencias observadas y esperadas en 600 lanzamientos del dado

Los dos contrastes de hipótesis que vamos a describir ahora van a permitir contrastar como
hipótesis nula
H0 : la distribución ajustada es adecuada para los datos,
frente a la alternativa

H1 : la distribución no se ajusta adecuadamente a los datos,

facilitando, además, un p-valor que permitirá, además, comparar la bondad de distintos ajustes.
Decir, por último, que aunque estos dos contrastes de hipótesis pueden aplicarse a cualquier
tipo de variables están especialmente indicados para variables de tipo discreto o cualitativo en el
caso del primero de ellos (test χ 2 de bondad de ajuste) y para variables de tipo continuo en el
segundo (test de Kolmogorov-Smirnov).

9.4.1 Contraste de bondad de ajuste para variables discretas. Test χ 2 de bondad de


ajuste
 Ejemplo 9.14 Supongamos que a mediados del siglo XIX, un tahur a bordo de un casino flotante

sobre el Missisipi quiere probar un dado y ver si es adecuado para jugar honestamente con él. En
ese caso, si notamos por pi a la probabilidad de que en el lanzamiento del dado resulte el valor
i = 1, 2, ..., 6, el tahur quiere probar la hipótesis
1
H0 : p1 = ... = p6 =
6
frente a la alternativa
1
H1 : que algún pi sea distinta de .
6
Para realizar la prueba, lanzará el dado 600 veces, anotando el número de veces que se da cada
resultado. Estas cantidades las podemos considerar como frecuencias observadas.
Por otra parte, si el dado fuera justo (hipótesis H0 ), en 600 lanzamientos deberían darse aproxi-
madamente 100 de cada resultado posible. Éstas frecuencias las podemos considerar frecuencias
esperadas.
El tahur tomará la decisión con respecto al dado a partir de la comparación de las frecuencias
observadas y las esperadas (ver Tabla 9.5).
¿Qué deberíamos decidir nosotros a la luz de esos datos? 

El test χ 2 de bondad de ajuste permite realizar pruebas de este tipo. Como hemos comentado
en la introducción, con ella podremos juzgar ajustes de los que hemos logrado en el capítulo de
estimación puntual, pero también podremos utilizarla en ejemplos como el que acabamos de ver, en
el que el experto está interesado en contrastar datos experimentales con respecto a una distribución
teórica que le resulta de interés.
9.4 Contrastes de bondad de ajuste 211

Teorema 9.4.1 — Contraste χ 2 de bondad de ajuste. Supongamos que tenemos una muestra
de tamaño N de una v.a. discreta o cualitativa, X, ajustada a un modelo dado por una determinada
distribución de probabilidad.
Consideremos una partición del conjunto de valores que puede tomar la variable: S1 , ..., Sr ,
y sean O1 , ..., Or , el número de observaciones de la muestra que caen en cada conjunto Si . En
principio, esta partición podrían ser simplemente todos y cada uno de los valores que toma la
variable X, pero también es posible que sea una agrupación de algunos de ellos.
Consideremos la probabilidad, según la distribución ajustada, de cada una de estas partes:

pi = P [X ∈ Si /H0 ] > 0,

y, por tanto, N × pi , la frecuencia esperada de datos en cada una de las partes.


Entonces, si todas las frecuencias esperadas N × pi son mayores o iguales a 5, el estadístico
r
(Oi − N × pi )2
d=∑ ,
i=1 N × pi

que sigue una distribución χ 2 con r −k −1 grados de libertad, donde k es el número de parámetros
que han sido estimados en el ajuste, permite contrastar la hipótesis nula

H0 : la distribución ajustada es adecuada para los datos

frente a la alternativa

H1 : la distribución no se ajusta adecuadamente a los datos

con p-valor dado por


2
p − valor = P[χr−k−1 > d].

Uniendo este contraste al proceso de estimación que ya describimos, vamos a hacer un resumen
de cuál era el objetivo y cómo hemos logrado alcanzarlo.
1. Como punto de partida, tenemos unos datos de una v.a., x1 , ..., xN discreta y queremos
encontrar una distribución de probabilidad que describa el patrón con el que se dan las
frecuencias de esos valores aleatorios.
2. De entre las distribuciones teóricas que conocemos (binomial, Poisson, goemétrica o binomial
negativa) elegimos una que, por sus características, creemos que puede ser adecuada para los
datos.
3. Mediante algún método de estimación, por ejemplo, el de máxima-verosimilitud, estimamos
los k parámetros poblacionales de esa distribución; las distribuciones que nosotros hemos
descritos toman k = 1 o k = 2 parámetros. Entonces, ya tenemos la distribución ajustada a los
datos.
4. Comprobamos, mediante el test χ 2 de bondad de ajuste, que realmente la distribución es
adecuada para los datos. Para ello:
a) Se enuncia el test:

H0 : los datos siguen la distribución dada por nuestro ajuste


H1 : los datos no siguen la distribución dada por nuestro ajuste

b) Si en la muestra se dan los valores x1 , ..., xm , se calculan las frecuencias esperadas


según el ajuste propuesto de cada valor xi , N × P [X = xi ], i = 1, ..., m. Si alguna de estas
frecuencias es inferior a 5, se agrupa con alguna de la más cercana hasta que sumen
212 Capítulo 9. Contraste de hipótesis estadísticas

xi 0 1 2 3 4 5 6
Frec. obs. 42 28 13 5 7 3 2

Tabla 9.6: Frecuencias observadas en la muestra de tiempos entre llegadas

una frecuencia mayor o igual a 5. Se construye así la partición del conjunto de valores
posibles para X, S1 , ...Sr , cuyas frecuencias esperadas son todas mayores o iguales a 5.
c) Se calculan las frecuencias observadas de cada Si , y lo notamos como Oi .
d) Se calcula el estadístico del test en la muestra
r
(Oi − N × pi )2
d=∑ .
i=1 N × pi

e) Se calcula el p-valor asociado al valor del estadístico,


2
p − valor = P[χr−k−1 > d],

según una distribución χ 2 con r − k − 1 grados de libertad.


f ) Se toma la decisión, aceptando que el ajuste es adecuado si p − valor ≥ α.
 Ejemplo 9.15 Los datos que se presentan en la Tabla 9.6 constituyen una muestra aleatoria simple
del tiempo en ms. que transcurre entre la llegada de paquetes transmitidos por un determinado
protocolo. En la tabla aparecen los valores junto al número de veces que han sido observados en la
muestra.
Se sospecha que una distribución geométrica puede ajustar bien esos datos. Vamos a realizar
ese ajuste y contrastar si es aceptable mediante el test de la chi-cuadrado de bondad de ajuste.
En primer lugar, para ajustar una distribución geométrica debemos estimar el parámetro de la
misma. Vamos a hacerlo por el método de máxima-verosimilitud, que establece como estimador a
1
p̂ = = 0.4464,
1 + x̄
donde se ha utilizado que
0 × 42 + 1 × 28 + 2 × 13 + 3 × 5 + 4 × 7 + 5 × 3 + 6 × 2
x̄ = = 1.24,
100
Así pues, deseamos contrastar en qué medida el ajuste de una Geo (0.4464) es válido para los
datos de la muestra. Es decir, deseamos contrastar H0 : X → Geo (0.4464) frente a la alternativa
H1 : X 9 Geo (0.4464).
Vamos a calcular cuáles son las probabilidades teóricas según esa distribución de los valores
observados en la muestra:

P [X = 0] = 0.4464 × (1 − 0.4464)0 = 0.4464


P [X = 1] = 0.4464 × (1 − 0.4464)1 = 0.2471
P [X = 2] = 0.4464 × (1 − 0.4464)2 = 0.1368
P [X = 3] = 0.4464 × (1 − 0.4464)3 = 0.0757
P [X = 4] = 0.4464 × (1 − 0.4464)4 = 0.0419
P [X = 5] = 0.4464 × (1 − 0.4464)5 = 0.0232
P [X = 6] = 0.4464 × (1 − 0.4464)6 = 0.0128
P [X > 6] = 1 − (0.4464 + 0.2471 + 0.1368 + 0.0757 + 0.0419 + 0.0232 + 0.0128) = 0.0159
9.4 Contrastes de bondad de ajuste 213

xi Oi N × pi (Oi − N × pi )2
0 42 44.64 (42 − 44.64)2 = 6.969 6
1 28 24.71 (28 − 24.71)2 = 0 .0841
2 13 13.68 (13 − 13.68)2 = 0.462 4
3 5 7.57 (5 − 7.57)2 = 6.604 9
≥4 12 9.38 (12 − 9.38)2 = 6.864 4

Tabla 9.7: Frecuencias observadas, frecuencias esperadas y residuos

Ahora tenemos que construir la partición de los valores de la variable que, como sabemos, son
0,1,... Hay que tener en cuenta que debemos procurar que las frecuencias esperadas sean superiores
o iguales a 5. Como hay 100 observaciones, será necesario agrupar los valores 4 en adelante en
un solo conjunto. Vamos a resumir este planteamiento en el Cuadro 9.7 donde, además, aparecen
los residuos al cuadrado entre las frecuencias observadas y esperadas, necesarios para calcular el
estadístico del test.
El valor de éste se calcula a partir de los resultados de la tabla de la siguiente manera:

6.9696 10.8241 0.4624 6.6049 6.8644


d= + + + + = 2.2268.
44.64 24.71 13.68 7.57 9.38
Finalmente, el p-valor se calcula como P χ32 > 2.2268 = 0.5267, porque el estadístico d
 
2
correspondería, si H0 es cierta, a una distribución χ5−1−1 . Por tanto, al ser el p-valor superior (muy
superior, de hecho) a 0.05, podemos afirmar que no hay evidencias en los datos de la muestra en
contra de que éstos sigan una distribución Geo (0.4464). 

Vamos a tratar de obtener los mismos resultados del ejemplo mediante R:


> O <- c(42, 28, 13, 5, 7, 3, 2)
> x <- rep(0:6, O)
> p.est <- 1 / (1 + mean(x))
> O.agrup <- c(42, 28, 13, 5, 7 + 3 + 2)
> p <- c(dgeom(0:3, p.est), 1 - sum(dgeom(0:3, p.est)))
> chisq.test(O.agrup, p = p)
Chi-squared test for given probabilities

data: O.agrup
X-squared = 2.2268, df = 4, p-value = 0.6941
El resultado, sin embargo, es erróneo en cuanto al cálculo del p-valor, porque R no sabe que
hemos estimado un parámetro y que, por tanto, los grados de libertad no son 4, sino 3. El verdadero
p-valor es
> 1 - pchisq(2.2268, 3)
[1] 0.5266889


El principal inconveniente del test χ 2 es preparar la partición que garantice que todas las
frecuencias esparadas son mayores o iguales a 5. Hay veces que la distribución obliga a hacer
bastantes agrupaciones que, por otra parte, no son únicas. Y el problema es que, si no agrupamos
en frecuencias mayores o iguales a 5, el cálculo del p-valor puedes ser incorrecto.
214 Capítulo 9. Contraste de hipótesis estadísticas

R R permite evitar la agrupación proporcionando una aproximación calculada por técnicas


bootstrap del p-valor que no requiere de ningún requisito. Para ello se añade la opción
simulate.p.value = TRUE. Sin embargo, el cálculo de ese p-valor simulado tampoco
tiene en cuenta si se han estimado parámetros de la distribución, lo que lo hace inadecuado en
la mayoría de las aplicaciones.

9.4.2 Contraste de bondad de ajuste para distribuciones continuas. Test de Kolmogorov-


Smirnoff
En este caso el test es aplicable sobre todo a variables de tipo continuo, aunque admite
correcciones para el caso de variables discretas. Se basa en la comparación de la función de
distribución teórica propuesta por el modelo cuyo ajuste estamos evaluando con la función de
distribución empírica de los datos.
Concretamente, si tenemos X1 , ..., XN una muestra de una v.a. X, y notamos por F (x) a la
función de distribución del modelo propuesto y por
Número de xi ≤ x
SN (x) =
N
a la función de distribución empírica asociada a la muestra, el estadístico que se utiliza para este
contraste viene dado por
D = Max |F (xi ) − SN (xi )| .
xi

La hipótesis nula a contrastar es

H0 : los datos de la muestra se ajustan a la distribución dada por F (x) ,

frente a la hipótesis alternativa

H1 : los datos de la muestra no se ajustan a la distribución dada por F (x) .

Como siempre, se rechazará la hipótesis nula en favor de la alternativa cuando el p-valor


asociado al valor que tome DN sea inferior al nivel de significación α, habitualmente 0.05. El
problema es que el cálculo correcto del p-valor es complejo, debido a que, en general, se desconoce
la distribución del estadístico D cuando H0 es cierta. Debo advertir que muchos de los paquetes
estadísticos más habituales pueden inducir a error en el cálculo de este p-valor, ya que proporcionan
por defecto aquél correspondiente a un ajuste en el que no se estime ningún parámetro en la
distribución bajo la hipótesis nula, dando lugar a una sobreestimación de dicho p-valor.
Por el contrario, para calcular el p-valor hay que tener en cuenta el número de parámetros de la
distribución en el ajuste. Una metodología adecuada para, al menos, aproximar el p-valor, es una
técnica parecida al bootstraping, conocida como Método de Monte Carlo.
Partimos de que la hipótesis nula viene descrita por la distribución F(x; θ̂ ), donde θ̂ representa
el parámetro o el vector de parámetros estimados a partir de la muestra original. Además, hemos
notado por d el valor del estadístico de Kolmogorov-Smirnoff en la muestra. Entonces:
1. Se simula una muestra de tamaño N de la distribución dada por F(x; θ̂ ), xi;(1) , ..., xi;(N) .
2. Se obtiene la estimación de θ con la muestra simulada, θ̂i .
3. Se obtiene el valor del estadístico de Kolmogorov-Smirnoff, di , para cada muestra simulada
en comparación con la distribución dada por F(x; θ̂i ).
4. Se repiten los puntos anteriores B veces. Se recomienda B = 2000.
5. El p-valor aproximado del contraste es la proporción de valores di superiores al valor del
estadístico sobre la muestra original, es decir,
Número de di > d
p − valor ≈ .
B
9.5 Relación entre contrastes de hipótesis paramétricas e intervalos de confianza
215

 Ejemplo 9.16 Los datos que aparecen en el vector corresponden al tiempo en segundos entre
conexiones a un servidor. Nos planteamos si una distribución exponencial es adecuada para su
ajuste.
> x <- c(1.4647, 0.4995, 0.7216, 0.1151, 0.2717, 0.7842, 3.9898, 0.1967,
+ 0.8103, 0.4854, 0.2333, 0.0814, 0.3035, 1.7358, 0.9021, 0.0667,
+ 0.0868, 0.8909, 0.1124, 0.0512)
En primer lugar hemos de decidir cuál es el ajuste propuesto. El estimador máximo verosímil
del parámetro λ de una exponencial es λ̂ = 1x̄ :
> print(lam.est <- 1 / mean(x))
[1] 1.44895
Para calcular el valor del estadístico del contraste, debemos comparar la función de distribución
de una exp (1.449), con la función de distribución empírica. De ella se deduce que el valor del
estadístico de contraste es
> print(d <- ks.test(x, pexp, lam.est)$statistic)
D
0.1463908
Ambas funciones de distribución, junto con la distancia máxima entre ellas, que se corresponde con
el test de Kolmogorov-Smirnoff, se representan en la Figura 9.4.
Aproximamos el p-valor por el método de Monte Carlo. Primero generamos B = 2000 valores
simulados del estadístico D bajo la distribución dada por H0 :
> set.seed(1)
> B <- 2000
> N <- length(x)
> ds <- numeric(B)
> for (i in 1:B){
+ x.sim <- rexp(N, lam.est)
+ ds[i] <- ks.test(x.sim, pexp, 1 / mean(x.sim))$statistic
+ }
El p-valor es la proporción de distancias simuladas superiores a la de nuestros datos:
> print(p.value <- sum(d < ds) / B)
[1] 0.5515
En este caso, dado que el p-valor es 0.5515 > 0.05, no hay en los datos evidencia en contra de
asumir que siguen una distribución exp (1.45). 

9.5 Relación entre contrastes de hipótesis paramétricas e intervalos de con-


fianza
Existe una relación total entre contraste de hipótesis paramétricas e intervalos de confianza.
Prueba de ello es que R proporciona en la misma salida el resultado de un contraste con el de su
intervalo de confianza asociado.
El motivo de esta relación de equivalencia es que un estadístico utilizado para un contraste
paramétrico también se puede utilizar para construir un intervalo de confianza, pero nosotros
evitamos entrar en el detalle de la demostración matemática y nos vamos a centrar en ser capaces
de interpretar esa equivalencia.
216 Capítulo 9. Contraste de hipótesis estadísticas

Funciones de distribución empírica y teórica


1.0
0.8
0.6
F

0.4
0.2

0 1 2 3 4

Tiempos entre conexiones

Figura 9.4: Comparación de la función de distribución del ajuste con la función de distribución
empírica. Se marca la distancia entre ellas correspondiente al valor del estadístico de Kolmogorov-
Smirnoff
9.5 Relación entre contrastes de hipótesis paramétricas e intervalos de confianza
217

En general, dado un parámetro poblacional desconocido θ , la decisión de aceptar una hipótesis


nula sobre él, H0 : θ = θ0 , con un nivel de significación α se dará si y sólo si el intervalo de confianza
con el mismo nivel de significación incluye al valor hipotético θ0 . Y viceversa: la decisión de
rechazar una hipótesis nula se dará si y sólo si el intervalo equivalente no incluye a θ0 .
Por otra parte, el tipo de contraste, bilateral o unilateral, y el tipo de intervalo, bilateral o
unilateral, coinciden, obviamente. De forma más concreta:
Un contraste bilateral va asociado a un intervalo bilateral.
Un contraste unilateral a la izquierda va asociado a una cota superior.
Un contraste unilateral a la derecha va asociado a una cota inferior.
 Ejemplo 9.17 En el Ejemplo 9.5 realizamos un contraste para decidir si rechazábamos

H0 : µ = 9

en favor de la alternativa
H1 : µ 6= 9.
R ofrecía el contraste mediante
> t.test(humeros, mu = 9, alternative = "two.sided")
One Sample t-test

data: humeros
t = 2.3641, df = 49, p-value = 0.02208
alternative hypothesis: true mean is not equal to 9
95 percent confidence interval:
9.06214 9.76666
sample estimates:
mean of x
9.4144
Ahora nos fijamos en el intervalo de confianza para la media, (9.06214, 9.76666). Dado que no
incluye al valor 9, coincidimos con el contraste en que podemos rechazar H0 en favor de H1 . 

 Ejemplo 9.18 En el Ejemplo 9.6 planteábamos el contraste de

H0 : µX − µY = 0

frente a
H1 : µX − µY < 0
R proporciona el p-valor junto al intervalo de confianza al 95 %:
> t.test(procesos$x, procesos$y, mu = 0, alternative = "less")
Welch Two Sample t-test

data: procesos$x and procesos$y


t = -2.0023, df = 50.059, p-value = 0.02534
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -18.10645
sample estimates:
mean of x mean of y
1228.612 1339.687
218 Capítulo 9. Contraste de hipótesis estadísticas

Una media
Contraste
Dos medias
de
independientes
Hipótesis
Dos medias
relacionadas
Medias sobre
Más de dos Discreta Test chi-cuadrado
medias
Parámetro Distribución de
como
Poblacional ajuste
Una varianza

Varianzas Continua Test K-S


para
Dos varianzas validar o no

Bilateral
Una proporción Hipótesis Hipótesis Estricta
frente ¿Tipo de
nula alternativa
Proporciones a desigualdad?
H_0 H_1 Mayor que
Dos proporciones Unilateral
a la derecha
Menor que
mediante
Unilateral
a la izquierda
Regla de
basada en p-valor
Decisión

Rechazamos p - valor < 0.05 No rechazamos


Sí No
H_0 H_0
en favor de en favor de
H_1 H_1

Figura 9.5: Diagrama de flujo sobre lo descrito en relación a los contrastes de hipótesis

El intervalo de confianza asociado es una cota superior que garantiza con un 95 % de confianza
que la diferencia de las medias es inferior a −18.10645. El valor 0 no pertenece al intervalo
(−∞, −18.10645), por lo que se coincidimos con el p-valor en el rechazo de H0 en favor de H1 .

9.6 Resumen
Hemos introducido la metodología del contraste de hipótesis como una forma de decidir el
rechazo o no de una hipótesis en favor de su alternativa. Posteriormente hemos descrito contrastes
sobre medias, proporciones y varianzas. Finalmente, hemos proporcionado contrastes de hipótesis
que plantean como hipótesis nula la validación del ajuste de unos datos mediante una distribución:
son los llamados contrastes de bondad de ajuste.

9.7 Para saber más


Hemos dejado en el tintero innumerables aspectos sobre los contrastes de hipótesis. No obstante,
creo conveniente recomendar en particular ampliar sobre los siguientes:
El estudio de la potencia de un test no es sencillo, pero sí muy útil. Para ampliar sobre ello
ver, por ejemplo, Jorge Andrés Alvarado Valencia (2008).
La estadística bayesiana tiene una forma diferente de plantear hipótesis. Recomiendo leer, por
ejemplo, Cowles (2013).
9.8 Ejercicios 219

Por brevedad hemos obviado uno de los contrastes de bondad de ajuste más importantes, el
test de normalidad de Shapiro-Wilk. Es sencillo comprender cómo se aplica leyendo, por
ejemplo, Rizzo (2007).
En cuanto al contraste sobre una proporción, hemos descrito el contraste clásico. Existen
variantes que no necesitan de requisitos como los de éste: son el test binomial exacto y el
exacto de Fisher. Ver, por ejemplo, Crawley (2014).
Sobre la comprobación detallada de los requisitos del ANOVA, ver, por ejemplo, Stowell
(2014).
Existen intervalos de confianza simultáneos que permiten detectar de forma concreta dónde
se dan las diferencias entre grupos cuando un ANOVA permite rechazar su homogeneidad:
son los post-hoc. Ver, por ejemplo, MacFarland (2014).
Realizar muchos contrastes de hipótesis en un mismo estudio amplifica la probabilidad de
obtener errores tipo I por la simple acumulación de los respectivos niveles de significación. Es
el llamado problema de las pruebas múltiples. Para ver cómo paliar sus consecuencias puede
verse, por ejemplo, Cleophas y col. (2008).

9.8 Ejercicios
Ejercicio 9.1 A raíz de lo publicado en el artículo The Comparative Efectiveness of Conven-
tional and Digital Image Libraries (Journal of Audiovisual Media in Medicine, 2001: 8-15)
un organismo autonómico se está planteando la conveniencia de cambiar la forma en que los
médicos de su servicio acceden a las imágenes que les ayudan en su trabajo. Hasta ahora lo
hacían buscando dichas imágenes en una biblioteca de diapositivas y ahora podrían hacerlo
accediendo a una base de datos de imágenes digitalizadas a través de una interfaz de red. Para
comprobar si la nueva forma es más efectiva, realizaron un ensayo con 60 médicos, en los
que contabilizaron el tiempo que tardaba cada uno de ellos en acceder a una imagen de la
biblioteca de diapositivas y a la misma imagen en la base de datos de imágenes digitalizadas.
Con estos datos (que aparecen en el fchero de datos en la hoja medicos), ¿puede afirmarse que
el nuevo método es más efectivo que el de la biblioteca de diapositivas? ¿Es necesario suponer la
normalidad de los datos del ejercicio para realizar la prueba? (Utilícese un nivel de significación
del 5 %). 

Ejercicio 9.2 La concentración de arsénico en el suministro de agua público es un riesgo


potencial para la salud. Un artículo en el periódico Arizona Republic (Domingo, 27 de Mayo
de 2001) publicó un informe sobre la concentración de arsénico en partes por billón (ppb)
en el agua potable de 10 distritos del área metropolitana de Phoenix y de 10 distritos rurales
de Arizona (los datos se encuentran en la hoja arsenico). Junto a la información publicada
aparecen unos gráficos que sugieren que ambas muestras poseen varianzas distintas. ¿Existe
alguna diferencia en la concentración promedio de arsénicos entre ambas zonas? ¿Es necesario
suponer la normalidad de los datos del ejercicio para realizar la prueba? (Utilícese un nivel de
significación del 5 %) 

Ejercicio 9.3 A raíz de lo publicado en el artículo Compression of Single-Wall Corrugated


Shipping Containers Using Fixed and Floating Platens (Journal of Testing and Evaluation, 1992:
318-320) una empresa decide realizar un ensayo para analizar la resistencia a la compresión
de contenedores diseñados mediante el método de platina fija y mediante el método de platina
flotante. La empresa desea que los contenedores sean lo más homogéneos posibles en cuanto a
su resistencia. En este sentido, a partir de los datos recopilados por la empresa, que se hayan
220 Capítulo 9. Contraste de hipótesis estadísticas

en la hoja resistencia, ¿existen diferencias significativas en la variabilidad de la resistencia


a la compresión entre los dos métodos de diseño de contenedores? ¿Es necesario suponer la
normalidad de los datos del ejercicio para realizar la prueba? (Utilícese un nivel de significación
del 5 %). 

Ejercicio 9.4 La obesidad se está convirtiendo en un problema creciente en Occidente. Un


determinado medio de comunicación informó que en una muestra de 400 adultos se encontró
que 128 de ellos eran obesos, con un índice de masa corporal mayor que 30. En una encuesta
previa se había encontrado que el 20 % de los adultos de ese país eran obesos, pero se sospecha
que en la zona donde se ha realizado el estudio la situación es aún peor. ¿Los datos de la encuesta
indican que el porcentaje real de adultos obesos en esa zona supera el 30 %? (Utilícese un nivel
de significación del 5 %). 

Ejercicio 9.5 Para asegurar características razonablemente uniformes en la aplicación del


asfalto, se desea que la desviación típica del punto de ablandamiento de cierto tipo de asfalto
sea a lo sumo de 0.50 grados centígrados. Para probarlo, se tomaron datos sobre el punto de
ablandamiento en una serie de muestras, que aparecen en los datos de la hoja ablandamiento.
A partir de ellos, ¿podemos concluir que se contradice la especificación de uniformidad? ¿Es
necesario suponer la normalidad de los datos del ejercicio para realizar la prueba? (Utilícese un
nivel de significación del 5 %). 

Ejercicio 9.6 Desde hace ya algunos años, la radiación ionizante se está utilizando como
método de conservación de productos hortofrutícolas. En el año 1983, el artículo The Infuence
of Gamma-Irradiation on the Storage Life of Red Variety Garlic (Journal of Food Processing
and Preservation, 1983: 179-183) presentó un estudio en el que se analizó la efectividad de ese
método en la preservación de cabezas de ajo destinadas al consumo humano. En la actualidad,
consideremos que una empresa desea probar este método en su producto, para lo cual irradia
197 cabezas de ajo, comprobando que 169 de ellas permanecían en buen estado tras 240 días,
mientras que de 176 cabezas no tratadas, 138 se mantuvieron en buen estado después de ese
período. ¿Podemos afirmar que la radiación ionizante es beneficiosa para la comercialización
del producto de esta empresa? (Utilícese un nivel de significación del 5 %). 

Ejercicio 9.7 El Penetrómetro de Cono Dinámico (PCD) se utiliza para medir la resistencia del
pavimento (Probabilistic Model for the Analysis of Dynamic Cone Penetrometer Test Values in
Pavement Structure Evaluation , J. of Testing and Evaluation, 1999: 7-14). Supongamos que
una especificación de calidad obliga a una empresa a garantizar un valor promedio mínimo del
PCD de 30. No se admitirá el pavimento a menos que haya evidencia concluyente de que se
cumple dicha especificación. Con los datos de la hoja pcd, ¿puedes concluir que se cumple la
especificación? ¿Es necesario suponer la normalidad de los datos del ejercicio para realizar la
prueba? (Utilícese un nivel de significación del 5 %). 

Ejercicio 9.8 Con frecuencia se utilizan vigas de madera unidas a placas metálicas para soportar
el peso del techo. En el artículo Modeling Joints Made with Light-Gauge Metal Connector
Plates (Forest Products J., 1979: 39-44) se analizó el índice de rigidez coaxial (klb/pulg) en
función de distintas longitudes de placa (4, 6, 8, 10 y 12 pulgadas). Nosotros hemos reproducido
dicho experimento, encontrando los resultados que se muestran en los datos de la hoja rigidez.
9.8 Ejercicios 221

A la luz de estos datos, ¿podemos afirmar que la variación de la longitud de la placa tiene algún
efecto en la rigidez axial promedio? (α = 0.05). 3 
10. Regresión Lineal Simple

Un político debe ser capaz de predecir lo que pasará mañana, y la semana, el mes y el año
próximos. Y también debe ser capaz de explicar por qué no acertó.

Winston Churchill

Hacer predicciones es muy difícil, especialmente cuando se trata del futuro.

Niels Bohr

Objetivos
En este capítulo se describe el modelo de regresión lineal simple, que asume que entre dos
variables dadas existe una relación de tipo lineal contaminada por un error aleatorio. Se plantean
los siguientes objetivos específicos:
1. Estimar el modelo de regresión lineal simple.
2. Extraer predicciones a partir de dicho modelo e inferir la fortaleza de dicha relación lineal.
3. Realizar la diagnosis del modelo.

10.1 Introducción
Uno de los aspectos más relevantes que aborda la Estadística se refiere al análisis de las
relaciones que se dan entre dos variables aleatorias. En dichas relaciones se suele considerar una
variable, llamada variable dependiente o de respuesta (Y ) , y se pretende cuantificar el efecto que
sobre ella tiene otra (u otras) variable(s), llamada(s) variable(s) independiente(s) o explicativa (X),
y permite responder a dos cuestiones básicas:
¿Es significativa la influencia que tiene la variable independiente sobre la variable dependien-
te?
Si, en efecto, esa relación es significativa, ¿cómo es? y ¿podemos aprovechar esa relación
para predecir valores de la variable dependiente a partir de valores observados de la variable
224 Capítulo 10. Regresión Lineal Simple

independiente? Más aún, ¿podemos inferir características sobre esa relación y con el fenómeno
que subyace a ella?
 Ejemplo 10.1 La hoja de datos de R llamada airquality incluye mediciones diarias de la
calidad del aire en Nueva York, de mayo a septiembre de 1973. Hay 154 observaciones de 6
variables, incluyendo como variables el nivel de ozono, la velocidad del viento máxima diaria, la
temperatura y la radiación solar. Es bien conocido que algunas de estas variables están relacionadas
entre sí. Nosotros nos vamos plantear en este momento cuáles de ellas influyen en el nivel de ozono.
Si representamos una nube de puntos para cada par de variables de las mencionadas, obtenemos
la representación que aparece en la Figura 10.1. A simple vista parece que hay cierta tendencia
lineal inversa entre el viento (Wind) y el nivel de ozono (Ozone); también se aprecia una cierta
relación entre temperatura (Temp) y ozono, aunque más bien de tipo parabólico. Por el contrario,
no se percibe, aparentemente, ninguna relación entre la radiación solar y la velocidad del viento.
Pero este análisis deja más preguntas que respuestas. Por ejemplo:
¿Hasta qué punto la temperatura influye en el nivel de ozono?
¿Podríamos obtener alguna regla de predicción del nivel de ozono que permita aproximar su
valor en función de la temperatura prevista?
¿Podríamos predecir el efecto que sobre el nivel ozono tendrá la velocidad del viento que se
produzca en un determinado día?
¿Podemos realmente considerar que no hay relación entre la radiación solar y la velocidad del
viento?


10.2 Definición y ajuste del modelo


10.2.1 Definición
Como hemos visto, de los objetivos planteados y de los ejemplos presentados emana la idea de
encontrar una forma de obtener un valor, al menos aproximado, de la variable dependiente, Y , a
partir de los valores de la(s) variables(s) independiente(s), X. En general, esa idea se plasma en el
planteamiento de un modelo de regresión1 , pero en nuestro caso vamos a acotar el problema en dos
sentidos:
1. El modelo será un modelo lineal, es decir, tratará de obtener valores aproximados de Y
mediante transformaciones lineales de X.
2. El modelo sólo empleará una variable independiente, X; por ello se denomina simple. Los
modelos que utilizan más de una variable independiente se denominan de regresión múltiple.
Definición 10.2.1 Un modelo de regresión lineal simple para una variable, Y (variable de-
pendiente), dada otra variable, X (variable independiente), es un modelo matemático que
relaciona Y con X basado sólo en combinaciones lineales del tipo

Y = β0 + β1 X + ε.

En esta expresión:
Y representa a la variable dependiente, es decir, a aquella variable que deseamos estudiar en
relación con otras.
X representa a la variable independiente, es decir, a una variable que creemos que puede afectar
en alguna medida a la variable dependiente. La estamos notando en mayúscula, indicando
que podría ser una variable aleatoria, pero habitualmente se considera que es una constante
que el investigador puede fijar a su antojo en distintos valores.
1 El uso del término regresión se debe a razones históricas; lo cierto es que sería más intuitivo emplear términos como

predicción o estimación, pero el término ha permanecido hasta nuestros días.


10.2 Definición y ajuste del modelo 225

> plot(airquality[, 1:4])

0 100 200 300 60 70 80 90

● ● ●

150
● ● ●
● ● ● ● ● ● ●
●● ● ● ●

100
● ●
●● ●● ●● ●●●
● ●
Ozone ●
●● ●●●
●●
●● ●
●● ● ● ●

●●

●●●● ●
● ● ●● ●
● ● ● ● ●
● ●

●●●●●
●● ●●
●●●
●●●●● ●

50
●● ●● ● ● ●● ● ● ●●●
● ●
●● ● ● ●●
●● ●●● ● ● ● ●●●● ●
● ●● ●● ●● ●● ● ● ●●●●●●
● ● ● ● ●● ● ●● ●●●●●● ●●
●●●●●● ● ● ●●●● ●●●
●● ●
● ●● ●●●● ●● ● ● ●
● ●● ●●●●●● ●●
●● ●●●●
●●●●●●●●●
●●●●●
●●●●● ●● ● ●● ●
● ●●●●●●●●● ●●●● ● ●● ●

●●●● ● ●●●● ● ● ●●● ●● ● ● ●● ●● ● ● ● ●
●●●● ● ●●●●●
●●●● ●●
●● ●

0
● ● ● ● ●
●● ●● ●● ● ● ●● ● ● ● ●
300

●● ●
●● ●● ● ●
● ● ● ● ●● ●● ●●● ●
●●
● ● ●●● ●●
●● ●●●● ● ●● ● ●●●●● ●●● ●● ● ● ●● ● ● ●●●●● ●●
●●●
● ● ● ●● ● ● ●●● ● ●●● ● ●● ● ●●● ●● ● ●●
●●●●●
●● ●
●●● ●● ● ● ●● ● ● ● ● ● ● ●● ●
●●
● ●
● ● ● ●●● ●● ● ● ● ●● ●●● ● ● ●
● ●● ●● ●●●●●

● ● ●

● ● ●●●● ●
200

● ●
● ●
● ●
● ● ●
●●● ● ● ●●● ●● ●●● ●● ● ● ●● ●●● ●●● ●●● ●● ●●
●● ●
●● ●

● ●● ● ●
● Solar.R ● ●
●●
●● ● ● ●●
●● ● ●
● ● ●

●●
●●

● ●
●● ●●
●● ●●●
● ●

●●● ●
100

●● ● ●● ●
●● ●
●● ● ●● ● ●●● ● ● ●● ● ●● ●●●
● ●● ● ● ● ● ● ●● ● ●
●● ● ● ● ● ●● ●
●● ● ● ● ● ● ● ● ●● ●●
●● ●●● ●
●●●●
●● ● ● ●● ● ● ●
●● ● ● ●● ●
● ● ● ●● ● ● ●●
0

● ● ●

20
● ● ●
● ● ●
●● ● ● ● ● ● ● ● ●

15

●●● ● ● ● ●● ●●●● ● ● ●●●●●●●●● ●
●●
●●● ● ●●●● ● ● ● ● ● ● ● ●●● ●
●●●● ● ●● ● ●● ● ●● ●
●●●●●● ●●●● ●●● ●●



●●

●●


●●●
●●


●●
●● ●● ●
●●●
●●
●● ● ● ●●

● ● ● ●


● ●●● ●●●●
●● ● ● ●
● ●
● ●●
●●●● ● ●●● ●●●●●●●
●●●●●●
●●
●●●●●
●●●
● ●●●
Wind ●
●●● ●●●●
● ● ● ●
●●●●●●●●
● ●
● ●●● ●●●
●●●●
●●●●
●●

●● ●
●● ●

10

●●
●●● ●●●● ●●●● ● ● ● ●●

●●● ●● ●●● ● ● ●●● ● ● ● ●●
●●
●●
●●●●●
●● ●●●●●●●● ● ●●
● ● ● ●● ●● ● ●●●● ●● ● ●●● ● ● ●●● ●
● ● ● ●●
● ●●
● ●● ● ● ●● ●●●● ●● ●●● ●●●
●● ● ●● ●●
5

● ●● ● ●● ●● ● ●● ● ●
● ● ● ●● ● ●●
● ● ●

●● ● ● ● ●
●●●●● ● ●●
● ● ●● ●● ● ●
●●●● ●● ●
● ●●●● ●●
90

● ●●● ● ● ●

● ● ● ●●
●● ●●●●● ● ● ●● ● ● ●● ●●
●●● ●
●● ●
● ● ●● ● ● ● ●● ● ● ●● ●● ●●●

●●
●●
●● ●●
●●
●● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ● ●●●●
● ●
●●● ●●●
●●
● ●● ● ●●● ●● ●● ● ● ●● ●● ● ● ●●●●●● ● ●●
80

● ●
●●● ●● ● ● ● ● ●●●●
●●● ●● ●●●● ●●






●●●




●●

●● ●●●
●●
● ●

●● ●

● ●
●●●
●●
● ●● ● ●●



● ●
● ●
●●
●● ● ● ● ●
● ●●
● ●●
●●●●

●●●● ●
● ● ● ● ●●

● ●

● ● ● ●
● ●● ●

●● ●● ●●●●

Temp
70

● ● ● ●●●●●●
●● ●●●● ● ● ●●●● ●
●● ●●●● ● ● ●● ●● ● ● ●●●●● ●● ●
● ●● ● ● ● ● ●● ● ●
●●● ●● ● ● ●● ●
60

●● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ●● ● ● ●
● ●● ● ●

0 50 100 150 5 10 15 20

Figura 10.1: Nube de puntos para el análisis gráfico de la relación entre variables relativas a la
calidad del aire
226 Capítulo 10. Regresión Lineal Simple

105
100

yi
εi
β0 + β1xi
95
y

90
85

xi

50 60 70 80 90 100

Figura 10.2: Diagrama de dispersión y línea de las medias hipotéticas

ε representa el error aleatorio, es decir, aquella cantidad (aleatoria) que provoca que la
relación entre la variable dependiente y la variable independiente no sea perfecta, sino que
esté sujeta a incertidumbre. Es normal que debamos tener en cuenta el error, ya que no es en
absoluto lógico pensar que Y puedas ser exactamente igual a β0 + β1 X; el error, de hecho,
representa la diferencia entre Y y lo que β0 + β1 X proporciona.
Por supuesto, el valor de ε será siempre desconocido hasta que se observen los valores de X e
Y , de manera que la fórmula que se utilizará para obtener las aproximaciones de Y será

Ŷ = β0 + β1 X,

lo que se conoce como recta de regresión de X sobre Y .


Más adelante impondremos condiciones que busquen que el error ε sea lo más pequeño posible,
pero lo primero que vamos a imponerle es que su media sea cero, es decir, que estos errores
aleatorios ocurran en la misma medida por exceso que por defecto, sea cual sea el valor de X.
Formalmente, lo que imponemos al modelo es que

E [ε/X=x ] = E [ε] = 0

y, por tanto,

E [Y /X=x ] = β0 + β1 x + E [ε/X=x ]
= β0 + β1 x.

Es decir, las medias de los valores de Y para un valor de X dado son una recta.
La Figura 10.2 representa una nube de puntos y la recta de regresión que los ajusta de unos
datos genéricos. Podemos ver el valor concreto de ε = y − E [Y /X=x ] para un dato, supuesto que
hemos obtenido un modelo de regresión. En ella se puede ver también la interpretación de los
coeficientes del modelo:
β0 es la ordenada al origen del modelo, es decir, el punto donde la recta intercepta o corta al
eje y.
β1 representa la pendiente de la línea y, por tanto, puede interpretarse como el incremento de
la variable dependiente por cada incremento en una unidad de la variable independiente.
10.2 Definición y ajuste del modelo 227

A propósito de la imposición de que nuestro modelo de regresión sea lineal hay que hacer una
precisión importante. Es evidente que la utilidad de un modelo de regresión lineal tiene sentido
siempre que la relación hipotética entre X e Y sea de tipo lineal, lo que puede percibirse con una
simple nube de puntos, pero ¿qué ocurre si en vez de ser de este tipo es de otro tipo (exponencial,
logarítmico, hiperbólico...)?
En primer lugar, como acabamos de decir, es absolutamente conveniente dibujar el diagrama de
dispersión antes de comenzar a tratar de obtener un modelo de regresión lineal, ya que si la forma
de este diagrama sugiere un perfil distinto al de una recta quizá deberíamos plantearnos otro tipo de
modelo.
Y, por otra parte, si se observa que el diagrama de dispersión es de otro tipo conocido, puede
optarse por realizar un cambio de variable para considerar un modelo lineal. Por ejemplo, si se
percibe que Y depende de X de forma exponencial, porque se percibe algo parecido a una curva del
tipo
Y = exp β0 + β1 X,
lo que podemos hacer es plantear un modelo de regresión donde la variable dependiente sea
Z = logY para que podamos verlo como el modelo

Z = β0 + β1 X.

Lo mismo puede decirse con curvas polinómicas, parabólicas, logarítmicas, etc. Todas ellas pueden
convertirse en expresiones lineales mediante la correspondiente transformación de las variables
dependente o independiente.

10.2.2 Ajuste por mínimos cuadrados


Hasta ahora el modelo de la recta de regresión no deja de ser un modelo teórico que plasma lo
que percibimos en una nube de puntos, pero si queremos obtener realmente el modelo de regresión
lineal que mejor se ajuste a los datos de la muestra, deberemos estimar los coeficientes β0 y β1 del
modelo.
Para obtener estimadores de estos coeficientes vamos a considerar un nuevo método de esti-
mación, conocido como método de mínimos cuadrados. Hay que decir que bajo determinados
supuestos que veremos en breve, los estimadores de mínimos cuadrados coinciden con los estima-
dores máximo-verosímiles de β0 y β1 .
El razonamiento que motiva el método de mínimos cuadrados es el siguiente: si tenemos una
muestra de valores de las variables independiente y dependiente,

(x1 , y1 ) , ..., (xn , yn ) ,

buscaremos valores estimados de β0 y β1 , que notaremos por β̂0 y β̂1 , de manera que en el modelo
ajustado,
ŷx = β̂0 + β̂1 x
minimice la suma de los cuadrados de los errores observados. Recordemos que

E [Y /X=x ] = β0 + β1 x,

luego ŷx puede interpretarse de dos formas:


1. Como una predicción del valor que tomará Y si X = x.
2. Como una estimación del valor medio de Y cuando X = x.
Concretando, lo que buscamos es minimizar la suma de los cuadrados de los errores
n  2
SSE = ∑ yi − (β̂0 + β̂1 xi ) ,
i=1
228 Capítulo 10. Regresión Lineal Simple

es decir buscamos  
 
β̂0 , β̂1 = arg mı́n SSE .
β0 ,β1

La solución de ese problema de mínimo se obtiene por el mecanismo habitual: se deriva SSE
respecto de β̂0 y β̂1 , se iguala a cero y se despejan estos.
Definición 10.2.2 Se llama recta de regresión por mínimos cuadrados (o simplemente
recta de regresión) ajustada de Y dada X a la línea

ŷx = β̂0 + β̂1 x

que tiene la SSE más pequeña de entre todos los modelos lineales, y que viene dada por
SSxy
β̂1 =
SSxx
y
β̂0 = ȳ − β̂1 x̄,
donde
n n
SSxy = ∑ (xi − x̄) (yi − ȳ) = ∑ xi yi − nx̄ȳ
i=1 i=1
n n
SSxx = ∑ (xi − x̄)2 = ∑ xi2 − nx̄2 .
i=1 i=1

Con esta notación, es fácil demostrar que

n  2 SSxx SSyy − SS2


xy
SSE = ∑ yi − (β̂0 + β̂1 xi ) =
i=1 SS xx
SSxy 2
=SSyy − = SSyy − SSxy × β̂1 .
SSxx

En este sentido, se considera como medida de la calidad del ajuste de la recta de regresión el
error estandar del ajuste:
v
u   2
t ∑i yi − β̂0 + β̂1 x
r u
SSE
se = =
n−2 n−2
s
SSyy − β̂1 SSxy
= .
n−2

Cuanto mayor sea esta cantidad, peor son las predicciones de la recta de regresión.
 Ejemplo 10.2 El artículo Effects of Atmospheric CO2 Enrichment on Biomass Accumulation
and Distribution in Eldarica Pine Trees (J. Exp. Bot., 1994: 1669-1672) describe los resultados
del crecimiento de pinos con altos niveles de CO2 en el aire. En cada uno de los cuatro niveles de
concentración de CO2 medidos había dos árboles, y después de 11 meses desde el experimento se
midió la biomasa de cada árbol. Las variables a estudiar son X, concentración atmosférica de CO2
en microlitros por litro (partes por millón) e Y , biomasa en kilogramos.
El estudio consiste en comprobar si la biomasa de los árboles depende de la concentración de
CO2 en el aire y, si es así, obtener el modelo de regresión que mejor se ajuste a los datos.
10.2 Definición y ajuste del modelo 229

Los datos aparecen reflejados en la nube de puntos de la Figura 10.3. Gráficamente se puede
observar cierta tendencia lineal entre ambas variables.
Vamos a calcular la recta de regresión ajustada, primero aplicando las fórmulas descritas:
> x <- c(408, 408, 554, 554, 680, 680, 812, 812)
> y <- c(1.1, 1.3, 1.6, 2.5, 3.0, 4.3, 4.2, 4.7)
> N <- length(x)
> ssxy <- sum((x-mean(x))*(y-mean(y)))
> ssxx <- sum((x-mean(x))^2)
> print(b1 <- ssxy / ssxx)

[1] 0.008454434

> print(b0 <- mean(y) - b1 * mean(x))

[1] -2.349295

Por tanto, ybx = −2.349 + 0.008x:


1. βb1 = 0.008 indica que la biomasa Y aumenta en promedio 0.008454434 kilogramos por cada
incremento de 1 unidad (ppm) de la concentración atmosférica de CO2 .
2. βb0 = −2.349 sería el valor promedio de la biomasa Y cuando x = 0, es decir, cuando la
concentración de CO2 sea 0, pero en este caso la interpretación no tiene sentido.
R proporciona la estimación de los coeficientes de regresión mediante la función lm, de la
siguiente forma:
> print(recta <- lm(y ~ x))

Call:
lm(formula = y ~ x)

Coefficients:
(Intercept) x
-2.349295 0.008454

> print(b0<-coef(recta)[1])

(Intercept)
-2.349295

> print(b1<-coef(recta)[2])

x
0.008454434

βb0 y βb1 son estimadores insesgados de β0 y β1 basados en los datos de una muestra. En este
sentido, las estimaciones de los errores estándar de βb0 y βb1 se calculan como:
s
  s2e
s.e. β̂1 =
SSxx
s 
x̄2

 
2
1
s.e. β̂0 = se +
n SSxx
230 Capítulo 10. Regresión Lineal Simple

> plot(x, y)
> abline(recta)


4.5



4.0
3.5
3.0


y

2.5


2.0


1.5


1.0

400 500 600 700 800

Figura 10.3: Datos en la nube de puntos sobre la biomasa de árboles en función del CO2 ambiental.
x, concentración de CO2 ; y, biomasa en kilogramos y recta de regresión ajustada
10.2 Definición y ajuste del modelo 231

 Ejemplo 10.3 Continuando con el ejemplo anterior, obtenemos las estimaciones con sus co-
rrespondientes errores estándar mediante R con la función summary aplicada sobre el modelo
ajustado:
> summary(recta)
Call:
lm(formula = y ~ x)

Residuals:
Min 1Q Median 3Q Max
-0.73446 -0.33671 0.08271 0.18819 0.90028

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.349295 0.796567 -2.949 0.025637 *
x 0.008454 0.001261 6.702 0.000536 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.534 on 6 degrees of freedom


Multiple R-squared: 0.8822, Adjusted R-squared: 0.8625
F-statistic: 44.92 on 1 and 6 DF, p-value: 0.0005355


R Hay que hacer una observación importante que suele conducir a frecuentes errores. La recta
de regresión para la variable dependiente Y , dada la variable independiente X no es la misma
que la recta de regresión de X dada Y . La razón es muy sencilla: para obtener la recta de
regresión de Y dado X debemos minimizar
n   2
∑ yi − β̂0 + β̂1 xi ,
i=1

mientras que para obtener la recta de regresión de X dado Y deberíamos minimizar


n   2
∑ xi − β̂0 + β̂1 yi ,
i=1

en cuyo caso obtendríamos como solución


SSxy
β̂1 =
SSyy
β̂0 = x̄ − β̂1 ȳ,

siendo la recta de regresión, x̂ = β̂0 + β̂1 y.


El error que suele cometerse con frecuencia es pensar que si tenemos, por ejemplo, la recta
de Y dado X, la de X dado Y puede obtenerse despejando.

10.2.3 Fiabilidad de la recta de regresión ajustada. El coeficiente de determinación


lineal
Una nube de puntos en la que incluimos la recta de regresión ajustada plasma la adecuación del
modelo a los datos de una forma gráfica, pero conviene que nos dotemos de una medida cuantitativa
232 Capítulo 10. Regresión Lineal Simple

de dicha adecuación, que responda a la cuestión de en qué medida la recta de regresión explica Y
en función de X.
Vamos a entrar en detalles. Necesitamos que la recta explique Y en función de X porque Y tiene
datos que presentan una cierta variabilidad: ¿cuánta variabilidad? Cuando definimos la varianza,
esa variabilidad la medimos como
n
SSyy = ∑ (yi − ȳ)2 ,
i=1

de tal manera que cuanto más varíen los datos de Y mayor será SSyy .
Por otra parte, cuando ajustamos por la recta de regresión ŷx = β̂0 + β̂1 × x, medimos el error
que cometemos en el ajuste con
n
SSE = ∑ (yi − ŷx )2 .
i=1
Vamos a ponernos en las dos situaciones límite que pueden darse en cuanto a la precisión de
una recta de regresión:
Si X no tiene ningún tipo de relación lineal con Y , la recta es simplemente

ŷi = β0 + β1 xi
= ȳ.

Es decir, si X no tiene ningún tipo de relación lineal con Y , entonces la mejor predicción que
podemos dar por el método de mínimos cuadrados es la media. Además, en ese caso
n
SSE = ∑ (yi − ŷi )2
i=1
n
= ∑ (yi − ȳ)2 = SSyy ,
i=1

es decir, SSE es el total de la variación de los valores de Y . Está claro que esta es la peor de
las situaciones posibles de cara a la precisión.
Si la relación lineal entre X e Y es total, entonces y = ŷx , de manera que
n
SSE = ∑ (yi − ŷi )2 = 0.
i=1

Ésta, desde luego, es la mejor de las situaciones posibles.


La idea de la medida que vamos a utilizar es cuantificar en qué medida estamos más cerca o más
lejos de estas dos situaciones. Dado que SSE, que es la medida del error de la recta de regresión,
puede ir de 0 (mejor situación posible) a SSyy (peor situación posible), tan sólo tenemos que
relativizar en una escala cómoda una medida de este error.
Definición 10.2.3 Se define el coeficiente de determinación lineal como
SSE
r2 = 1 − .
SSyy

Por lo tanto, la interpretación de r2 es la medida en que X contribuye a la explicación de Y en


una escala de 0 a 1, donde el 0 indica que el error es el total de la variación de los valores de Y y el
1 es la precisión total, el error 0. La medida suele darse en porcentaje. Dicho de otra forma:
Aproximadamente 100 × r2 % de la variación total de los valores de Y respecto de su
media puede ser explicada mediante la recta de regresión de Y dada X.
10.3 Inferencias sobre el modelo 233

 Ejemplo 10.4 En el Ejemplo 10.2 tenemos


> summary(recta)

Call:
lm(formula = y ~ x)

Residuals:
Min 1Q Median 3Q Max
-0.73446 -0.33671 0.08271 0.18819 0.90028

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.349295 0.796567 -2.949 0.025637 *
x 0.008454 0.001261 6.702 0.000536 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.534 on 6 degrees of freedom


Multiple R-squared: 0.8822, Adjusted R-squared: 0.8625
F-statistic: 44.92 on 1 and 6 DF, p-value: 0.0005355

El coefiente r2 aparece bajo el épigrafe Multiple R-squared: 0.8822, e indica que el 88.22 %
de la variabilidad que tiene la biomasa en los árboles de la muestra queda explicada por la
concentración de CO2 de sus respectivas localizaciones. 

10.3 Inferencias sobre el modelo


El ajuste de la recta de regresión supone la estimación puntual de los coeficientes del modelo,
estimación que, como hemos comentado, es insesgada. En la sección anterior, además, hemos
proporcionado expresiones de los errores estándar de esas estimaciones.
Lo que nos ocupa ahora es ir más allá en cuanto a la inferencia sobre los coeficientes de la recta
de regresión, describiendo intervalos de confianza y contrastes de hipótesis sobre ambos que, en
función del significado que estos coeficientes tienen, permiten interesantes aplicaciones.
Como en el caso de los intervalos de confianza y los contrastes de hipótesis descritos para
medias, varianzas y proporciones, los resultados análogos para los coeficientes β0 y β1 requieren
del cumplimiento de unos supuestos. Lo primero que vamos a hacer es enunciarlos y analizarlos
con detalle, ya que son algo más complejos. Como vamos a ver, estos supuestos se establecen en
relación a la variable de error ε.
1. Centralidad Tal y como dijimo anteriormente, es necesario que

E [ε/X=x ] = E [ε] = 0,

lo que implica que


E [Y /X=x ] = β0 + β1 x.
2. Homocedasticidad La varianza de ε debe ser constante para cualquier valor de x dado, es
decir,
Var (ε/X=x ) = σ 2
para todo x. Es una hipótesis similar a la del ANOVA.
3. Normalidad La distribución de probabilidad de ε es normal.
234 Capítulo 10. Regresión Lineal Simple

4. Independencia Los errores ε son independientes unos de otros, es decir, la magnitud de un


error no influye en absoluto en la magnitud de otros errores.
En resumen, todos los supuestos pueden resumirse diciendo que se exige que ε |X=x → N(0, σ 2 )
sean todos independientes.
Estos supuestos son restrictivos, por lo que deben comprobarse cuando se aplica la técnica.
Existen técnicas específicas para evaluar en qué medida se cumplen estas hipótesis. También existen
procedimientos para corregir el incumplimiento de estos supuestos. Estos aspectos serán tratados al
final del tema, en el apartado de diagnosis.

10.3.1 Inferencia sobre la pendiente


Teorema 10.3.1 Sea (X1 ,Y1 ), ..., (XN ,YN ) una muestra aleatoria simple de las variables X e Y
para el ajuste de la recta de regresión de Y sobre X, Ŷ = β0 + β1 X. Sean βˆ0 y βˆ1 las estimaciones
por mínimos cuadrados de los coeficientes de regresión. Entonces, dados los supuestos de
centralidad, homocedasticidad, normalidad e independencia sobre ε = Y − Ŷ , se tiene:
1. Un intervalo de confianza sobre β1 viene dado por

(βb1 − t1−α/2;N−2 × s.e.(βb1 ), βb1 + t1−α/2;N−2 × s.e.(βb1 ))

2. Un contraste de la hipótesis nula H0 : β1 = b1 viene dado por el estadístico

βˆ1 − b1
t=p ,
s2e /SSxx

y cuyo p-valor es:


a) Si H1 : β1 6= b1 , p − valor = 2 × P[tN−2 > |t|].
b) Si H1 : β1 > b1 , p − valor = P[tN−2 > t].
c) Si H1 : β1 < b1 , p − valor = P[tN−2 < t].

 Ejemplo 10.5 Una ingeniera química está calibrando un espectrómetro para medir la concentra-
ción de CO en muestras de aire. Esta calibración implica que debe comprobar que no hay diferencias
significativas entre la concentración verdadera de CO (x) y la concentración medida por el espectró-
metro (y). Para ello toma 11 muestras de aire en las que conoce su verdadera concentración de CO
y las compara con la concentración medida por el espectrómetro. Los datos son los siguientes (las
unidades son ppm):
x 0 10 20 30 40 50 60 70 80 90 100
y 1 12 20 29 38 48 61 68 79 91 97
Lo ideal, lo deseado, sería que y = x, es decir, que el modelo lineal que explica y en función
de x tuviera coeficientes β0 = 0 y β1 = 1. Por ahora vamos a centrarnos en el primer paso en la
comprobación de que el espectrómetro está bien calibrado, que implica contrastar que β1 = 1. Para
ello,
SSxx = 11000; SSyy = 10506.73; SSxy = 10740
10460
β̂1 = = 0.976
11000
SSyy − β̂1 SSxy
s2e = = 2.286
n−2
por lo tanto,
0.976 − 1
t=p = −1.639.
1.964/11000
10.3 Inferencias sobre el modelo 235

Dado que p − valor = 2P[t9 > 1.639] = 0.136, no hay razones para concluir que β1 6= 1. Así pues,
el modelo podría ser
y = β0 + x,
aunque lo deseado, insistamos, sería que fuera

y = x,

es decir, que lo que mida el espectrómetro coincida con la cantidad real de CO en el aire. Como
hemos dicho, eso ocurriría si β0 = 0, lo que equivale a decir que en ausencia de CO, el espectrómetro
esté a cero.
Además, el intervalo de confianza para es (0.94, 1.01). Como podemos ver, el valor β1 = 1
es un valor confiable del intervalo, luego ratificamos que no podemos afirmar, por ahora, que el
espectrómetro esté mal calibrado, ya que es aceptable la hipótesis β1 01.
Pero lo interesante es realizar los cálculos con R. En este caso, el intervalo de confianza es
directamente proporcionado por la función confint aplicada al modelo:
> x <- c(0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100)
> y <- c(1, 12, 20, 29, 38, 48, 61, 68, 79, 91, 97)
> modelo <- lm(y ~ x)
> confint(modelo)
2.5 % 97.5 %
(Intercept) -1.2932976 2.566025
x 0.9437464 1.008981
Sin embargo, para considerar el contraste de la hipótesis H0 : β1 = 1 no nos valen las salidas
habituales del modelo dadas por summary, ya que éstas se refieren exclusivamente a la hipótesis
H0 : β1 = 0. Lo que hacemos es realizar un pequeño cambio en el planteamiento del modelo para
aprovecharnos de que R facilita el contraste con b1 = 0.
Concretamente, se trata de caer en la cuenta que el modelo

Y = β0 + X + ε

equivale al modelo
Y − X = β0 + ε,
por lo que en vez de plantear el ajuste de Y sobre X para contrastar H0 : β1 = 1 planteamos el de
Y − X sobre X para contrastar H0 : β1 = 0:
> modelo.adj <- lm(y-x ~ x)
> summary(modelo.adj)
Call:
lm(formula = y - x ~ x)

Residuals:
Min 1Q Median 3Q Max
-1.6909 -1.1273 -0.1636 0.9818 2.4909

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.63636 0.85302 0.746 0.475
x -0.02364 0.01442 -1.639 0.136
236 Capítulo 10. Regresión Lineal Simple

Figura 10.4: Nubes de puntos y rectas de regresión que las ajustan

Residual standard error: 1.512 on 9 degrees of freedom


Multiple R-squared: 0.2299, Adjusted R-squared: 0.1444
F-statistic: 2.687 on 1 and 9 DF, p-value: 0.1356

Como podemos ver, tanto el valor de t como el p-valor coinciden con nuestros cálculos iniciales. 
Por tanto, de cara a hacer los cálculos con R, en general, cuando queramos realizar un contraste
de una hipótesis H0 : β1 = b1 con b1 6= 0, plantearemos el modelo de regresión de Y − b1 × X sobre
X.
Lo cierto es que puede extrañar un poco que R sólo facilite el contraste H0 : β1 = 0 y haya que
hacer esta pequeña transformación. Posiblemente el motivo es que el contraste de H0 : β1 = 0 es
importantísimo porque da respuesta a uno de los objetivos que nos planteábamos al comienzo del
capítulo, el decidir si el efecto de la variable independiente es o no significativo para la variable
dependiente. Vamos a profundizar en porqué es así.
Observemos la Figura 10.4. En la nube de puntos y la recta de regresión ajustada de la izquierda,
¿observamos una relación lineal buena entre x e y con un buen ajuste de la recta de regresión? Cabría
pensar que sí, pero estaríamos equivocados: si la recta de regresión trata de explicar y en función de
x, ¿cuánto varía y conforme varía x? Dado que la pendiente de esa recta es cero o prácticamente
cero, por mucho que cambies x, eso no afecta al valor de y, es decir, ¡x no influye nada sobre y! Sin
embargo, en la nube de puntos de la derecha, a pesar de que aparentemente el ajuste es peor, la recta
ajustada sí tiene pendiente distinta de cero, luego el hecho de que y varíe viene dado en buena parte
por el hecho de que x varía, y ello ocurre porque la pendiente de esa recta es distinta de cero. Así
pues, no lo olvidemos: decir que dos variables están relacionadas linealmente equivale a decir
que la pendiente de la recta de regresión que ajusta una en función de la otra es distinta de
cero.
Ejemplo 10.6 En la hoja airquality sobre calidad del aire en Nueva York habíamos comentado
que, a partir de la nube de puntos, parecía no haber relación entre la radiación solar y el viento. Es
10.3 Inferencias sobre el modelo 237

el momento de someter a jucio esa hipótesis.


Consideramos como variable dependiente Y la radiación solar y como variable independiente X
el viento2 . Aceptar que X e Y no guardan ninguna relación lineal equivale a aceptar que el modelo
Ŷ = β0 + β1 X
tiene pendiente beta1 = 0, es decir, a aceptar la hipótesis nula H0 : β1 = 0 frente a la alternativa
H1 : β1 6= 0.
> summary(lm(Solar.R ~ Wind, data = airquality))
Call:
lm(formula = Solar.R ~ Wind, data = airquality)

Residuals:
Min 1Q Median 3Q Max
-183.46 -71.53 17.39 72.80 151.60

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 200.513 22.629 8.861 2.72e-15 ***
Wind -1.458 2.135 -0.683 0.496
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 90.22 on 144 degrees of freedom


(7 observations deleted due to missingness)
Multiple R-squared: 0.003225, Adjusted R-squared: -0.003697
F-statistic: 0.4659 on 1 and 144 DF, p-value: 0.496
Como podemos ver, el p-valor 0.496 indica que podemos aceptar la hipótesis de ausencia de
relación lineal entre viento y radiación solar. 

R R sólo proporciona el p-valor del contraste bilateral. No obstante, el p-valor de los contrastes
unilaterales puede calcularse considerando el del bilateral y el signo del estadístico o bien
directamente, a partir del valor del estadístico y de las expresiones de los p-valores enunciados.

10.3.2 Inferencia sobre la ordenada en el origen


El Ejemplo 10.5 puso de manifiesto que también puede tener interés realizar inferencias sobre
el valor de β0 . Por ello proporcionamos un intervalo de confianza y un contraste de hipótesis sobre
la ordenada en el origen de la recta de regresión.

Teorema 10.3.2 Sea (X1 ,Y1 ), ..., (XN ,YN ) una muestra aleatoria simple de las variables X e Y
para el ajuste de la recta de regresión de Y sobre X, Ŷ = β0 + β1 X. Sean βˆ0 y βˆ1 las estimaciones
por mínimos cuadrados de los coeficientes de regresión. Entonces, dados los supuestos de
centralidad, homocedasticidad, normalidad e independencia sobre ε = Y − Ŷ , se tiene:
1. Un intervalo de confianza sobre β0 viene dado por

(βb0 − t1−α/2;N−2 × s.e.(βb0 ), βb0 + t1−α/2;N−2 × s.e.(βb0 ))

2 Podría ser perfectamente al contrario, ya que las pendientes de las rectas de Y sobre X y de X sobre Y son

proporcionales.
238 Capítulo 10. Regresión Lineal Simple

2. Un contraste de la hipótesis nula H0 : β0 = b0 viene dado por el estadístico

βˆ0 − b0
t=r  ,
2 1 x̄2
se n + SSxx

y cuyo p-valor es:


a) Si H1 : β0 6= b0 , p − valor = 2 × P[tN−2 > |t|].
b) Si H1 : β0 > b0 , p − valor = P[tN−2 > t].
c) Si H1 : β0 < b0 , p − valor = P[tN−2 < t].

 Ejemplo 10.7 Vamos a terminar lo planteado en el Ejemplo 10.5 contrastando si, en efecto, es

aceptable β0 = 0, lo que equivaldrá a concluir que no hay razones para pensar que el espectrómetro
está mal calibrado. Lo hacemos diretamente con R, bien con el intervalo de confianza que aparece
en la primera fila que proporciona confint
> confint(modelo)

2.5 % 97.5 %
(Intercept) -1.2932976 2.566025
x 0.9437464 1.008981

o bien mediante el contraste de H0 que proporciona la función lm y que se visualiza mediante


summary:
> summary(modelo)

Call:
lm(formula = y ~ x)

Residuals:
Min 1Q Median 3Q Max
-1.6909 -1.1273 -0.1636 0.9818 2.4909

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.63636 0.85302 0.746 0.475
x 0.97636 0.01442 67.715 1.69e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.512 on 9 degrees of freedom


Multiple R-squared: 0.998, Adjusted R-squared: 0.9978
F-statistic: 4585 on 1 and 9 DF, p-value: 1.687e-13

Ambos análisis permiten aceptar la hipótesis β0 = 0. 

R En el ejemplo anterior, junto con el Ejemplo 10.5, hemos terminado aceptando dos hipótesis,
que la pendiente es 1 y que la ordenada en el origen es cero, pero no hemos realizado un único
contraste conjunto sobre β0 y β1 . Este tipo de contrastes múltiples superan los contenidos de
estas notas. Lo único que podemos hacer en un contexto como el nuestro es realizar sendos
contrastes sobre β0 y β1 por separado, teniendo en cuenta el nivel de significación de ambos
contrastes.
10.3 Inferencias sobre el modelo 239

 Ejemplo 10.8 Imaginemos que deseamos comprobar experimentalmente que, tal y como predice
la ley de Ohm, la tensión (V ) entre los extremos de una resistencia y la intensidad de corriente (I)
que circula por ella se relacionan siguiendo la ley

V = R × I,

donde R es el valor de la resistencia. Nosotros vamos a realizar la comprobación con una misma
resistencia, variando los valores de la intensidad, por lo que la ecuación equivale a

V = β0 + β1 × I,

siendo β0 = 0 y β1 = R. Los datos son los que aparecen más adelante, junto con el análisis de R.
Tenemos que realizar un contraste, H0 : β0 = 0 frente a H1 : β0 6= 0 que equivale a contrastar en
realidad que nuestros aparatos de medida están bien calibrados, puesto que la ley de Ohm obliga a
que β0 = 0.
> I <- c(0.16, 6.54, 12.76, 19.26, 25.63, 31.81, 38.21, 47.40, 54, 60.80, 68)
> V <- c(0.26, 1.04, 2.02, 3.05, 4.06, 5.03, 6.03, 7.03, 8.06, 8.99, 10.01)
> ohm <- lm(V ~ I)
> summary(ohm)
Call:
lm(formula = V ~ I)

Residuals:
Min 1Q Median 3Q Max
-0.15983 -0.08415 -0.01581 0.05163 0.24338

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.25264 0.07154 3.531 0.0064 **
I 0.14483 0.00181 80.022 3.76e-14 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1293 on 9 degrees of freedom


Multiple R-squared: 0.9986, Adjusted R-squared: 0.9984
F-statistic: 6404 on 1 and 9 DF, p-value: 3.763e-14
Dado que p − valor = 0.0064 < 0.05, tenemos que rechazar la hipótesis H0 : β0 = 0, lo que
¡contradice la ley de Ohm! Lo que este análisis pone de manifiesto es que tenemos algún problema
en nuestras mediciones.
Dejemos un poco de lado este último resultado. Si queremos estimar el valor de la resistencia,
una estimación puntual es, como hemos visto, R̂ = β̂1 = 0.145, y un intervalo de confianza al 95 %
de confianza aparece en la segunda fila de la siguiente salida:
> confint(ohm)
2.5 % 97.5 %
(Intercept) 0.09079373 0.4144841
I 0.14073657 0.1489251

240 Capítulo 10. Regresión Lineal Simple

0
100

20

10000
−60 −40 −20
80

10
60

6000
0
40

−10

2000
20

−20
−100
0

−30

0
0 20 60 100 0 20 60 100 0 20 60 100 0 20 60 100

Correlación lineal positiva fuerte Correlación lineal negativa fuerte Ausencia de correlación lineal Correlación parabólica

Figura 10.5: Valores de r y sus implicaciones

10.4 Correlación lineal simple


β̂1 mide en cierto modo la relación que existe entre la variable dependiente y la variable
independiente, ya que se interpreta como el incremento que sufre Y por cada incremento unitario
de X. Sin embargo, es una medida sujeta a la escala de las variables X e Y , de manera que se hace
difícil poder comparar distintos β̂10 s entre sí.
En esta sección vamos a recordar algo que ya definimos en el capítulo dedicado a los vectores
aleatorios, el coeficiente de correlación lineal, que ofrece una medida cuantitativa de la fortaleza de
la relación lineal entre X e Y en la muestra, pero que a diferencia de β̂1 , es adimensional, ya que
sus valores siempre están entre −1 y 1, sean cuales sean las unidades de medida de las variables.
Definición 10.4.1 Dada una muestra aleatoria simple de valores de dos variables, (x1 , y1 ) , ..., (xn , yn ),
el coeficiente de correlación lineal muestral se define como

SSxy SSxx
r= p =p β̂1 .
SSxx SSyy SSyy

Como comentábamos, la interpretación del valor de r es la siguiente:


r cercano o igual a 0 implica poca o ninguna relación lineal entre X e Y.
Cuanto más se acerque a 1 ó -1, más fuerte será la relación lineal entre X e Y .
Si r = ±1, todos los puntos caerán exactamente en la recta de regresión.
Un valor positivo de r implica que Y tiende a aumentar cuando X aumenta, y esa tendencia es
más acusada cuanto más cercano está r de 1.
Un valor negativo de r implica que Y disminuye cuando X aumenta, y esa tendencia es más
acusada cuanto más cercano está r de -1.
En la Figura 10.5 aparecen algunos de los escenarios que acabamos de enunciar respecto a los
distintos valores de r. Hay que hacer hincapié en que r sólo es capaz de descubrir la presencia de
relación de tipo lineal. Si, como en el último gráfico a la derecha de esta figura, la relación entre X
e Y no es de tipo lineal, r no es adecuado como indicador de la fuerza de esa relación.
 Ejemplo 10.9 En la Figura 10.6 aparece un valor atípico entre un conjunto de datos con una
relación lineal más que evidente. Por culpa de este dato, el coeficiente de correlación lineal será
bajo. ¿Qué debe hacerse en este caso? En general, no se deben eliminar datos de una muestra, pero
podría ocurrir que datos atípicos correspondan a errores en la toma de las muestras, en el registro de
los datos o, incluso, que realmente no procedan de la misma población que el resto de los datos: en
ese caso, eliminarlos podría estar justificado de cara a analizar de una forma más precisa la relación
10.5 Predicción y estimación a partir del modelo 241

r = 0.27 r^2 = 0.07


Slope = 0.26 Intercept = 3.56
End

10
LS Line
8
6

Add Point
y

Delete Point
2
0

Move Point
0 2 4 6 8 10

Figura 10.6: Un dato atípico entre datos relacionados linealmente

lineal entre los datos. 

Ejemplo 10.10 — Correlación frente a causalidad. Hay que hacer una advertencia importante
acerca de las interpretaciones del coeficiente de correlación lineal. Es muy frecuente que se utilice
para justificar relaciones causa-efecto, y eso es un grave error. r sólo indica presencia de relación
entre las variables, pero eso no permite inferir, por ejemplo, que un incremento de X sea la causa
de un incremento o una disminución de Y .
A modo de ejemplo, en la Figura 10.7 se muestra una alta correlación entre el consumo de
mantequilla en municipios del estado de Maine y sus respectivas tasas de divorcio. Es un ejemplo
de relación espúrea que pone de manifiesto que correlación no implica causalidad. 

No podemos olvidar que el coeficiente de correlación lineal muestral, r, mide la correlación


entre los valores de X y de Y en la muestra, pero que existe un coeficiente de correlación lineal
poblacional, que podemos notar como ρ, que se refiere a todos los posibles valores de la variable,
y del cual r es un estimador puntual. En este sentido, se puede realizar un contraste de hipótesis
sobre él, aunque es completamente análogo al que se realiza sobre la pendiente.
Como última cuestión, seguro que hemos notado que en la notación usamos la letra r para este
coeficiente, cuando antes habíamos llamado r2 al coeficiente de determinación lineal. Esto no es
casualidad, sino que, en efecto, en una regresión lineal simple el coeficiente de determinación lineal
coincide con el coeficiente de correlación lineal al cuadrado.

10.5 Predicción y estimación a partir del modelo


Recordemos que en el modelo ajustado de la recta de regresión,

ŷx = β̂0 + β̂1 x

y, por otro lado,


E [Y /X=x ] = β0 + β1 x,
luego ŷx puede interpretarse de dos formas:
242 Capítulo 10. Regresión Lineal Simple

Figura 10.7: Ejemplo de correlación espúrea. Regresión y correlación entre el consumo de mante-
quilla y la tasa de divorcios en el estado de Maine. Fuente: https://bit.ly/2DB5ZE7

1. Como predicción del valor que tomará Y cuando X = x.


2. Como estimación del valor medio de Y para el valor X = x, es decir, de E [Y /X=x ].
Ambas cantidades están sujetas a incertidumbre, que será tanto mayor cuanto más variabilidad
tenga Y o peor sea el ajuste mediante la recta de regresión.
Lo que vamos a ver en esta sección es describir regiones de confianza para estas predicciones
de los valores de Y y para las estimaciones de los valores medios de Y dados valores de X.

Teorema 10.5.1 Sea (X1 ,Y1 ), ..., (XN ,YN ) una muestra aleatoria simple de las variables X e Y
para el ajuste de la recta de regresión de Y sobre X, Ŷ = β0 + β1 X. Sean βˆ0 y βˆ1 las estimaciones
por mínimos cuadrados de los coeficientes de regresión. Entonces, dados los supuestos de
centralidad, homocedasticidad, normalidad e independencia sobre ε = Y − Ŷ , se tiene:
1. Podemos garantizar con un (1 − α) × 100 % de confianza que cuando X = x, el valor medio
de Y se encuentra en el intervalo
 s s 
2 2
ŷx − t1−α/2;n−2 × se 1 (x − x̄) 1 (x − x̄)
+ , ŷx + t1−α/2;n−2 × se + ,
n SSxx n SSxx

es decir, podemos garantizar que


  s  
1 (x − x̄)2
P E[Y /X=x ] ∈ ŷx ∓ t1−α/2;n−2 × se +  |X=x  = 1 − α.
n SSxx

2. Asimismo, podemos garantizar con un (1 − α) × 100 % de confianza que cuando X = x, el


10.6 Diagnosis del modelo 243

valor Y se encuentra en el intervalo


 s s 
2 2
ŷx − t1−α/2;n−2 × se 1 + 1 + (x − x̄) , ŷx + t1−α/2;n−2 × se 1 + 1 + (x − x̄)  ,
n SSxx n SSxx

es decir, podemos garantizar que


  s  
1 (x − x̄)2
P Y ∈ ŷx ∓ t1−α/2;n−2 × se 1+ +  |X=x  = 1 − α
n SSxx

R No debemos olvidar que los modelos de regresión que podemos estimar lo son a partir de
los datos de una muestra de valores de X e Y . A partir de estos modelos podemos obtener,
como acabamos de recordar, predicciones y estimaciones para valores dados de X. Dado
que el modelo se basa precisamente en esos valores de la muestra, no es conveniente hacer
predicciones y estimaciones para valores de X que se encuentren fuera del rango de valores
de X en la muestra.

 Ejemplo 10.11 Continuando con el Ejemplo 10.2, imaginemos que estamos trabajando con unos
árboles que crecen en un ambiente con un nivel de CO2 de 450. Cada árbol tendrá una biomasa
diferente, pero ¿qué podemos decir sobre el promedio de esa biomasa por árbol?:
> predict(recta, data.frame(x = 450), interval = 'confidence')
fit lwr upr
1 1.4552 0.7710502 2.13935
Es decir, podemos estimar ese promedio en 1.455 y asegurar con un 95 % de confianza que está
entre 0.771 y 2.139.
Imaginemos ahora que estamos tratando un árbol que se desarrolla en un ambiente con un nivel
de CO2 de 650 y necesitamos un valor, al menos aproximado, de su biomasa.
> predict(recta, data.frame(x = 650), interval = 'prediction')
fit lwr upr
1 3.146087 1.755696 4.536478
Podemos estimar esa biomasa de ese árbol en 1.455 y asegurar con un 95 % de confianza que está
entre −0.02 y 2.93. 

10.6 Diagnosis del modelo


Todo lo relacionado con inferencia sobre el modelo de regresión se ha basado en el cumplimiento
de los supuestos de centralidad, homocedasticidad, normalidad e independencia del error del modelo.
Como ya comentamos, en la medida en que todos o algunos de estos supuestos no se den, las
conclusiones que se extraigan en la inferencia sobre el modelo podrían no ser válidas.
Es por ello que es necesario comprobar estos supuestos mediante herramientas de diagnóstico.
Aquí vamos a ver sólo las más básicas, vinculadas al análisis de los residuos y a la gráfica de
residuos frente a los valores ajustados.

10.6.1 Normalidad de los residuos


Entre los supuestos del modelo consideramos que los residuos, es decir,

εi = yi − ŷi
244 Capítulo 10. Regresión Lineal Simple

siguen una distribución normal. Ni que decir tiene que comprobar esta hipótesis en trivial: bastará
con calcular los residuos, ajustarles una distribución normal y realizar un contraste de bondad de
ajuste mediante, por ejemplo, el test de Kolmogorov-Smirnoff o, de forma más específica, el test de
Shapiro-Wilk. No obstante, R proporciona, como vamos a ver enseguida, un gráfico cuantil-cuantil
para visualizar de forma gráfica la adecuación de los residuos a la distribución normal; en esa figura,
los valores normalizados y ordenados de los errores se comparan con los cuantiles teóricos de una
distribución N(0, 1), de manera que la hipótesis de normalidad será aceptable cuando los puntos
estén próximos a la recta.

10.6.2 Gráfica de residuos frente a valores ajustados


El resto de supuestos se refieren a la varianza constante de los residuos (homocedasticidad),
a su media cero (centralidad) y y a su independencia. En este sentido, una de las herramientas
diagnósticas más simples para estas hipótesis es la llamada gráfica de residuos frente a valores
ajustados. Se trata de representar en unos ejes cartesianos:
1. En el eje X, los valores ŷi de la muestra.
2. En el eje Y, los residuos, εi = yi − ŷi .
Habitualmente, se le añade a esta gráfica la recta de regresión de la nube de puntos resultante.
Vamos a ir viendo cómo debe ser esta gráfica en el caso de que se cumplan cada uno de los
supuestos:
1. Si la media de los residuos es cero, la nube de puntos de la gráfica debe hacernos pensar en
una recta de regresión horizontal situada en el cero, indicando que sea cual sea el valor ŷi , la
media de los residuos es cero.
2. Si los errores son independientes, no debe observarse ningún patrón en la gráfica, es decir,
ningún efecto en ella que haga pensar en algún tipo de relación entre ŷi y εi .
3. Si los errores tienen una varianza constante, la dispersión vertical de los puntos de la gráfica
no debe variar según varíe el eje X. En caso contrario, se habla de heterocedasticidad.
 Ejemplo 10.12 Vamos a considerar por última vez el Ejemplo 10.2 sobre la biomasa en función
del CO2 . En la Figura 10.8 aparece el gráfico de residuos vs valores ajustados (a la izquierda) y el
gráfico cuantil-cuantil de los residuos (a la derecha). Podemos ver que a primera vista parece que
se dan las condiciones requeridas:
1. Los puntos se sitúan en torno al eje Y = 0, indicando que la media de los residuos pare-
ce ser cero. Hay una cierta dispersión indicada por la poligonal en rojo, pero es debido,
principalmente, a lo reducido de la muestra.
2. No se observan patrones en los residuos.
3. No se observa mayor variabilidad en algunas partes del gráfico. Hay que tener en cuenta que
son muy pocos datos para sacar conclusiones.


 Ejemplo 10.13 Con respecto a los datos sobre la calidad del aire en Nueva York, supongamos
que nos hubiéramos empeñado en proponer un modelo de regresión lineal simple para estimar el
nivel de ozono conocida la radiación solar. La Figura 10.9 recoge la diagnosis de dicho modelo. Es
muy evidente que no se cumplen los requisitos:
1. Podría aceptarse hasta cierto punto que los puntos se sitúan de igual forma en torno al eje
Y = 0, indicando que la media de los residuos podría ser cero, aunque una cierta dispersión
en los valores altos.
2. No parece haber patrones en los residuos.
3. Sin embargo, se observan diferencias evidentes en la variabilidad en algunas partes del gráfico:
la varianza de los residuos es mucho mayor en los valores altos que en los bajos, violando la
hipótesis de homocedasticidad.
10.6 Diagnosis del modelo 245

> par(mfrow = c(1, 2))


> plot(recta, which = 1:2)

Residuals vs Fitted Normal Q−Q


1.0

6● 2.0
1.5 6●
0.5

1.0
Standardized residuals
Residuals

0.5

● ● ●
● ●

0.0


0.0


−0.5


5●
−0.5


●5
−1.0

●3
−1.5

●3

1.0 2.0 3.0 4.0 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles

Figura 10.8: Gráfica de valores ajustados vs residuos en los datos del Ejemplo 10.2
246 Capítulo 10. Regresión Lineal Simple

> par(mfrow = c(1, 2))


> plot(lm(Ozone ~ Solar.R, data = airquality), which = 1:2)

Residuals vs Fitted Normal Q−Q

4
● 117 117 ●
100

62 ● ● 62
Standardized residuals

99 ●

● ●● 99
● ●
● ●
2

● ●
50
Residuals



●● ●
● ● ●

●●● ● ●
●●
● ●
●● ●


● ● ●●


1

● ● ●●

● ● ●

● ●
● ● ● ●
● ●
● ●● ●● ● ●
0

● ● ●● ●

● ● ● ●●
●● ●● ● ●

●●
0


●●●● ● ●● ● ● ● ●●


● ● ●●

●● ● ●● ● ●●
● ● ● ●
● ●


● ●● ● ●●

●●

●● ●
●●● ●● ●

●●

●● ● ●

● ●
●●
●● ●●



● ●


● ●●
−1


●●


−50


●● ●


●●

● ●

20 30 40 50 60 −2 0 1 2

Fitted values Theoretical Quantiles

Figura 10.9: Gráfica de valores ajustados vs residuos en los datos del ejemplo de la calidad del aire
en Nueva York
10.7 Resumen 247

La diagnosis indica, por tanto, que no es adecuado utilizar aquí un modelo de regresión lineal
simple. 

10.7 Resumen
Hemos descrito el modelo de regresión lineal simple como herramienta estadística para aproxi-
mar los valores de una v.a. conocidos los valores de otra v.a., aprovechando las propiedades de los
estimadores por el método de mínimos cuadrados del modelo para plantear inferencias sobre los
coeficientes de la recta de regresión. Hemos cuantificado el grado de relación existente entre las
dos variables mediante el coeficiente de correlación lineal.

10.8 Para saber más


1. Se puede profundizar más sobre la diagnosis del modelo y de posible soluciones a la pérdida
de los supuestos. Ver, por ejemplo, Devore (2008).
2. Las técnicas vinculadas a la regresión son extensísimas. En esta ocasión, recomiendo manuales
específicos sobre este tema. Por ejemplo, Fahrmeir y col. (2013) o freund2006regression.

10.9 Ejercicios
Ejercicio 10.1 En el artículo Characterization of Highway Runoff in Austin, Texas, Area (J.
of Env, Engr., 1998: 131-137) se ilustra un diagrama de dispersión, junto con la recta de
mínimos cuadrados, de x = volumen de lluvia (m3 ) e y =volumen de escurrimiento (m3 ) para un
determinado lugar. Los valores del ejercicio que te facilito (con ligeras variaciones aleatorias) se
tomaron de dicha gráfica y aparecen en la hoja lluvia. Se pide:
1. ¿El diagrama de dispersión de los datos respalda el uso del modelo de regresión lineal
simple?
2. Establece una medida del grado de relación lineal entre las dos variables.
3. Calcula las estimaciones puntuales de la pendiente y la ordenada al origen de la recta de
regresión poblacional para estimar el volumen de escurrimiento a partir del volumen de
lluvia.
4. ¿Podemos afirmar que existe una relación estadísticamente significativa entre el volumen
de lluvia y el volumen de escurrimiento? (α = 0.05)
5. Calcula una estimación puntual y mediante un intervalo de confianza al 95 % del volumen
promedio de escurrimiento cuando el volumen de lluvia es 50m3 .
6. ¿En que medida son fiables las predicciones que proporciona el modelo ajustado en el
apartado 3? (Exprésalo como una proporción de bondad de ajuste)


Ejercicio 10.2 Los datos del ejercicio aparecen en la hoja cargas y contienen ligeras varia-
ciones aleatorias con respecto a los que se publicaron en el artículo Radial Tension Strength
of Pipe and Other Curved Flexural Members (J. Amer. Concrete Inst., 1980: 33-39). En él se
analizaba la carga necesaria para obtener una primera grieta en una muestra de hormigón (y, en
1000 lb/pie) en función de la edad (x, en días). Se pide:
1. ¿Sugiere el diagrama de dispersión una relación lineal entre las variables?
2. Establece una medida del grado de relación lineal entre las 2 variables.
3. Ajusta una recta de regresión para estimar la carga necesaria para obtener una primera
grieta en función de la edad.
4. Supongamos que un modelo teórico indica que la disminución esperada en la carga
248 Capítulo 10. Regresión Lineal Simple

relacionada con un aumento de un día en la edad es, a lo sumo, 0.1. ¿Los datos contradicen
esa afirmación? (α = 0.05)
5. Calcula una estimación puntual y mediante un intervalo de confianza al 95 % de la carga
necesaria para obtener una primera grieta cuando la edad es 28 días.
6. ¿En que medidas son fiables las predicciones que proporciona el modelo ajustado en el
apartado 3? (Exprésalo como una proporción de bondad de ajuste)


Ejercicio 10.3 En el artículo Evaluating the BOD POD for Assessing Body Fat in Collegiate
Football Players (Medicine and Science in Sports and Exercise, 1999: 1350-1356) se describe
un nuevo dispositivo de desplazamiento de aire (BOD) para medir la grasa corporal. En el
procedimiento ordinario se utiliza el llamado dispositivo de pesaje hidrostático (HW), que mide
el porcentaje de grasa corporal por medio de desplazamiento de agua. Nuestros datos contienen
ligeras variaciones aleatorias con respecto a los originales, y se hayan en la hoja grasa. En
función de ellos, se pide:
1. Establece una medida del grado de relación lineal entre las 2 variables.
2. Ajusta una recta de regresión para estimar la medida HW en función de la medida BOD.
3. Utiliza sendos contrastes de hipótesis sobre la recta de regresión para decidir si es admisible
que las dos técnicas midan en promedio la misma cantidad de grasa (α = 0.05).
4. Calcula una estimación puntual y mediante un intervalo de confianza al 95 % de la medida
HW cuando la medida BOD sea 7.5.
5. ¿Qué proporción de la variabilidad de la medida HW queda explicada por el modelo
ajustado en el apartado 2? (Exprésalo como una proporción de bondad de ajuste)


Ejercicio 10.4 Los datos del ejercicio, recogidos en la hoja nox presentan ligeras variaciones
aleatorias con respecto a los que aparecen en el artículo An experimental Correlation of Oxides
of Nitrogen Emissions from Power Boilers Based on Field Data (J. Eng. for Power, julio de 1973:
165-170), con x = rapidez de liberación de calor del área del quemador (en MBtu/h − pie2 ) e
y = proporción de emisiones de NOx (en ppm). Se pide:
1. Obtener la estimación de mínimos cuadrados de la recta de regresión.
2. ¿Cuál es la estimación de la proporción de emisiones de NOx cuando la cantidad de calor
liberada del área del quemador es igual a 225?
3. Estimar cuánto cambiaría la cantidad de emisiones de NOx cuando la rapidez de liberación
del área del quemador disminuyera en 50 puntos.
4. ¿Podemos afirmar que la relación lineal existente entre las variables es estadísticamente
significativa? (α = 0.05)
5. Proporcionar un intervalo de predicción para el pronóstico dado en el apartado 2 (α =
0.05).

10.9 Ejercicios 249

——————————————————————————–
IV
Procesos aleatorios

11 Introducción a los procesos aleatorios 253


11.1 Introducción
11.2 Descripción de un proceso aleatorio
11.3 Tipos más comunes de procesos aleatorios
11.4 Ejemplos de procesos aleatorios
11.5 Para saber más

Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . 268
11. Introducción a los procesos aleatorios

The best material model of a cat is another, or preferably the same, cat.

Norbert Wiener, Philosophy of Science (1945) (con A. Rosenblueth)

Objetivos
Los procesos aleatorios suponen el último paso en la utilización de modelos matemáticos para
describir fenómenos reales no determinísticos: concretamente, se trata de fenómenos aleatorios que
dependen del tiempo. Los objetivos del presente capítulo son:
Aprender a describir los procesos aleatorios en términos de sus medias y sus covarianzas.
Estudiar algunos de los ejemplos más comunes de tipos de procesos: procesos estacionarios,
procesos gaussianos, proceso de Poisson.

11.1 Introducción
En muchos experimentos de tipo aleatorio el resultado es una función del tiempo (o del espacio).
Por ejemplo,
en sistemas de reconocimiento de voz las decisiones se toman sobre la base de una onda
que reproduce las características de la voz del interlocutor, pero la forma en que el mismo
interlocutor dice una misma palabra sufre ligeras variaciones cada vez que lo hace;
en un sistema de cola, por ejemplo, en un servidor de telecomunicaciones, el número de
clientes en el sistema a la espera de ser atendidos evoluciona con el tiempo y está sujeto a
condiciones tales que su comportamiento es impredecible;
en un sistema de comunicación típico, la señal de entrada es una onda que evoluciona con el
tiempo y que se introduce en un canal donde es contaminada por un ruido aleatorio, de tal
manera que es imposible separar cuál es el mensaje original con absoluta certeza.
...
Desde un punto de vista matemático, todos estos ejemplos tienen en común que el fenómeno
puede ser visto como unas funciones que dependen del tiempo, pero que son desconocidas a priori,
254 Capítulo 11. Introducción a los procesos aleatorios

Figura 11.1: Representación de un proceso aleatorio

porque dependen del azar. En este contexto vamos a definir el concepto de proceso aleatorio.
Nuestro objetivo, como en capítulos anteriores dedicados a variables y vectores aleatorios, es
describir desde un punto de vista estadístico el fenómeno, proporcionando medidas de posición,
medidas sobre la variabilidad, etc.
Definición 11.1.1 Consideremos un experimento aleatorio sobre un espacio probabilístico con
σ −álgebra A. Supongamos que para cada resultado posible, A, tenemos una observación del
fenómeno dada por una función real de variable real, x (t, A), con t ∈ I ⊂ R. Habitualmente, t
representa altiempo, pero también puede referirse a otras magnitudes físicas.
Para cada A vamos a denominar a x (t, A) realización o función muestral.
Obsérvese que para cada t0 ∈ I, X (t, ·) es una variable aleatoria. Pues bien, al conjunto

{X (t, A) : t ∈ I, A ∈ Ω}

lo denominamos proceso aleatorio (en adelante p.a.) o estocástico.

Si recordamos las definiciones de variable aleatoria y vector aleatorio, podemos ver en qué
sentido están relacionados los conceptos de variable, vector y proceso aleatorio. Concretamente, si
Ω es un espacio muestral, una variable aleatoria es una función

X :Ω→R

que a cada suceso posible le asigna un número real. Por su parte, un vector aleatorio es básicamente
una función
X : Ω → RN
que a cada suceso posible le asigna un vector real. Finalmente, un proceso aleatorio es básicamente
una función
X : Ω → {funciones reales de vble real}
que a cada suceso posible le asigna una función real.
11.1 Introducción 255

Figura 11.2: Distintas funciones muestrales de un proceso aleatorio

De cara a escribir de ahora en adelante un p.a., lo notaremos normalmente, por ejemplo, como
X (t), obviando así la variable que hace referencia al elemento del espacio muestral al que va
asociada la función muestral. Este convenio es el mismo que nos lleva a escribir X refiriéndonos a
una v.a. o a un vector.
El tiempo es una magnitud física intrínsecamente continua, es decir, que puede tomar cualquier
valor de los números reales. Sin embargo, no siempre es posible observar las cosas en cada instante
del tiempo. Por eso, en el ámbito de los procesos (no sólo estocásticos) es importante preguntarse si
el fenómeno que representa el proceso es observado en cada instante o sólo en momentos concretos
del tiempo.
Definición 11.1.2 Sea un p.a. sobre un espacio probabilístico con σ −álgebra A

{X (t, A) : t ∈ I, A ∈ Ω} :

1. Se dice que el proceso es un p.a. en tiempo discreto si I es un conjunto numerable.


2. Se dice que el proceso es un p.a. en tiempo continuo si I es un intervalo.

En el caso de procesos en tiempo discreto se suele escribir Xn o X [n] refiriéndonos a la notación


más general X (n). Por otra parte, el conjunto I normalmente es el conjunto de los enteros o de
los enteros positivos, aunque también puede ser un subconjunto de éstos. En algunos libros los
procesos en tiempo discreto también son denominados secuencias aleatorias.
En el caso de procesos en tiempo continuo, I es normalmente el conjunto de los reales positivos
o un subconjunto de éstos.
Si nos damos cuenta, esta primera clasificación de los p.a. la hemos hecho en función del
carácter discreto o continuo del tiempo, es decir, del conjunto I. Existe otra clasificación posible en
función de cómo son las variables aleatorias del proceso, discretas o continuas. Sin embargo, ambos
tipos de procesos, con variables discretas o con variables continuas, pueden estudiarse casi siempre
de forma conjunta. Por ello sólo distinguiremos p.a. con variables discretas y p.a. con variables
continuas si es necesario. En este sentido, cuando nos refiramos a la función masa (si el p.a. es de
variables discretas) o a la función de densidad (si el p.a. es de variables continuas), hablaremos en
general de función de densidad.
 Ejemplo 11.1 Sea ξ una variable aleatoria uniforme en (−1, 1). Definimos el proceso en tiempo
continuo X (t, ξ ) como
X (t, ξ ) = ξ cos (2πt) .

Sus funciones muestrales son ondas sinusoidales de amplitud aleatoria en (−1, 1) (Figura 11.2). 
256 Capítulo 11. Introducción a los procesos aleatorios

Figura 11.3: Distintas funciones muestrales de un proceso

Ejemplo 11.2 Sea θ una variable aleatoria uniforme en (−π, π). Definimos el proceso en tiempo
continuo X (t, π) como
X (t, π) = cos (2πt + θ ) .
Sus funciones muestrales son versiones desplazadas aleatoriamente de cos (2πt) (Figura 11.3). 

11.2 Descripción de un proceso aleatorio


En general, para especificar cómo es un p.a. de forma precisa es necesario caracterizar la
distribución de probabilidad de cualquier subconjunto de variables del proceso. Es decir, si X (t) es
un p.a., es necesario conocer cuál es la distribución de cualquier vector del tipo

(X (t1 ) , ..., X (tk )) ,

para todo k > 0, (t1 , ...,tk ) ⊂ I, mediante su función de distribución conjunta

FX(t1 ),...,X(tk ) (x1 , ..., xk )

o mediante su función de densidad (o masa) conjunta

fX(t1 ),...,X(tk ) (x1 , ..., xk ) .

Sin embargo, no siempre es fácil conocer todas las posibles distribuciones de todos los posibles
vectores de variables del proceso. Por ello, para tener una descripción más sencilla aunque puede
que incompleta del proceso, se acude a las medias, a las varianzas y a las covarianzas de sus
variables.
Definición 11.2.1 Sea un p.a. X (t).
Se define la función media o simplemente la media de X (t) como
Z ∞
X̄ (t) = x̄ (t) = E [X (t)] = x fX(t) (x) dx,
−∞

para cada t ∈ I.
Se define la función de autocovarianza o simplemente la autocovarianza de X (t) como

CX (t, s) = Cov [X (t) , X (s)] = E [(X (t) − mX (t)) (X (s) − mX (s))]


Z ∞Z ∞
= (x1 − x̄ (t)) (x2 − x̄ (s)) fX(t),X(s) (x1 , x2 ) dx2 dx1
−∞ −∞
11.2 Descripción de un proceso aleatorio 257

Se define la función de autocorrelación o simplemente la autocorrelación de X (t)


como Z ∞Z ∞
RX (t, s) = E [X (t) · X (s)] = x1 x2 fX(t),X(s) (x1 , x2 ) dx2 dx1
−∞ −∞
Se trata de funciones determinísticas que no tienen ninguna componente aleatoria. Nótese
también que aunque se está escribiendo el símbolo integral, podríamos estar refiriéndonos a una
variable discreta, en cuyo caso se trataría de una suma.
De cara al cálculo, la diferencia entre las funciones de autocorrelación y autocovarianza tan
sólo es el producto de las medias1 :

CX (t, s) = RX (t, s) − mX (t) · mX (s) .

De hecho, si el proceso está centrado en media, es decir, si su media es constantemente cero, ambas
funciones coinciden.
Por otra parte, la varianza de las variables del proceso puede obtenerse como

Var (X (t)) = CX (t,t) .

La interpretación de la función de autocovarianza CX (t, s) es la de una función que proporciona


una medida de la interdependencia lineal entre dos v.a. del proceso, X (t) y X (s), que distan
τ = s − t unidades de tiempo. De hecho, ya sabemos que podríamos analizar esta relación mediante
el coeficiente de correlación lineal

CX (t, s)
ρX (t, s) = p .
CX (t,t)CX (s, s)

Aparentemente es esperable que tanto más rápidamente cambie el proceso, más decrezca la au-
tocorrelación conforme aumenta τ, aunque por ejemplo, los procesos periódicos no cumplen esa
propiedad.
En el campo de la teoría de la señal aletatoria, a partir de la función de autocorrelación se puede
distinguir una señal cuyos valores cambian muy rápidamente frente a una señal con variaciones más
suaves. En el primer caso, la función de autocorrelación y de autocovarianza en instantes t y t + τ
decrecerán lentamente con τ, mientras que en el segundo, ese descenso será mucho más rápido. En
otras palabras, cuando la autocorrelación (o la autocovarianza) es alta, entre dos instantes cercanos
del proceso tendremos valorer similares, pero cuando es baja, podremos tener fuertes diferencias
entre valores cercanos en el tiempo.
La gran importancia de estas funciones asociadas a un proceso, media y autocovarianza (o
autocorrelación), es por tanto que aportan toda la información acerca de la relación lineal que existe
entre dos v.a. cualesquiera del proceso. Como hemos dicho, en la práctica, resulta extremadamente
complicado conocer completamente la distribución de un proceso y, cuando esto ocurre, no siempre
es sencillo utilizar las técnicas del cálculo de probabilidades para el tratamiento de estos procesos.
Sin embargo, tan sólo con la información dada por la función media y la función de autocorrelación
pueden ofrecerse resultados muy relevantes acerca de los procesos, tal y como hemos visto en el
caso de variables y vectores aleatorios.
 Ejemplo 11.3 La señal recibida por un receptor AM de radio es una señal sinusoidal con fase
aleatoria, dada por X (t) = A · cos (2π fct + Ξ) , donde A y fc son constantes y Ξ es una v.a. uniforme
en (−π, π) .
1 Esta fórmula es la misma que cuando veíamos la covarianza entre dos variables, calculable como la media del

producto menos el producto de las medias.


258 Capítulo 11. Introducción a los procesos aleatorios

En ese caso,
1 A
Z π
ξ =π
E[X(t)] = A cos(2π fct + ξ ) dξ = [sin(2π fct + ξ )]ξ =−π
−π 2π 2π
A
= (sin(2π fct) cos(π) + cos(2π fct) sin(π)

− sin(2π fct) cos(−π) − cos(2π fct) sin(−π))
A
= [0 + 0] = 0.

RX (t,t + τ) = E [X (t + τ) X (t)] = E A2 cos (2π fct + 2π fc τ + Ξ) cos (2π fct + Ξ)


 

A2 A2
= E [cos (4π fct + 2π fc τ + 2Ξ)] + E [cos (2π fc τ)]
2 2

A2 π 1 A2
Z
= cos (4π fct + 2π fc τ + 2ξ ) dξ + cos (2π fc τ)
2 −π 2π 2
A 2 A2 A 2
= · 0 + cos (2π fc τ) = cos (2π fc τ) .
2 2 2
Por tanto,
A2
CX (t,t + τ) = RX (t,t + τ) − mX (t) mX (t + τ) = cos (2π fc τ) .
2


11.3 Tipos más comunes de procesos aleatorios


En este apartado definimos propiedades que pueden ser verificadas por algunos procesos
aleatorios y que les confieren característicascespeciales en las aplicaciones prácticas.

11.3.1 Procesos independientes


Definición 11.3.1 Sea un p.a. X (t). Si para cada n instantes de tiempo, t1 , ...,tn , las v.a. del
proceso en esos instantes son independientes, es decir,

fX(t1 ),...,X(tn ) (x1 , ..., xn ) = fX(t1 ) (x1 ) · ... · fX(tn ) (xn ) ,

se dice que el proceso es independiente.

La interpretación de este tipo de procesos es la de aquellos en donde el valor de la v.a. que es


el proceso en un momento dado no tiene nada que ver con el valor del proceso en cualquier otro
instante.
Desde un punto de vista físico estos procesos son muy caóticos y muy frecuentemente se
asocian en la práctica a ruidos que no guardan en un momento dado ninguna relación consigo
mismos en momentos adyacentes.

11.3.2 Procesos con incrementos independientes


Definición 11.3.2 Sea un p.a. X (t). Se dice que tiene incrementos independientes si cualquier
conjunto de N v.a. del proceso, X (t1 ) , X (t2 ) , ..., X (tN ), con t1 < t2 < ... < tN son tales que los
incrementos
X (t1 ) , X (t2 ) − X (t1 ) , ..., X (tN ) − X (tN−1 )
11.3 Tipos más comunes de procesos aleatorios 259
4

−1

−2

−3

−4
0 1 2 3 4 5 6 7 8 9 10

Figura 11.4: Función muestral de un proceso independiente formado por v.a gaussianas de media
cero y varianza uno

son independientes entre sí.

11.3.3 Procesos de Markov


No debemos perder de vista la complejidad que implica la descripción estadística de un proceso
aleatorio. Pensemos por ejemplo que un proceso ha evolucionado hasta un instante t y se conoce
esa evolución; es decir, se conoce el valor X (s) = xs para todo s ≤ t.
Si se desea describir la posición del proceso en un instante posterior a t, t + ∆, sería necesario
calcular la distribución condicionada

X (t + ∆) | {X (s) = xs para todo s ≤ t} .

Esto, en general, es bastante complejo.


Además, ¿tiene sentido pensar que la evolución del proceso en el instante t + ∆ se vea afectada
por toda la historia del proceso, desde el instante inicial s = 0 hasta el último instante de esa historia
s = t? Parece lógico pensar que la evolución del proceso tenga en cuenta la historia más reciente de
éste, pero no toda la historia.
Esta hipotesis se ve avalada por los perfiles más habituales de las funciones de autocorrelación,
donde observamos que la relación entre variables del proceso suele decrecer en la mayoría de las
ocasiones conforme aumenta la distancia en el tiempo entre las mismas.
Los procesos de Markov son un caso donde esto ocurre. Se trata de procesos que evolucionan
de manera que en cada instante olvidan todo su pasado y sólo tienen en cuenta para su evolución
futura el instante más reciente, más actual.
Definición 11.3.3 Un proceso X (t) se dice markoviano o de Markov si para cualesquiera
t1 < ... < tn < tn+1 instantes consecutivos de tiempo se verifica

fX(tn+1 )|X(t1 )=x1 ,...,X(tn )=xn (xn+1 ) = fX(tn+1 )|X(tn )=xn (xn+1 ) .

Esta definición se suele enunciar coloquialmente diciendo que un proceso de Markov es aquel
cuyo futuro no depende del pasado sino tan sólo del presente.

11.3.4 Procesos débilmente estacionarios


Una de las propiedades más usuales en los procesos estocásticos consiste en una cierta estabili-
dad en sus medias y en sus covaranzas, en el sentido en que vamos a describir a continuación.
260 Capítulo 11. Introducción a los procesos aleatorios

Definición 11.3.4 X (t) es un proceso débilmente estacionariosi


1. mX (t) es independiente de t y
2. C (t, s) (o R (t, s)) depende tan sólo de s − t, en cuyo caso se nota C (s − t) (ó R (s − t)).

Es importante destacar que la primera de las condiciones es irrelevante, ya que siempre se puede
centrar en media un proceso para que ésta sea cero, constante. Es decir, en la práctica es indiferente
estudiar un proceso X (t) con función media µX (t) que estudiar el proceso Y (t) = X (t) − µX (t),
con media cero.
La propiedad más exigente y realmente importante es la segunda. Viene a decir que la relación
entre variables aleatorias del proceso sólo depende de la distancia en el tiempo que las separa.
Vamos a hacer una puntualización muy importante respecto a la notación que emplearemos
en adelante. Acabamos de ver que si un proceso es débilmente estacionario, sus funciones de
autocovarianza y de autocorrelación, C (s,t) y R (s,t) no dependen en realidad de s y de t, sino tan
sólo de t − s. Por eso introducimos la notación

C (t, s) ≡ C (s − t)
R (t, s) = R (s − t) .

Por lo tanto, ¿qué queremos decir si escribimos directamente C (τ) o R (τ)? Que tenemos un p.a.
débilmente estacionario y que hablamos de

C (τ) = C (t,t + τ)
R (τ) = R (t,t + τ) .

Una medida importante asociada a un proceso débilmente estacionario es la potencia


h promedio,
i
definida como la media del cuadrado de éste en cada instante t, es decir RX (0) = E |X (t)|2 .
Por otra parte, la peculiaridad que define a los procesos débilmente estacionarios le confiere a
su función de autocorrelación y autocovarianza dos propiedades interesantes.

Teorema 11.3.1 Sea X (t) un proceso estacionario (débil). Entonces, si notamos RX (τ) =
E [X (t) X (t + τ)] para todo t, su función de autocorrelación y por CX (τ) a su función de autoco-
varianza, se cumple:
1. Ambas son funciones pares, es decir, RX (−τ) = RX (τ) y CX (−τ) = CX (τ).
2. |RX (τ)| ≤ RX (0) y |CX (τ)| ≤ CX (0) = σ 2 para todo τ.

 Ejemplo 11.4 En el ejemplo del oscilador vimos que la señal recibida por un receptor AM de

radio es una señal sinusoidal con fase aleatoria, dada por X (t) = A · cos (2π fct + Ξ) , donde A y fc
son constantes y Ξ es una v.a. uniforme en (−π, π) tiene por función media

E [X (t)] = 0

y por función de autocorrelación

A2
RX (t,t + τ) = cos (2π fc τ) .
2
De esta forma, podemos ver que el proceso es débilmente estacionario. 

 Ejemplo 11.5 Un proceso binomial es un proceso con función de autocovarianza

C (m, n) = mı́n (m, n) p (1 − p) ,

que no depende sólo de m − n. Por lo tanto no es débilmente estacionario. 


11.3 Tipos más comunes de procesos aleatorios 261

 Ejemplo 11.6 Vamos a considerar un proceso en tiempo discreto e independiente, Xn , con media
cero y varianza constante e igual a σ 2 . Vamos a considerar también otro proceso que en cada
instante de tiempo considera la media de X en ese instante y el anterior, es decir,
Xn + Xn−1
Yn = .
2
En primer lugar, dado que E [Xn ] = 0 para todo n, lo mismo ocurre con Yn , es decir,
 
Xn + Xn−1
E [Yn ] = E = 0.
2
Por otra parte,

CY (n, n + m) = RY (n, n + m) − 0 = E [Y (n)Y (n + m)]


 
Xn + Xn−1 Xn+m + Xn+m−1
=E
2 2
1
= E [(Xn + Xn−1 ) (Xn+m + Xn+m−1 )]
4
1
= (E [Xn Xn+m ] + E [Xn Xn+m−1 ] + E [Xn−1 Xn+m ] + E [Xn−1 Xn+m−1 ])
4
Ahora debemos tener en cuenta que
(
0 si n 6= m
CX (n, m) = RX (n, m) = ,
σ2 si n = m

ya que Xn es un proceso independiente. Por lo tanto,



1 2 +0+0+σ2



 4 σ si m = 0
 1 0 + σ 2 + 0 + 0

si m = 1
CY (n, n + m) = 14 2



 4 0+0+σ +0 si m = −1

0 en otro caso

1 2
2σ
 si m = 0
1 2
= 4σ si m = ±1

0 en otro caso

Podemos decir, por tanto, que el proceso Yn también es débilmente estacionario, porque su media
es constante (cero) y CY (n, n + m) no depende de n sino tan sólo de m. 

11.3.5 Procesos ergódicos


Si nos damos cuenta, estamos describiendo los procesos aleatorios a partir de promedios
estadísticos, principalmente a partir de la media de cada una de sus variables y de sus correlaciones.
Vamos a centrarnos en procesos débilmente estacionarios. En ese caso, los promedios estadísticos
más relevantes serían la media,
Z ∞
E [X (t)] = mX (t) = mX = x fX(t) (x) dx
−∞

y la autocorrelación entre dos variables que disten τ unidades de tiempo,


Z ∞
RX (τ) = E [X (t) X (t + τ)] = x1 x2 fX(t)X(t+τ) (x1 , x2 ) dx1 dx2 .
−∞
262 Capítulo 11. Introducción a los procesos aleatorios

Hasta ahora quizá no lo habíamos pensado, pero más allá de los típicos ejemplos, ¿cómo podríamos
tratar de calcular o estimar al menos estas cantidades? Si aplicamos lo que hemos aprendido hasta
ahora, estimaríamos, por ejemplo, la media con la media muestral, pero para ello necesitaríamos
una muestra muy grande de funciones muestrales del proceso, y eso no siempre ocurre. De hecho,
no es nada rara la situación en la que, en realidad, sólo es posible observar una única función
muestral del proceso.
Ahora bien, dada una única función muestral de un proceso, x (t), en esa función hay muchos
datos, tantos como instantes de tiempo t hayamos sido capaces de observar. ¿No podría ocurrir que
utilizáramos todos esos datos que hay en x (t) para estimar las medias y las autocorrelaciones? Por
ejemplo, si tenemos observada la señal x (t) en un montón de valores t1 , ...tn , ¿qué tendrá que ver
x (t1 ) + ...x (tn )
n
con la media del proceso mX ? De hecho, si n es muy grande y corresponde a un intervalo de
observación [−T, T ], tendríamos que
Z T
x (t1 ) + ... + x (tn ) 1
' x (t) dt.
n 2T −T

Ahora no es una integral sobre los valores de x (integral estadística) sino sobre el tiempo.
En el caso de la autocorrelación pasaría igual, tendríamos que podríamos observar un montón
de pares de valores de la señal en los instantes t1 , ...,tn y t1 + τ, ...,tn + τ en el intervalo [−T, T ] y
con ellos podríamos estimar
Z T
1 x (t1 ) x (t1 + τ) + ... + x (tn ) x (tn + τ)
x (t) x (t + τ) dt ' .
2T −T n
Lo que no sabemos, en general, es si esa integral tiene algo que ver con RX (τ), que es una integral
estadística.
Definición 11.3.5 Se dice que un proceso estacionario es ergódico cuando las funciones que
entrañan valores esperados a lo largo de las realizaciones (integrales o promedios estadísticos)
pueden obtenerse también a partir de una sola función muestral x (t). Es decir, que una sola
realización es representativa de todo el proceso. Más concretamente, un proceso será ergódico
en media y en autocorrelación si
Z T
1
limT →∞ x (t) dt = mX
2T −T

y Z T
1
limT →∞ x (t) x (t + τ) dt = RX (τ) .
2T −T

11.4 Ejemplos de procesos aleatorios


11.4.1 Ruidos blancos
En telecomunicaciones los ruidos son señales que se adhieren a la señal enviada en cualquier
proceso de comunicación, de tal manera que uno de los objetivos fundamentales en este tipo de
procesos es, dada la señal resultante de sumar la señal enviada, X (t), y el ruido del canal, N (t), es
decir, dada Y (t) = X (t) + N (t), saber filtrar esta señal para estimar cuál es el verdadero valor de
X (t).
En este apartado nos referimos brevemente a un modelo gastante común para los fenómenos de
ruido, llamado ruido blanco.
11.4 Ejemplos de procesos aleatorios 263

Definición 11.4.1 Un ruido blanco es un proceso N (t) centrado, débilmente estacionario e


N0
incorrelado con varianza 2 . Por tanto, su función de autocovarianza (y autocorrelación) será
(
N0
si τ = 0
CN (t,t + τ) = 2 .
0 en otro caso

Utilizando la llamada función impulso, dada por


(
1 si t = 0
δ (t) = ,
0 en otro caso

esta función de autocovarianza puede escribirse como

N0
CN (τ) = δ (τ) .
2

La justificación de que este sea un modelo habitual para los ruidos, considerando que los valores
del ruido están incorrelados unos con otros, es que suelen ser debidos a fenómenos completamente
aleatorios y caóticos, por lo que no es esperable que exista relación entre valores del ruido, ni
siquiera cuando éstos son muy cercanos en el tiempo.

11.4.2 Procesos gaussianos


Hasta ahora hemos definido y estudiado familias muy genéricas de procesos (independientes,
estacionarios, ...). En esta sección vamos a considerar más concretamente la conocida como familia
de procesos aleatorios gaussianos, que constituye, sin duda, la más importante de entre las que se
utilizan en Telecomunicaciones y en cualquier otro ámbito de aplicación de la Estadística.
Definición 11.4.2 Un p.a. X (t) se dice proceso gaussiano si cualquier colección de varia-
bles del proceso tiene distribución conjuntamente gaussiana, es decir, si cualquier colección
X (t1 ) , ..., X (tn ) tiene función de densidad conjunta
 
1 1 0 −1
fX(t1 ),...,X(tn ) (x1 , ..., xn ) = p exp − (x − µ) ·C · (x − µ) ,
(2π)n det (C) 2

donde

x = (x1 , ..., xn )0 ,
µ = (E [X (t1 )] , ..., E [X (tn )])0 ,
C = (Ci, j )i, j=1,..,n ,
Ci j = Cov [X (ti ) , X (t j )] .

Nótese que un proceso gaussiano está completamente descrito una vez que se conocen su
función media y su autocovarianza o su autocorrelación.
Existen dos razones fundamentales por las que, como hemos comentado, los procesos gaussia-
nos son la familia de procesos más relevante:
Por una parte, las propiedades analíticas que verifican los hacen fácilmente manejables, como
veremos a continuación.
Por otra parte, estos procesos han demostrado ser un excelente modelo matemático para gran
número de experimentos o fenómenos reales (resultado amparado en el Teorema Central del
Límite).
264 Capítulo 11. Introducción a los procesos aleatorios

 Ejemplo 11.7 Es muy habitual considerar que los ruidos blancos son gaussianos. En ese caso, si
consideramos ruidos blancos gaussianos, sus variables no sólo son incorreladas, sino que también
son independientes. 

 Ejemplo 11.8 Sea un proceso gaussiano X (t) débilmente estacionario con E [X (t)] = 4 y auto-
correlación RX (τ) = 25e−3|τ| + 16.
Obsérvese que la autocorrelación (y la autocovarianza) decrece rápidamente con el paso del
tiempo.
Si deseamos caracterizar la distribución de probabilidad de tres v.a. del proceso, observadas en
los instantes t0 ,t1 = t0 + 21 y t2 = t1 + 21 = t0 + 1, necesitamos las medias, E [X (ti )] = 4 y la matriz
de covarianzas, dada a partir de CX (τ) = 25e−3|τ| .

25e−3/2 25e−6/2
 
25
CX(t0 ),X(t1 ),X(t2 ) =  25e−3/2 25 25e−3/2  .
25e −6/2 25e−3/2 25


Teorema 11.4.1 Se verifican las siguientes propiedades:


Un proceso gaussiano es independiente si y sólo si C (ti ,t j ) = 0 para todo i 6= j.
Sea X (t) un proceso gaussiano. Este proceso es markoviano si y sólo si

CX (t1 ,t2 ) ·CX (t2 ,t3 )


CX (t1 ,t3 ) = ,
CX (t2 ,t2 )

para cualesquiera t1 < t2 < t3 .


Un proceso X (t) gaussiano, centrado, con incrementos independientes y estacionarios es
de Markov.

11.4.3 Procesos de Poisson


El proceso de Poisson es un modelo para procesos de la vida real que cuentan ocurrencias de
un suceso a lo largo del tiempo, denominados por ello procesos de recuento.
Algunos de los ejemplos más comunes en el campo de las Telecomunicaciones son el proceso
que cuenta el número de llamadas recibidas en una centralita telefónica o el que cuenta el número
de visitas a una página WEB.
En otros ámbitos, como la Física, estos procesos pueden servir, por ejemplo, para contabilizar
el número de partículas emitidas por un cuerpo.
En todas estas aplicaciones, el proceso tendría la expresión

N (t) = ∑ u (t − T [n]) ,
n=1

donde T [n] es un proceso en tiempo discreto que representa el momento de la n−ésima llegada que
cuenta el proceso y (
0 si t < t0
u (t − t0 ) =
1 si t ≥ t0
es la función umbral.
Definición 11.4.3 Un proceso de Poisson de parámetro λ es un proceso N (t) = ∑∞
n=1 u (t − T [n])
para el cual la v.a. T [n] es una suma de n exponenciales independientes del mismo parámetro
11.4 Ejemplos de procesos aleatorios 265

Figura 11.5: Representación gráfica de una función muestral de un p.a. de Poisson

λ , lo que genera una distribución de Erlang de parámetros n y λ , con función de densidad

(λt)n−1 −λt
fT [n] (t) = λ e u (t) .
(n − 1)!

Alternativamente, puede decirse que el proceso de Poisson es aquél en el que los tiempos entre
llegadas,
ϒ [n] = T [n] − T [n − 1] ,
siguen siempre distribuciones exponenciales independientesa del mismo parámetro, esto es

fϒ[n] (t) = λ e−λt u (t) .


a Obsérvese por tanto que el proceso T [n] tiene incrementos independientes.

 Ejemplo 11.9 En la Figura 11.6 se muestran funciones muestrales de un proceso de Poisson de


parámetro λ = 1. Vamos a interpretar la función muestral de la izquierda pensando, por ejemplo,
que representa el número de visitas a una página WEB: se observa que poco depués de los tres
minutos se han dado 3 visitas; después pasan casi 5 minutos sin ninguna visita; a continuación se
producen un buen número de visitas en poco tiempo; ...
Si observamos tan sólo el eje del tiempo, podríamos señalar los instantes en que se producen
las llegadas. Sabemos que esos incrementos en el tiempo desde que se produce una llegada hasta la
siguiente siguen una distribución exponencial, en este caso de parámetro 1. 

Vamos a describir algunas de las propiedades más interesantes de los procesos de Poisson.

Teorema 11.4.2 Sea N (t) un proceso de Poisson de parámetro λ . Entonces, para todo t
se tiene que N (t) → P (λt).
La media de un proceso de Poisson de parámetro λ es µN (t) = λt. Por tanto, el proceso de
Poisson no es estacionario.
266 Capítulo 11. Introducción a los procesos aleatorios

Figura 11.6: Funciones muestrales de un proceso de Poisson de parámetro 1

Sea N (t) un proceso de Poisson de parámetro λ . Entonces, el proceso tiene incrementos in-
dependientes y para cualesquiera t1 < t2 , el incremento N (t2 )−N (t1 ) sigue una distribución
de Poisson de parámetro λ (t2 − t1 ).
Sea N (t) un proceso de Poisson de parámetro λ . Entonces

CN (t1 ,t2 ) = λ mı́n (t1 ,t2 ) .

Sea N (t) un proceso de Poisson de parámetro λ . Entonces, para cualesquiera t1 < ... < tk ,

fN(t1 ),...,N(tk ) (n1 , ..., nk )


( n1 n2 −n1 nk −nk−1
−α1 α1 · e−α2 α2 · · −αk α2
= e n1 ! (n2 −n1 )! ... e (nk −nk−1 )! si n1 ≤ ... ≤ nk ,
0 en otro caso

donde αi = λ (ti − ti−1 ) .


El proceso de Poisson es de Markov.
Sean N1 (t) p.a. de Poisson de parámetro λ1 , N2 (t) p.a. de Poisson de parámetro λ2 , ambos
independientes. Entonces, N1 (t) + N2 (t) es un p.a. de Poisson de parámetro λ1 + λ2 . Esta
propiedad se conoce como propiedad aditiva.
Sea N (t) un p.a. de Poisson de parámetro λ . Supongamos que de todos los eventos que
cuenta el proceso, sólo consideramos una parte de ellos; concretamente los que presentan
una característica que tiene probabilidad p entre todos los eventos. En ese caso, si notamos
por Np (t) al proceso que cuenta los eventos con la característica dada, dicho proceso es de
Poisson de parámetro λ · p. Esta propiedad se conoce como propiedad de descomposición.
El tiempo W que transcurre desde un instante arbitrario t0 hasta la siguiente discontinuidad
de un proceso de Poisson de parámetro λ es una variable aleatoria exponencial de parámetro
λ , independientemente de la elección del punto t0 . Esta propiedad aparentemente paradójica
se conoce como propiedad de no memoria del proceso de Poisson. Obsérvese que, en
realidad, esta propiedad de no memoria lo es de la distribución exponencial.

 Ejemplo 11.10 Es frecuente considerar que el proceso que cuenta el número de partículas
emitidas por un material radiactivo es un proceso de Poisson. Vamos a suponer por tanto, que
estamos observando el comportamiento de un determinado material del que se conoce que emite a
razón de λ partículas por segundo.
11.5 Para saber más 267

Supongamos que se observa el proceso que cuenta el número de partículas emitidas desde un
instante t hasta el instante t + T0 . Si en ese intervalo de tiempo se supera un umbral de N0 partículas,
debería sonar una señal de alarma. En ese caso, la probabilidad de que la alarma suene es

(λ T0 )k N0
(λ T0 )k
P [N (t + T0 ) − N (t) > N0 ] = ∑ e−λ T0 = 1 − ∑ e−λ T0 ,
k=N0 +1 k! k=0 k!

ya que N (t + T0 ) − N (t) → P (λ T0 ). 

 Ejemplo 11.11 El número de visitas a la página WEB de una empresa que desea vender sus
productos a través de INTERNET es adecuadamente descrito mediante un proceso de Poisson.
Sabiendo que durante una hora se reciben un promedio de 5 visitas,
1. ¿cuál es la probabilidad de que no se reciba ninguna visita en media hora?

(5 × 0.5)0
P [N (0.5) = 0] = e−5×0.5 = 8.2085 × 10−2 ,
0!
apenas un 8 % de probabilidad.
2. ¿Cuál es el promedio de visitas en 5 horas a la WEB?

E [N (5)] = 5 × 5 = 25

3. La empresa absorbe otra empresa del sector y opta por establecer un enlace directamente
desde la página de su filial a la propia, garantizándose que todos los clientes de la filial visitan
su página. Si el promedio de clientes que visitaban la página de la filial era de 2 clientes a la
hora, ¿cuál es la probabilidad de que tras la fusión no se reciba ninguna visita en 10 minutos?
Al hacerse con los clientes de la otra empresa (notemos por M (t) al proceso de Poisson que
contaba sus visitas, de parámetro λ = 2 visitas/hora), lo que ha ocurrido es que ahora el
número de visitas a la WEB de la empresa es la suma de ambos procesos: T (t) = N (t)+M (t) .
Suponiendo que los procesos de Poisson que contaban las visitas a ambas empresas fueran
independientes, se tiene que T (t), en virtud de la propiedad aditiva del proceso de Poisson, es
también un proceso de Poisson, de parámetro λ = 5 + 2 = 7 visitas/hora. Por tanto,

1 0

−7× 16 7 × 6
   
1
P T =0 =e = 0.3114,
6 0!

una probabilidad del 31 %.




11.5 Para saber más


Se recomienda leer los capítulos correspondientes a procesos aleatorios de Leon-Garcia (2011),
Viniotis (1998) y Woods y Stark (2011).
Bibliografía

Alba-Fernández, M.V. y N. Ruiz-Fuentes (2004). Muestreo estadístico. Septem Ediciones (véase


página 147).
Calot, G. (1970). Curso de estadística descriptiva. Paraninfo (véase página 48).
Clarke, R. D. (1946). “An application of the Poisson distribution”. En: Journal of the Institute of
Actuaries 72.3, páginas 481-481 (véase página 88).
Cleophas, T.J. y col. (2008). Statistics Applied to Clinical Trials. Mathematics and Statistics.
Springer Netherlands. ISBN: 9781402095238 (véase página 219).
Cleveland, W. S. (1985). The Elements of Graphing Data. Monterey, CA: Wadsworth (véase
página 25).
Colegio24hs (2004). Combinatoria. Colegio24hs (véase página 70).
Cowles, M.K. (2013). Applied Bayesian Statistics: With R and OpenBUGS Examples. Springer
Texts in Statistics. Springer New York. ISBN: 9781461456964 (véase página 218).
Crawley, M.J. (2014). Statistics: An Introduction Using R. Wiley. ISBN: 9781118941119 (véase
página 219).
Czitrom, Veronica y Jack E. Reece (1997). “Virgin versus Recycled Wafers for Furnace Qualifica-
tion: Is the Expense Justified?” En: Statistical Case Studies for Industrial Process Improvement,
páginas 87-104 (véanse páginas 12, 48).
Devore, J.L. (2008). Probabilidad y estadistica para Ingenieria y ciencias. Cengage Learning.
ISBN : 9789706868312. URL : https : / / books . google . es / books ? id= - DazQgzN6zwC
(véase página 247).
Fahrmeir, L. y col. (2013). Regression: Models, Methods and Applications. Springer Berlin Heidel-
berg. ISBN: 9783642343339. URL: https://books.google.es/books?id=EQxU9iJtipAC
(véase página 247).
Gamero-Burón, C. (2017). Estadística I: Elementos de Estadística Descriptiva y de Teoría de la
Probabilidad. UMA Editorial (véase página 48).
García Nogales, A. (2008). Teorías de la Medida y de la Probabilidad. Universidad de Extremadura.
Servicio de Publicaciones (véase página 111).
270 BIBLIOGRAFÍA

Gautam, Nalin K. y N.D. Kaushika (2002). “Reliability evaluation of solar photovoltaic arrays”.
En: Solar Energy 72.2, páginas 129-141. ISSN: 0038-092X (véase página 70).
González, C.G. (2012). Gráficos estadísticos y mapas con R. Ediciones Díaz de Santos, S.A. (véase
página 48).
Green, P. J. (2017). “Introduction to finite mixtures”. En: ArXiv e-prints. arXiv: 1705.01505
[stat.ME] (véase página 112).
Irizarry, Rafael A. (2018). dslabs: Data Science Labs. R package version 0.4.0. URL: https:
//CRAN.R-project.org/package=dslabs (véase página 165).
Jorge Andrés Alvarado Valencia, J.J.O.A. (2008). Fundamentos de inferencia estadística. Pontificia
Universidad Javeriana. ISBN: 9789587160949 (véase página 218).
Juan-González, A.M. (2016). Probabilidad. Editorial Universidad de Almería (véase página 70).
Leisch, F. (2002). “Sweave, Part I: Mixing R and LaTeX: A short introduction to the Sweave file
format and corresponding R functions”. En: R News 2.3, páginas 28-31 (véase página 10).
Leon-Garcia, A. (2011). Probability, Statistics, and Random Processes For Electrical Engineering.
Pearson Education. ISBN: 9780133002577 (véanse páginas 138, 267).
MacFarland, Thomas W. (2014). “Oneway Analysis of Variance (ANOVA)”. En: Introduction to
Data Analysis and Graphical Presentation in Biostatistics with R: Statistics in the Large. Cham:
Springer International Publishing, páginas 73-97 (véase página 219).
Martínez-López, J. y col. (2008). “Multivariate analysis of contamination in the mining district of
Linares (Jaén, Spain)”. En: Applied Geochemistry 23.8, páginas 2324-2336 (véase página 51).
Meeker, W.Q., G.J. Hahn y L.A. Escobar (2017). Statistical Intervals: A Guide for Practitioners and
Researchers. Wiley Series in Probability and Statistics. Wiley. ISBN: 9780471687177 (véase
página 181).
Meyer, David y col. (2017). e1071: Misc Functions of the Department of Statistics, Probability
Theory Group (Formerly: E1071), TU Wien. R package version 1.6-8. URL: https://CRAN.R-
project.org/package=e1071 (véase página 38).
Miranda, I.E. y F.F. Palacín (2006). Estadística descriptiva y probabilidad: (teoría y problemas).
Servicio de Publicaciones de la Universidad de Cádiz (véase página 112).
Monsalve-Sáenz, Germán (1999). “Hidrología en la Ingeniería”. En: Alfaomega, Colombia (véase
página 49).
Olea-Mata, A.J. y A.J. Sáez-Castillo (2012). Análisis estadístico del tráfico telefónico de un PSI
(Proyecto Fin de Carrera). Escuela Politécnica Superior de Linares, Universidad de Jaén (véase
página 49).
Peña, D. (2010). Análisis de series temporales. El Libro Universitario - Manuales. Alianza Editorial
(véase página 48).
R Core Team (2018). R: A Language and Environment for Statistical Computing. R Foundation
for Statistical Computing. Vienna, Austria. URL: https://www.R-project.org/ (véase
página 9).
Rizzo, M.L. (2007). Statistical Computing with R. Chapman & Hall/CRC The R Series. Tay-
lor & Francis. ISBN: 9781584885450. URL: https : / / books . google . es / books ? id =
BaHhdqOugjsC (véanse páginas 181, 219).
Stowell, Sarah (2014). Using R for Statistics. 1st. Berkely, CA, USA: Apress. ISBN: 9781484201404
(véase página 219).
Thompson, S.K. (2012). Sampling. CourseSmart. Wiley. ISBN: 9781118162941. URL: https:
//books.google.es/books?id=-sFtXLIdDiIC (véase página 181).
Trivedi, K.S. (2016). Probability and Statistics with Reliability, Queuing, and Computer Science
Applications, 2nd Edition. John Wiley & Sons (véase página 112).
BIBLIOGRAFÍA 271

Vílchez-López, Silverio, Antonio José Sáez-Castillo y María José Olmo-Jiménez (2016). “GWRM:
An R Package for Identifying Sources of Variation in Overdispersed Count Data”. En: PLOS
ONE 11.12, páginas 1-18 (véase página 29).
Villegas, M.A. Gómez (2005). Inferencia estadística. Ediciones Díaz de Santos (véanse páginas 167,
179).
Viniotis, Y. (1998). Probability and Random Processes for Electrical Engineers. Communications
and signal processing. WCB/McGraw-Hill. ISBN: 9780070674912 (véanse páginas 138, 267).
Weber, W.J. y col. (2002). “Leachate from Land Disposed Residential Construction Waste”. En:
Journal of Environmental Engineering 128.3 (véase página 13).
Woods, J. y H. Stark (2011). Probability, Statistics, and Random Processes for Engineers. Pearson
Education. ISBN: 9780133002508 (véanse páginas 138, 267).
Xie, Yihui (2015). Dynamic Documents with R and Knitr, Second Edition. 2nd. Chapman &
Hall/CRC (véase página 10).
Yamanaka, N. (2004). High-Performance Backbone Network Technology. Optical Science and
Engineering. Taylor & Francis. ISBN: 9780824753214. URL: https://books.google.es/
books?id=yNbdJav6S6QC (véase página 168).

También podría gustarte