Manual Todos Los Temas

Sumario │
1
UNIDAD
DIDÁCTICA
INTRODUCCIÓN AL
ANÁLISIS DE DATOS
OBJETIVOS DE LA UNIDAD
1. Introducción
2. Variables y datos. Tipos de datos
2.1. Clasificación de los datos según su representatividad
2.2. Clasificación de los datos según su naturaleza
2.3. Clasificación de los datos según la escala de medida
3. Descripción de datos mediante tablas

3.1. Tablas de frecuencias univariantes
3.2. Tablas de frecuencias bivariantes
3.2.1. Distribución conjunta
3.2.2. Distribución marginal y condicionada
3.2.3. Independencia
4. Descripción de datos mediante gráficos

4.1. Diagrama de barras
4.2. Diagrama de sectores o diagrama de tarta
4.3. Histograma y polígono de frecuencias
4.4. Diagrama de tallo-hojas
5. Introducción al análisis exploratorio de datos

5.1. Diagrama de dispersión
CONCEPTOS BÁSICOS A RETENER

ACTIVIDADES DE AUTOCOMPROBACIÓN
EJERCICIOS VOLUNTARIOS
REFERENCIAS BIBLIOGRÁFICAS
www.udima.es 9
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
FUNDAMENTOS DE ESTADÍSTICA Y PROBABILIDAD
 OBJETIVOS DE LA UNIDAD
La estadística descriptiva engloba una serie de técnicas de estructuración y de representación grá-
fica que permiten ordenar y presentar adecuadamente la información contenida en un conjunto de datos.
La extrapolación de esta información para convertirla en regla aplicable a todos los datos que puedan
obtenerse en circunstancias similares es el objetivo de la inferencia estadística. Entre las dos se sitúa el
cálculo de probabilidades como lenguaje formal que permitirá tal extrapolación.
Los objetivos de esta unidad didáctica son:
• Saber distinguir los distintos tipos de variables y datos según la escala de medida, natura-
leza y representatividad.
• Saber construir tablas de frecuencias univariantes y bivariantes.
• Construir distribuciones marginales y condicionadas a partir de una distribución conjunta
de frecuencias.
• Conocer el concepto de independencia de dos variables.
• Saber interpretar la información contenida en distintos tipos de representaciones gráficas.
• Conocer qué se entiende por análisis exploratorio de datos.
10 www.udima.es
Sumario │
A. Moreno Díaz Introducción al análisis de datos
1. INTRODUCCIÓN
La estadística descriptiva comprende una serie de méto-

dos y técnicas para:
• Recoger y organizar datos referidos a las suce-

sivas observaciones de ciertos caracteres de
una población descrita previamente.
• Esquematizar el comportamiento de las pobla-
ciones con relación a determinados caracteres
Sir John Sinclair, 1795. Sir. John Sinclair (1st
mediante tablas, gráficos o dibujos. Baronet, 1754-1835) introdujo en Inglaterra la
palabra «estadística» con el sentido de reco-
• Resumir la información obtenida de las suce- lectar y clasificar datos, si bien en Alemania
sivas observaciones en unos pocos datos la introdujo en 1749 el economista y profesor
representativos. Gottfried Achenwall.
Fue en su trabajo Statistical Accounts of Scot-
• Analizar la relación de dependencia entre land, publicado entre 1791 y 1792. Su obje-
tivo era medir la felicidad de la que gozaba la
caracteres de una misma población. nación y estudiar formas de mejorarla.
• Saber interpretar la información contenida en En 1790 envió cuestionarios estructurados a

900 ministros en todo el país. Tenían 160 pre-
distintos tipos de representaciones gráficas. guntas divididas en cuatro grandes bloques:
geografía, población, producción agrícola e
• Conocer alguna técnica de visualización para industrial y otros.
datos multivariantes.
2. VARIABLES Y DATOS. TIPOS DE DATOS
En estadística, la materia prima son los datos y el producto final es el conjunto de conclusio-
nes sobre el fenómeno de interés. Una variable es la característica de interés que se quiere estudiar y
que toma valores diferentes en cada individuo. En general, las variables se representarán por las letras
mayúsculas X, Y, Z, etc. Una variable puede tomar valores diferentes incluso en un mismo individuo si
se cambian las condiciones en las que se toma la medida. Un dato es el valor observado de una variable
en un momento dado en un individuo. Típicamente, un dato será un número (o una etiqueta en el caso
de variables nominales) con un contexto, siendo ese contexto el que hace que ese número sea informa-
tivo. Por ejemplo, una variable puede ser la temperatura en un aula. Un dato sería la temperatura en el aula
en este momento. Una variable podría ser las notas de la asignatura de Estadística durante este curso. Un
dato sería la nota particular de Luis García. Una variable sería el tiempo que uno tarda en conectarse a
Internet desde que se pincha con el ratón en el icono correspondiente. Un dato sería lo que uno tarda en
conectarse ahora. Una variable sería el peso. Mi peso sería un dato.
2.1. CLASIFICACIÓN DE LOS DATOS SEGÚN SU REPRESENTATIVIDAD
Según su representatividad, los datos pueden conformar toda la población o ser parte de una muestra.
La población es el conjunto de todos los individuos de los que se quiere estudiar una característica.
www.udima.es 11
│ Sumario
Estos individuos pueden ser objetos, personas o las repeticiones de un experimento concreto. Una
muestra es un subconjunto representativo de la población. Supóngase que se quiere estudiar la variable
X = Tiempo de conexión a Internet desde que pincho en el icono. Una vez que se ha definido un contexto,
las características del computador y de la conexión, la población sería el conjunto infinito de los datos
que se obtendría al realizar la conexión todas las veces posibles. Una muestra sería el tiempo concreto
de conexión en 50 ocasiones, en las condiciones en las que he definido este experimento. Si se quiere
estudiar la variable X = Altura de los estudiantes de informática en la Comunidad de Madrid, la pobla-
ción estaría formada por las alturas de todos los estudiantes de informática de la Comunidad de Madrid
y una muestra sería la estatura de, por ejemplo, un subconjunto de 600 alumnos tomados de todas las
universidades de la comunidad en las que pueden cursarse estos estudios.
2.2. CLASIFICACIÓN DE LOS DATOS SEGÚN SU NATURALEZA
Por su naturaleza, los datos pueden clasificarse en cualitativos y cuantitativos.
Los datos cuantitativos son números que expresan cantidades. Representan, por tanto, caracte-
res que pueden medirse. A su vez se dividen en continuos, si pueden tomar cualquier valor dentro de un
intervalo real, y discretos, si sus valores forman un conjunto numerable, finito o infinito. Generalmente,
estos últimos se corresponden con contar el número de veces que ocurre un suceso. Por ejemplo, si se
miden el peso, la altura, el voltaje, el tiempo, la longitud, la velocidad, etc., se obtendrán datos cuantita-
tivos continuos. Si se miden el número de hermanos, las páginas de un libro, los clientes, el número de
aprobados, etc., se obtendrán datos cuantitativos discretos.
Los datos cualitativos son meras etiquetas o códigos que representan atributos. No se refieren a
características cuantificables, sino a cualidades de los individuos. Por ejemplo, profesión, estado civil,
marca preferida de refresco, tipo de procesador, etc.
2.3. CLASIFICACIÓN DE LOS DATOS SEGÚN LA ESCALA DE MEDIDA
Se mide una propiedad en una persona o cosa cuando se le asigna un número para representar dicha
propiedad. Mediante este proceso se pasa de tener una muestra de personas o cosas a tener un conjunto
de números con cierta información. En estadística se diferenciarán cuatro escalas de medida con las que
obtener datos: nominal, ordinal, de intervalo y de razón.
Las medidas tomadas en una escala nominal clasifican las unidades en categorías, nada más. Carac-
terísticas como el color de pelo, sexo o nacionalidad se miden con este tipo de escala. Se podrían asig-
nar números a las categorías pero sería irrelevante qué números se usen, no tendrían ningún significado,
serían meras etiquetas. Tampoco tendría sentido realizar operaciones con estos números, solamente se
podrá decir si dos individuos u observaciones pertenecen o no a la misma categoría. Por ejemplo, se mide
en una escala nominal el estado civil de una persona, que podría ser: casado, soltero, viudo, divorciado.
Las marcas de los coches vendidos en un determinado mes, el tipo de carburante, etc. La escala nominal
mide, por tanto, caracteres cualitativos.
En las medidas tomadas en una escala ordinal, el orden de los números es importante, da algo más
de información. Por ejemplo, si se sabe que en la final de 4 × 200 metros libres de los Campeonatos
Europeos de Natación el resultado fue:
1.º Italia.
2.º Gran Bretaña.
12 www.udima.es
Sumario │
3.º Grecia
4.º Francia
5.º Rusia
6.º Polonia.
7.º Alemania.
El orden es importante, ya que Italia fue la mejor y Grecia fue mejor que Rusia. Lo único con sig-
nificado es el ranking, el orden de los resultados. No se puede decir que Grecia fue tres veces peor que
Italia o Rusia cinco veces peor que Italia, o que la diferencia de calidad entre los equipos de Italia y Gre-
cia es la misma que entre los de Rusia y Alemania. Solo se puede decir qué equipo es mejor que otro, sin
cuantificar esa relación. Se mide con una escala ordinal cuando se recogen valoraciones de satisfacción
de clientes: desde el 7 (muy satisfecho) hasta el 1 (nada satisfecho). También en las encuestas en las que
los alumnos valoran la actuación de un profesor: desde 5 (muy de acuerdo) hasta el 1 (nada de acuerdo).
La escala de Mohs, que recoge la dureza de los minerales, es también una escala ordinal. Esta escala va
desde el 10 [diamante (más duro)] hasta el 1 [talco (menos duro)].
Las escalas nominal y ordinal están asociadas con caracteres cualitativos. Estos caracteres represen-
tan cualidades de los individuos o cosas.
La escala de intervalo/razón es la más usada y familiar. Las medidas se toman en una escala de
la misma unidad, como la altura en centímetros, la temperatura en grados Celsius o el tiempo de reac-
ción en segundos. Las operaciones aritméticas con este tipo de medida sí tienen sentido. Por ejemplo, un
gusano de 4 centimetros, mide 2 centímetros más que uno de 2 centímetros.
Existe una diferencia más sutil entre las escalas de intervalo y de razón. El 0 en la escala de razón
tiene sentido, significa ausencia de la característica. Así, la longitud se mide en una escala de razón, ya
que se puede decir que el primer gusano mide el doble que el segundo, y 0 centímetros significa ausen-
cia de longitud. Sin embargo, la temperatura se mide en una escala de intervalo, ya que 0 grados no sig-
nifica ni frío ni calor, sino que es el punto en el que el agua pasa a estado sólido.
La escala de medida depende principalmente del proceso de medida, no de la propiedad que se

mide. Así, el resultado de una prueba de natación se puede medir teniendo en cuenta qué nadador llega
primero, segundo, tercero, etc. (escala ordinal) o bien cronometrar el tiempo que tardan en recorrer la
distancia requerida (escala de intervalo/razón).
Se distinguirán las medidas tomadas en una escala nominal, ordinal e intervalo/razón y se hablará
indistintamente de variables o de datos cuantitativos, cualitativos, nominales, ordinales o de intervalo/
razón.
3. DESCRIPCIÓN DE DATOS MEDIANTE TABLAS
3.1. TABLAS DE FRECUENCIAS UNIVARIANTES
Se necesita tener una idea general de cómo es el conjunto de datos para poder identificar patrones
que guíen posteriores análisis. Una primera forma de resumir la información es mediante una tabla que
diga qué valores diferentes se han observado y cuántos datos hay de cada valor (repeticiones). Esta tabla
recibe el nombre de tabla de frecuencias o tabla de distribución de frecuencias (tabla 1). En ocasiones,
www.udima.es 13
│ Sumario
también uno se referirá a ella como tabla estadística. Supóngase que se dispone de un total de n obser-
vaciones divididas en k valores o modalidades diferentes. Algunas definiciones serían:
• Se llama frecuencia absoluta del valor observado Ci (o modalidad Ci) al número total de
individuos que presentan dicho carácter. Se denota por ni.
• Se llama frecuencia relativa del valor observado Ci al cociente ƒi = ni /n.
Se verifica:
k k
n= Σ ni Σ ƒi = 1
i=1 i=1
Cuando los valores o modalidades observadas pueden ordenarse de menor a mayor, se define la
frecuencia acumulada (absoluta o relativa) del valor Ci a su frecuencia sumada a las frecuencias de las
modalidades anteriores. Se representará por Ni la frecuencia acumulada absoluta y Fi la relativa:
i i
Ni = Σ nj Fi = Σ ƒj
j=1 j=1
Tabla 1. Formato general de una tabla de frecuencias
Frecuencias Frecuencias
Valores absolutas relativas
absolutas relativas
acumuladas acumuladas
C1 ................................ n1 N1 = n1 ƒ1 = n1 /n F1 = ƒ1
C2 ................................ n2 N2 = n1 + n2 ƒ2 = n2 /n F2 = ƒ1 + ƒ2
… … … … …
Ci ................................ ni Ni = n1 + … + ni ƒi = ni /n Fi = ƒ1 + … + ƒi
… … … … …
Ck ................................ nk Nk = n ƒk = nk /n Fk = 1
Totales ..................... n 1
EJEMPLO 1
Se estudia la variable X = Número de cilindros de los coches de los trabajadores de una empresa. Es una varia-
ble cuantitativa medida en una escala de intervalo/razón. Se tiene una muestra de esta variable medida en
92 coches. Su tabla de frecuencias es la siguiente:
.../...
14 www.udima.es
Sumario │
.../...
Tabla 2
Número
ni Ni fi Fi
cilindros
3 ....................... 3 3 0,03 0,03

4 ....................... 49 52 0,53 0,56
5 ....................... 2 54 0,02 0,58
6 ....................... 31 85 0,34 0,92
8 ....................... 7 92 0,08 1
Totales ............ 92 1
Se observa que un 53 % de los coches tienen 4 cilindros y un 34 % tienen 6 cilindros, que son las modalida-
des más frecuentes. Solamente un 5 % tiene un número impar de cilindros (3 o 5), siendo estas modalidades
las menos frecuentes. Los coches con 8 cilindros representan un 8 % del total.
La tabla descrita anteriormente pierde su utilidad de resumir información de manera clara y concisa
cuando se tienen variables cuantitativas con muchos valores diferentes. Se tendrían tablas con muchas
filas con frecuencias muy pequeñas. Esto sucederá tanto con variables continuas como con variables
discretas que tengan muchos valores distintos. En este caso, se construye la tabla agrupando el rango
de valores en intervalos y se determina el número de datos del conjunto que se encuentra en cada uno
de ellos.
• Cada intervalo se llama clase. La clase i vendrá representada por su extremo superior e infe-
rior. La unión de todos los intervalos debe recubrir todos los valores de la variable, y las
clases no deben solaparse:
(Li-1, Li ]
• Se llama amplitud de la clase i, li, a la diferencia entre sus extremos. Se supondrá que esta
longitud es constante.
li = Li – Li-1
• Se denomina marca de clase al punto medio del intervalo y será el valor que represente a
todos los datos contenidos en ese intervalo. Se representará por x'i .
El número de clases en que se divide el rango de un conjunto de datos se representará por k. Este
número suele determinarse en función del tamaño muestral n. Algunos proponen el entero más próximo
a √ n. Otra regla conocida es la regla de Sturges, en la que el número de clases es el entero más próximo
a 1 + 3,3 log10 n. Generalmente, se utilizarán entre 5 y 20 clases de la misma longitud.
La tabla de frecuencias para este tipo de datos divididos en clases quedaría de la siguiente
forma:
www.udima.es 15
│ Sumario
Tabla 3. Modelo de tabla de frecuencias para datos agrupados
Clases Marca de clase
absolutas relativas
[L0 , L1) ....................... x'1 n1 ƒ1 = n1/n
[L1 , L2)........................ x'2 n2 ƒ2 = n2/n
… … … …
[Li-1 , Li ) ...................... x'i ni ƒi = ni /n
… … … …
[Lk-1 , Lk] ..................... x'k nk ƒk = nk /n
Totales ...................... n 1
EJEMPLO 2
Se estudia la variable X = Nota obtenida en la convocatoria de febrero en una asignatura determinada en una
muestra de 100 alumnos. Los datos originales serían: 6,33; 7,17; 2; 5,33; 8,33; etc. hasta 100 datos. Se conside-
ran 10 clases que surgen naturalmente al considerar este tipo de datos, formando la siguiente tabla:
Tabla 4
Clases Marca de clase
absolutas relativas
[0, 1) ........................ 0,5 2 0,02

[1, 2) ........................ 1,5 5 0,05
[2, 3) ........................ 2,5 10 0,1
[3, 4) ........................ 3,5 11 0,11
[4, 5) ........................ 4,5 18 0,18
[5, 6) ........................ 5,5 25 0,25
[6, 7) ........................ 6,5 15 0,15
[7, 8) ........................ 7,5 12 0,12
[8, 9) ........................ 8,5 2 0,02
[9, 10] ..................... 9,5 0 0
Totales .................. 100 1
Se ve que la clase con más observaciones es la (5, 6], con 25 datos que representan un 25 % del total. Un 58 %
de los alumnos tienen notas entre (4, 7]. Han aprobado un 54 % de los alumnos y ninguno ha obtenido cali-
ficaciones entre 9 y 10.
16 www.udima.es
Sumario │
3.2. TABLAS DE FRECUENCIAS BIVARIANTES
Cuando de cada individuo se observan dos o más variables, se obtiene un conjunto de datos multi-
variantes. En concreto, con dos características por individuo se tendría un conjunto de datos bivariantes.
Por ejemplo, se recogen las notas en matemáticas y literatura de una muestra de alumnos de bachille-
rato. Se tendría entonces un conjunto de datos de la forma (3, 6), (5, 7) etc., donde la primera nota es la
de matemáticas y la segunda la de literatura. De esta forma, el primer alumno de la muestra ha obtenido
un 3 en matemáticas y un 6 en literatura, y así sucesivamente.
El planteamiento general es el siguiente:
Sea una muestra de tamaño n descrita por las variables X e Y, o, de forma equivalente, sea un con-
junto de datos bivariantes (x1, y1), (x2, y2) … (xn, yn). Se designará por a1, a2,…, ak y por b1, b2,…, bp,
los k y p valores distintos que pueden tomar X e Y respectivamente. Si alguna de estas variables fuese
continua o tomara demasiados valores distintos, estos valores representarán las correspondientes marcas
de clase una vez que se hayan agrupado los datos en clases.
Existen varias formas de estudiar las repeticiones en una serie de datos bivariantes o bidimensionales:
• Considerando ambas medidas de forma simultánea (distribución conjunta).

• Considerando cada variable X e Y por separado (distribuciones marginales).
• Fijando el valor de una de las variables y estudiando los valores de la otra (distribuciones
condicionadas).
3.2.1. Distribución conjunta
Se representará por nij el número de elementos de la muestra que presentan el valor (ai, bj), es decir,
la frecuencia absoluta del valor (ai, bj). Si se representa esta distribución conjunta en una tabla de doble
entrada, cada dimensión de la tabla se corresponderá con una variable y cada celda de la tabla tendrá
el número de individuos que tengan los valores correspondientes según la fila y la columna en que se
encuentren. Este valor será la frecuencia conjunta.
Tabla 5. Distribución conjunta
X|Y b1 b2 … bj … bp
a1 n11 n12 … n1j … n1p
a2 n21 n22 … n2j … n2p
… … … … … … …
ai ni1 ni2 … nij … nip
… … … … … … …
ak nk1 nk2 … nkj … nkp
www.udima.es 17
│ Sumario
Esta tabla puede definirse también utilizando las frecuencias relativas. Las relaciones que se verifi-
can en estas tablas de doble entrada son las siguientes:
nij k p k p
ƒij =
n
Σ Σ nij = n Σ Σ ƒij = 1
i=1 i=1 i=1 i=1
Si ambas variables son cualitativas (nominales u ordinales), la tabla X|Y recibe el nombre de tabla
de contingencia.
EJEMPLO 3
En una muestra de 90 estudiantes, se recogen las variables X = Número de horas semanales de estudio de una asigna-
tura e Y = Calificación final en esa asignatura. La variable Y, en lugar de medirla en una escala de intervalo/razón,
se va a medir en una escala ordinal con las categorías o modalidades: suspenso (S), aprobado (A), notable (N)
y sobresaliente (B). El conjunto de datos original sería: (3, S), (4, N), (2, A) …, una por cada estudiante de la
muestra. Se puede disponer toda la información de la muestra en una tabla de distribución conjunta (absoluta):
Tabla 6
X|Y S A N B
1 19 0 0 0
2 10 16 1 0
3 6 13 4 0
4 5 3 3 1
5 0 3 2 4
3.2.2. Distribución marginal y condicionada
El estudio de la distribución marginal de cualquiera de las variables solamente tiene sentido par-
tiendo de las tablas de distribución conjunta descritas en el epígrafe anterior. A partir de ellas se quiere
estudiar qué ocurre si uno se olvida de una de las variables y se centra en la otra. La tabla siguiente ilus-
tra la distribución marginal para las dos variables X e Y.
Tabla 7. Distribución conjunta y marginales
X|Y b1 b2 … bj … bp Marginal X
p
a1 n11 n12 … n1j … n1p n1● = Σ n1j
j=1
p
a2 n21 n22 … n2j … n2p n2● = Σ n2j
j=1
.../...
18 www.udima.es
Sumario │
X|Y b1 b2 … bj … bp Marginal X
.../...
… … … … … … … …
p
ai ni1 ni2 … nij … nip ni● = Σ nij
j=1
… … … … … … … …
p
ak nk1 nk2 … nkj … nkp nk● = Σ nkj
j=1
k k k k k p
Marginal Y n●1 = Σ ni1 n●2 = Σ ni2 n●j = Σ nij n●p = Σ nip n= ΣΣ nij
i=1 i=1 i=1 i=1 i=1 i=1
El nombre de marginal viene de la localización de estas distribuciones en los márgenes de la tabla

de frecuencias conjuntas. Se utilizará la siguiente notación:
p
ni• = Σ nij Representa la frecuencia absoluta asociada al resultado ai.
j=1
p ni•
ƒi• = Σ ƒij =
n
Representa su frecuencia relativa.
j=1
k
n•j = Σ nij Representa la frecuencia absoluta del resultado bj.
i=1
k n•j
ƒ•j = Σ ƒij =
n
Representa su frecuencia relativa.
i=1
EJEMPLO 4
Se completa la tabla del ejemplo anterior añadiendo las distribuciones marginales:
Tabla 8
X|Y S A N B Marginal X
1 19 0 0 0 19
2 10 16 1 0 27
3 6 13 4 0 23
4 5 3 3 1 12
5 0 3 2 4 9
Marginal Y 40 35 10 5 90
.../...
www.udima.es 19
│ Sumario
.../...
Lo que significa que si se estudia por separado la variable X = Número de horas semanales de estudio de una
asignatura, en su distribución marginal de frecuencias se observa que de 90 estudiantes encuestados, 19 estu-
diaron 1 hora/semana, 27 estudiaron 2 horas/semana y así sucesivamente. Del mismo modo, si se estudia la
variable Y = Calificación final en esa asignatura, 40 alumnos suspendieron, 35 sacaron aprobado, etc.
Si se fija el valor de una de las variables, ¿cómo se distribuye la otra? Supóngase, por ejemplo, que en la tabla
anterior se fija X = 4, restringiendo el estudio a los alumnos que estudiaron 4 horas/semana. ¿Cuál es la dis-
tribución de la Y ahora? Se tendrían un total de 12 alumnos que estudiaron 4 horas/semana, de los cuales 5
suspendieron, 3 aprobaron, 3 sacaron notable y 1 sobresaliente.
A este proceso de fijar el valor de una de las variables se le denomina condicionar y equivale a res-
tringir el estudio descriptivo a un subconjunto de la muestra o población inicial. Así, la distribución de
X condicionada, por ejemplo, por el valor Y = bj tendría la siguiente estructura:
Tabla 9. Distribución de frecuencias para X|Y = bj
X|Y = bj
absolutas relativas
n1j
j
a1 n1j ƒ1 =
n•j
n2j
j
a2 n2j ƒ2 =
n•j
… …
nij
j
ai nij ƒi =
n•j
… …
nkj
j
ak nkj ƒk =
n•j
Totales ................... nkj 1
Se llamará frecuencia relativa de la modalidad ai de X condicionada a la modalidad bj de Y a:
nij
ƒi = ƒi | j =
j
n•j
Del mismo modo, la frecuencia relativa de la modalidad bj de Y condicionada a la modalidad ai de

X será:
nij
ƒj = ƒj|i =
i
ni•
20 www.udima.es
Sumario │
EJEMPLO 5
En el ejemplo de las horas de estudio y las notas, se construye la tabla de frecuencias para la distribución
de Y|X = 4:
Tabla 10
Y|X = 4
absolutas relativas
S ....................... 5 0,42
A ....................... 3 0,25
N ...................... 3 0,25
B ....................... 1 0,08
Totales ........... 12 1
Se verifica que:
Conjunta = Marginal × Condicionada
ƒij = ƒji ƒi• = ƒji ƒ•j
3.2.3. Independencia
Se dirá que el carácter o variable X es independiente del carácter Y si todas las distribuciones con-
dicionadas X |Y = bj son idénticas independientemente del valor de Y. Es decir, para cualquier i:
ƒij ƒi• para todo j, y no es función de j.
La independencia es siempre recíproca. Cuando X e Y sean independientes, se verificará que la dis-

tribución conjunta será el producto de las marginales, es decir:
ƒij = ƒi• ƒ•j para todo i, j.
En la tabla estadística, la independencia se traduce en:
ni• n•j
nij = para todo i, j.
n
4. DESCRIPCIÓN DE DATOS MEDIANTE GRÁFICOS
Además de las tablas ya descritas, las distribuciones de frecuencia pueden estructurarse en gráfi-
cos. Sin duda es la forma más eficaz y rápida, si se dispone de las herramientas adecuadas, de resumir la
información de un conjunto de datos. Hay muchas formas de realizar representaciones gráficas. En este
epígrafe se van a considerar las más habituales.
www.udima.es 21
│ Sumario
4.1. DIAGRAMA DE BARRAS
Es la representación gráfica de una tabla de frecuencias en la que los datos están sin agrupar. Con-
siste en dibujar un rectángulo por cada valor de la variable, con área proporcional a su frecuencia. Es
útil para variables cualitativas (nominales y ordinales) o cuantitativas discretas con pocos valores dife-
rentes. El diagrama de barras de la figura 1 muestra la distribución de las ventas de turismos por marcas
en España en mayo del 2006. También se muestra en la figura 2 el diagrama de barras correspondiente
a la tabla de frecuencias de los cilindros de los coches (ejemplo 1).
Figura 1. Diagrama de barras para las ventas de turismos
Otros
BMW
Fiat
Toyota
Volkswagen
Opel
Peugeot
Seat
Ford
Renault
Citröen
0 5.000 10.000 15.000 20.000 25.000 30.000 35.000 40.000
Figura 2. Diagrama de barras del ejemplo de los cilindros
50
40
30
20
10
0

3 4 5 6 8
1 2 3 4 5
22 www.udima.es
Sumario │
4.2. DIAGRAMA DE SECTORES O DIAGRAMA DE TARTA
Se utiliza también cuando la variable tiene pocos valores diferentes. Se construye dividiendo un cír-
culo en sectores con áreas proporcionales a la frecuencia de cada valor, de forma que la suma del área de
todos los sectores es el área del círculo. La figura 3 muestra dos diagramas de tarta o sectores.
Figura 3. Diagrama de tarta para los datos de cilindros y de ventas de coches
Cilindros Ventas de coches
7,61 % 3,26 % 3,14 % 3,07 %

33,70 % 53,26 % 4,56 % 22,97 %
7,49 % 10,97 %
8,64 %
9,14 %
2,17 %
9,63 % 10,14 % 10,24 %
3 5 8 Otros Seat Toyota

4 6 Citröen Peugeot Fiat
Renault Opel BMW
Ford Volkswagen
4.3. HISTOGRAMA Y POLÍGONO DE FRECUENCIAS
Un histograma es la representación gráfica de una tabla de frecuencias en las que los datos han sido
agrupados en intervalos o clases. Se utiliza pues para variables cuantitativas que toman muchos valores
diferentes. Cada rectángulo corresponde a una clase y su área es proporcional a la frecuencia de dicha clase.
En un histograma, uno debe fijarse en diversos aspectos:
• Concentraciones. Aquellos rectángulos de mayor altura en los que hay mayor proporción
de datos y en torno a los que se disponen otros de frecuencia inferior o decreciente.
• Huecos. Podrían ser un indicio de que se mezclan datos de poblaciones diferentes.
• Valores atípicos. En la unidad didáctica siguiente se verá una regla para detectarlos. En
general, un dato será atípico si se separa del patrón general de los datos, tanto si es muy
grande como muy pequeño.
• Asimetrías. Indican hacia dónde tienden a desplazarse los datos cuando uno se aleja de las
zonas de concentración. Por ejemplo, cuando la cola de la distribución de los datos apunta
hacia la derecha, se dice que la asimetría es positiva.
Es aconsejable hacer varios histogramas cambiando el número de clases para comprobar que las
características que se observan no se deben a un agrupamiento casual de los datos.
www.udima.es 23
│ Sumario
EJEMPLO 6
En la figura 4 se muestra el histograma correspondiente a la variable X = Precio medida en la muestra de los

92 coches del ejemplo 1. Se han dividido los valores para el precio en intervalos que van desde el 5 hasta el 65
(en miles de euros). En total 10 intervalos de longitud 6. Se observa que la clase más frecuente es la compren-
dida entre 11.000 y 17.000 euros y que, a partir de ahí, las frecuencias van disminuyendo conforme aumenta
el precio. Las clases entre 41.000 y 47.000 euros y entre 53.000 y 59.000 euros carecen de observaciones, lo
que podría ser indicio de que se están mezclando datos de dos poblaciones diferentes. Los datos más aleja-
dos, los que se encuentran en las clases entre 47.000 y 53.000 euros y 59.000 y 65.000 euros, no deben consi-
derarse como atípicos, ya que no se salen del patrón general de la distribución, que es una asimetría hacia
valores altos. La distribución presenta asimetría positiva.
Figura 4. Histograma de precios de coches
30
25
20
15
10
0

5 11 17 23 29 35 41 47 53 59 65
El polígono de frecuencias es la línea poligonal que resulta de unir los puntos medios de la parte superior
de los rectángulos en el histograma. En ocasiones, sobre todo con tamaños muestrales grandes, el polígono
de frecuencias puede ayudar a que nos hagamos una idea más clara de cómo son los datos. La figura 5 mues-
tra el polígono de frecuencias para los datos de los precios de los coches.
El polígono de frecuencias acumuladas se define a partir de la tabla de frecuencias para una variable con-
tinua cuyos valores han sido agrupados en clases. Es la línea que resulta de unir los pares de valores (Li+1,
F(Li+1)), es decir, los extremos superiores de las clases y la frecuencia acumulada hasta ese valor.
Figura 5. Polígono de frecuencias para los precios de coches
30
25
20
15
10
0

5 11 17 23 29 35 41 47 53 59 65
.../...
24 www.udima.es
Sumario │
.../...
A partir de la tabla 4 de frecuencias del ejemplo 2 se obtiene el polígono de frecuencias acumuladas de la

figura 6. En él se han representado los pares de datos (1; 0,02), (2; 0,07), (3; 0,17), (4; 0,28), etc.
Figura 6. Polígono de frecuencias acumuladas
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0

1 2 3 4 5 6 7 8 9 10
4.4. DIAGRAMA DE TALLO-HOJAS
Este tipo de diagrama fue descrito por Tukey y es utilizado para representar distribuciones de varia-
bles cuantitativas. Además, en la misma representación gráfica se visualizan los valores que se estudian.
Los pasos para construirlo se ilustran con un ejemplo:
EJEMPLO 7
Sea una muestra de la variable X = Peso en kilogramos en un grupo de 60 estudiantes: 54, 60, 62, 53, etc.
• Se redondean los datos a dos o tres cifras, expresando los valores con números enteros. Pueden expre-
sarse en otras unidades (dividiendo o multiplicando) para que al redondear puedan obtenerse cifras
de decenas o centenas repetidas. En el ejemplo, como se tienen datos de dos cifras, se dejan como
están.
• Se ordenan los datos de menor a mayor:
44, 45, 46, 46, 47, 48, 49, 50, 50, 50, 52, 52, 52, 52, 53, 53, 53, 54, 54, 54, 55, 55, 55, 55, 56, 56, 56, 57, 60, 60,
60, 60, 60, 61, 61, 62, 62, 63, 64, 64, 64, 65, 65, 65, 66, 67, 68, 68, 68, 70, 70, 70, 70, 71, 72, 72, 74, 75, 80, 93.
• Se separan por la izquierda uno o más dígitos de cada dato, según sea el número de filas que se quiera
obtener, normalmente no más de 12 o 15. Cada uno de estos valores se escribe uno debajo del otro,
trazando una línea a la derecha de los números escritos. Estas cifras constituyen el tallo. En el ejem-
plo, se tomará la primera cifra.
• Para cada dato original se busca el dígito del tronco y a la derecha de la línea se escriben las cifras que
habían quedado, cifras que forman las hojas.
.../...
www.udima.es 25
│ Sumario
.../...
Se obtendría el gráfico siguiente:
Figura 7. Gráfico de tallo-hojas
4 4 5 6 6 7 8 9
5 0 0 0 2 2 2 2 3 3 3 4 4 4 5 5 5 5 6 6 6 7
6 0 0 0 0 0 1 1 2 2 3 4 4 4 5 5 5 6 7 8 8 8
7 0 0 0 0 1 2 2 4 5
8 0
9 3
El resultado es, básicamente, un histograma tumbado con longitud de las clases igual a 10 en el que,
además de mostrarse la forma de la distribución, se pueden visualizar los datos.
EJEMPLO 8
Sea la variable X = Peso, recogida en la muestra de coches del ejemplo 1. La figura 8 muestra el diagrama
de tallo y hojas que se obtiene con un software estadístico convencional. Los datos originales eran en libras:
1695, 1845, 1965, 2045, 2055, 2240, 2270, 2285, 2295, 2297, etc. En la representación se observa que se han
redondeado los números perdiendo las cifras de centenas y unidades. Así, el dato 1695 se redondea a 1600
y se representan la primera cifra en el primer tronco como 1| y la hoja como 6. Los números que figuran en
la columna de la izquierda representan las frecuencias absolutas acumuladas hasta la clase que contiene la
mediana que se señala con un paréntesis. Este tipo de diagrama es muy útil para el cálculo de algunas medi-
das características que se estudiarán en la siguiente unidad didáctica.
Figura 8. Gráfico de tallo-hojas
Gráfico de tallo-hojas para peso: unidad = 100,0 1|2 representa 1200,0.
1 1|6
3 1|89
5 2|00
14 2|222223333
23 2|444444555
31 2|66667777
45 2|88888889999999
(7) 3|0000001
41 3|2222333
34 3|4444444555555
21 3|66667777777
10 3|89999
5 4|00011
26 www.udima.es
Sumario │
5. INTRODUCCIÓN AL ANÁLISIS EXPLORATORIO DE DATOS
Cuando todas las técnicas de tabulación y represen-

tación gráfica que se han visto se utilizan no solamente
con el propósito de describir un conjunto de datos, sino
como un medio para descubrir la información oculta en
los mismos, se inicia el análisis exploratorio de datos
(AED), introducido por Tukey en 1977. No es una técnica
paralela a las que se han visto, sino una aproximación o
filosofía para el análisis de datos que emplea una varie- John W. Tukey (1915-2000). Estudió artes
dad de técnicas para: y ciencias químicas en la Universidad Brown
y se doctoró en matemáticas en la Universi-
dad de Princeton.
• Profundizar lo más posible en el conocimiento Después de la guerra regresó a Princeton
de un conjunto de datos. dividiendo su tiempo entre la universidad y
los Laboratorios AT&T Bell.
• Descubrir estructuras y relaciones entre las Su interés estadístico fue amplio y variado y
sus contribuciones numerosas. Ideó el dia-
variables. grama de tallo-hojas y el diagrama de cajas.
• Detectar variables de interés en el estudio. Sentó las bases del análisis exploratorio de
datos en su libro del mismo nombre, publi-
• Detectar valores anómalos o atípicos. cado en 1977 por Addisson Wesley.
También acuñó términos relacionados con
• Comprobar hipótesis acerca de los datos. la Informática: bit (binary digit) y computer
software.
• Diseñar modelos que describan los datos.
En lugar de contrastar en un conjunto de datos una serie de hipótesis clásicas, predeterminadas

de antemano, el AED dice cómo se tienen que diseccionar los datos para que ellos mismos revelen
su estructura, patrones y comportamiento. Es decir, cómo buscar, qué buscar y cómo interpretar lo
encontrado.
Todo lo visto en esta unidad didáctica son técnicas utilizadas en AED. Véase otro tipo de gráfico
que se utiliza cuando se quieren estudiar dos o más variables medidas sobre el mismo individuo para
hacerse una idea de qué tipo de relación existe entre ellas, si existe alguna. Se estudiarán más técnicas
del AED en próximas unidades didácticas.
5.1. DIAGRAMA DE DISPERSIÓN
El diagrama de dispersión ayuda a ver la relación que puede existir entre dos variables X e Y. Es
simplemente una gráfica en la que en el eje horizontal se representan los valores de la primera variable y
en el eje vertical los valores de la segunda. Se tendrán tantos puntos como tamaño de la muestra.
EJEMPLO 9
En una muestra de 130 personas se recogen los valores de las variables X = Temperatura (en grados fahren-
heit) e Y = Pulsaciones por minuto. Se representan estos 130 pares de datos en un diagrama de dispersión en
la figura 9.
.../...
www.udima.es 27
│ Sumario
.../...
Aparentemente, la nube de puntos que resulta no permite ver ningún tipo de relación que destaque entre
estas dos variables. Sí se puede ver que hay un dato que parece situarse más a la derecha que el resto, se
podría estudiar para ver si es un dato atípico.
Figura 9. Diagrama de dispersión de temperatura frente a pulsaciones
97
87
77
67
57

96 97 98 99 100 101
EJEMPLO 10
Se tiene en un fichero información referente a las variables X = Millas por galón de gasolina en ciudad (el equi-
valente americano al kilómetro por litro de gasolina europeo), Y = Millas por galón en autopista y Z = Potencia
en la muestra de coches del ejemplo 1. Se puede hacer una matriz de diagramas de dispersión que represen-
tará este diagrama para todos los pares de variables del fichero. Este tipo de matriz puede verse en la figura
10. Se observa rápidamente que los valores de las variables X e Y están prácticamente dispuestos a lo largo
de una línea recta, sugiriendo un tipo de relación lineal entre ambas variables. Además, un valor alto en X
implica también un valor alto en Y (gráfico 1). Por otra parte, la relación entre las variables Z e Y no parece
ser lineal a juzgar por el perfil curvo que parecen dibujar los datos (gráfico 2).
Figura 10. Matriz de diagramas de dispersión
MPG City Gráfico 1
MPG Highway Gráfico 2
Horsepower
28 www.udima.es
Sumario │
 CONCEPTOS BÁSICOS A RETENER

• Concepto de variable y dato. Distintos tipos de datos.
• Tablas de frecuencia para una variable y para dos variables.
• Distribución conjunta, marginal y condicionada.
• Representaciones gráficas: diagrama de barras, diagrama de sectores, histograma y polígono
de frecuencias, diagrama de tallo-hojas. ¿Cuándo se utiliza cada uno de ellos?
• Diagrama de dispersión: ¿qué representa? ¿Qué se puede ver en él?
 ACTIVIDADES DE AUTOCOMPROBACIÓN
A partir del contenido de la presente unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del lector, como ejercicio general de repaso y asimilación de
la información básica proporcionada por el texto.
Enunciado 1
Se recogieron datos del tiempo en estaciones meteorológicas en 93 ciudades de un país durante 20

años. Los datos recogidos son 33.480 registros, uno por ciudad y mes. Cada registro contiene diversas
medidas relacionadas con el tiempo.
Clasifica cada una de las siguientes variables recogidas como cuantitativa discreta, cuantitativa con-
tinua, cualitativa nominal u ordinal.
a) Número de días lluviosos en un mes.

b) Estación del año: primavera, verano, otoño, invierno.
c) Temperatura máxima diaria en grados centígrados.
d) Número de rayos caídos en un mes.
Enunciado 2
Completar los datos que faltan en la siguiente tabla de frecuencias y comentar la distribución:
www.udima.es 29
│ Sumario
Tabla 11
Valores ni Ni fi Fi
10 ............................ 2 ‒ ‒ ‒
20 ............................ ‒ 12 ‒ ‒
30 ............................ 8 ‒ ‒ ‒
40 ............................ 6 ‒ ‒ ‒
50 ............................ ‒ 34 ‒ ‒
60 ............................ 4 ‒ ‒ ‒
70 ............................ 3 ‒ ‒ ‒
Totales ................... ‒ ‒ ‒ ‒
Enunciado 3
Dada la variable bidimensional representada por la siguiente tabla de distribución de frecuencias

conjunta (absolutas):
• Calcula las distribuciones marginales y la distribución condicionada de X |Y = 6 y de Y |X =

= [2, 4).
• ¿Son X e Y independientes?
Tabla 12
X|Y 1 4 6 8
[0, 2) ........................ 14 8 10 6
[2, 4) ........................ 7 4 5 3
[4, 6) ........................ 21 12 15 9
Enunciado 4
En una muestra de estudiantes universitarios se analiza la variable X = Condición de fumar y la

variable Y = Sexo. Se obtienen los siguientes resultados:
Tabla 13
X|Y Fuma No fuma Total
Chica ....................................................................... 5 17 22
Chico ....................................................................... 14 16 30
Total ........................................................................ 19 33 52
a) ¿Qué proporción de estudiantes fuma?

b) ¿Qué proporción de chicas no fuma?
30 www.udima.es
Sumario │
c) ¿Qué proporción de estudiantes son chicos y fumadores? ¿Qué son el resto de los estudiantes?
d) Calcula la distribución marginal de frecuencias relativas de la variable Y = Sexo.
e) Calcula la distribución marginal de frecuencias absolutas de la variable X = Condición de
fumar.
f) Calcula la distribución de frecuencias relativas de la variable Y = Sexo condicionada a que
son alumnos fumadores.
Enunciado 5
Construir un diagrama de tallo-hojas con los siguientes datos de la variable X = Nivel de ácido en
las lluvias, medido por su ph en 26 días.
4,57; 5,62; 4,12; 5,29; 4,64; 4,31; 4,30; 4,39; 4,45; 5,67; 4,39; 4,52; 4,26; 4,26; 4,40; 5,78; 4,73;
4;56; 5,08; 4,41; 4,12; 5,51; 4,82; 4,63; 4,29; 4,60.
www.udima.es 31
│ Sumario
Solución 1
La clasificación de las variables registradas es la siguiente:
a) Cuantitativa discreta, medida en una escala de intervalo/razón.

b) Variable cualitativa, medida en una escala ordinal.
c) Variable cuantitativa discreta, medida en una escala de intervalo/razón.
d) Cuantitativa discreta, medida en una escala de intervalo/razón.
Solución 2
Se presentan las cantidades que faltaban en la tabla 11:
Tabla 14
Valores ni Ni fi Fi
10 ............................ 2 2 0,05 0,05

20 ............................ 10 12 0,24 0,29
30 ............................ 8 20 0,19 0,48
40 ............................ 6 26 0,15 0,63
50 ............................ 8 34 0,19 0,82
60 ............................ 4 38 0,10 0,92
70 ............................ 3 41 0,08 1
Totales .................. 41 1
Solución 3
Distribuciones marginales para X e Y.
Tabla 15. Tabla solución del enunciado 3 (marginales)
X ni Y Ni
[0, 2) .............. 38 1 .................... 42

[2, 4) .............. 19 4 ....................... 24
[4, 6) ............. 57 6 ....................... 30
8 ....................... 18
Total ............. 114 Total ................ 114
32 www.udima.es
Sumario │
Distribuciones condicionadas:
Tabla 16. Tabla solución del enunciado 3 (condicionadas)
X|Y = 6 ni Y|X = [2, 4) ni
[0, 2) ................. 10 1 .................... 7

[2, 4) ................. 5 4 ....................... 4
[4, 6) ................. 15 6 ....................... 5
8 ....................... 3
Total ................ 30 Total ............... 19
Se estudia ahora la independencia de las variables X e Y. Es fácil comprobar que en toda la tabla de
frecuencias bivariantes se verifica:
ni• n•j
nij =
n
Tabla 17. Tabla completa para ver independencia
X|Y 1 4 6 8 Marginal X
[0, 2) 14 8 10 6 38
[2, 4) 7 4 5 3 19
[4, 6) 21 12 15 9 57
Marginal Y 42 24 30 18 114
Por ejemplo:
38 × 42 38 × 24 19 × 42 57 × 42 57 × 18
14 = ,8= , …, 7 = , …, 21 = , …, 9 =
114 114 114 114 114
Por tanto, las variables X e Y son independientes.
Solución 4
Se estudia la variable X = Condición de fumar y la variable Y = Sexo en una muestra de 52 estudiantes:
a) Fuman 19 de 52 estudiantes, un 36 %.

b) No fuman 17 chicas de un total de 22, un 77 %.
www.udima.es 33
│ Sumario
c) Son chicos y fumadores 14 estudiantes de 52, un 27 %. El resto de los estudiantes son chi-
cos no fumadores (30 %), chicas fumadoras (10 %) y chicas no fumadoras (33 %).
d) Distribución marginal de frecuencias relativas de la variable Y = Sexo:
Tabla 18. Tabla solución del enunciado 4 d)
Sexo fi
Chicas ................................................. 0,42

Chicos ................................................. 0,58
Total ................................................... 1
e) Distribución marginal de frecuencias absolutas de la variable X = Condición de fumar:
Tabla 19. Tabla solución del enunciado 4 e)
Condición de fumador ni
Fuma .................................................. 19
No fuma ............................................. 33
Total ................................................... 52
f) Distribución de frecuencias relativas de la variable Y = Sexo condicionada a que son alumnos

fumadores:
Tabla 20. Tabla solución del enunciado 4 f)
Sexo|Fumadores fi
Chicas ......................................... 0,26

Chicos ......................................... 0,74
Total ........................................... 1
Solución 5
Una posibilidad para representar el diagrama de tallo-hojas es redondear los datos perdiendo la cifra
de las centésimas: 4,5; 5,6; 4,1; 5,2; etc. La hoja será el segundo dígito y el tronco el primero. Esta forma
de redondear los datos daría lugar a un diagrama de solamente dos tallos:
4 11222333344455566678
5 025667
34 www.udima.es
Sumario │
Este diagrama es poco informativo. Una técnica para extender este tipo de diagramas es dividir cada
fila en dos o cinco partes iguales. Si se eligen cinco partes iguales, se utilizan las siguientes etiquetas:
• * para las hojas que llevan las cifras 0 y 1.

• T para las hojas que llevan las cifras 2 y 3 (two, three).
• F para las hojas que llevan las cifras 4 y 5 (four, five).
• S para las hojas que llevan las cifras 6 y 7 (six, seven).
• ● para las hojas que llevan las cifras 8 y 9.
El diagrama de tallo-hojas quedaría de la siguiente forma:
4* 11
T 2223333
F 444555
S 6667
● 8
5* 0
T 2
F 5
S 667
En él se aprecia con más claridad el perfil de la distribución.
 E
JERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el lector puede hacer, por su cuenta, una serie de ejercicios
voluntarios, como los siguientes:
1. Buscad en revistas o en internet un ejemplo de variable nominal, ordinal y cuantitativa dis-

creta y cuantitativa continua. Describid la fuente de obtención de los datos y el contexto de
estudio de la variable, consiguiendo un mínimo de 20 datos para cada una de ellas.
2. Describid, para dos de las cuatro variables del ejercicio anterior, representaciones gráficas
apropiadas dada la naturaleza de los datos y el contexto de estudio.
3. Interpretad y comentad la siguiente tabla de distribución de frecuencias obtenida con soft-
ware estadístico convencional:
www.udima.es 35
│ Sumario
Tabla 21
Frecuencia
Límite Límite Punto Frecuencia Frecuencia
Clase Frecuencia relativa
inferior superior medio relativa acumulada
acumulada
<=0 0,0 0 0,0000 0 0,0000

1 0,0 3,0 1,5 7 0,0700 7 0,0700
2 3,0 6,0 4,5 21 0,2100 28 0,2800
3 6,0 9,0 7,5 41 0,4100 69 0,6900
4 9,0 12,0 10,5 22 0,2200 91 0,9100
5 12,0 15,0 13,5 8 0,0800 99 0,9900
6 15,0 18,0 16,5 1 0,0100 100 1,0000
mayor de 18,0 0 0,0000 100 1,0000
4. Se han analizado 30 lotes de 50 unidades de un producto fabricado por una determinada

máquina, contando en cada lote el número de productos con fallos. Se tienen lotes con 0
fallos hasta lotes con un máximo de 25 fallos.
Comentad el siguiente histograma de los datos en el que se han considerado 5 clases o inter-
valos de longitud 5.
Figura 11
12
10
0

0 5 10 15 20 25
5. Asociad a cada diagrama de dispersión (véase figura 12) una frase que describa correcta-
mente lo que observamos:
a) Hay una relación positiva entre ambas variables, cuando la X aumenta también aumenta
la Y. Además, dicha relación podría aproximarse por una línea recta.
b) La nube de puntos no revela ninguna relación entre la X y la Y pero sí parece haber
un valor atípico para ambas variables.
c) Parece que existen dos grupos de valores claramente definidos. En cada grupo no
parece que exista relación entre las variables.
d) No parece existir relación entre las variable X e Y.
36 www.udima.es
Sumario │
Figura 12
13 53
9 52
5 51
1 50
‒ 3 49

0 2 4 6 8 27 29 31 33 35 37 39
60 29
57 26
54 23
51 20
48 17
45 14
42 11

14 17 20 23 26 29 32 21 25 29 33 37
 REFERENCIAS BIBLIOGRÁFICAS
Básica
CALOT, G.: Curso de estadística descriptiva, Paraninfo, 1988.

ESTEBAN GARCÍA, J. et al: Estadística descriptiva y nociones de probabilidad, Thomson Editores, 2005.
FERNÁNDEZ CUESTA, C. y FUENTES GARCÍA, F.: Curso de estadística descriptiva. Teoría y práctica, Editorial Ariel, 1995.
MOORE, D. S. y NOTZ, W. I.: Statistics: Concepts and Controversies, Freeman, 2006.
MURRAY SPIEGEL: Estadística, McGraw-Hill, 2002.
RÍOS, S.: Métodos estadísticos, Ediciones del Castillo, 1987.
TOMEO PERUCHA, V. y UÑA JUÁREZ, I.: Lecciones de estadística descriptiva, Thomson editores, 2003.
En la red
Material dinámico e interactivo para aprender estadística: http://cast.massey.ac.nz/core/index.html?collection=Public

NIST/SEMATECH e-Handbook of Statistical Methods: http://www.itl.nist.gov/div898/handbook/index
Rice Virtual Lab in Statistics. El Analysis Lab permite construir de manera interactiva distintos tipos de gráficos: http://onli-
nestatbook.com/rvls.html
www.udima.es 37
│ Sumario
Avanzada
MONTGOMERY, D. C. y RUNGER, G. C.: Applied Statistics and Probability for Engineers, 3.ª ed., New York: John Wiley
and Sons, 2003.
TUKEY, J. W.: Exploratory Data Analysis, Addisson Wesley, 1977
38 www.udima.es
Sumario │
2
UNIDAD
DIDÁCTICA MEDIDAS
CARACTERÍSTICAS DE
UNA DISTRIBUCIÓN
DE FRECUENCIAS
1. Introducción
2. Medidas de posición
2.1. Media aritmética
2.1.1. Propiedades de la media
2.2. Mediana
2.2.1. Mediana para variables discretas
2.2.2. Mediana para variables continuas
2.2.3. Propiedad importante de la mediana
2.3. Comparación entre media y mediana
2.4. Moda
3. Medidas de dispersión
3.1. Varianza y desviación típica
3.1.1. Propiedades de la varianza
3.2. Cuantiles
3.2.1. Cuartiles
3.2.2. Percentiles
3.3. Relación entre características de tendencia central y de dispersión. Valores atípicos
4. Medidas de forma
4.1. Momentos
4.1.1. Momento de orden r centrado en el origen
4.1.2. Momento de orden r centrado en la media
4.2. Medidas de asimetría
4.3. Medidas de apuntamiento o curtosis
www.udima.es 39
│ Sumario
5. Medidas de relación
5.1. Momentos de una variable estadística bidimensional
5.1.1. Momento de orden (r, h) centrado en el origen
5.1.2. Momento de orden (r, h) centrado en la media
5.2. Covarianza y coeficiente de correlación lineal
6. Representaciones gráficas. Diagrama de caja

7. Transformaciones de datos
7.1. Transformaciones de datos con asimetría positiva
7.2. Transformaciones de datos con asimetría negativa

ACTIVIDADES DE REPASO
40 www.udima.es
Sumario │
A. Moreno Díaz Medidas características de una distribución de frecuencias
En esta unidad didáctica se continúa con el propósito general de extraer y sintetizar toda la informa-
ción contenida en un conjunto de datos con el fin de describir sus características más relevantes. Ahora
se buscan cantidades que resuman alguna característica de los datos en un solo número, por eso se lla-
man medidas características. Los objetivos de esta unidad didáctica son:
• Describir una distribución mediante sus medidas numéricas sintetizadoras e interpretarlas.

• Saber construir e interpretar un diagrama de caja, detectando datos atípicos.
• Regularizar una distribución mediante transformaciones.
www.udima.es 41
│ Sumario
1. INTRODUCCIÓN
Cuando se tiene un conjunto de datos homogéneo de una variable cuantitativa es conveniente comple-
tar la información proporcionada por las tablas de frecuencias y los gráficos con ciertas medidas resumen.
Ya en las representaciones gráficas pueden verse cuáles son los valores que concentran mayor frecuencia
y cómo se dispersan o colocan el resto de valores respecto de ellos. Esto origina un tipo de información
específica recogida en estas medidas resumen. Estas medidas características pueden ser: medidas de posi-
ción o tendencia central, medidas de dispersión, medidas o características de forma y medidas de relación.
2. MEDIDAS DE POSICIÓN
También se denominan medidas de tendencia central y tienen como objetivo indicar el valor alre-
dedor del cual tienden a concentrarse los datos. Alrededor del valor indicado por la medida de centrali-
zación, los datos pueden disponerse de múltiples formas.
2.1. MEDIA ARITMÉTICA
Sea X la variable de interés y sean x1, x2,..., xn las n observaciones que se tienen de dicha variable.
Se define la media aritmética o simplemente media como:
n
Σ xi
i=1
–x =
n
En el caso de que la variable sea discreta y existan valores repetidos, la media puede calcularse
sumando cada valor observado por su frecuencia relativa de aparición. Si se denota por x1, x2,..., xk cada
uno de los valores distintos de la variable X, por n1, n2,..., nk , el número de veces que se ha observado cada
uno de estos valores y por ƒ1, …, ƒk , la frecuencia relativa de aparición, la media se puede calcular como:
k
Σ xi ni
i=1
–x =
Σ xi ƒi =
n
i=1
Si los datos están agrupados en clases, la media se calcula suponiendo que todos los datos que apa-
recen en una clase son idénticos al centro de la clase, es decir, a la marca de clase x'i. Si la frecuencia
relativa de esa clase es ƒi, la media se define como:
k
Σ x'i ni
i=1
–x =
Σ x'i ƒi =
n
i=1
En este caso, se tiene una media aproximada.
42 www.udima.es
Sumario │
EJEMPLO 1
Se da la siguiente tabla de frecuencias para una variable X continua agrupada en cinco intervalos o clases.
Tabla 1
Marca Frecuencia Frecuencia

Clase Fi
de clase absoluta ni relativa fi
[20, 25) .................... 22,5 39 0,3 0,3

[25, 30) .................... 27,5 52 0,4 0,7
[30, 35) .................... 32,5 26 0,2 0,9
[35, 40) .................... 37,5 6 0,046 0,946
[40, 45) .................... 42,5 7 0,054 1
Total ...................... 130 1
Si se utilizan las frecuencias absolutas y el total de datos, la media se calcula como:
22,5 × 39 + 27,5 × 52 + 32,5 × 26 + 37,5 × 6 + 42,5 × 7

x‒ = = 28,27
130
Si se utilizan las frecuencias relativas:
x‒ = 22,5 × 0,3 + 27,5 × 0,4 + 32,5 × 0,2 + 37,5 × 0,046 + 42,5 × 0,054 = 28,27
La media puede interpretarse como el centro de gravedad de los datos. Supóngase que un histograma fuese
un objeto con masa. Entonces, la media aritmética estará localizada en aquel punto del eje X que deja al his-
tograma en equilibrio (figura 1).
Figura 1. La media como centro de gravedad de los datos
Distribución simétrica Media
2.1.1. Propiedades de la media
Las propiedades de la media son las siguientes:
www.udima.es 43
│ Sumario
• La media aritmética equilibra las desviaciones positivas y negativas de los datos respecto
de su valor, es decir, la media de las desviaciones a la media es 0:
n
Σ (xi – –x )
k
i=1
n
=0 y Σ ƒi (xi – –x ) = 0
i=1
Por tanto, la media actúa como centro de gravedad de los datos, como ya se ha dicho.
• La media es el mínimo de la función:
k
g (a) = Σ ƒi (xi – a)2
i=1
• Linealidad de la media: si X es una variable estadística y a y b, dos números reales, se tiene:
aX + b = aX + b
2.2. MEDIANA
La mediana de un conjunto de observaciones es el valor tal que, cuando las observaciones están
ordenadas de menor a mayor, deja a ambos lados el mismo número de datos. Es aquel valor que divide
en dos partes iguales la distribución de frecuencias.
Para datos sin agrupar, una vez que están ordenados, la mediana es el dato central si el número de
datos es impar. Es el dato que ocupa la posición:
n+1
2
Si el número de datos es par, la mediana es la media de los dos valores que ocupan la posición cen-
tral, es decir, la media de los valores que ocupan las posiciones:
n n
y +1
2 2
EJEMPLO 2
Se tienen los datos ordenados x1, x2, x3, x4, x5. La mediana es el dato x3 que ocupa la posición central. Si se
tienen los datos x1, x2, x3, x4, la mediana será:
x2 + x3
2
.../...
44 www.udima.es
Sumario │
.../...
De forma más general se puede decir que, en función del polígono de frecuencias relativas acumuladas, la
mediana es la solución de la ecuación:
1
F (x) =
2
Aunque esta raíz puede no existir o no ser única.
2.2.1. Mediana para variables discretas
Se ilustra con un ejemplo:
EJEMPLO 3
Sea X = Número de piezas defectuosas en un circuito. La tabla 2 recoge el número de circuitos con un determi-
nado número de piezas defectuosas para un total de 100 circuitos.
Tabla 2
X ni Ni Fi
1 ............................ 2 2 0,02
2 ............................ 9 11 0,11
3 ............................ 14 25 0,25
4 ............................ 20 45 0,45
5 ............................ 18 63 0,63
6 ............................ 15 78 0,78
7 ............................ 9 87 0,87
8 ............................ 6 93 0,93
9 ............................ 4 97 0,97
10 ............................ 2 99 0,99
11 ............................ 1 100 1
Total ....................... 100
Se toma como mediana aquel xi cuya frecuencia absoluta acumulada sea igual o inmediatamente superior
a n/2. En este caso, Me = 5.
2.2.2. Mediana para variables continuas
En este caso, la ecuación:

1
F (x) =
2
www.udima.es 45
│ Sumario
tiene una única solución que, en general, aparece entre dos extremos de clase. La clase i, con extremos
Li y Li+1, se llama clase mediana (o intervalo mediano) si:
1
F (Li) < < F (Li+1)
2
Para determinar la mediana hay que interpolar linealmente en el polígono de frecuencias relativas
acumuladas en la clase o intervalo mediano. Por tanto, la clase mediana será aquella con frecuencia acu-
mulada igual o inmediatamente superior a:
n
2
Siendo:
Ni = La frecuencia absoluta acumulada del intervalo anterior al mediano.

ni+1 = La frecuencia absoluta del intervalo mediano.
Ci+1 = La amplitud del intervalo mediano.
Se tiene:
n
– Ni
2
Me = L i + Ci+1
ni+1
EJEMPLO 4
Se supone la distribución de salarios en euros del personal de una determinada factoría dada en la tabla 3.
Tabla 3
Clase ni Ni Fi
[0, 750) .................... 6000 6000 0,48

[750, 1000) .............. 3500 9500 0,76
[1000, 1250) ............ 2800 12300 1
Total ....................... 12300
Como el tamaño de la muestra es:
n
n = 12300, = 6150
2
Por lo que el intervalo mediano es [750, 1000). Interpolando en el polígono de frecuencias relativas acumu-
ladas o, de forma equivalente, usando la fórmula anterior, se obtiene Me = 760,71.
La mediana es una medida robusta frente a valores atípicos y es idónea para tratar la información de un
conjunto de datos ordinales.
46 www.udima.es
Sumario │
2.2.3. Propiedad importante de la mediana
La mediana es el mínimo de la función:
k
g (a) = Σ ƒi | xi – a|
i=1
2.3. COMPARACIÓN ENTRE MEDIA Y MEDIANA
Como la media utiliza todos los datos para su cálculo, su valor puede verse afectado de manera des-
proporcionada por los valores extremos, si existe alguno. Es muy sensible a observaciones atípicas, y un
error en la toma de datos o un valor anormal puede modificarla totalmente. Esta sensibilidad ante datos
atípicos la presentan todas las medidas características basadas en sumas, pues un término muy grande
en relación a los demás dominará la suma total. La mediana tiene solamente en cuenta el orden de los
datos y no su magnitud. Por tanto, no se ve alterada si una pequeña parte de las observaciones contiene
errores de medida o de transcripción. Así, si un conjunto de datos contiene algunos valores extremos, la
mediana puede ser una característica más fiable que la media, aunque siempre es recomendable calcular
ambas medidas. Diferirán mucho cuando la distribución de los datos sea muy asimétrica, lo que puede
sugerir heterogeneidad en los datos. En distribuciones asimétricas, la media está más desplazada hacia
la cola de la distribución que la mediana.
2.4. MODA
La moda (Mo) es el valor que tiene frecuencia máxima en el conjunto de datos (es el más repetido,
el más frecuente). Este concepto de valor más repetido solo tendrá sentido en un contexto discreto. En
un contexto continuo, con datos agrupados en intervalos o clases, se hablará de intervalo o clase modal
y de marca modal.
EJEMPLO 5
• La moda de los datos 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 es 9.

• La moda del conjunto de datos 2, 5, 7, 9, 10, 11, 12 no existe.
• Las modas de los datos 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 son 4 y 7.
Si se representa la distribución de frecuencias mediante un diagrama de barras o un histograma, la moda

se identifica con el máximo de una función. La figura 2 muestra el histograma para la variable X = Peso de
una muestra de 93 coches. La clase modal es la de altura máxima, la [2500, 3000). En la tabla de frecuencias del
ejemplo 1, el intervalo o clase modal es [25, 30), con una frecuencia absoluta máxima de 52. En la tabla del
ejemplo 3, el valor más repetido o moda es el 4, con una frecuencia absoluta máxima de 20. A veces, la moda
no se identifica con un máximo global sino con uno local. De este modo se habla de distribuciones multi-
modales. Por ejemplo, en el histograma de la figura 2 también puede hablarse de dos concentraciones, la ya
mencionada y la del intervalo [3500, 4000). En este caso se hablará de distribución bimodal. La multimoda-
lidad puede deberse a la composición de poblaciones o a valores atípicos. De ahora en adelante se conside-
rarán solamente distribuciones o poblaciones unimodales.
.../...
www.udima.es 47
│ Sumario
.../...
Figura 2. Histograma bimodal
25
20
15
10
0

1500 2000 2500 3000 3500 4000 4500
3. MEDIDAS DE DISPERSIÓN
La dispersión media de los datos respecto de una medida de tendencia central define las caracte-
rísticas de dispersión. Esta clase de características está relacionada con el concepto de distancia, que ha
aparecido en las propiedades de media y mediana. Dependiendo de la distancia que se utilice, se tienen
diferentes medidas de dispersión.
Las medidas de tendencia central ya vistas no proporcionan ninguna idea de la variabilidad de las
observaciones en el conjunto. Por ejemplo, si se tienen los siguientes conjuntos de cuatro datos:
0, 25, 75, 100 y 48, 49, 51, 52
En ambos casos, –x = Me = 50 y, sin embargo, los dos conjuntos de datos son muy distintos, pues en
el primer caso, las observaciones están mucho más dispersas (espaciadas) que en el segundo. Las medidas
de dispersión van a mostrar cómo se separan, en promedio, los datos respecto de sus valores centrales.
3.1. VARIANZA Y DESVIACIÓN TÍPICA
La varianza se define como la distancia euclidea media entre los valores del conjunto de datos y su
media aritmética. Para datos sin agrupar, se tendrá:
n
Σ (xi – –x )2
i=1
σ̂ 2 =
n
Para datos distintos x1,. .., xk con frecuencias relativas ƒ1, ..., ƒk, se tiene:
k
σ̂ 2 = Σ ƒi (xi – –x )2
i=1
48 www.udima.es
Sumario │
Para datos agrupados en k clases o modalidades, siendo x'i la marca de clase:
k
σ̂ 2 = Σ ƒi (x'i – –x )2
i=1
La unidad de medida de la varianza es la de la media al cuadrado. Por ello, suele utilizarse la raíz
cuadrada positiva de la varianza que se conoce con el nombre de desviación típica:
n
Σ (xi – –x )2
i=1
σ̂ =
n
La desviación típica sigue siendo una medida con dimensión que, por tanto, no servirá cuando se
quiera comparar distribuciones o conjuntos de datos en función de su dispersión. Para ello se define el
coeficiente de variación:
σ̂
CV =
| –x |
EJEMPLO 6
Se recoge la variable X = Precio en una muestra de zumos en un supermercado. Se obtiene un precio medio
de 0,25 euros, con una desviación típica de 0,01 euros. Por otro lado, en una muestra de pisos en venta, el
precio medio resulta ser 300.000 euros, con una desviación típica de 6.000 euros. ¿Cuál de las dos variables
está más dispersa, el precio de los zumos o el de los pisos?
El coeficiente de variación para el precio de los zumos es 0,04 y para el precio de los pisos 0,02. Por lo tanto,
el precio de los pisos está menos disperso.
3.1.1. Propiedades de la varianza
Si X es una variable estadística, y a y b, dos números reales, se tiene:
Var (aX + b) = a2 Var (X)
3.2. CUANTILES
Son medidas de dispersión basadas en el orden. Los cuantiles dividen la serie ordenada de datos
en partes iguales: la mediana en dos partes iguales, los cuartiles en cuatro partes iguales, los deciles en
diez partes iguales y los percentiles en cien partes iguales. El percentil es el concepto más amplio, pues
ofrece la partición más fina de la serie ordenada.
www.udima.es 49
│ Sumario
3.2.1. Cuartiles
Son tres valores Q1, Q2 y Q3, que dividen la serie ordenada de datos en cuatro partes iguales. A la
izquierda de Q1 queda el 25 % de las observaciones, a la izquierda de Q2 el 50 %, por tanto Q2 = Me, y a
la izquierda de Q3 queda el 75% de las observaciones.
• Si se tienen datos explícitos x1, x2, …, xn y x(1) ≤ x(2) ≤ … ≤ x(n) representa la serie ordenada
de menor a mayor, el cuartil de orden i, i = 1, 2, 3 se representa por Qi y es el valor:
{
i (n + 1)
x(j) si j=
4
Qi =
x(j) + x(j+1) i (n + 1)
si j< <j+1
2 4
• Cuando los datos están agrupados y x1, x2, …, xk son valores distintos, modalidades o marcas
de clase con sus correspondientes frecuencias acumuladas F1, F2, … Fk se define el cuantil
Qi , i = 1, 2, 3 como la solución a la ecuación funcional:
i
F (x) = , i = 1, 2, 3
4
A la diferencia Q3 – Q1 se la denomina rango intercuartílico. Constituye una medida de dispersión

parecida a la desviación típica pero en el contexto de la serie de datos ordenada.
3.2.2. Percentiles
Son 99 valores que dividen la serie ordenada de datos en 100 partes iguales.
• Si se tienen datos explícitos x1, x2, …, xn y x(1) ≤ x(2) ≤ … ≤ x(n) representa la serie ordenada
de menor a mayor, el percentil de orden i, i = 1, …, 99 se representa por Pi y es el valor:
{
i (n + 1)
x(j) si j=
100
Pi =
x(j) + x(j+1) i (n + 1)
si j< <j+1
2 100
• Cuando los datos están agrupados y x1, x2, …, xk son valores distintos, modalidades o mar-
cas de clase con sus correspondientes frecuencias acumuladas F1, F2, … Fk , se define el
percentil Pi , i = 1, …, 99 como la solución a la ecuación funcional:
i
F (x) = , i = 1, …, 99
100
50 www.udima.es
Sumario │
Cuando se tienen datos implícitos, agrupados en intervalos, se debe utilizar el polígono de frecuen-
cias acumuladas para encontrar el cuantil deseado, interpolando en el intervalo correspondiente [Li, Li+1).
Esto es equivalente a usar la siguiente fórmula:
n
r – Ni
k
C r = Li + Ci+1
k
ni+1
Siendo r el orden del cuantil y k, las partes distintas en que dicho cuantil divide la distribución.
Así, en los cuartiles, k = 4 y r = 1, 2, 3. En los deciles, k = 10 y r = 1, …, 9. En los percentiles, k = 100 y
r = 1, …, 99. Si [Li, Li+1) es el intervalo en el que la frecuencia acumulada contiene el valor:
n
r
k
Entonces Ni es la frecuencia absoluta acumulada del intervalo inmediatamente anterior, ni+1 es la

frecuencia absoluta del intervalo en cuestión y Ci+1, su amplitud.
Se verifican las siguientes relaciones:
C 1 = Me = Q2 = D5 = P50
2
C 1 = Q1 = P25
4
C 3 = Q3 = P75
4
EJEMPLO 7
Se tiene la siguiente tabla de distribución de salarios (en miles de euros) para los empleados de una empresa.
Se pide calcular el salario medio, mediana, moda, Q1, Q3, D4 y P88.
Se tienen datos implícitos agrupados en intervalos. La media se calcula como:
22,5 × 100 + 27,5 × 150 + 32,5 × 200 + 37,5 × 180 + 42,5 × 41

x‒ = = 31,844
671
Tabla 4
Clase Marca ni Ni Fi
[20, 25) .................... 22,5 100 100 0,149

[25, 30) .................... 27,5 150 250 0,373
[30, 35) .................... 32,5 200 450 0,671
[35, 40) .................... 37,5 180 630 0,939
[40, 45) .................... 42,5 41 671 1
Total ....................... 671
.../...
www.udima.es 51
│ Sumario
.../...
El salario medio es 31.844,26 euros. El intervalo mediano es [30, 35), ya que es el que tiene frecuencia rela-
tiva acumulada inmediatamente superior a 0,5. Para calcular la mediana exactamente se interpola en el polí-
gono de frecuencias acumuladas que se muestra en la figura 3. Se obtiene Me = 32,13, es decir, 32.130 euros.
Para calcular Q1, se interpola en el intervalo o clase que contiene la frecuencia acumulada:
n 671
= = 167,75
4 4
que es el [25, 30). Se obtiene Q1 = 27,25. Se puede usar también la fórmula general de cuantiles, con r = 1,
k = 4, Li = 25, Ni = 100, ni+1 = 150 y Ci+1 = 5.
Para calcular Q3, se interpola en el intervalo [35, 40) que es el que contiene la frecuencia absoluta acumulada de:
n 671
r =3 = 503,25
k 4
Se obtiene Q3 = 36,479.
Figura 3. Polígono de frecuencias relativas acumuladas
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
20 25 30 35 40 45
Para calcular D4, como:
n 671
r =4 = 268,4
k 100
Se interpola en el intervalo [30, 35). Se obtiene D4 = 30,46.

Para calcular P88, como:
n 671
r = 88 = 590,48
k 100
Se interpola en el intervalo [35, 40). Se obtiene P88 = 38,9.
3.3. R
ELACIÓN ENTRE CARACTERÍSTICAS DE TENDENCIA CENTRAL Y DE DIS-
PERSIÓN. VALORES ATÍPICOS
La información proporcionada por una característica de tendencia central puede ser engañosa si no
viene acompañada de una medida de dispersión. Si se utiliza la desigualdad de Tchebychev, se tiene la
siguiente información:
52 www.udima.es
Sumario │
• El 75 % de los datos se encuentran entre la media y dos desviaciones típicas, es decir, en el
intervalo (x– – 2σ̂, –x + 2σ̂).
• El 89 % de los datos se encuentran entre la media y tres desviaciones típicas, es decir, en el
intervalo (x– – 3σ̂, –x + 3σ̂).
1
• En general, en el intervalo (x– – kσ̂, –x + kσ̂) se encuentra, como mínimo el: 100 � 1 – � %
de las observaciones. k2
A partir de estas relaciones se establecen criterios para definir datos atípicos basados en la media y
en la desviación típica. Un valor atípico es una observación que es numéricamente distante del resto de
los datos. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente
del resto de la muestra:
• Criterio relajado (basado en media y desviación típica). Se dirá que un valor x* de un

conjunto de datos es:
− Un valor atípico por defecto si x* < –x – 2σ̂.

− Un valor atípico por exceso si x* > –x + 2σ̂.
• Criterio fuerte (basado en media y desviación típica). Se dirá que un valor x* de un con-
junto de datos es:
− Un valor atípico por defecto si x* < –x – 3σ̂.

− Un valor atípico por exceso si x* > –x + 3σ̂.
• Criterio basado en el rango intercuartílico.

Se dirá que un valor x* de un conjunto de datos
es:
− Un valor atípico por defecto si x* < Q1 –

– 1,5 × (Q3 – Q1).
− Un valor atípico por exceso si x* > Q1 +
+ 1,5 × (Q3 – Q1).
John Graunt (1620-1674). Puso las bases
de la estadística científica, realizando un tra-
bajo a partir de las tablas de mortalidad de la
ciudad de Londres.
4. MEDIDAS DE FORMA En 1662 publica sus Observations, basadas
en dichas tablas. A partir de las observacio-
nes recogidas durante varios años Graunt
Estas medidas valoran de forma cuantitativa cier- va emitiendo su opinión sobre diversos as-
tos aspectos en la forma o perfil de la distribución de pectos sociales y creencias populares. Todo
para, según sus palabras, conocer la cifra
frecuencias. de población, el número de varones y hem-
bras, la proporción que muere de cada causa
general y particular, la razón por la que los
entierros superan a los bautizos en Londres
4.1. MOMENTOS cuando en el campo ocurre lo contrario, etc.
El trabajo impresionó tanto a Carlos III que
propuso a Graunt como socio fundador de la
Los momentos son una generalización de la media recientemente creada Royal Society. La obra
(momentos centrados respecto del origen) y de la varianza alcanzó varias ediciones y Graunt nunca fue
consciente de la importancia que tuvo.
(momentos centrados respecto de la media).
www.udima.es 53
│ Sumario
4.1.1. Momento de orden r centrado en el origen
• Si x1, …, xn es un conjunto de datos, se define el momento de orden r respecto del origen

como:
n
Σ x ir
i=1
ar =
n
• Para datos tabulados, con distribución de frecuencias asociada, se define el momento de

orden r respecto del origen como:
k
k
Σ ni x ir
i=1
ar = Σ ƒi x ir =
i=1 n
Por ejemplo, a1 = –x .
4.1.2. Momento de orden r centrado en la media
• Si x1, …, xn es un conjunto de datos, se define el momento de orden r respecto de la media

como:
n
Σ (xi – –x ) r
i=1
mr =
n
• Para datos tabulados, con distribución de frecuencias asociada, se define el momento de

orden r respecto de la media como:
k
k
Σ ni (x i – –x ) r
i=1
mr = Σ ƒi (x i – –x )r =
i=1 n
Se verifica que m1 = 0 y m2 = σ̂ 2. Además, m2 = a2 – a21. Se llega así a una fórmula más cómoda para
calcular la varianza cuando se tienen todos los datos:
n
Σ xi2 – nx– 2
i=1
σ̂ 2 =
n
4.2. MEDIDAS DE ASIMETRÍA
Cuando al trazar una vertical por la media en el histograma de una variable, esta vertical se trans-
forma en eje de simetría, decimos que la distribución es simétrica. En caso contrario, se dirá que la dis-
tribución es asimétrica. En la figura 4 se muestran tres distribuciones: la primera, más a la izquierda,
presenta asimetría positiva, la central es simétrica y la de la derecha presenta asimetría negativa.
54 www.udima.es
Sumario │
Figura 4. Distribución simétrica y asimétricas
0,4
0,3
0,2
0,1
0
– 5 – 3 – 1 1 3 5
Para cuantificar la asimetría se utiliza el coeficiente de Fisher:
m3 Σ (x i – –x )3
i=1
γ1 = =
σ̂ 3 nσ̂ 3
Se trata de un coeficiente adimensional. Se utilizará la siguiente regla:
• Si γ1 = 0, la distribución es simétrica. Además, si la distribución es unimodal, –x = Me = MO.
• Si γ1 > 0, la distribución presenta asimetría positiva. Además, si la distribución es unimodal

y con forma de campana, MO < Me < –x .
• Si γ1 < 0, la distribución presenta asimetría negativa. Además, si la distribución es unimo-
dal y con forma de campana, –x < Me < MO.
4.3. MEDIDAS DE APUNTAMIENTO O CURTOSIS
Este coeficiente compara el grado de apuntamiento de una distribución (lo picuda que es) con el de
la curva normal. Se define el coeficiente de apuntamiento o curtosis como:
m4 Σ (x i – –x )4
i=1
γ2 = –3= –3
σ̂ 4 nσ̂ 4
Es un coeficiente adimensional. El 3 se introduce para que en el caso de la curva normal, que es el

valor de referencia, el coeficiente valga 0. Si una curva tiene un apuntamiento como el de la normal, se
www.udima.es 55
│ Sumario
dice que es mesocúrtica, si es más apuntada o picuda que la normal, se dice que es leptocúrtica, y si lo
es menos, se dice que es platicúrtica (véase figura 5). Con lo que:
• Si γ2 = 0, la distribución es mesocúrtica.
• Si γ2 > 0, la distribución es leptocúrtica.
• Si γ2 < 0, la distribución es platicúrtica.
Figura 5. Apuntamiento en una distribución
Leptocúrtica Mesocúrtica Platicúrtica
5. MEDIDAS DE RELACIÓN
5.1. MOMENTOS DE UNA VARIABLE ESTADÍSTICA BIDIMENSIONAL
Se definen dos tipos de momentos asociados a la distribución conjunta de dos variables estadísticas.
5.1.1. Momento de orden (r, h) centrado en el origen
• Sean (x1, y1), (x2, y2), …, (xn , yn) un conjunto de datos bidimensionales que definen la va-
riable estadística bidimensional (X, Y). Se define el momento de orden (r, h) centrado en el
origen, arh, como:
n
Σ xir y hi
i=1
arh =
n
• Para datos tabulados, con modalidades o clases {x1, …, xk}, {y1, …, yp} y distribución de
frecuencias relativas conjunta {ƒij}i=1, …, k; j=1, …, p:
k p
arh = Σ Σ xir y hj ƒij
i=1 j=1
Se verifica que a10 = –x y a01 = –y .
56 www.udima.es
Sumario │
5.1.2. Momento de orden (r, h) centrado en la media
• Sean (x1, y1), (x2, y2), …, (xn , yn) un conjunto de datos bidimensionales que definen la va-
riable estadística bidimensional (X, Y). Se define el momento de orden (r, h) centrado en la
media, mrh , como:
n
Σ (x i – –x ) r (yi – –y ) h
i=1
mrh =
n
• Para datos tabulados, con modalidades o clases {x1, …, xk}, {y1, …, yp} y distribución de
frecuencias relativas conjunta {ƒij}i=1, …, k; j=1, …, p:
k p
mrh = Σ Σ (x i – –x ) r (yj – –y ) h ƒij
i=1 j=1
Se verifica que m10 = m01 = 0. Se tiene la siguiente relación entre momentos conjuntos y momen-
tos marginales:
m20 = σ̂ X2 = Varianza de X m02 = σ̂ Y2 = Varianza de Y
También se verifica la siguiente relación entre ambos tipos de momentos:
m11 = a11 – a10 a01
5.2. COVARIANZA Y COEFICIENTE DE CORRELACIÓN LINEAL
En particular, el momento m11 es muy importante en la valoración de la relación lineal existente

entre las dos variables. Se llama covarianza y cuando se tienen los datos explícitos, (x1, y1), … , (xn, yn),
se define como:
n n
Σ (x i – –x ) (yi – –y ) Σ x i yi
i=1 i=1
Cov (X, Y) = = – –x –y
n n
La covarianza mide cómo varían conjuntamente los valores de X y de Y de la siguiente forma:
• Si Cov (X, Y) > 0, hay mayor tendencia a encontrar valores altos (o bajos) de X con valores
altos (o bajos) de Y.
• Si Cov (X, Y) < 0, la variación conjunta de ambas variables será en sentido inverso: a valo-
res altos (o bajos) de una de las variables se corresponden valores bajos (o altos) de la otra.
• Si Cov (X, Y) = 0, no existe relación lineal entre X e Y.
Cuanto mayor sea el valor de la covarianza mayor será la relación lineal. Sin embargo, como su
valor depende de las unidades de medida, un valor alto puede deberse a las unidades más que al grado de
www.udima.es 57
│ Sumario
relación lineal existente entre las variables. Para evitarlo, se

define un coeficiente que cuantifique dicha relación y que
sea adimensional. Surge así el coeficiente de correlación,
que normaliza la covarianza y que se define como:
Cov (X, Y)
ρ=
σ̂ X σ̂ Y
L.A. Jacques Quételet (1796-1874). Fue un
Se verifica que – 1 ≤ ρ ≤ 1. Así: astrónomo y naturalista belga, también ma-
temático, sociólogo y estadístico.
Es reconocido como uno de los padres de la
• Un valor ρ = – 1indica una relación inversa- estadística moderna. Aplicó los métodos es-
mente proporcional perfecta entre X e Y. Los tadísticos a las ciencias sociales y fue criti-
cado por ello.
pares de dato (xi, yi) se encuentran sobre una Quételet es también célebre por desarrollar
recta de pendiente negativa. la noción de «hombre promedio» (l'homme
moyen) y por su aplicación de la estadística
• Un valor – 1 < ρ < 0 indica una relación lineal a la criminología.
inversamente proporcional entre X e Y y su En su obra de la Física social concluye que

«el delito es un fenómeno social que puede
grado de intensidad viene dado por |ρ|. conocerse y determinarse estadísticamen-te»
y que «los delitos se cometen cada año con
• Un valor ρ = 0 indica que no existe relación absoluta regularidad y precisión».
lineal entre X e Y.
• Un valor 0 < ρ < 1 indica una relación lineal
directamente proporcional entre X e Y y su
grado de intensidad viene dado por |ρ|.
• Un valor ρ = 1 indica una relación directamente proporcional perfecta entre X e Y. Los pares
de datos (xi, yi) se encuentran sobre una recta de pendiente positiva.
6. REPRESENTACIONES GRÁFICAS. DIAGRAMA DE CAJA
Dado un conjunto de datos, se llama resumen de las cinco cifras a los tres cuartiles junto con el
máximo y el mínimo de los datos, es decir, {mínimo, Q1, Q2, Q3, máximo}. La representación gráfica de
este resumen de las cinco cifras se hace a través del diagrama de caja o box-plot.
Su construcción se muestra en la figura 6. Sobre la recta real se coloca una caja en la que el extremo
izquierdo coincide con Q1 y el extremo derecho con Q3. Dentro de la caja se coloca Q2. Esta caja encierra
el 50 % de los datos que ocupan la posición central. El ancho de la caja representa el rango intercuartí-
lico o RI. A continuación, se marcan dos zonas: la barrera interna y la barrera externa. Una vez estable-
cidas las barreras, se marcan las observaciones que caen más allá de ellas, con símbolos diferentes según
la zona. Las observaciones que caen en ambas zonas son datos atípicos. Las que caen más allá de las
barreras externas son datos atípicos extremos. A continuación se dibujan unos segmentos que salen de
ambos lados de la caja hasta la observación más alejada pero que se encuentre dentro de las barreras. Si
no hubiese ningún dato atípico, los segmentos llegarían hasta los valores máximos y mínimos.
Por ejemplo, en el diagrama de caja que se muestra en la figura 7 hay tres datos atípicos, uno de ellos
extremo. La media viene marcada con el símbolo +. Como Me = Q2 < –x , la distribución presenta asime-
tría positiva. Al haber asimetría positiva, los datos atípicos deben interpretarse con cuidado, ya que, en
este caso, su presencia es compatible con la asimetría que presenta la distribución.
58 www.udima.es
Sumario │
Figura 6. Construcción del diagrama de caja
3 × RI 3 × RI
RI
1,5 × RI 1,5 × RI
Barrera Barrera Barrera Barrera

externa interna interna externa
Q1 Q2 Q3 X
En el diagrama de caja hay que fijarse en el rango intercuartílico, en el rango de los datos sin contar
los datos atípicos, en la asimetría y en los datos atípicos.
Figura 7. Diagrama de caja

0 20 40 60 80
7. TRANSFORMACIONES DE DATOS
Muchas de las técnicas estadísticas que se aplican en conjuntos de datos requieren que su distribu-
ción sea unimodal y simétrica. Aunque esta restricción pueda parecer muy severa, este tipo de distribu-
ciones es frecuente con datos reales. En este epígrafe se verán algunos ejemplos de transformaciones
sobre los datos originales que producen simetría.
www.udima.es 59
│ Sumario
7.1. TRANSFORMACIONES DE DATOS CON ASIMETRÍA POSITIVA
Las transformaciones que se utilizan cuando los datos presentan asimetría positiva son del tipo √ x, log x,
xc,con c < 1. Estas transformaciones reducen mucho los valores altos y menos los valores pequeños. De
este conjunto de transformaciones las más frecuentes son x1/2, log x y x–1. La figura 8 muestra una distri-
bución con asimetría positiva y las figuras 9 y 10, el efecto de dos de estas transformaciones.
Figura 8. Distribución asimétrica a la derecha
400
300
200
100

0 2 4 6 8 10 12
Figura 9. Transformación logarítmica aplicada a la figura 8
150
120
90
60
30
0
‒ 1 ‒ 0,5 0 0,5 1 1,5 2
60 www.udima.es
Sumario │
Figura 10. Transformación √ x aplicada a la figura 8
300
250
200
150
100
50
0
‒ 0,1 0,9 1,9 2,9 3,9
7.2. TRANSFORMACIONES DE DATOS CON ASIMETRÍA NEGATIVA
Las transformaciones que se utilizan cuando los datos presentan asimetría negativa son del tipo xc
con c > 1. La figura 11 muestra un histograma con este tipo de asimetría y la figura 12 el cambio que
sufre con este tipo de transformación.
Figura 11. Distribución asimétrica a la izquierda
25
20
15
10
0
0,38 0,48 0,58 0,68 0,78 0,88 0,98
www.udima.es 61
│ Sumario
Figura 12. Transformación x2 aplicada a la figura anterior
30
25
20
15
10
0

0 0,3 0,6 0,9 1,2
62 www.udima.es
Sumario │

• Saber calcular e interpretar las principales medidas de centralización, dispersión, forma y
relación de un conjunto de datos o de una distribución de frecuencias.
• Saber construir e interpretar un diagrama de caja, detectando datos atípicos.
• Conocer algunas de las transformaciones más empleadas para mejorar la asimetría.
 ACTIVIDADES DE REPASO
Enunciado 1
Se recuerda la siguiente información del importe en euros de las últimas 200 facturas emitidas por
una empresa, agrupadas en seis intervalos o clases de la misma longitud.
• El primer intervalo tiene 75 como extremo superior, frecuencia relativa de 0,075 y una
amplitud de seis unidades.
• Hasta el segundo intervalo se acumulan 41 facturas.
• El tercer intervalo tiene frecuencia absoluta de 42 facturas, el cuarto, de 69, y el quinto, de 36.
Construir la tabla de distribución de frecuencias y calcular la media, mediana, moda, coeficiente de

variación y el percentil 74.
Enunciado 2
Se estudia la variable X = Desgaste (en milímetros) que sufren los neumáticos en los coches de Fór-
mula 1 tras 10 sesiones de entrenamiento. Se obtienen los resultados de la siguiente tabla:
Tabla 5
Clase ni
[0,5; 1,5) .................. 4

[1,5; 2,5) .................. 25
[2,5; 3,5) .................. 13
[3,5; 4,5) .................. 9
Total ....................... 51
Construir el diagrama de caja y comentarlo.
www.udima.es 63
│ Sumario
Enunciado 3
Se ha medido el tiempo de procesamiento, en minutos, de un conjunto de 12 tareas similares,

obteniéndose:
2,45; 1,48; 2,64; 3,21; 1,59; 2,00; 2,80; 3,35; 2,77; 1,89; 2,41; 1,50
Obtener el tiempo medio de procesamiento, el coeficiente de asimetría y el de curtosis y comentarlos.
Enunciado 4
Comentar el siguiente diagrama de caja. Se representan las unidades vendidas mensualmente por
una factoría en los últimos 12 años y medio. La media se representa por el signo +.
Figura 13. Diagrama de caja

190 210 230 250 270
Enunciado 5
En un curso para aumentar la rapidez de lectura se tiene información de la variable X = Número de

semanas en el curso e Y = Ganancia en rapidez de lectura medida en palabras por minuto. Calcular el
coeficiente de correlación y comentarlo.
Tabla 6
X 3 5 2 8 6 9 3 4
Y 86 118 49 193 164 232 73 109
64 www.udima.es
Sumario │
 EJERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el estudiante puede hacer, por su cuenta, una serie de ejer-
cicios voluntarios, como los siguientes:
1. Asocia a cada diagrama de dispersión una de las frases siguientes sobre el valor del coefi-
ciente de correlación.
• ρ cerca de 0, no existe relación lineal entre ambas variable.

• ρ cercano a 1, existe relación lineal directamente proporcional entre ambas variables.
• ρ cercano a − 1, existe relación inversamente proporcional entre ambas variables.
Figura 14. Diagramas de dispersión
60 37
57
33
54
51 29
48
25
45
42 21
14 17 20 23 26 29 32 42 45 48 51 54 57 60
2. Buscad en la bibliografía información sobre el significado y la importancia de la propiedad

de la mediana mencionada en el texto.
3. En 87 familias se tiene información sobre las variables X = Ingresos mensuales e Y = Gasto
mensual en ocio, en euros.
Tabla 7
X|Y [0, 150) [150, 300) [300, 450]
[600, 1000) .............. 6 2 0

[1000, 1500) ............ 3 3 1
[1500, 2000) ............ 9 25 4
[2000, 2500) ............ 0 4 5
[2500, 3000] ............ 3 20 2
www.udima.es 65
│ Sumario
• Calcular el gasto medio en ocio por familia.

• Calcular los ingresos medios mensuales por familia.
• Para familias con ingresos inferiores a 1.500 euros, ¿cuál es el gasto medio en ocio?
• Calcular el ingreso máximo que tienen el 25 % de las familias que menos ingresos tienen.
• Calcular el coeficiente de correlación entre ambas variables y comentarlo.
4. Para la variable X del ejercicio anterior, dibujar el diagrama de caja.

5. Se tiene un conjunto de 40 datos. Si se multiplica cada dato por 4 y se le suma 3, ¿qué le
ocurrirá a la media del conjunto transformado de datos? ¿Y a su varianza?
Básica
CALOT, G.: Curso de estadística descriptiva, Paraninfo, 1988.

ESTEBAN GARCÍA, J. et al: Estadística descriptiva y nociones de probabilidad, Thomson Editores, 2005.
FERNÁNDEZ CUESTA, C. y FUENTES GARCÍA, F.: Curso de estadística descriptiva. Teoría y práctica, Editorial Ariel, 1995.
MOORE, D. S. y NOTZ, W. I.: Statistics: Concepts and Controversies. Freeman, 2006.
MURRAY SPIEGEL: Estadística, McGraw-Hill, 2002
RÍOS, S.: Métodos estadísticos, Ediciciones del Castillo, 1987.
TOMEO PERUCHA, V. y UÑA JUÁREZ, I.: Lecciones de estadística descriptiva, Thomson Editores, 2003.
En la red
NIST/SEMATECH E-Handbook of Statistical Methods: http://www.itl.nist.gov/div898/handbook/index

Material dinámico e interactivo para aprender estadística: http://cast.massey.ac.nz/core/index.html?collection=Public
Rice Virtual Lab in Statistics: http://onlinestatbook.com/rvls.html
Ejercicios muy sencillos e intuitivos sobre medidas de tendencia central y dispersión: http://www.cimt.plymouth.ac.uk/pro-
jects/mepres/book7/book7int.htm
Avanzada
MONTGOMERY, D. C. y RUNGER, G. C.: Applied Statistics and Probability for Engineers, 3.ª ed.. New York: John Wiley
and Sons, 2003.
TUKEY, J. W.: Exploratory Data Analysis, Addisson Wesley, 1977.
66 www.udima.es
Sumario │
3
UNIDAD
DIDÁCTICA
CÁLCULO DE
PROBABILIDADES
1. Introducción
2. Interpretaciones de la probabilidad
2.1. Interpretación frecuentista
2.2. Interpretación clásica
2.3. Interpretación subjetiva
3. Definición axiomática de probabilidad

3.1. Conceptos básicos
3.1.1. Espacio muestral
3.1.2. Suceso
3.2. Axiomática de Kolmogorov
4. Cuantificación de la probabilidad
4.1. Regla de Laplace (probabilidad clásica)
4.2. Ruleta de la fortuna (probabilidad subjetiva)
5. Probabilidad condicionada
6. Teorema de la probabilidad compuesta
7. Independencia de sucesos
7.1. Fiabilidad de un sistema
8. Teorema de la probabilidad total

9. Teorema de Bayes
10. Anexo: métodos de conteo para determinación de probabilidades
10.1. Sin reemplazamiento y ordenados
10.2. Con reemplazamiento y ordenados
www.udima.es 67
│ Sumario
10.3. Sin reemplazamiento y no ordenados

10.4. Con reemplazamiento y no ordenados
10.5. Particiones
10.5.1. Permutaciones con repetición

ACTIVIDADES DE REPASO
68 www.udima.es
Sumario │
M.ª I. Rodríguez Galiano Cálculo de probabilidades
El cálculo de probabilidades estudia el concepto de probabilidad como medida de incertidumbre.
En situaciones donde se pueden obtener varios resultados posibles, la teoría de la probabilidad propor-
ciona métodos para cuantificar esa variabilidad en el resultado del experimento. Se describen tres inter-
pretaciones de la misma, adecuadas según sea el contexto y las hipótesis de trabajo: clásica, frecuentista
y la probabilidad como grado de confianza. Se ilustran los axiomas que verifican la probabilidad, que
se cumplen bajo cualquier interpretación de la misma y su uso. Se dan reglas prácticas de asignación de
probabilidades y reglas para actualizar una probabilidad determinada en situaciones en las que se dis-
pone de información adicional. Para ello se introduce la probabilidad condicionada, que conducirá hacia
el teorema de Bayes, una potente herramienta de inversión de probabilidades.
• Conocer las diferentes interpretaciones de la probabilidad.

• Manejar la notación conjuntista para representar y operar con probabilidades.
• Calcular probabilidades mediante la regla de Laplace.
• Entender la probabilidad condicionada como la herramienta idónea para medir la incerti-
dumbre en un contexto prefijado.
• Saber modelizar y resolver problemas de incertidumbre mediante el lenguaje de sucesos.
• Dominar a nivel operativo y semántico el teorema de Bayes.
www.udima.es 69
│ Sumario
1. INTRODUCCIÓN
Cuando se estudia una muestra de una población, el problema central es inferir las propiedades de
esta a partir de la muestra. Para ello se necesita un modelo de la población, una representación simbólica
de su comportamiento que permita esta generalización. La construcción de estos modelos es el objeto del
cálculo de probabilidades. Hay que conocer bien las leyes básicas de la probabilidad para utilizar adecua-
damente la metodología estadística. La estadística indica cómo utilizar la información en aquellos casos
en los que hay incertidumbre. Se utilizarán modelos probabilísticos cuando no se encuentren modelos
matemáticos que sirvan para determinar concretamente un fenómeno. Se denomina fenómeno aleatorio
o experimento aleatorio a aquel que puede dar lugar a varios resultados, sin que se sepa con certeza cuál
de estos va a ser observado. A continuación se introducen las tres interpretaciones de la probabilidad.
2. INTERPRETACIONES DE LA PROBABILIDAD
2.1. INTERPRETACIÓN FRECUENTISTA
La probabilidad se interpreta como la frecuencia relativa con la que se obtendría un resultado si se

repitiera el experimento un número grande de veces en condiciones similares. Así, la probabilidad solo
va a tener significado en el contexto de un experimento infinitamente repetible.
EJEMPLO 1
Se quiere determinar la proporción de errores en la ejecución de un programa. Se observa, cada vez que se
ejecuta el programa, el número de errores que aparecen. Si se aumenta el número de ejecuciones, la frecuencia
relativa de errores cometidos con respecto al número de ejecuciones se aproximará cada vez más a la verdadera
proporción de errores. En la tabla 1 se muestran los resultados para valores de ejecución n entre 20 y 1.500.
Tabla 1
N.º ejecuciones (n) N.º errores (nA) Frecuencia relativa
20 1 0,05
60 2 0,033
100 6 0,01
320 8 0,025
500 9 0,018
840 16 0,019
1.500 31 0,026
La frecuencia relativa tiende al valor 0,02 conforme n crece.
70 www.udima.es
Sumario │
EJEMPLO 2
La frecuencia relativa de que al tirar una moneda salga cara tiende a 0,5 al aumentar el número de tiradas.
Así, se tiene la siguiente definición de probabilidad como frecuencia relativa. Si un experimento

se repite n veces bajo las mismas condiciones y nA de los resultados son favorables a un atributo A, se
define la probabilidad del atributo A como el límite de nA /n conforme n crece.
Los inconvenientes de esta interpretación son los siguientes:
• «Un número elevado de veces» no está determinado, no puede interpretarse como un límite
en el sentido del análisis matemático.
• «Bajo las mismas condiciones» no está bien especificado.
• El sistema observado puede variar con el tiempo y con él la frecuencia relativa.
Esta definición solamente se aplica a fenómenos que se repiten muchas veces. Entonces, ¿cómo se
calcularía la probabilidad de que el lanzamiento de un nuevo videojuego tenga éxito, de que roben una
valiosa joya, de que se produzca un accidente en una central nuclear, etc.? ¿Qué pasa con estos fenóme-
nos que solo ocurren una vez, en los que no se puede generar una población homogénea en la que cal-
cular la frecuencia relativa?
2.2. INTERPRETACIÓN CLÁSICA
Está basada en el concepto de resultados igualmente verosímiles.
EJEMPLO 3
Si se lanza un dado una vez, hay 6 posibles resultados que son mutuamente excluyentes (no puede aparecer más
de un resultado a la vez) e igualmente verosímiles (sus frecuencias son prácticamente las mismas si se supone
que el dado no está trucado y que el experimento se lleva a cabo un número suficientemente grande de veces).
Puede entonces pensarse que la probabilidad de obtener un 5 es la proporción de resultados que den 5
respecto al número total de resultados, es decir, 1/6.
Así, se tiene la siguiente definición de probabilidad. Si un experimento aleatorio tiene n resultados

posibles igualmente verosímiles y mutuamente excluyentes y si nB de ellos tienen un atributo B, la pro-
babilidad de B es la proporción nB /n.
EJEMPLO 4
En el lanzamiento de 2 dados, la probabilidad de que la suma de los resultados sea 7 es 1/6, ya que hay 36
resultados posibles y 6 tienen el atributo de sumar 7: (1, 6), (2, 5), (3, 4), (4, 3), (5, 2) y (6, 1).
www.udima.es 71
│ Sumario
Los inconvenientes de esta visión son:
• En muchas situaciones prácticas los resultados posibles de un experimento no son igual-

mente posibles y entonces este no es un método sistemático de asignar probabilidades.
• Se basa, al igual que la interpretación anterior, en la repetición de experimentos realizados
bajo las mismas condiciones.
2.3. INTERPRETACIÓN SUBJETIVA
Se asocia la probabilidad con el observador del sistema en vez de con el sistema bajo observación.
Surge para los fenómenos que no se prestan a repetición y cuando no es posible hablar de un experimento
llevado a cabo bajo condiciones similares.
Muchas personas hacen afirmaciones que de algún modo implican probabilidad. Por ejemplo, cuando
un corredor de bolsa asesora a un cliente sobre la posibilidad de que determinadas acciones suban, está
sugiriendo alguna idea de la probabilidad de ocurrencia del alza de esa acción.
En estos casos, la probabilidad se interpreta como una medida personal de la incertidumbre de un

suceso, basada en experiencias previas.
La probabilidad representa entonces un juicio personal acerca de un fenómeno impredecible, repre-

senta una medida del grado de creencia o de convicción de un individuo (observador del sistema) res-
pecto a la ocurrencia de una afirmación.
El principal inconveniente de esta interpretación es que, como cada individuo asigna un número a
que suceda un hecho determinado, es muy difícil poner en común a varios analistas. Además, el hecho
de que esté basado en un juicio personal proporciona inconsistencia a la definición.
3. DEFINICIÓN AXIOMÁTICA DE PROBABILIDAD
Para evitar tantos inconvenientes, la probabilidad se

definió axiomáticamente. En los años treinta se estable-
cen algunos axiomas y, con base a estos, se define formal-
mente la probabilidad. El desarrollo axiomático incluye las
tres interpretaciones de la probabilidad. Sus propiedades se
corresponden con las de la frecuencia relativa y se encua-
dran dentro de la teoría general de la medida. De esta forma,
la probabilidad sería una medida de incertidumbre, con pro- Andrei N. Kolmogorov (1903-1987). Mate-
mático ruso que estudió, además, otras mate-
piedades similares a las medidas de longitudes, tiempo, etc. rias como metalurgia e historia de Rusia.
Proporcionó grandes contribuciones en varias
La definición formal de probabilidad, a través de un áreas de las matemáticas. Publicó un gran
conjunto de axiomas debidos a Kolmogorov, se fundamenta número de artículos, ocho de ellos antes de
en la teoría de conjuntos. Esta definición es tan general que obtener el grado. Destacó por su definición
axiomática de la probabilidad, y con sus estu-
permite incorporar las distintas interpretaciones de la pro- dios contribuyó a la creación de la teoría de
babilidad antes mencionadas. la probabilidad moderna.
Como anécdota hay que indicar que a la edad
Previamente, se exponen algunos conceptos necesarios de cinco años comprobó la ley: 1 = 12, 1 + 3 =
= 22, 1 + 3 + 5 = 32, 1 + 3 + 5 + 7 = 42, …,
para introducir la definición axiomática. 1 + 3 + ... + (2n − 1) = n2.
72 www.udima.es
Sumario │
3.1. CONCEPTOS BÁSICOS
3.1.1. Espacio muestral
Se llama espacio muestral al conjunto de todos los posibles resultados de un experimento aleato-
rio. Se denotará como Ω. Puede ser finito, infinito numerable o infinito no numerable.
EJEMPLO 5
• Ω finito: número de libros prestados en una biblioteca.

• Ω infinito numerable: número de trabajos enviados a una impresora.
• Ω infinito no numerable: duración de un determinado componente.
EJEMPLO 6
Considérese el experimento de introducir 2 bolas en 2 urnas, A y B.
• Ω = {AA, AB, BA, BB}, si las bolas son distinguibles.

• Ω = {AA, AB, BB}, si las bolas son indistinguibles.
3.1.2. Suceso
Se llama suceso o evento a cualquier subconjunto de Ω. Un suceso es elemental si está formado por
un solo elemento y compuesto si es unión de sucesos elementales. Ω es el suceso seguro y Ø el suceso
imposible o nulo o vacío (nunca ocurre).
EJEMPLO 7
En el lanzamiento de un dado, Ω = {1, 2, 3, 4, 5, 6} y el suceso «obtener par» será el conjunto {2, 4, 6}. El sub-
conjunto {1} es un suceso elemental.
Dados dos sucesos, A y B, de un espacio muestral Ω, se definen las siguientes operaciones con sucesos:
• A ⊂ B: suceso contenido en otro. Siempre que ocurre el suceso A ocurre el suceso B.

• A ∪ B: unión de sucesos. Ocurre siempre que ocurre A o siempre que ocurre B (o ambos).
• A ∩ B: intersección de sucesos. Ocurre siempre que ocurren A y B simultáneamente.
–
• A: suceso complementario o contrario de otro dado A. Ocurre siempre que no ocurre el
–
suceso A: A = Ac = Ω \ A.
www.udima.es 73
│ Sumario
–
• A \ B: diferencia de sucesos. Ocurre siempre que ocurre A y no B: A \ B = A ∩ B.
• A ∆ B: diferencia simétrica de sucesos: A ∆ B = (A \ B) ∪ (B \ A).
Si A ∩ B = Ø, los sucesos son incompatibles o disjuntos o mutuamente excluyentes.
El lenguaje de los sucesos es el mismo que el de conjuntos, con lo que las definiciones anteriores se
pueden representar gráficamente mediante diagramas de Venn, como se ilustra en la figura 1.
Figura 1. Diagramas de Venn para las operaciones habituales con sucesos
Ω Ω Ω Ω
‒
B A B A A
B
A A
‒
A⊂B A∪B A∩B A
Ω Ω Ω
A A A
B B B
A\B A∆B A∩B=Ø
La clase de los sucesos asociados a un experimento aleatorio verifica las siguientes propiedades para
las operaciones de unión (∪) e intersección (∩):
• Conmutativa y asociativa.
• Cada operación es distributiva respecto de la otra.
• Existe elemento neutro para la unión (Ø) y para la intersección (Ω).
– – –
• Existe para cada suceso A otro suceso A, tal que A ∩ A = Ø y A ∪ A = Ω.
Esto quiere decir que la clase de los sucesos asociados a un experimento aleatorio tiene estructura
de álgebra de Boole. Por lo tanto, se verifican las propiedades:
• Idempotencia: A ∪ A = A, A ∩ A = A.
– – – –
• Leyes de Morgan: A ∪ B = A ∩ B, A ∩ B = A ∪ B.
Un sistema completo de sucesos o partición del espacio muestral es el conjunto de sucesos {Ai}i ∈N
tales que ∞ ∪
i=1 Ai = Ω y son disjuntos dos a dos, es decir, Ai ∩ Aj = Ø para todo i ≠ j.
74 www.udima.es
Sumario │
EJEMPLO 8
El conjunto de los sucesos elementales es una partición del espacio muestral Ω.
A continuación se presenta la definición axiomática de probabilidad. Dado el espacio muestral Ω

asociado a un experimento y � (Ω) la σ-álgebra formada por todos los posibles subconjuntos de Ω, se
trata de establecer una medida de incertidumbre para los sucesos de este experimento, asignando un
número real a cada suceso.
3.2. AXIOMÁTICA DE KOLMOGOROV
Una probabilidad en (Ω, � (Ω)) es una función P definida sobre la σ-álgebra, sobre la recta real ℝ.
P: � (Ω) → ℝ
A → P (A)
Verificando las condiciones siguientes:
• Para todo A ∈ � (Ω), P (A) ≥ 0.

• P (Ω) = 1.
• Propiedad de σ-aditividad: Para todo A1, A2, …, An, …, ∈ � (Ω) disjuntos dos a dos se tiene:
∞ ∞
P � ∪ Ai � = i=1
i=1
Σ P (Ai)
Se llama espacio probabilístico a la terna (Ω, � (Ω), P).
Estos tres axiomas son razonables para las interpretaciones ya vistas de la probabilidad. Esta defini-
ción muestra las características de las proporciones, o frecuencia relativa, que son un número entre 0 y 1.
Además, dado que cuando se realiza un experimento siempre ocurre un resultado, la probabilidad de Ω
es 1, y si no hay ningún resultado común entre dos sucesos A y B, la probabilidad de que ocurra A o B es
la proporción de veces que ocurre A, más la proporción de veces que ocurre B.
Como consecuencia de los axiomas, se tienen las siguientes propiedades:
1. P (Ø) = 0.
2. P (A) ≤ 1 para todo A.
–
3. P (A) = 1 – P (A).
4. Propiedad monótona: si A ⊂ B, entonces P (A) ≤ P (B).
5. Regla de adición de probabilidades: P (A ∪ B) = P (A) + P (B) – P (A ∩ B) para cualquiera
A, B.
www.udima.es 75
│ Sumario
6. Generalización de la anterior:
n n
∪
n
P � Ai � = Σ P (Ai) – Σ P (Ai ∩ Aj) +
i=1 i=1 i<j
n
+ Σ P (Ai ∩ Aj ∩ Ak) + … + (– 1)n+1 P (A1 ∩ A2 ∩ … ∩ An)
i<j<k
7. Propiedad subaditiva:
P � ∪ An � ≤ Σn P (An)
n
8.
P � ∩ An � ≥ 1 ‒ Σn P (An)
–
n
EJEMPLO 9
Una computadora biprocesador de una gran empresa funciona si cualquiera de sus dos procesadores, A y B,
funciona. Sabiendo que la probabilidad de que el procesador A funcione es 0,85, la de B es 0,9 y la de que
ambos funcionen simultáneamente es 0,76, calcular la probabilidad de que la computadora funcione.
P (A ∪ B) = P (A) + P (B) ‒ P (A ∩ B) = 0,85 + 0,9 ‒ 0,76 = 0,99
4. CUANTIFICACIÓN DE LA PROBABILIDAD
4.1. REGLA DE LAPLACE (PROBABILIDAD

CLÁSICA)
En muchas situaciones, todos los sucesos elementales

tienen la misma probabilidad de ocurrir, es decir, son equi-
probables. Esto sucede en los juegos de azar, como en pro-
blemas de lanzamiento de dados, de monedas, extracción
de cartas de una baraja, etc. Pierre S. de Laplace (1749-1827). Matemá-
tico francés que realizó diversos tratados sobre
Si existen n sucesos elementales equiprobables, la pro- probabilidad y mecánica celeste.
Probó la estabilidad del sistema solar y, en
babilidad de cada uno de ellos será 1/n, de manera que la análisis matemático, introdujo la función po-
suma total sea 1. Un suceso compuesto A formado por k tencial y los coeficientes de Laplace.
sucesos elementales tendrá probabilidad k/n, lo que da lugar Publicó en 1812 su Théorie Analitique des
Probabilités, que representa la introducción
a la regla de Laplace: de los recursos del análisis matemático en el
estudio de los fenómenos aleatorios. En parti-
cular dedujo el método de mínimos cuadrados.
k Número de casos favorables En 1785 llegó a ser miembro de la Academia
P (A) = = de Ciencias de París.
n Número de casos posibles
76 www.udima.es
Sumario │
Para contar este número de casos favorables y casos posibles se utiliza el análisis combinatorio.
La regla de Laplace solamente debe usarse en contextos en los que esté asegurada la equiprobabi-
lidad de los sucesos.
4.2. RULETA DE LA FORTUNA (PROBABILIDAD SUBJETIVA)
Se introduce un experimento de referencia que actúa como «regla» y que se usa para cuantificar las
creencias de un individuo llamado decisor. Así, el decisor puede expresar sus creencias respecto a pro-
posiciones sobre el experimento de referencia.
Se considera una ruleta de la fortuna (equilibrada), aunque se puede hacer con cualquier disposi-
tivo de azar como urnas, bolas de colores, etc. Se comparan los sucesos a cuantificar con sectores en la
ruleta de la fortuna, de tal forma que si, por ejemplo, el decisor piensa que es igualmente probable que
ocurra un suceso A con que la aguja de la ruleta caiga en un sector de área x %, se asignaría a ese suceso
una probabilidad de x/100 (por ejemplo, si fuera el 20 %, P (A) = 0,2). Cuando existen varios sucesos
a cuantificar, como las probabilidades se calculan de manera independiente, hay que comprobar que la
suma es 1 y, en caso contrario, hacer una pequeña modificación.
5. PROBABILIDAD CONDICIONADA
Se denomina probabilidad de un suceso A condicionada a otro B a la probabilidad de que ocurra A

sabiendo que ya ha ocurrido B. Analíticamente:
P (A ∩ B)
P (A|B) = siendo P (B) > 0
P (B)
Obsérvese que en A ∩ B ocurren conjuntamente A y B y tiene asociado el espacio muestral origi-

nal Ω. A|B significa que en aquellos casos en los que ya ha ocurrido B, ocurre A, y, por tanto, el espacio
muestral es aquel en el que ha ocurrido el suceso B.
EJEMPLO 10
Considérese el lanzamiento de una moneda equilibrada dos veces. Sea A el suceso «obtener cara en la pri-
mera tirada» y B el suceso «obtener cara en la segunda tirada».
‒ ‒ ‒ ‒
A ∩ B está definida en el espacio muestral {(A, B), (A, B ), (A, B), (A, B )} y tiene probabilidad 1/4.
‒
B | A está definida en el espacio muestral {(A, B), (A, B )} y tiene probabilidad 1/2.
EJEMPLO 11
Se lanzan 2 dados, uno azul y otro rojo. Sabiendo que el dado rojo es un 1 o un 2, calcular la probabilidad
de que el resultado de alguno de los dados sea par.
.../...
www.udima.es 77
│ Sumario
.../...
Se definen los siguientes sucesos:
A = «Alguno es par»
B = «El dado rojo es 1 o 2»
El espacio muestral para este experimento aleatorio es el conjunto de todos los pares (i, j) donde i, j ∈{1, 2, …, 6},
siendo la primera posición para el resultado del dado azul y la segunda para el rojo. Así, Ω = {(i, j): i, j = 1, 2,
…, 6} y tiene 36 posibles resultados, de los cuales 9 son favorables al suceso A ∩ B y 12 al suceso B, ya que:
A ∩ B = {(2, 1), (4, 1), (6, 1), (1, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2)}
B = {(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (1, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2)}
Por lo tanto, la probabilidad pedida es:
P (A ∩ B) 9/36 9
P (A|B) = = =
P (B) 12/36 12
También se puede calcular esta probabilidad directamente observando el espacio muestral en el que está
definido A|B:
Ω' = {(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (1, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2)}
Hay 12 resultados posibles de los que 9 son favorables a A|B (los destacados en negrita), con lo que:
9
P (A|B) =
12
como ya se obtuvo anteriormente.
La definición de probabilidad condicionada se puede extender para cualquier número de sucesos

del espacio muestral. Por ejemplo:
P (A ∩ B ∩ C)
P (A|B ∩ C) = , P (B ∩ C) > 0
P (B ∩ C)
P (A ∩ B ∩ C)
P (A ∩ B|C) = , P (C) > 0
P (C)
6. TEOREMA DE LA PROBABILIDAD COMPUESTA
En ocasiones se necesita calcular la probabilidad de la intersección de dos sucesos. Esto es posible

a partir de la fórmula ya vista de probabilidad condicionada.
Si P (A), P (B) > 0,
P (A ∩ B) = P (A) P (B|A)
P (A ∩ B) = P (B) P (A|B)
78 www.udima.es
Sumario │
Generalizando a n sucesos A1, …, An tales que P (A1 ∩ … ∩ An–1) > 0,
P (A1 ∩ A2 ∩ … ∩ An) = P (A1) P (A2|A1) P (A3|A1 ∩ A2), …, P (An|A1 ∩ … ∩ An–1)
Las probabilidades del término de la derecha están bien definidas, ya que:
P (A1) ≥ P (A1 ∩ A2) ≥ … ≥ P (A1 ∩ … ∩ An–1) > 0
al ser A1 ⊃ A1 ∩ A2 ⊃ … ⊃ A1 ∩ … ∩ An–1.
Este teorema también se conoce como teorema del producto o regla de multiplicación.
EJEMPLO 12
Se desea calcular la probabilidad de que un trabajo se procese inmediatamente cuando se requiere. Este
suceso es la intersección de los dos sucesos siguientes:
A = «El computador está funcionando»

B = «El trabajo se procesará de inmediato»
Calcular la probabilidad de que un trabajo presentado se procese de inmediato, sabiendo que la probabili-
dad de que el computador esté funcionando en un momento determinado es 0,9 y que la probabilidad de
que el trabajo se procese de inmediato si el computador está funcionando es 0,05.
Del enunciado se tiene que P (A) = 0,9 y P (B|A) = 0,05, y hay que obtener P (A ∩ B):
P (A ∩ B) = P (A) P (B|A) = 0,9 × 0,05 = 0,045
7. INDEPENDENCIA DE SUCESOS
Dos sucesos A y B son independientes si la ocurrencia de uno de ellos no influye en la ocurrencia

del otro, es decir:
P (A|B) = P (A) ⇔ A y B son independientes ⇔ P (B|A) = P (B)
Utilizando la definición de probabilidad condicionada se obtiene una definición equivalente para la

independencia de sucesos:
P (A ∩ B) = P (A) P (B) ⇔ A y B son independientes
EJEMPLO 13
Una urna contiene 4 bolas blancas y 2 negras. Se extraen 2 bolas:
.../...
www.udima.es 79
│ Sumario
.../...
• Con reemplazamiento.
• Sin reemplazamiento.
Comprobar si son independientes los sucesos A = «Primera bola es blanca» y B = «Segunda bola es blanca».
• Con reemplazamiento
4
P (A) = = P (B)
6
4 4
P (A ∩ B) = P (A) P (B|A) = ×
6 6
Así, P (A ∩ B) = P (A) P (B) y sí son independientes.
• Sin reemplazamiento.
4
P (A) =
6
‒ ‒
P (B) = P ({nb} o {bb}) = P ((A ∩ B) ∪ (A ∩ B)) = P (A ∩ B) + P (A ∩ B) =
‒ ‒ 2 4 4 3 2 4
= P (A) P (B|A) + P (A) P (B|A) = × + × = =
6 5 6 5 3 6
4 3
P (A ∩ B) = P (A) P (B|A) = ×
6 5
Así, P (A ∩ B) ≠ P (A) P (B) y no son independientes.
Como se puede observar, la diferencia entre extraer las bolas con reemplazamiento y sin reemplazamiento
está en la noción de independencia.
7.1. FIABILIDAD DE UN SISTEMA
Se define la fiabilidad de un sistema como la probabilidad de que el sistema funcione correctamente.

Un sistema será un conjunto de componentes dispuestos según un diseño determinado para garantizar
una fiabilidad aceptable.
EJEMPLO 14
Considérese una máquina formada por 4 componentes conectados en serie de manera que la máquina fun-
ciona solo si funcionan todos ellos. Si los 4 componentes operan de forma independiente y la probabilidad
de que un componente funcione después de 100 horas es 0,95, calcular la fiabilidad del sistema después de
100 horas.
.../...
80 www.udima.es
Sumario │
.../...
Se definen los sucesos:
Ci = «Componente i funciona», i = 1, 2, 3, 4
Aplicando la independencia de los sucesos, la fiabilidad de la máquina es:
P (sistema funcione) = P (C1 ∩ C2 ∩ C3 ∩ C4) = P (C1) P (C2) P (C3) P (C4) = 0,954 = 0,8145
Se observa que aunque la fiabilidad de cada componente es alta, la de la máquina no lo es tanto al reque-
rir el funcionamiento de todos los componentes. Para resolver esto, se pueden disponer varios sistemas en
paralelo de manera que el sistema funcione si al menos uno de esos sistemas funciona.
EJEMPLO 15
Un sistema contiene 3 componentes, A, B y C, conectados según se indica en la figura 2.
Figura 2. Configuración del sistema
Si los 3 componentes funcionan independientemente y la probabilidad de que uno cualquiera de ellos esté
funcionando es 0,95, obtener la probabilidad de que el sistema funcione:
Sea A el suceso que representa que funciona el componente A, análogo para B y C. La fiabilidad del sistema es:
P (sistema funcione) = P ((A ∪ B) ∩ C) = P ((A ∩ C) ∪ (B ∩ C)) = P (A ∩ C) + P (B ∩ C) ‒ P (A ∩ B ∩ C) =

= P (A) P (C) + P (B) P (C) ‒ P (A) P (B) P (C) = 2 · 0,952 ‒ 0,953 = 0,9476
También se puede calcular a partir de su complementario:
P (sistema funcione) = 1 ‒ P (sistema no funcione)
Donde:
‒ ‒ ‒ ‒ ‒ ‒ ‒ ‒ ‒
P (sistema no funcione) = P ((A ∩ B ) ∪ C ) = P (A ∩ B ) + P (C ) ‒ P (A ∩ B ∩ C ) =
‒ ‒ ‒ ‒ ‒ ‒
= P (A) P (B ) + P (C ) ‒ P (A) P (B ) P (C ) = 0,052 + 0,05 ‒ 0,052 = 0,05237
Y por tanto, la probabilidad de que el sistema funcione es 1 ‒ 0,05237 = 0,9476, como ya se había calculado.
En la resolución de este ejemplo se ha utilizado que si A, B y C son independientes mutuamente, también
‒ ‒ ‒
lo son sus complementarios A, B y C .
www.udima.es 81
│ Sumario
8. TEOREMA DE LA PROBABILIDAD TOTAL
El teorema de la probabilidad total permite calcular la probabilidad de un suceso a partir de proba-

bilidades condicionadas.
Sea (B1, …, Bn) un sistema completo de sucesos (disjuntos y tales que ∪ ni=1 Bi = Ω), de modo que
P (Bi) > 0 para todo i = 1, …, n. Dado cualquier suceso A:
n
P (A) = Σ P (A|Bi) P (Bi)
i=1
EJEMPLO 16
Hay 2 cajas que contienen chips grandes y chips pequeños. La primera caja contiene 60 chips grandes y 40
pequeños, y la segunda, 10 grandes y 20 pequeños. Se selecciona una caja al azar y se extrae un chip de la
misma. Determinar la probabilidad de que el chip sea grande.
Se definen los sucesos
B1 = «Seleccionar la primera caja»

B2 = «Seleccionar la segunda caja»
A = «El chip es grande»
La figura 3 muestra el diagrama de Venn para este ejemplo.
Figura 3. Diagrama de Venn
B1
B2
A
La probabilidad pedida es:
60 1 10 1 3 1 7
P (A) = P (A ∩ B1) + P (A ∩ B2) = P (A|B1) P (B1) + P (A|B2) P (B2) = × + × = + =
100 2 30 2 10 6 15
9. TEOREMA DE BAYES
El teorema de Bayes va a seguir el proceso inverso al realizado en el teorema de la probabilidad

total.
82 www.udima.es
Sumario │
Sea (B1, … Bn) un sistema completo de sucesos de modo que P (Bi) > 0 para todo i = 1, …, n. Dado
cualquier suceso A tal que P (A) > 0:
P (A ∩ Bi) P (A|Bi ) P (Bi)

P (Bi |A) = =
P (A) Σnj=1 P (A|Bj) P (Bj)
Para entender el mecanismo del teorema de Bayes, supóngase que se realiza un experimento en dos fases:
• En la primera, los sucesos posibles B1, …, Bn son mutuamente excluyentes (disjuntos dos
a dos) con probabilidades conocidas y tales que Σ P (Bi) = 1.
• En la segunda, los resultados posibles Aj dependen de la primera y lo que es conocido son
las probabilidades condicionadas P (Aj|Bi) de obtener cada posible resultado Aj cuando apa-
rece en la primera fase Bi.
Se realiza entonces el experimento, pero solo se conoce

el resultado de la segunda etapa que resulta ser A. El teo-
rema de Bayes permite calcular las probabilidades P (Bi |A)
de los sucesos no observados de la primera etapa, dado el
resultado de la segunda.
Aunque este teorema parezca una simple aplicación de

la probabilidad condicionada, ha sido clave en el desarrollo Thomas Bayes (1702-1761). Teólogo y ma-
temático británico. Ordenado ministro presbi-
de la inferencia estadística bayesiana, en la que se emplea teriano, ejerció de pastor en Turnbridge Wells
la interpretación subjetiva de la probabilidad. En este con- desde 1720 a 1752.
texto, las probabilidades P (B1), …, P (Bn) se conocen con Bayes fue el primero en utilizar la probabili-
dad inductivamente y en establecer una base
el nombre de probabilidades a priori, mientras que las pro- matemática para la inferencia probabilística
babilidades P (Bj|A) se denominan probabilidades a poste- (la manera de calcular, a partir de la frecuen-
cia con la que un acontecimiento ha ocurrido,
riori, ya que se determinan una vez obtenida la evidencia la probabilidad de que ocurra en el futuro).
muestral. Esta evidencia permite calcular las probabilida- Laplace aceptó sus conclusiones en 1781.
des P (A|Bj), llamadas verosimilitudes.
EJEMPLO 17
En el ejemplo anterior, supóngase que se sabe que el chip extraído ha sido grande. Calcular la probabilidad
de que proceda de la primera caja.
Hay que calcular la probabilidad P (B1|A). Aplicando el teorema de Bayes:
P (A|B1) P (B1) 3/10 45

P (B1|A) = = = ≅ 0,64
P (A|B1) P (B1) + P (A|B2) P (B2) 7/15 70
EJEMPLO 18
Una universidad compra sus equipos informáticos a 3 proveedores diferentes. Supóngase que el 20 % de
los equipos fueron comprados al proveedor 1, el 30 % al proveedor 2 y el 50 % al proveedor 3. Además, se
.../...
www.udima.es 83
│ Sumario
.../...
sabe que antes del primer año fallan el 1 % de los equipos del proveedor 1, el 2 % de los del proveedor 2 y el
3 % de los del proveedor 3. Se selecciona al azar un computador y se observa que falla antes del primer año.
Determinar la probabilidad de que este haya sido comprado al proveedor 2.
Se consideran los siguientes sucesos:
Bi = «El computador fue comprado al proveedor i»

A = «El computador falló antes del primer año»
Por el enunciado se conocen las siguientes probabilidades:
P (B1) = 0,2 P (A|B1) = 0,01

P (B2) = 0,2 P (A|B2) = 0,02
P (B3) = 0,5 P (A|B3) = 0,03
Por el teorema de Bayes:
P (A|B2) P (B2)
P (B2|A) = = 0,26
Σ3j =1 P (A|Bj) P (Bj)
10. A
NEXO: MÉTODOS DE CONTEO PARA DETERMINACIÓN DE PROBABI-
LIDADES
En muchos casos, como en algunos juegos de azar, se trabaja con espacios muestrales finitos en los
que los sucesos elementales son equiprobables. Como ya se ha visto, en estos casos se utiliza la regla
de Laplace para determinar la probabilidad de sucesos compuestos, y, por tanto, se necesita determinar
cuántas situaciones se consideran favorables y cuántas posibles. Para ello se utiliza el análisis combina-
torio, el cual se estudia con más profundidad en el manual de Matemática discreta.
A continuación se muestran algunas definiciones previas:
• Población. Es una colección finita o infinita de elementos, que va a ser el conjunto de refe-
rencia sobre el que van a recaer las observaciones.
• Muestra de tamaño r. Es un subconjunto de la población con r elementos.
• Muestreo. Es la toma de la muestra. Se utilizará el muestreo aleatorio, es decir, se supone que
la muestra se selecciona mediante un experimento aleatorio. Existen dos tipos de muestreo:
– Sin reemplazamiento.
– Con reemplazamiento.
Extraídos r elementos de la población por cualquiera de los dos procedimientos, se puede

considerar que esos elementos están:
– Ordenados. Originando las muestras ordenadas.

– Sin ningún orden. Originando las muestras sin ordenar o subpoblaciones.
84 www.udima.es
Sumario │
Así, en este contexto se tienen cuatro tipos básicos de muestreo aleatorio:
– Sin reemplazamiento y los objetos ordenados.

– Con reemplazamiento y los objetos ordenados.
– Sin reemplazamiento y los objetos no ordenados.
– Con reemplazamiento y los objetos no ordenados.
Para contar el número de veces que pueden ocurrir todos los sucesos que se pueden observar se uti-
liza el principio fundamental del conteo o regla de multiplicación que se expresa de la siguiente forma:
dados k conjuntos A1, A2, …, Ak cada uno con un número de elementos n1, n2, …, nk respectivamente,
se pueden formar n1 · n2 · … nk ordenaciones de la forma (x1, …, xk) donde x1 es un elemento de A1,
…, xk es un elemento de Ak.
EJEMPLO 19
Se quiere clasificar un colectivo de personas según su sexo (hombre, mujer), estado civil (soltero, casado,
viudo) e idioma (considérense 10 básicos). Determinar el número de clases que se obtendrán:
2 · 3 · 10 = 60 clases
Este principio establece que todos los posibles resultados en una situación determinada se pueden encon-
trar multiplicando el número de formas en las que puede suceder cada suceso y es la base para desarrollar
otros conceptos como variaciones y combinaciones que se presentan a continuación.
10.1. SIN REEMPLAZAMIENTO Y ORDENADOS
Para determinar todas las muestras diferentes de tamaño r que se pueden seleccionar sin reempla-
zamiento de una población de tamaño n y en la que los objetos están ordenados (importa el orden en el
que están colocados) se utilizan las variaciones.
Variaciones de n elementos tomados de r en r son los diferentes grupos de r elementos que se

pueden formar con los n elementos, de forma que dos grupos son distintos si tienen algún elemento dis-
tinto o si están en distinto orden. Se denotan con Vn,r.
Utilizando el principio fundamental de conteo se obtiene cuántos grupos hay. Para la primera posi-
ción se puede seleccionar cualquiera de los n elementos, para la segunda, como ya se ha extraído un ele-
mento de la población y el muestreo es sin reemplazamiento, se tienen n – 1 opciones, para la tercera,
n – 2, etc. Siguiendo con este razonamiento, para la última posición ya se han utilizado r – 1 elementos,
quedando n – (r – 1) = n – r + 1 elementos entre los que se seleccionará este último. Así:
n!
Vn,r = n (n – 1) … (n – r + 1) =
(n – r)!
Si r = n, se corresponde con ordenar n elementos, y se obtienen las permutaciones de n elementos,

que son las distintas ordenaciones de dichos elementos.
Pn = Vn,n = n!
www.udima.es 85
│ Sumario
EJEMPLO 20
Con las letras distintas de la palabra probabilidad, formar palabras de 3 letras diferentes (aunque carezcan
de significado). ¿Cuántas de ellas empiezan por P? ¿Cuántas empiezan por P y acaban en D?
En total se pueden formar V8,3 = 8 · 7 · 6 = 336 palabras, de las cuales empiezan por P V7,2 = 7 · 6 = 42 y las que
empiezan por P y acaban en D son V6,1 = 6.
10.2. CON REEMPLAZAMIENTO Y ORDENADOS
Cuando se vuelve a introducir el elemento observado en la población antes de la siguiente extrac-

ción, se obtienen las variaciones con repetición.
Variaciones con repetición de n elementos tomados de r en r son los diferentes grupos de r ele-
mentos que se pueden formar con los n elementos, en los que pueden aparecer elementos repetidos, de
forma que dos grupos son distintos si tienen algún elemento distinto o si están en distinto orden. Es decir,
son las variaciones ordinarias, pero admitiendo la posibilidad de que se repitan elementos en un mismo
grupo. Se denotan con VRn,r.
Ahora se tienen n opciones en cada una de las extracciones por ser con reemplazamiento. Así:
VRn,r = nr
Una aplicación inmediata de las variaciones con repetición es a los problemas de ocupación de r
bolas en n celdas, considerando las bolas como distinguibles. Representan las formas posibles de meter
las r bolas en las n celdas.
EJEMPLO 21
Formas posibles de rellenar una quiniela de 14.
VR3,14 = 314
10.3. SIN REEMPLAZAMIENTO Y NO ORDENADOS
Cuando el muestreo se realiza sin reemplazamiento y no importa el orden de los elementos dentro
del grupo, se obtienen las combinaciones.
Combinaciones de n elementos tomados de r en r son los diferentes grupos de r elementos que

se pueden formar con los n elementos, de forma que dos grupos son distintos si tienen algún elemento
distinto. Las combinaciones son subpoblaciones o subconjuntos. Se denotan con Cn,r.
86 www.udima.es
Sumario │
Las subpoblaciones (combinaciones) y las muestras ordenadas sin reemplazamiento (variaciones)

solo se diferencian en el orden. Una subpoblación determinada de tamaño r dará lugar a r! muestras
ordenadas de tamaño r. Así:
Vn,r n! n
Cn,r = = = � �,r≤n
r! (n – r)! r! r
Estos números se llaman números combinatorios o coeficientes binomiales. Algunas de sus pro-
piedades son las siguientes:
n n n n
• � �=� � y de ahí � � = � � = 1
r n–r n 0
n
• � �=n
1
n n–1 n–1
• � �=� �+� �
r r–1 r
EJEMPLO 22
Se ha de seleccionar a 5 profesores de un departamento para formar parte de un tribunal. Supóngase que el

director de departamento debe elegirlos de entre 10 hombres y 4 mujeres. Si este decide que de los 5 profe-
sores 3 sean hombres y 2 mujeres, ¿de cuántas formas puede lograrse lo anterior?
Formas de seleccionar 3 hombres de 10:
10 10!
C10,3 = � 3 � = =6
7! · 3!
Formas de seleccionar 2 mujeres de entre 4:
4 4!
C4,2 = � 2 � = =6
2! · 2!
Por tanto, el número de maneras en que ambos pueden ocurrir es 120 · 6 = 720.
10.4. CON REEMPLAZAMIENTO Y NO ORDENADOS
En este caso se utilizan las combinaciones con repetición.
Combinaciones con repetición de n elementos tomados de r en r son los diferentes grupos de r

elementos que se pueden formar con los n elementos, en los que pueden aparecer elementos repetidos,
de forma que dos grupos son distintos si tienen algún elemento distinto. Las combinaciones son subpo-
blaciones o subconjuntos. Es decir, son las combinaciones ordinarias, pero admitiendo la posibilidad de
que se repitan elementos de un mismo grupo. Se denotan con CRn,r.
www.udima.es 87
│ Sumario
Al ser un muestreo con reemplazamiento, serán necesarios r reemplazamientos, con lo que se puede
considerar como una selección sin reemplazamiento, en la que se tiene en cuenta el orden de los elemen-
tos, de r elementos de una población con n + r – 1 elementos. Así:
n+r–1
CRn,r = � �
r
Las combinaciones con repetición se utilizan en los problemas de ocupación de r bolas en n celdas,
cuando las bolas son indistinguibles.
EJEMPLO 23
¿Cuántos resultados posibles se obtienen al lanzar 5 dados indistinguibles?
10
CR6,5 = � 5 �
10.5. PARTICIONES
Se denomina partición de tamaño r de una población de tamaño n a una división de la población

en r grupos ordenados de elementos desordenados, tal que:
• El grupo i-ésimo tiene ni elementos (i = 1, …, r).

• n1 + n2 + … + nr = n.
Es decir, se está dividiendo la población en r subpoblaciones (dentro de cada grupo no se tiene en

cuenta el orden de los elementos) y se tiene en cuenta el orden de tales subpoblaciones.
10.5.1. Permutaciones con repetición
Las permutaciones con repetición de r elementos distintos tales que el primero aparece n1
veces,…, el r-ésimo nr veces, con n1 + n2 + … + nr = n, son los diferentes grupos que se pueden formar
con los r elementos distintos de forma que en cada grupo cada elemento aparezca n1, …, nr veces res-
pectivamente y esto en un orden determinado. Se denotan con PR nn1, …, nr.
Esto equivale a determinar el número de particiones distintas de tamaño r en las que se pueden divi-
dir los n elementos de forma que el primer grupo tenga tamaño n1, …, el r-ésimo grupo tamaño nr . Se
puede demostrar que:
n!
PR nn1, …, nr =
n1! n2! … nr!
Son los coeficientes multinomiales.
88 www.udima.es
Sumario │
EJEMPLO 24
Se reparten las 40 cartas de una baraja entre 4 jugadores. Calcular la probabilidad de que cada jugador tenga
un as.
• Casos posibles:
40!
PR40
10,10,10,10 =
(10!)4
• Casos favorables:
Si le toca un as a cada jugador, las 36 cartas restantes se pueden repartir en 4 grupos de 9 cartas de
PR369,9,9,9 formas.
Y las formas de repartir los 4 ases entre los 4 jugadores son P4 = 4! , con lo que los casos favorables son:
4! · PR36
9,9,9,9
Así, por la regla de Laplace, la probabilidad pedida es:
4! · PR36
9,9,9,9
PR40
10,10,10,10
www.udima.es 89
│ Sumario

• Saber operar con probabilidades utilizando la notación conjuntista y resolver problemas de
incertidumbre mediante el lenguaje de sucesos.
• Calcular probabilidades mediante la regla de Laplace.
• Saber trabajar con los principales teoremas de la probabilidad condicionada, en especial con
el teorema de Bayes.
 ACTIVIDADES DE REPASO
Enunciado 1
Una urna contiene r bolas rojas y b blancas. Se extrae una bola al azar y se observa el color. Se
devuelve la bola a la urna, introduciéndose además k bolas adicionales del mismo color. Se extrae alea-
toriamente una segunda bola, se observa el color y se devuelve a la urna junto con k bolas adicionales
del mismo color. Cada vez que se extrae una bola se repite el proceso. Si se extraen 4 bolas, ¿cuál es la
probabilidad de que las tres primeras sean rojas y la cuarta blanca?
Enunciado 2
En el lanzamiento de 2 dados, se ha observado que la suma total de los dos números ha sido impar.
Determinar la probabilidad de que dicha suma sea menor que 8.
Enunciado 3
Un centro de cálculo dispone de 3 grandes procesadores que atienden trabajos de distintos tipos de
los alumnos del centro. De los trabajos que llegan, 2/5 son para el procesador A, 2/5 para el B y 1/5 para
el C. Además, se reserva parte del tiempo para tareas de mantenimiento y uso por parte del personal del
centro, de manera que el procesador A solo está disponible para los alumnos el 50 % del tiempo, y el B
y el C solo están disponibles el 75 %. Calcular la probabilidad de que:
• No esté ningún procesador disponible para los alumnos.

• Esté disponible el procesador que recibe el trabajo.
• Haya 3 trabajos seguidos para un procesador.
• Haya 3 trabajos seguidos, cada uno para un procesador distinto.
90 www.udima.es
Sumario │
Enunciado 4
Un sistema contiene 3 componentes A, B y C que se pueden conectar según las dos configuracio-
nes de la figura 4.
Figura 4. Configuraciones
A
A B
C
C
Si los 3 componentes funcionan independientemente, y si la probabilidad de que cualquiera de ellos

esté funcionando es 0,95, determinar la probabilidad de que el sistema funcione en cada una de las dos
configuraciones.
Enunciado 5
En el jardinero del señor Rodríguez no se puede confiar. La probabilidad de que olvide regar el
rosal durante la ausencia del señor Rodríguez es 2/3. El rosal está delicado. Si se riega, tiene la misma
probabilidad de progresar que de secarse; pero si no se riega, la probabilidad de progresar es solamente
0,25. Después de su regreso, el señor Rodríguez se encuentra con el rosal seco. ¿Cuál es la probabilidad
de que el jardinero no lo haya regado?
 E
1. En una clase hay N alumnos. Calcular la probabilidad de que al menos dos cumplen años
el mismo día. Indicar las hipótesis realizadas para resolver el problema. ¿Cuál es el número
mínimo de alumnos a los que debe preguntar para que la probabilidad de encontrar uno con
su mismo cumpleaños sea, al menos, 0,5?
2. Buscar un ejemplo que muestre que P (A ∩ B ∩ C ) = P (A) P (B) P (C ) no implica que los
tres sucesos A, B y C sean independientes dos a dos.
www.udima.es 91
│ Sumario
3. Un concursante debe elegir entre 3 puertas, detrás de una de las cuales se encuentra el pre-
mio. Hecha la elección y antes de abrir la puerta, el presentador le muestra que en una de
las puertas no escogidas no está el premio y le da la posibilidad de reconsiderar su elección.
¿Qué debe hacer el concursante?
4. Un cierto dispositivo formado por seis válvulas tiene la configuración de la figura 5.
Figura 5. Dispositivo
1 4
3
A B
5 6
Se denotará por pi la probabilidad de fallo de la válvula i en un instante de tiempo. Se dis-

pone de la siguiente información: p1 = p4 = 0,01, p2 = p3 = p6 = 0,1 y p5 = 0,15. Calcular
la probabilidad de que exista conexión entre el punto A y el punto B en dicho instante de
tiempo.
5. Supóngase que en un centro escolar están realizando una prueba médica para detectar cierta
enfermedad. La prueba es fiable al 90 % en el siguiente sentido: si una persona tiene la enfer-
medad, existe una probabilidad de 0,9 de que la prueba dé un resultado positivo; de igual
manera, si una persona no tiene la enfermedad, existe una probabilidad de solo 0,1 de que la
prueba dé resultado positivo. Los datos indican que las posibilidades de padecer la enferme-
dad son solo de 1 entre 1.000. Si para un alumno determinado se sabe que el resultado fue
positivo, ¿cuál es ahora la probabilidad de que ese alumno padezca la enfermedad? Inter-
pretar el resultado.
Básica
CANAVOS, G. C.: Probabilidad y estadística, México: McGraw-Hill, 1987.

DEVORE, J. L: Probabilidad y estadística para ingeniería y ciencias, 6.ª ed., International Thomson Editores, 2005.
LABROUSSE, C.: Estadística. Ejercicios resueltos, 2.ª ed., t. 1, Paraninfo, 1973.
— Estadística. Ejercicios resueltos, 2.ª ed., t. 2, Paraninfo, 1976.
92 www.udima.es
Sumario │
MENDENHALL, W. y SINCICH, T.: Probabilidad y estadística para ingeniería y ciencias, 4.ª ed, Prentice Hall, 1997.
MEYER, P. L.: Probabilidad y aplicaciones estadísticas, Addison-Wesley Iberoamericana, 1992.
PEÑA, D.: Fundamentos de estadística, Alianza Editorial, 2001.
RÍOS, S.: Ejercicios de estadística, 3.ª ed., ICE ediciones, 1977.
En la red
Fundamentos (sucesos, Applet para diagramas de Venn, combinatoria): http://www.math.uah.edu/stat/foundations/index. xhtml

Lecciones de probabilidad: http://cursofpg.educa.aragon.es/msolana/index.htm
Probabilidades de un suceso: http://www.cimt.plymouth.ac.uk/projects/mepres/book7/book7int.htm
Avanzada
FRENCH, S.: Decision Theory, Ellis Horwood, 1986.

QUESADA, V. y GARCÍA, A.: Lecciones de cálculo de probabilidades, Ediciones Díaz de Santos, 1988.
www.udima.es 93
Sumario │
4
UNIDAD
DIDÁCTICA
VARIABLES ALEATORIAS
1. Variable aleatoria. Concepto

2. Tipos de variables aleatorias
3. Distribuciones de probabilidad de variables aleatorias
3.1. Variables aleatorias discretas
3.2. Variables aleatorias continuas
4. Medidas características de una variable aleatoria

4.1. Medidas de centralización
4.1.1. Media
4.1.2. Mediana
4.1.3. Moda
4.2. Medidas de dispersión

4.2.1. Varianza y desviación típica
4.2.2. Cuantiles
4.2.3. Recorrido
4.3. Momentos de una variable aleatoria

4.3.1. Momento de orden k respecto del origen
4.3.2. Momento central de orden k
4.4. Medidas de forma

4.4.1. Medidas de asimetría
4.4.2. Medidas de apuntamiento o curtosis
4.5. Estandarización de una variable aleatoria
5. Desigualdad de Tchebychev
www.udima.es 95
│ Sumario

96 www.udima.es
Sumario │
A. Moreno Díaz Variables aleatorias
En esta unidad didáctica se estudia el concepto básico de variable aleatoria, así como diversas fun-
ciones fundamentales en su desarrollo. Es un concepto clave, y de su buena comprensión dependerá poder
trabajar con modelos probabilísticos apropiados del mundo real. Las medidas características que se estu-
diaron en la unidad didáctica 2 relacionadas con un conjunto de datos se extienden a medidas caracterís-
ticas de variables aleatorias al final de esta unidad didáctica.
• Comprender el uso de la variable aleatoria para modelizar la incertidumbre.

• Dominar diferentes herramientas para describir una ley de incertidumbre y conocer sus pro-
piedades matemáticas.
• Comprender y manejar el operador esperanza y varianza.
www.udima.es 97
│ Sumario
1. VARIABLE ALEATORIA. CONCEPTO
Previamente a la definición formal, se ilustra el concepto con un par de ejemplos:
Dado un fenómeno o experimento aleatorio como, por ejemplo, el lanzamiento de una moneda, inte-
resa conocer si es cara o cruz. Para facilitar el tratamiento matemático del resultado del experimento se
asociará a cada resultado posible un número real. Así, por ejemplo, si sale cara se representa con un 1, y
si sale cruz, con un 0. Esta es la versión más sencilla de variable aleatoria, una función que asocia a cada
resultado posible del espacio muestral un número real.
EJEMPLO 1
En el experimento de lanzar 1 moneda, el espacio muestral (conjunto de resultados posibles) es Ω = {c, x}.
En este contexto y si la moneda no está trucada:
1 1
P (c) = y P (x) =
2 2
Asociar a cada resultado del experimento un número real es el primer paso para definir una variable alea-
toria, por ejemplo:
X: Ω → ℝ
c → 1
x → 0
EJEMPLO 2
En el lanzamiento de 2 monedas interesa conocer el número de caras en una tirada. Se asocia a cada
resultado posible del experimento un número que represente dicho número de caras, definiendo la
aplicación:
X: Ω → ℝ
cc → 2
cx → 1
xc → 1
xx → 0
Sea Ω un espacio muestral sobre el que está definida una función de probabilidad. Una variable
aleatoria X es una función con valores en ℝ definida sobre Ω. Transforma los resultados de Ω en pun-
tos de ℝ, es decir, en cantidades numéricas. Es aleatoria porque involucra la probabilidad de los resul-
tados de Ω.
98 www.udima.es
Sumario │
EJEMPLO 3
En el experimento del ejemplo 2, Ω = {cc, cx, xc, xx}. La probabilidad de cada uno de estos resultados, al ser
las tiradas independientes, es 1/4. La variable aleatoria X definida es tal que:
X (cc) = 2, X (cx) = X (xc) = 1, X (xx) = 0
En general, se definirá la variable aleatoria asignando a cada resultado del experimento un número,
de forma que:
• Si el resultado es numérico porque se cuenta o se mide la característica, los posibles valores

de la variable aleatoria coincidirán con los resultados del experimento.
• Si el resultado es cualitativo, se hace corresponder a cada resultado un número de forma
arbitraria (por ejemplo, 0 si una pieza no es defectuosa, 1 si lo es).
La variable aleatoria estará definida cuando se hayan especificado sus posibles valores con sus res-
pectivas probabilidades.
EJEMPLO 4
La variable aleatoria del ejemplo 2 toma los valores 0, 1 y 2, según sea el número de caras obtenidas al lan-
zar las dos monedas. La probabilidad, que en un principio estaba definida sobre el espacio muestral Ω, se
traslada, inducida por la variable aleatoria X, a una probabilidad sobre los valores 0, 1 y 2:
1
P (X = 0) = P ({xx}) =
4
1 1 1
P (X = 1) = P ({cx, xc}) = + =
4 4 2
1
P (X = 2) = P ({cc}) =
4
Tabla 1. Correspondencia entre los resultados del experimento y la variable aleatoria del ejemplo 2
Valor de Número de
Resultado Probabilidad
la variable aleatoria ocurrencias
{xx} 0 1 1/4
{cx, xc} 1 2 1/2
{cc} 2 1 1/4
www.udima.es 99
│ Sumario
2. TIPOS DE VARIABLES ALEATORIAS
Las variables aleatorias poseen intrínsecamente la naturaleza discreta o continua del espacio mues-
tral asociado. Se tienen:
• Variables aleatorias discretas. Toman un número finito o infinito numerable de valores.

Se corresponden con experimentos en los que se cuenta el número de veces que ha ocurrido
un suceso. Por ejemplo, número de caras en sucesivas tiradas de una moneda, número de
piezas defectuosas en ciertos lotes, etc.
• Variables aleatorias continuas. Toman un conjunto de valores infinito no numerable,
generalmente, uno o varios intervalos de la recta real. Por ejemplo, el peso de una persona,
duración de un proceso, etc.
3. DISTRIBUCIONES DE PROBABILIDAD DE VARIABLES ALEATORIAS
Se estudian a continuación las herramientas fundamentales para manejar y describir la distribución

de probabilidad representada por una variable aleatoria. Para una variable aleatoria discreta se introducen
los conceptos de función de probabilidad y función de distribución. Para una variable aleatoria continua
se introducen los conceptos de función de densidad y función de distribución.
3.1. VARIABLES ALEATORIAS DISCRETAS
La variable aleatoria discreta reparte o distribuye su masa o probabilidad en una cantidad discreta
de puntos. Se denotará por p (x) = P (X = x) la probabilidad de que X tome el valor x. Al considerar
los valores de una variable aleatoria, la función que asigna una probabilidad a cada realización x de X
recibe el nombre de función de probabilidad. Esta función de probabilidad también se llama función
de masa o cuantía. Claramente, si el valor x concreto no es uno de los valores de X, entonces su proba-
bilidad será 0, p (x) = 0.
La función p (x) = P (X = x) es función de probabilidad de una variable aleatoria X si satisface:
• p (x) ≥ 0, para todos los valores x de X.

• Σx p (x) = 1.
Se llama soporte de una variable aleatoria discreta al conjunto de puntos que tienen probabilidad
distinta de 0 y a cada uno de esos puntos se los llama puntos de masa.
EJEMPLO 5
La variable aleatoria X = Número de caras que se obtienen al lanzar dos monedas tiene como soporte el conjunto
{0, 1, 2} y su función de probabilidad es (véase ejemplo 4):
1
p (0) = P (X = 0) =
4 .../...
100 www.udima.es
Sumario │
.../...
1
p (1) = P (X = 1) =
2
1
p (2) = P (X = 2) =
4
La representación gráfica de esta función de probabilidad se muestra en la figura 1.
Figura 1. Función de probabilidad
p (x)
0,50
0,25
0 1 2 X
Otra forma equivalente de caracterizar la distribución de una variable aleatoria es mediante la fun-
ción de distribución. La función de distribución de la variable aleatoria X, definida en cada punto x0, da
la probabilidad de que X tome un valor menor o igual que x0:
F (x0) = P (X ≤ x0) = Σ P (X = xi) = Σ p (xi)

xi ≤x0 xi ≤x0
Si la variable aleatoria toma los valores (ordenados) x1, x2, …, xn, la función de distribución viene
dada por:
F (x1) = P (X ≤ x1) = p (x1)

F (x2) = P (X ≤ x2) = p (x1) + p (x2)
⫶
n
F (xn) = P (X ≤ xn) = Σ p (xi) = 1
i=1
Por tanto, la función de distribución tiene saltos en los puntos que tienen probabilidad distinta de 0
del espacio muestral. Estos saltos tienen como magnitud la probabilidad en dicho punto. La función es
constante en los puntos situados entre dos puntos de salto.
www.udima.es 101
│ Sumario
En general, la función de distribución de una variable aleatoria discreta se caracteriza por:
• 0 ≤ F (x) ≤ 1, ∀x.
• Es monótona no decreciente: si xi ≤ xj ⇒ F (xi) ≤ F (xj).
• F (– ∞) = lim x→–∞ F (x) = 0 y F (+ ∞) = 1.
• Es continua por la derecha: lim h→0 F (x + h) = F (x), h > 0.
Además, se puede establecer:
• P (X > x) = 1 – P (X ≤ x) = 1 – F (x).
• P (X = x) = F (x) – F (x – 1), si X toma valores enteros.
• P (xi ≤ X ≤ xj) = F (xj) – F (xi – 1), si X toma valores enteros.
EJEMPLO 6
Continuando con el ejemplo 5, la función de distribución viene dada por:
0 si x<0
F (x) =
{ 1
4
3
4
1
si
si
si
0≤x<1
1≤x<2
x≥2
La representación gráfica de esta función de distribución se muestra en la figura 2.
Figura 2. Función de distribución
F (x)
0,75
0,50
0,25
0 1 2 X
102 www.udima.es
Sumario │
3.2. VARIABLES ALEATORIAS CONTINUAS
Una variable aleatoria continua toma valores en un conjunto infinito no numerable de puntos. En
este caso no es posible asignar una probabilidad a cada uno de los infinitos valores posibles que puede
tomar, por lo que se habla de probabilidad de intervalos en lugar de probabilidad de puntos. De hecho, la
probabilidad de que una variable aleatoria continua tome un valor concreto y específico es 0. Por ejem-
plo, si se mide el tiempo de ejecución de determinado programa de forma repetida con un cronómetro
de precisión hasta las milésimas, ¿cuál es la probabilidad de obtener exactamente una duración de 3,332
minutos? Tal vez no se obtenga nunca, por muchas mediciones que se efectúen. Sin embargo, sí se obten-
drán medidas que oscilen entre 3 y 3,5 segundos, es decir, en el intervalo [3; 3,5] o en el intervalo [3, 4].
Las variables aleatorias continuas se caracterizan mediante su función de densidad y/o su función
de distribución:
La función de densidad no es la misma que la función de probabilidad de una variable aleatoria

discreta. Como la probabilidad de que X, variable aleatoria continua, tome un valor específico x es 0, la
función de densidad no representa la P (X = x). Lo que hace es proporcionar un método para determinar
la probabilidad de que la variable aleatoria X pertenezca a un intervalo, a ≤ X ≤ b, con a y b números rea-
les. Si se representa una variable aleatoria continua mediante un histograma y se dibuja el polígono de
frecuencias relativas, este polígono tenderá a una curva suave conforme se aumente el número de clases
reduciendo su longitud cada vez más (véase figura 3). Esa curva límite representará el comportamiento
de la variable estudiada y coincidirá con la función de densidad, que se denotará por ƒ (x).
Figura 3. La función de densidad como límite de histogramas de frecuencia relativa
0,8
0,6
0,4
0,2
0
‒ 3,2 ‒ 1,2 0,8 2,8 4,8
Se dirá que ƒ (x) es la función de densidad de la variable aleatoria continua si verifica:
• ƒ (x) ≥ 0.
∞
• �–∞ ƒ (x) dx = 1, es decir, el área bajo la curva es igual a 1.
www.udima.es 103
│ Sumario
El conocimiento de la función de densidad permite calcular las probabilidades de distintos interva-

los mediante integración (véase figura 4):
x0
P (X ≤ x0) = � ƒ (x) dx
–∞
b
P (a ≤ X ≤ b) = � ƒ (x) dx
a
x0
P (X = x0) = � ƒ (x) dx = 0
x0
Figura 4. P (X ≤ x0) y P (a ≤ X ≤ b), respectivamente
ƒ (x)
ƒ (x)
x0 a b
∆x ∆x
Para una base lo suficientemente pequeña, ∆x, la probabilidad del intervalo �x0 – , x0 + �
2 2
se puede aproximar por el área del rectángulo de altura ƒ (x0) (véase figura 5):
Figura 5. Interpretación de ƒ (x0)
ƒ (x)
x0 x
x0 ‒ ∆x/2 x0 + ∆x/2
104 www.udima.es
Sumario │
Si ∆x = 1, P (x0 – 0,5 ≤ X ≤ x0 + 0,5) ≈ ƒ (x0) y se interpretará ƒ (x0) como la probabilidad de que X

tome un valor entre x0 – 0,5 y x0 + 0,5.
En resumen, la función de densidad ƒ (x) representa una aproximación muy útil para calcular pro-
babilidades partiendo de un histograma de forma:
• Más simple. La expresión de ƒ (x) sustituye a la tabla completa de valores de la distribución

de frecuencias.
• Más general. No refleja el comportamiento de una muestra, sino la estructura en la distri-
bución de los valores de la variable a largo plazo.
• Más operativa. Permite obtener la probabilidad de cualquier suceso.
Para una variable aleatoria X se define la función de distribución F (x) como en el caso discreto.
Es la probabilidad de que X tome un valor menor o igual que un x específico:
x
F (x) = P (X ≤ x) =� ƒ (t) dt
–∞
Es el área bajo la curva representada por la función de densidad ƒ (x) situada a la izquierda de la
x
recta X = x. Como P (X = x) = �x ƒ (t) dt = 0, se tiene:
P (a < X < b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a ≤ X ≤ b)
También se tiene que:
b a b
• P (a < X < b) = F (b) – F (a) = �–∞ ƒ (t) dt – �–∞ ƒ (t) dt = �a ƒ (t) dt.
• F es continua.
• Si ƒes continua en x, entonces F es derivable en x y F ' (x) = ƒ (x).
En general, la función de distribución F (x) de una variable aleatoria continua X se caracteriza por:
• 0 ≤ F (x) ≤ 1, ∀x.
• Si x1 ≤ x2 ⇒ F (x1) ≤ F (x2), es decir, es monótona no decreciente.
• F (– ∞) = 0 y F (∞) = 1.
• F es continua.
Además, se puede establecer:
• P (X ≥ x) = 1 – F (x).
• P (X = x) = 0.
b
• P (a ≤ X ≤ b) = �a ƒ (x) dx = F (b) – F (a).
• F' (x) = ƒ (x) si ƒ es continua en x.
www.udima.es 105
│ Sumario
EJEMPLO 7
Se tiene la función:
λe –λx
ƒ (x) = { 0
si x>0
en otro caso
Donde λ > 0. Comprobar que ƒ (x) define una función de densidad, obtener la correspondiente función de
distribución F (x) y calcular P (2 < X < 6) y P (X ≤ 8).
Es función de densidad, ya que:
• ƒ ≥ 0.
∞ ∞ ∞
• �–∞ ƒ (x) dx = �0 λe‒λx dx = ‒ e‒λx � 0 = 1 (en la resolución de la integral se ha omitido el corchete izquierdo).
Para la función de distribución se tiene:
x x x
∀x > 0, F (x) = �–∞ ƒ (t) dt = �0 λe‒λt dt = ‒ e‒λx � 0 = 1 ‒ e‒λx
x
∀x ≤ 0, F (x) = �–∞ 0 dt = 0
Por tanto:
1 ‒ e–λx si x>0
F (x) = { 0 si x≤0
F (x) es una función continua y ƒ (x) es la derivada de F (x) ∀x ∈ ℝ\{0}, ya que en x = 0 la función F no es
derivable (ƒ es discontinua en x = 0).
P (2 < X < 6) = F (6) ‒ F (2) = 1 ‒ e‒6λ ‒ (1 ‒ e‒2λ) = e‒2λ ‒ e‒6λ

P (X ≤ 8) = F (8) = 1 ‒ e‒8λ
4. MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE ALEATORIA
Para la distribución de una variable aleatoria se definen medidas características igual que se hizo
anteriormente para una distribución de frecuencias. Estas medidas características se suelen representar
con letras griegas para diferenciarlas de las que se calculan sobre un conjunto de datos o muestra, que se
representan con letras romanas y que se estudiaron en la unidad didáctica 2.
4.1. MEDIDAS DE CENTRALIZACIÓN
4.1.1. Media
La media, esperanza matemática o valor esperado de una variable aleatoria X es el promedio o valor
medio de X y se obtiene, por tanto, promediando (multiplicando) cada posible valor por su probabilidad:
106 www.udima.es
Sumario │
E (X) = Σ xp (x) = μ si X es discreta

x
∞
E (X) = �–∞ x ƒ (x) dx = μ si X es continua
Siendo p (x) y ƒ (x) las funciones de probabilidad y de densidad respectivamente.
EJEMPLO 8
Una empresa constructora va a participar en un concurso de adjudicación de proyectos en el que la ganan-

cia obtenida es una variable aleatoria X con la siguiente distribución de probabilidad:
Tabla 2
Ganancia en
Probabilidad
miles de euros
7 0,03
10 0,12
12 0,15
18 0,30
25 0,25
29 0,15
La esperanza matemática de la variable aleatoria que mide la ganancia es:
E (X) = 7 × 0,03 + 10 × 0,12 + 12 × 0,15 + 18 × 0,3 + 25 × 0,25 + 29 × 0,15 = 19,21
Participando en el concurso, la empresa obtendría un beneficio medio de 19,21 (unos 19.200 €).
EJEMPLO 9
La esperanza de la variable aleatoria del ejemplo 7 es:
∞
∞ ∞ e‒λx 1
E (X) =� x ƒ (x) dx = � x λe‒λx dx = ‒ � =
–∞ 0 λ 0 λ
Observaciones:
• La esperanza no tiene por qué ser uno de los valores posibles de la variable aleatoria X.
• La esperanza es un número fijo, no es una función de X. Puede no existir si la correspon-
diente suma o integral no converge a un valor finito.
www.udima.es 107
│ Sumario
Propiedades de la esperanza matemática:
• Si c es una constante, E (c) = c.

• Si X es una variable aleatoria con distribución conocida y se define Y = h (X), se tiene:
Σx
{ h (x) p (x) si X es discreta

E (h (X)) = +∞
� h (x) ƒ (x) dx si X es continua
–∞
• Si a y b son números reales, E (aX + b) = aE (X) + b.

• E (g (X) + h (X)) = E (g (X)) + E (h (X)).
4.1.2. Mediana
Intuitivamente es aquel valor que divide el total de

la probabilidad en dos partes iguales. Se dirá que Me es la
mediana de X si:
1
P (X ≤ Me) = si X es continua
2
1 1
F (Me) ≥ y F (Me–) ≤ si X es discreta Christian Huygens (La Haya, 1629-1695).
2 2 Fue un matemático, físico y astrónomo fran-
cés nacido en el seno de una importante
familia holandesa.
En el caso discreto, es el menor valor que satisface Fue uno de los pioneros en el estudio de la pro-
babilidad, publicando el libro De Ratiociniis in
Ludo Aleae (sobre los cálculos en los juegos
1
F (x) ≥ de azar) en 1656.
2 En dicha obra introdujo el concepto de es-
peranza matemática y resolvió algunos de
los problemas propuestos por Pascal, Femat
En las figuras 6 y 7 se puede ver cómo obtener la me- y De Méré.
diana gráficamente a partir del dibujo de la función de dis- Resolvió numerosos problemas geométricos
como la rectificación de la cisoide y la deter-
tribución. La figura 7, en concreto, refleja el caso en el que minación de la curvatura de la cicloide.
la mediana no es única.
EJEMPLO 10
Calcular la mediana para X, variable aleatoria con función de densidad:
4x3 si 0≤x≤1
ƒ (x) = { 0 en el resto
.../...
108 www.udima.es
Sumario │
.../...
La mediana es tal que F (Me) = 0,5, por tanto:
Me 1 1
F (Me) = � 4x3 dx = (Me)4 = ⇒ Me =
⁴ 2
0 2 √
Figura 6. Obtención de la mediana
F (x) F (x)
1 1
0,5 0,5
Me x Me x
Figura 7. Casos en que la mediana no es única
F (x) F (x)
1 1
0,5 0,5
{
Me x Me x
4.1.3. Moda
Para una variable aleatoria X, se define la moda Mo como aquel valor de X más probable. Es decir,
es el valor que maximiza la función de probabilidad si X es discreta y del valor que maximiza la función
de densidad si X es continua. En este último caso debería verificar que ƒ' (x) = 0 y ƒ'' (x) < 0. Si la moda
no es única, la distribución correspondiente se llama plurimodal o multimodal.
4.2. MEDIDAS DE DISPERSIÓN
A cada medida de centralización se le puede asociar una medida de dispersión.
www.udima.es 109
│ Sumario
4.2.1. Varianza y desviación típica
La varianza es la medida de dispersión asociada a la media. Se define como:
Σx
V (X) = σ2 =
{ �
–∞
(x – μ)2 p (x)
+∞
(x – μ)2 ƒ (x) dx
si X es discreta
si X es continua
Siendo μ = E (X). Es decir:
V (X) = E [(X – E (X))2]
La raíz cuadrada positiva de la varianza se denomina desviación típica, σ = + √ V (X).
La varianza es una medida de dispersión alrededor de la media. La figura 8 muestra dos funciones
de densidad para el caso de variables aleatorias continuas con distinta varianza. La más alta tiene menor
varianza que la otra; es decir, está menos dispersa alrededor de la media que, en ambos casos, es 0.
Figura 8. Dos funciones de densidad con igual media y distinta varianza
0,4
0,3
0,2
0,1
0
‒ 15 ‒ 10 ‒ 5 0 5 10 15
Propiedades:
• V (X) ≥ 0.
• Si a y b son dos números reales, V (aX + b) = a2 V (X).
• Para cualquier variable aleatoria X, V (X ) = E (X 2) – E (X)2.
• V (X) = 0 ⇔ ∃ c constante tal que P (X = c) = 1.
Se define el coeficiente de variación de Pearson como:
σ
CV =
| μ|
110 www.udima.es
Sumario │
Expresa la magnitud de la dispersión de una variable aleatoria con respecto a su media. Se utiliza
para comparar dos distribuciones de probabilidad cuando la escala de medición difiere de manera apre-
ciable entre estas.
4.2.2. Cuantiles
Para cualquier variable aleatoria X, xp es un cuantil de orden p ∈ [0, 1] si verifica:
P (X < xp) = F (xp–) ≤ p y P (X ≤ xp) ≥ p
Para una variable aleatoria continua, esto equivale a F (xp) = p.
Los cuantiles más importantes son:
• Percentiles. Son los puntos que dividen la distribución en 100 intervalos, cada uno con pro-
babilidad 0,01.
• Deciles. Son 9 puntos que dividen la distribución en 10 partes iguales, cada una con una
probabilidad de 0,1.
• Cuartiles. Son 3 puntos que dividen la distribución en 4 partes iguales, cada una con pro-
babilidad 0,25.
4.2.3. Recorrido
El recorrido es la diferencia entre el máximo y el mínimo de los valores que puede tomar una varia-
ble aleatoria. El recorrido o rango intercuartílico es la diferencia entre el tercer y primer cuartil, es
decir, x0,75 – x0,25. Representa la zona central de la distribución en la que se encuentra el 50 % de la pro-
babilidad. Este rango es la medida absoluta de dispersión más utilizada.
También se puede utilizar el recorrido o rango interdecílico, que es la diferencia entre el noveno
y el primer decil, es decir, x0,9 – x0,1. Representa la zona central en la que se encuentra el 80 % de la
probabilidad.
4.3. MOMENTOS DE UNA VARIABLE ALEATORIA
Los momentos de una variable aleatoria son valores esperados de ciertas funciones de X. Forman
una colección de medidas descriptivas que se pueden utilizar para caracterizar la distribución de X.
4.3.1. Momento de orden k respecto del origen
También llamado momento de orden k alrededor del cero o centrado, se define como:
Σx
ak = E (X k) =
{ �
–∞
x k p (x)
+∞
x k ƒ (x) dx
si X es discreta
si X es continua
www.udima.es 111
│ Sumario
4.3.2. Momento central de orden k
También llamado momento de orden k alrededor de la media o centrado en la media, se define

como:
Σx
μk = E [(X – μ)k] =
{ �
–∞
(x – μ)k p (x)
+∞
(x – μ)k ƒ (x) dx
si X es discreta
si X es continua
Observaciones:
• α1 = μ.
• μ2 = V (X).
• α0 = μ0 = 1, μ1 = 0, μ2 = α2 – α21.
4.4. MEDIDAS DE FORMA
4.4.1. Medidas de asimetría
Si la distribución de X es simétrica respecto a μ, todos los μk con k impar serán 0. Sin embargo, si
la distribución es asimétrica, los μk se harán cada vez mayores cuanto más grande sea la asimetría. Se
utiliza como medida de la asimetría de una distribución el tercer momento central estandarizado, que se
denomina coeficiente de asimetría de Fisher o primer factor de forma:
μ3
γ1 =
σ3
• Si γ1 = 0, la distribución es simétrica.
• Si γ1 > 0, la distribución presenta asimetría positiva o desviada a la derecha.
• Si γ1 < 0, la distribución presenta asimetría negativa o desviada a la izquierda.
4.4.2. Medidas de apuntamiento o curtosis
El coeficiente de apuntamiento o segundo factor de forma se define como el cuarto momento

central estandarizado, es decir:
μ4
γ2 = –3
σ4
• Si γ2 = 0, la distribución es mesocúrtica (ni alta ni baja).

• Si γ2 > 0, la distribución es leptocúrtica (con un pico bastante alto).
• Si γ2 < 0, la distribución es platicúrtica (relativamente plana).
112 www.udima.es
Sumario │
4.5. ESTANDARIZACIÓN DE UNA VARIABLE ALEATORIA
Si X es una variable aleatoria con media o esperanza μ y desviación típica σ, la variable aleatoria:
X–μ
Y=
σ
Recibe el nombre de variable aleatoria estandarizada o tipificada correspondiente a X. Se carac-

teriza por tener media o esperanza 0 y desviación típica igual a 1. La estandarización afecta a la media
y varianza de la variable original, pero no a los factores de forma.
5. DESIGUALDAD DE TCHEBYCHEV
Sea X una variable aleatoria con E (X) = μ y V (X) = σ2,

entonces:
1
P (|X – μ| ≥ kσ) ≤ ∀k>0
k2 Pafnuti L. Tchebychev (1821-1894). Fue un
célebre matemático ruso del siglo XIX.
Creador de varias escuelas en Rusia sobre
Es decir: teoría de números, probabilidad, aproxima-
ción de funciones, teoría de mecanismos y
V (X) máquinas, etc. Aparte de su importancia per
P (|X – μ | ≥ t) ≤ ∀t>0 se, la desigualdad de Tchebychev se utiliza
t2 para demostrar la ley de los grandes números
y el teorema de Bertrand-Tchebychev.
Sus logros científicos son notables. Fue
Una forma más desarrollada de dicha desigualdad es: miembro de la Academia Imperial de Cien-
cias; ocupó otros cargos de honor y fue con-
1 decorado varias veces.
P (μ – kσ ≤ X ≤ μ + kσ) ≥ 1 –
k2
Conociendo la media y la desviación típica de una variable aleatoria se puede calcular la proporción
de la distribución que está entre μ ± kσ, siendo k > 0. Por ejemplo, para cualquier variable aleatoria, el
intervalo μ ± 3σ contiene al menos el 89 % de la distribución y el intervalo μ ± 4σ el 94 %.
EJEMPLO 11
La variable aleatoria X = Número de personas que acuden diariamente a cierto local tiene distribución conocida,
media μ = 200 y desviación típica σ = 10. ¿Cuántas sillas habrá que preparar para tener una probabilidad de
0,75 o más de que todos los asistentes puedan sentarse?
Se resuelve mediante la desigualdad de Tchebychev. Se quiere una probabilidad de al menos 0,75 de que la
distancia entre X y su media sea menor o igual que un valor t. Ese valor t sumado a la media será el número
de sillas que se busca.
100
P (| X ‒ 200 | ≤ t) ≥ 1 = 0,75 ⇒ t = 20
t2
Con lo que el número de sillas que se necesitan es de 220.
www.udima.es 113
│ Sumario

• Concepto de variable aleatoria.
• Función de distribución, función de probabilidad y función de densidad de una variable
aleatoria y sus propiedades.
• Medidas características de una variable aleatoria.
Enunciado 1
Se considera el experimento de lanzar 2 dados de 6 caras. Se define la variable aleatoria X = Suma

de las puntuaciones obtenidas. Construir una tabla similar a la tabla 1 del ejemplo 4 para este experi-
mento y la variable aleatoria asociada; construir y representar su función de probabilidad.
Enunciado 2
Para el ejercicio anterior, construir la función de distribución F (x) de la variable aleatoria X.
Enunciado 3
Calcular la media de la variable aleatoria X con función de densidad:
0≤x≤1
ƒ (x) =
{ 2x
0
si
en el resto
Enunciado 4
Sea la variable aleatoria discreta con soporte el conjunto {0, 1, 2, 3, 4} y función de probabilidad:
1
p (x) = ∀ x ∈ {0, 1, 2, 3, 4}
5
Calcular la esperanza, varianza y desviación típica de X.
114 www.udima.es
Sumario │
Enunciado 5
Sea la variable aleatoria continua X = Duración de un determinado componente eléctrico, de la que

se sabe su media μ = 20 horas y su varianza σ2 = 4. Utilizando la desigualdad de Tchebychev, calcular
una cota inferior para la probabilidad de que la duración de dicho componente se encuentre entre 16 y
24 horas.
www.udima.es 115
│ Sumario
Solución 1
A elaborar por el lector.
Solución 2
Solución 3
2
Se obtiene E (X) = .
3
Solución 4
Se obtiene E (X) = 2, σ2 = V (X) = 2, σ = √ 2 = 1,414.
Solución 5
3
La cota inferior para dicha probabilidad es .
4
 E
1. Se tiene 1 moneda en la que la probabilidad de obtener cara es 2/3 y la probabilidad de

obtener cruz es 1/3. Se lanza 3 veces consecutivas y se considera la variable aleatoria
X = Número de caras sucesivas obtenidas.
• Definir el espacio muestral asociado al experimento y calcular la probabilidad de cada

suceso elemental.
• Para cada elemento del espacio muestral indicar el valor que tomaría la variable alea-
toria X.
• Construir la función de probabilidad y de distribución de X.
• Calcular la esperanza y varianza de X.
116 www.udima.es
Sumario │
2. Sea la función:
3
ƒ (x) =
{ 2
0
x2 si –1≤x≤1
en otro caso
Comprobar que ƒ (x) es función de densidad y calcular la función de distribución F (x)

correspondiente.
3. Sea una variable aleatoria X continua con función de densidad:
5e–5x si x > 0
ƒ (x) = { 0 si x ≤ 0
Calcular la mediana.
4. Calcular la esperanza y varianza de la variable aleatoria discreta X caracterizada en la tabla 3.
Tabla 3
Valores de X p (x)
1 0,4
3 0,1
4 0,2
5 0,3
5. Un jugador lanza 3 monedas equilibradas (la probabilidad de que salga cara y cruz es 0,5,
respectivamente). Gana 5 euros por cada cara que salga y pierde 1 euro por cada cruz. Se
define la variable aleatoria X = Ganancia del jugador. Calcular la función de probabilidad
de X y su esperanza.
Básica

DEVORE, J. L.: Probabilidad y estadística para ingeniería y ciencias. 6.ª ed., México: International Thomson Editores, 2005.
MILTON, J. S. y ARNOLD, J. C.: Probabilidad y estadística para ingeniería y ciencias. México: McGraw-Hill, 2004.
PEÑA, D.: Fundamentos de estadística. Madrid: Alianza Editorial, 2001.
www.udima.es 117
│ Sumario
En la red
Applets de java para ilustrar conceptos de estadística y probabilidad: http://www.math.csusb.edu/faculty/stanton/probstat/index.html.

Ejercicios sencillos sobre variables aleatorias y su distribución: http://www.zweigmedia.com/ThirdEdSite/tutstats/frames8_1.html.
Rice Virtual Lab in Statistics. http://onlinestatbook.com/rvls.html.
Tutoriales sobre estadística y probabilidad: http://stattrek.com/Lesson2/ProbabilityDistribution.aspx.
Avanzada
CUADRAS, C. M:. Problemas de probabilidades y estadística, Barcelona: Promociones y Publicaciones Universitarias, 1991.
QUESADA V. y GARCÍA A.: Lecciones de cálculo de probabilidades, Díaz de Santos, 1988.
118 www.udima.es
Sumario │
5
UNIDAD
DIDÁCTICA
DISCRETAS Y CONTINUAS
1. Distribución uniforme discreta sobre n puntos

1.1. Medidas características
2. Distribución de Bernoulli
3. Distribución binomial
4. Distribución geométrica
5. Distribución binomial negativa

6. Distribución de Poisson
6.2. Aproximaciones
7. Distribución uniforme
8. Distribución normal o gaussiana

8.2. Relación entre N (0, 1) y N (μ, σ)
8.3. Relación entre binomial, Poisson y normal
8.4. Distribución normal truncada
www.udima.es 119
│ Sumario
9. Distribución gamma
9.2. Distribución de Erlang
9.3. Distribución exponencial
10. Distribución beta


120 www.udima.es
Sumario │
M.ª I. Rodríguez Galiano Variables aleatorias discretas y continuas
En esta unidad didáctica se presentan algunos ejemplos estándar de variables aleatorias discretas
y continuas, relacionadas de diversas formas dependiendo de su especificidad. Dentro de las variables
aleatorias discretas se verán las siguientes distribuciones: uniforme discreta, Bernoulli, binomial, geomé-
trica, binomial negativa y de Poisson. Dentro de las continuas se analizarán las distribuciones uniforme,
normal, gamma (con la distribución exponencial como un caso particular importante) y beta. Servirán
como modelos para situaciones reales, según sea el grado de complejidad y sofisticación de las mismas.
Es importante entender bien sus características para poder identificar qué situaciones se adaptan a cada
una, reconocer sus parámetros y calcular probabilidades de sucesos concretos. Tras conocer en detalle
cada una de ellas, se estudiará en qué condiciones se admiten aproximaciones a la distribución normal,
cuya importancia se verá reflejada y quedará justificada en los contenidos de las unidades didácticas rela-
cionadas con la inferencia estadística.
• Conocer a nivel conceptual y operativo las distribuciones discretas y continuas más impor-
tantes, motivadas a través de ejemplos.
• Conocer qué tipo de aproximaciones existen entre estas distribuciones.
• Desarrollar la habilidad de asociar un modelo determinado de los estudiados a una situa-
ción real concreta.
• Entender cuándo pueden obtenerse aproximaciones a la distribución normal.
www.udima.es 121
│ Sumario
1. DISTRIBUCIÓN UNIFORME DISCRETA SOBRE n PUNTOS
Se dice que una variable aleatoria X tiene una distribución uniforme sobre n puntos x1, …, xn ∈ ℝ
si su función de probabilidad es:
1
P (X = xi) = p (xi) = , i = 1, 2, …, n
n
Si los n puntos ordenados son {x(1), …, x(n)}, la función de distribución es:
{
0 si x < x(1)
1
si x(1) ≤ x < x(2)
n
… … …
F (x) =
k
si x(k) ≤ x < x(k+1), k = 2, …, n – 1
n
… … …
1 si x ≥ x(n)
1.1. MEDIDAS CARACTERÍSTICAS
• Media:
n 1
E (X) = Σ xi
i=1 n
= x–
• Varianza:
1 n 1 n
V (X) =
n
Σ (xi – x– )2 =
i=1 n
Σ xi2 – x– 2
i=1
• Momentos:
n 1 1 n
αk = E (X k) = Σ xi k
i=1 n
=
n
Σ xi k,
i=1
k = 1, 2, …
1 n
μk = E [(X – x– )k ] =
n
Σ (xi – x– )k ,
i=1
k = 1, 2, …
122 www.udima.es
Sumario │
2. DISTRIBUCIÓN DE BERNOULLI
Supóngase un experimento en el que solo hay dos resultados posibles: la ocurrencia o no de un

determinado suceso. Se llama sin pérdida de generalidad:
• Éxito a la ocurrencia del suceso.

• Fracaso a la no ocurrencia del suceso.
El espacio muestral es, por tanto, Ω = {exito, fracaso} = {E, F}. Además, supóngase que cada vez
que se realiza el experimento, P (E) = p y P (F) = 1 – p. A este experimento se le asocia la variable alea-
toria de Bernoulli:
X=
{ 1 si sale éxito
0 si sale fracaso
Se dice entonces que una variable aleatoria X tiene una

distribución de Bernoulli de parámetro p ∈ [0, 1] y se denota
por X ~ Bern (p), cuando su función de probabilidad es:
Jacob Bernoulli (1654-1705). Matemático y
{
1 – p = q si x = 0 científico suizo, fue el primero de los Bernoulli
en graduarse en una universidad y dedicarse
p (x) = P (X = x) = p si x = 1 al estudio de las matemáticas.
Se graduó en teología y después recibió en-
0 en el resto señanza en matemáticas y astronomía en
contra de los deseos de sus padres.
que es equivalente a P (X = x) = px q1–x para x = 0, 1. La Sus trabajos permitieron un gran avance en

el álgebra, el cálculo infinitesimal, el cálculo
función de distribución es: de variaciones, mecánica, teoría de series y
teoría de probabilidades.
Su trabajo más original fue Ars Conjectandi.
{
0 si x < 0 En él aparecen los números de Bernoulli,
muchos ejemplos sobre la probabilidad de
F (x) = q si 0 ≤ x < 1 ganar en juegos de azar y la ley de los gran-
des números.
1=p+q si x ≥ 1
• Media:
E (X) = 1 ∙ p + 0 ∙ q = p
• Varianza:
V (X) = E (X 2) – E (X)2 = p – p2 = p (1 – p) = pq
• Momentos:
αk = E (X k) = 1k ∙ p + 0 k ∙ q = p, k = 1, 2, …
μk = E [(X – p)k] = (1 – p)k p + (0 – p)k q, k = 1, 2, …
www.udima.es 123
│ Sumario
Como se puede observar, tanto la media como la varianza dependen de p. La varianza V (X) será
máxima cuando p = 1/2. En este caso existe la mayor incertidumbre respecto al resultado y la mayor
variabilidad: aparecerá a largo plazo igual número de ceros que de unos.
A continuación se estudian tres distribuciones asociadas a la distribución de Bernoulli:
• Binomial.
• Geométrica.
• Binomial negativa.
3. DISTRIBUCIÓN BINOMIAL
Supóngase el experimento aleatorio que consiste en realizar n pruebas independientes de Bernou-

lli, y que interesa contar el número de éxitos obtenidos en total en esas n repeticiones del experimento.
Sea X la variable aleatoria:
X = Número de éxitos en n pruebas independientes de Bernoulli
cuyo espacio muestral asociado es Ω = {0, 1, 2, …, n}.
La probabilidad de obtener k éxitos, independientemente de cuál sea la ordenación de fracasos-éxi-

tos, es p k q(n–k) y el número total de ordenaciones posibles es:
n! n
PRnk,n–k = = � �
k! (n – k)! r
Así, se dice que la variable aleatoria X tiene una distribución binomial de parámetros n ∈ℕ, p ∈[0, 1]
(X ~ B (n, p)), si su función de probabilidad es:
n
P (X = k) = � � pk qn–k, k = 0, 1, 2, …, n
k
Observaciones:
• Bern (p) ≡ B (1, p).

• Una variable aleatoria distribuida según una binomial se puede expresar como suma de
variables aleatorias independientes de Bernoulli. Es decir, X ~ B (n, p) se puede representar
como:
X = X1 + … + Xn donde Xi ~ Bern (p)
• La distribución binomial B (n, p) es reproductiva respecto de n, es decir, dadas dos varia-

bles aleatorias X, Y independientes con X ~ B (n1, p), Y ~ B (n2, p) entonces:
X + Y ~ B (n1 + n2, p)
124 www.udima.es
Sumario │
• Utilizando el binomio de Newton se ve que es función de probabilidad:
n n
Σ � k � p k qn–k = (p + q)n = 1n = 1
k=0
La función de distribución es:
n
F (x) = P (X ≤ x) = Σ P (X = i) = Σ� � p i qn–i
i≤ x i≤ x i
Esta fórmula, aunque hay tablas para F (x) y P (X = i), no es manejable. Sin embargo, tiene una clara
representación gráfica, como se puede observar en la figura 1.
Figura 1. Función de distribución de una variable aleatoria binomial
F (x)
0 1 2 … n x
• Media:
n n
E (X) = Σ x�
x
� p x q n–x = np
x=0
• Varianza:
V (X) = E (X 2) – E (X)2 = npq
www.udima.es 125
│ Sumario
EJEMPLO 1
La longitud de las ráfagas de fotos tomadas por una cámara réflex digital es de 7 fotografías. La probabili-
dad de que una de esas fotos tenga muy poco ruido con poca luz ambiente es de 0,25.
a) ¿Cuál es la probabilidad de que al disparar una ráfaga se obtengan exactamente 5 fotos con muy poco
ruido?
b) Si se disparan dos ráfagas consecutivas, ¿cuál es la probabilidad de no obtener ninguna foto con muy
poco ruido?
c) Si se disparan dos ráfagas consecutivas, ¿cuál es la probabilidad de obtener al menos una ráfaga entera
con muy poco ruido?
Se define la variable aleatoria:
X = Número de fotos con muy poco ruido en una ráfaga (7 fotos)
que tiene una distribución binomial con n = 7 y p = 0,25, es decir, X ~ B (7, p = 0,25).
a) La probabilidad pedida es:
7
P (X = 5) = � 5 � 0,255 (1 ‒ 0,25)2 = 21 · 0,00097 · 0,5625 = 0,011458
b) Si se disparan dos ráfagas consecutivas, se obtienen 14 fotos. Ahora se considera la variable aleatoria:
Y = Número de fotos con muy poco ruido en dos ráfagas
que, por la reproductividad de la binomial, tiene una distribución B (14; 0,25) y la probabilidad bus-
cada es:
14
P (Y = 0) = � 0 � 0,250 (1 ‒ 0,25)14 = 0,7514 = 0,017817
c) Es necesario definir la variable aleatoria:
Y ' = Número de ráfagas enteras con muy poco ruido, de las dos ráfagas
cuya distribución es una binomial B (2, p') donde p' es la probabilidad de obtener una ráfaga entera
con muy poco ruido, que se obtiene a partir de la variable aleatoria X como la probabilidad de que
todas las fotos de la ráfaga tengan muy poco ruido, es decir:
7
p' = P (X = 7) = � 7 � 0,257 0,750 = 0,000061
Así, Y ' ~ B (2; 0,000061) y se pide:
2
P (Y' ≥ 1) = 1 ‒ P (Y' = 0) = 1 ‒ � 0 � p'0 (1 ‒ p')2 = 1 ‒ (1 ‒ p')2 ≅ 0,000122
126 www.udima.es
Sumario │
4. DISTRIBUCIÓN GEOMÉTRICA
Considérese el mismo mecanismo de generación de sucesos que en la distribución de Bernoulli,

una sucesión de pruebas independientes con dos posibles resultados: éxito o fracaso. Se define la varia-
ble aleatoria:
X = Número del experimento en el que aparece éxito por primera vez
Si la probabilidad de éxito es p, la función de probabilidad de X es la de la distribución geométrica:
P (X = x) = (1 – p)x–1 p, x = 1, 2, …
y se denota como X ~ Geo (p).
En general, para un experimento aleatorio en el que A es un suceso del espacio muestral corres-
pondiente, con P (A) = p, se realizan diversas pruebas independientes de ese experimento hasta que se
obtiene el suceso A. La probabilidad de que aparezca el suceso A por primera vez en la prueba número
x es la misma que la del suceso expresado por:
Ac Ac … Ac A
{
x–1
y será:
(1 – p) x–1 p
La variable aleatoria que cuenta el número de pruebas necesarias hasta que aparece por primera vez
el suceso A se llamará geométrica.
Se ve fácilmente que la función anterior define una función de probabilidad:
∞ ∞ 1
Σ P (X = x) = p Σ (1 – p) x–1 = p =1
x=1 x=1 1 – (1 – p)
La función de distribución será, para k ≤ x < k + 1, k = 1, 2, …:
k (1 – p)k – 1
F (x) = P (X ≤ x) = Σ p (1 – p)i–1 = p = 1 – qk
i =1 1–p–1
y cero en el resto. Se ha utilizado la fórmula de la suma de un número finito de términos de una progre-
sión geométrica de razón r, que es:
a n r – a1
r–1
www.udima.es 127
│ Sumario
• Media:
∞ ∞ 1 1 1
E (X) = Σ x pq x–1 = p Σ x qx–1 = p =p =
x=1 x=1 (1 – q)2 p2 p
donde se ha utilizado que si q ∈ (0, 1):
∞ q
S (q) = Σ qx =
x=1 1–q
∞ q 1
S' (q) = Σ xq x–1 = � � =
x=1 1–q (1 – q)2
• Varianza:
q
V (X) =
p2
A veces, se define la variable aleatoria:
X = Número de fracasos antes del primer éxito
y entonces la función de probabilidad es:
P (X = x) = (1 – p) x p, x = 0, 1, 2, …
Esta variable se conoce con el nombre de geométrica generalizada de parámetro p. En este caso:
• Media:
q
E (X) =
p
• Varianza:
q
V (X) =
p2
EJEMPLO 2
Un polluelo de gaviota que quiere aprender a volar realiza intentos hasta que lo consigue. La probabilidad
de conseguirlo en cada uno de esos intentos es p = 0,4. Suponiendo que dichos intentos son independientes,
calcular la probabilidad de que necesite más de 4 intentos para volar por primera vez.
.../...
128 www.udima.es
Sumario │
.../...
La variable aleatoria X = Número del intento en el que el polluelo vuela por primera vez sigue una distribución
geométrica de parámetro p = 0,4. La función de probabilidad es:
P (X = k) = q k‒1 p, k = 1, 2, 3, …
Hay que calcular la probabilidad P (X > 4):
P (X > 4) = 1 ‒ P (X ≤ 4) = 1 ‒ P (X = 1) ‒ P (X = 2) ‒ P (X = 3) ‒ P (X = 4) =
4
=1‒ Σ qk‒1 p = 1 ‒ p (1 + q + q2 + q3) = 0,1296
k=1
Otra forma de resolverlo es definiendo la variable aleatoria:
X' = Número de intentos fallidos antes del primer vuelo
que se distribuye según una geométrica generalizada de parámetro p = 0,4, y su función de probabilidad es:
P (X' = k) = q k p, k = 0, 1, 2, …
y la probabilidad pedida es:
3
P (X' ≥ 4) = 1 ‒ P (X' < 4) = 1 ‒ Σ qk p = 1 ‒ p (1 + q + q2 + q3)
k=0
5. DISTRIBUCIÓN BINOMIAL NEGATIVA
Es el caso en el que se observa una secuencia de pruebas independientes, con probabilidad de éxito
en cada una de ellas igual a p, pero en lugar de fijar el número total n de ensayos y contar el número de
éxitos (como se hace en la distribución binomial), se continúa con el número de pruebas hasta que han
ocurrido exactamente n éxitos. Se define entonces la variable aleatoria
X = Número de fracasos antes del n-ésimo éxito
que toma valores x = 0, 1, 2, … La variable aleatoria tomará el valor x en sucesos del tipo
FF … FF EE … EE
{
{
x n
cuya probabilidad es, por independencia, qx pn. Pero, ¿cuántos sucesos de este tipo hay? Todos lo que
surjan al dejar fijo el último éxito y combinar los x fracasos y los n – 1 éxitos restantes. Es decir, se repar-
ten n + x – 1 sitios para los x fracasos, ya que el resto son éxitos.
n+x–1
Formas de colocar x fracasos en n + x – 1 sitios: � �
x
n+x–1
Formas de colocar n – 1 éxitos en n + x – 1 sitios: � �
n–1
www.udima.es 129
│ Sumario
Evidentemente, ambos números combinatorios son iguales (véanse las propiedades de estos núme-
ros en la unidad didáctica 3) y la función de probabilidad es:
n+x–1
P (X = x) = � � qx pn, x = 0, 1, 2, 3, …
x
Se dice entonces que la variable aleatoria X tiene una distribución binomial negativa (X ~ BN (n, p)
si su función de probabilidad es la anterior.
Observación. La distribución binomial negativa BN (n, p) es reproductiva respecto de n, es decir,

dadas dos variables aleatorias X, Y independientes con X ~ BN (n1, p), Y ~ BN (n2, p), entonces X + Y ~
~ BN (n1 + n2, p).
Si se considera n = 1 se obtiene la distribución geométrica generalizada. Así, se puede considerar la

binomial negativa como una generalización de la distribución geométrica. Las funciones F (x) y P (X = x)
están tabuladas, pero normalmente se obtienen de la distribución binomial, ya que si X ~ BN (n, p), enton-
ces P (X ≤ x) = P (Y ≥ n) donde Y ~ B (n + x, p). Es decir:
FX (x) = 1 – FY (n – 1), si X ~ BN (n, p) e Y ~ B (n + x, p)
• Media:
nq
E (X) =
p
• Varianza:
nq
V (X) =
p2
EJEMPLO 3
Para tratar a un paciente de una afección pulmonar han de ser operados, en operaciones independientes, sus
5 lóbulos pulmonares. La técnica a utilizar es tal que si todo va bien, lo que ocurre con probabilidad de 4/11,
el lóbulo queda definitivamente sano, pero si no es así, se deberá esperar el tiempo suficiente para inten-
tarlo posteriormente de nuevo. Se practicará la cirugía hasta que 4 de sus 5 lóbulos funcionen correctamente.
a) ¿Cuál es el valor esperado de intervenciones que se espera que deba padecer el paciente?
b) ¿Cuál es la probabilidad de que se necesiten 10 intervenciones?
Sea la variable aleatoria:
4
X = Número de operaciones fallidas antes de que 4 lóbulos funcionen ~ BN � 4, �
11
(es decir, número de operaciones fallidas hasta obtener n = 4 éxitos) .../...
130 www.udima.es
Sumario │
.../...
a) Como se pide el número esperado de intervenciones, se define la variable aleatoria:
Y = Número total de intervenciones = X + n = X + 4
Así, el número medio de intervenciones que se espera que padecerá el paciente es:
7
4
nq 11
E (Y) = E (X + 4) = E (X) + 4 = +4= = 7 + 4 = 11
p 4
11
donde E (X) = 7 es el número medio de operaciones fallidas hasta el cuarto éxito.
b) La probabilidad pedida es:
7 6 4 4
4+6‒1
P (Y = 10) = P (X = 6) = � �� ≅ 0,097539
6 11 11
6. DISTRIBUCIÓN DE POISSON
Considérese un experimento en el que se observa la

aparición de sucesos puntuales sobre un soporte continuo;
verbigracia, el tiempo. Por ejemplo, averías de máquinas
en el tiempo, llegadas de aviones a un aeropuerto, defectos
Siméon Denis Poisson (1781-1840). Mate-
en una plancha de metal, etc. Se supondrá que el proceso mático, físico y astrónomo francés.
se caracteriza porque: Fue alumno de Lagrange y Laplace en l’École
Polytechnique, donde comenzó su actividad
docente como ayudante de Fourier.
• Es estable: produce, a largo plazo, un número Poisson dedicó su vida a la investigación y
medio de sucesos constante λ por unidad de enseñanza de las matemáticas. Escribió más
tiempo (o espacio, área, etc.). de trescientas obras que recogen importantes
aportaciones a la física (elasticidad, calor, …)
• Los sucesos aparecen aleatoriamente de for- y a la matemática (teoría de números, proba-
bilidad, series de Fourier, etc.).
ma independiente, es decir, el proceso no tiene Su nombre está asociado a muchos concep-
memoria: el hecho de conocer el número de tos: coeficiente de Poisson, ley de Poisson, etc.
sucesos en un intervalo de longitud constante.
La variable aleatoria que cuenta el número de sucesos independientes que suceden a velocidad cons-
tante en un intervalo de longitud fija se llama variable aleatoria de Poisson. Es pues una variable alea-
toria discreta que toma valores en ℕ = {0, 1, 2, 3, …}. Se define como:
X = Número de sucesos en un intervalo de longitud fijo
Y su función de probabilidad es:
λk
P (X = k) = e–λ, k = 0, 1, 2, … y λ > 0
k!
www.udima.es 131
│ Sumario
Se dice que la variable aleatoria X tiene una distribución de Poisson de parámetro λ (X ~ � (λ))
donde λ representa el número medio de sucesos en ese intervalo de longitud fija. Por tanto, hay que tener
cuidado con las unidades en las que viene medido λ.
EJEMPLO 4
Supóngase que se define la variable aleatoria X = Número de trabajos que se procesan por día en un centro de
cálculo y se tiene el dato de que de media llegan 5 trabajos por hora. Entonces, si el centro de cálculo está
abierto un total de 12 horas:
λ = 12 horas/día × 5 trabajos/hora = 60 trabajos/día
Se ve fácilmente que es función de probabilidad:
∞ λk ∞ λk
Σ e–λ = e–λ Σ = e–λ eλ = 1
k=0 k! k=0 k!
Observación. La distribución de Poisson � (λ) es reproductiva respecto de λ, es decir, dadas X, Y

variables aleatorias independientes con X ~ � (λ1), Y ~ � (λ2), entonces X + Y ~ � (λ1 + λ2).
Su función de distribución es:
x e–λ λi
F (x) = P (X ≤ x) = Σ
i=0 i!
Esta función se encuentra tabulada para distintos valores de x y de λ.
• Media:
∞ λx ∞ λx–1 ∞ λy
E (X) = Σ x e–λ = λe–λ Σ = λe–λ Σ = λe–λ eλ = λ
x=0 x! x=1 (x – 1)! y=0 y!
Haciendo el cambio de variable y = x – 1.
• Varianza. La varianza coincide con la media, y esto es característico de la distribución de

Poisson:
V (X) = E (X) = λ
132 www.udima.es
Sumario │
EJEMPLO 5
En un centro de cálculo las máquinas se averían siguiendo una distribución de Poisson de media 3 averías
por semana.
a) ¿Cuál es la probabilidad de que no se estropee ninguna máquina en una semana?

b) Calcular la probabilidad de observar menos de 5 averías en un mes. Supóngase que un mes tiene 4
semanas.
a) Se define la variable aleatoria:
X = Número de averías en una semana
que sigue una distribución de Poisson de parámetro λ = 3 averías/semana. Se pide:
30
P (X = 0) = e ‒3 = e‒3 = 0,04978
0!
b) Ahora hay que definir la variable aleatoria:
Y = Número de averías en un mes
cuya distribución es Poisson con parámetro:
averías semanas averías

λ=3 ×4 = 12
semana mes mes
La probabilidad pedida es:
120 121 122 123 124

P (Y < 5) = P (Y ≤ 4) = F (4) = e‒12 � + + + + � = 0,0076
0! 1! 2! 3! 4!
6.2. APROXIMACIONES
La distribución de Poisson se obtiene como límite de la distribución binomial cuando n → ∞, de

manera que se puede considerar un continuo de elementos, y p → 0, de forma que el número de sucesos,
np, permanezca constante. Por lo tanto:
B (n, p) � (λ)
n→∞, p→0, np→λ
En la práctica, se suele usar la distribución de Poisson cuando en la B (n, p) se verifica:
nq < 5, p < 0,1 y n > 30
www.udima.es 133
│ Sumario
EJEMPLO 6
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p = 1/100.000. Calcular la probabilidad de
que en una determinada ciudad de 400.000 habitantes haya más de 3 personas con dicha enfermedad. ¿Cuál
es el número esperado de personas enfermas?
Si se considera la variable aleatoria X, que contabiliza el número de personas de entre las 400.000 que padece
la enfermedad:
X ~ B (n = 400.000, p = 0,00001)
Como se dan las condiciones anteriormente descritas, se puede aproximar a una variable de Poisson,
X ~ � (np = λ = 4). Por tanto:
3 4x 4 42 43
P (X > 3) = 1 – P (X ≤ 3) = 1 – Σ e‒4 = 1 ‒ e‒4 � 1 + + + � = 0,556
x=0 x! 1! 2! 3!
El número esperado de personas enfermas será E (X) = λ = 4.
7. DISTRIBUCIÓN UNIFORME
Una variable aleatoria X se distribuye según una distribución uniforme o rectangular en el inter-
valo [a, b] con ‒ ∞ < a < b < ∞, si su función de densidad está dada por:
{
1
si a≤x≤b
ƒ (x) = b‒a
0 en el resto
Se escribe X ~ U [a, b] o X ∈ U [a, b] si X tiene una distribución uniforme en [a, b].
Es función de densidad ya que:
• ƒ ≥ 0 ∀x ∈ ℝ al ser a < b
∞ b 1 1
• � ƒ (x) dx = � dx = (b – a) = 1
–∞ a b–a b–a
{
0 si x<a
x–a
F (x) = si a≤x≤b
b‒a
1 si x>b
134 www.udima.es
Sumario │
• Media:
∞ b x 1 x2 b 1 b2 – a2 a+b
E (X) = � x ƒ (x) dx = � dx = � = =
–∞ a b–a b–a 2 a b–a 2 2
• Varianza. Para calcularla, se obtendrá primero E (X 2):
b x2 1 x3 b 1 b3 – a3 b2 + ba + a2
E (X 2) =� dx = � = =
a b–a b–a 3 a b–a 3 3
Con lo que:
b2 + ba + a2 b2 + 2ba + a2 (b – a)2
σ2 = V (X) = E (X 2) – E (X)2 = – =
3 4 12
Además, una propiedad importante de la distribución uniforme es la siguiente:
X ∈ U [a, b] ⇒ mX + n ∈ U [ma + n, mb + n]
8. DISTRIBUCIÓN NORMAL O GAUSSIANA
Esta distribución destaca por sus múltiples aplicacio-

nes y por los teoremas centrales del límite que se estudia-
rán más adelante. Las aplicaciones más destacadas son las
siguientes: para representar variables físicas (temperatura,
altura, peso, etc.), errores de instrumentación, calificacio-
nes en pruebas de aptitud, inferencia estadística (ya que Abraham de Moivre (1667-1754). Matemá-
muchos estadísticos tienden a la normal conforme crece tico francés.
Al ser calvinista, se tuvo que trasladar a Lon-
el tamaño de la muestra), tiempo de vida de un compo- dres en 1685, después de la revocación del
nente eléctrico. Edicto de Nantes, donde entabló amistad con
Newton y el astrónomo Halley.
Una variable aleatoria X tiene una distribución normal Desarrolló importantes contribuciones en pro-
babilidad, estadística y trigonometría.
con parámetros μ ∈ ℝ y σ > 0 (X ~ N (μ, σ)) si su función Entre sus obras destaca The Doctrine of
de densidad es la siguiente: Chances, en la que presenta conceptos fun-
damentales para el desarrollo del cálculo de
probabilidades como el concepto de eventos
1(x–μ)2 estadísticamente independientes, la distribu-
1 2 σ2
ción normal y el teorema central del límite.
ƒ (x) = e , x ∈ ℝ
σ √ 2π
La figura 2 muestra la representación gráfica de la función de densidad de la distribución normal

para diferentes valores de la desviación típica σ y con igual media μ = 0.
www.udima.es 135
│ Sumario
Figura 2. Distribución normal para diferentes valores de σ
0,6
0,5 σ = 0,7
0,4
ƒ (x)
0,3
σ=1
0,2
0,1 σ=2
0
μ
‒ 10 ‒ 6 ‒ 2 2 6 10
x
Esta función tiene las siguientes características:
• ƒ tiene como asíntota a y = 0 ya que limx→±∞ ƒ (x) = 0.

• ƒ es simétrica respecto a μ: ƒ (μ – a) = ƒ (μ + a) ∀a ∈ ℝ.
1
• ƒ tiene un máximo en x = μ, y = .
σ √ 2π
• ƒ tiene dos puntos de inflexión: x = μ ± σ.
Observación. La distribución normal N (μ, σ) es reproductiva respecto de μ y σ2, es decir, dadas

X, Y variables aleatorias independientes con X ~ N (μ1, σ1), Y ~ N (μ2, σ2), entonces:
X + Y ~ N � μ1 + μ2, √ σ21 + σ22 �
1(x–μ)2
x 1 2 σ2
F (x) = � e dx
–∞ σ √ 2π
Esta función existe pero no se puede poner en función de las conocidas. Se transforma en una dis-
tribución N (0, 1) haciendo el cambio (x – μ)/σ = y:
x–μ y2
1 σ 2
F (x) = � e dy
√ 2π –∞
136 www.udima.es
Sumario │
que es la función de distribución de una N (0, 1) en (x – μ)/σ, que está tabulada. Si Z ~ N (0, 1) (habi-
tualmente se utiliza Z para denotar una distribución N (0, 1)) se tiene:
x–μ
P (X ≤ x) = P � Z ≤ �
σ
Es decir:
x–μ
FN(μ,σ) (x) = FN(0,1) � �
σ
• Media:
E (X) = μ
• Varianza:
V (X) = σ2
8.2. RELACIÓN ENTRE N (0, 1) Y N (μ, σ)
• Si Z ∈ N (0, 1) entonces X = σZ + μ con σ > 0, es N (μ, σ).

x–μ
• Inversamente, si X ∈ N (μ, σ) entonces Z = ∈ N (0, l ). A esta transformación se le
llama tipificación. σ
Así:
X–μ
X ∈ N (μ, σ) ⇔ ∈ N (0, l )
σ
EJEMPLO 7
Dada una variable aleatoria X ~ N (μ, σ), se calcula la probabilidad de un intervalo (a, b) de la siguiente
forma:
a‒μ X‒μ b‒μ

P (a < X < b) = P � < =Z< �
σ σ σ
Donde Z ~ N (0, 1).
www.udima.es 137
│ Sumario
EJEMPLO 8
Sea X ~ N (μ, σ). Se pueden conocer exactamente las siguientes probabilidades:
P (μ ‒ σ ≤ X ≤ μ + σ) = P (‒ 1 ≤ Z ≤ 1) = 0,6826
P (μ ‒ 2σ ≤ X ≤ μ + 2σ) = P (‒ 2 ≤ Z ≤ 2) = 0,9544
P (μ ‒ 3σ ≤ X ≤ μ + 3σ) = P (‒ 3 ≤ Z ≤ 3) = 0,9974
Estas probabilidades indican que existe gran concentración de valores alrededor de la media.
Así, basta estudiar la N (0, 1), cuya función de densidad es:
1
1 ‒
2
z2
ƒ (z) = e ∀z ∈ℝ
√ 2π
z2
1 z ‒
2
F (z) = � e dz
√ 2π –∞
que verifica F (z) = 1 ‒ F (‒z) por ser simétrica respecto del 0.

1
‒ z2
Como e 2 no tiene primitiva, la función de distribución está tabulada para distintos valores de z, en las
denominadas tablas de áreas acumuladas. Se pueden encontrar distintos tipos de tablas:
• Tablas de colas:
Dan las áreas de las colas de la N (0, 1).
z2
2 ∞ ‒
2
P (|Z| ≥ z1) = P (‒ ∞ < Z ≤ ‒ z1) + P (z1 ≤ Z < ∞) = � e dz
z1
√ 2π
• Tablas de áreas acumuladas:
− Áreas de la izquierda: F (z1) = P (Z ≤ z1).

− Áreas de la derecha: P (Z ≥ z1).
• Tablas de otro tipo: P (0 < Z ≤ z1).
Conocida una tabla, se pueden construir las otras. En las tablas suelen aparecer en las columnas décimas y
en las filas centésimas, que forman la abscisa positiva de la N (0, 1).
EJEMPLO 9
Conocida F (z) = P (Z ≤ z) se puede calcular:
P (Z ≤ ‒ z ) = P (Z ≥ z) = 1 ‒ P (Z ≤ z) = 1 ‒ F (z)
P (Z ≥ z) = 1 ‒ F (z)
.../...
138 www.udima.es
Sumario │
.../...
P (Z ≥ ‒ z) = P (Z ≤ z) = F (z)
P (‒ z ≤ Z ≤ z) = F (z) ‒ F (‒ z) = F (z) ‒ (1 ‒ F (z)) = 2F (z) ‒ 1
EJEMPLO 10
Un tubo electrónico tiene una distribución normal de vida de 280 horas de media y desviación típica σ. ¿Cuál
debe ser el valor máximo que debe alcanzar σ si se quiere que el tubo tenga una probabilidad 0,8 de vivir
entre 240 y 320 horas?
X = Tiempo de vida de un tubo electrónico (en horas)
Cuya distribución es N (280, σ) y hay que obtener el valor de σ tal que:
P (240 < X < 320) = 0,8

Tipificando se obtiene:
240 ‒ 280 X ‒ 280 320 ‒ 280 40 40

P (240 < X < 320) = P � < < � = P �‒ <Z< � = 0,8
σ σ σ σ σ
Como esa probabilidad es igual a:
40
2P �Z ≤ � ‒ 1 = 0,8
σ
40 40
se busca σ tal que P �Z ≤ � = Fz � � = 0,9 .
σ σ
En la tabla de la N (0, 1) se debe buscar el valor z0,9, que verifica Fz (z0,9) = 0,9. Utilizando la tabla 1 situada
al final de la unidad didáctica, que contiene la función de distribución, e interpolando linealmente entre los
valores z0,8997 = 1,28 y z0,9015 = 1,29, se obtiene z0,9 = 1,2816, y
40
= 1,2816 ⇒ σ = 31,21098
σ
8.3. RELACIÓN ENTRE BINOMIAL, POISSON Y NORMAL
La distribución normal puede utilizarse para aproximar probabilidades de variables binomiales y

de Poisson.
X ‒ np
X ∈ B (n, p) ⇒ Z ∈ N (0, 1)
√ npq
n→∞
www.udima.es 139
│ Sumario
EJEMPLO 11
Una variable aleatoria X ∈ B (100; 0,06) se aproximaría a:
Y ∈ N (np = 100 · 0,06 = 6, √ npq = √ 100 · 0,06 · 0,94 = 2,37)
Como la distribución normal es continua, ¿cómo se pueden calcular probabilidades discretas? Se utiliza la
corrección de continuidad, que tiene en cuenta que el número n equivale al intervalo continuo (n ‒ 0,5; n + 0,5).
Así, X ∈ B (n, p) se aproxima a Y ∈ N (np, √ npq) significa en la práctica:
P (a ≤ X ≤ b) ≅ P (a ‒ 0,5 ≤ Y ≤ b + 0,5)
Además:
P (X ≤ b) ≅ P (Y ≤ b + 0,5)
P (X ≥ a) ≅ P (Y ≥ a ‒ 0,5)
P (X = a) ≅ P (a ‒ 0,5 ≤ Y ≤ a + 0,5)
Cuando en la distribución de Poisson � (λ), el parámetro λ es superior a 5, X ~ � (λ), se puede aproximar

con la variable aleatoria Y ∈ N (μ = λ, σ = √ λ).
Resumiendo:
np = λ < 5
B (n, p) � (λ)
n → ∞ (n ≥ 30)
np > 5 p → 0 (p < 0,1)
λ>5
n ≥ 30, p < 0,1
μ = λ, σ = √ λ
μ = np, σ = √ npq
N (μ, σ)
EJEMPLO 12
Un vivero prepara pedidos de la planta actinida (kiwi). Se necesita planta macho y planta hembra para la
fructificación. El vivero estima que el 6 % de las plantas son machos. Si se realiza un pedido de 100 plantas:
a) ¿Cuál es la probabilidad de que no se consiga la fructificación?

b) ¿Cuál es el número esperado de plantas macho?
c) Si para asegurar la fructificación de todas las plantas hembra se necesita que al menos el 10 % de las
plantas sean macho, ¿cuál es la probabilidad de que fructifiquen todas las plantas hembras?
X = Número de plantas macho que hay entre las 100 plantas ~ B (100; 0,06)
a) P (no conseguir fructificación) ‒ P (ningún macho o todos machos) = P (X = 0) + P (X = 100) = 0,94100 +

+ 0,06100 = 0,00202548
.../...
140 www.udima.es
Sumario │
.../...
b) E (X) = np = 100 · 0,06 = 6 plantas.

c) El 10 % de 100 es 10, con lo que se pide P (X ≥ 10), probabilidad que se puede calcular utilizando la
aproximación por la distribución normal, ya que se cumplen las condiciones necesarias: n = 100 > 30,
p = 0,06 < 0,1 y np = 100 · 0,06 = 6 > 5.
Así, si Y ~ N (6, √ npq = √ 5,64 = 2,3748) se tiene:
9,5 ‒ 6
P (X ≥ 10) ≅ P (Y ≥ 9,5) = P � Z ≥ � = P (Z ≥ 1,47) =
√ 5,64
= 1 ‒ P (Z ≤ 1,47) = 1 ‒ 0,9292 = 0,0708
8.4. DISTRIBUCIÓN NORMAL TRUNCADA
Como ya se ha mencionado, una de las aplicaciones más habituales de la distribución normal es la

representación de medidas físicas. Muchas de estas medidas solo están definidas para los valores posi-
tivos o en un determinado intervalo. Para estos casos se utiliza la normal truncada. A continuación se
muestra, en general, cómo se define la distribución de una variable aleatoria truncada.
Sea X variable aleatoria y sea T un subconjunto de ℝ, la función de distribución de X truncada

en T es P (X ≤ x|X ∈ T), que será:
• Si X es discreta:
P (X = x, X ∈T) P (X = x)
P (X = x|X ∈ T) = = si x ∈ T
P (X ∈T) Σt∈T∩Dx p (t)
Donde Dx es el soporte de X, es decir, Dx = {x ∈ ℝ /p (x) > 0}.

En el resto es 0.
• Si X es continua:
P (X ≤ x, X ∈T) �(–∞,x|∩T ƒ (y) dy

P (X ≤ x|X ∈ T) = =
P (X ∈T) �T ƒ (y) dy
Es decir, la función de densidad de la distribución truncada es:
ƒ (x)
si x ∈ T
�T ƒ (y) dy
Particularizando, para X ~ N (μ, σ) se tiene la distribución normal truncada.
www.udima.es 141
│ Sumario
EJEMPLO 13
En una población el cociente intelectual sigue una distribución normal de media 100 y de varianza 256. Se
considera que un estudiante de informática terminará la carrera si su cociente intelectual es superior a 110.
Por otra parte, se clasifica a una persona como muy inteligente si su cociente es superior a 132. Calcular la
proporción de «muy inteligentes» entre los ingenieros en informática.
X = Cociente intelectual de la población ~ N (100, √ 256 = 16)
y sea A el suceso que representa terminar la carrera de informática. Se pide P (X ≥ 132|A).
P (X ≥ 132, X ≥ 110) P (X ≥ 132)

P (X ≥ 132|A) = P (X ≥ 132|X ≥ 110) = = =
P (X ≥ 110) P (X ≥ 110)
X ‒ 100 132 ‒ 100
P � ≥ �
16 16 P (Z ≥ 2) 1 ‒ 0,9772
= = = = 0,0852
X ‒ 100 110 ‒ 100 P (Z ≥ 0,625) 1 ‒ 0,7324
P � ≥ �
16 16
9. DISTRIBUCIÓN GAMMA
Se dice que una variable aleatoria X sigue una distribución gamma de parámetros λ, p > 0
(⇔ X ∈ γ (λ, p)) si su función de densidad es de la forma:
λp
ƒ (x) = x p–1 e –λx si x > 0
Γ (p)
donde Γ (p) es la función gamma definida por:

∞
Γ (p) =� x p–1 e–x dx
0
Se puede demostrar que esta función es continua, que converge para p > 0 y que converge unifor-
memente respecto a p. Además, tiene las siguientes propiedades:
• Γ (1) = 1.
• Γ (p) = (p – 1) Γ (p – 1).
• Γ (p) = (p – 1)! si p ∈ ℕ.
1
• Γ� � =√π
2
∞ Γ (p)
• �0 x p–1 e–λx dx = , siendo λ = b + ic con b > 0.
λp
De esta última propiedad se deduce fácilmente que ƒ (x) es función de densidad.
142 www.udima.es
Sumario │
La representación de ƒ depende de los valores de λ y p, como se puede observar en la figura 3. Si

p ≤ 1, tiene perfil de una J transpuesta, y si p > 1, tiene un pico en
1
x= (p – 1)
λ
p es un factor de forma y λ de escala.
Figura 3. Distribución gamma para diferentes valores de λ y p
λ = 1, p = 1
0,8
0,6
ƒ (x)
0,4 λ = 1, p = 1,5
0,2
λ = 0,5, p = 1,5
0
0 4 8 12 16
x
Observación. La distribución gamma γ (λ, p) es reproductiva respecto de p, es decir, dadas dos

variables aleatorias X, Y independientes con X ~ γ (λ, p1), Y ~ γ (λ, p2), entonces:
X + Y ~ γ (λ, p1 + p2)
λp x
F (x) = � t p–1 e–λt dt, 0 < x < ∞
Γ (p) 0
• Media:
p
E (X) =
λ
www.udima.es 143
│ Sumario
• Varianza:
p
V (X) =
λ2
9.2. DISTRIBUCIÓN DE ERLANG
Si p es entero, la distribución gamma se conoce como distribución de Erlang y la función de dis-

tribución se puede expresar como:
(λx)2 (λx) p‒1

F (x) = 1 ‒ �1 + λx + +…+ � e‒λx
2! (p ‒ 1)!
integrando por partes.
Esta distribución se utilizó por primera vez en problemas de tráfico en líneas telefónicas.
Existe una asociación entre los modelos de Poisson y Erlang. Si el número de sucesos aleatorios
independientes que ocurren en un lapso específico es una variable de Poisson con frecuencia constante
de ocurrencia igual a λ, entonces, dado p ∈ ℕ, el tiempo de espera hasta que ocurre el p-ésimo suceso de
Poisson tiene una distribución de Erlang de parámetros λ y p.
Se tiene que la distribución de Erlang γ (λ, p) es el modelo para el tiempo de espera hasta que ocurre el
p-ésimo evento de Poisson, y la distribución de Poisson � (λx) es el modelo para el número de sucesos inde-
pendientes que ocurren en un tiempo x, encontrándose este distribuido de acuerdo con el modelo de Erlang.
Algunos ejemplos de modelos que siguen una distribución gamma son los siguientes:
• Tiempo aleatorio de fallo de un sistema que falla solo si de manera exacta los componentes
fallan y el fallo de cada componente ocurre a una frecuencia constante λ por unidad de tiempo.
• Problemas de líneas de espera para representar el intervalo total para completar una re-
paración si esta se realiza en subestaciones de manera independiente y con una frecuencia
constante λ.
• Si se considera una pieza metálica que se encuentra sometida a cierta fuerza, de manera que
se romperá después de aplicar un número específico de ciclos de fuerza, donde los ciclos
ocurren de manera independiente y a una frecuencia promedio; el tiempo que debe transcu-
rrir antes de que el material se rompa se distribuye según una gamma.
9.3. DISTRIBUCIÓN EXPONENCIAL
Es también un caso particular de la distribución gamma y es muy importante por sus múltiples usos
y aplicaciones.
Una variable aleatoria X sigue una distribución exponencial de parámetros λ > 0 (⇔ X ∈ Exp (λ))
si su función de densidad es:
λe–λx
ƒ (x) = { 0
si
en el resto
x>0
144 www.udima.es
Sumario │
Como se puede observar, la distribución exponencial es una distribución gamma con p = 1, es decir,
Exp (λ) ≡ γ (λ, p = 1). La función de distribución es F (x) = 1 – e–λx si x > 0 (0 en el resto).
Sus medidas características son:
• Media:
1
E (X) =
λ
• Varianza:
1
V (X) =
λ2
La distribución exponencial resulta al considerar en un proceso de Poisson la variable continua

T = Tiempo entre la ocurrencia de dos sucesos consecutivos:
P (T > t) = P (0 sucesos en (0, t)) = e–λt ⇒ F (t) = 1 – e–λt ⇒ ƒ (t) = F' (t) = λe–λt
Una propiedad fundamental de la distribución exponencial es que no tiene memoria: la probabilidad

de ocurrencia de sucesos presentes o futuros no depende de lo que haya ocurrido en el pasado.
Así, que una unidad falle en un lapso específico no depende del tiempo que la unidad haya estado
en operación, sino solo depende de la duración del lapso. Esto es, dada X ~ Exp (λ):
P (X ≥ x + h| X ≥ x) = P (X ≥ h)
EJEMPLO 14
El número de personas necesarias para la visita turística a una cueva es 25. Si el número de personas que
solicita dicho servicio sigue una distribución de Poisson de media 90 personas por hora y el último grupo
partió a las 7, ¿a qué hora se espera que salga el siguiente? Si alguien llega a las 7:25 y con él hay 24 perso-
nas, ¿cuál es la probabilidad de que la visita tarde más de 2 minutos en empezar?
Se definen las variables aleatorias:
90 3
X = Número de personas que llegan por minuto ~ � � λ = = = 1,5 �
60 2
Y = Tiempo que tardan en juntarse 25 personas ~ γ (1,5; 25)
Se observa que Y sigue una distribución de Erlang de parámetros λ = 1,5 y p = 25, ya que es el tiempo de
espera hasta que ocurre el suceso 25 de Poisson. Su esperanza es:
p 25
E (Y) = = = 16,6 minutos
λ 1,5
Con lo que se espera que el siguiente grupo salga entre las 7:16 y 7:17 horas.
.../...
www.udima.es 145
│ Sumario
.../...
Se considera ahora la variable aleatoria:
T = Tiempo (en minutos) que tarda en empezar la visita
que sigue una distribución exponencial de parámetro λ = 1,5, ya que representa el tiempo que tarda en llegar
una nueva persona, es decir, el tiempo hasta la ocurrencia del siguiente suceso de Poisson. Así, la probabi-
lidad de que la visita tarde más de 2 minutos en empezar es:
P (T > 2) = 1 ‒ FT (2) = e‒1,5·2 = e‒3 = 0,049787
10. DISTRIBUCIÓN BETA
La distribución beta juega un gran papel en la estadística bayesiana que se comentará en unidades
didácticas posteriores. Se utiliza para representar variables ficticias cuyos valores se encuentran restrin-
gidos a un intervalo de longitud finita. Otros ejemplos de su uso son:
• Distribución de artículos defectuosos sobre un intervalo de tiempo específico.

• Evaluación de programas y técnicas de revisión.
• Distribución de la proporción de valores que deben caer entre dos observaciones extremas.
Una variable aleatoria X sigue una distribución beta de parámetros p, q > 0 (X ∈ Beta (p, q)) si su
función de densidad es:
1
ƒ (x) = x p–1 (1 – x)q–1 si 0 < x < 1
β (p, q)
y 0 en el resto, donde β (p, q) es la función beta definida por:
1
β (p, q) = � x p–1 (1 – x) q–1 dx con p, q > 0
0
y que tiene las siguientes propiedades:
• β (1, 1) = 1.
1 1
• β� , � = π.
2 2
• β (p, q) = β (q, p).

Γ (p) Γ (q)
• β (p, q) = .
Γ (p + q)
La representación gráfica de la función de densidad de la distribución beta para diferentes valores

de los parámetros se muestra en la figura 4. p y q son parámetros de perfil. La distribución es simétrica
solo si p = q.
146 www.udima.es
Sumario │
Figura 4. Distribución beta para diferentes valores de p y q
p =2, q = 5 p =2,5, q = 1
2,5
2
p=q=2
1,5
ƒ (x)
0,5
0
0 0,2 0,4 0,6 0,8 1
x
• Media:
p
E (X) =
p+q
• Varianza:
pq
V (X) =
(p + q)2 (p + q + 1)
www.udima.es 147
│ Sumario

• Distinguir las diferentes distribuciones y saber calcular probabilidades con ellas.
• Conocer las relaciones que hay entre algunas distribuciones.
• Identificar cuándo se puede calcular una probabilidad a partir de una aproximación y saber
obtenerla.
Tabla 1. Valores de la función de distribución N (0, 1)
x2
1 z
P (Z ≤ z) = FZ (Z) = � e 2
dx
√ 2π –∞
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9762 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
.../...
148 www.udima.es
Sumario │
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
.../...
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
3.5 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998
3.6 .9998 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999
3.8 .9999 .9999 .9999 .9999 .9999 .9999 .9999 1.000 1.000 1.000
4.0 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Enunciado 1
El número de averías de un robot industrial sigue una distribución de Poisson con tasa 0,025 ave-
rías/hora. Si la reparación es prácticamente inmediata por sustitución de componentes:
a) ¿Cuál es la probabilidad de que el robot tenga dos averías en un turno de 8 horas?
Sabiendo que en ninguno de los 600 turnos del año pasado se superaron las 2 averías:
b) Calcular la probabilidad de que en uno de esos turnos el robot tuviese 2 averías.

c) Calcular la probabilidad de que solo en uno de esos turnos tuviese 2 averías.
Enunciado 2
Una urna contiene un gran número de bolas, el 50 % son rojas, el 30 % son negras y el resto azules.
Se extraen 10 bolas de la urna. Calcular:
www.udima.es 149
│ Sumario
a) La probabilidad de que el número de bolas rojas sea mayor que 7.

b) La probabilidad de que el número de bolas negras sea mayor que la suma del número de
rojas y azules.
c) La probabilidad de extraer 4 rojas, 4 negras y 2 azules.
Enunciado 3
El número de quejas de clientes que llegan a una empresa sigue una distribución de Poisson con λ = 6
quejas por mes. Para el próximo año el gerente pide revisar una de cada 5 quejas, determinando que
serán la 5.ª, 10.ª, 15.ª, etc.
a) ¿Cuál es la probabilidad de que el gerente tenga que revisar más de 20 quejas el próximo
año?
b) Si se denomina T al tiempo (en meses) entre llegadas de las quejas que debe revisar el gerente,
¿cuál será la esperanza matemática y la varianza de T? ¿Cuál es la distribución de T?
Enunciado 4
El número de accidentes con víctimas en la «operación retorno» es una variable aleatoria con dis-
tribución de Poisson de media 16 accidentes. Se desea evaluar la probabilidad de que en la próxima ope-
ración retorno haya más de 22 accidentes.
a) Dar la expresión que permita dar la probabilidad con exactitud.

b) Calcular dicha probabilidad mediante una aproximación.
Enunciado 5
La puntuación que saca una persona, elegida al azar, en cierto test de inteligencia, es una variable
aleatoria que se distribuye según una distribución normal N (5, 2) Además, se sabe que el test no da pun-
tuaciones negativas. Los psicólogos califican de «excepcional» la inteligencia de un individuo cuya pun-
tuación en el test ha sido superior a 6,5. Una empresa cazatalentos suele elegir al azar entre individuos
con una puntuación superior a 5. Si durante un proceso de selección ha escogido a 4 individuos, ¿cuál es
la probabilidad de que más de uno posea una inteligencia excepcional?
150 www.udima.es
Sumario │
Solución 1
a) 0,0163.
b) 0,01639.
c) 0,00049.
Solución 2
a) 0,0547.
b) 0,0473.
c) 0,064.
Solución 3
a) La probabilidad de revisar más de 20 quejas en un mes es 0,000483.

5 5
b) E (T) = V (T) = .
6 36
Solución 4
b) 0,0521.
Solución 5
La probabilidad de que más de uno posea una inteligencia excepcional es 0,91.
 E
1. Una población de 20 animales insectívoros se introduce en una zona donde el 14 % de los
insectos que le sirven de alimento son venenosos. Cada animal devora al día 5 insectos.
Calcular la probabilidad de que al cabo de una semana sobrevivan como mínimo la mitad
de la población, suponiendo independencia.
www.udima.es 151
│ Sumario
2. 6 personas se dedican a desvalijar casas en una ciudad. Estiman que en esta época del año el
65 % de las casas están vacías, facilitando sus operaciones. Si cada uno se encarga de subir
a una casa cada día:
• ¿Cuál es la probabilidad de que en la operación de mañana al menos la mitad de ellos

no sean descubiertos por los dueños de las casas?
• Si en cada casa roban por valor de 400 euros, ¿cuánto se espera que obtenga el grupo
de mañana?
• Si realizan cada día este tipo de operación, ¿cuál es la probabilidad de que no descu-
bran a ninguno en los próximos 6 días?
3. Un grupo de 80 buzos se sumerge en el mar con el fin de recuperar los tesoros de un barco
hundido, que está ahora a 100 metros de profundidad. Se sabe que la distancia que recorre
un buzo cualquiera hacia el fondo del mar sigue una distribución exponencial de media 40
metros. Contando con que algunos buzos abandonarán la misión en caso de no resistir la
presión soportada, se ha estimado que para recoger el tesoro bastará con que por lo menos
el 15 % de ellos lleguen hasta la profundidad del barco. Se pide:
• ¿Cuál es la probabilidad de que algún buzo llegue hasta el barco?

• ¿Cuál es el número esperado de buzos que llegan hasta el barco?
• ¿Cuál es la probabilidad de que se logre rescatar el tesoro?
4. El peso en gramos de las ciruelas suministradas por un almacén a una frutería sigue una dis-
tribución N (175, 10). Las ciruelas cuyo peso es inferior a 150 gramos o superior a 195 gra-
mos no aparecen expuestas al público. ¿Cuál es la probabilidad de que una ciruela expuesta
al público pese entre 172 gramos y 181 gramos?
5. Una empresa recibe voltímetros de dos proveedores diferentes, B1 y B2. El 75 % de los voltí-
metros se compra a B1 y el resto a B2. Se considera que un voltímetro es defectuoso cuando
su medición ofrece un error de al menos 2 voltios. Se sabe que la diferencia entre el vol-
taje real y el observado en los voltímetros de B1 se comporta de acuerdo a una distribución
N (0, 2), mientras que para B2 sigue una uniforme en el intervalo (− 3, 3), donde todos los
parámetros están expresados en voltios. Determinar la probabilidad de que un voltímetro
que se acaba de recibir no sea defectuoso.
Básica

DEVORE, J. L.: Probabilidad y estadística para ingeniería y ciencias, 6.ª ed. Méjico: International Thomson Editores, 2005.
MILTON, J. S. y ARNOLD, J. C.: Probabilidad y estadística para ingeniería y ciencias, México: McGraw-Hill, 2004.
PEÑA, D.: Fundamentos de estadística, Madrid: Alianza Editorial, 2001.
152 www.udima.es
Sumario │
En la red
Ejercicios sencillos sobre variables aleatorias y su distribución: http://www.zweigmedia.com/ThirdEdSite/tutstats/frames 8_1.html

Tutoriales sobre estadística y probabilidad: http://stattrek.com/Lesson2/ProbabilityDistribution.aspx
Applets de java para ilustrar conceptos de estadística y probabilidad: http://www.math.csusb.edu/faculty/stanton/ /probstat/
index.html
Applets para calcular probabilidades con la distribución normal: http://psych-www.colorado.edu/~mcclella/java/zcalc.html
Avanzada
CUADRAS, C.M.: Problemas de probabilidades y estadística, Barcelona: Promociones y publicaciones universitarias, 1991.
QUESADA V., GARCÍA A.: Lecciones de cálculo de probabilidades, Díaz de Santos, 1988.
www.udima.es 153
Sumario │
6
UNIDAD
DIDÁCTICA
MULTIDIMENSIONALES
1. Variables aleatorias bidimensionales. Distribución conjunta

1.1. Vector aleatorio discreto
1.2. Vector aleatorio continuo
2. Distribuciones marginales
2.1. Caso discreto
2.2. Caso continuo
3. Distribuciones condicionadas
3.1. Caso discreto
3.2. Caso continuo
4. Independencia
5. Momentos
5.1. Momentos respecto del origen
5.2. Momentos respecto de la media
6. Teorema de Bayes
7. Distribución normal bivariante

www.udima.es 155
│ Sumario
En esta unidad didáctica se extiende la definición de variable aleatoria al caso bidimensional, así
como todas las funciones necesarias para su estudio. Se analiza, además de la distribución conjunta, las
distribuciones marginales y condicionadas, junto con la extensión a variables aleatorias bidimensiona-
les de otros conceptos que ya se vieron en la unidad didáctica 2, para distribuciones de frecuencias bidi-
mensionales como la independencia, los momentos, etc. Se finaliza con la generalización del teorema
de Bayes, en el caso de que los sucesos en cuestión se expresen a través de variables aleatorias y con la
descripción de la distribución normal bivariante.
Los objetivos concretos son los siguientes:
• Conocer la terminología básica de las distribuciones multidimensionales: distribución con-

junta, marginal, condicionada.
• Entender el concepto de independencia entre variables aleatorias.
• Saber aplicar las reglas de combinación de probabilidades en términos de variables aleatorias.
156 www.udima.es
Sumario │
A. Moreno Díaz Variables aleatorias multidimensionales
1. VARIABLES ALEATORIAS BIDIMENSIONALES. DISTRIBUCIÓN CONJUNTA
1.1. VECTOR ALEATORIO DISCRETO
Sean X e Y dos variables aleatorias discretas. La función de probabilidad, de masa o cuantía con-
junta de (X, Y), es una función tal que:
P (X = x, Y = y) si (x, y) son valores de (X, Y)

p (x, y) = { 0 en el resto
en donde, p (x, y) ≥ 0 y Σx Σy p (x, y) = 1.
EJEMPLO 1
Sea (X, Y) la variable aleatoria bidimensional discreta cuya función de probabilidad conjunta viene dada por:
Tabla 1
Y|X 0 1 2 3
1 0 3/8 3/8 0
3 1/8 0 0 1/8
Se tiene, por tanto:

3
P (X = 1, Y = 1) = p (1, 1) =
8
3
P (X = 2, Y = 1) = p (2, 1) =
8
1
P (X = 0, Y = 3) = p (0, 3) =
8
1
P (X = 3, Y = 3) = p (3, 3) =
8
Se define la función de distribución como:
F (x, y) = P (X ≤ x, Y ≤ y) = Σ Σ p (xi, yi)

xi ≤x yi ≤y
www.udima.es 157
│ Sumario
Propiedades de la función de distribución:
• Está acotada entre 0 y 1.

• Es monótona no decreciente en cada una de las variables.
• Es continua por la derecha en cada variable.
• P (X = xi, Y = yj) = F (xi, yj) – F (xi–1, yj) – F (xi, yj–1) + F (xi–1, yj–1).
La figura 1 muestra la interpretación gráfica de esta última propiedad.
Figura 1. Relación entre función de probabilidad y función de distribución
F (xi, yj) P (X = xi, Y = yj)
yj yj
yj‒1 yj‒1
xi‒1 xi xi‒1 xi
EJEMPLO 2
Calcular la función de distribución de la variable aleatoria (X,Y) del ejemplo 1.
Se tiene:
0 si x < 0 o y < 1 o (0 ≤ x < 1, 1 ≤ y < 3)
{
1
si 0 ≤ x < 1, y ≥ 3
8
3
si 1 ≤ x < 2, 1 ≤ y < 3
8
3 1 4
F (x, y) = + = si 1 ≤ x < 2, y ≥ 3
8 8 8
6
si 2 ≤ x, 1 ≤ y < 3
8
7
si 2 ≤ x < 3, y ≥ 3
8
1 si x ≥ 2, y ≥ 3
158 www.udima.es
Sumario │
1.2. VECTOR ALEATORIO CONTINUO
Sea (X, Y) con X e Y variables aleatorias continuas. Se dice que ƒ es la función de densidad con-
junta de (X, Y) si verifica:
• ƒ (x, y) ≥ 0 ∀ (x, y) en el rango de la variable.

∞ ∞
• �–∞ �–∞ ƒ (x, y) dx dy = 1.
Las probabilidades se calculan por integración de la función de densidad:

b d
P (a < X < b, c < Y < d) = � � ƒ (x, y) dy dx
a c
Dada la función de densidad f (x, y), se define la función de distribución F : ℝ2 → ℝ como:

x y
F (x, y) = P (X ≤ x, Y ≤ y) = � � ƒ (u, v) dv du
–∞ –∞
Propiedades de la función de distribución F (x, y):
• Está acotada entre 0 y 1.

• Es monótona no decreciente en cada componente.
• Es continua en todo punto de ℝ2.
• Se verifica que:
∂2 F (x, y) ∂2 F (x, y)
ƒ (x, y) = =
∂x ∂y ∂y ∂x
La representación gráfica de la función de densidad ƒ (x, y) es una superficie en ℝ3 y la P (a < X < b,

c < Y < d) es el volumen debajo de ƒ (x, y) y encima del rectángulo correspondiente. Además, se verifica:
• P (X = x, Y = y) = 0.
• F (x, y) = P (X < x, Y < y) = P (X ≤ x, Y < y) = P (X < x, Y ≤ y).
EJEMPLO 3
Sea (X, Y) el vector aleatorio continuo con función de densidad conjunta dada por:
x+y si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
ƒ (x, y) = { 0 en caso contrario
Demostrar que es función de densidad y calcular la función de distribución asociada. Calcular la probabi-
lidad conjunta
1 3
P � X≤ ,Y≤ �
2 4
.../...
www.udima.es 159
│ Sumario
.../...
Para ver que es función de densidad se comprueba que:
• ƒ (x, y) ≥ 0 ∀ (x, y) ∈ ℝ2.

∞ ∞ 1 1
• �–∞ �–∞ ƒ (x, y) dy dx = �0 �0 (x + y) dy dx = 1.
Para calcular la función de distribución, se resuelve la integral:
x y
F (x, y) = �0 �0 ƒ (u, v) dv du
Dependiendo de los diferentes valores de x e y, se tiene:
• Si 0 ≤ x, y < 1,
x y xy
F (x, y) = �0 �0 (u + v) dv du = (x + y)
2
• Si 0 ≤ x < 1, y ≥ 1,
x 1 1
F (x, y) = �0 �0 (u + v) dv du = x (x + 1)
2
• …
Con lo que:
0 si x<0 o y<0
{
xy
(x + y) si 0 ≤ x, y < 1
2
1
F (x, y) = x (x + 1) si 0 ≤ x < 1, y ≥ 1
2
1
y (y + 1) si x ≥ 1, 0 ≤ y < 1
2
1 si x ≥ 1, y ≥ 1
Para calcular la probabilidad pedida, se utiliza la forma de la función de distribución para 0 ≤ x, y < 1:
1 3 1 3 1 1 3 1 3 15
P �X ≤ ,Y≤ � =F � , � = · · · � + � =
2 4 2 4 2 2 4 2 4 64
2. DISTRIBUCIONES MARGINALES
2.1. CASO DISCRETO
Dado (X, Y) vector aleatorio discreto con función de probabilidad conjunta p (x, y), se define la fun-
ción marginal de probabilidad o masa de X como:
PX (x) = Σy p (x, y)
160 www.udima.es
Sumario │
De igual forma se define la función marginal de probabilidad o masa de Y como:
PY (y) = Σx p (x, y)
EJEMPLO 4
Determinar las funciones marginales de probabilidad de las variables aleatorias X e Y del ejemplo 1.
Se va a completar la tabla dada en el ejemplo 1 con sendas distribuciones marginales. Se obtienen sumando
por filas y por columnas en la tabla de la distribución conjunta y se representan en los márgenes de la tabla,
de ahí el nombre de marginales.
Tabla 2. Tabla con las distribuciones marginales del ejemplo 1
Y|X 0 1 2 3 pY
1 0 3/8 3/8 0 6/8

3 1/8 0 0 1/8 2/8
pX 1/8 3/8 3/8 1/8
Por tanto, a partir de las distribuciones marginales se tiene que la variable aleatoria X toma cuatro valores
distintos {0, 1, 2, 3} con probabilidades respectivas de
1 3 3 1
, , y
8 8 8 8
6 2
y la variable aleatoria Y toma dos valores distintos {1, 3} con probabilidades y respectivamente.
8 8
Dado (X, Y) vector aleatorio discreto con funciones de probabilidad marginales pX (x) y pY (y) respectiva-
mente, se define la función de distribución marginal de X como:
FX (x) = Σ
xi ≤x
pX (xi)
Igualmente se define la función de distribución marginal de Y como:
FY (y) = Σ
yj ≤y
pY (yj)
Con la distribución marginal se estudia la variable correspondiente de forma aislada, con independencia de
las otras. Así, FY (y) representará la función de distribución de la característica Y en todos los individuos de
la población, con independencia de la otra característica X.
2.2. CASO CONTINUO
Dado (X, Y) vector aleatorio continuo con función de densidad conjunta ƒ (x, y), se define la fun-
ción de densidad marginal de X como:
∞
ƒX (x) = � ƒ (x, y) dy
‒∞
www.udima.es 161
│ Sumario
Igualmente la función de densidad marginal de Y se define como:
∞
ƒY (y) = � ƒ (x, y) dx
‒∞
Se define la función de distribución marginal de X como:
x x ∞
FX (x) = � ƒX (t) dt = � � ƒ (t, y) dy dt
‒∞ ‒∞ ‒∞
Y la función de densidad marginal de Y como:
y y ∞
FY (y) = � ƒY (t) dt = � � ƒ (x, t) dx dt
‒∞ ‒∞ ‒∞
EJEMPLO 5
Se tiene la siguiente función de densidad conjunta cuyo soporte viene representado en la figura 2. Calcular
las funciones de densidad marginales y la función de distribución marginal de X.
2 si 0<x<y<1
ƒ (x, y) = { 0 en otro caso
Figura 2. Soporte de la función de densidad
y=x
1
Se tiene que:
1
ƒX (x) = �x 2 dy = 2 (1 ‒ x) si 0<x<1
y
ƒY (y) = �0 2 dx = 2y si 0<y<1
Para la función de distribución marginal de X, se tiene:
x
FX (x) = �0 2 (1 ‒ t) dt = x (2 ‒ x) si 0<x<1
162 www.udima.es
Sumario │
3. DISTRIBUCIONES CONDICIONADAS
Se define la distribución condicionada de una variable aleatoria X a un valor fijo igual a y de otra
variable aleatoria Y, como la distribución univariante de X en los elementos de la población que tienen
como valor de Y el valor fijado. Por ejemplo, la distribución de la variable X = Gasto familiar en ocio,
condicionada al valor 3 de la variable Y = Número de hijos, representa la distribución del gasto familiar
en los elementos de la población con número de hijos igual a 3.
3.1. CASO DISCRETO
La distribución condicionada de X para Y = y0 fijo se obtiene normalizando las probabilidades con-

juntas p (x, y0) para que sumen 1. Como Σx p (x, y0) = pY (y0), la función de probabilidad de X condicio-
nada a Y = y0 es:
p (x, y0)
p (x|y0) = , siempre que pY (y0) ≠ 0.
pY (y0)
Si se toma un y genérico, se tiene:
p (x, y) = p (x|y) p (y)
que relaciona la distribución de probabilidad conjunta con la condicionada y con la marginal.
3.2. CASO CONTINUO
Si (X, Y) es variable aleatoria continua con función de densidad conjunta ƒ (x, y), la función de den-
sidad condicionada de X será, siendo y0 un valor fijo de Y:
ƒ (x, y0)
ƒ (x|y0) =
ƒY (y0)
ƒy (y) es la función de densidad (marginal) de Y, de forma que ƒY (y0) > 0. Si fuera ƒY (y0) = 0, se
supondrá que ƒ (x|y0) = 0 ∀x.
Tanto para el caso discreto como continuo, se definen de forma análoga p (y|x0) y ƒ (y|x0).
Observaciones
• La distribución condicionada de X para Y = y0 se puede interpretar como la distribución de la

característica X en los elementos de la población que tienen en la característica Y el valor fijo y0.
Sin embargo, la distribución marginal estudia la distribución de la característica X en todos los
elementos de la población, independientemente del valor que tome en ellos la característica Y.
• Se tiene que:
pX (x) = Σy p (x, y) = Σy p (x|y) p (y)
www.udima.es 163
│ Sumario
que es el teorema de la probabilidad total. En el caso continuo:
∞
ƒX (x) = � ƒ (x|y) ƒ (y) dy
‒∞
EJEMPLO 6
A partir de la distribución discreta de la tabla 1 (ejemplo 1), calcular las distribuciones condicionadas
P (Y|X = 0) = p (y|0) y P (X|Y = 1) = p (x|1).
Se tiene:
P (Y = 1, X = 0) 0
P (Y|X = 0) =
{ P (X = 0)
P (Y = 0, X = 0)
P (X = 0)
=
=
1/8
1/8
1/8
=0
=1
si
si
Y=1
Y=3
P (X = 0, Y = 1) 0
{
= =0 si X=0
P (Y = 1) 6/8
P (X = 1, Y = 1) 3/8 1
= = si X=1
P (Y = 1) 6/8 2
P (X|Y = 1) =
P (X = 2, Y = 1) 3/8 1
= = si X=2
P (Y = 1) 6/8 2
P (X = 3, Y = 1) 0
= =0 si X=3
P (Y = 1) 6/8
EJEMPLO 7
A partir de la función de densidad conjunta del ejemplo 5, calcular las funciones de densidad condicionadas:
ƒ (x, y) 2 1
∀ y ∈ (0, 1) ƒ (x|y) = = =
ƒY (y) 2y y
Por tanto, si x ∈ (0, y), X|Y ~ 𝒰 (0, y).
ƒ (x, y) 2 1
∀ x ∈ (0, 1) ƒ (y|x) = = =
ƒX (x) 2 (1 ‒ x) 1‒x
Por tanto, si y ∈ (x, 1), Y|X ~ 𝒰 (x, 1).
164 www.udima.es
Sumario │
4. INDEPENDENCIA
Sean X e Y variables aleatorias con funciones de densidad marginales ƒX (x) y ƒY (y). Se dirá que X
e Y son independientes, si y solo si:
ƒ (x, y) = ƒX (x) ƒY (y)
Es decir, la función de densidad conjunta es el producto de las funciones de densidad marginales.

Si hay independencia, el conocimiento de las densidades marginales es suficiente para determinar uní-
vocamente la función de densidad conjunta. Si las variables aleatorias X e Y son discretas, se tiene inde-
pendencia si y solo si:
p (x, y) = pX (x) pY (y)
Además, si X e Y son independientes, se tiene:
P (a < X < b, c < Y < d) = P (a < X < b) ∙ P (c < Y < d)
A partir de la función de distribución se tiene una definición equivalente de independencia. Dos

variables aleatorias X e Y se dirá que son independientes si y solo si:
F (x, y) = FX (x) FY (y)
Propiedades:
• Las variables aleatorias X e Y son independientes si y solo si las funciones de densidad con-
dicionadas son iguales a las marginales. El conocimiento de una de las variables no aporta
información sobre los valores de la otra:
ƒ (x| y) = ƒX (x) y ƒ (y| x) = ƒY (y)
• Las funciones de variables aleatorias independientes son también independientes.

• Si X e Y son independientes, entonces: F (x|y) = F (x) y F (y| x) = F (y).
A continuación se explica con un ejemplo el concepto de independencia.
EJEMPLO 8
Supóngase que en una población se estudian tres variables X = Peso, Y = Estatura y Z = Cociente intelectual.
Las variables Y y Z son independientes si la distribución de estaturas en personas con Z = 80 es la misma
que en personas con z = 100 o cualquier otro valor y, en todo caso, es igual a la distribución marginal de esa
variable, es decir, ƒ (y| z) = ƒ (y). Sin embargo, si las variables aleatorias Y y X no son independientes, la dis-
tribución de estaturas dependerá del peso y será distinta en personas con X = 50 kilogramos ƒ (Y|X = 50), y
en personas con X = 70 kilogramos ƒ (Y|X = 70). Estas distribuciones concretas también serán distintas de la
distribución marginal de estaturas, ƒ (y), que será una media ponderada de todas ellas.
www.udima.es 165
│ Sumario
5. MOMENTOS
Dadas X e Y dos variables aleatorias y g (X, Y) una función de ellas, se define la esperanza matemá-
tica de la variable aleatoria g (X, Y) como:
E [g (X, Y)] = Σx Σy g (x, y) p (x, y) si X eY son discretas
∞ ∞
E [g (X, Y)] = � � g (x, y) ƒ (x, y) dy dx si X e Y son continuas
‒∞ ‒∞
Siempre que la serie y la integral sean absolutamente convergentes.
5.1. MOMENTOS RESPECTO DEL ORIGEN
Dada (X, Y) variable aleatoria bidimensional, se llama momento respecto del origen de orden (k, h) a:
αkh = E (X k Y h) = � 2 x k y h ƒ (x, y) dy dx
ℝ
Casos particulares:
• α10 = E (X) ≡ media marginal de X.

• α01 = E (Y) ≡ media marginal de Y.
En general, αk0 = ak y α0h = αh, donde los momentos de la derecha del signo igual están calculados
a partir de las distribuciones marginales.
5.2. MOMENTOS RESPECTO DE LA MEDIA
Se llama momento central o respecto de la media de orden (k, h) de la variable aleatoria (X, Y) a:
μ kh = E [(X – E (X))k (Y – E (Y))h]
Casos particulares:
• μ20 = E [(X – E (X))2] = V (X) = σ2X, que es la varianza de X y se denomina varianza margi-
nal de X.
• μ02 = E [(Y – E (Y))2] = V (Y) = σ2Y, que es la varianza marginal de Y.
• μ11 = E [(X – E (X)) (Y – E (Y))] ≡ covarianza entre las variables aleatorias X e Y. También
se denota por cov (X, Y) = σ12 = σXY .
Los casos particulares descritos anteriormente se disponen en la matriz de varianzas y covarianzas:
μ20 μ11 σ21 σ12

� �=� �
μ11 μ02 σ12 σ22
166 www.udima.es
Sumario │
Propiedades:
• E (aX + bY + c) = aE (X) + bE (Y) + c.

• V (aX ± bY + c) = a2 V (X) + b2 V (Y ) ± 2 ab cov (X, Y).
• Si X e Y son independientes, entonces E (XY) = E (X) E (Y ).
• Cov (X, Y) = E (XY) – E (X) E (Y).
Observación. Como la covarianza entre dos variables aleatorias varía con las unidades de medida, se
define una medida adimensional de la relación lineal entre X e Y. Es el coeficiente de correlación lineal ρ.
Cov (X, Y)
ρ=
σX σY
Se demuestra que – 1 ≤ ρ ≤ 1.
Como consecuencia de las dos últimas propiedades, se tiene que si X e Y son independientes, entonces:
• Cov (X, Y) = 0, es decir, son incorreladas.

• V (aX ± bY) = a2 V (X) + b2 V (Y).
Sin embargo, el que dos variables sean incorreladas, es decir, que su covarianza sea 0 no implica
que sean independientes, ya que podrían manifestar entre ellas otro tipo de relación distinta de la lineal.
6. TEOREMA DE BAYES
El teorema de Bayes es una importante herramienta de inversión de probabilidades que ya se ha

estudiado para calcular probabilidades condicionadas de sucesos discretos. Se usará ahora para actuali-
zar el grado de creencia de un suceso cuando se tiene nueva información sobre este. Primero se introdu-
cirá algún concepto básico sobre distribuciones bidimensionales en las que una de las componentes es
discreta y la otra continua.
Si X es una variable aleatoria discreta e Y | X = x es una variable aleatoria continua, entonces Y es

una variable aleatoria continua con función de densidad:
ƒ (y) = Σx ƒ (x, y) = Σx ƒ (y|x) p (x)
y la variable aleatoria X|Y es discreta con función de probabilidad:
ƒ (y| x) p (x)
p (x|y) =
ƒ (y)
Si X es una variable aleatoria continua e Y |X es una variable aleatoria discreta, entonces Y es varia-
ble aleatoria discreta con función de probabilidad:
P (Y = y) = � p (y| x) ƒ (x) dx
x
www.udima.es 167
│ Sumario
y la variable X|Y = y es continua con función de densidad:
p (y |x) ƒ (x)
ƒ (x| y) =
p (y)
El teorema de Bayes permite responder a las siguientes preguntas: si se conoce la distribución con-
junta de dos variables y se ha observado el valor y de una de ellas, ¿cuál es el valor más probable de la
otra? Dado y, ¿cuál es la distribución de la variable desconocida X ?
Se presentan a continuación las distintas versiones del teorema de Bayes según sea la naturaleza
discreta o continua de las variables aleatorias implicadas:
• X e Y variables discretas:
p (y| x) p (x)
p (x| y) =
Σx p (y| x) p (x)
• X e Y variables continuas:
ƒ (y| x) ƒ (x)
ƒ (x |y) =
� ƒ (y| x) ƒ (x) dx
• X discreta e Y continua:
ƒ (y| x) p (x)
p (x| y) =
Σx ƒ (y| x) p (x)
• X continua e Y discreta:
p (y| x) ƒ (x)
ƒ (x| y) =
� p (y| x) ƒ (x) dx
EJEMPLO 9
Sean las variables aleatorias discretas N y X. Se sabe que dado N = n, la variable X|N = n se distribuye como
binomial (n, p), es decir:
n
P (X = k|N = n) = � k � pk (1 ‒ p)n‒k k = 0, 1, 2, …, n
También se sabe que la variable aleatoria N ~ � (λ) es
λn
P (N = n) = e‒λ
n!
Se pide calcular la P (N = n|X = k).

.../...
168 www.udima.es
Sumario │
.../...
Usando el teorema de Bayes se tiene que:
n λn
� � pk (1 ‒ p)n‒k e‒λ
P (X = k|N = n) P (N = n) k n!
P (N = n|X = k) = = =
P (X = k) n λn
Σ∞n=k � � pk (1 ‒ p)n‒k e‒λ
k
n!
n λn
� � p k (1 ‒ p)n‒k e‒λ
k n! (λq)n‒k e‒λq
= =
λk pk (n ‒ k)!
e‒λp
k!
Esta última fórmula nos dice que la variable N ‒ k|X = k ~ � (λq).
7. DISTRIBUCIÓN NORMAL BIVARIANTE
Se dice que (X, Y) tiene una distribución normal bivariante si su función de densidad conjunta viene
dada por:
1 x‒μ1 2 y‒μ2 2 (x–μ1) (y–μ2)

1 –
2 (1–ρ2)
�� σ1 � +� σ2 � – 2ρ
σ1 σ2 �
ƒ (x, y) = e
2π σ1 σ2 √ 1 – ρ2
donde μ1 = E (X), μ2 = E (Y), σ21 = V (X), σ22 = V (Y) y ρ es el coeficiente de correlación entre X e Y. Se
dice que μ es el vector de medias y C la matriz de varianzas y covarianzas.
μ1 σ21 σ12
μ= � � , C = � �
μ2 σ12 σ21
ƒ (x, y) es una superficie tridimensional con forma de

campana. La figura 3 muestra la función de densidad de la
normal bivariante con μ1 = μ2 = 0, σ1 = σ2 = 1, ρ = 0.
Propiedades:
Karl Friedrich Gauss (1777-1855). Mate-
• Las distribuciones marginales y condiciona- mático, físico y astrónomo alemán. Con-
das también son normales: tribuyó significativamente en numerosos
campos: teoría de números, análisis mate-
mático, geometría diferencial, geodesia, mag-
− Marginal de X ~ 𝒩 (μ1, σ1). netismo y óptica, entre otros. Realizó su tesis
doctoral (1799) sobre el teorema fundamental
− Marginal de Y ~ 𝒩 (μ2, σ2). del álgebra, el cual demostró. En 1801 publicó
la obra Disquisiciones aritméticas, en la que
− Condicionada recoge numerosos hallazgos. Su interés por
el cálculo de órbitas planetarias y por la teoría
ρσ1 de errores de observación le llevó a populari-
X|Y ~ 𝒩(μ1 + (y – μ2), σ21 (1 – ρ2)) zar el uso de la distribución normal.
σ2
www.udima.es 169
│ Sumario
− Condicionada
ρσ2
Y|X ~ 𝒩(μ2 + (x – μ1), σ22 (1 – ρ2))
σ1
• Si (X, Y) se distribuye como una normal bivariante y son incorreladas, es decir, ρ = 0, enton-
ces X e Y son independientes.
• Cualquier combinación lineal de variables aleatorias normales también tiene distribución
normal, es decir, si (X, Y) ~ N (μ, C), entonces:
aX + bY + c ~ N (aμ1 + bμ2 + c, a2 V (X) + b2 V (Y ) + 2ab Cov (X, Y))
Figura 3. Función de densidad de la normal bivariante
0,15
0,1
0,05
0
‒ 3 ‒ 3
‒ 2 ‒ 2
‒ 1 ‒ 1
0 0
y 1 1 x
2 2
3 3
170 www.udima.es
Sumario │

• Distribución conjunta, marginal y condicionada.
• Independencia entre variables aleatorias.
• Teorema de Bayes, en su versión para variables aleatorias.
Enunciado 1
Una urna contiene 3 bolas numeradas del 1 al 3. Se sacan al azar 2 bolas sin reemplazamiento y
teniendo en cuenta el orden se define: X = Número de la primera bola elegida e Y = Máximo de los
números de las 2 bolas elegidas. Calcular la función de probabilidad de la variable aleatoria bidimen-
sional (X, Y) y su función de distribución.
Enunciado 2
Dada la variable aleatoria bidimensional discreta (X, Y ) con función de probabilidad conjunta:
1
P (X = x, Y = y) = si 1 ≤ y ≤ x ≤ 3
6
Calcular las funciones de probabilidad marginales pX (x) y pY (y).
Enunciado 3
Dada la variable aleatoria bidimensional continua (X, Y ) con función de densidad:
ƒ (x, y) =
{ x+y
8.000
0
si 0 < x, y < 20
en otro caso
Comprobar que es función de densidad y calcular la función de densidad condicionada ƒ (x |y).
www.udima.es 171
│ Sumario
Enunciado 4
Dada la función de densidad conjunta:
0 ≤ x ≤ 1, 0 ≤ y ≤ 1
ƒ (x, y) = { x+y
0
si
en otro caso
Calcular la siguiente probabilidad:
P ((x, y) ∈ ℝ2 tales que x ≥ 2y)
Enunciado 5
El número de clientes que entra diariamente en un establecimiento sigue una distribución de Poisson
con parámetro λ = 20. La probabilidad de que uno cualquiera de estos clientes haga una compra es
p = 0,2. Si ayer se realizaron un total de 3 ventas, ¿cuál es la probabilidad de que entraran menos de
5 personas en el establecimiento? Ayuda: utilizar el resultado del ejemplo 8.
172 www.udima.es
Sumario │
Solución 1
Solución 2
Solución 3
Solución 4
5
La probabilidad pedida es: .
24
Solución 5
La probabilidad pedida es: 1,9 × 10–6.
 E
1. Se lanzan 3 monedas en las que la probabilidad de obtener cara es 0,5, 0,4 y 0,3, respec-
tivamente. Se definen las variables aleatorias X = Número de caras en las dos primeras e
Y = Número de cruces en las dos últimas. Construir la función de probabilidad conjunta de
la variable bidimensional (X, Y).
2. Se lanzan las 3 monedas del ejercicio anterior y se definen las variables aleatorias X= Número
de cruces en las dos primeras e Y = Número de caras en la última. Construir la función de
probabilidad conjunta de la variable bidimensional (X, Y ). ¿Son X e Y independientes?
3. Dada la función de densidad conjunta:
6xy2 0 < x < 1, 0 < y < 1

ƒ (x, y) = { 0
si
en otro caso
Comprobar que es función de densidad y calcular las funciones de densidad marginales

ƒX (x) y ƒY (y).
www.udima.es 173
│ Sumario
4. ¿Son las variables X e Y del ejercicio anterior independientes?

5. Sea (X, Y) una variable aleatoria normal bivariante con:
2 2 1
μ= � � , C = � �
3 1 6
2X – Y
Encontrar la distribución de la variable Z = .
3
Básica
CANAVOS, G. C.: Probabilidad y estadística. México: McGraw-Hill, 1987.

DEVORE, J. L.: Probabilidad y estadística para ingeniería y ciencias. 6.ª ed., México: International Thomson Editores, 2005.
MILTON, J. S. y ARNOLD, J. C.: Probabilidad y estadística para ingeniería y ciencias. México: McGraw-Hill, 2004.
En la red
Ejercicios sencillos sobre variables aleatorias y su distribución: http://www.zweigmedia.com/ThirdEdSite/tutstats/frames 8_1.html.
Tutoriales sobre estadística y probabilidad: http://stattrek.com/Lesson2/ProbabilityDistribution.aspx.
Rice Virtual Lab in Statistics: http://onlinestatbook.com/rvls.html.
Applets de java para ilustrar conceptos de estadística y probabilidad: http://www.math.csusb.edu/faculty/stanton/probstat/

/index.html.
Avanzada
CUADRAS, C. M.: Problemas de probabilidades y estadística, Barcelona: Promociones y publicaciones universitarias, 1991.
EVERITT, B. S. y DUNN, G.: Applied Multivariate Data Analysis, Londres: Arnold, Londres, 2001.
174 www.udima.es
Sumario │
7
UNIDAD
DIDÁCTICA
INTRODUCCIÓN A LA
INFERENCIA ESTADÍSTICA
1. Introducción
1.1. Métodos clásicos

1.2. Métodos bayesianos
1.3. Métodos paramétricos
1.4. Métodos no paramétricos
2. Muestreo
3. Tipos de muestreo
3.1. Muestreo aleatorio simple

3.2. Muestreo estratificado
3.3. Muestreo sistemático
3.4. Muestreo por conglomerados
3.5. Muestreo aleatorio sin reemplazamiento
4. Muestra aleatoria simple

5. Media muestral. Propiedades
5.1. Desigualdad de Tchebychev
6. Leyes de los grandes números
6.1. Ley débil de los grandes números
7. Distribución asintótica de la media muestral
7.1. Convergencia en distribución

7.2. Teorema central del límite (Linderberg-Lévy)
7.3. Teorema de Moivre-Laplace
www.udima.es 175
│ Sumario
8. Distribuciones asociadas a la normal

8.1. Distribución χ2 de Pearson
8.1.1. Medidas características
8.2. Distribución t de Student
8.3. Distribución F de Fisher-Snedecor

176 www.udima.es
Sumario │
M.ª I. Rodríguez Galiano Introducción a la inferencia estadística
La inferencia estadística utiliza el lenguaje de la probabilidad para sacar conclusiones de los datos y
acompañar esas conclusiones por una declaración formal de la confianza que se tiene de que sean correc-
tas. Así, se comienza ubicando la inferencia dentro del ciclo general de la estadística. La estadística des-
criptiva y el cálculo de probabilidades, ya estudiados, servirán en el objetivo de construir métodos que
permitan realizar inferencias inductivas de la población partiendo de la muestra. Tales inferencias se for-
mularán sujetas a un grado de confianza que se podrá controlar. La primera etapa del ciclo estadístico es
la selección de la muestra de la población de interés. El éxito del análisis final que se realice dependerá
en gran medida del cuidado que se haya puesto en la selección de la muestra y en lo representativa que
sea esta de la población. La herramienta de inferencia que se usará será la muestra aleatoria simple. Es
esencial entender la distribución muestral para comprender los conceptos de inferencia. El estudio de las
propiedades de la media muestral y su comportamiento asintótico lleva a la desigualdad de Tchebychev
y al teorema central del límite, resultado fundamental para el desarrollo de unidades didácticas posterio-
res. Por último, se introducirán las distribuciones relacionadas con la distribución normal.
• Entender cuáles son los objetivos y procedimientos de la inferencia estadística.

• Proponer las técnicas de muestreo como paso previo importante a la inferencia estadística.
• Comprender la muestra aleatoria simple como variable aleatoria.
• Entender que el estadístico es una variable aleatoria y asimilar que surge de la transforma-
ción de la muestra aleatoria simple.
• Entender el concepto de distribución en el muestreo.
• Manejar la media muestral como variable aleatoria y asimilar la idea de aproximación hacia
la media poblacional desde diferentes puntos de vista.
www.udima.es 177
│ Sumario
1. INTRODUCCIÓN
El cálculo de probabilidades construye modelos proba-

bilísticos de forma deductiva. Se establecen las hipótesis del
modelo; verbigracia, cuál es el mecanismo generador de los
datos (por ejemplo, una binomial), y a partir de ahí se deter-
minan las probabilidades de los diferentes valores posibles. Ronald Ayler Fisher (1890-1962). Matemá-
tico, biólogo y genetista inglés.
La inferencia estadística realiza el proceso inverso, a Su mayor aportación a la estadística fue crear
partir de las frecuencias de una determinada variable intenta la inferencia estadística en 1920.
definir el modelo probabilístico que ha generado los datos. Es uno los principales fundadores de la gené-
tica de poblaciones, sentando las bases de
Por lo tanto, la inferencia estadística comprende una colec- esta disciplina.
ción de técnicas que permiten formular inferencias inductivas En 1925 publicó una de sus obras más importan-
y que proporcionan una medida del riesgo de estas inferencias. tes: Statistical Methods for Research Workers,
un libro de referencia en el diseño de expe-
rimentos, en el que introdujo el análisis de la
La figura 1 representa el ciclo de la estadística. Inte- varianza y el método de máxima verosimilitud.
resa estudiar una característica determinada en todos los Descubrió varias distribuciones.
individuos de una población. Ya que el estudio de todos y
cada uno de sus elementos es inviable, se selecciona una
muestra de la misma. A través de los estadísticos descripti-
vos se resume de manera concisa mucha de la información
contenida en la muestra. Con esta información se construye un modelo matemático que refleje el com-
portamiento de la población. Este modelo, una vez validado, permitirá hacer suposiciones y predicciones
sobre el conjunto de la población. Estas predicciones estarán sometidas a un error que el analista siempre
podrá controlar. Por lo tanto, la inferencia estadística permite generalizar la información contenida en
una muestra a la población de la que se extrajo, controlando el error que se comete con tal generalización.
Figura 1. Ciclo estadístico
Muestreo
Población Muestra
Predicciones,
Estadística
inferencias
descriptiva
0,4
0,3
Medidas
0,2
resumen
0,1
0
‒ 5 ‒ 3 ‒ 1 1 3 5
Inferencia estadística
Modelo de la población
178 www.udima.es
Sumario │
Los métodos de inferencia se pueden clasificar atendiendo a diferentes criterios:
• Según la información utilizada:
− Métodos clásicos.
− Métodos bayesianos.
• Según el grado de conocimiento del modelo para la población:
− Métodos paramétricos.
− Métodos no paramétricos.
1.1. MÉTODOS CLÁSICOS
Solamente utilizan la información contenida en la muestra (objetiva). Además, los parámetros son
fijos (constantes) y desconocidos y la única información de ellos es la que proporcionan los datos (la
muestra).
1.2. MÉTODOS BAYESIANOS
Utilizan además fuentes de información subjetiva: conocimiento de especialistas, experimentos

realizados anteriormente bajo las mismas o distintas condiciones, etc. Los parámetros se consideran
variables aleatorias y esto permite introducir información de ellos a partir de una distribución a priori
(información subjetiva).
1.3. MÉTODOS PARAMÉTRICOS
Se supone que los datos provienen de un modelo para la población con distribución PX parcialmente
conocida. Se sabe que es de una determinada forma, pero sus parámetros o alguno de ellos son desco-
nocidos y es lo que se intenta determinar. Posteriormente, el modelo elegido se somete a cierta crítica.
1.4. MÉTODOS NO PARAMÉTRICOS
Consideran condiciones muy generales respecto a la distribución PX y tratan de estimar su forma y

contrastar su estructura. No hace hipótesis de qué distribución es. Pueden decir de ella que es simétrica,
continua, discreta, nada, … Se utilizan para juzgar hipótesis hechas en los métodos paramétricos y ver
así que no son contradictorias con la muestra.
2. MUESTREO
El estudio de la población se realiza a través de muestras. El muestreo es el procedimiento mediante

el que se selecciona una muestra de una población.
www.udima.es 179
│ Sumario
Se llama población al conjunto de elementos de los que se va a estudiar una característica X. Nor-
malmente no se puede utilizar toda la población, por ejemplo si:
• El estudio es destructivo, estudiar una característica implica la destrucción del objeto (vida
media en bombillas, resistencias, etc.).
• Los elementos existen en concepto pero no en la realidad: poblaciones de piezas defectuo-
sas que producirán una máquina.
• Es inviable económicamente el estudio de la población.
• La población se considera constituida por un número infinito de posibles resultados de la
característica: por ejemplo, cuando la característica es una medición física, como el nivel
de concentración de un contaminante, demanda de un producto, tiempo de espera en una
unidad de servicio... Estudiar toda la población no solo llevaría mucho tiempo, sino que
incluso las propiedades de la población podrían haber cambiado con el mismo.
En estos casos se selecciona un conjunto representativo de elementos de la población al que se

llama muestra, en lugar de hacer un «censo», que sería un estudio exhaustivo de todos sus elementos.
La muestra debe reflejar la composición y características de la población de partida. Si la muestra está
bien escogida será posible inferir características de la población a partir de los datos.
Es importante que la muestra escogida sea representativa de la población. Por ejemplo, se sabe que
la altura media de los hombres es mayor que la de las mujeres. Por tanto, si en una muestra de 500 estu-
diantes hay 400 hombres y 100 mujeres, existirá un sesgo de selección. Para conseguir que la muestra
garantice la representatividad de la población se pueden utilizar diversos procedimientos de muestreo,
que se comentan a continuación.
3. TIPOS DE MUESTREO
3.1. MUESTREO ALEATORIO SIMPLE
Este tipo de muestreo se utiliza cuando todos los elementos de la población son «homogéneos» res-
pecto de la característica a estudiar, todos los elementos son indistinguibles desde el punto de vista de
esta característica.
Tiene las siguientes propiedades:
• Cada elemento de la población tiene la misma probabilidad de ser elegido para formar parte
de la muestra.
• Las observaciones se realizan con reemplazamiento, de forma que la composición de la
población es idéntica en todas las extracciones.
3.2. MUESTREO ESTRATIFICADO
Se utiliza cuando la característica en estudio asume distintos valores promedio en diferentes subpo-
blaciones. Se divide la población en estratos o clases y se escoge una muestra aleatoria simple en cada
uno que garantice una presencia adecuada de cada estrato. Los estratos no se solapan y conforman la
180 www.udima.es
Sumario │
población completa, de modo que cada unidad de muestreo pertenece exactamente a un estrato. Existen
dos criterios para dividir el tamaño total de la muestra n entre los estratos ni:
• Proporcionalmente al tamaño relativo del estrato en la población (asignación proporcional):

ni Ni
=
n N
para que la muestra total mantenga la misma proporción de elementos de cada estrato que tiene
la población, siendo N el tamaño de la población y Ni , el tamaño del estrato i en la población.
• Proporcionalmente a la variabilidad dentro del estrato. Se toma para la muestra total menos
elementos de aquellos estratos donde la característica tiene menor dispersión.
3.3. MUESTREO SISTEMÁTICO
Se utiliza cuando los elementos de la población están ordenados en listas. Supóngase que el tamaño
de la población es N y se quiere una muestra de tamaño n. Sea K el entero más próximo a N/n. Se elige
al azar un número de entre los K primeros, por ejemplo n1 . Se toman los elementos que se encuentran
en las posiciones n1, n1 + K, n1 + 2K, …, n1 + (n – 1) K.
3.4. MUESTREO POR CONGLOMERADOS
En este caso la población también se divide en clases, pero cada clase es tan heterogénea como la
población y las clases son homogéneas entre sí. Por ejemplo, si se quiere seleccionar una muestra de vivien-
das en un distrito de una ciudad, se puede utilizar como conglomerados los edificios o bloques de vivien-
das. Una vez seleccionados los bloques dentro de un distrito, se puede bien seleccionar todas las viviendas
dentro del bloque o bien tomar por ejemplo una muestra aleatoria simple en cada bloque seleccionado.
3.5. MUESTREO ALEATORIO SIN REEMPLAZAMIENTO
Se extrae un elemento de la población y se observa la característica X. Se obtiene así X1 y sin devol-

verlo a la población se extrae otro elemento y se obtiene X2, ... Al final, la muestra será (X1, …, Xn) corres-
pondientes a las n observaciones de n elementos de la población sin reemplazamiento.
La diferencia fundamental entre el muestreo con reemplazamiento y el muestreo sin reemplazamiento

es la noción de independencia. En el muestreo con reemplazamiento, los elementos de la muestra son
independientes. En el muestreo sin reemplazamiento, los elementos de la muestra no son independientes.
En adelante se considerará el muestreo aleatorio simple en una población infinita, por lo que se tra-
bajará con una muestra aleatoria simple X1, …, Xn.
4. MUESTRA ALEATORIA SIMPLE
Se parte de una variable aleatoria X que representará la característica que se desea estudiar en una
población. Por ejemplo, puede ser el tiempo de procesamiento, el número de errores en compilación, tiempo
de ejecución de un algoritmo, porcentaje de memoria utilizado, tiempo de reaparición de un virus, etc.
www.udima.es 181
│ Sumario
Si X es discreta, tendrá asociada una función de probabilidad P (X = k), mientras que si X es continua,
tendrá asociada una función de densidad ƒ (x).
Se considera una muestra aleatoria simple de la variable aleatoria X, X1, …, Xn, donde Xi repre-
senta la variable aleatoria X en el sujeto o elemento i-ésimo de la muestra. La muestra aleatoria simple
X1, …, Xn es la herramienta básica de la inferencia estadística y representa los distintos valores que pue-
den tomar todos los subconjuntos posibles de n elementos de la población.
Formalmente, una muestra aleatoria simple de tamaño n de una variable aleatoria X de media μ y
varianza σ2 y es una colección de variables aleatorias X1, …, Xn , de forma que:
• X1, …, Xn son independientes.

• Cada Xi tiene la misma distribución que la variable aleatoria X.
Por tanto, una muestra aleatoria simple es un conjunto de n variables aleatorias independientes e
idénticamente distribuidas.
La distribución conjunta de esa muestra aleatoria simple, utilizando la independencia de las varia-
bles, será:
• Si X es una variable aleatoria discreta, entonces la función de probabilidad conjunta de la

muestra coincide con el producto de las funciones de probabilidad individuales, es decir,
n
P (X1 = x1, …, Xn = xn) = P (X1 = x1) … P (Xn = xn) = � P (Xi = xi)
i=1
• Si X es continua, la función de densidad conjunta de la muestra es:

n
ƒ (x1, …, xn) = ƒ1 (x1) ƒ2 (x2) … ƒn (xn) = � ƒ (xi)
i=1
EJEMPLO 1
Calcular la distribución conjunta de una muestra aleatoria simple X1, …, Xn de una variable aleatoria X ~ � (λ).
λxi λΣ xi
n
P (X1 = x1, …, Xn = xn) = � e‒λ = e‒nλ
i=1 xi! �ni=1 xi!
Se observa que todas las muestras de igual tamaño que tengan el mismo valor de Σ xi y � xi! tienen la misma
probabilidad de ocurrir.
EJEMPLO 2
Dada X ~ � (3), calcular la probabilidad de obtener la muestra de tamaño 4: (3, 0, 2, 3).
38
P (X1 = 3, X2 = 0, X3 = 2, X4 = 3) = P (X1 = 3) P (X2 = 0) P (X3 = 2) P (X4 = 3) = e‒12 = 0,0002799
3! 0! 2! 3!
182 www.udima.es
Sumario │
EJEMPLO 3
Calcular la distribución conjunta de una muestra aleatoria simple X1, …, Xn de una variable aleatoria
X ~ N (μ, σ).
1
1 –
2σ2
Σni=1 (xi ‒ μ)2
ƒ (x1, …, xn) = e
(σ √ 2π)n
Se llama estadístico a cualquier función exclusivamente de la muestra, T (X1, …, Xn). El valor de

esta función cambiará muestra a muestra, por lo que también será una variable aleatoria, con su corres-
pondiente distribución, que se denomina distribución en el muestreo del estadístico. Por tanto, la distri-
bución en el muestreo de un estadístico T es la distribución de probabilidad de T que puede obtenerse
como resultado de un número infinito de muestras aleatorias independientes, cada una de tamaño n, de
la población de interés.
Los estadísticos más habituales son:
• La media muestral:
– X1 + … + Xn
X=
n
• La varianza muestral:
1 n –
m2 =
n
Σ (Xi – X )2
i=1
• La cuasivarianza muestral:
1 n –
S2 =
n–1
Σ (Xi – X )2
i=1
No deben confundirse con sus correspondientes características poblacionales:
• La media poblacional o esperanza:
Σx
μ = E (X) = � xdF (x) =
{ ‒∞
x P (X = x)
∞
� x ƒ (x) dx
si X es discreta
si X es continua
• La varianza poblacional:
σ2 = V (X) = � (x – μ)2 dF (x)
www.udima.es 183
│ Sumario
Otros estadísticos de uso frecuente son:
• Mín {X1, … Xn}.

• Máx {X1, …, Xn}.
1
• Σni=1 log Xi , Xi > 0.
n
5. MEDIA MUESTRAL. PROPIEDADES
Supóngase que las variables aleatorias X1, …, Xn constituyen una muestra aleatoria simple de una
variable aleatoria X con media μ y varianza σ2. Se define la media muestral de X1, …, Xn como la varia-
ble aleatoria (porque cambia según la muestra observada):
– X1 + … + Xn
X=
n
Es decir, es la media aritmética de los valores de la muestra. Su esperanza es:
– Σni=1 E (Xi) nμ
E (X ) = = =μ
n n
Su varianza, aplicando la independencia de las variables, es:
– Σni=1 V (Xi) nσ2 σ2

V (X ) = = =
n2 n2 n
Se tiene que la varianza de la media muestral disminuye a medida que n crece.

–
La media de X es igual a la media de la distribución de la que se seleccionó la muestra aleatoria sim-
–
ple, pero la varianza es 1/n la varianza de X. Así, la probabilidad de que X esté cerca de μ es mayor de
que lo esté Xi. Esto se puede precisar más utilizando la desigualdad de Tchebychev.
5.1. DESIGUALDAD DE TCHEBYCHEV
Aplicando la desigualdad de Tchebychev a la media muestral se obtiene:

–
– – V (X ) σ2
P (|X – E (X ) = μ| > k) ≤ =
k2 nk2
Es decir:
– σ2
P (|X – μ| ≤ k) ≥ 1 –
nk2
184 www.udima.es
Sumario │
EJEMPLO 4
Supóngase que se quiere seleccionar una muestra de una variable aleatoria cuya media es desconocida y de la
que se sabe que la desviación típica σ es 2. Determinar el tamaño muestral para que la diferencia entre la media
‒
muestral X y la media poblacional μ en valor absoluto sea menor que 1, con probabilidad de al menos 0,99.
Utilizando la desigualdad de Tchebychev, se obtiene:
‒ σ2 4
�
P �| X ‒ μ| ≤ 1 � ≥ 1 ‒ =1‒ ≥ 0,99
k nk2 n
de donde:
4
≤ 0,01 y n ≥ 400
n
Así, se necesita un tamaño muestral de al menos 400.
En la figura 2 se observa cómo decrece la varianza de la media muestral con el tamaño de la mues-
tra n, para un valor concreto σ = 10. A partir de n mayor que 30 o 40, la disminución es menor, con lo
–
que se puede admitir que para hacer inferencias respecto a μ a partir de X , basta considerar un tamaño
muestral entre 30 y 40, ya que con un n mayor podría resultar más costoso y el comportamiento es prác-
ticamente el mismo.
Figura 2. Comportamiento de la desviación típica de la media muestral en función de n
√ V (X‒ )
10
10 20 30 40 50 60 70 80 90 100 n
www.udima.es 185
│ Sumario
6. LEYES DE LOS GRANDES NÚMEROS
Se presenta a continuación una de las leyes de los grandes números, que, junto al teorema central
del límite que se estudia en el próximo epígrafe, representa uno de los resultados más importantes en
probabilidades y estadística.
6.1. LEY DÉBIL DE LOS GRANDES NÚMEROS
Sea X1, …, Xn una muestra aleatoria simple de una variable aleatoria con media μ y varianza σ2.
– – P
Entonces la media muestral X n converge en probabilidad a μ (Xn → μ), es decir:
–
∀ ∈ > 0 lim P (|X n – μ | < ∈) = 1
n→∞
–
Intuitivamente este resultado dice que la distribución de la media muestral X n se concentra cada vez
más alrededor de la media poblacional μ cuando n → ∞. Así, para una muestra lo suficientemente grande,
su media aritmética se aproxima bastante bien a la media poblacional (estimación puntual).
7. DISTRIBUCIÓN ASINTÓTICA DE LA MEDIA MUESTRAL
A continuación se muestra que siempre que se seleccione una muestra aleatoria simple de tamaño
–
n de cualquier distribución con media μ y varianza σ2, la media muestral X n tendrá una distribución
aproximadamente normal,
σ
N � μ, �
√n
Este resultado fue establecido para una muestra aleatoria simple de una distribución de Bernoulli
por Abraham De Moivre a principios del siglo XVIII. A principios de la década de 1920-1930, Linde-
berg y Lévy lo demostraron independientemente para una distribución arbitraria. Por último, Liapunov
generaliza el resultado para variables aleatorias independientes no distribuidas necesariemante de forma
idéntica. Como anécdota decir que Alan Turing, uno de los protagonistas en la historia y evolución de
los computadores digitales, estudió también y demostró la tendencia límite de varias distribuciones hacia
la distribución normal. En este sentido, redescubrió el teorema central del límite.
Previamente se necesita el concepto de convergencia en distribución.
7.1. CONVERGENCIA EN DISTRIBUCIÓN
Sea {Xn}n∈ℕ una sucesión de variables aleatorias cada una con función de distribución F continua
∀ x ∈ ℝ. Se dice que {Xn}n∈ℕ converge en distribución a X (Xn →
d
X ) si:
lim Fn (x) = F (x) ∀ x ∈ ℝ

n→∞
186 www.udima.es
Sumario │
7.2. TEOREMA CENTRAL DEL LÍMITE (LINDERBERG-LÉVY)
Dadas X1, …, Xn variables aleatorias independientes e idénticamente distribuidas con media μ y

varianza σ2 < ∞, entonces:
–
Xn – μ d
→ Z ~ N (0, 1)
σ /√ n
La interpretación de este teorema es la siguiente: si se selecciona una muestra aleatoria simple grande
de cualquier distribución con media μ y varianza σ2 < ∞, la media muestral tiene una distribución de
media μ y varianza σ2/n (visto en el epígrafe 5), que tiende hacia una distribución normal. Es decir, la
–
variable aleatoria X n – μ / σ /√ n tiene como límite una distribución normal tipificada. La figura 3 mues-
tra en qué consistiría una demostración visual del teorema central del límite. En ella se observa cómo los
histogramas de las distribuciones muestrales de la media tienden a una distribución normal conforme se
aumentan los tamaños muestrales n1, n2, …, nk . En la práctica se realizará la aproximación descrita por
el teorema central del límite cuando n ≥ 30.
Figura 3. Visualización del teorema central del límite
n1 50
n1 40
30
⫶ 20
10
n1 0
n ‒ 2 3 8 13 18 23 28
n2
n2 40
30
⫶ 20
C n2 10
0
R ‒ 0,1 0,4 0,9 1,4 1,9 2,4
E ⫶
C
E
nk 160
120
nk 80
⫶ 40
nk 0
‒ 3,4 ‒ 2,4 ‒ 1,4 ‒ 0,4 0,6 1,6 2,6
Como aplicación se tiene el siguiente teorema, que fue la primera versión del teorema central del
límite, dada por De Moivre para el caso particular de p = 0,5 y generalizada por Laplace al caso de p
arbitrario.
www.udima.es 187
│ Sumario
7.3. TEOREMA DE MOIVRE-LAPLACE
Sean X1, …, Xn variables aleatorias independientes e idénticamente distribuidas según una distribu-
ción de Bernoulli de parámetro p. Entonces:
n
Σ
d
Xi → N (np, √ npq)
i=1
Así, se está aproximando una distribución binomial, que es suma de variables aleatorias indepen-
dientes de Bernoulli, con una distribución N (np, √ npq), cuando n es grande, como ya se ha visto en la
unidad didáctica 5.
EJEMPLO 5
La duración de un determinado componente eléctrico es una variable aleatoria con distribución no especi-
ficada, de la que lo único que se conoce es que la desviación típica σ es 2 horas. Calcular la probabilidad de
que la media muestral se encuentre a no más de media hora del valor medio de la población, si se tiene una
muestra de la duración de 35 componentes.
Sea X la variable aleatoria que representa la duración del componente eléctrico. Se pide la probabilidad
‒
P (| X ‒ μ| < 0,5). Como el tamaño muestral es n = 35 ≥ 30, se puede utilizar la aproximación dada por el teo-
rema central del límite. Se tiene que:
‒ σ 2
X ~ N �μ, � ≡ N �μ, � ≡ (μ; 0,338)
√n √ 35
De esta forma la probabilidad pedida es:
‒
‒ ‒ 0,5 X ‒μ 0,5
P (|X ‒ μ| < 0,5) = P (‒ 0,5 < X ‒ μ < 0,5) = P ‒ < < =
� 0,338 σ 0,338 �
√n
= P (– 1.479 < Z < 1,749) = P (Z < 1,749) – P (Z < – 1,479) =
= P (Z < 1,479) – (1 – P (Z < – 1,479) = 2P (Z < 1,479) – 1 = 0,8584
Si se utilizase la desigualdad de Tchebychev se obtendría:
‒ σ2 4
P (|X – μ| < 0,5) ≥ 1 – =1– = 0,5428
nk2 35 (0,5)2
EJEMPLO 6
En un sistema con capacidad automática de recuperación de errores, la probabilidad de una recuperación

correcta es p = 0,4. Se han observado 200 errores. Obtener la probabilidad de que el número de errores sal-
vados correctamente sea menor que 100.
.../...
188 www.udima.es
Sumario │
.../...
Si se considera Xi = 1 sí se solucionó el error, lo que sucede con probabilidad p. Se sabe que el número de errores
converge cuando n es grande a una distribución normal. Por el teorema central del límite, la variable aleatoria
Σ 200
i=1 Xi tendrá aproximadamente una distribución normal con media np y varianza npq, siendo p la propor-
ción de éxitos que, en este caso, es 0,4. Así:
200 200 Σ Xi ‒ np 99,5 ‒ np

P � Σ Xi < 100� = P � Σ Xi ≤ 99� = P � ≤ �=
i=1 i=1
√ npq √ npq
99,5 ‒ 80
= P �Z ≤ � = P (Z ≤ 2,81) = 0,9975
√ 200 × 0,4 × 0,6
Obsérvese que se ha utilizado para calcular la probabilidad pedida la corrección de continuidad dada en la
unidad didáctica 5.
8. DISTRIBUCIONES ASOCIADAS A LA NORMAL
8.1. DISTRIBUCIÓN χ2 DE PEARSON
Dadas Z1, …, Zn variables aleatorias independientes e

idénticamente distribuidas según una N (0, 1), se dice que
la variable aleatoria:
n
Z 12 + … + Z n2 = Σ Z 2i Karl Pearson (1857-1936). Matemático e his-
i=1 toriador británico.
Aunque estudió derecho después de su gra-
sigue una distribución χ2 con n grados de libertad y se duación, dedicó su vida a enseñar matemáti-
cas aplicadas, mecánica y genética.
denota X ~ χ2n. El número de grados de libertad coincide
Su libro La gramática de la ciencia fue la base
con el número de normales independientes que intervienen de uno de los resultados de Einstein.
en su definición. Estableció la disciplina de la estadística mate-
mática y fue el fundador de la bioestadística.
Es un caso particular de la distribución gamma, Sus contribuciones más importantes son el
coeficiente de correlación lineal, la distribu-
ción χ2 y el test de Pearson.
1 n
γ �λ= ,p= �
2 2
con n ∈ ℕ.
Así, su función de densidad es:
n
1 2
� �
n x
2 –1 –
ƒ (x) = x2 e 2, x>0
n
Γ � �
2
www.udima.es 189
│ Sumario
Observación. La distribución χ2n es reproductiva respecto de n, es decir, dadas dos variables alea-
torias X, Y independientes con X ~ χ2n1, Y ~ χ2n2, entonces:
X + Y ~ χ2n1+n2
La función de distribución o su complementario se encuentra tabulada.
La figura 4 muestra la representación gráfica de esta distribución para distintos grados de libertad.
Como se puede observar, es asimétrica y se hace más achatada y menos asimétrica a medida que aumen-
tan los grados de libertad.
Figura 4. Distribución χ2n para distintos valores de n
0,3
n=2
0,2
n=4
ƒ (x)
0,1 n=8
0

0 5 10 15 20 25 30
x
• Media:
E (X) = n
• Varianza:
V (X) = 2n
William Sealy Gosset (1876-1937). Mate-
mático británico.
Trabajaba en la destilería Guinness en Du-
8.2. DISTRIBUCIÓN t DE STUDENT blín, donde aplicaba sus conocimientos es-
tadísticos tanto a la destilería como al cultivo
de la cebada.
Dadas las variables aleatorias X ~ χ2n y Z ~ N (0, 1), Publicaba bajo el seudónimo de Student, ya
ambas independientes, la variable aleatoria: que Guinness prohibió a sus empleados publi-
car cualquier clase de artículos.
Su mayor logro fue la distribución t de Student.
Z Sus estudios fueron la base para definir los
T= residuos estudentizados que, aunque fue-
X ron introducidos por otros autores, llevan su
nombre.
n
190 www.udima.es
Sumario │
tiene una distribución t de Student con n grados de libertad (los mismos que los de la χ2 que interviene
en su definición). Su función de densidad es:
n+1
Γ � � –
n+1
2 t2 2
ƒ (t) = �1 + � , ∀ t ∈ℝ
n n
Γ � � √ πn
2
Existen tablas donde encontrar la función de distribución o su complementario.
La distribución t de Student es simétrica respecto al origen, como se puede observar en la figura

5. Es muy parecida a la distribución N (0, 1), como se puede apreciar en la figura 6. Además, cuando n
crece, la distribución t de Student converge a la N (0, 1). Para n ≥ 100 son prácticamente iguales. Muchos
autores recomiendan utilizar la distribución N (0, 1) en vez de la t de Student cuando n ≥ 30.
Figura 5. Distribución t de Student para distintos grados de libertad
0,4 n = 10
n=4
0,3
0,2
ƒ (x)
0,1
n=2
0
– 8 – 4 0 4 8
x
Figura 6. Distribución t de Student con 3 grados de libertad y distribución N (0, 1)
N (0, 1)
4
t3
3
ƒ (x)
0
– 8 – 4 0 4 8
x
www.udima.es 191
│ Sumario
• Media:
E (T) = 0
• Varianza:
n
V (T) = si n > 2
n–2
8.3. DISTRIBUCIÓN F DE FISHER-SNEDECOR
Sean X, Y dos variables aleatorias independientes, X ~ χ2n e Y ~ χ2m, entonces la variable aleatoria:
X/n
F=
Y/m
tiene una distribución F de Fisher-Snedecor con n y m grados de libertad y se denota F ~ Fn,m.
Su función de densidad es:
n m
n+m
Γ � � n2 m2 n–2 n+m
2 –
ƒ (t) = si x > 0
2 2
x (m + nx)
n m
Γ � � Γ � �
2 2
Como en las anteriores, se tienen tablas con la función de distribución o su complementario.
La figura 7 muestra la representación gráfica de esta distribución para distintos valores de los pará-
metros. Es asimétrica y con forma parecida a la χ2n. La asimetría disminuye a medida que n y m aumentan.
Figura 7. Distribución F de Fisher-Snedecor para distintos valores de n y m
1,5
1,2
n = 30, m = 40
0,9
ƒ (x)
0,6
0,3 n = 10, m = 10
n = 4, m = 5
0

0 1 2 3 4 5
x
192 www.udima.es
Sumario │
• Media:
m
E (F) = si m>2
m–2
• Varianza:
m2 (2m + 2n – 4)
V (F) = si m>4
n (m – 2)2 (m – 4)
Observación. Se utilizará la notación χ2n,α; tn,α; Fn,m,α

para representar, respectivamente, los valores de una distri-
bución χ2 con n grados de libertad, de una t de Student con
n grados de libertad y de una F con n y m grados de liber-
tad, que dejan a la derecha un área o probabilidad igual a
α . A continuación se incluyen las tablas donde se pueden
encontrar estos valores. George Waddel Snedecor (1882-1974). Ma-
temático y físico estadounidense.
La tabla 1 contiene tales valores para la distribución En 1933 fundó el Laboratorio Estadístico en
χ2 de Pearson con n grados de libertad. Por ejemplo, para Iowa State University en los Estados Unidos,
y estableció allí el primer departamento de
7 grados de libertad, el punto que deja a la derecha una Estadística en América.
probabilidad de 0,1 es 12,017, con lo que χ27,01 = 12,017. De su colaboración con Fisher surgieron
varios resultados en los que se basa el aná-
En la tabla 2 se encuentran los percentiles para la dis- lisis de la varianza.
tribución t de Student con n grados de libertad. Por ejemplo, En 1934 publicó su libro más conocido:
cálculo e interpretación del análisis de
para 11 grados de libertad, el valor que deja a la derecha un varianza y covarianza.
área de 0,05 es 1,796, es decir, t11;0,05 = 1,796.
Las tablas 3 y 4 muestran la distribución F de Fisher-

Snedecor con n y m grados de libertad. Por cada par de
valores n y m, se tienen cuatro filas correspondientes a las probabilidades α = 0,05; 0,025; 0,01 y 0,001,
respectivamente. La fila correspondiente a α = 0,025 aparece destacada en negrita. Por ejemplo, se tiene
que F7,5;0,025 = 6,853. Para otras probabilidades habituales se utiliza la siguiente relación que verifica la
distribución F de Fisher-Snedecor:
1
Fn,m,α =
Fm,n,1–α
Obsérvese que se intercambian los grados de libertad entre sí. Por ejemplo:
1 1
F7,5;0,975 = = = 0,1892
F5,7;0,025 5,285
www.udima.es 193
│ Sumario
Tabla 1. Valores de las probabilidades de la cola derecha en la distribución χ2 de Pearson
P (X ≥ χ2n,α) = α
α
χ2n,α
α= 0,995 0,990 0,975 0,950 0,900 0,100 0,050 0,025 0,010 0,005
n=1 0,000039 0,000157 0,00098 0,00393 0,01579 2,706 3,841 5,024 6,635 7,879
2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597
3 0,072 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,345 12,838
4 0,207 0,297 0,484 0,711 1,064 7,779 9,488 11,143 13,277 14,860
5 0,412 0,554 0,831 1,145 1,610 9,236 11,070 12,832 15,086 16,750
6 0,676 0,872 1,237 1,635 2,204 10,645 12,592 14,449 16,812 18,548
7 0,989 1,239 1,690 2,167 2,833 12,017 14,067 16,013 18,475 20,278
8 1,344 1,646 2,180 2,733 3,490 13,362 15,507 17,535 20,090 21,955
9 1,735 2,088 2,700 3,325 4,168 14,684 16,919 19,023 21,666 23,589
10 2,156 2,558 3,247 3,940 4,865 15,987 18,307 20,483 23,209 25,188
11 2,603 3,054 3,816 4,575 5,578 17,275 19,675 21,920 24,725 26,757
12 3,074 3,571 4,404 5,226 6,304 18,549 21,026 23,337 26,217 28,299
13 3,565 4,107 5,009 5,892 7,042 19,812 22,362 24,736 27,688 29,819
14 4,075 4,660 5,629 6,571 7,790 21,064 23,685 26,119 29,141 31,319
15 4,601 5,229 6,262 7,261 8,547 22,307 24,996 27,488 30,578 32,801
16 5,142 5,812 6,908 7,962 9,312 23,542 26,296 28,845 32,000 34,267
17 5,697 6,408 7,564 8,672 10,085 24,769 27,587 30,191 33,409 35,719
18 6,265 7,015 8,231 9,390 10,865 25,989 28,869 31,526 34,805 37,156
19 6,844 7,633 8,906 10,11 711,651 27,204 30,144 32,852 36,191 38,582
20 7,434 8,260 9,591 10,85 112,443 28,412 31,410 34,170 37,566 39,997
21 8,034 8,897 10,283 11,59 113,240 29,615 32,671 35,479 38,932 41,401
22 8,643 9,542 10,982 12,338 14,041 30,813 33,924 36,781 40,289 42,796
23 9,260 10,196 11,689 13,091 14,848 32,007 35,172 38,076 41,638 44,181
24 9,886 10,856 12,401 13,848 15,659 33,196 36,415 39,364 42,980 45,559
25 10,520 11,524 13,120 14,611 16,473 34,382 37,652 40,646 44,314 46,928
26 11,160 12,198 13,844 15,379 17,292 35,563 38,885 41,923 45,642 48,290
27 11,808 12,879 14,573 16,151 18,114 36,741 40,113 43,195 46,963 49,645
28 12,461 13,565 15,308 16,928 18,939 37,916 41,337 44,461 48,278 50,993
29 13,121 14,256 16,047 17,708 19,768 39,087 42,557 45,722 49,588 52,336
30 13,787 14,953 16,791 18,493 20,59 40,256 43,773 46,979 50,892 53,672
40 20,707 22,164 24,433 26,509 29,051 51,805 55,759 59,342 63,691 66,766
50 27,991 29,707 32,357 34,764 37,689 63,167 67,505 71,420 76,154 79,490
60 35,535 37,485 40,482 43,188 46,459 74,397 79,082 83,298 88,379 91,952
70 43,275 45,442 48,758 51,739 55,329 85,527 90,531 95,023 100,425 104,215
80 51,172 53,540 57,153 60,391 64,278 96,578 101,879 106,629 112,329 116,321
90 59,196 61,754 65,647 69,126 73,291 107,565 113,145 118,136 124,116 128,299
100 67,328 70,065 74,222 77,929 82,358 118,498 124,342 129,561 135,807 140,169
194 www.udima.es
Sumario │
Tabla 2. Valores de las probabilidades de la cola derecha en la distribución t de Student
P (T ≥ tn,α) = α
α
tn,α
α= 0,100 0,050 0,030 0,025 0,020 0,015 0,010 0,005 0,0010 0,0005
n=1 3,078 6,314 10,579 12,706 15,894 21,205 31,821 63,656 318,289 636,578
2 1,886 2,920 3,896 4,303 4,849 5,643 6,965 9,925 22,328 31,600
3 1,638 2,353 2,951 3,182 3,482 3,896 4,541 5,841 10,214 12,924
4 1,533 2,132 2,601 2,776 2,999 3,298 3,747 4,604 7,173 8,610
5 1,476 2,015 2,422 2,571 2,757 3,003 3,365 4,032 5,894 6,869
6 1,440 1,943 2,313 2,447 2,612 2,829 3,143 3,707 5,208 5,959
7 1,415 1,895 2,241 2,365 2,517 2,715 2,998 3,499 4,785 5,408
8 1,397 1,860 2,189 2,306 2,449 2,634 2,896 3,355 4,501 5,041
9 1,383 1,833 2,150 2,262 2,398 2,574 2,821 3,250 4,297 4,781
10 1,372 1,812 2,120 2,228 2,359 2,527 2,764 3,169 4,144 4,587
11 1,363 1,796 2,096 2,201 2,328 2,491 2,718 3,106 4,025 4,437
12 1,356 1,782 2,076 2,179 2,303 2,461 2,681 3,055 3,930 4,318
13 1,350 1,771 2,060 2,160 2,282 2,436 2,650 3,012 3,852 4,221
14 1,345 1,761 2,046 2,145 2,264 2,415 2,624 2,977 3,787 4,140
15 1,341 1,753 2,034 2,131 2,249 2,397 2,602 2,947 3,733 4,073
16 1,337 1,746 2,024 2,120 2,235 2,382 2,583 2,921 3,686 4,015
17 1,333 1,740 2,015 2,110 2,224 2,368 2,567 2,898 3,646 3,965
18 1,330 1,734 2,007 2,101 2,214 2,356 2,552 2,878 3,610 3,922
19 1,328 1,729 2,000 2,093 2,205 2,346 2,539 2,861 3,579 3,883
20 1,325 1,725 1,994 2,086 2,197 2,336 2,528 2,845 3,552 3,850
21 1,323 1,721 1,988 2,080 2,189 2,328 2,518 2,831 3,527 3,819
22 1,321 1,717 1,983 2,074 2,183 2,320 2,508 2,819 3,505 3,792
23 1,319 1,714 1,978 2,069 2,177 2,313 2,500 2,807 3,485 3,768
24 1,318 1,711 1,974 2,064 2,172 2,307 2,492 2,797 3,467 3,745
25 1,316 1,708 1,970 2,060 2,167 2,301 2,485 2,787 3,450 3,725
26 1,315 1,706 1,967 2,056 2,162 2,296 2,479 2,779 3,435 3,707
27 1,314 1,703 1,963 2,052 2,158 2,291 2,473 2,771 3,421 3,689
28 1,313 1,701 1,960 2,048 2,154 2,286 2,467 2,763 3,408 3,674
29 1,311 1,699 1,957 2,045 2,150 2,282 2,462 2,756 3,396 3,660
30 1,310 1,697 1,955 2,042 2,147 2,278 2,457 2,750 3,385 3,646
31 1,309 1,696 1,952 2,040 2,144 2,275 2,453 2,744 3,375 3,633
32 1,309 1,694 1,950 2,037 2,141 2,271 2,449 2,738 3,365 3,622
33 1,308 1,692 1,948 2,035 2,138 2,268 2,445 2,733 3,356 3,611
34 1,307 1,691 1,946 2,032 2,136 2,265 2,441 2,728 3,348 3,601
35 1,306 1,690 1,944 2,030 2,133 2,262 2,438 2,724 3,340 3,591
.../...
www.udima.es 195
│ Sumario
α= 0,100 0,050 0,030 0,025 0,020 0,015 0,010 0,005 0,0010 0,0005
.../...
n = 36 1,306 1,688 1,942 2,028 2,131 2,260 2,434 2,719 3,333 3,582
37 1,305 1,687 1,940 2,026 2,129 2,257 2,431 2,715 3,326 3,574
38 1,304 1,686 1,939 2,024 2,127 2,255 2,429 2,712 3,319 3,566
39 1,304 1,685 1,937 2,023 2,125 2,252 2,426 2,708 3,313 3,558
40 1,303 1,684 1,936 2,021 2,123 2,250 2,423 2,704 3,307 3,551
45 1,301 1,679 1,929 2,014 2,115 2,241 2,412 2,690 3,281 3,520
50 1,299 1,676 1,924 2,009 2,109 2,234 2,403 2,678 3,261 3,496
55 1,297 1,673 1,920 2,004 2,104 2,228 2,396 2,668 3,245 3,476
60 1,296 1,671 1,917 2,000 2,099 2,223 2,390 2,660 3,232 3,460
120 1,289 1,658 1,899 1,980 2,076 2,196 2,358 2,617 3,160 3,373
∞ 1,282 1,645 1,881 1,960 2,054 2,170 2,326 2,576 3,091 3,291
Tabla 3. Valores de las probabilidades de la cola derecha en la distribución F de Fisher-Snedecor con n y m grados de libertad
P (F ≥ Fn,m,α) = α
α
Fn,m,α
n= 1 2 3 4 5 6 7 8 9 10 12 24 ∞
m=1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 243,90 249,05 254,19
647,79 799,48 864,15 899,60 921,83 937,11 948,20 956,64 963,28 968,63 976,72 997,27 1.017,76
4.052,18 4.999,34 5.403,53 5.624,26 5.763,96 5.858,95 5.928,33 5.980,95 6.022,40 6.055,93 6.106,68 6.234,27 6.362,80
405.311,58 499.725,34 540.256,50 562.667,85 576.496,12 586.032,87 593.185,42 597.953,80 602.245,33 605.583,19 610.351,56 623.703,00 636.100,77
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,45 19,49
38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,46 39,50
98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,46 99,50
998,38 998,84 999,31 999,31 999,31 999,31 999,31 999,31 999,31 999,31 999,31 999,31 999,31
3 10,128 9,552 9,277 9,117 9,013 8,941 8,887 8,845 8,812 8,785 8,745 8,638 8,529
17,443 16,044 15,439 15,101 14,885 14,735 14,624 14,540 14,473 14,419 14,337 14,124 13,908
34,116 30,816 29,457 28,710 28,237 27,911 27,671 27,489 27,345 27,228 27,052 26,597 26,137
167,056 148,488 141,095 137,079 134,576 132,830 131,608 130,618 129,861 129,221 128,319 125,932 123,517
4 7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5,964 5,912 5,774 5,632
12,218 10,649 9,979 9,604 9,364 9,197 9,074 8,980 8,905 8,844 8,751 8,511 8,264
21,198 18,000 16,694 15,977 15,522 15,207 14,976 14,799 14,659 14,546 14,374 13,929 13,475
74,127 61,249 56,170 53,435 51,718 50,524 49,651 48,996 48,472 48,050 47,410 45,766 44,092
5 6,608 5,786 5,409 5,192 5,050 4,950 4,876 4,818 4,772 4,735 4,678 4,527 4,369
10,007 8,434 7,764 7,388 7,146 6,978 6,853 6,757 6,681 6,619 6,525 6,278 6,022
16,258 13,274 12,060 11,392 10,967 10,672 10,456 10,289 10,158 10,051 9,888 9,466 9,032
47,177 37,122 33,200 31,083 29,751 28,835 28,165 27,649 27,241 26,914 26,419 25,131 23,821
6 5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 4,060 4,000 3,841 3,673
8,813 7,260 6,599 6,227 5,988 5,820 5,695 5,600 5,523 5,461 5,366 5,117 4,856
13,745 10,925 9,780 9,148 8,746 8,466 8,260 8,102 7,976 7,874 7,718 7,313 6,891
35,507 27,001 23,705 21,922 20,802 20,031 19,463 19,030 18,688 18,412 17,990 16,898 15,774
.../...
196 www.udima.es
Sumario │
n= 1 2 3 4 5 6 7 8 9 10 12 24 ∞
.../...
m=7 5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 3,637 3,575 3,410 3,234
8,073 6,542 5,890 5,523 5,285 5,119 4,995 4,899 4,823 4,761 4,666 4,415 4,149
12,246 9,547 8,451 7,847 7,460 7,191 6,993 6,840 6,719 6,620 6,469 6,074 5,660
29,246 21,690 18,772 17,197 16,207 15,520 15,018 14,634 14,330 14,083 13,708 12,733 11,722
8 5,318 4,459 4,066 3,838 3,688 3,581 3,500 3,438 3,388 3,347 3,284 3,115 2,932
7,571 6,059 5,416 5,053 4,817 4,652 4,529 4,433 4,357 4,295 4,200 3,947 3,677
11,259 8,649 7,591 7,006 6,632 6,371 6,178 6,029 5,911 5,814 5,667 5,279 4,869
25,415 18,494 15,829 14,392 13,484 12,858 12,398 12,045 11,767 11,540 11,194 10,295 9,358
9 5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3,179 3,137 3,073 2,900 2,712
7,209 5,715 5,078 4,718 4,484 4,320 4,197 4,102 4,026 3,964 3,868 3,614 3,340
10,562 8,022 6,992 6,422 6,057 5,802 5,613 5,467 5,351 5,257 5,111 4,729 4,321
22,857 16,387 13,901 12,560 11,714 11,129 10,697 10,368 10,106 9,894 9,570 8,724 7,836
10 4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978 2,913 2,737 2,543
6,937 5,456 4,826 4,468 4,236 4,072 3,950 3,855 3,779 3,717 3,621 3,365 3,087
10,044 7,559 6,552 5,994 5,636 5,386 5,200 5,057 4,942 4,849 4,706 4,327 3,920
21,038 14,905 12,553 11,283 10,481 9,926 9,517 9,204 8,956 8,754 8,446 7,638 6,785
11 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854 2,788 2,609 2,410
6,724 5,256 4,630 4,275 4,044 3,881 3,759 3,664 3,588 3,526 3,430 3,173 2,890
9,646 7,206 6,217 5,668 5,316 5,069 4,886 4,744 4,632 4,539 4,397 4,021 3,613
1,987 13,812 11,561 10,346 9,579 9,047 8,655 8,355 8,116 7,923 7,625 6,848 6,020
12 4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753 2,687 2,505 2,302
6,554 5,096 4,474 4,121 3,891 3,728 3,607 3,512 3,436 3,374 3,277 3,019 2,733
9,330 6,927 5,953 5,412 5,064 4,821 4,640 4,499 4,388 4,296 4,155 3,780 3,372
18,645 12,973 10,805 9,633 8,892 8,378 8,001 7,711 7,480 7,292 7,005 6,249 5,441
13 4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671 2,604 2,420 2,212
6,414 4,965 4,347 3,996 3,767 3,604 3,483 3,388 3,312 3,250 3,153 2,893 2,603
9,074 6,701 5,739 5,205 4,862 4,620 4,441 4,302 4,191 4,100 3,960 3,587 3,176
17,815 12,313 10,209 9,073 8,355 7,856 7,489 7,206 6,982 6,799 6,519 5,782 4,988
14 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602 2,534 2,349 2,136
6,298 4,857 4,242 3,892 3,663 3,501 3,380 3,285 3,209 3,147 3,050 2,789 2,495
8,862 6,515 5,564 5,035 4,695 4,456 4,278 4,140 4,030 3,939 3,800 3,427 3,015
17,142 11,779 9,730 8,622 7,922 7,436 7,078 6,802 6,583 6,404 6,130 5,407 4,625
16 4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 2,494 2,425 2,235 2,016
6,115 4,687 4,077 3,729 3,502 3,341 3,219 3,125 3,049 2,986 2,889 2,625 2,324
8,531 6,226 5,292 4,773 4,437 4,202 4,026 3,890 3,780 3,691 3,553 3,181 2,764
16,120 10,970 9,006 7,944 7,272 6,805 6,460 6,195 5,984 5,812 5,547 4,846 4,080
18 4,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 2,412 2,342 2,150 1,923
5,978 4,560 3,954 3,608 3,382 3,221 3,100 3,005 2,929 2,866 2,769 2,503 2,195
8,285 6,013 5,092 4,579 4,248 4,015 3,841 3,705 3,597 3,508 3,371 2,999 2,577
15,380 10,390 8,487 7,460 6,808 6,355 6,021 5,763 5,557 5,390 5,132 4,447 3,690
20 4,351 3,493 3,098 2,866 2,711 2,599 2,514 2,447 2,393 2,348 2,278 2,082 1,850
5,871 4,461 3,859 3,515 3,289 3,128 3,007 2,913 2,837 2,774 2,676 2,408 2,094
8,096 5,849 4,938 4,431 4,103 3,871 3,699 3,564 3,457 3,368 3,231 2,859 2,433
14,819 9,953 8,098 7,096 6,461 6,019 5,692 5,440 5,239 5,075 4,823 4,149 3,398
22 4,301 3,443 3,049 2,817 2,661 2,549 2,464 2,397 2,342 2,297 2,226 2,028 1,790
5,786 4,383 3,783 3,440 3,215 3,055 2,934 2,839 2,763 2,700 2,602 2,332 2,012
7,945 5,719 4,817 4,313 3,988 3,758 3,587 3,453 3,346 3,258 3,121 2,749 2,317
14,381 9,612 7,796 6,814 6,191 5,758 5,437 5,190 4,993 4,832 4,583 3,919 3,171
.../...
www.udima.es 197
│ Sumario
n= 1 2 3 4 5 6 7 8 9 10 12 24 ∞
.../...
m = 24 4,260 3,403 3,009 2,776 2,621 2,508 2,423 2,355 2,300 2,255 2,183 1,984 1,740
5,717 4,319 3,721 3,379 3,155 2,995 2,874 2,779 2,703 2,640 2,541 2,269 1,945
7,823 5,614 4,718 4,218 3,895 3,667 3,496 3,363 3,256 3,168 3,032 2,659 2,223
14,028 9,340 7,554 6,589 5,977 5,551 5,235 4,991 4,797 4,638 4,393 3,735 2,989
26 4,225 3,369 2,975 2,743 2,587 2,474 2,388 2,321 2,265 2,220 2,148 1,946 1,698
5,659 4,265 3,670 3,329 3,105 2,945 2,824 2,729 2,653 2,590 2,491 2,217 1,888
7,721 5,526 4,637 4,140 3,818 3,591 3,421 3,288 3,182 3,094 2,958 2,585 2,144
13,739 9,117 7,357 6,406 5,802 5,381 5,070 4,829 4,637 4,480 4,238 3,586 2,840
28 4,196 3,340 2,947 2,714 2,558 2,445 2,359 2,291 2,236 2,190 2,118 1,915 1,662
5,610 4,221 3,626 3,286 3,063 2,903 2,782 2,687 2,611 2,547 2,448 2,174 1,839
7,636 5,453 4,568 4,074 3,754 3,528 3,358 3,226 3,120 3,032 2,896 2,522 2,077
13,497 8,930 7,193 6,253 5,657 5,241 4,933 4,695 4,505 4,349 4,109 3,462 2,716
30 4,171 3,316 2,922 2,690 2,534 2,421 2,334 2,266 2,211 2,165 2,092 1,887 1,630
5,568 4,182 3,589 3,250 3,026 2,867 2,746 2,651 2,575 2,511 2,412 2,136 1,797
7,562 5,390 4,510 4,018 3,699 3,473 3,305 3,173 3,067 2,979 2,843 2,469 2,019
13,293 8,773 7,054 6,125 5,534 5,122 4,817 4,582 4,393 4,239 4,001 3,357 2,610
40 4,085 3,232 2,839 2,606 2,449 2,336 2,249 2,180 2,124 2,077 2,003 1,793 1,517
5,424 4,051 3,463 3,126 2,904 2,744 2,624 2,529 2,452 2,388 2,288 2,007 1,648
7,314 5,178 4,313 3,828 3,514 3,291 3,124 2,993 2,888 2,801 2,665 2,288 1,819
12,609 8,251 6,595 5,698 5,128 4,731 4,436 4,207 4,024 3,874 3,643 3,011 2,255
60 4,001 3,150 2,758 2,525 2,368 2,254 2,167 2,097 2,040 1,993 1,917 1,700 1,399
5,286 3,925 3,343 3,008 2,786 2,627 2,507 2,412 2,334 2,270 2,169 1,882 1,495
7,077 4,977 4,126 3,649 3,339 3,119 2,953 2,823 2,718 2,632 2,496 2,115 1,617
11,973 7,768 6,171 5,307 4,757 4,372 4,086 3,865 3,687 3,542 3,315 2,694 1,915
120 3,920 3,072 2,680 2,447 2,290 2,175 2,087 2,016 1,959 1,910 1,834 1,608 1,267
5,152 3,805 3,227 2,894 2,674 2,515 2,395 2,299 2,222 2,157 2,055 1,760 1,327
6,851 4,787 3,949 3,480 3,174 2,956 2,792 2,663 2,559 2,472 2,336 1,950 1,401
11,380 7,321 5,781 4,947 4,416 4,044 3,767 3,552 3,379 3,237 3,016 2,402 1,574
∞ 3,842 2,996 2,605 2,372 2,214 2,099 2,010 1,939 1,880 1,831 1,752 1,517 1,000
5,024 3,689 3,116 2,786 2,567 2,408 2,288 2,192 2,114 2,048 1,945 1,640 1,000
6,635 4,605 3,782 3,319 3,017 2,802 2,640 2,511 2,408 2,321 2,185 1,791 1,000
10,828 6,909 5,422 4,617 4,103 3,743 3,475 3,266 3,098 2,959 2,743 2,133 1,000
198 www.udima.es
Sumario │

• Entender la muestra aleatoria simple y sus funciones (estadísticos) como variables aleatorias.
• Comprender el concepto de distribución en el muestreo.
• Saber aplicar el teorema central del límite.
• Manejar adecuadamente las tablas de las distribuciones asociadas a la normal.
Enunciado 1
En una bolsa hay 1 bola blanca y 2 negras. Se hacen extracciones con reemplazamiento. Se define
la variable aleatoria X tal que X = 0 si la bola que sale es blanca y X = 1 si es negra. ¿Cuál es la distribu-
ción de una muestra aleatoria simple de tamaño 5? ¿Cuál es la distribución de la media aritmética? Cal-
cular la esperanza matemática y la varianza de la media aritmética.
Enunciado 2
Sea X1, …, Xn una muestra aleatoria simple de una población cuya distribución es normal con media μ
y varianza σ2 desconocidas. De los siguientes, ¿cuáles son estadísticos?
a) Σ Xi – μ.
b) σ X1 + σ X2.
c) Xi, i = 1, …, n.
d) X 21 + X 22 – eX3.
e) Xi /σ, i = 1, …, n.
–
f) Σ (Xi – X )2.
Enunciado 3
–
Sea X la media de una muestra aleatoria simple X1, …, Xn de una distribución N (μ, 10). Calcular n
–
para que P (μ – 5 < X < μ + 5) = 0,954.
www.udima.es 199
│ Sumario
Enunciado 4
Realizar el ejercicio anterior si no se conociese la distribución y suponiendo:
a) n suficientemente grande.
b) n pequeño.
Enunciado 5
Una compañía de seguros desea saber el número medio de indemnizaciones que tendrá que pagar
durante un año. Para ello se observa un conjunto de informes de otros años, y se concluye que dicho
número medio oscila entre 6 y 7 indemnizaciones, con una probabilidad de al menos 0,96. Si para el
estudio no se ha utilizado más información que aquella que asegura que el número de indemnizaciones
pagadas en un año es una variable aleatoria con desviación típica 1, ¿cuántos informes ha debido utilizar
la compañía para la estimación de dicho número medio?
200 www.udima.es
Sumario │
Solución 1
2 2
La esperanza es y la varianza .
3 45
Solución 2
Solución 3
n = 16.
Solución 4
a) n = 16.
b) n ≥ 87.
Solución 5
n ≥ 100.
 E
1. Una máquina empaqueta un cierto producto en dosis de peso X1, donde X1 está normalmente
distribuido con media 25 gramos, y desviación típica 0,4 gramos. El peso del paquete vacío
tiene también distribución normal con media 5 gramos y desviación típica 0,2 gramos. Si
se toma al azar una muestra de 100 paquetes, calcular la probabilidad de que el peso medio
de los 100 paquetes esté comprendido entre 29 y 31 gramos.
2. Se quiere estimar el sueldo medio de los trabajadores de diferentes fábricas. Para hacerlo,
la única información de la que se dispone es que la desviación típica de los sueldos es 12
euros. ¿Cuál debería ser el tamaño muestral para que, con una confianza del 90 %, la esti-
mación puntual del sueldo medio diario diste a lo más 3 euros del sueldo medio real?
3. Una empresa realiza un estudio entre sus empleados para conocer la cantidad media que gas-
tan estos en sus vacaciones de verano. Se sabe que la desviación típica de lo que gastan es
www.udima.es 201
│ Sumario
6 euros diarios. Se ha realizado una encuesta sobre 400 empleados. ¿Cuál sería la confianza
que se puede depositar en la afirmación: «la cantidad media diaria que gasta un empleado
oscila entre 58 y 61 euros»?
4. Mediante el uso de algún paquete estadístico como Statgraphics, generar números aleato-
rios para las distribuciones binomial y exponencial y usarlos para «visualizar» el teorema
central del límite. Específicamente, para n = 10 y n = 50 generar 60 muestras de una distri-
bución binomial con p = 0,4. Repetir el procedimiento anterior generando ahora una distri-
bución exponencial con parámetro λ = 100.
5. En la producción de cierto material para soldar se sabe que la desviación típica de la tensión
de ruptura de este material es de 25 libras. ¿Cuál debe ser la tensión de ruptura promedio
del proceso si, a partir de una muestra aleatoria simple de 50 piezas, la probabilidad de que
la media muestral tenga un valor mayor de 250 libras es de 0,95?
Básica
DEVORE, J. L.: Probabilidad y estadística para ingeniería y ciencias, 6.ª ed., Méjico: International Thomson Editores, 2005.
En la red
Applet de java para ilustrar el teorema central del límite: http://www.math.csusb.edu/faculty/stanton/probstat/clt.html

Rice Virtual Lab in Statistics. Teoría sobre distribución en el muestreo y applets de java para visualizar el concepto, en parti-
cular el Teorema Central del Límite: http://onlinestatbook.com/rvls.html
Simulación de un experimento aleatorio para visualizar la ley de los grandes números y el teorema central del límite: http://
www.terra.es/personal2/jpb00000/ttcentrallimite.htm
Tablas estadísticas: http://dm.udc.es/asignaturas/estadistica2/documentos-pdf/dmtablas.pdf. http://destio.us.es/calvo/tablas _
estadisticas.html
Avanzada
DEGROOT, H. M.: Probabilidad y estadística, Addison-Wesley.

DAVIS, F. N.: The Universal Computer, New York: W.W. Norton & Company, 2000.
202 www.udima.es
Sumario │
8
UNIDAD
DIDÁCTICA
ESTIMACIÓN
1. Introducción
2. Estadísticos y estimadores
3. Propiedades de los estimadores
3.1. Estimador centrado o insesgado
3.2. Eficiencia
3.3. Consistencia
4. Métodos de obtención de estimadores

4.1. Método de los momentos
4.1.1. Propiedades de los estimadores obtenidos por el método de momentos
4.2. Método de máxima verosimilitud
4.2.1. Función de verosimilitud
4.2.2. Metodología
4.2.3. Propiedades de los estimadores de máxima verosimilitud
5. Estimadores en la distribución normal. Teorema de Fisher

6. Intervalos de confianza. Método de la variable pivote
6.1. Ejemplo de motivación
6.2. Interpretación y metodología
6.3. Construcción
7. Intervalos de confianza en poblaciones normales
7.1. Intervalos de confianza para la media de una población normal con varianza conocida
7.2. Intervalos de confianza para la media de una población normal con varianza desconocida
7.3. Intervalos de confianza para la varianza de una población normal
www.udima.es 203
│ Sumario
7.4. Intervalo de confianza para la diferencia de medias en poblaciones normales

7.4.1. Caso 1: suponiendo varianzas desconocidas pero iguales
7.4.2. Caso 2: suponiendo varianzas desconocidas
7.5. Intervalo de confianza para la razón de varianzas en poblaciones normales
8. Intervalos de confianza asintóticos. Intervalos de confianza para proporciones

8.1. Intervalo de confianza para la media en poblaciones no normales
8.1.1. Intervalo de confianza para una proporción
8.2. Intervalo de confianza para la diferencia de medias en poblaciones no normales
8.2.1. Intervalo de confianza para la diferencia de proporciones

204 www.udima.es
Sumario │
A. Moreno Díaz Estimación
En esta unidad didáctica se trata la estimación de parámetros: estimación puntual y estimación por
intervalos de confianza. Consiste en aproximar el valor de un parámetro desconocido por un valor con-
creto o por un intervalo calculado a partir de la muestra aleatoria simple obtenida de la población.
• Comprender el concepto de estimador, su distribución y sus propiedades deseables.

• Conocer y saber aplicar el método de los momentos y el de máxima verosimilitud para obtener
estimadores.
• Comprender la finalidad de la estimación por intervalos como complemento a la estimación
puntual.
• Entender la relación que existe entre la expresión de un intervalo de confianza y la variable
pivote de la que procede.
• Interpretar correctamente el concepto de confianza.
• Obtener intervalos de confianza cuando la distribución de la(s) población(es) sea normal.
• Obtener intervalos de confianza para proporciones.
www.udima.es 205
│ Sumario
1. INTRODUCCIÓN
Supóngase que se observa una muestra aleatoria simple de una variable aleatoria X que, se sabe,
sigue una distribución conocida, por ejemplo, poisson, normal o cualquiera de las ya estudiadas en la
unidad didáctica 5. Se sabe la forma de esa distribución pero se ignora el valor de alguno(s) o todos sus
parámetros. La pregunta fundamental que se plantea es: ¿cómo se puede utilizar la información muestral
para aproximar o estimar esos parámetros desconocidos de una distribución? La respuesta inmediata es
mediante la estimación, que consiste en asignar valores concretos a los parámetros desconocidos. Exis-
ten dos tipos principales de estimación:
• Estimación puntual. Se da un único valor aproximado para el parámetro desconocido, un

solo punto o número real.
• Estimación por intervalos. Se da un intervalo de valores posibles para el parámetro des-
conocido. En ese intervalo se cree que se encuentra el verdadero valor del parámetro con
cierta seguridad que habrá que especificar.
A continuación se recuerda lo que se conoce como parámetro de una distribución. Un parámetro

es un valor utilizado para representar una característica concreta de la distribución de una variable alea-
toria X. En inferencia estadística, esta variable aleatoria representará a la población bajo estudio. Así, si
X ~ 𝒩 (μ, σ), µ será el parámetro que representa la media poblacional y σ será el parámetro que repre-
senta la desviación típica, si X ~ � (λ), λ representa la media poblacional y si X ~ �xp (λ), el parámetro λ
representa la tasa de la distribución.
2. ESTADÍSTICOS Y ESTIMADORES
Dada X1, X2, …, Xn muestra aleatoria simple de una variable aleatoria X, se llama estadístico a toda
función (medible) de los elementos de la muestra, es decir:
Estadístico = S (X1, …, Xn)
Un estimador de un parámetro será un estadístico cuya finalidad es aproximar el verdadero valor

del parámetro desconocido. Si se quiere estimar un parámetro genérico θ, se utilizará la notación θ̂ para
designar su estimador. Los estadísticos son variables aleatorias y son funciones que no dependen del
parámetro desconocido. Se observa la muestra X1 = x1, …, Xn = xn y el estadístico resume la información
contenida en la muestra para dar información sobre θ.
EJEMPLO 1
Dada (X1, …, Xn) una muestra aleatoria simple de una variable aleatoria X ~ 𝒩 (μ, σ) un estadístico sería:
n
S (X1, …, Xn) = X12 + … + Xn2 = Σ Xi2
i=1 .../...
206 www.udima.es
Sumario │
.../...
No sería un estadístico la función:

n
S (X1, …, Xn) = μX21 + … + μ X2n = μ Σ Xi2
i=1
ya que depende del parámetro desconocido μ.
EJEMPLO 2
Se estudia la variable aleatoria X = Número de trabajos enviados a una impresora en un día, suponiendo que
X ~ � (λ) . Si se observa el número de trabajos enviados en n días, se pueden tomar como estimadores de λ:
‒
λ̂ = X o λ̂ = min (Xi) o λ̂ = max (Xi)
EJEMPLO 3
Si X ~ 𝒩 (μ, 1) y se toma una muestra aleatoria simple (X1, …, Xn) , se pueden tomar como estimadores del
parámetro μ los estadísticos:
‒
μ̂ = X o μ̂ = Med (Xi)
ya que se sabe que, al ser la distribución normal simétrica, la media y la mediana coinciden.
En los últimos ejemplos se ha visto que para un mismo parámetro se pueden proponer diferentes
estimadores. A continuación se presentan las propiedades que serían deseables en los estimadores.
3. PROPIEDADES DE LOS ESTIMADORES
Se ven a continuación criterios para la comparación de estimadores y las propiedades que son desea-
bles para que un estadístico produzca buenas estimaciones.
3.1. ESTIMADOR CENTRADO O INSESGADO
Se dice que un estimador θ̂ es centrado o insesgado para estimar el parámetro θ si, para cualquier
tamaño muestral, su esperanza es igual al parámetro que se quiere estimar, es decir:
∀ n, E (θ̂) = θ
Cuando el estimador no es centrado, se define el sesgo del estimador como:
sesgo (θ̂) = E (θ̂) – θ
www.udima.es 207
│ Sumario
EJEMPLO 4
‒
Ya se ha visto en la unidad didáctica anterior que el estadístico media muestral X es un estimador centrado
para estimar la media poblacional, ya que si (X1, …, Xn) es una muestra aleatoria simple de una variable
aleatoria X con E (X) = μ, se tiene:
‒
E (X ) = μ
EJEMPLO 5
Σni=1 (Xi ‒ X‒ )2
Comprobar que la varianza muestral m2 = no es un estimador centrado para la varianza σ2.
n
Para comprobarlo se escribe la varianza muestral como:
Σni=1 Xi2 ‒2
m2 = ‒X
n
y se calcula su esperanza:
Σni=1 E (Xi2) ‒2 Σni=1 (σ2 + μ2) σ2 n‒1

E (m2) = ‒ E (X )= ‒� + μ2� = σ2 ≠ σ2
n n n n
Por tanto no es centrado. Para conseguir un estimador centrado de σ2, se define la cuasivarianza muestral:
Σni=1 (Xi ‒ X‒ )2 n
s2 = = m2
n‒1 n‒1
Se comprueba fácilmente que es estimador centrado, ya que:
n n n‒1
E (s2) = E (m2) = σ2 = σ2
n‒1 n‒1 n
3.2. EFICIENCIA
Se llama eficiencia o precisión de un estimador a la inversa de la varianza de su distribución muestral:
1
Eficiencia =
V (θ̂)
Se dirá que θ̂1 es más eficiente o preciso que θ̂2, si para cualquier tamaño muestral se verifica:
V (θ̂1) ≤ V (θ̂2) ⇔ Eficiencia (θ̂1) ≥ Eficiencia (θ̂2)
La eficiencia es una propiedad ligada a la varianza y sirve para comparar estimadores centrados, ya
que siempre se preferirá el de menor varianza. Por ello se suele hablar de eficiencia de un estimador θ̂1
relativo a otro estimador θ̂2.
208 www.udima.es
Sumario │
Si los estimadores a comparar no son centrados, se utiliza un nuevo concepto, el error cuadrático
medio, que se define como:
ECM (θ̂) = E [(θ – θ̂)2] = V (θ̂) + [sesgo (θ̂)]2
Entre dos estimadores del mismo parámetro θ se prefiere el de menor error cuadrático medio.
EJEMPLO 6
‒
Sea (X1, …, Xn) una muestra aleatoria simple de una variable X ~ 𝒩 (μ, σ). Sean T1 = X y T2 = X1 dos estima-
dores del parámetro media μ. ¿Cuál de los dos es más consistente?
‒
Ya que E (X1) = E (X ) = μ, los dos estimadores son centrados. Se sabe, además, que:
‒ σ2
V (X ) =
n
y V (X1) = σ2, ya que se distribuye idénticamente a X. Suponiendo que n > 1, ya que representa un tamaño
‒
muestral, se tiene que X es preferible a X1 para estimar μ por ser más eficiente.
3.3. CONSISTENCIA
Cuando se disponga de muestras grandes y sea difícil encontrar un estimador centrado con alta efi-
ciencia, lo menos que se le exige a un estimador es que sea consistente, es decir, que su valor se aproxime
al valor del parámetro desconocido a medida que aumenta el tamaño muestral.
Si θ̂n es el estimador de θ para una muestra de tamaño n, este será consistente si converge en pro-
babilidad a θ:
p
θ̂n → θ
Para comprobar si un estimador es consistente, es suficiente comprobar que:
E (θ̂n) ⟶ θ V (θ̂n) ⟶ 0
n→∞ n→∞
EJEMPLO 7
‒
La media muestral X n es un estimador consistente para estimar μ, ya que:
‒
E (X n) = μ ⟶ μ
{ ‒
V (X n) =
σ2
⟶ 0
n n→∞
n→∞
.../...
www.udima.es 209
│ Sumario
.../...
Además, en la unidad didáctica anterior se vio, por la ley de los grandes números, que:
‒ p
Xn → μ
4. M
ÉTODOS DE OBTENCIÓN DE ESTIMA-
DORES
Se estudiarán dos métodos, el método de los momen-

tos y el método de máxima verosimilitud.
C.R. Rao (1920). Nacido en Hadagali, India,

4.1. MÉTODO DE LOS MOMENTOS en 1920, es uno de los grandes estadísticos
del siglo XX. Entre sus descubrimientos más
conocidos figuran el teorema de Rao-Blac-
Su filosofía es sencilla, se estiman los momentos kwell y la cota de Cramér-Rao, ambos rela-
cionados con la calidad de los estimadores.
poblacionales por los correspondientes momentos mues- Además de la teoría de estimación, inferencia
trales. Así, la media poblacional se estimará por medio de estadística y los modelos lineales, su inves-
tigación ha contribuido en otras áreas, como
la media muestral y la varianza poblacional por medio de análisis multivariante, diseño combinatorio,
la varianza muestral. biometría, genética estadística, ecuaciones
funcionales Actualmente es profesor emérito
en la Universidad del Estado de Pennsylvania
Se ilustra el método con un ejemplo para luego desa- (Penn State University). Entre sus numerosas
rrollarlo de forma teórica: condecoraciones figura la Medalla Nacional
de la Ciencia de los Estados Unidos, en 2002.
EJEMPLO 8
Sea X una variable aleatoria con distribución γ (λ, p). Obtener estimadores de los parámetros λ y p por el
método de los momentos.
Primero se buscan relaciones funcionales entre los momentos respecto del origen de X y los parámetros a
estimar:
p
E (X) = α1 =
λ
p p 2
p (p + 1)
E (X2) = α2 = V (X) + E (X2) = +� � =
λ2 λ λ2
Se despejan los parámetros desconocidos, con lo que:
α1 α21
λ= y p=
α2 ‒ α21 α2 ‒ α21
.../...
210 www.udima.es
Sumario │
.../...
A continuación se estiman los momentos poblacionales αi (véase definición en la unidad didáctica 4) por
medio de sus correspondientes momentos muestrales ai (véase definición en la unidad didáctica 2) y los esti-
madores serían:
α1 α21
λ̂ = y p̂ =
α2 ‒ α21 α2 ‒ α21
Σni=1 xi2
siendo a1 = x‒ y a2 = .
n
Por tanto, si se quiere estimar el parámetro k-dimensional (θ1, …, θk), el método de los momentos
consiste en:
• Encontrar relaciones funcionales, tantas como parámetros se quiera estimar, entre los momentos
con respecto del origen de la variable aleatoria de la que proviene la muestra y los parámetros.
{
θ1 = g1 (α1, …, αk)
⫶⫶
θk = g2 (α1, …, αk)
• Estimar dichos momentos, α1, α2, …, αk , por medio de los momentos muestrales a1, a2, …, ak ,
obteniendo los estimadores.
{ θ̂1 = g1 (a1, …, ak)

⫶⫶
θ̂k = g2 (a1, …, ak)
EJEMPLO 9
Dada X ~ 𝒩 (μ, σ), encontrar los estimadores para los parámetros μ y σ por el método de los momentos.
Se quiere estimar el parámetro bidimensional θ = (μ, σ). El sistema a resolver es:
E (X) = α1 = μ
{ E (X2) = α2 = σ2 + μ2
Despejando μ y σ2 se tiene:
μ̂ = a1 = x‒
{ σ̂2 = a2 ‒ x‒ 2 =
Σni=1 xi2
n
‒ x‒ 2 =
Σni=1 (xi ‒ x‒ )2
n
www.udima.es 211
│ Sumario
4.1.1. Propiedades de los estimadores obtenidos por el método de momentos
• Son consistentes.
• En general, no son centrados ni con mínima varianza.
• Son relativamente sencillos de obtener.
• No utilizan toda la información contenida en la muestra, ya que solamente tienen en cuenta
los momentos de la población de la que se obtienen los datos.
4.2. MÉTODO DE MÁXIMA VEROSIMILITUD
4.2.1. Función de verosimilitud
Dada X variable aleatoria discreta con función de probabilidad Pθ (X) y una muestra aleatoria sim-
ple de X, (X1, …, Xn), se definía (unidad didáctica 7) la función de probabilidad conjunta de la muestra
como:
n
Pθ (X1 = x1, …, Xn = xn) = � Pθ (Xi = xi)
i=1
Esta puede verse como función de la muestra aleatoria simple y como función del parámetro.
• Si θ fuera conocido, con esta función se podría determinar la probabilidad de obtención de

cada muestra.
• Si θ es desconocido y se conoce un valor concreto y fijo de la muestra (x1, …, xn), esta fun-
ción daría, para cada valor de θ, la probabilidad de obtener esa muestra observada.
La función de probabilidad o de densidad conjunta de la muestra aleatoria simple (X1, …, Xn), vista
como función de θ, se denomina función de verosimilitud L (θ). Es decir, para (x1, …, xn) fijo, se
tiene:
• L (θ) = � i=1 Pθ (Xi = xi) = � i=1 pθ (xi), si X es discreta.

n n
• L (θ) = � i=1 ƒθ (xi), si X es continua.

n
4.2.2. Metodología
El método de máxima verosimiltud selecciona como estimador del parámetro desconocido θ, aquel
valor que maximiza la probabilidad de la muestra aleatoria observada, es decir:
θ̂ = max L (θ)
θ
Se maximiza la función L (θ) manteniendo (x1, …, xn) fijo.
212 www.udima.es
Sumario │
Sea L función de verosimilitud diferenciable, cuyo máximo no se alcanza en un extremo de su reco-

rrido. Si el parámetro θ se supone k-dimensional, θ = (θ1, …, θk) , para encontrar el estimador de máxima
verosimilitud θ̂ debe resolverse el sistema:
{
∂L (θ)
=0
∂θ1
⫶
∂L (θ)
=0
∂θk
Hay que comprobar que, efectivamente, el θ̂ así obtenido es un máximo de la función. Para ello se
comprueba que la matriz de segundas derivadas parciales o matriz Hessiana es definida negativa.
Observación. En la práctica, los estimadores de máxima verosimilitud (EMV) se obtienen derivando

la función Ln L (θ), también llamada función soporte. Al ser el logaritmo una función monótona, las fun-
ciones L (θ) y Ln L (θ) alcanzan el máximo en el mismo punto. La ventaja es que, al tomar logaritmos, las
constantes multiplicativas se transforman en aditivas y desaparecen al derivar, facilitando los cálculos.
EJEMPLO 10
Supóngase que X ~ � (λ). Se toma una muestra aleatoria simple (X1, …, Xn). Encontrar el EMV del parámetro λ.
Lo primero que se hace es construir la función de verosimilitud. Dada (x1, …, xn), se tiene:
n n λx1 λΣx1
L (θ) = � Pθ (xi) = � e‒λ = e‒nλ
i=1 i=1 xi ! � xi !
A continuación se calcula Ln L (θ):
n n
Ln L (θ) = ‒ nλ + � � xi� Ln λ ‒ Ln �� xi !�
i=1 i=1
Se deriva e, igualando a 0, se obtiene λ̂:
∂LnL (θ) Σni=1 Xi

=‒n+
∂θ λ
∂LnL (θ) Σ n
i =1 Xi ‒
= 0 ⇒ λ̂ = =X
∂θ n
Se comprueba que, efectivamente, es un máximo:
∂2LnL (θ) Σ Xi n
=‒ � =‒ ‒ <0
∂θ2 λ2 λ= λ̂ X
Esta última expresión es menor que 0, ya que los elementos de una muestra aleatoria simple que provienen
de una distribución de Poisson son todos positivos y, por tanto, su media es también positiva. Además, n es
también positivo al ser un tamaño muestral.
www.udima.es 213
│ Sumario
4.2.3. Propiedades de los estimadores de máxima verosimilitud
• Son asintóticamente centrados, es decir, al aumentar el tamaño muestral, el máximo de la

función de verosimilitud converge al verdadero valor del parámetro.
• Tienen distribución asintóticamente normal.
• Son asintóticamente eficientes.
• Son invariantes: Si θ̂ es EMV de θ y g es una función biyectiva continua ⇒ g (θ̂) es EMV de
g (θ).
5. ESTIMADORES EN LA DISTRIBUCIÓN NORMAL. TEOREMA DE FISHER
Si (X1, …, Xn) es una muestra aleatoria simple de X ~ 𝒩 (μ, σ), los estimadores que se obtienen
por el método de máxima verosimilitud de μ y de σ2 son:
–
– Σni=1 (Xi – X )2
μ̂ = X σ̂2 =
n
Se tiene el siguiente resultado:
Teorema de Fisher: Si (X1, …, Xn) es una muestra aleatoria simple de X ~ 𝒩 (μ, σ), se verifica que:
–
• X y S 2 son independientes.
–
X –μ
• ~ 𝒩 (0, 1)
σ
√n
n (n – 1)
• m2 = S 2 ~ χ2n–1
σ2 σ2
6. INTERVALOS DE CONFIANZA. MÉTODO DE LA VARIABLE PIVOTE
En la estimación por intervalos de confianza, en lugar de dar un valor concreto aproximado para el
parámetro, se da una región o intervalo de la recta real en la que este puede encontrarse con cierto grado
de confianza. Se introduce el método con un ejemplo para posteriormente desarrollarlo teóricamente.
6.1. EJEMPLO DE MOTIVACIÓN
Sea X una variable aleatoria con distribución 𝒩 (μ, 1). Se toma una muestra aleatoria simple X1, …,
– –
Xn de X. Se sabe que el estimador puntual de μ es la media muestral, μ̂ = X , y, además, X ~ 𝒩 (μ, 1/√ n).
Se trata de encontrar dos estadísticos T1 (X1, …, Xn) y T2 (X1, …, Xn), de forma que, por ejemplo:
P (T1 (X1, …, Xn) < μ < T2 (X1, …, Xn)) = 0,95
214 www.udima.es
Sumario │
En este caso concreto, se sabe que:

–
X –μ
Z= ~ 𝒩 (0, 1)
1
√n
y, buscando en la tabla correspondiente, el intervalo que para la distribución 𝒩 (0, 1) encierra una pro-
babilidad de 0,95 es (− 1,96; 1,96):
P (– 1,96 < Z < 1,96) = 0,95
Sustituyendo Z se tiene:
–
X –μ
P – 1,96 < < 1,96 = 0,95
� 1 �
√n
y despejando μ para que quede en el centro de la desigualdad, se obtiene:
– 1 – 1
P � X – 1,96 < μ < X + 1,96 � = 0,95
√n √n
con lo que:
– 1
T1 (X1, …, Xn) = X – 1,96
√n
– 1
T2 (X1, …, Xn) = X + 1,96
√n
Si se observa la muestra de tamaño n = 10:
4,31; 5,33; 5,14; 5,68; 6,27; 4,9; 3,32; 4,11; 4,47; 5,71
se tiene que
–x = 4,924 y –x – 1,96 1
= 4,3 y –x + 1,96 1
= 5,54
√ 10 √ 10
Se dirá que (4,3; 5,54) es un intervalo al 95 % de confianza para el parámetro μ.
6.2. INTERPRETACIÓN Y METODOLOGÍA
Se quieren encontrar dos estadísticos T1 (X1, …, Xn) y T2 (X1, …, Xn), tales que:
P (T1 (X1, …, Xn) < θ < T2 (X1, …, Xn)) = 1 – α, con α ∈ (0, 1)
www.udima.es 215
│ Sumario
y α pequeño. Si después de observar la muestra los valores de T1 (X1, …, Xn) y T2 (X1, …, Xn) son, res-
pectivamente, los números a y b, se dirá que (a, b) es un intervalo de confianza al (1 – α) 100 % para el
parámetro θ.
La expresión anterior no significa que la probabilidad de que el parámetro esté en el intervalo (a, b)
sea 1 – α. El parámetro es una constante y, como tal, estará o no en un intervalo determinado. Antes de
observar la muestra, se considera 1 – α como la probabilidad de que θ esté en el intervalo aleatorio (T1 (∙),
T2 (∙)). Después de observarla, θ o está o no está en el intervalo calculado, no tiene sentido hablar de pro-
babilidad y lo que se dice es que existe una confianza del (1 – α) 100 % de que θ esté en (a, b), interpre-
tándose esta frase de la siguiente forma:
Si se construyen muchos intervalos al (1 – α) 100 % de confianza, con muchas muestras, al menos el

(1 – α) 100 % de los mismos contendrá el verdadero valor del parámetro.
En la práctica solamente se dispondrá de una muestra, con la que se podrá construir un solo inter-
valo. En este intervalo, no tiene sentido hablar de la probabilidad de que el parámetro esté contenido en
él, ya que dicho parámetro o está (probabilidad 1) o no está (probabilidad 0). Por ello, para expresar la
incertidumbre que se tiene sobre si el intervalo calculado contiene o no el valor del parámetro descono-
cido, se utilizará el nivel de confianza.
6.3. CONSTRUCCIÓN
Este método de construcción de intervalos, que ya ha sido ilustrado con un ejemplo, se llama método
de la variable pivote. Se trata de encontrar una variable aleatoria que sea función de la muestra y del pará-
metro desconocido, de la que se conozca su distribución y, además, esta no dependa del parámetro. En el
ejemplo del epígrafe 6.1. esta variable era:
–
X –μ
~ 𝒩 (0, 1)
1
√n
siendo μ el parámetro desconocido que se quiere estimar.
A esta variable se le llama variable pivote, ya que permite
pivotar o pasar de una expresión del tipo: Jerzy Neyman (1894-1981). Fue un mate-
mático y estadístico polaco-americano.
P (… ≤ variable pivote ≤ …) Junto con Pearson desarrolló el concepto de

intervalo de confianza en 1937.
Se trasladó a Berkeley (California) en 1938,
a otra del tipo: donde residió y trabajó hasta su muerte. Gra-
cias a su influencia en América y a la de A.
P (… ≤ θ ≤ …) Wald, se comenzó a considerar la inferen-
cia estadística como parte del análisis de
decisiones.
que es lo que se necesita para construir el intervalo de Es el creador de los métodos modernos de
confianza. muestreo.
En 1966 se le concedió la Guy Medal de la
Los valores de α, que determinan el nivel de confianza Royal Statistical Society y tres años después,
la Medalla Nacional de la Ciencia de los Esta-
(1 – α) 100 %, se escogen pequeños, típicamente 0,05; 0,01; dos Unidos.
0,025, etc.
216 www.udima.es
Sumario │
7. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES
A continuación se obtienen intervalos de confianza para los parámetros μ y σ2 de una población

normal bajo diversos supuestos.
7.1. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN

NORMAL CON VARIANZA CONOCIDA
Es el caso del ejemplo del epígrafe 6.1. En este caso, se tiene:
Sea (X1, …, Xn) una muestra aleatoria simple de una variable aleatoria X ~ N (μ, σ), con µ descono-
cida y σ conocida. Se toma como variable pivote:
–
X –μ
~ 𝒩 (0, 1)
σ
√n
En la variable pivote lo único desconocido es el parámetro µ. Por tanto y siendo zα/2 el punto de la
distribución 𝒩 (0, 1) que deja a la derecha un área de α/2:
–
X –μ
P – zα/2 ≤ ≤ zα/2 =1–α
� σ �
√n
Pivotando en la expresión anterior se obtiene el intervalo al (1 – α) 100 % de confianza para μ:
– σ – σ
� X – zα/2 , X + zα/2 �
√n √n
7.2. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN

NORMAL CON VARIANZA DESCONOCIDA
Como σ es desconocida no se puede utilizar la variable pivote anterior. Se utiliza:

–
X –μ
~ tn–1
s
√n
cuya distribución es una t de Student con n − 1 grados de libertad. En esa variable pivote, lo único des-
conocido es µ, ya que s se calcula a partir de la muestra. En la distribución t no hay ningún parámetro
desconocido, ya que los grados de libertad son, en este caso, el tamaño muestral menos 1. Pivotando se
obtiene el intervalo:
– s – s
� X – tn–1,α/2 , X + tn–1,α/2 �
√n √n
www.udima.es 217
│ Sumario
EJEMPLO 11
En una muestra aleatoria simple de n = 6 coches americanos se obtienen los siguientes valores para la varia-
ble X = Consumo, en kilómetro por litro:
18,6; 18,4; 19,2; 20,8; 19,4; 20,5
Si X ~ 𝒩 (μ, σ), construir un intervalo al 95 % de confianza para el consumo medio μ.

Con los 6 datos se calcula:
6 6
Σ xi = 116,9 Σ xi2 = 2.282,41
i=1 i=1
para obtener:
116,9 Σni=1 xi2 ‒ nx‒ 2 = 2.282,41 ‒ (6) (19,483)2

x‒ = = 19,483 s2 = = = 0,961
6 n‒1 5
y, por tanto, s = 0,98. Como el intervalo es al 95 % de confianza, 1 ‒ α = 0,95 ⇒ α = 0,05 y se necesita el per-
centil tn‒1,α/2 = t5;0,025 = 2,571. Sustituyendo en la fórmula del intervalo de confianza, se obtiene:
0,98 0,98
�19,483 ‒ 2,571 , 19,483 + 2,571 � = (18,445; 20,511)
√6 √6
Ese sería el intervalo de confianza al 95 % para el consumo medio.
7.3. I NTERVALOS DE CONFIANZA PARA LA VARIANZA DE UNA POBLACIÓN

NORMAL
Se supone ahora que se tiene una muestra aleatoria simple (X1, …, Xn) de una variable aleatoria
X ~ 𝒩 (μ, σ) de la que no se conoce µ. Se quiere construir un intervalo de confianza para la varianza σ2.
Se utiliza como variable pivote:
(n – 1) S 2
~ χ2n–1
σ2
Por tanto:
(n – 1) S 2
P � χ2n –1,1– (α/2) ≤ ≤ χ2n –1,α/2 � = 1 – α
σ2
Pivotando, se obtiene el intervalo de confianza al (1 – α) 100 %:
(n – 1) S 2 (n – 1) S 2
� , �
χ2n –1,α/2 χ2n –1,1–(α/2)
218 www.udima.es
Sumario │
EJEMPLO 12
Con la muestra aleatoria simple del consumo de los coches americanos del ejemplo 11, construir un inter-
valo de confianza al 90 % para la varianza del consumo, suponiendo que la variable X = Consumo, en kilóme-
tro por litro sigue una distribución normal.
Como s2 = 0,961 y 1 ‒ α = 0,90 ⇒ a = 0,1 y α/2 = 0,05, se necesitan los percentiles χ25;0,95 y χ25;0,05. Bus-
cando en la tabla correspondiente, se tiene χ25;0,95 = 1,145 y χ25;0,05 = 11,07. Sustituyendo en la fórmula del
intervalo:
5 · (0,961) 5 · (0,961)
� , � = (0,347; 3,354)
11,07 1,145
siendo este el intervalo al 90 % de confianza para la varianza del consumo de los coches. Esa varianza des-
conocida σ2 se encontrará en ese intervalo con un 90 % de confianza.
7.4. I NTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS EN PO-

BLACIONES NORMALES
Se supone que se tienen dos poblaciones normales independientes X ~ 𝒩 (μ1, σ1) e Y ~ 𝒩 (μ2, σ2).
Se tiene una muestra aleatoria simple de cada una de ellas, de tamaños n1 y n2, respectivamente:
(X1, …, Xn1) m.a.s. de X ~ 𝒩 (μ1, σ1)
(Y1, …, Yn2) m.a.s. de Y ~ 𝒩 (μ2, σ2)
Se quiere construir un intervalo de confianza para el parámetro diferencia de medias, es decir,

θ = μ1 – μ2. Esta es una forma de comparar las dos poblaciones con base en sus medias.
7.4.1. Caso 1: suponiendo varianzas desconocidas pero iguales
Si se supone que la varianza de las dos poblaciones normales X e Y es la misma, i.e. σ21 = σ22 = σ2, se
define el estimador de esta varianza común, s2p, como la media ponderada de las cuasivarianzas de cada
muestra s21 y s22 , esto es:
(n1 – 1) s21 + (n2 – 1) s22

s2p =
n1 + n2 – 2
Con este estimador, se utiliza la variable pivote:
– –
(X – Y ) – (μ1 – μ2)
~ tn1+n2–2
1 1
sp +
n1 n2
www.udima.es 219
│ Sumario
Pivotando, se obtiene el intervalo de confianza al (1 – α) 100 %:
– – 1 1 – – 1 1
�(X – Y ) – tn1+n2–2,α/2 sp + , (X – Y ) + tn1+n2–2,α/2 sp + �
n1 n2 n1 n2
EJEMPLO 13
Se quieren comparar dos sistemas, A y B, de matriculación online en un curso a distancia. Para ello, se
toma una muestra aleatoria simple de la variable X = Tiempo de matriculación con el sistema A y de la variable
Y = Tiempo de matriculación con el sistema B, que se suponen independientes, distribuidas normalmente y con
la misma varianza. Calcular un intervalo de confianza al 98 % para la diferencia de tiempos medios entre
ambos sistemas de matriculación.
Tabla 1. Datos
Sistema A (en minutos) ..... 15 20 13 21 16 20
Sistema B (en minutos) ...... 23 20 15 19 22 17
Se realizan los cálculos de los estadísticos correspondientes, que se resumen en la siguiente tabla:
Tabla 2. Estadísticos
Sistema A Sistema B
Media ................................... x‒ = 17,5 y‒ = 19,33
Cuasivarianza ..................... s21 = 10,7 s22 = 9,06
Se calcula s2p:
5 ∙ (10,7) + 5 ∙ (9,06)
s2p = = 9,88
6+6–2
con lo que sp = 3,14. Como 1 – α = 0,98 ⇒ α = 0,02 y α/2 = 0,01, se necesita el percentil t10;0,01 = 2,764. Sustitu-
yendo en la fórmula del intervalo se tiene:
1 1 1 1
�(17,5 ‒ 19,33) ‒ (2,764) · (3,14) · + ; (17,5 ‒ 19,33) + (2,764) · (3,14) · + �
6 6 6 6
Por tanto, el intervalo de confianza al 98 % para la diferencia de tiempos medios es:
(‒ 6,84; 3, 18)
La diferencia de tiempos medios μ1 ‒ μ2 se encuentra en ese intervalo con una confianza del 98 %.
220 www.udima.es
Sumario │
7.4.2. Caso 2: suponiendo varianzas desconocidas
Si las varianzas de ambas poblaciones no pueden suponerse iguales, se utiliza el siguiente intervalo
aproximado:
s21 s22 s21 s22

� (X– – Y–) – tn +n –2‒ ∆,α/2 +
– –
, (X – Y ) + tn1+n2–2‒ ∆,α/2 + �
1 2 n1 n2 n1 n2
siendo ∆ el entero más próximo a:
[(n2 – 1) A – (n1 – 1) B]2

∆=
(n2 – 1) A2 + (n1 – 1) B2
s21 s22
con A = yB= . Se comprueba que 0 ≤ ∆ ≤ máx (n1 – 1, n2 – 1).
n1 n2
EJEMPLO 14
Si se calcula el intervalo de confianza al 98 % para los datos del ejemplo 13 sin suponer varianzas iguales, se
tiene que ∆ es el entero más próximo a 0,068. Como ∆ = 0, los grados de libertad no se modifican y el inter-
valo queda:
10,7 9,06 10,7 9,06

�(17,5 ‒ 19,33) ‒ (2,764) · + ; (17,5 ‒ 19,33) ‒ (2,764) · + �
6 6 6 6
es decir, (− 6,8457; 3,1857), prácticamente igual al del ejemplo anterior.
7.5. I NTERVALO DE CONFIANZA PARA LA RAZÓN DE VARIANZAS EN POBLA-

CIONES NORMALES
De nuevo, se supone que se tienen dos poblaciones normales independientes X ~ 𝒩 (μ1, σ1) e
Y ~ 𝒩 (μ2, σ2). Se tiene una muestra aleatoria simple de cada una de ellas, de tamaños n1 y n2,
respectivamente:
(X1, …, Xn1) m.a.s. de X ~ 𝒩 (μ1, σ1)

(Y1, …, Yn2) m.a.s. de Y ~ 𝒩 (μ2, σ2)
Se quiere construir un intervalo de confianza para el parámetro razón de varianzas, es decir, θ = σ21/σ22.
Esta es una forma de comparar las dos poblaciones con base en sus varianzas.
www.udima.es 221
│ Sumario
Se utiliza la variable pivote:

s22 σ21
~ Fn2–1,n1–1
s21 σ22
y se obtiene el intervalo al (1 – α) 100 % de confianza:
s21 s21
� Fn2–1,n1–1,1–α/2, Fn2–1,n1–1,α/2 �
s22 s22
EJEMPLO 15
Con los datos del ejemplo 13, construir un intervalo de confianza al 95 % para la razón de las varianzas del
tiempo de matriculación con ambos sistemas.
Como α = 0,05; α/2 = 0,025 se necesitan los percentiles:
1 1
F5,5;0,025 = 7,146 y F5,5;0,975 = = = 0,139
F5,5;0,025 7,146
El último percentil se ha obtenido utilizando la relación vista en la unidad didáctica 7:
1
Fn,m,α =
Fm,n,1‒a
El intervalo queda:
10,7 10,7
� · (0,139), · (7,146)�
9,06 9,06
con lo que la razón de varianzas se encuentra en el intervalo (0,16; 8,43) con un 95 % de confianza. Como el
valor 1 pertenece a este intervalo, se podría admitir, con un 95 % de confianza, que ambos sistemas de matri-
culación tienen la misma varianza en el tiempo de matriculación, ya que:
σ 21
σ 21 = σ 22 ⇔ =1
σ 22
8. I NTERVALOS DE CONFIANZA ASINTÓTICOS. INTERVALOS DE CONFIANZA

PARA PROPORCIONES
8.1. I NTERVALO DE CONFIANZA PARA LA MEDIA EN POBLACIONES NO NOR-

MALES
Por el teorema central del límite se sabe que si X es una variable aleatoria de la que no se conoce
su distribución, con E (X) = μ y V (X) = σ2 < ∞, y (X1, …, Xn) es una muestra aleatoria de X, para n sufi-
cientemente grande:
– σ
X n ~ 𝒩 �μ, �
√n
222 www.udima.es
Sumario │
Por tanto, para muestras de tamaño suficientemente grande, el intervalo de confianza para la media,
al (1 – α) 100 % de confianza, será:
– s – s
�X – zα/2 , X + zα/2 �
√n √n
Este resultado se aplicará con n ≥ 30.
Si la muestra no es lo suficientemente grande, puede usarse la desigualdad de Tchebychev.
8.1.1. Intervalo de confianza para una proporción
Si se quiere estimar la proporción p de elementos de una población que tienen un determinado atri-
buto, se obtiene una muestra aleatoria simple de una distribución de Bernoulli con parámetro p, es decir:
(X1, …, Xn) m.a.s. de X ~ Ɓer (p)
en la que cada Xi es igual a 1 o 0, según tenga o no, el elemento i, el atributo. En este caso, el estimador
puntual para esa proporción desconocida es:
Σni=1 Xi –
p̂ = =X
n
que se corresponde con la proporción muestral de elementos con el atributo. Por el teorema de De Moivre
el intervalo de confianza al (1 – α) 100 % será:
p̂ (1 – p̂ ) p̂ (1 – p̂ )
� p̂ – zα/2 , p̂ + zα/2 �
n n
EJEMPLO 16
Se observa que un nuevo dispositivo para acelerar el acceso a una red proporciona 73 conexiones con éxito
en menos de 0,022 segundos de un total de 115 intentos de conexión. Construir un intervalo de confianza al
90 % para la proporción p de conexiones sin error en ese tiempo.
En este caso, la proporción muestral de éxitos observados es:
73
p̂1 = = 0,635
115
El percentil de la normal es z0,05 = 1,645. El intervalo será:
0,635 (1 ‒ 0,635) 0,635 (1 ‒ 0,635)

�0,635 ‒ 1,645 , 0,635 + 1,645 �
115 115
Por tanto, con un 90 % de confianza se puede afirmar que la proporción de conexiones con éxito se encuen-
tra en el intervalo (0,561; 0,709).
www.udima.es 223
│ Sumario
8.2. I NTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS EN PO-

BLACIONES NO NORMALES
Si se tienen dos muestras de tamaño n1 y n2, respectivamente de sendas normales independientes

X e Y, con n1 y n2 ≥ 30, el intervalo al (1 – α) 100 % de confianza para la diferencia de medias μ1 – μ2 es:
s21 s22 s21 s22

� (X– – Y–) – zα/2 +
– –
, (X – Y ) + zα/2 + �
n1 n2 n1 n2
8.2.1. Intervalo de confianza para la diferencia de proporciones
En este caso se tienen dos muestras de tamaños n1 y n2 de dos poblaciones independientes de Ber-
noulli, es decir:
(X1, …, Xn1) m.a.s. de X ~ ℬer (p1)

(Y1, …, Yn2) m.a.s. de Y ~ ℬer (p2)
El intervalo de confianza al (1 – α) 100 % para la diferencia p1 – p2 será:
p̂1 q̂1 p̂2 q̂2 p̂1 q̂1 p̂2 q̂2

� (p̂1 – p̂2) – zα/2 + , (p̂1 – p̂2) + zα/2 + �
n1 n2 n1 n2
donde
Σ xi Σ yi
p̂1 = y p̂2 =
n1 n2
son las proporciones en cada muestra de elementos con el atributo en estudio y q̂i = 1 – p̂i, i = 1,2.
EJEMPLO 17
Se quiere comparar el sistema de acceso del ejemplo 16 con otro protocolo que proporciona 72 accesos con
éxito de un total de 100 intentos. Construir un intervalo de confianza al 98 % para la diferencia entre las pro-
porciones de acceso con éxito mediante los dos protocolos.
Las proporciones muestrales de éxitos observadas son:
73
p̂1 = = 0,635 para el protocolo I
115
72
p̂2 = = 0,72 para el protocolo II
100
.../...
224 www.udima.es
Sumario │
.../...
Como n1 y n2 ≥ 30 y z0,01 = 2,33, el intervalo de confianza queda:
(– 0,23; 0,062)
Como este intervalo contiene el valor 0, se puede concluir que ambos sistemas tienen la misma proporción
de accesos con éxito y que las diferencias muestrales se deben al azar, ya que:
p1
p1 = p2 ⇔ =1
p2
www.udima.es 225
│ Sumario

• Comprender la importancia de la estimación de parámetros en inferencia.
• Conocer las propiedades deseables en los estimadores.
• Construir estimadores mediante el método de los momentos y el de máxima verosimilitud.
• Construir intervalos de confianza para media, varianza, diferencia de medias y razón de
varianzas en poblaciones normales.
• Construir intervalos de confianza para proporciones.
Enunciado 1
De una variable aleatoria con distribución gamma, X ~ γ (λ, p) se obtiene la siguiente muestra alea-
toria simple de tamaño n = 5.
1,5; 2; 0,75; 3; 0,25
Obtener estimaciones puntuales por medio del método de los momentos de los parámetros desco-
nocidos λ y p.
Enunciado 2
El número de errores que se registran en cierto proceso en una hora sigue una distribución de Poisson
de parámetro λ desconocido. En lugar de observar el número de errores en cada hora se ha observado el
tiempo (en horas) transcurrido entre errores consecutivos.
a) ¿Cómo se puede estimar λ a partir de esas observaciones?

b) Calcular mediante el método de máxima verosimilitud, un estimador para λ acorde con las
observaciones realizadas.
c) Si los datos (en horas) obtenidos han sido:
0,3; 0,45; 0,7; 0,1; 1,2; 0,5
¿cuál es la estimación de λ?
226 www.udima.es
Sumario │
Enunciado 3
Para estudiar el desgaste que sufren sus neumáticos, los investigadores del equipo Renault de Formula 1
han medido la profundidad en milímetros del dibujo característico de los mismos tras diez sesiones de
entrenamiento en las que los neumáticos han llegado enteros. A la profundidad inicial del dibujo, que es
de 7 milímetros, se le resta la profundidad después de la prueba y se obtiene el desgaste. Los resultados
finales en milímetros han sido:
2,45; 1,48; 2,64; 3,21; 1,59; 2,00; 2,80; 3,35; 2,77; 1,89
a) Suponiendo normalidad en la distribución del desgaste, construir un intervalo de confianza

al 98 % para el desgaste medio. A la vista de dicho intervalo, ¿se puede afirmar que el des-
gaste medio en Renault es igual a 2,5 milímetros?
b) Construir un intervalo de confianza al 98 % para la varianza del desgaste.
Enunciado 4
Ante la inminente actualización de los servidores del centro de cálculo de una universidad, se estu-
dia la cantidad de megabits que utilizan los profesores y alumnos para almacenar sus correos. Para ello
se toma una muestra del espacio (en megabits) utilizado por 6 profesores y 6 alumnos, siendo los resul-
tados los indicados en la tabla 3:
Tabla 3
6
Profesores x‒ = 30,548 ∑ xi2 = 5.601,09
i=1
6
Alumnos y‒ = 29,605 ∑ yi2 = 5.271,04
i=1
Suponiendo que la cantidad de megabits usados se distribuye como una normal con desviación típica
igual en ambos colectivos (profesores y alumnos), construir un intervalo de confianza al 98 % para la
diferencia de espacio medio.
Enunciado 5
Un fabricante asegura a una compañía que le compra un producto de forma regular que el porcen-
taje de productos defectuosos no es mayor que el 5 %. La compañía decide comprobar la afirmación del
fabricante, seleccionando de su inventario 200 unidades del producto y probándolas. ¿Deberá sospechar
de la afirmación del fabricante si se descubren un total de 19 unidades defectuosas en la muestra?
www.udima.es 227
│ Sumario
Solución 1
Se obtiene: λ̂ = 1,5 y p̂ = 2,432.
Solución 2
a) El tiempo transcurrido entre errores consecutivos se distribuye como �xp (λ).

1 1
b) Se obtiene λ̂ = = – .
Σ n
i =1 Xi X
n 6
c) Sustituyendo se obtiene: λ̂ = = = 1,846.
Σ n
i =1 Xi 3,25
Solución 3
a) El intervalo de confianza al 98 % para el desgaste medio µ es (1,835; 3). Como el valor 2,5
se encuentra en el intervalo calculado, con un 98 % de confianza se puede afirmar que ese
valor es posible para el desgaste promedio.
b) El intervalo de confianza al 98 % para la varianza σ2 es (0,177; 1,836).
Solución 4
El intervalo de confianza al 98% para la diferencia de espacios medios es (– 0,965; 2,851).
Solución 5
El intervalo de confianza al 95 % para el parámetro p es (0,0941; 0,0958), por lo que el porcentaje
de defectuosos estaría entre el 9,41 % y el 9,58 %, siempre superior al 5 % que dice el fabricante.
1. Sea (X1, …, Xn) una muestra aleatoria simple de una distribución X ~ Ɓ (m, p). Obtener esti-
madores de m y p por el método de los momentos.
2. Sea (X1, …, Xn) una muestra aleatoria simple de una variable aleatoria X con función de
densidad:
ƒθ (x) = θ (1 – x)θ–1, 0 ≤ x ≤ 1, θ ≥ 1
Encontrar el estimador de máxima verosimilitud para θ.
228 www.udima.es
Sumario │
3. Se desea estimar el número de horas de uso continuo de cierto tipo de dispositivo electró-
nico. Para ello se monitorizan 10 dispositivos y se recoge el tiempo hasta que han necesi-
tado la primera reparación (en horas). Suponiendo normalidad, construir un intervalo de
confianza al 95 % para la duración media del dispositivo y para la varianza de la duración,
si los datos recogidos son:
15,8; 12,7; 13,2; 16,9; 10,6; 18,8; 11,1; 14,3; 17; 12,5
4. El número diario de piezas fabricadas por la máquina A en 5 días ha sido:
50; 48; 53; 60; 37
La máquina B en esos mismos días ha fabricado: 40; 51; 62; 55 y 64 piezas. Suponiendo
que las variables Número de piezas fabricadas por día por cada máquina siguen distri-
buciones normales, construir un intervalo de confianza al 95 % para la diferencia entre el
número medio de piezas fabricado por A y por B, suponiendo que ambas poblaciones poseen
la misma varianza. Construir también un intervalo de confianza al 95 % para la razón de
varianzas entre ambas poblaciones de piezas.
5. La industria tabacalera vigila de cerca todas las encuestas relacionadas con el hábito de
fumar. Una encuesta reveló que, de 785 individuos con estudios universitarios selecciona-
dos al azar, el 18,3 % fuma. Construir un intervalo de confianza al 99 % para el verdadero
porcentaje de fumadores entre las personas con estudios universitarios.
Básica

DEVORE, J. L.: Probabilidad y estadística para ingeniería y ciencias, 6.ª ed., México: International Thomson Editores, 2005.
En la red
Applet para que ilustra el significado de los intervalos de confianza: http://www.stat.sc.edu/~west/javahtml/Confiden-ceInter-

val.html
Applets de java para ilustrar conceptos de estadística y probabilidad: http://www.math.csusb.edu/faculty/stanton/ /probstat/
index.html
Aula virtual de bioestadística. El módulo 2 trata de intervalos de confianza: http://e-stadistica.bio.ucm.es/mod_ intervalos/inter-
valos_applet_ghost.html
WISE: Web Interface For Statistical Education: http://wise.cgu.edu/index.html
Avanzada
CUADRAS, C. M.: Problemas de probabilidades y estadística, Barcelona: Promociones y Publicaciones Universitarias, 1991
EVERITT, B. S. y DUNN, G.: Applied Multivariate Data Analysis. Londres: Arnold, 2001.
www.udima.es 229
Sumario │
9
UNIDAD
DIDÁCTICA
CONTRASTES
DE HIPÓTESIS
1. Ejemplo inicial de motivación

2. Conceptos básicos
2.1. Tipos de hipótesis estadísticas

2.2. Tipos de errores
2.3. Etapas de un contraste
2.3.1. Formulación de las hipótesis

2.3.2. Definición de la medida de discrepancia
2.3.3. Determinación de la región de rechazo
2.3.4. Cálculo de d̂ y toma de la decisión
3. Región de rechazo
3.1. Nivel de significación

3.2. Nivel crítico o p-valor
4. Contrastes de hipótesis para parámetros de una distribución normal

4.1. Contraste de hipótesis para la media
4.2. Contraste de hipótesis para la varianza
4.3. Contraste para igualdad de varianzas
4.4. Contraste para igualdad de medias
5. Contraste para proporciones

5.1. Contraste para una proporción
5.2. Contraste para comparación de proporciones
6. Relación entre intervalos de confianza y contrastes de hipótesis paramétricos
www.udima.es 231
│ Sumario
7. Contrastes de hipótesis no paramétricos

7.1. Contraste χ2 de Pearson
7.1.1. Caso discreto
7.1.2. Caso continuo
7.2. Contraste de Kolmogorov-Smirnov
Apéndice. Valores críticos de d en el contraste de Kolmogorov-Smirnov

232 www.udima.es
Sumario │
M.ª I. Rodríguez Galiano Contrastes de hipótesis
En esta unidad didáctica se introducen los contrastes de hipótesis, una herramienta que, en inferencia,
permite determinar con qué grado de certeza apoya, la información contenida en la muestra, una deter-
minada hipótesis que se formula sobre los parámetros o sobre toda la distribución de la población de la
que se obtuvo la muestra. Se estudiarán dos tipos de contrastes: los paramétricos y los no paramétricos.
En los primeros, la hipótesis afecta a los parámetros de una distribución conocida y están íntimamente
ligados a los intervalos de confianza que se estudiaron en la unidad didáctica anterior. En los segundos,
la hipótesis se hace sobre la forma de la distribución de la que proceden los datos.
• Manejar la terminología básica del contraste de hipótesis.

• Conocer la utilidad de los contrastes paramétricos para simplificar un modelo.
• Formular y resolver contrastes paramétricos en los diferentes casos y entender su relación
con los intervalos de confianza.
• Formular y resolver contrastes de bondad de ajuste.
www.udima.es 233
│ Sumario
1. EJEMPLO INICIAL DE MOTIVACIÓN
El departamento de programación de una empresa lleva mucho tiempo construyendo un software

muy complicado. Durante su desarrollo, el director ha observado que el tiempo de compilación y montaje
de los distintos módulos sigue una distribución N (5; 0,1). Le ofrecen una herramienta que aceleraría este
tiempo, pero como es muy cara, antes de decidir comprarla o no, pide una versión de evaluación y recoge
los tiempos de compilación de seis módulos genéricos con la nueva herramienta, obteniendo los datos:
4,71; 4,82; 5,01; 4,75; 4,82 y 4,95
Con ellos tiene que decidir si existe evidencia para suponer que la nueva herramienta altera el tiempo
medio de compilación.
Se hace la hipótesis de que el tiempo de compilación no se ve alterado y, por tanto, la muestra de

seis datos procede de una normal con μ = 5. Si no se altera el tiempo de compilación, los seis datos reco-
gidos provienen de una N (5; 0,1), con lo que:
–
– 0,1 X –5
X ~ N �5; � y ~ N (0, 1)
√6 0,1
√6
y, por ejemplo:
–
X –5
P – 1,96 ≤ ≤ 1,96 = 0,95
� 0,1 �
√6
–
y, despejando X :
–
P (4,9216 ≤ X ≤ 5,0784) = 0,95
–
Según lo anterior, con una confianza del 95%, X se encuentra en el intervalo (4,9216; 5,0784). Pero
– –
la X de los datos recogidos no pertenece a ese intervalo (X = 4,84), con lo que ese valor de la media es
poco probable si no se ha alterado el tiempo de compilación y la muestra proviene de una N (5; 0,1). Por
lo tanto, se podría concluir que el tiempo de compilación sí se ha visto alterado.
2. CONCEPTOS BÁSICOS
2.1. TIPOS DE HIPÓTESIS ESTADÍSTICAS
Una hipótesis estadística es una suposición que determina total o parcialmente la distribución de
una o varias variables aleatorias. Se clasifican en:
234 www.udima.es
Sumario │
• Hipótesis nula. Se denota como H0 y representa la hipótesis que se contrasta, es decir,

la que se mantendrá como verdadera a no ser que los datos muestrales den indicios de su
falsedad.
• Hipótesis alternativa. Se denota como H1 y representa la hipótesis que se aceptaría si se
rechazara la hipótesis nula. Suele consistir en la negación de H0.
Además, si en el contraste se hace una conjetura sobre el valor de un parámetro, la hipótesis puede ser:
• Hipótesis simple. Aquella que especifica un solo valor para el parámetro que se contrasta.
Por ejemplo, θ = θ0.
Aunque los datos pueden hacer no rechazar H0, esta nunca se puede considerar probada o
demostrada, pues se tendrían que estudiar todos los elementos de la población. Así, no se
dirá «se acepta H0» sino «no se tiene evidencia suficiente para rechazar H0».
• Hipótesis compuesta. Aquella que especifica un conjunto de valores posibles para el pa-
rámetro que se contrasta. Por ejemplo, θ ≥ θ0, a ≤ θ ≤ b.
Si H0 es simple, es decir, del tipo θ = θ0, los casos más importantes para la hipótesis alternativa son:
• H1: θ ≠ θ0, el contraste se llama bilateral y se utiliza si no se sabe en qué dirección puede
ser falsa H0.
• H1: θ > θ0 o H1: θ < θ0; el contraste se llama unilateral.
Al incluir H1 en el contraste, más que probar H0, lo que se hace es elegir cuál es la hipótesis que más
se ve apoyada por la información muestral.
2.2. TIPOS DE ERRORES
Al decidir rechazar H0 o no rechazarla, se pueden cometer dos tipos de errores:
• Error de tipo I. Se comete cuando se rechaza H0 siendo esta cierta. La probabilidad de

cometer este error se denomina α y es el nivel de significación.
α = P (rechazar H0 | H0 es cierta) = P (cometer error tipo I)
• Error de tipo II. Se comete cuando, siendo falsa H0, no se rechaza. La probabilidad de
cometer error de tipo II es:
β = P (no rechazar H0 | H0 es falsa) = P (cometer error tipo II)
Lo ideal sería diseñar contrastes que minimizaran a la vez ambos errores, pero esto no es posible
dado que uno aumenta cuando el otro disminuye. La única forma de disminuir los dos a la vez es aumen-
tando el tamaño muestral.
En ocasiones se considera más grave el error de tipo I. Entonces se selecciona con antelación la
máxima probabilidad α que puede permitirse de cometer este error y se diseña el contraste que minimiza,
para ese α, la probabilidad de cometer error de tipo II.
www.udima.es 235
│ Sumario
El significado de cada decisión y de su error asociado puede verse en la figura 1, en la que se uti-
liza el símil del juicio de un criminal. En general, se considera más grave encerrar a un inocente (error
de tipo I) que liberar a un culpable (error de tipo II).
Figura 1. Decisiones y errores asociados a un contraste de hipótesis
Juicio de un criminal Decisión del tribunal

La realidad Soltarlo Encerrarlo
Inocente Decisión correcta Error tipo I
Culpable Error tipo II Decisión correcta
H0 = Es inocente
H1 = No es inocente
2.3. ETAPAS DE UN CONTRASTE
Los pasos que hay que seguir en la realización de un contraste, particularizando en contrastes para-
métricos, son los siguientes:
2.3.1. Formulación de las hipótesis
Hay que definir H0, la hipótesis a contrastar, y la hipótesis alternativa H1. En general, se formulará
H0 como hipótesis simple, del tipo θ = θ0. La hipótesis alternativa H1 será compuesta, del tipo θ ≠ θ0 en
un contraste bilateral, o bien θ > θ0 o θ < θ0 en contrastes unilaterales.
2.3.2. Definición de la medida de discrepancia
Definir una medida de discrepancia, d (θ̂, θ0), entre el valor del parámetro propuesto por H0, es decir,
θ0 y el estimador de ese parámetro obtenido a partir de la muestra, θ̂. Esta medida, que es una variable
aleatoria, debe tener distribución conocida en el caso de que H0 fuera cierta.
• Si el valor concreto d̂ tiene una probabilidad pequeña de ocurrir cuando H0 es cierta, los
datos muestrales no apoyan la hipótesis nula y esta será rechazada.
• Si el valor concreto d̂ tiene una probabilidad alta de ocurrir cuando H0 es cierta, los datos
muestrales apoyan la hipótesis nula y esta no será rechazada.
En general y mientras no se diga lo contrario, las medidas de discrepancia que se utilizarán serán las
variables pivote de la unidad didáctica anterior, en las que se sustituye el parámetro genérico de interés
θ (μ, σ2, μ1 – μ2, etc.) por el valor concreto θ0 propuesto por H0. Así, si H0 es cierta, la medida d tendrá
una distribución conocida. Solo faltará determinar los valores de d que llevarán a rechazar H0.
236 www.udima.es
Sumario │
2.3.3. Determinación de la región de rechazo
La región de rechazo o región crítica se define como el conjunto de valores de la medida de discre-
pancia d que llevan a rechazar la hipótesis nula H0.
Se fija α, el nivel de significación del contraste o probabilidad de cometer un error de tipo I. De

nuevo, igual que en la confianza de los intervalos definida en la unidad didáctica anterior, se tomarán
valores pequeños, típicamente 0,05; 0,01; 0,001, etc. Con esta determinación se están fijando los valores
frontera de la distribución de d (θ̂, θ0) a partir de los que se determinará si el valor de la medida de dis-
crepancia apoya o no la veracidad de H0.
2.3.4. Cálculo de d̂ y toma de la decisión
A continuación se calcula el valor concreto d̂ (θ̂, θ0) a partir de los datos muestrales y se toma la
decisión correspondiente.
3. REGIÓN DE RECHAZO
3.1. NIVEL DE SIGNIFICACIÓN
El nivel de significación α sirve para definir la región de rechazo, es decir, el conjunto de valores
de la medida de discrepancia que llevarán a rechazar H0.
Fijado α, la región de rechazo se determina a partir de la distribución de la medida d, en el supuesto

de que H0 sea cierta.
• Caso 1. Contraste unilateral por la derecha.
H0: θ = θ0
{ H1: θ > θ0
Se elige un dc de forma que P (d > dc | H0 cierta) = α. La región de rechazo será d > dc y no

se rechazará H0 si d ≤ dc .
• Caso 2. Contraste unilateral por la izquierda.
H0: θ = θ0
{ H1: θ < θ0
Se elige un dc de forma que P (d < dc | H0 cierta) = α. La región de rechazo será d < dc y no

se rechazará H0 si d ≥ dc .
• Caso 3. Contraste bilateral.
H0: θ = θ0
{ H1: θ ≠ θ0
www.udima.es 237
│ Sumario
Se eligen un dc1 y dc2, de forma que P (d < dc1, d > dc2 |H0 cierta) = α. La región de rechazo es
d < dc1, d > dc2 y la de no rechazo dc1 ≤ d ≤ dc2. Si la distribución de d es simétrica, esto equi-
vale a elegir un dc , de forma que P (|d| > dc |H0 cierta) = α y la región de rechazo es |d| > dc
y la de no rechazo – dc ≤ d ≤ dc.
El uso del nivel de significación α tiene algunos inconvenientes:
• El resultado del contraste depende del valor de α. Puede que para unos valores se rechace
H0 y para otros no.
• El nivel de significación no indica con qué evidencia se rechaza H0.
3.2. NIVEL CRÍTICO O p-VALOR
Otra forma de tomar la decisión final, que no depende del valor de α fijado de antemano, es el p-valor.
Se define como la probabilidad de observar una divergencia peor o igual que la observada cuando H0
sea cierta, entendiéndose por peor que rechace la hipótesis nula con más evidencia. El p-valor se calcula
a partir del valor de d̂ y de la distribución de la medida de discrepancia, teniendo en cuenta también la
forma de la hipótesis alternativa.
• Caso 1. Contraste unilateral por la derecha.
H0: θ = θ0
{ H1: θ > θ0
El p-valor es p = P (d ≥ d̂ | H0 cierta).
• Caso 2. Contraste unilateral por la izquierda. Egon S. Pearson (1895-1980). Fue hijo de
Karl Pearson y también un brillante estadís-
H0: θ = θ0
{
tico inglés.
Junto con Neyman es el creador de la teoría
H1: θ < θ0 de contrastes de hipótesis.
Desarrolló teorías relacionadas con la teoría y
técnicas estadísticas, investigación operativa
El p-valor es p = P (d ≤ d̂ | H0 cierta). y la enseñanza de la estadística.
Fue miembro fundador del Club Británico de
• Caso 3. Contraste bilateral. Investigación Operativa en 1948.
Contribuyó en los progresos modernos de la
H0: θ = θ0
{ H1: θ ≠ θ0
estadística y fue un gran profesor.
Siempre que la distribución de d sea simétrica, el p-valor es p = P (|d | ≥ | d̂ | | H0 cierta).
Cuanto menor sea el p-valor, menor será la probabilidad de obtener una discrepancia como la obser-
vada y menor la credibilidad de H0. Se seguirá el siguiente criterio:
• Si p > 0,2, se dirá que no existe evidencia muestral para rechazar H0.
• Si 0,01 ≤ p ≤ 0,2, se dirá que el p-valor está en la región de duda. Se puede tomar un tamaño
muestral mayor para tener mayor evidencia al tomar la decisión o bien tomar la decisión
con esa muestra dependiendo de las consecuencias prácticas de la misma.
• Si p ≤ 0,1, se rechaza H0.
238 www.udima.es
Sumario │
4. C
ONTRASTES DE HIPÓTESIS PARA PARÁMETROS DE UNA DISTRIBUCIÓN
NORMAL
Se supone que se tiene una muestra aleatoria simple X1, …, Xn procedente de una distribución
normal. Se desea contrastar si el valor del parámetro media o varianza es el propuesto por la hipó-
tesis nula.
4.1. CONTRASTE DE HIPÓTESIS PARA LA MEDIA
Las hipótesis en este caso son:
H 0: μ = μ 0
{ H1: μ ≠ μ0
La medida de discrepancia, con distribución tn–1 bajo H0, es:

–
– X – μ0
d (μ0, X ) = ~ tn–1
s
√n
Fijado α, la región de no rechazo es (– tn–1,α/2; tn–1,α/2). El p-valor es, siendo d̂ el valor concreto que
resulta al sustituir en la fórmula anterior la media muestral y la cuasivarianza de los datos:
p-valor = P (|d| ≥ | d̂ | | d ~ tn–1) = 2 P (d ≥ | d̂ | | d ~ tn–1)
En el contraste unilateral por la derecha, con H1: μ > μ0, la región de no rechazo de H0 es (– ∞, tn–1,α)
y el p-valor es:
p-valor = P (d ≥ d̂ | d ~ tn–1)
Observación 1. Si σ fuera conocida, se utiliza como medida de discrepancia:

–
X – μ0
d= ~ N (0,1) bajo H0
σ
√n
y no se rechaza H0 si d̂ ∈ (– zα/2, zα/2) en el contraste bilateral.
Observación 2. Para poblaciones no normales, con tamaños muestrales n ≥ 30, se usa el teorema
central del límite. En contrastes bilaterales, no se rechaza H0 si:
–x – μ
0
d̂ = ∈ (– zα/2, zα/2)
s
√n
www.udima.es 239
│ Sumario
EJEMPLO 1
Un virus se clasifica como agresivo si su tiempo medio de latencia es menor de 6 días. Se ha recogido una
muestra del tiempo de latencia de un virus en 9 ocasiones. Si se supone que la distribución de este tiempo es
normal, ¿se puede decir que es un virus agresivo? Utilizar un nivel de significación del 5 %.
6,64; 1,82; 3,2; 3,68; 3,66; 3,24; 7,48; 3,35; 5,67
Se debe realizar el contraste:
H0: μ = 6
{ H1: μ < 6
Primero se hacen algunos cálculos:
Σni=1 xi 37,7869 Σni=1 x2i ‒ nx‒2

x‒ = = = 4,304; s2 = = 3,46; s = 1,8601
n 9 n‒1
Se calcula el valor de d:
x‒ – μ0 4,304 ‒ 6
d̂ = = = ‒ 2,7354
s 1,8601
√n √9
Como α = 0,05 y el contraste es unilateral por la izquierda, para calcular la región de rechazo se necesita el
punto ‒ t8,0,05 = ‒ 1,86. Esta región es (‒ ∞; ‒ 1,86). Como d̂ pertenece a este intervalo, con un nivel de signifi-
cación del 5 %, se rechaza la hipótesis nula y puede clasificarse el virus como agresivo. El p-valor es:
p-valor = P (t8 ≤ ‒ 2,7354) = 0,0128
que se sitúa en la región de duda, muy cercano a la región de rechazo.
4.2. CONTRASTE DE HIPÓTESIS PARA LA VARIANZA
Las hipótesis en este caso son:
H0: σ2 = σ20
{ H1: σ2 ≠ σ20
La medida de discrepancia, que tiene distribución χ2n–1 bajo H0 es:
(n – 1) S2
d= ~ χ2n–1
σ20
Fijado α, la región de no rechazo es (χ2n–1,1–α/2; χ2n–1, α/2).
240 www.udima.es
Sumario │
Observación 3. En el caso de un contraste unilateral por la derecha, con H1: σ2 > σ20, la región de
rechazo sería (χ2n–1,α; ∞) y el p-valor:
p-valor = P (d ≥ d̂| d ~ χ2n–1)
es decir, el área a la derecha de d̂ bajo la distribución χ2 correspondiente.
Observación 4. En el caso de un contraste unilateral por la izquierda, con H1: σ2 < σ20, la región de
rechazo sería (0; χ2n–1,1–α) y el p-valor:
p-valor = P (d ≤ d̂| d ~ χ2n–1)
es decir, el área a la izquierda de d̂ bajo la distribución χ2 correspondiente.
EJEMPLO 2
Continuando con el ejemplo 1, si la varianza del tiempo de latencia es igual a 1,7, el virus se califica como agre-
sivo de nivel II. ¿Pertenece el virus del ejemplo 1 a esta categoría? Utilizar un nivel de significación del 5 %.
Se pide realizar el contraste:
H0: σ2 = 1,7
{ H1: σ2 ≠ 1,7
Se calcula el valor de la medida de discrepancia:
(n – 1) s2 8 ∙ (3,46)
d̂ = = = 16,28
σ 20 1,7
Para calcular la región de no rechazo, como α = 0,05, se necesitan los puntos:
χ28,0,025 = 17,735 χ28,0,975 = 2,18
Como d̂ ∈ (2,18; 17,735), no se rechaza la hipótesis nula con un nivel de significación de 0,05.
4.3. CONTRASTE PARA IGUALDAD DE VARIANZAS
En este caso, se tienen sendas muestras de dos variables aleatorias normales e independientes. La
primera muestra es de tamaño n1 y la segunda de tamaño n2. Se quiere contrastar la hipótesis de que las
varianzas de ambas poblaciones son iguales, es decir:
σ21
{ H0: σ21 = σ22

H1: σ21 ≠ σ22
≡
{ H0:
H0:
σ22
σ21
σ22
=1
≠1
www.udima.es 241
│ Sumario
La medida de discrepancia en este caso, con distribución F de Snedecor, es:
s22
d= ~ Fn2–1,n1–1
s21
Fijado α, la región de no rechazo es (Fn2–1,n1–1,1–α/2; Fn2–1,n1–1,α/2).
Observación 5. Si la hipótesis alternativa fuera H1: σ12 > σ22 , la región de rechazo sería (Fn2–1,n1–1,α; ∞)
y el p-valor:
p-valor = P (d ≥ d̂ | d ~ Fn2–1,n1–1)
es decir, el área a la derecha del valor d̂ bajo la distribución F-Snedecor correspondiente.
Con esta misma región de rechazo, es frecuente usar el test con hipótesis:
H0: σ 12 ≤ σ 22
{ H1: σ 12 > σ 22
Observación 6. Si la hipótesis alternativa fuera H1: σ12 < σ22 , la región de rechazo sería (0; Fn2–1,n1–1,1–α)
y el p-valor:
p-valor = P (d ≤ d̂ | d ~ Fn2–1,n1–1)
es decir, el área a la izquierda del valor d̂ bajo la distribución F-Snedecor correspondiente.
EJEMPLO 3
Se tienen datos sobre el contenido de nicotina (en miligramos) en cigarrillos largos con y sin filtro. Supo-
niendo que la variable contenido de nicotina sigue una distribución normal en ambas clases de cigarrillos,
contrastar la hipótesis de que las varianzas para ambos son iguales con un nivel de significación de α = 0,1.
Los datos se muestran en la tabla 1:
Tabla 1
Con filtro ............................. 1,2 1,3 1,1 1,1 1 0,9 0,8 0,7
Sin filtro ............................... 1,6 1,5 1,6 1,8 1,7 1,7 1,5
Se debe realizar el contraste:
H0: σ21 = σ22

{ H1: σ21 ≠ σ22
.../...
242 www.udima.es
Sumario │
.../...
Con los datos se calculan las siguientes características muestrales:
x‒ = 1,0125; ‒y = 1,62857; s21 = 0,04125; s22 = 0,0125
Se calcula el valor de la medida de discrepancia:
s22
d̂ = = 0,303
s21
que, bajo H0, sigue una distribución F6,7. Como α = 0,1, la región de rechazo es (F6;7;0,95; F6;7;0,05), es decir,
1 1
F6;7;0,95 = = = 0,237; F6;7;0,05 = 3,866
F7;6;0,05 4,207
Como d̂ ∈ (0,237; 3,866), no se rechaza la hipótesis de igualdad de varianzas para α = 0,1.
4.4. CONTRASTE PARA IGUALDAD DE MEDIAS
En este caso se tienen sendas muestras de dos variables aleatorias normales e independientes. La
primera muestra es de tamaño n1 y la segunda de tamaño n2. Se quiere contrastar la hipótesis de que las
medias de ambas poblaciones son iguales, es decir:
H0: μ1 = μ2 H0: μ1 ‒ μ2 = 0
{ H1: μ1 ≠ μ2
≡
{ H 1: μ 1 ‒ μ 2 ≠ 0
La medida de discrepancia, suponiendo varianzas desconocidas pero iguales, que bajo H0 sigue una
distribución tn1+n2‒2, es:
– –
(X – Y )
d= ~ tn1+n2–2
1 1
sp +
n1 n2
Fijado α, la región de no rechazo es (– tn1+n2–2,α/2; tn1+n2–2,α/2). El p-valor sería:
p-valor = 2 ∙ P (d ≥ d̂ | d ~ tn1+n2–2)
Observación 7. Si la hipótesis alternativa fuera H1: μ1 > μ2, la región de rechazo sería (tn1+n2–2,α; ∞).
El p-valor, en este caso, sería:
p-valor = P (d ≥ d̂ | d ~ tn1+n2–2)
es decir, el área situada a la derecha de d̂ bajo la distribución t correspondiente.
www.udima.es 243
│ Sumario
Observación 8. Si la hipótesis alternativa fuera H1: μ1 < μ2, la región de rechazo sería (– ∞; – tn1+n2–2,α).
El p-valor, en este caso, sería:
p-valor = P (d ≤ d̂ |d ~ tn1+n2–2)
es decir, el área situada a la izquierda de d̂ bajo la distribución t correspondiente.
Observación 9. Si las varianzas poblacionales no pudieran considerarse iguales, se utiliza la medida

de discrepancia:
– –
(X – Y )
d= ~ tn1+n2–2–∆ bajo H0
s 21 s 22
+
n1 n2
Se recuerda la definición de ∆ (unidad didáctica 8). Es el número entero más próximo a:
[(n2 – 1) A – (n1 – 1) B]2

∆=
(n2 – 1) A2 + (n1 – 1) B2
s21 s22
con A = yB= .
n1 n2
EJEMPLO 4
Con los datos del ejemplo 3 contrastar la hipótesis de igualdad de contenido medio en nicotina en ambos
tipos de cigarrillos, con un nivel de significación del 5 %.
Realizando cálculos se tiene:
s2p = 0,02798; sp = 0,167 y d̂ = ‒ 7,134
La región de no rechazo es (‒t13;0,025; t13;0,025) = (‒2,16; 2,16). Como d̂ no se encuentra en ella, se rechaza la
hipótesis nula con un nivel de significación del 5 %.
5. CONTRASTE PARA PROPORCIONES
5.1. CONTRASTE PARA UNA PROPORCIÓN
En este caso se trata de contrastar la hipótesis de que la proporción de sujetos con una determinada
característica en la población es igual al valor p0. Las hipótesis serían:
H0: p = p0
{ H 1: p ≠ p 0
244 www.udima.es
Sumario │
Para n grande, suponiendo cierta H0, se utiliza la medida de discrepancia:
p̂ – p0
d= ~ N (0, 1)
p0 (1 – p0)
n
No se rechaza H0 si d̂ ∈(– zα/2, zα/2). El p-valor será:
p-valor = 2 ∙ P (d ≥ d̂ |d ~ N (0, 1)
Observación 10. Si la hipótesis alternativa fuera H1: p > p0, la región de rechazo sería (zα, ∞) y
el p-valor:
p-valor = P (d ≥ d̂ |d ~ N (0, 1))
Observación 11. Si la hipótesis alternativa fuera H1: p < p0, la región de rechazo sería (– ∞; zα) y
el p-valor:
p-valor = P (d ≤ d̂ |d ~ N (0, 1))
EJEMPLO 5
En un estudio sobre la eficacia de los airbags, la Asociación Española de Fabricantes de Automóviles ana-
lizó 821 choques de automóviles medianos equipados con ellos. De estos choques, en 46 casos los conducto-
res necesitaron hospitalización. Contrastar si la proporción de conductores que necesitaron hospitalización
puede considerarse igual a 0,07. Utilizar un α = 0,01.
De los datos muestrales se obtiene que:
46
p̂ = x‒ = = 0,056029
821
Se debe resolver el contraste:
H0: p = 0,07
{ H1: p ≠ 0,07
Se obtiene:
0,056029 ‒ 0,07
d̂ = = 1,56
0,07 * 0,93
821
La región de no rechazo es (‒z0,005; z0,005) = (‒ 2,575; 2,575). Como d̂ pertenece a ella, no se rechaza la hipóte-
sis nula con un nivel de significación del 1 %.
www.udima.es 245
│ Sumario
5.2. CONTRASTE PARA COMPARACIÓN DE PROPORCIONES
En este caso, las muestras provienen de dos poblaciones de Bernoulli independientes:
(X1, …, Xn1) m.a.s. de X ~ ℬer (p1)

(Y1, …, Yn2) m.a.s. de Y ~ ℬer (p2)
Se quiere contrastar si las proporciones p1 y p2 pueden considerarse iguales, es decir:
H0: p1 = p2 H0: p1 ‒ p2 = 0
{ H1: p1 ≠ p2
≡
{ H1: p1 ‒ p2 ≠ 0
Si los tamaños muestrales son grandes, se utiliza como medida de discrepancia:
p̂1 – p̂2
d= ~ N (0, 1)
p̂0 q̂0 p̂0 q̂0
+
n1 n2
que, bajo H0, tiene la distribución señalada. El estimador p̂0 es una media ponderada de las correspon-
dientes proporciones muestrales p̂1 y p̂2:
n1 p̂1 + n2 p̂2
p̂0 =
n1 + n2
Fijado α, la región de no rechazo es (‒ zα/2, zα/2). El p-valor será:
p-valor = 2 ∙ P (d ≥ d̂ | d ~ N (0, 1))
Observación 12. Si la hipótesis alternativa fuera H1: p1 > p2, la región de rechazo sería (zα, ∞) y
el p-valor:
p-valor = P (d ≥ d̂ |d ~ N (0, 1))
Observación 13. Si la hipótesis alternativa fuera H1: p1 < p2, la región de rechazo sería (– ∞; – zα)
y el p-valor:
p-valor = P (d ≤ d̂ | d ~ N (0, 1))
EJEMPLO 6
La proporción de unidades defectuosas en un lote de n1 = 100 unidades del proveedor A es 0,04, mientras
que en un lote del proveedor B de n2 = 150 unidades esa proporción es de 0,07. ¿Hay evidencia suficiente
para admitir diferencias entre los proveedores?
.../...
246 www.udima.es
Sumario │
.../...
Se obtiene:
100 * 0,04 + 150 * 0,07

p̂0 = = 0,058 y d̂ = ‒ 0,99
100 + 150
El nivel crítico o p-valor es:
p-valor = 2 · P (|d | ≥ d̂|d ~ N (0, 1)) = 2 · 0,1611 = 0,322
y, al ser mayor que 0,2; no se rechaza la hipótesis de igualdad de los proveedores.
6. R
ELACIÓN ENTRE INTERVALOS DE CONFIANZA Y CONTRASTES DE
HIPÓTESIS PARAMÉTRICOS
En un contraste bilateral con nivel de significación α, no se rechaza la hipótesis nula H0: θ = θ0 ⇔ el

IC al (1 – α) 100 % para θ contiene el valor propuesto por la hipótesis nula θ0.
Por ejemplo, para la media μ en una distribución normal con varianza σ2 desconocida se tiene (véase
tabla 2):
Tabla 2. Relación entre IC y CH
Intervalo de confianza Contraste de hipótesis bilateral

al (1 ‒ α) 100 % con nivel de significación α
μ está en el IC si: No se rechaza H0 si:
‒ S ‒ S
|X ‒ μ| ≤ tn‒1,α/2 |X ‒ μ 0 | ≤ tn‒1,α/2
√n √n
Fijado α, el intervalo al (1 – α) 100 % de confianza da el intervalo de valores para θ0 que no recha-

zan la H0 en un contraste bilateral.
EJEMPLO 7
En el ejemplo 1 del virus, el intervalo de confianza al 95 % para el tiempo medio de latencia es:
‒ s ‒ s
�X ‒ tn‒1,α/2 , X + tn‒1,α/2 � = (2,87; 5,73)
√n √n
Por tanto, ese es el conjunto de valores para el parámetro μ que no rechazan la H0 para un nivel de signifi-
cación del 5 %. Por ello, como el valor 6 no se encuentra dentro de este intervalo de confianza, se rechaza la
hipótesis nula en un contraste bilateral con ese nivel de significación.
www.udima.es 247
│ Sumario
7. CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS
Hasta ahora se ha supuesto que la forma de la distribución de la población era conocida salvo pará-
metros. Con los contrastes no paramétricos se puede contrastar:
• Si una distribución propuesta es consistente con los datos, es decir, comprobar si los datos
proceden de una distribución dada. Esto se denomina efectuar un contraste de la bondad del
ajuste. Se estudiarán dos:
− Contraste χ2 de Pearson. Para variables aleatorias discretas y continuas.

− Contraste de Kolmogorov-Smirnov. Solo para variables aleatorias continuas.
• Si las observaciones son independientes: contrastes basados en rachas y basados en el coefi-

ciente de autocorrelación (el más utilizado es el de Ljung-Box).
• Si la muestra es homogénea, es decir, todas las observaciones proceden de la misma pobla-
ción: contraste de Wilcoxon, análisis de tablas de contingencia, estudio de datos atípicos, etc.
7.1. CONTRASTE χ2 DE PEARSON
La idea es comparar las frecuencias observadas en la muestra con las esperadas si H0 es cierta, a
partir del modelo teórico que se contrasta (obtenido si H0 es cierta). Se rechaza H0 si existe una diferen-
cia suficiente entre ambos conjuntos de frecuencias.
La hipótesis nula es del estilo:
H0: los datos vienen de un determinado modelo,
con dos variantes:
• H0 especifica totalmente la distribución. Ejemplo: H0: X ~ N (3, 2).

• H0 no especifica totalmente la distribución. Ejemplo: H0: X ~ N (μ, 2).
La hipótesis alternativa no está determinada de forma explícita en muchos casos. Suele consistir en
la negación de la hipótesis nula.
7.1.1. Caso discreto
Supóngase que la variable de estudio X es discreta y puede tomar los k valores x1, …, xk . Se toma
una muestra aleatoria simple de n elementos (n > k). Se quiere contrastar si esta muestra tiene la distri-
bución de la variable aleatoria de partida.
Se consideran las frecuencias absolutas observadas de cada valor de la muestra O1, …, Ok, tales
que Σi=1 Oi = n. Sean p1, …, pk las probabilidades teóricas de x1, …, xk , respectivamente, que asigna el
k
modelo teórico Σi=1 pi = 1. Sean E1 = np1, …, Ek = npk , las frecuencias esperadas (o teóricas) de acuerdo
k
con el modelo teórico.
248 www.udima.es
Sumario │
La variable aleatoria:
k (Oi – Ei) 2
D2 = Σ
i=1 Ei
se distribuye cuando el modelo es correcto, según una χ2. Sus grados de libertad son:
• k – 1, si el modelo especifica completamente las pi antes de tomar la muestra, es decir, que

no hay que estimar ningún parámetro.
• k – r – 1, si las pi se han calculado una vez que se han estimado r parámetros del modelo
por el método de máxima verosimilitud.
Fijado α, se rechaza H0 cuando:
D̂ 2 > χ2k–r–1,α
Observaciones:
• Para que el test funcione correctamente es necesario que se cumpla: n ≥ 30, Ei ≥ 5 ∀ i, k ≥ 5,

Oi ≥ 3 ∀ i.
(Oi – Ei) 2
• Conviene calcular por separado los términos para ver si hay alguno que influye más
que los otros en el rechazo de la hipótesis. Ei
• Realmente el test no contrasta qué distribución propiamente dicha siguen los datos, sino las
probabilidades que se asocian a cada intervalo. Por ello se recomienda k ≥ 5.
• Para muestras muy grandes se rechaza casi siempre la hipótesis.
EJEMPLO 8
Cierto tipo de linterna se vende con las cuatro pilas incluidas. De una muestra de 150 linternas se determinó
el número de pilas defectuosas en cada una, obteniendo los resultados de la tabla 3:
Tabla 3
Número pilas defectuosas ............................ 0 1 2 3 4
Frecuencia ....................................................... 39 61 34 13 3
Contrastar si el número de pilas defectuosas de una linterna seleccionada al azar sigue una distribución bino-
mial, con un nivel de significación del 5 %.
Sea la variable aleatoria X = Número de pilas defectuosas entre las cuatro pilas de una linterna. Se debe contras-
tar la hipótesis nula:
H0: X ~ Bin (4, p)
.../...
www.udima.es 249
│ Sumario
.../...
La probabilidad p de pila defectuosa se debe estimar utilizando los datos muestrales. El estimador de máxima
verosimilitud de p es:
Σni=1 xi (0 · 39) + (1 · 61) + (2 · 34) + (3 · 13) + (4 · 3)

p̂ = = = 0,3
4n 4 · 150
Así:
4
P (X = x) = � � (0,3)x (1 ‒ 0,3)4‒x x = 0, 1, 2, 3, 4
x
Debe utilizarse el contraste de la χ2 de Pearson. Se construye la tabla 4:
Tabla 4. Tabla para el contraste
(Oi – Ei) 2
xi Oi pi Ei = 150 pi
Ei
0 39 0,2401 36,015 0,2474

1 61 0,4116 61,74 0,008869
2 34 0,2646 39,69 0,815724
3 13 0,0756 11,34 0,242998
4 3 0,0081 1,215 2,6224
Se ve que la última clase tiene un valor para la frecuencia esperada inferior a 5, con lo que debe juntarse con
la clase anterior. Sin embargo, si se hace tal agrupación quedarían solo 4 clases. Como no es posible cumplir
todas las reglas, el resultado del test no va a ser muy fiable.
(Oi ‒ Ei)2
D̂ 2 = Σ n
i=1 = 3,93739
Ei
Si H0 es cierta, D̂ 2 ~ χ2k‒r‒1=5‒1‒1=3.
Como D̂ 2 = 3,93739 < χ23;0,05 = 7,815, no existe evidencia suficiente para rechazar H0.
Observación. Si se agrupan las dos últimas clases (valores 3 y 4), D̂2 = 2,017273 que es menor que χ23;0,05 = 5,991
se llega a la misma conclusión.
7.1.2. Caso continuo
Para una variable aleatoria continua se agrupan los n datos en k clases (k ≥ 5), de forma que se cubra
todo el recorrido de la variable.
Se tienen O1, …, Ok frecuencias observadas de cada clase (el número de datos muestrales en cada
una). Conviene tener aproximadamente el mismo número de datos en cada clase y al menos 3 en cada una.
Se calculan las probabilidades p1, …, pk que asigna el modelo teórico a cada clase �Σki=1 pi� y las
frecuencias esperadas E1, …, Ek (Ei = npi). Si algún Ei < 5, se agrupan 2 clases contiguas en una, dismi-
nuyendo en 1 el número de clases, y por tanto los grados de libertad.
250 www.udima.es
Sumario │
Fijado α, se rechaza H0 si:
D̂ 2 > χ2k–r–1,α
EJEMPLO 9
En una inspección a una empresa se ha recogido una muestra de 200 facturas. La tabla 5 recoge la informa-
ción obtenida sobre el importe pagado en cada factura (en euros), siendo la media muestral 90 euros y la
desviación típica muestral 8 euros.
Tabla 5
Importe ........................................... [69; 75) [75; 81) [81; 87) [87; 93) [93; 99) [99; 105] > 105
Frecuencia observada ................ 4 26 42 69 36 12 11
Contrastar la hipótesis de que los datos proceden de una distribución normal.

La hipótesis nula a contrastar es H0: X ~ N (90; 8), siendo X = Importe pagado en cada factura.
Se construye la tabla 6:
Tabla 6
(Oi – Ei) 2
Clase i Oi pi Ei = npi
Ei
≤ 75 4 0,0304 6,08 0,7116

(75; 81] 26 0,0999 19,98 1,8138
(81; 87] 42 0,2236 44,72 0,1654
(87; 93] 69 0,2922 58,44 1,9082
(93; 99] 36 0,2236 44,72 1,7003
(99; 105] 12 0,0999 19,98 3,1872
≥ 105 11 0,0304 6,08 3,9813
Total N = 200 1 13,4679
Para el cálculo de las probabilidades se ha utilizado la tabla de la función de distribución de la N (0, 1).
Si Z es una variable aleatoria con distribución N (0, 1) y F es su función de distribución, se obtienen de la
siguiente forma:
75 ‒ 90
p1 = P (X ≤ 75) = P �Z ≤ � = P (Z ≤ ‒ 1,875) = F (‒ 1,875) = P (Z ≥ 1,875) =
8
= 1 ‒ F (1,875) = 1 ‒ 0,9696 = 0,0304
p2 = P (X ∈ (75; 81]) = P (Z ∈ (‒ 1,875; ‒ 1,125]) = F (‒ 1,125) ‒ F (‒ 1,875) =
= 1 ‒ F (1,125) ‒ 0,0304 = 1 ‒ 0,8697 ‒ 0,0304 = 0,0999
.../...
www.udima.es 251
│ Sumario
.../...
y así sucesivamente. Si H0 es cierta:
k (Oi ‒ Ei)2
D2 =Σ ~ χ2k‒r‒1=7‒2‒1=4
i=1 Ei
El valor observado es D̂ 2 = 13,4679. Como no se especifica un nivel de significación, se calcula el p-valor.
p = P (D 2 ≥ 13,4679 | H0 es cierta) = P (χ24 ≥ 13,4679)
Por interpolación lineal en la tabla correspondiente se obtiene p ≅ 0,00937, que es inferior a 0,01. Se concluye
que existe evidencia para rechazar H0, es decir, se rechaza que la muestra proceda de una distribución N (90; 8).
7.2. CONTRASTE DE KOLMOGOROV-SMIRNOV
Este contraste solamente se puede utilizar para variables aleatorias continuas. Se basa en comparar
la función de distribución teórica (propuesta bajo H0 y la función de distribución empírica de la muestra
(la función de distribución acumulativa que se observa en la muestra ordenada). La hipótesis nula será:
H0: la muestra procede un de un modelo continuo F (x)
A partir de la muestra {x1, …, xn}, se siguen los siguientes pasos:
• Se ordena min xi = x(1) ≤ x(2) ≤ … ≤ max xi = x(n).

• Se construye la función de distribución empírica:
x < x(1)
{
0, si
⫶
k
Fn (x) = , si x(k) ≤ x < x(k+1)
n
⫶
1, si x ≥ x(n)
• Se calcula la discrepancia máxima entre la función de distribución empírica y la teórica, con

el estadístico de Kolmogorov-Smirnov:
Dn = max | Fn (x) – F (x)|

x
En la práctica, se calcula para cada xh :
Dn (xh) = max {|Fn (x(h–1)) – F (x(h))|, |Fn (x(h)) – F (x(h))|}
y el valor final del estadístico será:
Dn = max {Dn (x(h))}
252 www.udima.es
Sumario │
Su distribución está tabulada cuando H0 es cierta y es independiente del modelo propuesto por H0,
aunque existen tablas específicas para la distribución exponencial y la distribución normal cuando sus
parámetros son desconocidos. Estas tablas se evalúan solamente en función del tamaño muestral n y se
incluyen al final de esta unidad didáctica. Se rechaza H0 a un nivel de significación si:
D̂ n > Dn,α
Inconvenientes:
• Si F (x) no está totalmente especificada, la distribución de Dn es solo aproximada y el carác-

ter del test es conservador, tendiendo a no rechazar H0.
• No puede aplicarse a casos en que las observaciones no sean inherentemente cuantitativas
por las ambigüedades que pueden surgir al ordenar las observaciones.
EJEMPLO 10
Ciertos componentes de aviones fueron sometidos a severas vibraciones hasta que mostraron daños estruc-
turales. Los tiempos observados hasta que se produce el daño (en minutos) han sido:
10,3; 7,7; 12; 4,9; 16,2; 10,7; 8,4; 6,8
Contrastar si la muestra procede de una población exponencial de media 10 minutos. Utilizar un nivel de
significación del 1 % .
Dada la variable aleatoria X = Tiempo hasta que se produce daños (en minutos), se debe contrastar si sigue
una distribución exponencial de media μ = 10, es decir, de parámetro λ = 1/μ = 0,1. Así, la hipótesis nula es
H0: X ~ exp (0,1).
Se realiza el contraste de Kolmogorov-Smirnov. El contraste de la χ2 de Pearson no se puede utilizar porque
se tienen menos de 30 observaciones.
La función de distribución teórica es: F (x) = 1 ‒ e‒λx = 1 ‒ e‒0,1x
Se obtiene la tabla 7:
Tabla 7. Tabla para el contraste
xh Fn (xh) F (xh) |Fn (xh) ‒ F (xh)| |Fn (xh‒1) ‒ F (xh)| max
1
4,9 = 0,125 0,3874 0,2624 0,3874 0,3874
8
6,8 0,25 0,4934 0,2434 0,3684 0,3684

7,7 0,375 0,537 0,162 0,287 0,287
8,4 0,5 0,5683 0,068 0,1933 0,1933
10,3 0,625 0,643 0,018 0,143 0,143
10,7 0,75 0,657 0,093 0,032 0,093
12 0,875 0,699 0,176 0,051 0,176
16,2 1 0,8021 0,1979 0,0729 0,1979
.../...
www.udima.es 253
│ Sumario
.../...
El máximo de la última columna es 0,3874, con lo que D̂ 8 = 0 3874. Buscando en la tabla del test de Kolmogo-
rov-Smirnov para una distribución exponencial con media desconocida, se tiene que D8;0,01 = 0,419. Ya que
D̂ 8 < D8;0,01, no existe evidencia muestral para rechazar la distribución exponencial de media 10 minutos, con
un nivel de significación del 1 %.
254 www.udima.es
Sumario │
APÉNDICE
VALORES CRÍTICOS DE d EN EL CONTRASTE DE KOLMOGOROV-SMIRNOV
Se tabula d tal que P (Dn > d) = α
Contraste de Kolmogorov-Smirnov para una distribución general
n α = 0,2 α = 0,1 α = 0,05 α = 0,01
1 0,9000 0,9500 0,9750 0,9950

2 0,6838 0,7764 0,8419 0,9293
3 0,5648 0,6360 0,7076 0,8290
4 0,4927 0,5652 0,6239 0,7342
5 0,4470 0,5095 0,5633 0,6685
6 0,4104 0,4680 0,5193 0,6166
7 0,3815 0,4361 0,4834 0,5758
8 0,3583 0,4096 0,4543 0,5418
9 0,3391 0,3875 0,4300 0,5133
10 0,3226 0,3687 0,4093 0,4889
11 0,3083 0,3524 0,3912 0,4677
12 0,2958 0,3382 0,3754 0,4491
13 0,2847 0,3255 0,3614 0,4325
14 0,2748 0,3142 0,3489 0,4176
15 02659 0,3040 0,3376 0,4042
16 0,2578 0,2947 0,3273 0,3920
17 0,2504 0,2863 0,3180 0,3809
18 0,2436 0,2785 0,3094 0,3706
19 0,2374 0,2714 0,3014 0,3612
20 0,2316 0,2647 0,2941 0,3524
25 0,2079 0,2377 0,2640 0,3166
30 0,1903 0,2176 0,2417 0,2899
35 0,1766 0,2019 0,2243 0,2690
> 35 1.07 1.22 1.36 1.63
√n √n √n √n
Contraste de Kolmogorov-Smirnov
para una distribución exponencial con media desconocida
n α = 0,2 α = 0,15 α = 0,1 α = 0,05 α = 0,01
3 0,451 0,479 0,511 0,551 0,600

4 0,396 0,422 0,449 0,487 0,548
5 0,359 0,382 0,406 0,442 0,504
6 0,331 0,351 0,375 0,408 0,470
7 0,309 0,327 0,350 0,382 0,442
8 0,291 0,308 0,329 0,360 0,419
9 0,277 0,291 0,311 0,341 0,399
.../...
www.udima.es 255
│ Sumario
n α = 0,2 α = 0,15 α = 0,1 α = 0,05 α = 0,01
.../...
10 0,263 0,277 0,295 0,325 0,380
11 0,251 0,264 0,283 0,311 0,365
12 0,241 0,254 0,271 0,298 0,351
13 0,232 0,245 0,261 0,287 0,338
14 0,224 0,237 0,252 0,277 0,326
15 0,217 0,229 0,244 0,269 0,315
16 0,211 0,222 0,236 0,261 0,306
17 0,204 0,215 0,229 0,253 0,297
18 0,199 0,210 0,223 0,246 0,289
19 0,193 0,204 0,218 0,239 0,283
20 0,188 0,199 0,212 0,234 0,278
25 0,170 0,180 0,191 0,210 0,247
30 0,155 0,164 0,174 0,192 0,226
> 30 0,86 0,91 0,96 1,06 1,25
√n √n √n √n √n
Contraste de Kolmogorov-Smirnov
para una distribución normal con media y varianza desconocida
n α = 0,2 α = 0,15 α = 0,1 α = 0,05 α = 0,01
4 0,300 0,319 0,352 0,381 0,417

5 0,285 0,299 0,315 0,337 0,405
6 0,265 0,277 0,294 0,319 0,364
7 0,247 0,258 0,276 0,300 0,348
8 0,233 0,244 0,261 0,285 0,331
9 0,223 0,233 0,249 0,271 0,311
10 0,215 0,224 0,239 0,258 0,294
11 0,206 0,217 0,230 0,249 0,284
12 0,199 0,212 0,223 0,242 0,275
13 0,190 0,202 0,214 0,234 0,268
14 0,183 0,194 0,207 0,227 0,261
15 0,177 0,187 0,201 0,220 0,257
16 0,173 0,182 0,195 0,213 0,250
17 0,169 0,177 0,189 0,206 0,245
18 0,166 0,173 0,184 0,200 0,239
19 0,163 0,169 0,179 0,195 0,235
20 0,160 0,166 0,174 0,190 0,231
25 0,142 0,147 0,158 0,173 0,200
30 0,131 0,136 0,144 0,161 0,187
> 30 0,736 0,768 0,805 0,886 1,031
√n √n √n √n √n
256 www.udima.es
Sumario │

• Comprender la terminología característica de los contrastes de hipótesis: hipótesis nula y
alternativa, tipos de errores, región de rechazo, nivel de significación, nivel crítico o p-valor.
• Formular y resolver contrastes de hipótesis relacionados con los parámetros de poblacio-
nes normales.
• Formular y resolver contrastes de hipótesis relacionados con proporciones.
• Comprender la relación entre intervalos de confianza y contrastes de hipótesis paramétricos.
• Formular y resolver contrastes de la bondad de ajuste.
Enunciado 1
El Ibex-35 es el índice de referencia de las bolsas españolas. Se ha recogido su valor en los últimos
11 meses y se quiere saber si se puede aceptar que su valor medio fue de 0,1171 en ese periodo de tiempo.
0,1376; 0,1293; 0,1215; 0,118; 0,1152; 0,1137; 0,1184; 0,1192; 0,1176; 0,1103; 0,1072
Suponiendo que la distribución del Ibex-35 es normal, responder a la cuestión mediante un con-
traste de hipótesis.
Enunciado 2
Se quieren comparar dos sistemas de localización GPS portátiles. Para ello, se ha medido el tiempo,
en milisegundo, que tardan en establecer conexión cada sistema en 10 ocasiones, obteniendo los siguien-
tes resultados:
Tabla 8
Sistema 1 .............................. Σ10i=1 xi = 218,9 Σ10i=1 x2i = 4.824,71

Sistema 2 .............................. Σ10i=1 yi = 224,9 Σ10i=1 y2i = 5.104,49
www.udima.es 257
│ Sumario
Suponiendo que en ambos sistemas la variable estudiada sigue una distribución normal:
a) ¿Puede afirmarse que la varianza del tiempo que tardan en conectarse es la misma para ambos
sistemas? Resolver mediante un contraste de hipótesis con un nivel de significación α = 0,1.
b) En un contraste bilateral de comparación de los tiempos medios de conexión de ambos siste-
mas, se ha obtenido una discrepancia observada de d̂ = – 0,638. Con base al p-valor, ¿puede
no rechazarse la igualdad de tiempos medios?
Enunciado 3
Se está investigando el consumo de biodiésel como combustible en coches. Para ello, se observa
que, de un total de 150 coches que visitaron una gasolinera determinada, 66 de ellas repostaron biodié-
sel. Con una confianza del 98 %, ¿puede afirmarse que la proporción real de personas que repostaron
biodiésel en esa gasolinera es mayor del 30 %?
Enunciado 4
El gerente de una planta industrial pretende determinar si el número de empleados que asisten al
consultorio médico de la planta se encuentra distribuido de manera uniforme en los 5 días laborables de
la semana. A partir de una muestra aleatoria de 4 semanas completas de trabajo, se observó el siguiente
número de consultas:
Tabla 9
Lunes Martes Miércoles Jueves Viernes
49 35 32 39 45
Con α = 0,5 ¿existe alguna razón para creer que el número de empleados que asisten al consultorio
médico no se encuentra distribuido equitativamente durante los días de trabajo de la semana?
Enunciado 5
Se sospecha que el número de errores descubiertos en un programa está distribuido según una dis-
tribución de Poisson. Se ha observado el número de errores en periodos de una semana. Sobre un total
de 50 semanas se descubrieron 95 errores, con la siguiente distribución:
Tabla 10
Número errores en Número de semanas

una semana con esos errores
0 14
1 11
2 9
3 6
4 5
≥5 5
Contrastar esta sospecha con un nivel de significación α = 0,05.
258 www.udima.es
Sumario │
Solución 1
Hay que realizar un contraste de hipótesis con:
H0: μ = 0,1171
H1: μ ≠ 0,1171
Con –x = 0,1189 y s2 = 0,0000719, se obtiene d̂ = 0,7048. El p-valor es:
2 ∙ P (t10 > 0,7048)
Interpolando en la tabla de la t de Student se obtiene un p-valor de p = 0,589. Al ser mayor que 0,2,
no se debe rechazar H0.
Solución 2
a) Hay que realizar un contraste de comparación de varianzas:
H0: σ 21 = σ 22
{ H1: σ 21 ≠ σ 22
Se obtiene d̂ = 1,409. La región de no rechazo es (0,3145; 3,179). Como d̂ pertenece al

intervalo, no se tienen evidencias para rechazar H0 al 90 % de confianza.
b) Se calcula el p-valor del resultado d̂ = – 0,638 con base a una distribución t de Student con
18 grados de libertad. Se obtiene un p-valor de 0,5634. Al ser mayor que 0,2, no se debe
rechazar la hipótesis de igualdad de tiempos medios en ambos sistemas de localización GPS.
Solución 3
Se debe resolver el contraste:
H0: p = 0,3
{ H1: p > 0,3
Se obtiene p̂ = 0,44 y d̂ = 3,7416. La región de rechazo es (2,055; ∞). Por tanto, se rechaza la hipó-
tesis nula y no se rechaza que la proporción sea mayor que 0,3.
Solución 4
No existe evidencia para rechazar que los datos provienen de una distribución uniforme en los 5
días de trabajo de la semana.
Solución 5
Se rechaza la hipótesis nula de que los datos provienen de una distribución de Poisson. El valor del
estadístico del contraste de la χ2 de Pearson es D̂ 2 = 10,863.
www.udima.es 259
│ Sumario
1. En un aeropuerto se desea comprobar si el número de mensajes que se reciben por radio en

la torre de control durante un intervalo de 5 minutos sigue una distribución de Poisson con
parámetro λ = 4,6. Durante 400 intervalos de 5 minutos se recogieron los siguientes datos:
Tabla 11. Datos
Número de mensajes ................. 0 1 2 3 4 5 6 7 8 ≥9
Frecuencia ..................................... 3 15 47 76 68 74 46 39 15 17
Utilizar un nivel de significación del 1 %.
2. Un ingeniero de control de calidad toma muestras diarias de 5 tractores que salen de una
línea de montaje y en 200 días consecutivos obtiene los siguientes datos sobre el número
de tractores que requieren algún ajuste adicional:
Tabla 12. Datos
Número de
Número
tractores
de días
defectuosos
0 91
1 67
2 35
3 4
4 3
5 0
Se desea comprobar si esta muestra procede de una distribución binomial con p = 0,15. Usar
un nivel de significación del 1 %.
3. El Gobierno ha aprobado un límite máximo de contenido de benzopireno en el aceite de

orujo de 0,002 miligramos por kilogramo. Una muestra de 10 medidas tomadas de la última
partida de botellas de litro de este aceite que ha sido exportada a Italia reveló las siguientes
concentraciones (en miligramos/kilogramo):
0,0023; 0,012; 0,0006; 0,0009; 0,0005; 0,00014; 0,003; 0,00023; 0,00046; 0,0009
Sabiendo que se puede suponer que la distribución de dicha concentración se ajusta a una
normal y fijando α = 0,05, ¿se puede afirmar que dicha partida contiene niveles arriesgados
de benzopireno para la salud? Calcular el nivel crítico (p-valor) y comentarlo.
260 www.udima.es
Sumario │
4. Un edificio de oficinas tiene dos guardias de seguridad. Se ha obtenido una muestra del tiempo
que tarda cada uno de ellos en hacer su recorrido (en minutos), obteniendo los siguientes
resultados:
Tabla 13. Datos
Guardia 1 .......... 15,8 12,7 13,2 16,9 10,6 18,8 11,1 14,3 17 12,5
Guardia 2 .......... 24,9 23,6 19,8 22,1 20,4 21,6 21,8 22,5
Suponiendo normalidad y utilizando un nivel de significación del 5 %, contrastar si los tiem-
pos de las rondas de los guardias poseen la misma varianza.
5. Para estudiar el desgaste que sufren sus neumáticos, los investigadores de un equipo de Fór-
mula 1 han medido la profundidad en milímetros del dibujo característico de los mismos
tras 10 sesiones de entrenamiento en las que los neumáticos han llegado sin destrozos. A la
profundidad inicial del dibujo, que es 7 milímetros, se le resta la profundidad después de la
prueba y se obtiene el desgaste. Los resultados finales en milímetros han sido:
2,45; 1,48; 2,64; 3,21; 1,59; 2,00; 2,80; 3,35; 2,77; 1,89
Suponiendo normalidad en la distribución del desgaste, ¿puede afirmarse que el desgaste

medio es igual a 2,5 milímetros y su varianza 0,7? Utilizar α = 0,02.
Básica

DEVORE, J. L.: Probabilidad y estadística para ingeniería y ciencias, 6.ª ed., México: International Thomson Editores, 2005.
MOORE, D. S. y NOTZ, W. I.: Statistics: Concepts and Controversies, Freeman, 2006.
En la red
Aula virtual de Bioestadística. Hay un apartado sobre conceptos generales en contrastes de hipótesis: _contraste/ contraste1.html
WISE: Web Interface For Statistical Education: http://wise.cgu.edu/index.html
Avanzada
CUADRAS, C. M.: Problemas de probabilidades y estadística, Barcelona: Promociones y Publicaciones Universitarias, 1991.
MONTGOMERY, D. C. y RUNGER, G. C.: Applied Statistics and Probability for Engineers, 3.ª ed., New York: John Wiley
and Sons, 2003.
www.udima.es 261
Sumario │
10
UNIDAD
DIDÁCTICA
MODELOS DE
REGRESIÓN LINEAL
1. Introducción
2. Hipótesis del modelo de regresión lineal simple
3. Metodología
4. Estimación de los parámetros
4.1. Propiedades de los estimadores
4.1.1. Parámetro β1
4.1.3. Parámetro σ2
5. Inferencias sobre los parámetros

5.1. Parámetro β1
5.2. Parámetro β0
5.3. Parámetro σ2
6. Contraste de regresión: tabla ANOVA

7. Contraste de las hipótesis mediante los residuos
7.1. Contrastar la normalidad
7.2. Contrastar la independencia
7.3. Contrastar la homocedasticidad
8. Coeficiente de determinación y coeficiente de correlación lineal

8.1. Relación entre el coeficiente de correlación y la varianza residual
9. Predicciones
10. Introducción al modelo de regresión lineal múltiple
10.1. Ejemplo de aplicación de la regresión: música con regresión múltiple (Triola, 2000)
www.udima.es 263
│ Sumario

264 www.udima.es
Sumario │
M.ª I. Rodríguez Galiano Modelo de regresión lineal
En esta unidad didáctica se introduce formalmente la construcción de un modelo estadístico, el
modelo de regresión lineal. El modelo de regresión lineal asume que la relación funcional que expresa
la dependencia entre la variable de respuesta (dependiente) y la variable explicativa (independiente) es
una recta, incluyendo además un término de error aleatorio. Las hipótesis en la formulación del modelo
son muy importantes, ya que de su cumplimiento dependen las propiedades de los estimadores utilizados
en las inferencias. Los errores aleatorios tendrán esperanza nula, serán independientes y su distribución
será normal con varianza constante. La estimación de los parámetros del modelo, coeficientes de la recta
de regresión y varianza de los errores, se realiza mediante el método de mínimos cuadrados y coincide
con los estimadores de máxima verosimilitud. A partir de las distribuciones de dichos estimadores se
obtendrán intervalos de confianza y se realizarán contrastes de hipótesis. Entre estos últimos destaca el
contraste para la pendiente de la recta de regresión y el contraste de regresión mediante la construcción
de la tabla de análisis de la varianza (ADEVA o ANOVA).
Para asegurar que el modelo representa fielmente la realidad, deben comprobarse las hipótesis de
partida, al menos de forma aproximada. Si no se dispone de varias observaciones de la variable depen-
diente por cada valor de la variable independiente, se deben comprobar las hipótesis a través del análisis
de los residuos, mediante técnicas numéricas o gráficas. Una vez validado el modelo, se estudia la pre-
dicción de nuevos valores.
Tras estudiar detalladamente el modelo de regresión lineal simple se introduce el modelo de regre-
sión lineal múltiple, haciendo hincapié sobre todo en su interpretación más que en la base teórica que
lo sustenta.
• Saber construir un modelo de regresión lineal simple.

• Evaluar dicho modelo desde distintas perspectivas: simplificaciones, ajuste de las hipóte-
sis, predicciones.
• Interpretación del modelo en diferentes contextos aplicados.
www.udima.es 265
│ Sumario
1. INTRODUCCIÓN
La importancia del modelo de regresión lineal radica

en que determinadas transformaciones o aproximaciones
locales permiten reducir a una relación lineal una gran can-
tidad de situaciones, ya que las relaciones lineales no apare-
cen por sí mismas con frecuencia. Una relación matemática Francis Galton (1822-1911). Gran investiga-
dor y científico inglés en diferentes áreas de
entre dos variables permite, a partir del valor conocido de la ciencia: antropología, psicología, biología,
una, calcular el valor de la otra. Una relación estadística estadística, meteorología, …
permite, a partir del valor conocido, determinar caracte- La obra El origen de las especies de su pri-
mo Charles Darwin tuvo una gran influencia
rísticas de los posibles valores de la otra, pero no dará su en Galton.
valor específico. A pesar de ello, la ecuación obtenida repre- Creador de la escuela biométrica inglesa,
senta una estructura muy útil para el estudio de las relacio- cuyo propósito era introducir los métodos
estadísticos en el estudio de la biología.
nes de interés entre las variables. El análisis de regresión
Desarrolló el análisis de regresión como fruto
es una metodología estadística cuyo objetivo es establecer de sus investigaciones sobre la herencia.
las relaciones de dependencia que existen entre diferentes Descubrió las propiedades de la distribución
variables. Los modelos de regresión son herramientas que normal bivariante y su relación con el análi-
sis de regresión.
permiten mejorar las inferencias sobre una variable cuando Introdujo el concepto de correlación, más tarde
se tiene información acerca de otras variables que pueden desarrollado por Pearson y Spearman.
ser controladas.
El estudio se centrará en construir un modelo para

representar la dependencia lineal de una variable de res-
puesta o dependiente Y (variable observable), respecto a otra variable explicativa o independiente X
(variable que permanece constante y conocida por el observador). Se examinarán técnicas que permi-
tan ajustar, si es posible, una ecuación lineal al conjunto de datos dado, que describa el comportamiento
de la variable de respuesta dados los valores de la variable independiente. Es importante resaltar que,
aunque se encuentre una relación lineal entre ambas variables, en regresión no es posible establecer una
relación causa-efecto entre Y y X. Por ejemplo, es ampliamente conocido que hay una relación entre la
altura y el peso de las personas, sin embargo, no se puede cambiar la altura de una persona si se modifica
su peso. El análisis de regresión solo descubre una asociación entre la variable de respuesta y la variable
independiente, en lugar de detectar una relación causa-efecto.
2. HIPÓTESIS DEL MODELO DE REGRESIÓN LINEAL SIMPLE
Considérese una variable Y (variable de respuesta o dependiente) que se sospecha depende lineal-
mente de otra (u otras) representada por X (variable explicativa o independiente o predictora) y además
existen un conjunto de factores que influyen sobre la respuesta en pequeña cantidad, u (perturbación alea-
toria o error aleatorio). La variable de respuesta es una variable aleatoria cuyos valores se observan para
ciertos valores de la variable explicativa. Por tanto, la variable explicativa no se considera una variable
aleatoria, sino que representa una variable conocida al observar la variable de respuesta, es decir, es un
conjunto de valores fijos que representan los puntos donde se observa la variable de respuesta. La per-
turbación aleatoria es una variable aleatoria que recoge los factores no controlables que inciden en la
variable de respuesta.
266 www.udima.es
Sumario │
El modelo a desarrollar se expresa de la siguiente forma:
Yi = β0 + β1 xi + ui
donde Yi es la i-ésima observación de la variable de respuesta o dependiente Y correspondiente al i-ési-

mo valor xi de la variable explicativa o independiente X. ui es el error aleatorio no observable asociado a
la observación Yi . β0 y β1 son los parámetros desconocidos que representan, respectivamente, el término
independiente y la pendiente de la recta teórica que explica la relación entre ambas variables.
El objetivo es estimar el modelo anterior. Como resultado se obtendrá la recta de regresión:
Ŷi = β̂ 0 + β̂ 1 xi
que da para cada Xi, el valor medio estimado de Y, Ŷi .
EJEMPLO 1
Supóngase que se quiere determinar si el número de pasajeros de una compañía de transportes (Y) depende
linealmente del precio del billete (X). En este caso, la perturbación aleatoria u puede contener los efectos
debidos a los servicios proporcionados por la compañía, a la época del año, al historial de accidentes, etc.
La perturbación debe cumplir las siguientes hipótesis para ser aleatoria, es decir, no informativa:
• La esperanza de la perturbación es 0, es decir:
E (ui) = 0
• La varianza de la perturbación es constante y no depende de X, es decir, la perturbación es

homocedástica:
V (ui) = σ2
• La perturbación tiene una distribución normal:
ui ~ N (0, σ)
• Las perturbaciones ui son independientes entre sí:
E (ui uj) = E (ui) E (uj) = 0 ∀i ≠ j
Las hipótesis anteriores se pueden expresar igualmente respecto a Y:
• La esperanza es lineal respecto a X:
E (Yi | xi) = β0 + β1 xi
www.udima.es 267
│ Sumario
β0 representa el valor medio de Y cuando X = 0.

β1 representa el incremento de la media de Y cuando X aumenta en una unidad.
• La varianza es constante:
V (Yi) = σ2
• La distribución de Y, para cada x fijo, es normal.

• Las observaciones Yi son independientes entre sí.
Como se puede apreciar en la figura 1, estas hipótesis significan que para x fija, la distribución de Y
es normal con varianza constante σ2 y media que varía linealmente con x.
Figura 1. Gráfico de las hipótesis del modelo de regresión lineal simple
ƒ (y)
x
y = E (y/x)
Observaciones:
• Muchas relaciones no lineales pueden convertirse en lineales transformando adecuadamen-

te las variables.
• El suponer linealidad es una primera aproximación hacia una relación más compleja.
• Hay que tener en cuenta el rango de valores con el que se va a trabajar: puede que no sea
razonable o sea peligroso extrapolar fuera de ese rango. Una relación puede ser lineal en un
intervalo y fuera de él dejar de serlo. Así, la recta de regresión solo será válida para prede-
cir dentro del rango utilizado para construirla.
• No se cumplirá la hipótesis de homocedasticidad (es decir, habrá heterocedasticidad) si la
varianza V (Yi | xi) depende de la esperanza E (Yi | xi).
• No suele haber independencia cuando se observan datos temporales en situaciones dinámicas.
268 www.udima.es
Sumario │
3. METODOLOGÍA
Supóngase que se tiene una muestra aleatoria simple de valores de Y para valores predeterminados
de X. El procedimiento a seguir para estimar el modelo de regresión lineal simple es el siguiente:
• Representar gráficamente los datos, dibujando los pares (X, Y), para tener una primera idea
intuitiva del tipo de relación. Si hay muchos puntos, conviene representar al menos los pun-
tos extremos y centrales. De esta forma se comprueba si la relación es lineal o no, es decir,
si la media de Y, para x fijo, varía linealmente con X.
− Si no es lineal, se transforman los datos para conseguir linealidad en la relación, si es

posible.
− Si es lineal, se continúa.
• ¿Existen varios valores de Y para x fijo?
− Sí. Antes de construir el modelo se contrastan las hipótesis de normalidad y homo-

cedasticidad de las distribuciones de Y para cada x, así como la independencia de los
datos muestrales.
Si no se verifica la hipótesis de normalidad, y/o la hipótesis de homocedasticidad, se
transforman los datos.
Si no se verifica la independencia, se revisa el método de recogida de datos.
− No. Las hipótesis básicas de partida se contrastarán mediante los residuos, ya que al
disponer de un solo dato para cada distribución condicionada no se pueden realizar
contrastes antes de obtener el modelo.
Residuo ei = Valor observado Yi – Valor previsto Ŷi
Contrastadas las hipótesis básicas de partida, se continúa con:
• Estimación de los parámetros: β0, β1, σ2.

• Si hay varios valores de Y para cada x fijo, se contrasta la hipótesis de linealidad. Después
se analiza si el modelo se puede simplificar a:
Yi = β0 + ui
Es decir, si β1 = 0 y la media de Y no depende de X. Esto último se puede hacer con un con-

traste paramétrico del tipo de los estudiados en la unidad didáctica 9 o un contraste dedu-
cido a partir del análisis de la varianza (ANOVA).
• Estudio de los residuos:
ei = Yi – Ŷi
Los residuos representan la variabilidad no explicada en el ajuste que, según las hipótesis
de partida, deben ser normales, independientes y homocedásticos.
• Predicciones. Con el modelo estimado se realizan predicciones para valores no observados.
www.udima.es 269
│ Sumario
4. ESTIMACIÓN DE LOS PARÁMETROS
Si se quiere escoger la recta de «mejor ajuste» para un

conjunto de datos, se deben estimar los parámetros desco-
nocidos β0 y β1 del modelo de regresión lineal simple. Estos
estimadores se pueden obtener por el método de máxima
verosimilitud ya estudiado, pero se utilizará el método de Adrien-Marie Legendre (1752-1833). Gran
matemático francés.
mínimos cuadrados por ser más fácil e intuitivo. Además,
Publicó diversos trabajos sobre planetas, teo-
este último es válido aunque no se verifique alguna de las ría de números y funciones elípticas.
hipótesis básicas de partida. Si no se cumplen las hipótesis, En sus primeros trabajos sobre mecánica,
lo que está en duda es la validez de las inferencias deriva- introdujo conceptos como la función que
lleva su nombre o la primera demostración
das de las estimaciones. Si se satisfacen las hipótesis, los del método de mínimos cuadrados.
estimadores de máxima verosimilitud y de mínimos cua- Gauss reclamaba prioridad en algunos des-
drados de β0 y β1 coinciden. cubrimientos de Legendre, como por ejem-
plo sobre el método de mínimos cuadrados.
Definió las propiedades básicas de las integra-
El método de mínimos cuadrados considera la desvia- les elípticas y de las funciones beta y gamma.
ción de la observación Yi de su valor medio, y determina En 1783 realizó un trabajo sobre la atracción
los valores β0 y β1que minimizan la suma de los cuadrados de elipsoides en el que establece los hoy
de estas desviaciones. Hay que resolver:

conocidos como polinomios de Legendre.
Este trabajo fue muy alabado por Laplace.
En 1794 publicó Eléments de Géométrie,
min Σi (Yi – β̂ 0 – β̂ 1 xi)2 = Σi ei2 que fue un libro indispensable durante más
de 100 años.
Participó en el comité de la Real Academia
de Ciencias, para estandarizar los pesos y
Derivando con respecto a los dos parámetros, se obtie- las medidas.
nen las denominadas ecuaciones normales de regresión:
∂ Σ ei2 ∂ Σ ei2
=0 =0
∂β0 ∂β1
que se pueden expresar de la siguiente forma:
Σi ei = 0 Σi ei xi = 0
Las ecuaciones normales de regresión imponen dos restricciones sobre los residuos.
Despejando los dos parámetros que intervienen, se obtienen los estimadores:
Cov (X, Y)
β̂ 1 =
σ̂ X2
– –
β̂ 0 = Y – β̂ 1 X
– –
Esta última ecuación equivale a Y = β̂ 0 + β̂ 1 X , lo que indica que la recta de regresión pasa siempre
– –
por el punto formado por las medias muestrales (X , Y ).
La recta de regresión queda expresada como:
– –
Ŷi = Y + β̂ 1 (xi – X )
270 www.udima.es
Sumario │
Observación. σ̂ X2 es la varianza muestral, m2. Además:
Σ xi yi ––
Cov (X, Y) = –X Y
n
Σ xi2 –
σ̂ X2 = –X2
n
Estimador de σ2. La varianza σ2 de la variable de respuesta o dependiente es igual a la varianza

del error y esta es constante para todos los valores de la variable de predicción. Dado que el valor de σ2
no se conoce, puede obtenerse un estimador de este a partir de los estimadores de mínimos cuadrados β0
y β1. Se utiliza como estimador la varianza residual:
Σ ei2
Ŝ R2 =
n–2
Se ha dividido la suma de los residuos al cuadrado por el número de términos independientes en

esa suma, que son n – 2, debido a que en las ecuaciones normales de regresión se obtienen dos restric-
ciones sobre los residuos.
EJEMPLO 2
Con el fin de estudiar la relación entre la velocidad de procesamiento y la temperatura de un procesador,

se ha compilado un programa determinado a diferentes temperaturas. Se han obtenido los datos mostra-
dos en la tabla 1.
Tabla 1
Temperatura en °C ...... 17 18 19 20 21 22
Tiempo en ms .............. 36,76 37,86 38,5 41 45,11 49,25
Obtener la recta de regresión que permita predecir, a partir de la temperatura del procesador, el tiempo de
procesamiento.
Para conseguir predecir el tiempo de procesamiento a partir de la temperatura del procesador, se debe tomar
como variable dependiente Y = Tiempo de procesamiento y como variable independiente X = Temperatura del
procesador. A continuación, se realizan algunos cálculos a partir de los datos:
‒ Σ xi 117 Σ xi2 ‒2
X= = = 19,5 σ̂ X2 = ‒X = 2,9166
n 6 n
‒ Σ yi 248,48 Σ yi2 ‒2
Y = = = 41,4133 σ̂ Y2 = ‒Y = 19,6719
n 6 n
Σ xi yi ‒‒
Cov (X, Y) = ‒ X Y = 7,225
n
.../...
www.udima.es 271
│ Sumario
.../...
Los estimadores de los parámetros β1 y β0 son, respectivamente, los siguientes:
Cov (X, Y) 7,225

β̂ 1 = = = 2,477
σ̂ X2 2,9166
‒ ‒
β̂ 0 = Y ‒ β̂ 1 X = 41,4133 ‒ 2,477 · 19,5 = ‒ 6,89
Con lo que la recta de regresión es:
Ŷi = ‒ 6,89 + 2,477 xi
La figura 2 muestra la representación gráfica de los datos de este ejemplo y la recta de regresión obtenida.
Figura 2. Recta de regresión estimada
51
48
45
Tiempo
42
39
36
17 18 19 20 21 22
Temperatura
4.1. PROPIEDADES DE LOS ESTIMADORES
A continuación se presentan las propiedades generales de los estimadores de los parámetros. Se

muestran las principales medidas características de estos estimadores (media y varianza) y su distribu-
ción en el muestreo, suponiendo que se verifican las hipótesis básicas de partida. Estas distribuciones
permitirán construir variables pivote para realizar inferencias respecto a los parámetros.
• Estimador:
Cov (X, Y)
β̂ 1 =
σ̂ X2
272 www.udima.es
Sumario │
• Esperanza:
E (β̂ 1) = β1
• Varianza:
σ2
V (β̂ 1) =
nσ̂ X2
• Distribución: normal.
• Estimador:
– –
β̂ 0 = Y – β̂ 1 X
• Esperanza:
E (β̂ 0) = β0
• Varianza:
–
σ2 X2
V (β̂ 0) = �1 + �
n σ̂ X2
• Distribución: normal.
4.1.3. Parámetro σ2
• Estimador:
Σ ei2
Ŝ R2 =
n–2
• Esperanza:
E (Ŝ R2 ) = σ2
• Varianza:
2σ4
V (Ŝ R2 ) =
n–2
• Distribución:
(n – 2) Ŝ R2
~ χ2n–2
σ2
www.udima.es 273
│ Sumario
5. INFERENCIAS SOBRE LOS PARÁMETROS
Como ya se ha indicado, se pueden construir variables pivote a partir de la distribución de cada esti-
mador para obtener intervalos de confianza para los parámetros y realizar contrastes de hipótesis.
Los intervalos de confianza que se obtienen son los siguientes.
5.1. PARÁMETRO β1
Se utiliza la variable pivote:
β̂ 1 – β1
~ tn–2
Ŝ R2
nσ̂ X2
Por tanto:
β̂ 1 – β1
P – tn–2,α/2 ≤ ≤ tn–2,α/2 =1–α
� Ŝ R2 �
nσ̂ X2
Pivotando, se obtiene que el intervalo de confianza al 100 (1 – α) % para β1 es:
ŜR ŜR
�β̂1 – tn–2,α/2 , β̂ 1 + tn–2,α/2 �
√ nσ̂ X2 √ nσ̂ X2
5.2. PARÁMETRO β0
La variable pivote es:
β̂ 0 – β0
~ tn–2
Ŝ R2 –
X2
�1 + �
n σ̂ X2
Pivotando, el intervalo del 100 (1 – α) % de confianza para β0 es:
– –
1 X2 1 X2
�β̂ 0 – tn–2,α/2 ŜR �1 + �, β̂ 0 + tn–2,α/2 ŜR �1 + ��
n σ̂ X2 n σ̂ X2
274 www.udima.es
Sumario │
5.3. PARÁMETRO σ2
Se utiliza como variable pivote:
(n – 2) Ŝ R2
~ χ2n–2
σ2
Con lo que:
(n – 2) Ŝ R2
P �χ2n–2,1–α/2 ≤ ≤ χ2n–2,α/2� = 1 – α
σ2
Pivotando, el intervalo de confianza al 100 (1 – α) % para σ2 es:
(n – 2) Ŝ R2 (n – 2) Ŝ R2
� , �
χ2n–2,α/2 χ2n–2,1–α/2
EJEMPLO 3
Con los datos del ejemplo 2 construir un intervalo de confianza al 90 % para el parámetro β1.
El intervalo de confianza para β1 con α = 0,1 es:
ŜR ŜR
�β̂ 1 ‒ t4;0,05 , β̂ 1 + t4;0,05 �
√ nσ̂ X2 √ nσ̂ X2
De la tabla de la t de Student mostrada en la unidad didáctica 7 se obtiene el percentil 95, t4;0,05 = 2,132. Ade-
más, se necesita calcular la varianza residual ŜR2 .
Σ e2i Σ (Yi ‒ Ŷi )2

ŜR2 = =
n‒2 n‒2
A partir de los datos y de la recta de regresión obtenida en el ejemplo 2, se obtienen los valores de la tabla 2
y sustituyendo en la fórmula anterior, la varianza residual es ŜR2 = 2,6581 y su raíz ŜR = 1,63.
Tabla 2. Valores para obtener ŜR2
xi 17 18 19 20 21 22
Yi 36,76 37,86 38,5 41 45,11 49,25
Ŷi 35,219 37,696 40,173 42,65 45,127 47,604
(Yi ‒ Ŷi )2 2,374681 0,026896 2,798929 2,7225 0,000289 2,709316
Con los valores obtenidos y los calculados en el ejemplo 2, se tiene que el intervalo de confianza para β1, con
una confianza del 90 % es:
(1,64627; 3,30773)
www.udima.es 275
│ Sumario
Para realizar contrastes sobre los parámetros se usa como medida de discrepancia la variable pivote
correspondiente, particularizando en el valor del parámetro especificado en la hipótesis nula. El proce-
dimiento se muestra en el siguiente ejemplo.
EJEMPLO 4
Continuando con el ejemplo 2, ¿se podría prescindir del término independiente en la recta de regresión?
Se debe contrastar si se puede suponer β0 = 0. Se resuelve mediante el siguiente contraste de hipótesis
bilateral:
H0: β0 = 0
H1: β0 ≠ 0
Se utiliza como medida de discrepancia la variable pivote obtenida para calcular el intervalo de confianza
para β0, particularizando con el valor especificado en la hipótesis nula, que es β0 = 0.
β̂ 0 ‒ β0 β̂ 0
d= = ~ tn‒2, si H0 es cierta
‒ ‒
ŜR2 X2 ŜR2 X2
�1 + � �1 + �
n σ̂ X2 n σ̂ X2
Con los valores obtenidos en el ejemplo 2 y la varianza residual calculada en el ejemplo 3, la discrepan-
cia observada es d̂ = ‒ 0,903. Como no se indica un nivel de significación, hay que calcular el nivel crítico o
p-valor:
p = P (| d| ≥ |d̂|/H0 cierta) = P (|d| ≥ 0,903/d ~ t4) = 2P (t4 ≥ 0,903)
A partir de la tabla proporcionada en la unidad didáctica 7, habría que interpolar entre los valores
t4;0,1 = 1,533 y t4;0,5 = 0 (este último valor se conoce porque la distribución t de Student es simétrica respecto
al origen) obteniendo un p-valor aproximado:
p ≃ 2 · 0,2644 = 0,5288
Obsérvese que este valor se puede mejorar utilizando otras tablas disponibles con más percentiles. Como
el p-valor es superior a 0,2, no existen evidencias para rechazar la hipótesis nula y, por tanto, se puede
asumir que el término independiente β0 es 0, y se puede prescindir de dicho término en la ecuación de
regresión.
6. CONTRASTE DE REGRESIÓN: TABLA ANOVA
Se llama contraste de regresión al que contrasta si la pendiente de la recta teórica, β1, es cero. Este
contraste se puede realizar fácilmente a través de lo estudiado en el epígrafe anterior, pero ahora se verá
cómo relacionarlo con el análisis de la varianza (ANOVA).
La técnica del análisis de la varianza divide la variación total de las observaciones en sus partes
componentes. Para el modelo de regresión lineal simple, la variación total es la suma de dos componen-
tes: la causada por el término no aleatorio β1 x, y la que se debe al error aleatorio u. Se pretende que la
recta de regresión estimada explique la mayor cantidad posible de la variación total, por lo que la con-
276 www.udima.es
Sumario │
tribución del término β1 x debe ser considerable. Esto implicaría que la variable de respuesta y la expli-
cativa están relacionadas de forma lineal. Si β1 = 0, no existe asociación lineal entre ambas. Se obtiene
la descomposición:
Σ (Yi – Y–)2 = Σ (Ŷi – Y–)2 + Σ (Yi – Ŷi)2
�
Variación total Variación Variación
VT explicada VE no explicada
VNE
Esta expresión descompone la variabilidad de Y en dos términos independientes: el primero refleja

la variabilidad explicada o eliminada por la regresión, mientras que el segundo contiene la variabilidad
no explicada por la regresión.
El contraste que se quiere resolver es el siguiente:
H0: β1 = 0
H1: β1 ≠ 0
Para resolverlo a través del análisis de la varianza se puede expresar la hipótesis nula como que la
variabilidad explicada VE es pequeña respecto a la no explicada VNE, y la hipótesis alternativa como
que VE es mucho mayor que VNE. Si ocurre esto último, se rechaza β1 = 0, así se ve que el contraste a
partir del análisis de la varianza es unilateral por la derecha. La medida de discrepancia que se obtiene
para este contraste es la siguiente:
VE Σ (Ŷi – Y–)2 Σ (β̂1 (xi – X–))2 β̂ 12 nσ̂ X2

F* = = = = ~ F1,n–2
Ŝ R2 Ŝ R2 Ŝ R2 Ŝ R2
La información que se obtiene en el análisis de la varianza se puede resumir en la tabla ANOVA

mostrada en la tabla 3. Obsérvese que el cociente entre los cocientes que aparecen en dicha tabla da lugar
a la medida de discrepancia del test de regresión.
Tabla 3. Tabla ANOVA para el modelo de regresión lineal simple
Fuente de variación Suma de cuadrados Grados de libertad Cociente
‒ ‒
Variación explicada .................................... Σ (Ŷi ‒ Y)2 1 Σ (Ŷi ‒ Y)2/1
Variación no explicada .............................. Σ (Yi ‒ Ŷi )2 n‒2 Σ (Yi ‒ Ŷi )2
= Ŝ R2
n‒2
‒
Variación total .............................................. Σ (Yi ‒ Y)2 n‒1
Algunas fórmulas útiles para obtener la tabla ANOVA son las siguientes:
VT = nσ̂ Y2
VE = β̂ 12 nσ̂ X2
VNE = VT – VE = (n – 2) Ŝ R2
www.udima.es 277
│ Sumario
7. CONTRASTE DE LAS HIPÓTESIS MEDIANTE LOS RESIDUOS
El análisis de los residuos contrasta a posteriori las hipótesis del modelo lineal y es especialmente
importante cuando, al tener un solo valor de Y para cada x, los contrastes básicos de homocedasticidad,
normalidad e independencia, no pueden realizarse antes de ajustar el modelo.
7.1. CONTRASTAR LA NORMALIDAD
Se utilizan los test no paramétricos vistos en la unidad didáctica anterior (χ2 de Pearson y
Kolmogorov-Smirnov), sobre los residuos. Algunos de estos suponen independencia y los residuos no
son independientes, sin embargo para n grande, n > 30, este efecto es despreciable y los test de norma-
lidad son lo suficientemente aproximados.
7.2. CONTRASTAR LA INDEPENDENCIA
En realidad son n – 2 los residuos independientes. El estadístico de Durbin-Watson facilitado por

muchos paquetes estadísticos proporciona información sobre el grado de independencia existente entre
los residuos. Se define de la siguiente forma:
Σni=2 (ei – ei–1)2

D=
Σni=1 ei2
Este estadístico toma valores entre 0 y 4 y es 2 cuando los residuos son completamente indepen-
dientes. Los valores menores que 2 indican autocorrelación positiva y los mayores que 2 autocorrelación
negativa. Se podría asumir que los residuos son independientes cuando el estadístico de Durbin-Watson
está entre 1,5 y 2,5. Existen tablas con los valores críticos para poder realizar contrastes a partir de este
estadístico. Además, se puede comprobar visualmente la independencia en el gráfico de los residuos
viendo que no siguen ningún patrón.
7.3. CONTRASTAR LA HOMOCEDASTICIDAD
Se puede detectar heterocedasticidad de las distribuciones condicionadas con el gráfico de los resi-
duos en función de los valores previstos Ŷ o, equivalentemente, de los valores de X.
Figura 3. Ejemplos de residuos heterocedásticos
e e
Ŷ Ŷ
278 www.udima.es
Sumario │
La figura 3 muestra dos ejemplos de residuos heterocedásticos. En el gráfico de la izquierda se apre-

cia que la varianza no es constante, la variabilidad va cambiando con la magnitud de las observaciones
(primero va aumentando, luego disminuye para volver a aumentar). En el gráfico de la derecha además se
observa una componente no lineal. Los datos atípicos pueden observarse también en un gráfico de residuos,
viendo cuál se sale de la tónica general. Habrá que ver entonces cuál es el modelo (con el dato y sin el dato).
8. C
OEFICIENTE DE DETERMINACIÓN Y COEFICIENTE DE CORRELACIÓN
LINEAL
Se puede evaluar globalmente una recta de regresión mediante la varianza residual, que es un índice
de la precisión del modelo. Sin embargo, no es útil para comparar rectas de regresión de variables dis-
tintas porque depende de las unidades de medida de Y. Entonces, una medida más adecuada del ajuste
de una línea a las observaciones es la proporción de variabilidad explicada:
VE Σ (Ŷi – Y–)2
R2 = =
VT Σ (Yi – Y–)2
conocida como coeficiente de determinación del modelo.
En el caso particular de una ecuación de regresión lineal, la raíz cuadrada de ese coeficiente es el
coeficiente de correlación lineal r ya definido, ya que:
VE β̂ 12 nσ̂ X2 Cov2 (X, Y)

R2 = = = = r2
VT nσ̂ Y2 σ̂ X2 σ̂ Y2
es decir:
Cov (X, Y)
r=
σ̂X σ̂Y
El coeficiente de correlación toma valores en el intervalo [– 1, 1]. Un valor de r = 1indica relación

lineal positiva perfecta entre ambas variables, mientras que un valor de r = – 1 indica relación lineal
negativa perfecta entre X e Y. Un valor r = 0 indica ausencia de relación lineal entre las variables. r se
utiliza para comparar rectas de regresión entre sí, pero su uso indiscriminado puede llevar a confusio-
nes: puede que dos rectas tengan la misma eficacia predictiva y los mismos errores de estimación y, sin
embargo, conduzcan a distintos valores de r. Además, es muy peligroso utilizar r para comparar rectas
de regresión en distintas transformaciones de Y.
8.1. R
ELACIÓN ENTRE EL COEFICIENTE DE CORRELACIÓN Y LA VARIANZA
RESIDUAL
Se puede expresar el coeficiente de correlación lineal en función de la varianza residual:
VE VT – VNE (n – 2) Ŝ R2 (n – 2) Ŝ R2
r2 = = =1– ⇒r= 1–
VT VT nσ̂ Y2 nσ̂ Y2
www.udima.es 279
│ Sumario
Se puede utilizar el coeficiente de correlación para calcular la varianza residual sin tener que obte-
ner todos los residuos. Despejando la varianza residual se obtiene:
(1 – r2) nσ̂Y2
Ŝ R2 =
n–2
Esta fórmula es especialmente útil para cuando no se dispone de los datos explícitamente.
9. PREDICCIONES
Una de las finalidades más importantes del análisis de regresión es predecir el valor de Y para
X = xh (punto no observado). Sustituyendo en la recta de regresión, se obtiene:
Ŷh = β̂ 0 + β̂ 1 xh
En lugar de dar una estimación puntual de esta predicción, se puede dar un intervalo de confianza
para Yh. La variable pivote que se utiliza es la siguiente:
Yh – Ŷh
~ tn–2
√ Ŝ R2 (1 + Vhh)
donde:
– –
(xh – X )2
1 1 (xh – X )2
Vhh = + = +
n Σ (xi – X–)2 n nσ̂ X2
Pivotando se obtiene que el intervalo al 100 (1 – α) % de confianza para Yh es:
�Ŷh – tn–2,α/2 ŜR √ 1 + Vhh, Ŷh + tn–2,α/2 ŜR √ 1 + Vhh�
También se pueden obtener intervalos de confianza para las medias condicionadas E (Yh |xh). En este
caso el intervalo al 100 (1 – α) % es:
�Ŷh – tn–2,α/2 ŜR √ Vhh, Ŷh + tn–2,α/2 ŜR √ Vhh�
Obsérvese que tiene menor amplitud que el construido para Yh con el mismo nivel de confianza.
Uniendo los extremos de los intervalos de confianza para el mismo valor de α y cada valor de x, se
obtienen las denominadas bandas de confianza para la predicción y para la predicción de las medias
condicionadas.
Observación. Los límites de confianza calculados son válidos solo si es cierto el modelo. Si se
extrapola el modelo fuera del rango de datos mediante el cual se ha construido, se tiene el riesgo de que
la relación entre las variables deje de ser lineal.
280 www.udima.es
Sumario │
EJEMPLO 5
Dentro de la gestión de proyectos software, uno de los modelos de estimación relaciona de forma lineal las
variables Y = EFFORT (Esfuerzo para realizar el sistema en cuestión, medido en personas/mes) y X = LOC (Número
de líneas de código a desarrollar, en miles de líneas). Si se dispone de los datos recogidos en la tabla 4:
Tabla 4
LOC 30 32 31 37 29 39
EFFORT 82 90 83 98 80 103
a) Calcular la recta de regresión que permita predecir la variable EFFORT en función de la variable LOC
y obtener el coeficiente de correlación lineal.
b) Construir la tabla ANOVA y contrastar la bondad del modelo con una confianza del 95 %.
c) Contrastar la hipótesis de que al aumentar en 1000 el número de líneas de código, aumentan en 2 las
personas necesarias. Utilizar un nivel de confianza del 98 %.
d) Predecir el esfuerzo para realizar un sistema que necesita 35000 líneas de código para su desarrollo,
dando un intervalo de confianza al 90 % para esta predicción.
Primero se realizan algunos cálculos a partir de los datos:
‒ Σ xi 198 Σ xi2 ‒2
X= = = 33 σ̂ X2 = ‒X = 13,66
n 6 n
‒ Σ yi 536 Σ yi2 ‒2
Y= = = 89,33 σ̂ Y2 = ‒Y = 73,88
n 6 n
Σ xi yi ‒‒
Cov (X, Y) = ‒ X Y = 31,44
n
a) Para obtener la recta de regresión pedida, se calculan los estimadores de los parámetros β1 y β0, que
son, respectivamente, los siguientes:
Cov (X, Y) 31,44

β̂1 = = = 2,29
σ̂ X2 13,66
‒ ‒
β̂ 0 = Y ‒ β̂ 1 X = 89,33 ‒ 2,29 · 33 = 13,76
Con lo que la recta de regresión es:
Ŷi = 2,29 xi + 13,76
El coeficiente de correlación lineal es:
Cov (X, Y) 31,44

r= = = 0,99
σ̂X σ̂Y √ 13,66 · 73,88
Como se puede apreciar, existe una alta correlación entre las dos variables.
.../...
www.udima.es 281
│ Sumario
.../...
b) Se obtienen primero algunos de los elementos de la tabla ANOVA.
VT = nσ̂ Y2 = 6 · 73,88 = 443,28

VE = β̂ 12 nσ̂ X2 = 2,292 · 6 ∙ 13,66 = 429,8064
VNE = VT ‒ VE = 443,28 ‒ 429,8064 = 13,4736
La tabla ANOVA se muestra en la tabla 5.
Tabla 5. Tabla ANOVA
Variación Suma de cuadrados Grados de libertad Cociente
VE 429,8064 1 429,8064
VNE 13,4736 4 3,3684 = Ŝ R2
VT 443,28 5
Para contrastar la bondad del modelo al 95 % de confianza, se debe resolver el siguiente contraste con
α = 0,05:
H0: β1 = 0
H1: β1 ≠ 0
A partir de la tabla ANOVA se obtiene que la discrepancia observada es:
429,8064
F̂ * = = 127,5995
3,3684
Como F * ~ F1,4 si H0 es cierta y el contraste se resuelve a una cola, se busca en la tabla de la F de Snede-
cor el valor F1,4;0,05 = 7,709, que define la región crítica o de rechazo que es (7,709; ∞) Como F̂ * > 7,709,
existen evidencias para rechazar la hipótesis nula y, por tanto, la pendiente de la recta es significati-
vamente distinta de cero y existe relación lineal entre ambas variables.
Equivalentemente, este contraste también se puede resolver usando la medida de discrepancia:
β̂ 1 ‒ β1 β̂ 1
d= = ~ tn‒2, si H0 es cierta
ŜR2 ŜR2
nσ̂ X2 nσ̂ X2
c) Como el coeficiente β1 representa el aumento (o disminución) de la variable Y cuando X aumenta en

una unidad, se pide comprobar si se puede aceptar β1 = 2. Recuérdese que como X viene dada en miles
de líneas de código, un aumento de 1000 líneas equivale a aumentar X en 1. El contraste a resolver es
el siguiente:
H0: β1 = 2
H1: β1 ≠ 2
.../...
282 www.udima.es
Sumario │
.../...
La medida de discrepancia que se debe utilizar es:
β̂ 1 ‒ β1 β̂ 1 ‒ 2
d= = ~ tn‒2 = t4, si H0 es cierta
ŜR2 ŜR2
nσ̂ X2 nσ̂ X2
Sustituyendo, la discrepancia observada es d̂ = 1,502. Como el nivel de significación es α = 0,02, se busca

en la tabla correspondiente el valor t4;0,01 = 3,747, y la región de rechazo es (‒ ∞; ‒ 3,747) ∪ (3,747; ∞). El
valor observado para la discrepancia está fuera de dicha región, con lo que no existe evidencia para
rechazar H0.
Obsérvese que la varianza residual ŜR2 se había obtenido en la tabla ANOVA, pero también se podía
haber obtenido a partir de los residuos y a partir del coeficiente de correlación lineal mediante la
siguiente fórmula ya vista con anterioridad.
(1 ‒ r 2) nσ̂ Y2
ŜR2 =
n‒2
Equivalentemente, este contraste se puede resolver por medio de un intervalo de confianza. Al 98 %
el intervalo de confianza que se obtiene para β1 es el siguiente:
ŜR
�β̂ 1 ∓ t4;0,01 � = (1,56; 3,013)
√ nσ̂ X2
Como este intervalo contiene el valor 2, no existe evidencia suficiente para rechazar que β1 pueda ser
igual a 2 con α = 0,02.
d) El intervalo de confianza para una predicción es:
‒
�Y h ∓ tn‒2,α/2 ŜR √ 1 + Vhh�
donde:
‒ ‒
1 (xh ‒ X )2 1 (xh ‒ X )2
Vhh = + = +
n Σ (xi ‒ X‒ )2 n nσ̂ X2
En este caso xh = 35 y la estimación puntual de la predicción es, sustituyendo en la recta de regresión obtenida
en el apartado a), Ŷh = 93,91 (aproximadamente 94 personas/mes). Como se pide una confianza del 90 %, se
tiene α = 0,1 y buscando en la tabla de la t de Student, t4;0,05 = 2,132. Sustituyendo se obtiene Vhh = 0,21547 y
el intervalo de confianza al 90 % para Yh es:
(89,5961; 98,2239)
En la figura 4 se encuentra representada gráficamente la recta de regresión estimada para los datos del ejem-
plo 5, así como las bandas de confianza al 90 % para la predicción (bandas exteriores) y las correspondientes
a la predicción de las medias condicionadas (bandas interiores).
.../...
www.udima.es 283
│ Sumario
.../...
Figura 4. Recta de regresión y bandas de confianza
104
100
96
EFFORT
92
88
84
80

29 31 33 35 37 39
LOC
10. INTRODUCCIÓN AL MODELO DE REGRESIÓN LINEAL MÚLTIPLE
En muchas ocasiones, existen varias variables que están influyendo en la variable explicativa o
dependiente. Para tratar estos casos se utiliza el modelo de regresión lineal múltiple, que es una genera-
lización del modelo de regresión lineal simple a k variables de predicción o independientes.
Dada una variable aleatoria Y (variable de respuesta o dependiente) que puede depender linealmente
de k variables X1, X2, …, Xk (variables explicativas o independientes o predictoras), el modelo lineal
tiene la forma:
Yi = β0 + β1 x1i + β2 x2i + … + βk xki + ui
donde Yi es la i-ésima observación de la variable de respuesta o dependiente Y correspondiente a un

conjunto de valores fijos x1i, x2i, … xki de las variables explicativas. ui es el error aleatorio no observa-
ble asociado a la observación Yi. β0, β1, …, βk son los parámetros desconocidos. β0 es el término inde-
pendiente, mientras que el parámetro βi (i = 1, …, k) representa el efecto del incremento en Y cuando
aumenta Xk en una unidad.
Una vez estimado el modelo, se obtiene la recta de regresión múltiple:
Ŷi = β̂ 0 + β̂ 1 x1i + β̂ 2 x2i + … + β̂ k xki
Este modelo se desarrolla de forma similar al modelo de regresión lineal simple.
10.1. E
JEMPLO DE APLICACIÓN DE LA REGRESIÓN: MÚSICA CON REGRESIÓN
MÚLTIPLE (TRIOLA, 2000)
Sony fabrica millones de discos compactos en Terre Haute (Indiana). En una fase del proceso de
fabricación, un láser quema una placa fotográfica de modo que una señal musical se transforme en una
284 www.udima.es
Sumario │
señal digital codificada con ceros y unos. Este proceso se analizó estadísticamente con el fin de identificar
los efectos de diferentes variables, como la duración de la exposición al láser y el espesor de la emulsión
fotográfica. Los métodos de regresión múltiple indicaron que de todas las variables consideradas, cuatro
eran las más importantes. Se ajustó el proceso fotográfico para obtener resultados óptimos basándose en
las cuatro variables críticas. El resultado fue que el porcentaje de discos defectuosos se redujo conside-
rablemente y se mantuvo la calidad tonal. El uso de métodos de regresión múltiple abatió los costes de
producción e hizo posible un mejor control del proceso de fabricación.
www.udima.es 285
│ Sumario

• Saber ajustar una recta de regresión a un conjunto de datos dado.
• Conocer cómo obtener intervalos de confianza y contrastes de hipótesis para los parámetros
del modelo.
• Saber detectar si el modelo es adecuado o no y, por tanto, si se puede usar para realizar
predicciones.
Enunciado 1
En una investigación sobre la relación entre el tráfico X (en miles de automóviles cada 24 horas)
y el contenido en plomo Y de la corteza de los árboles cerca de la autopista (en μg/g de peso seco), se
obtuvieron los datos de la tabla siguiente:
Tabla 6
X 8,3 8,3 12,1 12,1 17 17 17 24,3 24,3 24,3 33,6
Y 227 312 362 521 640 539 728 945 738 759 1.263
a) Calcular la relación inicial que permita predecir, a partir del tráfico, el contenido en plomo
en la corteza de un árbol. ¿Cuál es el coeficiente de correlación lineal?
b) Contrastar al 90 % de confianza la bondad del modelo.
c) Contrastar la hipótesis de que un aumento en un punto en el tráfico provoca un incremento
de 40 unidades en el contenido en plomo en la corteza de los árboles.
d) Con un 95 % de confianza, ¿entre qué valores oscilará el contenido en plomo de la cor-
teza de los árboles cerca de una autopista con un tráfico de 20.000 automóviles cada
24 horas?
286 www.udima.es
Sumario │
Enunciado 2
Un gran almacén recopiló información sobre 10 campañas de ventas, de los gastos en publicidad
(X) y los beneficios netos (Y). Los resultados obtenidos son los siguientes (ambas variables medidas en
miles de euros):
10 10 10 10 10
Σ xi = 693, Σ xi2 = 48.141, Σ xi yi = 10.948 Σ yi = 1.575, Σ yi2 = 254.245
i=1 i=1 i=1 i=1 i=1
a) Calcular el coeficiente de correlación y la recta de regresión que permita predecir los bene-
ficios netos en función de los gastos de publicidad.
b) Obtener un intervalo de confianza al 90 % para la pendiente del modelo. Utilizando el inter-
valo obtenido, contrastar la afirmación de la agencia de publicidad de que 1.000 euros gas-
tados en publicidad aporta más de 5.000 euros de beneficios.
Enunciado 3
Una empresa inmobiliaria estudia la relación entre el tiempo en semanas que se tarda en vender los
pisos (Y) y el precio, en miles de euros, que se pide por ellos (X). La siguiente tabla contiene los datos
obtenidos en una muestra de diez pisos.
Tabla 7
X 220 275 300 242 256 225 155 175 305 195
Y 5,5 12 11,5 11 8,6 8,5 5,2 4,8 14,2 7
a) Obtener la recta de regresión que permita predecir el tiempo que se tarda en vender un piso
en función de su precio.
b) Contrastar que la pendiente de la recta es distinta de 0.
c) Predecir el tiempo que se tarda en vender una casa de 200.000 euros, dando un intervalo de
confianza del 90 %.
Enunciado 4
Una compañía quiere estudiar la relación entre el número de máquinas que esperan revisión en un
momento determinado y el tiempo promedio que necesitan los operadores para servir las máquinas. La
compañía elige al azar 8 registros que muestran el número de máquinas en espera al comienzo de un
periodo dado (X) y el número de servicios empleados por el operario durante el periodo (Y). Los resul-
tados obtenidos son los siguientes:
8 8 8 8 8
Σ
i=1
xi = 43, Σ
i=1
xi2 = 251, Σ
i=1
xi yi = 180 Σ
i=1
yi = 32, Σ
i=1
yi2 = 144
a) Calcular la recta de regresión que permita predecir el número de servicios que cumplirá un
operario a partir del número de máquinas en espera al principio del periodo.
b) Obtener un intervalo de confianza al 90 % para la pendiente del modelo.
www.udima.es 287
│ Sumario
Enunciado 5
En un estudio hecho por el departamento de transporte de Sin-City sobre el efecto de los precios
del billete de autobús (en céntimo de euro) sobre el número de pasajeros (en miles), se obtuvieron los
resultados de la tabla 8:
Tabla 8
Precio del billete .......................... 25 30 35 40 45 55 60
Miles de viajeros .......................... 800 780 780 660 600 620 620
a) Obtener la recta de regresión que permita predecir el número de pasajeros (Y ) a partir del
precio del billete (X) y calcular el coeficiente de correlación.
b) Contrastar la afirmación de que el número de miles de pasajeros que se pierden al aumentar
en un céntimo el precio del billete es menor o igual a 5. Utilizar α = 0,05. Calcular, además,
el nivel crítico o p-valor aproximado.
288 www.udima.es
Sumario │
Solución 1
a) La recta de regresión es Ŷi = 36,18 xi – 12,7668. El coeficiente de correlación lineal es

r = 0,956.
b) Se rechaza la hipótesis nula y por tanto el coeficiente β1 es significativamente distinto de
cero y el modelo es lineal.
c) Se obtiene un nivel crítico o p-valor p = 0,3396 y no se rechaza la hipótesis nula.
d) Como xh = 20, el intervalo al 95 % de confianza para la predicción es (492,3012; 929,3652).
Solución 2
a) El coeficiente de correlación lineal es r = 0,9448. La recta de regresión es Ŷi = 6,8949 xi –

– 320,31.
b) El intervalo de confianza al 90 % para β1 es (5,3233; 8,4665). Como el intervalo obtenido
está a la derecha del valor 5, no se puede rechazar la afirmación de la agencia de publicidad
(con base en la muestra observada).
Solución 3
a) La recta de regresión es Ŷi = 0,058 xi – 1,038576.

b) Se obtiene un nivel crítico o p-valor inferior a 0,01 y se rechaza la hipótesis nula de que la
pendiente es 0.
c) Como xh = 200, el intervalo al 90 % de confianza para la predicción es (3,95; 9,67).
Solución 4
a) La recta de regresión es Ŷi = 0,4025 xi + 1,8365.

b) El intervalo de confianza al 90 % para β1 es (– 0,233576; 1,038576).
Solución 5
a) La recta de regresión es Ŷi = – 6,238 xi + 952,62. El coeficiente de correlación lineal es

r = – 0,908.
b) La hipótesis nula es β1 = – 5 y la hipótesis alternativa es β1 < – 5. Al 95 % de confianza no
se rechaza la hipótesis nula. El p-valor es p = 0,173.
www.udima.es 289
│ Sumario
1. Un hospital quiere estudiar la relación entre el número de pacientes que esperan en una con-
sulta médica y el tiempo promedio que se utiliza para atender a los pacientes. Se recogieron
datos durante 6 periodos determinados que muestran el número de pacientes en espera al
comienzo de un periodo dado (X) y el número de pacientes atendidos por un médico durante
tal periodo (Y). Los resultados obtenidos son los siguientes:
6 6 6 6 6
Σ
i=1
xi = 40, Σ
i=1
xi2 = 300, Σ
i=1
xi yi = 232 Σ
i=1
yi = 31, Σ
i=1
yi2 = 183
a) Calcular la recta de regresión que permita predecir el número de pacientes atendidos

a partir del número de pacientes en espera al principio del periodo.
b) Obtener un intervalo de confianza al 90 % para la pendiente del modelo.
2. En un estudio sobre la relación entre la altura en pulgadas de los padres (X ) y la altura en

pulgadas del primer hijo varón (Y), se dispone de la muestra de 10 padres dada en la siguiente
tabla:
Tabla 9
X 66 64 68 65 69 63 71 67 69 70
Y 69 67 69 66 70 67 69 66 72 69
a) Obtener la recta de regresión que permita predecir la altura del primer hijo varón en
función de la altura de su padre y calcular el coeficiente de correlación lineal.
b) Predecir la altura del primer hijo varón del jardinero cuya altura es 65 pulgadas, dando
un intervalo de confianza del 90 %.
3. En un estudio de la calidad de los materiales empleados en la construcción se ha observado

la resistencia a la ruptura de vigas de madera (Y) y el peso específico relativo de la madera
(X ). 10 vigas seleccionadas al azar, con las mismas dimensiones de sección transversal, se
sometieron a esfuerzo hasta romperse. El resultado obtenido para la resistencia a la ruptura
y el peso específico relativo de la madera es el siguiente:
10 10 10 10 10
Σ
i=1
xi = 4,95, Σ
i=1
xi2 = 2,489, Σ
i=1
xi yi = 58,207 Σ
i=1
yi = 118,76, Σ
i=1
yi2 = 1415,704
Obtener la recta de regresión que permita predecir la resistencia a la ruptura a partir del peso
específico relativo de la madera y dar un intervalo de confianza al 95 % para la pendiente
del modelo.
290 www.udima.es
Sumario │
4. En un curso para aumentar la rapidez de lectura se desea comprobar si la ganancia en rapi-

dez de lectura (Y) medida en palabras por minuto se relaciona linealmente con el número
de semanas que ha estado el alumno en el curso (X). La siguiente tabla muestra los resulta-
dos obtenidos para 8 estudiantes.
Tabla 10
X 3 5 2 8 6 9 3 4
Y 86 118 49 193 164 232 73 109
a) Obtener la recta de regresión que permita predecir la ganancia en rapidez de lectura

en función del número de semanas en el curso y calcular el coeficiente de correlación
lineal.
b) La academia que imparte el curso asegura que sus alumnos podrán aumentar su velo-
cidad de lectura en al menos 26 palabras por minuto en una semana. Contrastar esta
afirmación.
5. En un estudio de salud pública, se ha tomado una muestra de 12 personas en una zona indus-
trial. Sus datos de edad (X) y concentración de percloroetileno en la sangre (Y ) figuran en
la siguiente tabla:
Tabla 11
X 48 34 40 33 29 58 37 25 47 23 28 43
Y 161 162 131 107 128 188 169 126 202 76 134 191
Suponiendo que la concentración depende linealmente de la edad:
a) Dar la recta de regresión y el coeficiente de correlación.

b) Dar la predicción de la concentración de percloroetileno para una persona de 50 años
de edad, y su intervalo de confianza al 95 %.
Básica

PEÑA, D.: Regresión y diseño de experimentos, Madrid: Alianza Editorial, 2001.
TRIOLA, M. F.: Estadística elemental, 7.ª ed., México: Addison Wesley Longman, 2000.
www.udima.es 291
│ Sumario
En la red
Applets para ajustar una recta de regresión a un conjunto de datos:

— http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html
— http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html
— http://www.sc.ehu.es/sbweb/fisica/cursoJava/numerico/regresion/regresion.htm
Tutoriales sobre regresión: http://stattrek.com/AP-Statistics-1/Correlation.aspx?Tutorial=Stat
Avanzada
RYAN, T. P.: Modern Regression Methods. New York: John Wiley & Sons, 1997.
292 www.udima.es

Manual Todos Los Temas

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual Todos Los Temas

Cargado por

Copyright:

Formatos disponibles

Sumario │

3. Descripción de datos mediante tablas

4. Descripción de datos mediante gráficos

5. Introducción al análisis exploratorio de datos

CONCEPTOS BÁSICOS A RETENER

FUNDAMENTOS DE ESTADÍSTICA Y PROBABILIDAD

Los objetivos de esta unidad didáctica son:

A. Moreno Díaz Introducción al análisis de datos

La estadística descriptiva comprende una serie de méto-

• Recoger y organizar datos referidos a las suce-

• Saber interpretar la información contenida en En 1790 envió cuestionarios estructurados a

2. VARIABLES Y DATOS. TIPOS DE DATOS

2.1. CLASIFICACIÓN DE LOS DATOS SEGÚN SU REPRESENTATIVIDAD

FUNDAMENTOS DE ESTADÍSTICA Y PROBABILIDAD

2.2. CLASIFICACIÓN DE LOS DATOS SEGÚN SU NATURALEZA

Por su naturaleza, los datos pueden clasificarse en cualitativos y cuantitativos.

2.3. CLASIFICACIÓN DE LOS DATOS SEGÚN LA ESCALA DE MEDIDA

A. Moreno Díaz Introducción al análisis de datos

La escala de medida depende principalmente del proceso de medida, no de la propiedad que se

3. DESCRIPCIÓN DE DATOS MEDIANTE TABLAS

3.1. TABLAS DE FRECUENCIAS UNIVARIANTES

FUNDAMENTOS DE ESTADÍSTICA Y PROBABILIDAD

Tabla 1. Formato general de una tabla de frecuencias

A. Moreno Díaz Introducción al análisis de datos

3 ....................... 3 3 0,03 0,03

FUNDAMENTOS DE ESTADÍSTICA Y PROBABILIDAD

Tabla 3. Modelo de tabla de frecuencias para datos agrupados

[L0 , L1) ....................... x'1 n1 ƒ1 = n1/n

[L1 , L2)........................ x'2 n2 ƒ2 = n2/n

[Li-1 , Li ) ...................... x'i ni ƒi = ni /n

[Lk-1 , Lk] ..................... x'k nk ƒk = nk /n

[0, 1) ........................ 0,5 2 0,02

Totales .................. 100 1

A. Moreno Díaz Introducción al análisis de datos

3.2. TABLAS DE FRECUENCIAS BIVARIANTES

El planteamiento general es el siguiente:

• Considerando ambas medidas de forma simultánea (distribución conjunta).

3.2.1. Distribución conjunta

Tabla 5. Distribución conjunta

a1 n11 n12 … n1j … n1p

a2 n21 n22 … n2j … n2p

ai ni1 ni2 … nij … nip

ak nk1 nk2 … nkj … nkp

FUNDAMENTOS DE ESTADÍSTICA Y PROBABILIDAD

3.2.2. Distribución marginal y condicionada

Tabla 7. Distribución conjunta y marginales

A. Moreno Díaz Introducción al análisis de datos

El nombre de marginal viene de la localización de estas distribuciones en los márgenes de la tabla

Se completa la tabla del ejemplo anterior añadiendo las distribuciones marginales:

FUNDAMENTOS DE ESTADÍSTICA Y PROBABILIDAD

Tabla 9. Distribución de frecuencias para X|Y = bj

Totales ................... nkj 1

Se llamará frecuencia relativa de la modalidad ai de X condicionada a la modalidad bj de Y a:

Del mismo modo, la frecuencia relativa de la modalidad bj de Y condicionada a la modalidad ai de

A. Moreno Díaz Introducción al análisis de datos

Conjunta = Marginal × Condicionada

ƒij = ƒji ƒi• = ƒji ƒ•j

ƒij ƒi• para todo j, y no es función de j.

La independencia es siempre recíproca. Cuando X e Y sean independientes, se verificará que la dis-

ƒij = ƒi• ƒ•j para todo i, j.

En la tabla estadística, la independencia se traduce en:

4. DESCRIPCIÓN DE DATOS MEDIANTE GRÁFICOS

FUNDAMENTOS DE ESTADÍSTICA Y PROBABILIDAD

4.1. DIAGRAMA DE BARRAS