EST1

Estadı́stica I
Estadı́stica I
Lihki Rubio
Departamento de Matemáticas y Estadı́stica

lihkir@uninorte.edu.co
Oficina 628J Piso 6 Bloque J
5 de agosto de 2022
Estadı́stica I
Estadı́stica I
1 Estadı́stica descriptiva
2 Probabilidad
3 Variables aleatorias unidimensionales

Estadı́stica I
Porcentaje y semana de evaluación
Primer Parcial (5ta semana): 20 %.

Actividad en Clase + Tareas en Excel: 5 %
Segundo Parcial (9na semana): 20 %.
Tercer Parcial (13ra semana): 20 %.
Examen final (registro): 20 %.
En el siguiente vı́deo podrá apreciar diferentes aplicaciones de la

Estadı́stica: Hans Rosling. El vı́deo completo de BBC pude ser
encontrado en el siguiente link: The Joy of Stats.
Estadı́stica I
Estadı́stica descriptiva
Estadı́stica
La estadı́stica, en singular, es la ciencia de recolectar, organizar, analizar
e interpretar información; las estadı́sticas, en plural, son números
obtenidos de un conjunto o colección de informaciones.
Ejemplo 1.1
Los investigadores calculan que toda la familia de computadoras personales
de la marca IBM, controla alrededor del 40 % de las microcomputadoras
vendidas en Estados Unidos. El número 40 % es un ejemplo de estadı́stico.
Estadı́stica I
Estadı́stica
La estadı́stica, en singular, es la ciencia de recolectar, organizar, analizar
e interpretar información; las estadı́sticas, en plural, son números
obtenidos de un conjunto o colección de informaciones.
Ejemplo 1.1
Los investigadores calculan que toda la familia de computadoras personales
de la marca IBM, controla alrededor del 40 % de las microcomputadoras
vendidas en Estados Unidos. El número 40 % es un ejemplo de estadı́stico.
Población
Una población es el total de la información o de los objetos de interés
para un estadı́stico en una investigación particular.
Muestra
Una muestra es cualquier subconjunto de una población.
Estadı́stica I
Ejemplo 1.2
Un fabricante de calentadores de petróleo quiere determinar si los
consumidores están satisfechos con la fabricación de sus aparatos; con ese
propósito localiza a 5,000 de sus 200,000 clientes y les pregunta: ¿Está
satisfecho con la fabricación del calentador que compró? Identificar la
población y la muestra para este caso
Solución:
La población es la colección hipotética de respuestas de los 200.000
clientes; no hemos preguntado a toda la población, pero esperamos
aprender algo mediante la muestra
La muestra la constituyen las 5000 respuestas dadas por los clientes
interrogados
Estadı́stica I
Decision-Making
El precio de las acciones de TSLA probablemente será más alto

dentro de seis meses que ahora
Si el déficit presupuestario público es tan elevado como se prevé, es
probable que los tipos de interés se mantengan altos durante el resto
del año
La renta anual de un titulado universitario probablemente será mayor
que la renta anual de una persona sin estudios universitarios
Estadı́stica I
Parámetro y estadı́stico
Un parámetro es una caracterı́stica especı́fica de una población. Un
estadı́stico es una caracterı́stica especı́fica de una muestra.
Ejemplo 1.3
A los asistentes a 1500 centros nocturnos se les dio un cuestionario
confidencial preguntándoles cuanta propina habı́an dejado; los cálculos
posteriores demostraron que la propina promedio fue de alrededor de 15 %
sobre el total del consumo. ¿Es parámetro o estadı́stico 15 %?.
Solución: Si solo están en estudio los 1500 establecimientos, entonces la

información sobre las propinas de esos establecimientos constituye la
población y 15 % del consumo es el parámetro; sin embargo, si el dato de
las propinas de los 1500 establecimientos forma una muestra de la
población mayor de datos de propinas, entonces 15 % del consumo es un
estadı́stico.
Estadı́stica I
Estadı́stica descriptiva e inferencial

La estadı́stica descriptiva está formada por los métodos gráficos y
numéricos que se utilizan para resumir y procesar los datos y
transformarlos en información.
Ejemplo 1.4
Una mujer dedicada a la polı́tica desea saber el porcentaje exacto de

votos que obtuvo en la última elección.
Marı́a quiere describir la variación que hay en las cinco calificaciones
de exámenes que comprenden la primera cuarta parte de su curso de
cálculo
Al señor Smith le interesa determinar el promedio semanal total de
sus gastos en comestibles durante los últimos tres meses.
Estadı́stica I
Estadı́stica inferencial
La estadı́stica inferencial constituye la base para hacer predicciones,
previsiones y estimaciones que se utilizan para transformar la información
en conocimiento.
Ejemplo 1.5
Con base en una encuesta de opinión, a un polı́tico le gustarı́a

calcular la oportunidad de reelegirse en las próximas elecciones.
Con apoyo en la variación de sus calificaciones de exámenes en la
primera cuarta parte del curso de cálculo, Marı́a desea predecir la que
tendrá en las calificaciones de exámenes de la segunda cuarta parte
del curso de cálculo.
El señor Smith desea calcular el monto semanal promedio que gastará
en comestibles el año próximo, tomando como base sus facturas de
comestibles del último año.
Estadı́stica I
Ejemplo 1.6 (Producción de cereales)

Un jefe de producción de Cereales de Trigo formó un equipo de empleados
para estudiar el proceso de producción de cereales. El jefe querı́a estudiar
datos relacionados con las pautas de producción diaria. Se hallaron los
niveles de producción (en miles) de un periodo de 10 dı́as. Represente
estos resultados gráficamente y comente sus observaciones.
Dı́a 1 2 3 4 5 6 7 8 9 10
Cajas (miles) 84 81 85 82 85 84 109 110 60 63
Solución:
En la siguiente figura el jefe de producción puede identificar los dı́as de
baja producción, ası́ como los dı́as de mayor producción
Estadı́stica I
Inferencias y deducciones
La inducción consiste en razonar desde los ejemplos especı́ficos al

caso general.
La deducción consiste en razonar desde el caso general hasta los
ejemplos más especı́ficos.
Estadı́stica I
Ejemplo 1.7
Si después de probar un cierto número de uvas de un platón llegamos a la
generalización de que todas las uvas contenidas ahı́ están agrias, estamos
usando un razonamiento inductivo; la generalización de que todas las uvas
del platón están agrı́as es un ejemplo de inferencia.
Inferencia
Una inferencia es una generalización obtenida mediante inducción.
Confiabilidad
La confiabilidad de una inferencia es un aspecto fundamental de la
estadı́stica inferencial. Una inferencia es confiable si se puede depender de
ella con una cierta seguridad, ya que no puede describirse con exactitud
una caracterı́stica de la población si la inferencia no es confiable. La teorı́a
de la probabilidad que abordaremos en este curso debe usarse al
determinar la confiabilidad de una inferencia.
Estadı́stica I
Clasificación de las variables
Variables categóricas
Las variables categóricas producen respuestas que pertenecen a

grupos o categorı́as.
Ejemplo 1.8
Las respuestas a preguntas sı́/no son categóricas

Preguntas sobre el sexo, el estado civil y la carrera universitaria
El profesor de este curso es un buen profesor (1: totalmente en
desacuerdo; 2: un poco en desacuerdo; 3: ni de acuerdo ni en
desacuerdo; 4: un poco de acuerdo; 5: totalmente de acuerdo
Estadı́stica I
Variables numéricas
Las variables numéricas pueden ser variables discretas o continuas.
Una variable numérica discreta puede tener (pero no necesariamente)
un número finito de valores. El tipo más frecuente de variable
numérica discreta produce una respuesta que proviene de un proceso
de conteo.
Una variable numérica continua puede tomar cualquier valor en un
intervalo dado de números reales y normalmente proviene de un
proceso de medición (no de recuento).
Ejemplo 1.9 (Datos discretos)
El número de estudiantes matriculados en una clase, el número de

créditos universitarios obtenidos por un estudiante al final de un
cuatrimestre, el número de acciones de Microsoft que contiene la
cartera de un inversor.
Estadı́stica I
Ejemplo 1.10 (Datos continuos)

La altura, el peso, el tiempo, la distancia y la temperatura.
El peso de las cajas de cereales, el tiempo que se hace una persona en
una carrera y la distancia entre dos ciudades
El siguiente ejemplo motiva lo que definiremos como niveles de medición

para variables cualitativas y cuantitativas.
Ejemplo 1.11
A un jugador de baloncesto se le asigna el número ((20)) y a otro el
número ((10)), no podemos extraer la conclusión de que el primero es
el doble de bueno que el segundo.
Cuando un estudiante obtiene una puntuación de 90 en un examen y
otro obtiene una puntuación de 45, la diferencia es mensurable y
tiene un significado.
Estadı́stica I
Niveles de medición
Niveles de medición
Los niveles de medición pueden ser nominales y ordinales de datos
cualitativos y se refieren a los datos que se obtienen con preguntas
categóricas.
Nivel de medición nominal

Los valores de las variables nominales son palabras que describen las
categorı́as o clases de respuestas.
Ejemplo 1.12
Asignamos arbitrariamente un código o un número a cada respuesta. Sin
embargo, este número no se emplea más que para clasificar.
1 = Hombres 1 = Sı́
2 = Mujeres 2 = No
Estadı́stica I
Nivel de medición ordinal

Los datos ordinales indican el orden que ocupan los objetos y, al igual
que en el caso de los datos nominales, los valores son palabras que
describen las respuestas.
Ejemplo 1.13
Valoración de la calidad del producto (1: malo; 2: medio; 3: bueno).

Valoración de la satisfacción con el servicio de comedor de la
universidad (1: muy insatisfecho; 2: moderadamente insatisfecho; 3:
ninguna opinión; 4: moderadamente satisfecho; 5: muy satisfecho).
Preferencia de los consumidores entre tres tipos de bebidas (1: el que
más se prefiere; 2: segunda opción; 3: tercera opción).
En estos ejemplos, las respuestas son ordinales, es decir, siguen un

orden, pero la ((diferencia)) entre ellas no tiene ningún significado
mensurable.
Estadı́stica I
Gráficos para describir variables categóricas
Las variables categóricas pueden describirse utilizando tablas de

distribución de frecuencias y gráficos como: gráficos de barras,
gráficos de tarta y diagramas de Pareto.
Estadı́stica I
Gráficos para describir variables categóricas
Las variables categóricas pueden describirse utilizando tablas de

distribución de frecuencias y gráficos como: gráficos de barras,
gráficos de tarta y diagramas de Pareto.
Distribución de frecuencias
Una distribución de frecuencias es una tabla utilizada para organizar
datos
La columna de la izquierda (llamada clases o grupos) contiene todas
las respuestas posibles sobre una variable estudiada.
La columna de la derecha es una lista de las frecuencias o número de
observaciones correspondientes a cada clase.
Estadı́stica I
Tablas de distribución de frecuencias

Las clases que utilizamos para construir tablas de distribución de
frecuencias de una variable categórica son sencillamente las respuestas
posibles a la variable categórica.
Ejemplo 1.14
¿Qué empresas ocuparon los primeros puestos en Florida central en 2003?
Empresa Número de asalariados

Disney World 51.600
Florida Hospital 19.283
Publix Supermarkets Inc. 14.995
Wal-Mart Stores Ind. 14.995
Universal Orlando 12.000
Estadı́stica I
Gráficos de barras y gráficos de tarta

Los gráficos de barras y los gráficos de tarta se utilizan normalmente para
describir datos categóricos.
Observación
Si nuestro objetivo es llamar la atención sobre la frecuencia de cada
categorı́a, lo más probable es que tracemos un gráfico de barras.
Si es hacer hincapié en la proporción de cada categorı́a, es probable
que elijamos un gráfico circular. En un gráfico de barras, la altura de
un rectángulo representa esta frecuencia.
Estadı́stica I
Ejemplo 1.15
Número de estudiantes matriculados en tres especialidades de
administración de empresas, 2000 y 2005.
Especialidad 2000 2005

Finanzas 160 250
Marketing 140 200
Contabilidad 100 150
Solución: Basarse en el siguiente Tutorial usando Excel.

Observación
Cuando también interesan los componentes de las distintas categorı́as,
puede utilizarse una interesante y útil extensión del gráfico de barras
simple. Este tipo de gráfico se llaman: gráfico de barras agrupado y
apilado.
Estadı́stica I
Figura 1: Gráfico de barras agrupado usando R. Ejemplo 1.15.

Estadı́stica I
Figura 2: Gráfico de barras apilado usando R. Ejemplo 1.15.

Estadı́stica I
Gráfico circular
Si queremos llamar la atención sobre la proporción de frecuencias en cada
categorı́a, probablemente utilizaremos un gráfico circular para representar
la división de un todo en sus partes integrantes.
Ejemplo 1.16
El gerente de una universidad pidió una desagregación de los gastos de
viaje de los profesores que asistı́an a diversas reuniones profesionales. Se
observó que el 31 por ciento de los gastos estaba representado por los
costes de transporte, el 25 por ciento por los costes de alojamiento, el 12
por ciento por los gastos de alimentación, el 20 por ciento por los gastos
de matrı́cula y el resto por costes varios. Represente gráficamente los
siguientes datos.
Estadı́stica I
Solución:
Basarse en el siguiente Tutorial
usando Excel
Gastos % Costes
Transporte 31
Alojamiento 25
Alimentaión 12
Gastos de matricula 20
Varios 12
Diagrama de Pareto
Un diagrama de Pareto es un gráfico de barras que muestra la frecuencia
de las causas de los defectos. La barra de la izquierda indica la causa más
frecuente y las de la curva (o derecha) indican las causas con frecuencias
decrecientes.
Estadı́stica I
Identificar las principales causas de los problemas e intentar

corregirlas rápidamente con un coste mı́nimo a menudo.
Ejemplo 1.17
Considere la siguiente tabla de frecuencias asociada a ciertos tipos de
errores en una compañı́a, y realice un diagrama de Pareto
Categorı́a Tipo de error Frecuencia

1 Códigos de procedimientos y diagnósticos 40
2 Información de proveedor 9
3 Información del paciente 6
4 Tablas de precios 17
5 Solicitudes de contratos 37
6 Ajustes de los proveedores 7
7 Otros 4
Estadı́stica I
Solución: Considere el siguiente Tutorial usando Excel.
Figura 3: Gráfico de Pareto usando Excel. Ejemplo 1.17.

Estadı́stica I
Gráficos para describir variables numéricas

Diagrama de tallo y hojas
Es un gráfico de (EDA) alternativo al histograma.

Los datos se agrupan de acuerdo con sus primeros dı́gitos (llamados
tallo) y se hace un listado de los últimos dı́gitos (llamados hojas) de
cada miembro de una clase, organizadas en orden ascendente después
de cada uno de los tallos.
Ejemplo 1.18
Construyamos un diagrama de tallo y hojas para la colección de 25
calificaciones en un examen de álgebra:
78 67 65 87 75 65 71 54 94
64 84 82 81 68 85 76 89
98 59 57 79 65 59 80 67
Estadı́stica I
Solución: Basarse en el siguiente Tutorial usando Excel. Antes debe

instalar MegaStat.
Como todas las calificaciones caen entre 50 y 99, usemos los dı́gitos
de las decenas en cada caso como el tallo y los de las unidades como
la hoja.
Coloque los tallos en forma vertical usando un segmento de lı́nea
vertical, llamado tronco para separar los tallos de las hojas
Coloque cada hoja a la derecha de su tallo. Como la primera
calificación es 78, colocamos la hoja 8 en su tallo 7.
5
6
7 8
8
9
Estadı́stica I
Si continuamos el proceso con cada calificación, obtendremos el

diagrama de tallo y hojas
5 9 7 4 9
6 4 5 7 5 7 8 5
7 8 6 1 9 5
8 5 4 2 9 7 1 0
9 8 4
Organizando las hojas en orden ascendente, tal como lo hace el
algoritmo de R obtenemos
5 4 7 9 9
6 4 5 5 5 7 7 8
7 1 5 6 8 9
8 0 1 2 4 5 7 9
9 4 8
Estadı́stica I
Utilizando el complemento MegaStat de Excel se obtiene
Al observar el diagrama de tallo y hojas anterior podemos concluir

que:
1. La calificación más alta es 98.
2. La menor es 54.
3. Las calificaciones varı́an de 54 a 98.
4. El tallo 9 tiene menos hojas.
5. Los tallos 6 y 8 contienen más hojas, siete en cada uno.
6. El número total de hojas representa el tamaño de la muestra.
Estadı́stica I
Ejemplo 1.19
Un estudio nacional sobre la utilidad de los reguladores de corriente, reveló
que los costos de la energı́a eléctrica varı́an ampliamente a lo largo de
Estados Unidos. Estos costos en las 25 ciudades más caras, medidos por el
precio promedio en centavos y por kilowat/hora, en 1984 fueron:
16.5 14.3 14.3 13.9 13.8 11.2 11.1 11.1 10.8

13.1 12.8 12.1 12.0 11.8 10.8 10.8 10.7
11.6 11.4 11.3 11.3 11.2 10.8 10.6 10.6
Solución:
Ignoraremos los puntos decimales; cada valor en el arreglo final puede
llevar a su valor original multiplicando por 0.1. Ası́, trataremos los
números como de tres dı́gitos comprendidos entre 106 y 165.
Estadı́stica I
10 6 6 7 8 8 8
11 1 1 2 2 3 3 4 6 8
12 0 1 8
13 1 8 9
14 3 3
15
16 5
Podemos determinar fácilmente que un 20 % de los costos promedio

son superiores a 13.1 centavos.
Observación 1.20
En esta aplicación no serı́a aconsejable usar hojas de dos dı́gitos y ramas
de un dı́gito porque todas las hojas estarı́an en el mismo tallo, y ¿de qué
servirı́a un diagrama de tallo y hojas con un solo tallo?
Estadı́stica I
Ejemplo 1.21
Los datos siguientes representan cambios porcentuales de un año, en el
número de prisioneros en 25 prisiones federales y estatales.
0.6 12.9 10.8 11.7 0.4 -11.1 0.6 2.5 0.2 -4.4
-1.4 -3.2 -1.7 -1.2 7.0 -10.1 19.2 20.6 -0.5 9.8
2.1 16.3 8.8 20.8 4.1
El correspondiente diagrama de tallo y hojas es

-1 0.1 1.1
-0 0.5 1.2 1.4 1.7 3.2 4.4
+0 0.2 0.4 0.6 0.6 2.1 2.5 4.1 7.0 8.8 9.8
1 0.8 1.7 2.9 6.3 9.2
2 0.6 0.8
Estadı́stica I
Usando números enteros de tres dı́gitos

-1 01 11
-0 05 12 14 17 32 44
+0 02 04 06 06 21 25 41 70 88 98
1 08 17 29 63 92
2 06 08
Gráfico de series temporales

Un gráfico de series temporales representa una serie de datos en varios
intervalos de tiempo. Midiendo el tiempo en el eje de abscisas y la
cantidad numérica que interesa en el de ordenadas se obtiene un punto en
el gráfico por cada observación. Uniendo los puntos contiguos en el tiempo
por medio de lı́neas rectas se obtiene un gráfico de series temporales.
Estadı́stica I
Ejemplo 1.22
Realice un gráfico para la serie de tiempo correspondiente a la evolución
del precio de cierre de las acciones de Bancolombia.
Solución: Basarse en el siguiente Tutorial usando Excel.

Estadı́stica I
Distribuciones de frecuencias
Una distribución de frecuencias de datos numéricos es una tabla
que resume datos, enumerando las clases en la columna de la
izquierda y el número de observaciones de cada clase en la columna
de la derecha.
Distribución de frecuencia relativa y acumulada.
Se obtiene una distribución de frecuencias relativas dividiendo cada

frecuencia por el número de observaciones. Multiplicando la
proporción resultante por 100 obtenemos distribución de porcentaje.
Una distribución de frecuencias acumuladas contiene el número
total de observaciones cuyos valores son menores que el lı́mite
superior de cada intervalo.
Estadı́stica I
Tabla de frecuencias simple.

Una tabla de frecuencias simple contiene las siguientes columnas
xi : i-ésimo dato
fi : Número de veces que se repite un dato
fr : Frecuencia relativa fri = fi /N
F : frecuencia acumulada
Ejemplo 1.23
Las siguientes son asistencias de un conjunto de personas al Centro
Comercial el último mes. Construya una tabla de frecuencias simple
2 3 0 1 5
3 2 3 0 0
2 1 2 1 0
2 1 1 1 3
4 0 0 2 1
Estadı́stica I
Solución: Basarse en el siguiente Tutorial usando Excel

xi fi fr % F
0 6 0.24 24 6
1 7 0.28 28 13
2 6 0.24 24 19
3 4 0.16 16 23
4 1 0.04 4 24
5 1 0.04 4 25
P
i 25 1 100
Construcción de una distribución de frecuencias

Decidir c, el número de intervalos (clases).
Los intervalos (clases) no deben solaparse y deben ser de la misma
amplitud, w; la amplitud viene determinada por:
Número mayor - Número menor
w=
Número de intervalos
Estadı́stica I
Ejemplo 1.24
Los datos adjuntos representa las edades de un conjunto de estudiantes
22 19 16 13 18 15 20 14 15 16
15 16 20 13 15 18 15 13 18 15
Tabla de frecuencias agrupada.
Rango: R = U − L
c: Número de intervalos ≈ entero impar mas cercano.
w: Amplitud (longitud de clases)
El valor de w se toma como el mı́nimo entero mayor que R/c
X: Marca de clase (promedio entre lı́mites del intervalo)
l1 + l2
X=
2
Estadı́stica I
c es dado, aleatorio o calculado por Regla de Sturges o de la Raı́z

c = 1 + ln(N )/ ln(2) = 1 + ln(20)/ ln(2) ≈ 5.32 ≈ 5
R 9
w= = = 1.8 ≈ 2
c 5
Clases X f fr % F
[13-15) 14 4 0.2 20 4
[15-17) 16 9 0.45 45 13
[17-19) 18 3 0.15 15 16
[19-21) 20 3 0.15 15 19
[21-23) 22 1 0.05 5 20
P
20 1 100
Cuadro 1: Tabla de frecuencias agrupada.
Estadı́stica I
c es dado, aleatorio o calculado por Regla de Sturges o de la Raı́z

c = 1 + ln(N )/ ln(2) = 1 + ln(20)/ ln(2) ≈ 5.32 ≈ 5
R 9
w= = = 1.8 ≈ 2
c 5
Clases X f fr % F
[13-15) 14 4 0.2 20 4
[15-17) 16 9 0.45 45 13
[17-19) 18 3 0.15 15 16
[19-21) 20 3 0.15 15 19
[21-23) 22 1 0.05 5 20
P
20 1 100
Cuadro 1: Tabla de frecuencias agrupada.
Número de clases para una tabla de frecuencias agrupadas:

El numero de clases nomalmente esté entre 5 y 15 clases (inclusive).
Estadı́stica I
Ejemplo 1.25
El conjunto de datos siguiente representa los totales de efectivo (en
dólares) gastados en un cierto fin de semana por 25 estudiantes
graduados. Construya una tabla de frecuencias agrupadas.
39.78 28.30 28.31 17.95 44.47

46.65 31.47 33.45 29.17 48.39
82.71 43.63 41.17 47.32 52.16
25.94 50.32 35.25 35.70 17.89
60.20 48.14 22.78 38.22 23.25
Estadı́stica I
Solución:
Rango: R = U − L = 82.71 − 17.89 = 64.82
√ √
Regla de Raı́z: If N < 200; c = N Else If N > 200; c = 3 N
√ √
N = 25 =⇒ c = N = 25 = 5
Ancho de clase: w = R/c = 64.82/5 = 12.96 ≈ 13

Construcción primera clase: L = 17.89 y w = 13. La unidad es 0.01 y
(0.5) · (0.01) = 0.005. Si x es frontera superior entonces
w = x + 0.005 − 17.885
13 = x − 17.88
x = 30.88
Estadı́stica I
Primera clase: [17.89, 30.88)

Estadı́stica I
Primera clase: [17.89, 30.88)
Sumando w = 13 a los lı́mites de clase precedentes

Clases X f fr % F
[17.89-30.88) 24.385 8 0.32 32 8
[30.88-43.88) 37.385 8 0.32 32 16
[43.88-56.88) 50.385 7 0.28 28 23
[56.88-69.88) 63.385 1 0.04 4 24
[69.88-82.88) 76.385 1 0.04 4 25
P
25 1 100
Estadı́stica I
Histogramas y ojivas.
Histograma
Un histograma es un gráfico formado por barras verticales construidas
sobre una lı́nea recta horizontal delimitada por los intervalos de la
variable mostrada.
Los intervalos corresponden a los de una tabla de distribución de
frecuencias.
La altura de cada barra es proporcional al número de observaciones
que hay en ese intervalo.
Estadı́stica I
Histogramas y ojivas.
Histograma
Un histograma es un gráfico formado por barras verticales construidas
sobre una lı́nea recta horizontal delimitada por los intervalos de la
variable mostrada.
Los intervalos corresponden a los de una tabla de distribución de
frecuencias.
La altura de cada barra es proporcional al número de observaciones
que hay en ese intervalo.
Ojiva
Una ojiva, llamada a veces gráfica de frecuencias acumuladas, es una lı́nea
que conecta puntos que son el porcentaje acumulado de observaciones
situadas por debajo del lı́mite superior de cada intervalo en una
distribución de frecuencias acumuladas.
Estadı́stica I
Ejemplo 1.26
Realice diagramas de histograma y ojiva para la tabla de frecuencias
asociada al Ejemplo 1.25.
Solución: Considere el siguiente Tutorial usando Excel.
8 Poligonal
7
6
Frecuencia
0
17.89 30.89 43.89 56.89 69.89 82.89
Lı́mites de clase
Figura 4: Histograma de Frecuencias: Ejemplo 1.25.

Estadı́stica I
25 Ojiva
Frecuencia acumulada
20
15
10
0
17.89 30.89 43.89 56.89 69.89 82.89
Lı́mites de clase
Figura 5: Histograma de Frecuencias Acumuladas: Ejemplo 1.25.

Estadı́stica I
Observación 1.27
En algunos histogramas veremos que la mitad o el centro del gráfico
los divide en dos ((imágenes gemelas)), de manera que la parte de uno
de los lados es casi idéntica a la del otro.
Los histogramas que tienen esta forma son simétricos; los que no la
tienen son asimétricos o sesgados.
Estadı́stica I
Observación 1.27
Simetrı́a
Se dice que la forma de un histograma es simétrica si las observaciones
están equilibradas, es decir, distribuidas de una manera uniforme a un lado
y a otro del punto medio del histograma.
Estadı́stica I
Observación 1.27
Simetrı́a
Se dice que la forma de un histograma es simétrica si las observaciones
están equilibradas, es decir, distribuidas de una manera uniforme a un lado
y a otro del punto medio del histograma.
Sesgo
Una distribución está sesgada o es asimétrica si las observaciones no están
distribuidas simétricamente en ninguno de los lados de la mitad.
Estadı́stica I
Figura 6: Distribuciones a) simétrica, b) sesgada positivamente, c) sesgada

negativamente.
Estadı́stica I
Medidas de tendencia central.

Observación 1.28
El propósito de una medida de tendencia central es resumir un
conjunto de datos de forma que podamos tener un panorama general;
una medida tal sirve como representante del resto de la información.
Una medida de tendencia central de un conjunto de datos
proporciona también una idea del valor central de un conjunto
aparentemente desorganizado de observaciones.
Estadı́stica I

Observación 1.28
El propósito de una medida de tendencia central es resumir un
conjunto de datos de forma que podamos tener un panorama general;
una medida tal sirve como representante del resto de la información.
Una medida de tendencia central de un conjunto de datos
proporciona también una idea del valor central de un conjunto
aparentemente desorganizado de observaciones.
Ejemplo 1.29
Pesos en libras: 5, 6, 12 , 15 y 20.
Calificaciones para un examen: 31 , 73 , 78, 79, 80 y 81.
Colores de coches: tres blancos, cuatro rojos, siete negros y uno azul.
Puestos académicos: 7 profesores, 3 profesores asociados, 2 profesores
asistentes y 10 instructores
Estadı́stica I

La media es el promedio aritmético
La mediana es el puntaje ordenado medio
La moda, si existe, es el puntaje más frecuente
El rango medio es el promedio aritmético de las medidas mayor y
menor
Estadı́stica I

menor
Observación 1.30
Para describir las medidas centrales en el Ejemplo 1.29, usarı́amos la
media para el ejemplo 1, la mediana para el ejemplo 2 y la moda para los
ejemplos 3 y 4.
Estadı́stica I

menor
Observación 1.30
Para describir las medidas centrales en el Ejemplo 1.29, usarı́amos la
media para el ejemplo 1, la mediana para el ejemplo 2 y la moda para los
ejemplos 3 y 4.
Media
La media o promedio aritmético de un conjunto de números se
encuentra sumando los números y dividiendo después la suma entre n, el
número de medidas.
Estadı́stica I
Ejemplo 1.31
Los diez puntajes siguientes representan el número de puntos anotados en
diez juegos de basquetbol por el jugador A: 6, 10, 3 , 7, 6, 6, 8, 5, 9 y 10
Estadı́stica I
Ejemplo 1.31
Solución: La media es
6 + 10 + 3 + 7 + 6 + 6 + 8 + 5 + 9 + 10 70
= =7
10 10
El valor 7 representa, en algún sentido, el número central o ”medio”de los
puntos anotados en diez juegos por el jugador A.
Estadı́stica I
Ejemplo 1.31
Solución: La media es
6 + 10 + 3 + 7 + 6 + 6 + 8 + 5 + 9 + 10 70
= =7
10 10
El valor 7 representa, en algún sentido, el número central o ”medio”de los
puntos anotados en diez juegos por el jugador A.
Media muestral Media poblacional
n
X N
xi
X
xi
i=1
x= µ= i=1
n N
Estadı́stica I
Ejemplo 1.32
Los totales anuales, en miles de millones de dólares, para las exportaciones
agrı́colas de Estados Unidos de 1974 a 1983 son: 21.9, 21.9, 23.0, 23.6,
29.4, 34.7, 41.2, 43.3, 39.1 y 33.7. Determine la media si los datos
constituyen una población.
Estadı́stica I
Ejemplo 1.32
P
Solución: La suma de las medidas es x = 311.8. En consecuencia, la
media poblacional es
XN
xi
311.8
µ = i=1 = = 31.18
N 10
Estadı́stica I
Ejemplo 1.32
P
Solución: La suma de las medidas es x = 311.8. En consecuencia, la
media poblacional es
XN
xi
311.8
µ = i=1 = = 31.18
N 10
Observación 1.33
Suponga que hemos registrado el color de cabello de diez estudiantes de
un colegio; la frase “color promedio de cabello” no tiene sentido, los datos
de esta situación son cualitativos y la media se puede calcular solo para
datos cuantitativos.
Estadı́stica I
Ejemplo 1.34
En ocasiones muchas observaciones comparten valores comunes, como en
las distribuciones de frecuencia no agrupada. Suponga que tenemos la
muestra siguiente de edades en año de principiantes de una universidad:
18 18 18 18 19 19 19 20 20 21
Solución:
Si aplicamos la definición de media muestral, a estos datos
obtenemos:
Xn
xi
i=1 190
x= = = 19
n 10
P
Para encontrar x, es más simple sumar los cuatro productos
(4)(18), (3)(19), (2)(20) y (1)(21).
Cada producto puede escribirse como f x, donde f es la frecuencia
con que aparece una edad x.
Estadı́stica I
x f fx
18 4 72
19 3 57
20 2 40
21 1 21
10 190
La media muestral también es igual a
X
fx 190
x= X = = 19
f 10
Media muestral para datos en una tabla de frecuencias

X
fx
x= P
f
Estadı́stica I
Mediana muestral
La mediana muestral se obtiene ordenando primero las n observaciones de
la más pequeña a la más grande (con cualesquiera valores repetidos
incluidos de modo que cada observación muestral aparezca en la lista
ordenada). Entonces,
(
El valor medio único si n es impar
x̃ =
El promedio de los dos valores medios si n es par
 n-ésimo
 n + 1
valor ordenado


= 2
 n n-ésimo n n-ésimo
promedio de
 y +1 valores ordenados.
2 2
Estadı́stica I
Ejemplo 1.35
Considérense las siguientes observaciones ordenadas de concentración de
receptores de transferrina de una muestra de mujeres con evidencia de
laboratorio de anemia por deficiencia de hierro evidente (“Serum
Transferrin Receptor for the Detection of Iron Deficiency in Pregnancy”,
Amer. J. of Clinical Nutrition, 1991: 1077-1081):
7.6 8.3 9.3 9.4 9.4 9.7 10.4 11.5 11.9 15.2 16.2 20.4
Estadı́stica I
Ejemplo 1.35
Considérense las siguientes observaciones ordenadas de concentración de
receptores de transferrina de una muestra de mujeres con evidencia de
laboratorio de anemia por deficiencia de hierro evidente (“Serum
Transferrin Receptor for the Detection of Iron Deficiency in Pregnancy”,
Amer. J. of Clinical Nutrition, 1991: 1077-1081):
7.6 8.3 9.3 9.4 9.4 9.7 10.4 11.5 11.9 15.2 16.2 20.4
Solución: Como n = 12 es par, el n/2 = los valores sexto y séptimo

ordenados deben ser promediados:
9.7 + 10.4
x̃ = = 10.5
2
Note que si la observación más grande, 20.4, no hubiera aparecido en la
muestra, la mediana muestral resultante de las n = 11 observaciones
habrı́a sido el valor medio 9.7. La media muestral x = 139.3/12 = 11.61.
Estadı́stica I
Observación 1.36
Aunque tanto x como x̃ ubican el centro de un conjunto de datos, en
general no serán iguales porque se enfocan en aspectos diferentes de
la muestra.
La media es bastante sensible a un solo valor extremo, mientras que
la mediana es insensible a muchos valores apartados.
Estadı́stica I
Observación 1.36
Aunque tanto x como x̃ ubican el centro de un conjunto de datos, en
general no serán iguales porque se enfocan en aspectos diferentes de
la muestra.
La media es bastante sensible a un solo valor extremo, mientras que
la mediana es insensible a muchos valores apartados.
Moda
La moda, si se da, es la medida de tendencia más frecuente; tiene dos
ventajas:
Para ciertas muestras pequeñas, se le determina fácilmente
En general, no se ve afectada por los valores extremos al final de un
conjunto de datos ordenados.
Estadı́stica I
Ejemplo 1.37
Con las medidas
1 1 3 3 3 2 7 8
la moda es 3.
Estadı́stica I
Ejemplo 1.37
Con las medidas
1 1 3 3 3 2 7 8
la moda es 3.
Ejemplo 1.38
La moda no se ve afectada por medidas extremas, como se ve en las dos
muestras siguientes, A y B, cada una con una moda de 2.
A: 1 2 2 2 3 78
B: 1 2 2 2 3 8
La medida extrema 78 en la muestra A no tiene efectos en el valor de la

moda.
Estadı́stica I
Ejemplo 1.39
Suponga que los tipos de sangre para un grupo de 12 estudiantes de
enfermerı́a son: A, A, B, A, AB, O, O, B, O, A, B y AB. La moda, o el
tipo de sangre más frecuente, es el tipo A.
Estadı́stica I
Ejemplo 1.39
Para éste tipo de datos no tiene sentido usar la media o la mediana para
localizar una observación central, ya que la moda es la única medida de
tendencia central que tiene sentido aquı́.
Estadı́stica I
Ejemplo 1.39
Para éste tipo de datos no tiene sentido usar la media o la mediana para
localizar una observación central, ya que la moda es la única medida de
tendencia central que tiene sentido aquı́.
Desventajas de la moda.
La moda tiene varias desventajas como medida de tendencia central:
Para un cierto conjunto de datos puede no haber moda
La moda puede existir pero no ser única
Estadı́stica I
Ejemplo 1.40
Las medidas
rojo negro café azul
2 2 3 3 4 4 5 5
no tienen moda.
Ejemplo 1.41
Con las medidas: rojo, rojo, rojo, negro, azul, blanco, blanco y blanco;
tanto rojo como blanco son modas. En este caso la colección de
observaciones se llama bimodal.
Estadı́stica I
Rango medio
El rango medio de un conjunto de datos es el promedio de las medidas
mayor y menor.
Estadı́stica I
Rango medio
mayor y menor.
Ejemplo 1.42
Los siguientes son los números de torceduras necesarios para romper ocho
barras forjadas de una aleación: 32, 38, 45, 44, 27, 36, 40 y 38. Determine
el rango medio
Estadı́stica I
Rango medio
mayor y menor.
Ejemplo 1.42
el rango medio
Solución: L+U 27 + 45
Rango medio = = = 36
2 2
Estadı́stica I
Rango medio
mayor y menor.
Ejemplo 1.42
el rango medio
Solución: L+U 27 + 45
Rango medio = = = 36
2 2
Ejemplo 1.43
¿Qué medida de tendencia central debe usarse para indicar el salario
central de los trabajadores en Colombia?
Estadı́stica I
Solución: La medida preferible es la mediana. Debido a los salarios

elevados en un extremo de la escala, ni la media ni el rango medio deben
usarse.
Estadı́stica I

usarse.
Medidas de colocación.
Un punto de posición, para una distribución, es aquel valor para el cual
una porción especı́fica de la distribución queda en o debajo de él; la
mediana es un ejemplo de punto de posición, y también lo son los
percentiles, deciles y cuartiles.
Estadı́stica I

usarse.
Medidas de colocación.
Un punto de posición, para una distribución, es aquel valor para el cual
una porción especı́fica de la distribución queda en o debajo de él; la
mediana es un ejemplo de punto de posición, y también lo son los
percentiles, deciles y cuartiles.
Ejemplo 1.44
Un 50 % de la distribución es menor o igual que la mediana, y otro 50 %
es mayor o igual que la mediana, por lo tanto, la mediana es un punto de
posición.
Estadı́stica I
Percentiles
Él n-ésimo percentil, denotado con Pn , es el valor para el cual al menos
n % de la distribución cae en o por debajo de él y al menos (100 − n) %
cae en o por arriba de él.
Estadı́stica I
Percentiles
Él n-ésimo percentil, denotado con Pn , es el valor para el cual al menos
n % de la distribución cae en o por debajo de él y al menos (100 − n) %
cae en o por arriba de él.
Ejemplo 1.45
Supongamos que queremos calcular el vigésimo quinto punto percentil, o
percentil 25, de la muestra exhibida en el siguiente diagrama de tallo y
hojas ordenado:
3 4 4 6 9
4 3 6 7 8 9
5 0 1 1 5 7 7 8 9
6 0 0 4 4 7
7 1 5 8 8 8 9
8 4 6 8 8
Estadı́stica I
Solución:
El tamaño de la muestra es n = 32
El percentil 25 es aquella medida para la cual al menos 25 % de la
muestra cae en o debajo de él y al menos él 75 % en o por encima de
él
(25 %)(32) = al menos 8 valores en o debajo de él

(75 %)(32) = al menos 24 valores en o por encima de él
Al contar 8 hojas desde la punta del tronco, llegamos a la hoja 8 en el

tallo 4.
48 y 49 tienen 8 valores en o debajo de él y 24 en o por encima de él
El percentil 25 es el promedio de 48 y 49; por lo tanto, P25 = 48.5
Estadı́stica I
Ejemplo 1.46
Calcule el trigésimo percentil de los datos del Ejemplo 43
3 4 4 6 9
4 3 6 7 8 9
5 0 1 1 5 7 7 8 9
6 0 0 4 4 7
7 1 5 8 8 8 9
8 4 6 8 8
Estadı́stica I
Ejemplo 1.46
Calcule el trigésimo percentil de los datos del Ejemplo 43
3 4 4 6 9
4 3 6 7 8 9
5 0 1 1 5 7 7 8 9
6 0 0 4 4 7
7 1 5 8 8 8 9
8 4 6 8 8
Solución:
El percentil 30 será aquella medida que tenga al menos 30 % de la
muestra en o por debajo de ella y al menos 70 % de la muestra en o
por encima de ella.
(30 %)(32) = al menos 9.6 ≈ 10 valores en o por debajo de ella
(70 %)(32) = al menos 22.4 ≈ 23 valores en o por encima de ella
Estadı́stica I
50 satisface ambas condiciones, por lo tanto, P30 = 50

Estadı́stica I

Cuartiles
Los cuartiles son números que dividen en cuatro partes a un conjunto
ordenado de medidas, extendiéndose desde la mı́nima hasta la máxima
medida, por lo que cada parte cuenta con aproximadamente 25 % de las
medidas.
Estadı́stica I

Cuartiles
Los cuartiles son números que dividen en cuatro partes a un conjunto
ordenado de medidas, extendiéndose desde la mı́nima hasta la máxima
medida, por lo que cada parte cuenta con aproximadamente 25 % de las
medidas.
Observación 1.47
Hay tres cuartiles, denotados con Q1 , Q2 , Q3 . El primer cuartil, Q1 , es el
percentil 25, el segundo cuartil, Q2 , es el percentil 50 o la mediana, y el
tercer cuartil, Q3 , es el percentil 75
Q1 = P25
Q2 = x̃ = P50
Q3 = P75
Estadı́stica I
Deciles
Los deciles son números que dividen en diez partes a un conjunto de
medidas que van desde la menor a la mayor, de tal forma que cada parte
contiene aproximadamente 10 % de las medidas.
Estadı́stica I
Deciles
Los deciles son números que dividen en diez partes a un conjunto de
medidas que van desde la menor a la mayor, de tal forma que cada parte
contiene aproximadamente 10 % de las medidas.
Ejemplo 1.48
Una muestra de doce trabajadores se probó en cuanto a su capacidad de
sostener firmemente un objeto; las medidas, ordenadas de menor a mayor,
fueron 80.6, 89.9, 101.4, 102.6, 115.0, 120.1, 123.4, 126.3, 131.8, 138.6,
151.6 y 160.5. Determine:
El primer cuartil
El segundo cuartil
El tercer cuartil
El segundo decil
Estadı́stica I
Solución:
El primer cuartil es el vigésimo quinto percentil. Q1 tendrá
(0.25)(12) = al menos 3 valores en o por debajo de ella

(0.75)(12) = al menos 9 valores en o por encima de ella
Los valores 101.4 y 102.6 cumplen ambos requerimientos, por lo

tanto,
101.4 + 102.6
Q1 = = 102
2
El segundo cuartil es la mediana; la mediana es el promedio de la
sexta y séptima medida, entonces:
120.1 + 123.4
Q2 = = 121.75
2
Estadı́stica I
El tercer cuartil es el percentil 75. Q3 tendrá
(0.75)(12) = al menos 9 valores en o por debajo de ella

(0.25)(12) = al menos 3 valores en o por encima de ella
131.8 + 138.6
Q3 = = 135.2
2
El segundo decil será el vigésimo percentil. D2 tendrá
(0.2)(12) = al menos 2.4≈3 valores en o por debajo de ella

(0.8)(12) = al menos 9.6≈10 valores en o por encima de ella
La medida 101.4 satisface estas condiciones. Por lo tanto D2 = 101.4

Estadı́stica I
Medidas de dispersión o variabilidad

Observación 1.49
Es usual que las medidas de tendencia central solas no describan
apropiadamente una caracterı́stica en estudio. Por ejemplo, suponga que
David y Ricardo lanzan, cada uno, 25 flechas a un blanco. Sus puntajes
son como sigue:
Puntaje David Ricardo
10 2 0
9 3 0
8 4 5
7 7 8
6 2 5
5 1 4
4 1 3
3 1 0
2 2 0
1 2 0
Estadı́stica I
Observación 1.50
Las medidas de tendencia central, como la media, la mediana y la moda,
solo describen el centro de los datos, pero no nos dicen nada acerca de la
dispersión (separación) de los datos.
La variabilidad es un concepto fundamental en estadı́stica. Hay muchas

medidas de variabilidad o medidas de dispersión para una colección de
datos cuantitativos. Entre estas medidas están incluidos:
El rango
El rango intercuartil
La varianza
La desviación estándar
Estadı́stica I
Rango
Dada una distribución de medidas muestrales o poblaciones, el rango se
define como la diferencia entre la medida máxima U y la medida mı́nima
L; es decir
R=U −L
Estadı́stica I
Rango
L; es decir
R=U −L
Ejemplo 1.51
Las edades en años de un grupo familiar son: 30, 2, 1, 7, 4, 32 y 10. El
rango es: R = U − L = 32 − 1 = 31
Estadı́stica I
Rango
L; es decir
R=U −L
Ejemplo 1.51
Las edades en años de un grupo familiar son: 30, 2, 1, 7, 4, 32 y 10. El
rango es: R = U − L = 32 − 1 = 31
Observación 1.52
El rango no siempre es una medida sensible para la dispersión de una
colección de datos.
Puede afectarse drásticamente por la presencia de valores extremos
de los datos, llamado en ocasiones datos aberrantes.
Estadı́stica I
Ejemplo 1.53
Para los dos conjuntos de dados ilustrados en las rectas numéricas de la
siguiente figura, ¿cuál es más disperso, A o B?. La respuesta es claramente
el conjunto B pero, note que A y B tienen el mismo rango.
Estadı́stica I
Ejemplo 1.53
Para los dos conjuntos de dados ilustrados en las rectas numéricas de la
siguiente figura, ¿cuál es más disperso, A o B?. La respuesta es claramente
el conjunto B pero, note que A y B tienen el mismo rango.
Rango intercuartil
Una medida de dispersión que es indiferente de la presencia de
observaciones aberrantes es el rango intercuartil, denotado por IQR (por
el término en inglés interquartile range). Se define como:
IQR = Q3 − Q1
Estadı́stica I
Ejemplo 1.54
Considere el siguiente conjunto ordenado de datos que representa los
valores de oxı́geno registrados (en mL/kh·min) de 21 corredores de
mediana edad del sexo masculino, mientras pedalean en una bicicleta fija a
100 watts.
12.81 14.95 15.83 15.97 17.90 18.27 18.34 19.82 19.94 20.62
20.88 20.93 20.98 20.99 21.15 22.16 22.24 23.16 23.56 35.78 36.73
Estadı́stica I
Ejemplo 1.54
Considere el siguiente conjunto ordenado de datos que representa los
valores de oxı́geno registrados (en mL/kh·min) de 21 corredores de
mediana edad del sexo masculino, mientras pedalean en una bicicleta fija a
100 watts.
12.81 14.95 15.83 15.97 17.90 18.27 18.34 19.82 19.94 20.62
20.88 20.93 20.98 20.99 21.15 22.16 22.24 23.16 23.56 35.78 36.73
35.78 y 36.73 aparecen como valores extremos u observaciones

aberrantes para este conjunto de datos
El primer cuartil Q1 tendrá

La medida 18.27 satisface estas condiciones. Por lo tanto, Q1 = 18.27

Estadı́stica I
El tercer cuartil Q3 tendrá

La medida 22.16 satisface estas condiciones. Por lo tanto Q3 = 18.27.

Calcule el valor de IQR. El valor del rango intercuartil es
IQR = Q3 − Q1 = 22.16 − 18.27 = 3.89

Estadı́stica I
El tercer cuartil Q3 tendrá

La medida 22.16 satisface estas condiciones. Por lo tanto Q3 = 18.27.

Calcule el valor de IQR. El valor del rango intercuartil es
IQR = Q3 − Q1 = 22.16 − 18.27 = 3.89
Observación 1.55
Usaremos más adelante el rango intercuartil para construir gráficas de
caja, resúmenes de datos que proporcionan información sobre el centro, la
dispersión, la simetrı́a contra el sesgo y la presencia de observaciones
aberrantes.
Estadı́stica I
Observación 1.56
El rango y el rango intercuartil no son medidas sensibles de variación.
El rango es dependiente solo en los valores extremos L y U , mientras
que el rango intercuartil no toma en cuenta las medidas debajo de Q1
o arriba de Q3 .
La varianza y la desviación estándar son ambas medidas más
sensibles de variación que el rango o el rango intercuartil
La varianza y la desviación toman en cuenta todas las medidas en un
conjunto de datos, pero comparten una desventaja común consistente
en que ambas las influyen por puntajes extremos.
Estadı́stica I
Desviación de un valor
En estadı́stica, la cantidad (x − x) se llama el valor de desviación
El valor de desviación = x − x
Estadı́stica I
Observación 1.57
Una desviación positiva para una medida, indica que la medida está
por encima de la media
Una desviación negativa para una medida, indica que la medida está
por debajo de la media
Una desviación de cero para una medida, indica que la medida es
igual a la media
Estadı́stica I
Observación 1.57
Una desviación positiva para una medida, indica que la medida está
por encima de la media
Una desviación negativa para una medida, indica que la medida está
por debajo de la media
Una desviación de cero para una medida, indica que la medida es
igual a la media
Ejemplo 1.58
Calcule la desviación para los datos siguientes, que representan el número
de defectos encontrados por un inspector de automóviles en una lı́nea de
ensamblaje en los últimos cinco automóviles producidos: 1, 4, 6, 6 y 8.
Estadı́stica I
Solución:
Es fácil determinar que la media muestral es x
Las desviaciones de los valores se presentan en la siguiente tabla
x x−x
1 1-5=-4
4 4-5=-1
6 6-5=1
6 6-5=1
8 8-5=3
Las medidas 6 y 8 están arriba de la media y sus desviaciones son
positivas
Las medidas 1 y 4 están por debajo de la media y sus desviaciones
son negativas
La suma de las desviaciones es igual a cero
Estadı́stica I
Observación 1.59
Se puede demostrar fácilmente que la suma de las desviaciones de los
valores para cualquier conjunto de números es cero; esto es,
X
(x − x) = 0, para cualquier conjunto de datos (1)
Estadı́stica I
Observación 1.59
Se puede demostrar fácilmente que la suma de las desviaciones de los
valores para cualquier conjunto de números es cero; esto es,
X
(x − x) = 0, para cualquier conjunto de datos (1)
Ejemplo 1.60
Los datos siguientes representan los totales anuales, en billones de dólares,
erogados por Estados Unidos para exportaciones agrı́colas desde paı́ses
extranjeros entre 1974 y 1983, respectivamente: 10.2, 9.3, 11.0, 13.4, 14.8,
16.7, 17.4, 16.8, 15.4 y 16.2. Encuentre la desviación para cada uno de los
totales y verifique que la ecuación 1 es válida para el conjunto de datos
Estadı́stica I
Solución:
Año Total Desviación
1974 10.2 -3.92
1975 9.3 -4.82
1976 11.0 -3.12
1977 13.4 -0.72
1978 14.8 0.68
1979 16.7 2.58
1980 17.4 3.28
1981 16.8 2.68
1982 15.4 1.28
1983 16.2 2.08
0
Sumando los valores de las desviaciones tenemos:
X
(x − x) = 0
Estadı́stica I
Fórmulas de suma de cuadrados

SS= (x − x)2 : Muestra SS= (x − µ)2 : Población
P P
Estadı́stica I

P P
Ejemplo 1.61
Encontremos la SS para la muestra siguiente de puntajes en los exámenes
sobre la historia de América hechos por cinco estudiantes: 62, 80, 83, 72 y
73.
Estadı́stica I

P P
Ejemplo 1.61
Encontremos la SS para la muestra siguiente de puntajes en los exámenes
sobre la historia de América hechos por cinco estudiantes: 62, 80, 83, 72 y
73.
Solución:
Primero encontramos x
62 + 80 + 83 + 72 + 73
x= = 74
5
Usando la fórmula de suma de cuadrados
X
SS = (x − x)2
= (62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2
= 144 + 36 + 81 + 4 + 1 = 266
Estadı́stica I
Cómo determinar SS
Determine la media
Encuentre la desviación para cada medida
Eleve al cuadrado cada una de las desviaciones
Encuentre la suma de los cuadrados
Estadı́stica I
Determine la media
Fórmulas para el cálculo de SS

P 2 ( x)2 x)2
P P
(
SS= x2 −
P
SS= x − : Muestra : Población
n N
Estadı́stica I
Determine la media
Fórmulas para el cálculo de SS

P 2 ( x)2 x)2
P P
(
SS= x2 −
P
SS= x − : Muestra : Población
n N
Ejemplo 1.62
Calcule SS usando la fórmula anterior para la muestra siguiente de
puntajes en los exámenes sobre la historia de América hechos por cinco
estudiantes: 62, 80, 83, 72 y 73.
Estadı́stica I
x x2
62 3,844
80 6,400
83 6,889
72 5,184
73 5,329
370 27,646
Estadı́stica I
x x2
62 3,844
80 6,400
83 6,889
72 5,184
73 5,329
370 27,646
Al usar la fórmula anterior para calcular SS obtenemos
( x)2 3702
X P
2
SS = x − = 27, 646 − = 266
n 5
Estadı́stica I
x x2
62 3,844
80 6,400
83 6,889
72 5,184
73 5,329
370 27,646
Al usar la fórmula anterior para calcular SS obtenemos
( x)2 3702
X P
2
SS = x − = 27, 646 − = 266
n 5
Ejemplo 1.63
Encontremos SS para los valores 0, 5 y 8. Si la media se redondea al
décimo más próximo, entonces x = 13/3 ≈ 4.3. Entonces usando las dos
fórmulas para SS
Estadı́stica I
Al milésimo más próximo, las dos respuestas difieren por 0.003

X
SS = (x − x)2
= (0 − 4.3)2 + (5 − 4.3)2 + (8 − 4.3)2 = 32.670
X 2
X x 132
SS = x2 − = 89 − = 32.667
n 3
Estadı́stica I
Al milésimo más próximo, las dos respuestas difieren por 0.003

X
SS = (x − x)2
= (0 − 4.3)2 + (5 − 4.3)2 + (8 − 4.3)2 = 32.670
X 2
X x 132
SS = x2 − = 89 − = 32.667
n 3
Varianza
La varianza de una población de medidas se define como el promedio de
los cuadrados de las desviaciones de los valores y se denota por σ 2 (léase
sigma cuadrado)
SS
σ2 = (2)
N
SS
s2 = (3)
n−1
Estadı́stica I
Observación 1.64
Si fuéramos a calcular la varianza muestral s2 dividiendo SS entre n en
lugar de n − 1, estarı́amos subestimando σ 2 , en promedio.
Estadı́stica I
Observación 1.64
Ejemplo 1.65
Suponga que los puntajes de los exámenes de historia de América dados
previamente: 62, 80, 83, 72 y 73 constituyen una población. Encuentre la
varianza poblacional σ 2
Solución: Al usar la fórmula (2) de σ 2
SS SS 266
σ2 = = = = 53.2
N N 5
Estadı́stica I
Observación 1.64
Ejemplo 1.65
Suponga que los puntajes de los exámenes de historia de América dados
previamente: 62, 80, 83, 72 y 73 constituyen una población. Encuentre la
varianza poblacional σ 2
Solución: Al usar la fórmula (2) de σ 2
SS SS 266
σ2 = = = = 53.2
N N 5
Ejemplo 1.66
El Cuadro 3 muestra los costos por litro, en centavos de dólar, de la
gasolina de alto octanaje en 19 ciudades del mundo. Determine la varianza
muestral s2
Estadı́stica I
Ciudad Costo por litro

Amsterdan 57
Bruselas 53
Buenos Aires 38
Hong Kong 57
Johannesbrugo 48
Londres 56
Madrid 59
Manila 46
México 25
Motreal 47
Nairobi 57
Nueva York 40
Oslo 65
Parı́s 58
Rı́o de Janeiro 42
Roma 76
Singapur 59
Sidney 43
Tokio 79
Estadı́stica I
Solución: X 2
X x
SS = x2 −
n
10052
= 56, 171 − = 3011.7895
19
Entonces SS
s2 =
n−1
3011.7895
= ≈ 167.32
18
La varianza muestral de los 19 precios de gasolina es 167.32 centavos
cuadrados.
Estadı́stica I
Solución: X 2
X x
SS = x2 −
n
10052
= 56, 171 − = 3011.7895
19
Entonces SS
s2 =
n−1
3011.7895
= ≈ 167.32
18
La varianza muestral de los 19 precios de gasolina es 167.32 centavos
cuadrados.
Observación 1.67
Sabemos que si el valor de la varianza es grande, entonces las medidas
están muy dispersas, mientras que si es pequeño hay muy poca
variabilidad en las medidas.
Estadı́stica I
Desviación estándar
Otra medida de dispersión, relacionada con la varianza, es la desviación
estándar. La desviación estándar se define como la raı́z cuadrada de la
varianza. La desviación estándar poblacional se denota con σ y la
desviación estándar muestral con s. En consecuencia, tenemos las
fórmulas siguientes:
√ √
s = s2 = varianza muestral (4)
√ p
σ = σ 2 = varianza poblacional (5)
Estadı́stica I
Desviación estándar
Otra medida de dispersión, relacionada con la varianza, es la desviación
estándar. La desviación estándar se define como la raı́z cuadrada de la
varianza. La desviación estándar poblacional se denota con σ y la
desviación estándar muestral con s. En consecuencia, tenemos las
fórmulas siguientes:
√ √
s = s2 = varianza muestral (4)
√ p
σ = σ 2 = varianza poblacional (5)
Ejemplo 1.68
Para √
los datos del Ejemplo 63, la desviación estándar poblacional es
σ = 53.2 = 7.29,√ y para los del Ejemplo 64, la desviación estándar
muestral es s = 167.32 = 12.94 centavos.
Estadı́stica I
Ejemplo 1.69
Los datos adjuntos representan el promedio de millas por galón diario por
cinco dı́as para los coches A y B, en condiciones similares.
A 20 25 30 15 35
B 15 27 25 23 35
Encuentre la media y el rango de millas por galón para cada coche.

¿Cuál coche parece haber logrado un rendimiento más consistente si
la consistencia se determina examinando las varianzas? Explique
Estadı́stica I
Ejemplo 1.69
Los datos adjuntos representan el promedio de millas por galón diario por
cinco dı́as para los coches A y B, en condiciones similares.
A 20 25 30 15 35
B 15 27 25 23 35
Encuentre la media y el rango de millas por galón para cada coche.

¿Cuál coche parece haber logrado un rendimiento más consistente si
la consistencia se determina examinando las varianzas? Explique
Solución:
Para el coche A tenemos:
RA = 35 − 15 = 20; xA = 25
Para el coche B tenemos:
RB = 35 − 15 = 20; xB = 25
Estadı́stica I
Calculamos la varianza para el coche

A, s2A
x x−x (x − x)2
20 -5 25
25 0 0
30 5 25
15 -10 100
35 10 100
SS=250
Usando la fórmula de varianza

muestral
SS 250
s2A = = = 62.5
n−1 4
Estadı́stica I
Calculamos la varianza para el coche Calculamos la varianza para el coche

A, s2A B, s2B
x x−x (x − x)2 x x−x (x − x)2

20 -5 25 15 -10 10
25 0 0 27 2 4
30 5 25 25 0 0
15 -10 100 23 -2 4
35 10 100 35 10 100
SS=250 SS=208
Usando la fórmula de varianza Usando la fórmula de varianza

muestral muestral
SS 250 SS 208
s2A = = = 62.5 s2B = = = 52
n−1 4 n−1 4
Estadı́stica I
Calculamos la varianza para el coche Calculamos la varianza para el coche

A, s2A B, s2B
x x−x (x − x)2 x x−x (x − x)2

20 -5 25 15 -10 10
25 0 0 27 2 4
30 5 25 25 0 0
15 -10 100 23 -2 4
35 10 100 35 10 100
SS=250 SS=208
Usando la fórmula de varianza Usando la fórmula de varianza

muestral muestral
SS 250 SS 208
s2A = = = 62.5 s2B = = = 52
n−1 4 n−1 4
Como la varianza para el carro B es menor que para el carro A, el
carro B resultó ser más consistente en rendimiento.
Estadı́stica I
Ejemplo 1.70
Precios del asado de cerdo y del queso en capitales del mundo
Capital Cerdo asado Queso cheddar
Berna 6.61 4.00
Bonn 2.38 2.74
Brasilia 1.27 1.08
Buenos aires 1.36 2.03
Camberra 2.06 2.60
Londres 1.56 1.81
Madrid 2.33 3.15
México 1.08 2.29
Ottawa 1.99 3.98
Parı́s 2.47 2.37
Pretoria 1.95 1.76
Roma 2.46 2.96
Estocolmo 5.35 2.54
Tokio 4.19 2.38
Washington 3.29 2.69
Estadı́stica I
¿Para cuál alimento, el asado de cerdo o el queso cheddar, son más

variables y más estables los precios?
Solución:
Datos del asado de cerdo
X 2
X x (40.35)2
SSp = x2 − = 143.01 − = 34.4685
n 15
La varianza de los datos del asado de cerdo es:
SSp 34.4685
s2p = = ≈ 2.46
n−1 14
Datos del queso
X 2
X x (38.38)2
SSc = x2 − = 106.67 − = 8.4684
n 15
Estadı́stica I
La varianza de los datos del queso es:

SSp 8.4684
s2p = = ≈ 0.60
n−1 14
Por lo tanto, los precios del queso cheddar en el mundo son más estables
que los del asado de cerdo.
Estadı́stica I
La varianza de los datos del queso es:

SSp 8.4684
s2p = = ≈ 0.60
n−1 14
Por lo tanto, los precios del queso cheddar en el mundo son más estables
que los del asado de cerdo.
Estimación de s
Es interesante notar que para muestras de un tamaño mı́nimo de 20 con
una distribución de forma acampanada, tenemos la estimación siguiente de
la desviación estándar muestral:
R
Estimación de s: s ≈ (6)
4
donde R denota el rango.
Estadı́stica I
Ejemplo 1.71
Para los datos del queso cheddar en el Ejemplo 1.69, estime s usando la
fórmula (6) y verifique la estimación calculando el valor de s
Estadı́stica I
Ejemplo 1.71
Para los datos del queso cheddar en el Ejemplo 1.69, estime s usando la
fórmula (6) y verifique la estimación calculando el valor de s
Solución:
El rango para los precios del queso cheddar es
R = U − L = 4.00 − 1.08 = 2.92
Como consecuencia de la fórmula (6) tenemos:

R 2.92
sc ≈ = = 0.73
4 4
Como la desviación estándar es la raı́z cuadrada de la varianza, del
Ejemplo 1.69 se tiene:
√
s2c = 0.60 =⇒ sc = 0.60 = 0.77.
Estadı́stica I
Varianza y desviación estándar para datos en tablas

de frecuencia
Suma de cuadrados para datos en una tabla de frecuencias
X
Muestra : SS = f (x − x)2 (7)
X
Población : SS = f (x − µ)2 (8)
Estadı́stica I
Varianza y desviación estándar para datos en tablas

de frecuencia
Suma de cuadrados para datos en una tabla de frecuencias
X
Muestra : SS = f (x − x)2 (7)
X
Población : SS = f (x − µ)2 (8)
Ejemplo 1.72
Las medidas siguientes representan los dı́as que tarda el correo expreso,
enviado desde la costa oeste, en llegar a su destino en la costa este en los
pasados 10 envı́os: 2, 2, 2, 3, 3, 4, 4, 5, 5 y 10. Use las fórmulas (7)-(9)
para determinar SS
Estadı́stica I
Solución:
Se encuentra fácilmente que la media muestral es x = 4
x f x − x (x − x)2 f (x − x)2
2 3 -2 4 12
3 2 -1 1 2
4 2 0 0 0
5 2 1 1 2
10 1 6 36 36
SS=52
Estadı́stica I
Solución:
Se encuentra fácilmente que la media muestral es x = 4
x f x − x (x − x)2 f (x − x)2
2 3 -2 4 12
3 2 -1 1 2
4 2 0 0 0
5 2 1 1 2
10 1 6 36 36
SS=52
Fórmula para calcular SS usando frecuencias
X 2
X fx
SS = f x2 − X (9)
f
Estadı́stica I
Ejemplo 1.73
Encuentre la varianza muestral para los datos siguientes referentes al
número de cigarros fumados durante un fin de semana por un grupo de 15
fumadores:
x 10 15 17 20 22
f 1 3 5 2 4
Solución: La tabla siguiente se usa para organizar los cálculos

x f fx x2 f x2
10 1 10 100 100
15 3 45 225 675
17 5 85 289 1445
20 2 40 400 800
22 4 88 484 1936
15 268 4956
Estadı́stica I
Como consecuencia de la fórmula (9), tenemos:

X 2
X fx 2682
SS = f x2 − X = 4956 − = 167.73
f 15
Luego la varianza muestral es:

SS 167.73
s2 = = = 11.981
n−1 14
Estadı́stica I
Como consecuencia de la fórmula (9), tenemos:

X 2
X fx 2682
SS = f x2 − X = 4956 − = 167.73
f 15
Luego la varianza muestral es:

SS 167.73
s2 = = = 11.981
n−1 14
Desventajas de la varianza y de la desviación estándar
Pueden verse gravemente afectadas en presencia de observaciones

aberrantes.
Cuando en un conjunto de datos están presentes observaciones
aberrantes y se requiere una medida resistente a ellas, debe utilizarse
el rango intercuartil.
Estadı́stica I
Teorema de Chebichev
Observación 1.74
La desviación estándar muestral s indica la dispersión de los datos
respecto a la media muestral.
¿Cómo podemos determinar cuáles valores de s son grandes y cuáles
son pequeños?.
El matemático ruso Pafnuty Lvovich Chebichev nos dá alguna
información útil sobre como la magnitud de la desviación estándar de
cualquier conjunto de datos se relaciona con la concentración de
estos en torno a la media.
Estadı́stica I
Teorema de Chebichev
Observación 1.74
La desviación estándar muestral s indica la dispersión de los datos
respecto a la media muestral.
¿Cómo podemos determinar cuáles valores de s son grandes y cuáles
son pequeños?.
El matemático ruso Pafnuty Lvovich Chebichev nos dá alguna
información útil sobre como la magnitud de la desviación estándar de
cualquier conjunto de datos se relaciona con la concentración de
estos en torno a la media.
Teorema 1.75 (Teorema de Chebichev)

La expresión 1 − 1/k 2 representa la proporción mı́nima de los datos que
dista no más de k desviaciones estándar de la media sı́ k ≥ 1.
Estadı́stica I
Si k = 1, entonces 1 − 1/k 2 = 1 − 1/12 = 0. Entonces, al menos 0 %

de los datos dista no más de una desviación estándar de la media
(esto es, cae dentro de x ± s).
Si k = 3/2, entonces 1 − 1/(3/2)2 = 1 − 4/9 = 5/9 ≈ 56 %, por lo
tanto, al menos el 56 % de los datos distarán no más de 1.5
desviaciones estándar de la media (esto es, caerán dentro de
x ± 1.5s).
Si k = 2, entonces 1 − 1/22 = 1 − 1/4 = 3/4 = 75 %, por lo tanto, al
menos el 75 % de los datos distarán no más de 2 desviaciones
estándar de la media (esto es, caerán dentro de x ± 2s).
Estadı́stica I
Si k = 1, entonces 1 − 1/k 2 = 1 − 1/12 = 0. Entonces, al menos 0 %

de los datos dista no más de una desviación estándar de la media
(esto es, cae dentro de x ± s).
Si k = 3/2, entonces 1 − 1/(3/2)2 = 1 − 4/9 = 5/9 ≈ 56 %, por lo
tanto, al menos el 56 % de los datos distarán no más de 1.5
desviaciones estándar de la media (esto es, caerán dentro de
x ± 1.5s).
Si k = 2, entonces 1 − 1/22 = 1 − 1/4 = 3/4 = 75 %, por lo tanto, al
menos el 75 % de los datos distarán no más de 2 desviaciones
estándar de la media (esto es, caerán dentro de x ± 2s).
Ejemplo 1.76 (Continuación Ejemplo 1.70)
Determine el intervalo especificado por el Teorema de Chebichev que

contendrá al menos 75 % de los datos.
¿Qué porcentaje de las medidas dista realmente menos de dos
desviaciones estándar de la media?
Estadı́stica I
Solución:
Podemos determinar fácilmente que la media es x = 52.89 centavos.
Del Ejemplo
√ 64 se tiene que s2 = 167.32 entonces
s = 167.32 = 12.94 centavos. De acuerdo al Teorema de
Chebichev, al menos 1 − 1/22 = 3/4 = 75 % de los datos distará
menos de dos desviaciones estándar de la media:
x − 2s = 52.89 − 2(12.94) = 27.01
x + 2s = 52.89 + 2(12.94) = 78.77
En consecuencia el intervalo (27.01, 78.79) contendrá al menos 75 %
de los datos
Estadı́stica I
Se encuentra que 17 de los 19 precios de gasolina (89.14 %), cae

entre 27.01 y 78.77. Consistente con resultados anteriores.
Observación 1.77
El Teorema de Chebichev especifica sólo una cota inferior para el
porcentaje de datos que distan no más de dos desviaciones estándar de la
media, como tal, proporciona una estimación conservadora, debido a que
se tiene poca información sobre la forma de la muestra.
Estadı́stica I
Se encuentra que 17 de los 19 precios de gasolina (89.14 %), cae

entre 27.01 y 78.77. Consistente con resultados anteriores.
Observación 1.77
El Teorema de Chebichev especifica sólo una cota inferior para el
porcentaje de datos que distan no más de dos desviaciones estándar de la
media, como tal, proporciona una estimación conservadora, debido a que
se tiene poca información sobre la forma de la muestra.
Ejemplo 1.78
Suponga que la asistencia promedio a un partido de beisbol de ligas
mayores para juegos locales es de 35,500 personas, con una desviación
estándar de 4,200. Use el Teorema de Chebichev para determinar:
Un intervalo que contenga al menos 80 % de las asistencias a los
juegos locales
La proporción mı́nima de los juegos locales que tiene una asistencia
de 25,000 a 46,000 personas
Estadı́stica I
Solución:
Establecemos 1 − 1/k 2 igual a 0.80 y despejemos k
1 1 1 √
1 − 2 = 0.80 =⇒ 2 = 0.20 =⇒ k 2 = = 5 =⇒ k = 5 ≈ 2.24
k k 0.2
El intervalo es:
x ± 2.24s = 35, 500 ± (2.24)(4200) = 35, 500 ± 9, 408,
Es decir (26, 092, 44, 908) contiene al menos 80 % de las asistencias

según el Teorema de Chebichev.
Dado que los intervalos de Chebichev son simétricos respecto a la
media
w = (x + ks) − (x − ks) = 2ks
Primero calculamos el ancho del intervalo (25, 000, 46, 000)
w = 46, 000 − 25, 000 = 21, 000
Planteamos 2ks igual a 21,000 y resolvemos para k

Estadı́stica I
Solución:
Establecemos 1 − 1/k 2 igual a 0.80 y despejemos k
1 1 1 √
1 − 2 = 0.80 =⇒ 2 = 0.20 =⇒ k 2 = = 5 =⇒ k = 5 ≈ 2.24
k k 0.2
El intervalo es:
x ± 2.24s = 35, 500 ± (2.24)(4200) = 35, 500 ± 9, 408,
Es decir (26, 092, 44, 908) contiene al menos 80 % de las asistencias

según el Teorema de Chebichev.
Dado que los intervalos de Chebichev son simétricos respecto a la
media
w = (x + ks) − (x − ks) = 2ks
Primero calculamos el ancho del intervalo (25, 000, 46, 000)
w = 46, 000 − 25, 000 = 21, 000
Planteamos 2ks igual a 21,000 y resolvemos para k

Estadı́stica I
2ks = 21, 000

2k(4200) = 21, 000
8400k = 21, 000
21, 000
k= = 2.5
8400
En consecuencia, al menos 1 − 1/(2.5)2 = 1 − 1/6.25 = 0.84 = 84 % de
los juegos locales tienen asistencias entre 25,000 y 46,000.
Estadı́stica I
2ks = 21, 000

2k(4200) = 21, 000
8400k = 21, 000
21, 000
k= = 2.5
8400
Desviación
Media Mediana Varianza Tamaño
estándar
Muestra x x̃ s2 s n
Población µ µ̃ σ2 σ N
Estadı́stica I
2ks = 21, 000

2k(4200) = 21, 000
8400k = 21, 000
21, 000
k= = 2.5
8400
Desviación
Media Mediana Varianza Tamaño
estándar
Muestra x x̃ s2 s n
Población µ µ̃ σ2 σ N
Observación 1.79
Note que x, x̃, s2 , s y n son ejemplos de estadı́sticos, mientras que
µ, µ̃, σ 2 , σ y N son ejemplos de parámetros.
Estadı́stica I
Tendencia central y dispersión para datos contenidos

en tablas de frecuencia agrupada.
Media para datos agrupados

Si debemos encontrar la media para datos proporcionados en tablas de
frecuencias agrupadas, usamos marcas de clase para representar las
medidas para cada clase. Entonces la fórmula de media muestral para
datos en una tabla de frecuencias
X
fx
x= X (10)
f
se puede usar para determinar la media muestral aproximada xa , puesto

que los datos originales se desconocen y cada observación está
representada por su marca de clase.
Estadı́stica I
Ejemplo 1.80
Los datos siguientes representan el número de discos vendidos cada dı́a
durante un periodo de 25 dı́as en una tienda de música localizada en un
centro comercial:
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
Por conveniencia, los datos han sido exhibidos en la siguiente tabla de

frecuencia agrupada:
Número de discos vendidos Número de dı́as

[15-26) 4
[26-37) 7
[37-48) 3
[48-59) 6
[59-70) 5
Estadı́stica I
Encuentre:
x, el número promedio de discos vendidos por dı́a
xa , el número promedio aproximado de discos vendidos por dı́a
Solución:
P
La suma de las 25 medidas es x = 1060. En consecuencia, la
media muestral es:
X
x 1060
x= = = 42.4
n 25
Ası́ el número promedio de discos vendidos por dı́a es 42.40.
Utilizando las marcas de clase X obtenemos
Clase f X fX
[15-26) 4 20 80
[26-37) 7 31 217
[37-48) 3 42 126
[48-59) 6 53 318
[59-70) 5 64 320
Estadı́stica I
Usando la fórmula (10)

X
fx 1061
x= X = = 42.44
f 25
Note que xa = 42.44 es solo un valor aproximado para la media de las 25

medias muestrales originales; la aproximación se considera buena
comparada con el valor exacto x = 42.40, obtenido en la parte a.
Estadı́stica I
Usando la fórmula (10)

X
fx 1061
x= X = = 42.44
f 25
Note que xa = 42.44 es solo un valor aproximado para la media de las 25

medias muestrales originales; la aproximación se considera buena
comparada con el valor exacto x = 42.40, obtenido en la parte a.
Mediana para datos agrupados
Hay dos métodos para calcular la mediana de datos previamente
agrupados en clases; esos métodos difieren en la hipótesis relativa a la
manera de agrupar los datos en clases.
I. Cualquier valor de la clase coincide con la marca de clase
II. Los valores en cada clase se distribuyen uniformemente en la clase
Estadı́stica I
Ejemplo 1.81
La siguiente tabla representa las velocidades, en millas por hora, para una
muestra de 37 coches que recorren una zona escolar donde se permite
circular hasta a 25 millas por hora. Encuentre la mediana aproximada de la
velocidad.
Velocidad Número de coches f acumulada

[1-6) 3 3
[6-11) 2 5
[11-16) 5 10
[16-21) 10 20
[21-26) 7 27
[26-31) 10 37
Estadı́stica I
Solución:
Método I.
Cálculo de marcas de clase
Velocidad Número de coches X f acumulada
[1-6) 3 3 3
[6-11) 2 8 5
[11-16) 5 13 10
[16-21) 10 18 20
[21-26) 7 23 27
[26-31) 10 28 37
La mediana aproximada ocupa la 19a posición. Ası́, la mediana
aproximada es x̃ = 18.
Método II.
Como n = 37, queremos localizar el n/2 = 18.5-ésimo valor
Nótese que 18.5 ∈ [16, 21).
Estadı́stica I
Las tres primeras clases contienen un total de 10 valores, por lo tanto

debemos contar (18.5 − 10) = 8.5 valores en la clase [16, 21)
Hipótesis: Los diez valores de la clase [16, 21) están distribuidos
homogéneamente a largo de ella
La medida en [16, 21) está localizada en los 8.5/10 de la clase
El ancho de cada clase es w = 5. Entonces el valor aproximado de la
mediana es: 8.5
x̃a = 15.5 + (5) = 15.5 + 4.25 = 19.75
10
Observación 1.82
Si L es la frontera inferior de la clase en la cual cae la mediana, f es la
frecuencia de la clase que contiene a la mediana, g es el número de valores
que se deben contar para llegar a L y w es el ancho de la clase, entonces

g
x̃a = L + (w) (11)
f
Estadı́stica I
Moda para datos agrupados

Una desventaja de usar la moda con una distribución de frecuencias
agrupada es que el valor de la moda a menudo depende del agrupamiento
arbitrario de los datos; por esta razón es que una moda para una
distribución de frecuencia agrupada suele denominarse una moda cruda o
clase modal.
Estadı́stica I

clase modal.
Rango promedio para datos agrupados
Para datos organizados en una tabla de frecuencias agrupadas, el rango
promedio es aproximadamente el promedio de la frontera inferior de clase
de la primera clase y la frontera superior de clase de la última clase.
Estadı́stica I

clase modal.
Rango promedio para datos agrupados
Para datos organizados en una tabla de frecuencias agrupadas, el rango
promedio es aproximadamente el promedio de la frontera inferior de clase
de la primera clase y la frontera superior de clase de la última clase.
Ejemplo 1.83
El rango promedio aproximado para los datos del Ejemplo 1.81 es:
0.5 + 30.5
= 15.5
2
Estadı́stica I
Puntajes estándar y observaciones aberrantes
Ejemplo 1.84 (Puntajes estándar como medida de posición relativa)

Supongamos que después de aplicar un examen a dos estudiantes
(Roberto y Jaime) los resultados fueron los siguientes:
Roberto obtuvo 700 en la parte de matemáticas en la parte de
matemáticas del SAT
Jaime obtuvo 24 en habilidad matemática del examen de colocación
en la universidad CPT
La media y la desviación estándar del SAT son 500 y 100, y del CPT 18 y
6, respectivamente. SI se supone que ambos exámenes miden algún tipo
de habilidad, ¿cual persona calificó más alto?.
Estadı́stica I
Solución:
La desviación de cada puntaje con respecto a su media no es una
base de comparación pues:
Jaime: x − x = 24 − 18 = 6 Roberto: x − x = 700 − 500 = 200
Ninguna de ellas toma en cuenta la dispersión de los puntajes.
Observación 1.85
Una medida que nos permite hacer comparaciones entre distribuciones
distintas y toma en cuenta la dispersión de los puntajes es el puntaje
estándar. Un puntaje estándar se define como:
desviación del valor
puntaje estándar =
desviación estándar
y se denota por z.
Estadı́stica I
Definición 1.86 (Puntajes estándar)

x−µ
Población: z= (12)
σ
x−x
Muestra: z = (13)
s
Observación 1.87
Puesto que un puntaje estándar se define como la razón de la desviación
del valor entre la desviación estándar, representa el número de
desviaciones estándar que un valor dista de la media.
Estadı́stica I
Definición 1.86 (Puntajes estándar)

x−µ
Población: z= (12)
σ
x−x
Muestra: z = (13)
s
Observación 1.87
Puesto que un puntaje estándar se define como la razón de la desviación
del valor entre la desviación estándar, representa el número de
desviaciones estándar que un valor dista de la media.
Usando Fórmulas en la Definición (1.86) para el Ejemplo (1.84), el
puntaje estándar o puntaje z de Jaime es:
z−µ 24 − 18
z= = =1
σ 6
y de Roberto es:
z−µ 700 − 500
z= = =2
σ 100
Estadı́stica I
Ejemplo 1.88
Suponga que un conjunto de puntajes tiene una media de 10 y una
desviación estándar de 2
1. Escriba los valores faltantes de la tabla siguiente:
x 4 6 8 10 12 14 16
z
2. ¿Que significa un puntaje z de 0 respecto al puntaje original?
3. ¿Que indica un puntaje z positivo con respecto al puntaje original?
4. ¿Que indica un puntaje z negativo con respecto al puntaje original?
5. Además de indicar que un puntaje está arriba o debajo de la media,
¿que información adicional proporciona un puntaje z?
Estadı́stica I
Ejemplo 1.88
Suponga que un conjunto de puntajes tiene una media de 10 y una
1. Escriba los valores faltantes de la tabla siguiente:
x 4 6 8 10 12 14 16
z
2. ¿Que significa un puntaje z de 0 respecto al puntaje original?
3. ¿Que indica un puntaje z positivo con respecto al puntaje original?
4. ¿Que indica un puntaje z negativo con respecto al puntaje original?
5. Además de indicar que un puntaje está arriba o debajo de la media,
¿que información adicional proporciona un puntaje z?
Solución:
1. De la Definición (1.86) obtenemos los siguientes puntajes z
Estadı́stica I
x 4 6 8 10 12 14 16
z -3 -2 -1 0 1 2 3
2. Un puntaje z de 0 indica que el puntaje es la media

3. Un puntaje z positivo quiere decir que el puntaje original está arriba
de la media
4. Un puntaje z negativo quiere decir que el puntaje original está debajo
de la media
5. Un puntaje z también dice el número de desviaciones estándar que un
puntaje dista de la media.
Estadı́stica I
x 4 6 8 10 12 14 16
z -3 -2 -1 0 1 2 3
2. Un puntaje z de 0 indica que el puntaje es la media

3. Un puntaje z positivo quiere decir que el puntaje original está arriba
de la media
4. Un puntaje z negativo quiere decir que el puntaje original está debajo
de la media
5. Un puntaje z también dice el número de desviaciones estándar que un
puntaje dista de la media.
Ejemplo 1.89
Consideremos los datos del Ejemplo 1.70 relativos a los precios del asado
de cerdo y del queso cheddar. Use puntajes z para determinar cuál
alimento tiene el precio relativo más alto en Washington con respecto a
los precios en las capitales
Estadı́stica I
Capital Cerdo asado Queso cheddar

Berna 6.61 4.00
Bonn 2.38 2.74
Brasilia 1.27 1.08
Buenos aires 1.36 2.03
Camberra 2.06 2.60
Londres 1.56 1.81
Madrid 2.33 3.15
México 1.08 2.29
Ottawa 1.99 3.98
Parı́s 2.47 2.37
Pretoria 1.95 1.76
Roma 2.46 2.96
Estocolmo 5.35 2.54
Tokio 4.19 2.38
Washington 3.29 2.69
Es fácil verificar que: xp = 2.69 dólares y xc = 2.56 dólares.

Estadı́stica I
Anteriormente mostramos que sc = 0.77 dólares y sp = 1.57 dólares.

Como el asado de cerdo cuesta 3.29 dólares en Washington, su
puntaje zp es:
x−x 3.29 − 2.69

zp = = = 0.38
s 1.57
El queso cheddar cuesta 2.69 dólares en Washington. Su puntaje zc
es:
x−x 2.69 − 2.56
zc = = = 0.17
s 0.77
Ası́, el precio del asado es relativamente más alto en Washington que
el del queso
Observación 1.90
Suponga que µ y σ son la media y la desviación estándar, respectivamente,
de una población finita; cada medida x tiene un puntaje z asociado.
Estadı́stica I
Observación 1.91
La población de todos los puntajes estándar tiene una media de 0 y una
Ejemplo 1.92
1. Encuentre µ y σ para la población consistente en los valores 1, 2, 3.

2. Localice los tres puntos estándar
3. Demuestre que la media de los puntajes estándar es 0 que la
desviación estándar es 1
Estadı́stica I
Observación 1.91
La población de todos los puntajes estándar tiene una media de 0 y una
Ejemplo 1.92
1. Encuentre µ y σ para la población consistente en los valores 1, 2, 3.

2. Localice los tres puntos estándar
3. Demuestre que la media de los puntajes estándar es 0 que la
desviación estándar es 1
Solución:
1. La media poblacional es 1+2+3
µx = =2
3
Usando la Formula para Variación Muestral
SS X (x − µ)2 (1 − 2)2 + (2 − 2)2 + (3 − 2)2 2
σx2 = = = =
N N 3 3
Estadı́stica I
Por lo tanto la desviación será:

r
2
σx = = 0.816
3
2. Encontramos ahora los puntajes z

Para x = 1,
1−2
z= = −1.225
0.816
Para x = 2,
2−2
z= =0
0.816
Para x = 3,
3−2
z= = 1.225
0.816
3. La media de los puntajes z es cero. Para encontrar SS organizamos
nuestros cálculos en la siguiente tabla y usamos la fórmula para SS
Estadı́stica I
Dicha fórmula da:

X 2
X z
SS = z2 − =3−0=3
N
Entonces
SS 3 p √
σz2 = = = 1 =⇒ σz = σz2 = 1 = 1
N 3
Estadı́stica I
Dicha fórmula da:

X 2
X z
SS = z2 − =3−0=3
N
Entonces
SS 3 p √
σz2 = = = 1 =⇒ σz = σz2 = 1 = 1
N 3
De puntajes z a puntajes originales
x = µ + σz (14)
Estadı́stica I
Dicha fórmula da:

X 2
X z
SS = z2 − =3−0=3
N
Entonces
SS 3 p √
σz2 = = = 1 =⇒ σz = σz2 = 1 = 1
N 3
De puntajes z a puntajes originales
x = µ + σz (14)
Ejemplo 1.93
Si una población tiene una media de 70 y una desviación estándar de 5,
encuentre el puntaje original correspondiente al puntaje z de 1.5.
Estadı́stica I
Solución: Por medio de la Formula (14) obtenemos
x = µ + σz = 70 + (5)(1.5) = 70 + 7.5 = 77.5

Estadı́stica I
x = µ + σz = 70 + (5)(1.5) = 70 + 7.5 = 77.5
Gráficas de caja
Una gráfica de caja es un diagrama que proporciona información sobre el
centro, la dispersión y la simetrı́a o sesgo; utiliza cuartiles, y ası́, es
resistente a las observaciones aberrantes; en ocasiones, a las gráficas de
caja se les denomina diagramas de caja y extensión.
Estadı́stica I
x = µ + σz = 70 + (5)(1.5) = 70 + 7.5 = 77.5
Gráficas de caja
Una gráfica de caja es un diagrama que proporciona información sobre el
centro, la dispersión y la simetrı́a o sesgo; utiliza cuartiles, y ası́, es
resistente a las observaciones aberrantes; en ocasiones, a las gráficas de
caja se les denomina diagramas de caja y extensión.
Pasos para construir una gráfica de caja
1. Construya una recta numérica y marque en ella los tres cuartiles.

2. Dibuje una caja rectangular sobre la recta con los extremos
localizados en el primer y tercer cuartil; la altura de la caja no es
importante.
Estadı́stica I
3. Trace un segmento de recta vertical por el punto correspondiente a la

mediana dentro de la caja.
4. Dibuje dos rectas horizontales, llamadas extensiones, desde la
mediana a la medida del extremo izquierdo y del derecho.
Estadı́stica I
Ejemplo 1.94
Considere la siguiente tabla de datos, y realice un gráfico de caja y
bigotes, siguiendo los pasos presentados anteriormente
x f F
47 1 1
52 2 3
57 1 4
58 2 6
60 1 7
65 1 8
66 2 10
71 2 12
72 1 13
73 1 14
96 1 15
Estadı́stica I
Solución: Ver Algorithms

Mediana:
N 15
= = 7.5 =⇒ x̃ = 65 = Q2
2 2
Q1 ⇒ 25 %:
N 15
= = 3.75 =⇒ Q1 = 57
4 4
Q3 ⇒ 75 %:
N 15
3 = = 11.25 =⇒ Q3 = 71
4 4
Rango intercuartil:
IQR = Q3 − Q1 = 71 − 57 = 14
Valores atı́picos (aberrantes) en (ρ1 , ρ3 )c y extensión de bigote
ρ1 = Q1 − 1.5 · IQR = 57 − 1.5 · 14 = 36
ρ3 = Q3 + 1.5 · IQR = 71 + 1.5 · 14 = 92
Estadı́stica I
Figura 7: Diagrama de caja y bigotes usando: boxplot() R base

Estadı́stica I
Probabilidad
Espacios muestrales
Probabilidad
El término probabilidad se refiere al estudio de azar y la incertidumbre
en cualquier situación en la cual varios posibles sucesos pueden ocurrir
La disciplina de la probabilidad proporciona métodos de cuantificar
las oportunidades y probabilidades asociadas con varios sucesos.
Estadı́stica I
Probabilidad
Espacios muestrales
Probabilidad
El término probabilidad se refiere al estudio de azar y la incertidumbre
en cualquier situación en la cual varios posibles sucesos pueden ocurrir
La disciplina de la probabilidad proporciona métodos de cuantificar
las oportunidades y probabilidades asociadas con varios sucesos.
Experimento
Un experimento es cualquier acción o proceso cuyo resultado está

sujeto a la incertidumbre.
Estadı́stica I
Probabilidad
Ejemplo 2.1
Lanzar al aire una moneda una vez o varias veces

Seleccionar una carta o cartas de un mazo
El tiempo de recorrido de la casa al trabajo en una mañana particular
Obtener tipos de sangre de un grupo de individuos
Medir las resistencias a la compresión de diferentes vigas de acero.
Estadı́stica I
Probabilidad
Ejemplo 2.1

El espacio muestral de un experimento

El espacio muestral de un experimento denotado por S, es el conjunto de
todos los posibles resultados de dicho experimento.
Estadı́stica I
Probabilidad
Ejemplo 2.1

El espacio muestral de un experimento

El espacio muestral de un experimento denotado por S, es el conjunto de
todos los posibles resultados de dicho experimento.
Ejemplo 2.2
Si se examinan tres fusibles en secuencia y se anota el resultado de cada
examen, entonces un resultado del experimento es cualquier secuencia de
letras N y D de longitud 3.
Estadı́stica I
Probabilidad
N representa no defectuoso, D representa defectuoso, entonces

S = {NNN, NND, NDN, NDD, DNN, DND, DDN, DDD}
Ejemplo 2.3
Dos gasolinerı́as están localizadas en cierta intersección. Cada una dispone
de 6 bombas de gasolina. Considérese el experimento en el cual se
determina el número de bombas en uso a una hora particular del dı́a
0 1 2 3 4 5 6
0 (0, 0) (0, 1) (0, 2) (0, 3) (0, 4) (0, 5) (0, 6)
1 (1, 0) (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
2 (2, 0) (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
3 (3, 0) (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
4 (4, 0) (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
5 (5, 0) (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
6 (6, 0) (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
Estadı́stica I
Probabilidad
Eventos
Un evento es cualquier recopilación (subconjunto) de resultados
contenidos en el espacio muestral S. Un evento es simple si consiste en
exactamente un resultado y compuesto si consiste en más de un
resultado.
Estadı́stica I
Probabilidad
Eventos
Un evento es cualquier recopilación (subconjunto) de resultados
contenidos en el espacio muestral S. Un evento es simple si consiste en
exactamente un resultado y compuesto si consiste en más de un
resultado.
Ejemplo 2.4
Cuando se observa el número de bombas en uso en cada una de dos
gasolinerı́as de 6 bombas, existen 49 posibles resultados, por lo que existen
49 eventos simples:
E1 = {(0, 0)}, E1 = {(0, 1)}, . . . , E49 = {(6, 6)}
Ejemplos de eventos compuestos son:
A = {(0, 0), (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}
B = {(0, 4), (1, 3)(2, 2), (3, 1), (4, 0)}
C = {(0, 0), (0, 1), (1, 0), (1, 1)}
Estadı́stica I
Probabilidad
Algunas relaciones de la teorı́a de conjuntos
El complemento de un evento A, denotado por A0 , es el conjunto de

todos los resultados en S que no están contenidos en A.
La unión de dos eventos A y B, denotados por A ∪ B y leı́dos “A o
B”, es el evento que consiste en todos los resultados que están en A
o en B o en ambos eventos (de tal suerte que la unión incluya
resultados donde tanto A como B ocurren, ası́ también resultados
donde ocurre exactamente uno), es decir, todos los resultados en por
lo menos uno de los eventos.
La intersección de dos eventos A y B, denotada por A ∩ B y leı́da “A
y B”, es el evento que consiste en todos los resultados que están
tanto en A como en B.
Estadı́stica I
Probabilidad
Figura 8: Diagramas de Venn

Estadı́stica I
Probabilidad
Ejemplo 2.5
En el experimento en el cual se observa el número de bombas en uso en
una sola gasolinerı́a de seis bombas, sea A = {0, 1, 2, 3, 4},
B = {3, 4, 5, 6} y C = {1, 3, 5}. Entonces:
A0 = {5, 6}, A ∪ B = {0, 1, 2, 3, 4, 5, 6} = S

A ∪ C = {0, 1, 2, 3, 4, 5}, A ∩ B = {3, 4}, A ∩ C = {1, 3}
0
(A ∩ C) = {0, 2, 4, 5, 6}
Definición 2.6
Que ∅ denote el evento nulo (el evento sin resultados). Cuando A ∩ B = ∅,
se dice que A y B son eventos mutuamente excluyentes o disjuntos.
Estadı́stica I
Probabilidad
Axiomas, interpretaciones y propiedades

Observación 2.7
Dados un experimento y un espacio muestral S, el objetivo de la
probabilidad es asignar a cada evento A un número P (A), llamado la
probabilidad del evento A, el cual dará una medida precisa de la
oportunidad de que A ocurra.
Estadı́stica I
Probabilidad
Axiomas, interpretaciones y propiedades

Observación 2.7
Dados un experimento y un espacio muestral S, el objetivo de la
probabilidad es asignar a cada evento A un número P (A), llamado la
probabilidad del evento A, el cual dará una medida precisa de la
oportunidad de que A ocurra.
Axiomas de probabilidad
A1. Para cualquier evento A, P (A) ≥ 0.

A2. P (S) = 1
A3. Si A1 , A2 , A3 , . . . , es un conjunto de eventos mutuamente
excluyentes, entonces
∞
X
P (A1 ∪ A2 ∪ A3 ∪ · · · ) = P (Ai )
i=1
Estadı́stica I
Probabilidad
Proposición 2.8
P (∅) = 0 donde ∅ es el evento nulo (el evento que no contiene resultados
en absoluto). Esto a su vez implica que la propiedad contenida en el
axioma 3 es válida para un conjunto finito de eventos.
Estadı́stica I
Probabilidad
Proposición 2.8
P (∅) = 0 donde ∅ es el evento nulo (el evento que no contiene resultados
en absoluto). Esto a su vez implica que la propiedad contenida en el
axioma 3 es válida para un conjunto finito de eventos.
Demostración: Primero considérese el conjunto infinito
A1 = ∅, A2 = ∅, A3 = ∅, . . . . Como ∅ ∩ ∅ = ∅, los eventos en éste
conjunto son disyuntos y ∪Ai = ∅. Entonces por el tercer axioma
X
P (∅) = P (∅)
Esto puede suceder sólo si P (∅) = 0. Ahora supóngase que A1 , A2 , . . . , Ak

son eventos disyuntos y anéxense a éstos el conjunto infinito
Ak+1 = ∅, Ak+2 = ∅, . . . ,, De nuevo si se invoca el tercer axioma
k ∞ ∞ k
! !
[ [ X X
P Ai = P Ai = P (Ai ) = P (Ai )
i=1 i=1 i=1 i=1
Estadı́stica I
Probabilidad
Ejemplo 2.9
Considere lanzar una tachuela al aire. Cuando se detiene en el suelo, o su
punta estará hacia arriba (el resultado U ) o hacia abajo (el resultado D).
El espacio muestral de este evento es por consiguiente S = {U, D}.
Los axiomas especifican P (S) = 1, por lo que la asignación de
probabilidad se completará determinando P (U ) y P (D). Como U y D
están desarticulados y su unión S, la siguiente proposición implica que
1 = P (S) = P (U ) + P (D) ⇒ P (D) = 1 − P (U )
Una posible asignación de probabilidades es P (U ) = 0.5, P (D) = 0.5,

mientras que otra posible asignación es P (U ) = 0.75, P (D) = 0.25.
Si p representa cualquier número fijo entre 0 y 1,
P (U ) = p, P (D) = 1 − p es una asignación compatible con los
axiomas.
Estadı́stica I
Probabilidad
Ejemplo 2.10
Suponga que la probabilidad de que cierto evento ocurra es de 0.99. Se
puede demostrar que
P (E1 ) = 0.99, P (E2 ) = (0.01)(0.99), P (E3 ) = (0.01)2 (0.99), . . .
es una asignación de probabilidades a los eventos simples que satisface los

axiomas. En particular, como los Ei son disjuntos y
S = E1 ∪ E2 ∪ E3 ∪ · · · , debe ser el caso de que
1 = P (S) = P (E1 ) + P (E2 ) + P (E3 ) + · · ·

= 0.99[1 + 0.01 + (0.01)2 + (0.01)3 + · · · ]
Aquı́ se utilizó la fórmula para la suma de una serie geométrica:

a
a + ar + ar2 + ar3 + · · · =
1−r
Estadı́stica I
Probabilidad
Probabilidad y sus postulados
Observación 2.11
La probabilidad se mide en una escala de 0 a 1. Una probabilidad de
0 indica que el suceso no ocurrirá y una probabilidad de 1 indica que
el suceso es seguro que ocurra.
Ninguno de estos dos extremos es habitual en los problemas
aplicados. Por lo tanto, nos interesa asignar probabilidades
comprendidas entre 0 y 1 a los sucesos inciertos.
Examinamos tres definiciones de probabilidad:

Probabilidad clásica.
Frecuencia relativa
Probabilidad subjetiva
Estadı́stica I
Probabilidad
Probabilidad clásica
La probabilidad clásica es la proporción de veces que ocurrirá un suceso,
suponiendo que todos los resultados contenidos en un espacio muestral
tienen la misma probabilidad de ocurrir. La probabilidad de un suceso A es
N (A)
P (A) = (15)
N
donde N (A) es el número de resultados que satisfacen la condición del
suceso A y N es el número total de resultados contenidos en el espacio
muestral.
Observación 2.12
En el método de la probabilidad clásica, hay que contar los resultados
contenidos en el espacio muestral.
Estadı́stica I
Probabilidad
Ejemplo 2.13
Carla Alcántara tiene una pequeña tienda de computadores. Un dı́a tiene
tres Gateway y dos Compaq en existencias. Supongamos que entra en la
tienda Susana Eslava a comprar dos computadores. A Susana le da igual la
marca todos los computadores tienen las mismas especificaciones técnicas,
por lo que selecciona los computadores puramente al azar: cualquiera de
los computadores del estante tiene la misma probabilidad de ser elegido.
¿Cuál es la probabilidad de que Susana compre un Gateway y un Compaq?
Solución:
Representemos los tres computadores Gateway por medio de G1 , G2 y G3
y los dos Compaq por medio de C1 y C2 entonces
S = {G1 C1 , G1 C2 , G2 C1 , G2 C2 , G3 C1
G3 C2 , G1 G2 , G1 G3 , G2 G3 , C1 C2 }
y N (A) 6
P (A) = = = 0.6
N 10
Estadı́stica I
Probabilidad
Frecuencia relativa
La frecuencia relativa es el lı́mite de la proporción de veces que ocurre el
suceso A en un gran número de pruebas, n:
n(A)
P (A) = (16)
n
donde n(A) es el número de veces que se obtiene A y n es el número total
de pruebas o resultados. La probabilidad es el lı́mite a medida que n se
hace más grande (o tiende a infinito).
Estadı́stica I
Probabilidad
Frecuencia relativa
La frecuencia relativa es el lı́mite de la proporción de veces que ocurre el
suceso A en un gran número de pruebas, n:
n(A)
P (A) = (16)
n
donde n(A) es el número de veces que se obtiene A y n es el número total
de pruebas o resultados. La probabilidad es el lı́mite a medida que n se
hace más grande (o tiende a infinito).
Estadı́stica I
Probabilidad
Observación 2.14
Se dice que esta interpretación de frecuencia relativa de probabilidad es
objetiva porque se apoya en una propiedad del experimento y no en
cualquier individuo particular interesado en el experimento
Ejemplo 2.15
Por ejemplo, dos observadores diferentes de una secuencia de lanzamiento
imparcial de un dado deberán utilizar la misma asignación de probabilidad
puesto que los observadores no tienen nada que ver con la frecuencia
relativa lı́mite.
Dado imparcial
1
P ({1}) = P ({2}) = P ({3}) = · · · = P ({6})) =
6
Estadı́stica I
Probabilidad
Probabilidad subjetiva
La probabilidad subjetiva expresa el grado en que una persona cree que
ocurrirá un suceso. Estas probabilidades subjetivas se utilizan en algunos
procedimientos empresariales de toma de decisiones.
Ejemplo 2.16
Si creo que la probabilidad de que un caballo gane una carrera es 0.4,

estoy expresando mi opinión personal de que hay una posibilidad del
40 por ciento de que gane
Las probabilidades de un tratado de paz son buenas
Es probable que el contrato le será otorgado a nuestra compañı́a
Como su mejor jugador está lesionado, espero que no anoten más de
10 puntos contra nosotros
Estadı́stica I
Probabilidad
Propiedades de la probabilidad
Proposición 2.17
Para cualquier evento A, P (A) + P (A0 ) = 1, a partir de la cual
P (A) = 1 − P (A0 )
Demostración: En el axioma 3, sea k = 2, A1 = A y A2 = A0 . Como por

definición de A0 , A ∪ A0 = S en tanto A y A0 sean eventos disyuntos
1 = P (S) = P (A ∪ A0 ) = P (A) + P (A0 )
Estadı́stica I
Probabilidad
Propiedades de la probabilidad
Proposición 2.17
Para cualquier evento A, P (A) + P (A0 ) = 1, a partir de la cual
P (A) = 1 − P (A0 )
Demostración: En el axioma 3, sea k = 2, A1 = A y A2 = A0 . Como por

definición de A0 , A ∪ A0 = S en tanto A y A0 sean eventos disyuntos
1 = P (S) = P (A ∪ A0 ) = P (A) + P (A0 )
Ejemplo 2.18
Considere un sistema de cinco componentes idénticos conectados en serie,
como se ilustra en la figura
Estadı́stica I
Probabilidad
Denote un componente que falla por F y uno que no lo hace por E

(éxito). Sea A el evento en que el sistema falla.
Los resultados en A incluyen
EEFEE, FFEEE, EFFEE, . . .
Existen de hecho 31 resultados diferentes en A. Sin embargo, A0 , el

evento en que el sistema funciona, consiste en el resultado único
EEEEE.
Si 90 % de todos estos componentes no fallan y diferentes
componentes lo hacen independientemente uno de otro
P (A0 ) = P (EEEEE) = 0.95 = 0.59
Entonces
P (A) = 1 − 0.59 = 0.41
Estadı́stica I
Probabilidad
Proposición 2.19
Para cualquier evento A, P (A) ≤ 1
Demostración:
P (A), P (A0 ) ≥ 0 ⇒ 1 = P (A) + P (A0 ) ≥ P (A)
Proposición 2.20
Para dos eventos excluyentes cualesquiera A y B
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Demostración:
Estadı́stica I
Probabilidad
Obsérvese primero que A ∪ B puede ser descompuesto en dos eventos

excluyentes, A y A0 ∩ B; la última es la parte de B que queda afuera
de A
Además, B por sı́ mismo es la unión de los dos eventos excluyentes
A ∩ B y A0 ∩ B, entonces
P (B) = P (A ∩ B) + P (A0 ∩ B)
Por lo tanto
P (A ∪ B) = P (A) + P (A0 ∩ B) = P (A) + [P (B) − P (A ∩ B)]

= P (A) + P (B) − P (A ∩ B)
Estadı́stica I
Probabilidad
Ejemplo 2.21
En cierto suburbio residencial, 60 % de las familias se suscriben al
periódico en una ciudad cercana, 80 % lo hacen al periódico local y 50 %
de todas las familias a ambos periódicos. Si se elige una familia al azar,
¿cuál es la probabilidad de que se suscriba a (1) por lo menos a uno de los
dos periódicos y (2) exactamente a uno de los dos periódicos?
Solución:
Denotemos con
A = {se suscribe al periódico metropolitano}
B = {se suscribe al periódico local}
P (A) = 0.6, P (B) = 0.8 y P (A ∩ B) = 0.5, entonces
P (se suscribe a por lo menos uno de los dos periódicos)
= P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
= 0.6 + 0.8 − 0.5 = 0.9
Estadı́stica I
Probabilidad
El evento en que una familia se suscribe a sólo el periódico local se

escribe como A0 ∩ B [(no metropolitano) y local]. Entonces
0.9 = P (A ∪ B) = P (A) + P (A0 ∩ B) = 0.6 + P (A0 ∩ B)
Entonces P (A0 ∩ B) = 0.3. Ası́ mismo
P (A ∩ B 0 ) = P (A ∪ B) − P (B) = 0.1
Se puede ver que
P (exactamente uno) = P (A ∩ B 0 ) + P (A0 ∩ B) = 0.1 + 0.3 = 0.4

Estadı́stica I
Probabilidad
Para tres eventos cualesquiera A, B y C,
P (A ∪ B ∪ C) = P (A) + P (B) + P (C)

− P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)
Observación 2.22
En muchos experimentos compuestos de N resultados, es razonable
asignar probabilidades iguales a los N eventos simples. Éstos incluyen
ejemplos tan obvios como lanzar al aire una moneda o un dado imparciales
Estadı́stica I
Probabilidad
Resultados igualmente probables
Con p = P (Ei ) para cada i

N N
X X 1
1= P (Ei ) = p = pN por lo tanto p =
N
i=1 i=1
Es decir, si existen N resultados igualmente probables, la probabilidad

de cada uno es 1/N .
Ahora considérese un evento A, con N (A) como el número de
resultados contenidos en A. Entonces
X X 1 N (A)
P (A) = P (Ei ) = =
N N
Ei ∈A Ei ∈A
Estadı́stica I
Probabilidad
Ejemplo 2.23
Cuando dos dados se lanzan por separado, existen N = 36 resultados. Si
ambos dados son imparciales, los 36 resultados son igualmente probables,
por lo tanto P (Ei ) = 1/36. Entonces el evento
A = {suma de dos números = 7} consta de seis resultados
{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}, por lo tanto
N (A) 6 1
P (A) = = =
N 36 6
Estadı́stica I
Probabilidad
Ejemplo 2.23
Cuando dos dados se lanzan por separado, existen N = 36 resultados. Si
ambos dados son imparciales, los 36 resultados son igualmente probables,
por lo tanto P (Ei ) = 1/36. Entonces el evento
A = {suma de dos números = 7} consta de seis resultados
{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}, por lo tanto
N (A) 6 1
P (A) = = =
N 36 6
Proposición 2.24 (Reglas de conteo)

Si el primer elemento u objeto de un par ordenado puede ser seleccionado
de n1 maneras y por cada una de estas n1 maneras el segundo elemento
del par puede ser seleccionado de n2 maneras, entonces el número de
pares es n1 n2 .
Estadı́stica I
Probabilidad
Ejemplo 2.25
El propietario de una casa que va a llevar a cabo una remodelación
requiere los servicios tanto de un contratista de fontanerı́a como de un
contratista de electricidad. Si existen 12 contratistas de fontanerı́a y 9
contratistas electricistas disponibles en el área, ¿de cuántas maneras
pueden ser elegidos los contratistas?
Solución:
Sean P1 , P2 , . . . P12 los fontaneros y Q1 , Q2 , · · · , Q9 los electricistas,
entonces se desea el número de pares de la forma (Pi , Qj ). Con n1 = 12 y
n2 = 9, la regla del producto da N = (12)(9) = 108 formas posibles de
seleccionar los dos tipos de contratistas.
Estadı́stica I
Probabilidad
Ejemplo 2.26
Una familia se acaba de cambiar a una nueva ciudad y requiere los
servicios tanto de un obstetra como de un pediatra. Existen dos clı́nicas
médicas fácilmente accesibles y cada una tiene dos obstetras y tres
pediatras. La familia obtendrá los máximos beneficios del seguro de salud
si se une a la clı́nica y selecciona ambos doctores de la clı́nica. ¿De
cuántas maneras se puede hacer esto?
Solución:
Denote los obstetras por O1 , O2 , O3 y O4 y los pediatras por P1 , . . . , P6 .
Entonces se desea el número de pares (Oi , Pj ) para los cuales Oi y Pj
están asociados con la misma clı́nica. Como existen cuatro obstetras,
n1 = 4, y por cada uno existen tres opciones de pediatras, por lo tanto
n2 = 3. Aplicando la regla de producto se obtienen N = n1 n2 = 12
posibles opciones.
Estadı́stica I
Probabilidad
Diagrama de árbol para representar pictóricamente todas las

posibilidades
Estadı́stica I
Probabilidad
Permutaciones y combinaciones
Introducción 2.27
Considérese un grupo de n individuos u objetos distintos (“distintos”
significa que existe alguna caracterı́stica que diferencia a cualquier
individuo u objeto de cualquier otro). ¿Cuántas maneras existen de
seleccionar un subconjunto de tamaño k del grupo?
Definición 2.28
Un subconjunto ordenado se llama permutación. El número de
permutaciones de tamaño k que se puede formar con los n individuos u
objetos en un grupo será denotado por Pk,n . Un subconjunto no ordenado
se llama combinación. Una forma de denotar el número de combinaciones
es Ck,n , pero en su lugar se
utilizará
una notación que es bastante común
n
en libros de probabilidad: que se lee “de n se elige k”.
k
Estadı́stica I
Probabilidad
Proposición 2.29
n!
Pk,n =
(n − k)!
Ejemplo 2.30
Existen diez asistentes de profesor disponibles para calificar exámenes en
un curso de cálculo en una gran universidad. El primer examen se
compone de cuatro preguntas y el profesor desea seleccionar un asistente
diferente para calificar cada pregunta (solo un asistente por pregunta).
¿De cuántas maneras se pueden elegir los asistentes para calificar?
Solución: En este caso n = tamaño del grupo = 10 y k = tamaño del
subconjunto = 4. El número de permutaciones es
10! 10!
P4,10 = = = 10(9)(8)(7) = 5040
(10 − 4)! 6!
Es decir, el profesor podrı́a aplicar 5040 exámenes diferentes de cuatro
preguntas sin utilizar la misma asignación de calificadores a las preguntas.
Estadı́stica I
Probabilidad
Fórmula para hallar el número de combinaciones

El proceso de recuento puede generalizarse utilizando la siguiente ecuación
para calcular el número de combinaciones sin repetición de n objetos de
los que se toman k cada vez:
Pk,n n!
Ckn = = , 0! = 1 (17)
k! k!(n − k)!
Observación 2.31
Por el ejemplo si n = 5, k = 2, entonces
5! 5·4·3·2·1
C25 = = = 10
2!(5 − 2)! 2 · 1(3 · 2 · 1)
Estadı́stica I
Probabilidad
Ejemplo 2.32
Supongamos que ahora en la tienda de Carla hay 10 computadores
Gateway, 5 Compaq y 5 Acer. Susana entra en la tienda y quiere comprar
3. Los selecciona puramente al azar. ¿Cuál es ahora la probabilidad de que
seleccione 2 Gateway y 1 Compaq?
Estadı́stica I
Probabilidad
Ejemplo 2.32
Solución:
El número total de resultados contenidos en el espacio muestral es
20!
N = C320 = = 1140
3!(20 − 3)!
El número de formas en que podemos seleccionar 2 computadores
Gateway de los 10 que hay se calcula de la forma siguiente:
10!
C210 = = 45
2!(10 − 2)!
Estadı́stica I
Probabilidad
Ejemplo 2.32
Solución:
El número total de resultados contenidos en el espacio muestral es
20!
N = C320 = = 1140
3!(20 − 3)!
El número de formas en que podemos seleccionar 2 computadores
Gateway de los 10 que hay se calcula de la forma siguiente:
10!
C210 = = 45
2!(10 − 2)!
Estadı́stica I
Probabilidad
Asimismo, el número de formas en que podemos seleccionar 1

computador Compaq de los 5 que hay se calcula de la forma siguiente:
5!
C15 = =5
1!(5 − 1)!
Por lo tanto, el número de resultados que satisfacen el suceso A es
N (A) = C210 × C15 = 45 × 5 = 225
Por último, la probabilidad de A =[2 Gateways y Compaq] es
N (A) C 10 × C 5 45 × 5
PA = = 2 20 1 = = 0, 197
N C3 1140
Estadı́stica I
Probabilidad

5!
C15 = =5
1!(5 − 1)!
N (A) = C210 × C15 = 45 × 5 = 225
N (A) C 10 × C 5 45 × 5
PA = = 2 20 1 = = 0, 197
N C3 1140
Estadı́stica I
Probabilidad

5!
C15 = =5
1!(5 − 1)!
N (A) = C210 × C15 = 45 × 5 = 225
N (A) C 10 × C 5 45 × 5
PA = = 2 20 1 = = 0, 197
N C3 1140
Estadı́stica I
Probabilidad

5!
C15 = =5
1!(5 − 1)!
N (A) = C210 × C15 = 45 × 5 = 225
N (A) C 10 × C 5 45 × 5
PA = = 2 20 1 = = 0, 197
N C3 1140
Observación 2.33
En la siguiente sección, se examina cómo afecta la información de que “un
evento B ha ocurrido” a la probabilidad asignada a A.
Estadı́stica I
Probabilidad
Probabilidad condicional.
Definición 2.34
Para dos eventos cualesquiera A y B con P (B) > 0, la probabilidad
condicional de A dado que B ha ocurrido está definida por
P (A ∩ B)
P (A|B) = (18)
P (B)
Estadı́stica I
Probabilidad
Ejemplo 2.35
Supóngase que de todos los individuos que compran cierta cámara digital,
60 % incluye una tarjeta de memoria opcional en su compra, 40 % incluyen
una baterı́a extra y 30 % incluyen tanto una tarjeta como una baterı́a.
Determine la probabilidad de que una tarjeta opcional sea adquirida dado
que el individuo seleccionado adquirió una baterı́a extra
Solución:
Considere seleccionar al azar un comprador y sea
A = {tarjeta de memoria adquirida}

B = {baterı́a adquirida}
Estadı́stica I
Probabilidad
Entonces
P (A) = 0.60, P (B) = 0.40, P (A ∩ B) = 0.30
Dado que el individuo seleccionado adquirió una baterı́a extra, la

probabilidad de que una tarjeta opcional también sea adquirida es
P (A ∩ B) 0.30
P (A|B) = = = 0.75
P (B) 0.40
Es decir, de todos los que adquieren una baterı́a extra, 75 %

adquirieron una tarjeta de memoria opcional
Asimismo
P (A ∩ B) 0.30
P (B|A) = = = 0.50
P (A) 0.60
Obsérvese que P (A|B) 6= P (A) y P (B|A) 6= P (B).
Estadı́stica I
Probabilidad
Ejemplo 2.36
Una revista de noticias publica tres columnas tituladas “Arte” (A),
“Libros” (B) y “Cine” (C). Los hábitos de lectura de un lector
seleccionado al azar con respecto a estas columnas son
Lee con regularidad A B C A∩B A∩C B∩C A∩B∩C
Probabilidad 0.14 0.23 0.37 0.08 0.09 0.13 0.05
La figura ilustra las probabilidades pertinentes.

Estadı́stica I
Probabilidad
Solución:
P (A ∩ B) 0.08
P (A|B) = = = 0.348
P (B) 0.23
P (A ∩ (B ∪ C))
P (A|B ∪ C) =
P (B ∪ C)
0.04 + 0.05 + 0.03 0.12
= = = 0.255
0.47 0.47
P (A ∩ (A ∪ B ∪ C))
P (A|A ∪ B ∪ C) =
P (A ∪ B ∪ C)
P (A) 0.14
= = = 0.286
P (A ∪ B ∪ C) 0.49
P ((A ∪ B) ∩ C)
P (A ∪ B|C) =
P (C)
0.04 + 0.05 + 0.08
= = 0.459
0.37
Estadı́stica I
Probabilidad
Regla de la multiplicación: Eventos dependientes
P (A ∩ B) = P (B) · P (A|B) (19)

P (A ∩ B) = P (A) · P (B|A) (20)
Estadı́stica I
Probabilidad
Regla de la multiplicación: Eventos dependientes
P (A ∩ B) = P (B) · P (A|B) (19)

P (A ∩ B) = P (A) · P (B|A) (20)
Ejemplo 2.37
Un caja contiene 3 bolas verdes, 5 rojas y 2 bolas azules. Si se extraen al
azar 2 bolas sin reposición, ¿cual es la probabilidad de que la primera sea
azul y la segunda sea verde?
Solución:
Eventos dependientes
A = {1era bola sea azul}, B = {2da bola sea verde}
2 3 1
P (A ∩ B) = P (A) · P (B|A) = · = = 0.0667 = 6.67 %
10 9 15
Estadı́stica I
Probabilidad
Regla de la multiplicación: Eventos independientes
P (A ∩ B) = P (A) · P (B) (21)

Estadı́stica I
Probabilidad
Regla de la multiplicación: Eventos independientes
P (A ∩ B) = P (A) · P (B) (21)
Ejemplo 2.38
Un dado balanceado se lanza dos veces. Encuentre la probabilidad de
obtener 4, 5 ó 6 en el primer lanzamiento y 1, 2, 3 ó 4 en el segundo.
Solución:
Sean A1 , A2 los siguientes eventos
A1 = {4, 5 o 6 en el primer lanzamiento}
A2 = {1, 2, 3 ó 4 en el segundo}
Entonces
3 4 1
P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) = · = ≈ 33.33 %
6 6 3
Estadı́stica I
Probabilidad
Ejemplo 2.39
Se sacan dos cartas de un naipe bien barajado de 52 cartas. Encuentre la
probabilidad de que ambas cartas sean ases si a) hay remplazo b) no hay
remplazo
Solución:
Sean A1 , A2 los eventos
A1 = {as en el primer retiro}, A2 = {as en el segundo retiro}
Dado que para el primer retiro hay 4 ases en 52 cartas,
P (A1 ) = 4/52. Además si se reemplaza la carta antes de hacer el
segundo retiro entonces P (A2 |A1 ) = 4/52, puesto que también hay 4
ases en las 52 cartas. Entonces
P (A1 ∩ A2 ) = P (A1 ) · P (A2 |A1 )

4 4 1
= = ≈ 0.005917 = 0.5917 %
52 52 169
Estadı́stica I
Probabilidad
Como en el ı́tem anterior P (A1 ) = 4/52. Sin embargo si sale un as en

el primer retiro, quedaran sólo 3 ases en las 51 cartas disponibles, de
manera que P (A2 |A1 ) = 3/51. Entonces
P (A1 ∩ A2 ) = P (A1 ) · P (A2 |A1 )

4 3 1
= = ≈ 0.004525 = 0.4525 %
52 51 221
Estadı́stica I
Probabilidad
Como en el ı́tem anterior P (A1 ) = 4/52. Sin embargo si sale un as en

el primer retiro, quedaran sólo 3 ases en las 51 cartas disponibles, de
manera que P (A2 |A1 ) = 3/51. Entonces
P (A1 ∩ A2 ) = P (A1 ) · P (A2 |A1 )

4 3 1
= = ≈ 0.004525 = 0.4525 %
52 51 221
Ley de probabilidad total

Sean A1 , A2 , . . . , Ak eventos mutuamente excluyentes y exhaustivos.
Entonces para cualquier otro evento B,
k
X
P (B) = P (B|A1 )P (A1 ) + · · · + P (B|Ak )P (Ak ) = P (B|Ai )P (Ai )
i=1
Estadı́stica I
Probabilidad
Demostración:
Como los eventos Ai son mutuamente excluyentes y exhaustivos, si B
ocurre debe ser en forma conjunta con uno de los eventos Ai de manera
exacta. Es decir,
B = (A1 ∩ B) ∪ · · · ∩ (Ak ∩ B)
donde los eventos (Ai ∩ B) son mutuamente excluyentes. Entonces
k
X k
X
P (B) = P (Ai ∩ B) = P (B|Ai )P (Ai ).
i=1 i=1
Estadı́stica I
Probabilidad
Teorema de Bayes
Sean A1 , A2 , . . . , Ak un conjunto de eventos mutuamente excluyentes y
exhaustivos con probabilidades previas P (Ai ), i = 1, . . . k. Entonces para
cualquier otro evento B para el cual P (B) > 0, la probabilidad posterior
de Aj dado que B ha ocurrido es
P (Aj ∩ B) P (B|Aj )P (Aj )
P (Aj |B) = = k , j = 1, . . . k
P (B) X
P (B|Ai ) · P (Ai )
i=1
Estadı́stica I
Probabilidad
Teorema de Bayes
Sean A1 , A2 , . . . , Ak un conjunto de eventos mutuamente excluyentes y
exhaustivos con probabilidades previas P (Ai ), i = 1, . . . k. Entonces para
cualquier otro evento B para el cual P (B) > 0, la probabilidad posterior
de Aj dado que B ha ocurrido es
P (Aj ∩ B) P (B|Aj )P (Aj )
P (Aj |B) = = k , j = 1, . . . k
P (B) X
P (B|Ai ) · P (Ai )
i=1
Ejemplo 2.40
En un consultorio medico el 40 % de los pacientes fingen tener una
enfermedad (para obtener un descanso médico). Además el 10 % de los
pacientes del consultorio son hombres. La probabilidad de que un paciente
finja una enfermedad dado que es hombre es del 50 %. Calcular la
probabilidad de que un paciente sea hombre, dado que finge una
enfermedad.
Estadı́stica I
Probabilidad
Solución:
Sean F, H los eventos
F = {paciente finge una enfermedad}
H = {paciente seleccionado es hombre}
P (F ) = 0.4, P (H) = 0.1, P (F |H) = 0.5, P (H|F ) =?
Entonces
P (H) · P (F |H) (0.1)(0.5)
P (H|F ) = = = 0.125 = 12.5 %
P (F ) 0.4
Estadı́stica I
Probabilidad
Solución:
Sean F, H los eventos
F = {paciente finge una enfermedad}
H = {paciente seleccionado es hombre}
P (F ) = 0.4, P (H) = 0.1, P (F |H) = 0.5, P (H|F ) =?
Entonces
P (H) · P (F |H) (0.1)(0.5)
P (H|F ) = = = 0.125 = 12.5 %
P (F ) 0.4
Ejemplo 2.41
En un acuario se tienen solo dos especies de peces. El 40 % de los peces
son de la especie azul, y el 60 % son de la especie roja. De la especie azul,
el 30 % son machos, mientras que de la especie roja, el 40 % son hembras.
a) Si se selecciona un pez hembra, ¿cuál es la probabilidad de que sea de
la especie azul?
Estadı́stica I
Probabilidad
Solución: Sean A, B los eventos

A = {pez seleccionado sea azul}
B = {pez seleccionado sea rojo}
P (A)P (H|A) (0.4)(0.7)

P (A|H) = = ≈ 0.5385 = 53.85 %
P (H) (0.4)(0.7) + (0.6)(0.4)
Estadı́stica I
Probabilidad
b) Si se selecciona un pez macho ¿cuál es la probabilidad de que sea de la

especie azul?
Solución:
P (A) · P (M |A) (0.4)(0.3)

P (A|M ) = = = 0.25 = 25 %
P (M ) (0.4)(0.3) + (0.6)(0.6)
Estadı́stica I
Probabilidad
Ejercicios de la sección
Ejercicio 1
El 40 % de los conductores en la ciudad de Barranquilla utilizan gasolina
corriente (A1), 35 % usan gasolina plus (A2) y 25 % utilizan extra (A3).
De los conductores que utilizan gasolina corriente, sólo 30 % llenan sus
tanques (evento B). De los conductores que utilizan plus, 60 % llenan sus
tanques, mientras que los que utilizan extra, 50 % llenan sus tanques. a)
¿Cuál es la probabilidad de que el siguiente conductor pida gasolina plus y
llene el tanque? b) ¿Cuál es la probabilidad de que el siguiente conductor
llene el tanque? c) Si el siguiente conductor llena el tanque, ¿cuál es la
probabilidad que pida gasolina corriente? ¿Plus? ¿Extra?.
Estadı́stica I
Probabilidad
Ejercicio 2
Suponga que el 70 % de las avionetas que desaparecen en un vuelo en
Colombia son posteriormente localizadas. De las avionetas que son
localizadas, 60 % cuentan con un localizador de emergencia, mientras que
90 % de las avionetas no localizadas, no cuentan con dicho localizador.
Suponga que una avioneta ligera ha desaparecido. a) Si tiene un
localizador de emergencia, ¿cuál es la probabilidad de que no será
localizada? b) Si no tiene un localizador de emergencia, ¿cuál es la
probabilidad de que será localizada?
Estadı́stica I
Variables aleatorias unidimensionales
Variables aleatorias discretas y distribuciones de

probabilidad
Definición 3.1 (Variable aleatoria)
Para un espacio muestral dado S de algún experimento, una variable
aleatoria (va, o rv, por sus siglas en inglés) es cualquier regla que asocia
un número con cada resultado en S. En lenguaje matemático, una variable
aleatoria es una función cuyo dominio es el espacio muestral y cuyo rango
es el conjunto de números reales.
La notación X(s) = x significa que x es el valor asociado con el resultado

s por la va X.
Estadı́stica I
Ejemplo 3.2
Cuando un estudiante intenta entrar a un sistema de tiempo compartido
de computadora, o todos los puertos están ocupados (F ), en cuyo caso el
estudiante no podrá tener acceso o hay por lo menos un puerto libre (S),
en cuyo caso el estudiante sı́ podrá tener acceso al sistema. Con
S = {S, F }, la va X se define como
X(S) = 1, X(F ) = 0
Estadı́stica I
Ejemplo 3.2
Cuando un estudiante intenta entrar a un sistema de tiempo compartido
de computadora, o todos los puertos están ocupados (F ), en cuyo caso el
estudiante no podrá tener acceso o hay por lo menos un puerto libre (S),
en cuyo caso el estudiante sı́ podrá tener acceso al sistema. Con
S = {S, F }, la va X se define como
X(S) = 1, X(F ) = 0
Ejemplo 3.3
Considere el experimento en el cual un número telefónico en cierto código
de área es elegido con un marcador de números aleatorio (tales
dispositivos los utilizan en forma extensa organizaciones encuestadoras) y
defina una va Y como
(
1 si el número seleccionado no aparece en el directorio
Y =
0 si el número seleccionado sı́ aparece en el directorio
Estadı́stica I
Definición 3.4
Cualquier variable aleatoria cuyos únicos valores posibles son 0 y 1 se
llama variable aleatoria de Bernoulli.
Estadı́stica I
Definición 3.4
Cualquier variable aleatoria cuyos únicos valores posibles son 0 y 1 se
llama variable aleatoria de Bernoulli.
Ejemplo 3.5
El Ejemplo 3 describe un experimento en el cual se determinó el número
de bombas en uso en cada una de dos gasolinerı́as. Defina las variables
aleatorias X, Y y U para las dos gasolineras como
X = el número total de bombas en uso.
Y = la diferencia entre el número de bombas en uso.
U = el máximo de los números de bombas en uso.
Si se realiza este experimento y s = (2, 3) se obtiene entonces

X((2, 3)) = 2 + 3 = 5, por lo que se dice que el valor observado de X fue
x = 5. Asimismo, el valor observado de Y serı́a Y ((2, 3)) = 2 − 3 = −1 y
el de U serı́a U ((2, 3)) = máx(2, 3) = 3.
Estadı́stica I
Definición 3.6
Una variable aleatoria discreta es una variable aleatoria cuyos valores
posibles o constituyen un conjunto finito o bien pueden ser puestos en
lista en una secuencia infinita.
Una variable aleatoria es continua si su conjunto de valores posibles
se compone de o todos los números que hay en un solo intervalo
sobre la lı́nea de numeración o todos los números en una unión
excluyente de dichos intervalos.
Estadı́stica I
Definición 3.6
Una variable aleatoria discreta es una variable aleatoria cuyos valores
posibles o constituyen un conjunto finito o bien pueden ser puestos en
lista en una secuencia infinita.
Una variable aleatoria es continua si su conjunto de valores posibles
se compone de o todos los números que hay en un solo intervalo
sobre la lı́nea de numeración o todos los números en una unión
excluyente de dichos intervalos.
Observación 3.7
Si es posible contar los valores de una variable aleatoria, ésta se denomina
variable aleatoria discreta; si los valores no se pueden contar, a la
variable se le llama variable aleatoria continua.
Estadı́stica I
Distribuciones de probabilidad para variables

aleatorias discretas
Observación 3.8
Las probabilidades asignadas a varios resultados en S determinan a su vez
las probabilidades asociadas con los valores de cualquier variable aleatoria
X particular
Estadı́stica I

Observación 3.8
X particular
Definición 3.9
La distribución de probabilidad o función masa de probabilidad (fmp)
de una variable discreta se define para cada número x como
p(x) = P (X = x) = P (todas las s ∈ S : X(s) = x) (22)

Estadı́stica I

Observación 3.8
X particular
Definición 3.9
La distribución de probabilidad o función masa de probabilidad (fmp)
de una variable discreta se define para cada número x como
p(x) = P (X = x) = P (todas las s ∈ S : X(s) = x) (22)

En palabras, para cada valor posible x de la variable aleatoria, la
función masa de probabilidad especifica la probabilidad de observar
dicho valor cuando se realiza el experimento.
Estadı́stica I
Observación 3.10
Se requieren las condiciones
X
p(x) ≥ 0 y p(x) = 1 (23)
todas las x posibles
de cualquier función de masa de probabilidad.

Estadı́stica I
Observación 3.10
Se requieren las condiciones
X
p(x) ≥ 0 y p(x) = 1 (23)
todas las x posibles
de cualquier función de masa de probabilidad.
Ejemplo 3.11
Sea X el número de “caras” en tres lanzamientos de una moneda justa.
Dibuje la función de masa de probabilidad (fmp) asociada.
Solución:
Espacio muestral
S = {CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS}

Estadı́stica I
Probabilidades
1
p(0) = P (X = 0) =
8
3
p(1) = P (X = 1) =
8
3
p(2) = P (X = 2) =
8
1
p(3) = P (X = 3) =
8
Estadı́stica I
Probabilidades
1
p(0) = P (X = 0) =
8
3
p(1) = P (X = 1) =
8
3
p(2) = P (X = 2) =
8
1
p(3) = P (X = 3) =
8
Función de masa de probabilidad:
Estadı́stica I
Ejemplo 3.12
Seis lotes de componentes están listos para ser enviados por un proveedor.
El número de componentes defectuosos en cada lote es como sigue:
Lote 1 2 3 4 5 6
Número de defectuosos 0 2 0 1 2 0
Uno de estos lotes tiene que ser seleccionado al azar para ser enviado a un
cliente particular. Sea X el número de defectuosos en el lote seleccionado.
Encuentre la función de masa de probabilidad
Solución:
Los tres posibles valores de X son 0, 1 y 2. De los seis eventos simples
igualmente probables, tres dan por resultado X = 0, uno X = 1 y los
otros 2 X = 2. Entonces
3
p(0) = P (X = 0) = = 0.5
6
Estadı́stica I
1
p(1) = P (X = 1) = = 0.167
6
2
p(2) = P (X = 2) = = 0.333
6
Los valores de X junto con sus probabilidades especifican la función de
masa de probabilidad.
Estadı́stica I
1
p(1) = P (X = 1) = = 0.167
6
2
p(2) = P (X = 2) = = 0.333
6
Los valores de X junto con sus probabilidades especifican la función de
masa de probabilidad.
Ejemplo 3.13
Considere si la siguiente persona que compre una computadora en una
librerı́a universitaria comprará un modelo portátil o uno de escritorio. Sea
(
1 si el cliente compra un computadora portatil
X=
0 si el cliente compra un computadora de escritorio
Si 20 % de todas las compras durante esa semana seleccionan una portátil,

calcule la función masa de probabilidad de X.
Estadı́stica I
p(0) = P (X = 0) = 0.8
p(1) = P (X = 1) = 0.2
p(x) = P (X = x) = 0, con x 6= 0 o 1
Una descripción equivalente es

0.8 si x = 0

p(x) = 0.2 si x = 1

0 6 0o1
si x =

X es, desde luego, una variable aleatoria de Bernoulli y p(x) es una

función masa de probabilidad de Bernoulli.
Estadı́stica I
Observación 3.14
Otra representación pictórica útil de una función de masa de probabilidad,
llamada histograma de probabilidad, es similar a los histogramas
discutidos en el primer corte.
Sobre cada y con p(y) > 0, se construye un rectángulo con su centro
en y. La altura de cada rectángulo es proporcional a p(y) y la base es
la misma para todos los rectángulos.
Estadı́stica I
Parámetro de una distribución de probabilidad

La función masa de probabilidad de cualquier variable aleatoria de
Bernoulli puede ser expresada en la forma p(1) = α y p(0) = 1 − α, donde
0 < α < 1. Como la función masa de probabilidad depende del valor
particular de α, con frecuencia se escribe p(x; α) en lugar de sólo p(x):

1 − α si x = 0

p(x; α) = α si x = 1 (24)

0 de lo contrario

Estadı́stica I
Parámetro de una distribución de probabilidad

La función masa de probabilidad de cualquier variable aleatoria de
Bernoulli puede ser expresada en la forma p(1) = α y p(0) = 1 − α, donde
0 < α < 1. Como la función masa de probabilidad depende del valor
particular de α, con frecuencia se escribe p(x; α) en lugar de sólo p(x):

1 − α si x = 0

p(x; α) = α si x = 1 (24)

0 de lo contrario

Definición 3.15
Supóngase que p(x) depende de la cantidad que puede ser asignada a
cualesquiera de varios valores posibles y cada valor determina una
distribución de probabilidad diferente. Tal cantidad se llama parámetro de
distribución. El conjunto de todas las distribuciones de probabilidad con
diferentes valores del parámetro se llama familia de distribuciones de
probabilidad.
Estadı́stica I
Ejemplo 3.16
La cantidad α en la expresión (24) es un parámetro. Cada número
diferente α entre 0 y 1 determina un miembro diferente de una familia de
distribuciones; dos de esos miembros son
 

 0.4 si x = 0 0.5 si x = 0

p(x) = 0.6 si x = 1 y 0.5 si x = 1
 
0 de lo contrario 0 de lo contrario
 
Estadı́stica I
Ejemplo 3.16
La cantidad α en la expresión (24) es un parámetro. Cada número
diferente α entre 0 y 1 determina un miembro diferente de una familia de
distribuciones; dos de esos miembros son
 

 0.4 si x = 0 0.5 si x = 0

p(x) = 0.6 si x = 1 y 0.5 si x = 1
 
0 de lo contrario 0 de lo contrario
 
Observación 3.17
Toda distribución de probabilidad de una variable aleatoria de Bernoulli
tiene la forma de la expresión (24), por lo tanto, se llama familia de
distribuciones de Bernoulli.
Estadı́stica I
Función de distribución acumulada

Observación 3.18
Para algún valor fijo x, a menudo se desea calcular la probabilidad de que
el valor observado de X será cuando mucho x. Por ejemplo, para la
función masa de probabilidad siguiente



0.500 si x = 0

0.167 si x = 1
p(x) =


0.333 si x = 2

0 otro caso
La probabilidad de que X sea cuando mucho de 1 es entonces

P (X ≤ 1) = p(0) + p(1) = 0.500 + 0.167 = 0.667
En este ejemplo, X ≤ 1.5 si y sólo si X ≤ 1, por lo tanto
P (X ≤ 1.5) = P (X ≤ 1) = 0.667
Estadı́stica I
Asimismo
P (X ≤ 0) = P (X = 0) = 0.5, P (X ≤ 0.75) = 0.5
Para cualquier x que satisfaga 0 ≤ x < 1, P (X ≤ x) = 0.5.
El valor X más grande posible es 2, por lo tanto
P (X ≤ 2) = 1, P (X ≤ 3.7) = 1, P (X ≤ 20.5) = 1
Observe que cuando X es discreta y x es un valor posible de la
variable
P (X < x) < P (X ≤ x)
Estadı́stica I
Asimismo
P (X ≤ 0) = P (X = 0) = 0.5, P (X ≤ 0.75) = 0.5
Para cualquier x que satisfaga 0 ≤ x < 1, P (X ≤ x) = 0.5.
El valor X más grande posible es 2, por lo tanto
P (X ≤ 2) = 1, P (X ≤ 3.7) = 1, P (X ≤ 20.5) = 1
Observe que cuando X es discreta y x es un valor posible de la
variable
P (X < x) < P (X ≤ x)
Definición 3.19
La función de distribución acumulativa (fda) F (x) de una variable
aleatoria discreta X con función masa de probabilidad p(x) se define para
cada número x como X
F (x) = P (X ≤ x) = p(y) (25)
y:y≤x
Estadı́stica I
Observación 3.20
Para cualquier número x, F (x) es la probabilidad de que el valor
observado de X será cuando mucho x.
Estadı́stica I
Observación 3.20
Ejemplo 3.21
Considere la función masa de probabilidad de Y (el número de
determinaciones de tipo de sangre), y obtenga la función de distribución
acumulada
y 1 2 3 4
p(y) 0.4 0.3 0.2 0.1
Estadı́stica I
Observación 3.20
Ejemplo 3.21
Considere la función masa de probabilidad de Y (el número de
determinaciones de tipo de sangre), y obtenga la función de distribución
acumulada
y 1 2 3 4
p(y) 0.4 0.3 0.2 0.1
Solución:
Primero se determina F (y) para cada uno de los valores posibles del
conjunto (1, 2, 3, 4):
F (1) = P (Y ≤ 1) = P (Y = 1) = p(1) = 0.4
F (2) = P (Y ≤ 2) = P (Y = 1 o 2) = p(1) + p(2) = 0.7
Estadı́stica I
F (3) = P (Y ≤ 3) = P (Y = 1 o 2 o 3) = p(1) + p(2) + p(3) = 0.9

F (4) = P (Y ≤ 4) = P (Y = 1 o 2 o 3 o 4) = 1
Ahora con cualquier otro número y, F (y) será igual al valor de F con
el valor más próximo posible de Y a la izquierda de y. Por ejemplo,
F (2.7) = P (Y ≤ 2.7) = P (Y ≤ 2) = 0.7
F (3.999) = F (3) = 0.9
La función de distribución acumulativa es por lo tanto


 0 si y<1

0.4 si 1≤y<2



F (y) = 0.7 si 2≤y<3

0.9 si 3≤y<4





1 si 4≤y

Estadı́stica I
Estadı́stica I
Ejemplo 3.22
A partir de un tiempo fijo, se observa el sexo de cada niño recién nacido
en un hospital hasta que nace un varón (B). Sea p = P (B) y suponga que
los nacimientos sucesivos son independientes y defina la variable aleatoria
X como X = número de nacimientos observados. Entonces
p(1) = P (X = 1) = P (B) = p
p(2) = P (X = 2) = P (GB) = P (G)P (B) = (1 − p)p
p(3) = P (X = 3) = P (GGB) = P (G)P (G)P (B) = (1 − p)2 p
..
.
Estadı́stica I
Continuando de esta manera, emerge una fórmula general:

(
(1 − p)x−1 p si x = 1, 2, 3, . . .
p(x) = (26)
0 de lo contrario
La cantidad p en la expresión (12) representa un número entre 0 y 1 y es
un parámetro de la distribución de probabilidad. Encuentre la función de
distribución acumulada
Solución:
Para cualquier entero positivo x,
X x
X x−1
X
F (x) = p(y) = (1 − p)y−1 p = p (1 − p)y
y≤x y=1 y=0
Dado que k
X 1 − ak+1
ay =
1−a
y=0
Estadı́stica I
Utilizando la serie geométrica con a = 1 − p y k = x − 1 obtenemos
1 − (1 − p)x
F (x) = p = 1 − (1 − p)x
1 − (1 − p)
Como F es constante entre enteros positivos

(
0 si x < 1
F (x) = [x]
1 − (1 − p) si x ≥ 1
donde [x] es el entero más grande ≤ x.

Estadı́stica I
Observación 3.23
Considérese otra vez la variable aleatoria del ejemplo del número de
bombas en servicio en una gasolinerı́a. Los valores posibles de X son
0, 1, ..., 6. Entonces
p(3) = P (X = 3)
= [p(0) + p(1) + p(2) + p(3)] − [p(0) + p(1) + p(2)]
= P (X ≤ 3) − P (X ≤ 2)
= F (3) − F (2)
y
P (2 ≤ X ≤ 4) = p(2) + p(3) + p(4)
= [p(0) + · · · + p(4)] − [p(0) + p(1)]
= P (X ≤ 4) − P (X ≤ 1)
= F (4) − F (1)
Estadı́stica I
Proposición 3.24
Para dos números reales cualesquiera a y b con a ≤ b
P (a ≤ X ≤ b) = F (b) − F (a− )
donde a− representa el valor posible de X más grande que es
estrictamente menor que a. En particular, si los únicos valores posibles son
enteros y si a y b son enteros, entonces
P (a ≤ X ≤ b) = P (X = a o a + 1 o . . . o b) = F (b) − F (a − 1)
Con a = b se obtiene P (X = a) = F (a) − F (a − 1).
Estadı́stica I
Proposición 3.24
Para dos números reales cualesquiera a y b con a ≤ b
P (a ≤ X ≤ b) = F (b) − F (a− )
donde a− representa el valor posible de X más grande que es
estrictamente menor que a. En particular, si los únicos valores posibles son
enteros y si a y b son enteros, entonces
P (a ≤ X ≤ b) = P (X = a o a + 1 o . . . o b) = F (b) − F (a − 1)
Con a = b se obtiene P (X = a) = F (a) − F (a − 1).
Ejemplo 3.25
Sea X = el número de dı́as de ausencia por enfermedad tomados por un
empleado seleccionado al azar de una gran compañı́a durante un año
particular. Si el número máximo de dı́as de ausencia por enfermedad
permisibles al año es de 14, los valores posibles de X son 0, 1, ..., 14.
Estadı́stica I
Con F (0) = 0.58, F (1) = 0.72, F (2) = 0.76, F (3) = 0.81, F (4) = 0.88 y
F (5) = 0.94,
P (2 ≤ X ≤ 5) = P (X = 2, 3, 4 o 5) = F (5) − F (1) = 0.22
y
P (X = 3) = F (3) − F (2) = 0.05
Estadı́stica I
Con F (0) = 0.58, F (1) = 0.72, F (2) = 0.76, F (3) = 0.81, F (4) = 0.88 y
F (5) = 0.94,
P (2 ≤ X ≤ 5) = P (X = 2, 3, 4 o 5) = F (5) − F (1) = 0.22
y
P (X = 3) = F (3) − F (2) = 0.05
Ejemplo 3.26
Sea X el número de defectos importantes en un auto nuevo seleccionado
al azar de cierta marca. La función de distribución acumulativa de X es la
siguiente: 

 0 si x < 1

0.06 si 1 ≤ x < 2



F (x) = 0.46 si 2 ≤ x < 3

0.96 si 3 ≤ x < 4




1 si x ≥ 4

Estadı́stica I
Calcular a) p(2), b) P (X ≤ 3), c) P (1 < X ≤ 3),

d) P (1 < X ≤ 4), e) P (X ≥ 2.35)
Solución:
x p(x) F (x)
1 0.06 0.06
2 0.40 0.46
3 0.50 0.96
4 0.04 1
a) p(2) = 0.40
b) P (X ≤ 3) = F (3) = 0.96
c) P (1 < X ≤ 3) = F (3) − F (1) = 0.96 − 0.06 = 0.90
d) P (1 < X ≤ 4) = F (4) − F (1) = 1 − 0.06 = 0.94
e)
P (X ≥ 2.35) = P (X = 3 o 4) = P (X = 3) + P (X = 4)
= p(3) + p(4) = 0.50 + 0.04 = 0.54
Estadı́stica I
Valores esperados
Observación 3.27
Para tener una medida del punto central de una distribución de
probabilidad, introducimos el concepto de esperanza de una variable
aleatoria.
El valor esperado es la medida correspondiente del punto central de
una variable aleatoria.
Estadı́stica I
Valores esperados
Observación 3.27
Para tener una medida del punto central de una distribución de
probabilidad, introducimos el concepto de esperanza de una variable
aleatoria.
El valor esperado es la medida correspondiente del punto central de
una variable aleatoria.
Definición 3.28
Sea X una variable aleatoria discreta con un conjunto de valores posibles
D y una función masa de probabilidad p(x). El valor esperado o valor
medio de X, denotado por E(X) o µX , es
X
E(X) = µX = x · p(x) (27)
x∈D
Estadı́stica I
Ejemplo 3.29
Exactamente, después de nacer, cada niño recién nacido es evaluado en
una escala llamada escala de Apgar. Las evaluaciones posibles son
0, 1, . . . , 10, con la evaluación del niño determinada por color, tono
muscular, esfuerzo para respirar, ritmo cardiaco e irritabilidad refleja (la
mejor evaluación posible es 10). Sea X la evaluación Apgar de un niño
seleccionado al azar nacido en cierto hospital durante el siguiente año y
supóngase que la función masa de probabilidad de X es
x 0 1 2 3 4 5 6 7 8 9 10
p(x) 0.002 0.001 0.002 0.005 0.02 0.04 0.18 0.37 0.25 0.12 0.01
Solución:
El valor medio de X
E(X) = µX = 0 · p(0) + 1 · p(1) + 2 · p(2) + · · · + 10 · p(10)
= 0(0.002) + 1(0.001) + 2(0.002) + · · · + 10(0.01) = 7.15
Estadı́stica I
Ejemplo 3.30
Sea X = 1 si un componente seleccionado al azar necesita servicio de
garantı́a, y y = 0 si no. Entonces X es una variable aleatoria de Bernoulli
con función masa de probabilidad

1 − p si x = 0

p(x) = p si x = 1

0 si x 6= 0, 1

encuentre el valor esperado de X.
Solución:
E(X) = µ = 0 · p(0) + 1 · p(1) = 0(1 − p) + 1(p) = p
Es decir, el valor esperado de X es exactamente la probabilidad de que X

tome el valor 1.
Estadı́stica I
Ejemplo 3.31
La forma general de función de masa de probabilidad de X = número de
niños nacidos hasta e incluido el primer varón es
(
p(1 − p)x−1 , x = 1, 2, 3, . . .
p(x) =
0, de lo contrario
encuentre el valor esperado de X.

Solución:
De acuerdo con la definición,
∞ ∞
X X X d
E(X) = x · p(x) = xp(1 − p)x−1 = p − (1 − p)x
dp
D x=1 x=1
∞
d X x d 1 1
= −p (1 − p) = −p =
dp dp p p
x=1
Estadı́stica I
Observación 3.32
Si p se aproxima a 1, se espera ver que nazca un varón muy pronto,
mientras que si p se aproxima a 0, se esperan muchos nacimientos antes
del primer varón. Con p = 0.5, E(X) = 2.
Ejemplo 3.33
Sea X = el número de cilindros del motor del siguiente carro que va a ser
afinado en cierto taller. El costo de una afinación está relacionado con X
mediante h(X) = 20 + 3X + 0.5X 2 . Como X es una variable aleatoria,
también lo es h(X); denote esta última variable aleatoria por Y . Las
funciones de masa de probabilidad de X y Y son las siguientes:
x 4 6 8
p(x) 0.5 0.3 0.2
y 40 56 76
p(y) 0.5 0.3 0.2
Estadı́stica I
Solución: Sea D? el conjunto de posibles valores de Y , entonces

X
E(Y ) = E[h(X)] = y · p(y)
D?
= (40)(0.5) + (56)(0.3) + (76)(0.2)
= h(4)(0.5) + h(6)(0.3) + h(8)(0.2)

X
= h(x)p(x)
D
Proposición 3.34
Si la variable aleatoria X tiene un conjunto de posibles valores D y una
función masa de probabilidad p(x), entonces el valor esperado de cualquier
función h(X), denotada por E[h(X)] o µh(X) , se calcula con
X
E[h(X)] = h(x) · p(x) (28)
D
Estadı́stica I
Ejemplo 3.35
Una tienda de computadoras adquirió tres computadoras de un tipo a
$500 cada una. Las venderá a $1000 cada una. El fabricante se
comprometió a readquirir cualquier computadora que no se haya vendido
después de un periodo especificado a $200 cada una. Sea X el número de
computadoras vendidas y suponga que p(0) = 0.1, p(1) = 0.2, p(2) = 0.3
y p(3) = 0.4. Con h(X) denotando la utilidad asociada con la venta de X
unidades, la información dada implica que
h(X) = ingreso − costo = 1000X + 200(3 − X) − 1500 = 800X − 900
encuentre la utilidad esperada
Solución:
E[h(X)] = h(0) · p(0) + h(1) · p(1) + h(2) · p(2) + h(3) · p(3)
= (−900)(0.1) + (−100)(0.2) + (700)(0.3) + (1500)(0.4)
= $700
Estadı́stica I
Reglas del valor esperado

Proposición 3.36
E(aX + b) = a · E(X) + b (29)
(O, con notación alternativa, µaX+b = aµX + b).
X
E(aX + b) = (ax + b) · p(x)
D
X X
=a x · p(x) + b p(x)
D D
= aE(X) + b
Estadı́stica I
Reglas del valor esperado

Proposición 3.36
E(aX + b) = a · E(X) + b (29)
(O, con notación alternativa, µaX+b = aµX + b).
X
E(aX + b) = (ax + b) · p(x)
D
X X
=a x · p(x) + b p(x)
D D
= aE(X) + b
Propiedades del valor esperado
E(aX) = aE(X), ∀a, considere b = 0

E(X + b) = E(X) + b, ∀b, considere a = 1
Estadı́stica I
Varianza de X
Observación 3.37
Se utilizará la varianza de X para evaluar la cantidad de variabilidad en (la
distribución de) X, del mismo modo que se utilizó s2 en el capı́tulo 1 para
medir la variabilidad en una muestra.
Estadı́stica I
Definición 3.38
Sea p(x) la función masa de probabilidad de X y µ su valor esperado. En
ese caso la varianza de X, denotada por V(X) o σX 2 o simplemente σ 2 , es
X
V(X) = (x − µ)2 · p(x) = E[(X − µ)2 ] (30)
D
La desviación estándar (DE) de X es

q
σX = 2
σX (31)
Observación 3.39
La cantidad h(X) = (X–µ)2 es la desviación al cuadrado de X con
respecto a su media y σ 2 es la desviación al cuadrado esperada, es decir,
el promedio ponderado de desviaciones al cuadrado
Estadı́stica I
Ejemplo 3.40
Si X es el número de cilindros del siguiente carro que va a ser afinado en
un taller de servicio, con la función masa de probabilidad dada en el
Ejemplo 3.33 p(4) = 0.5, p(6) = 0.3, p(8) = 0.2, a partir de la cual
µ = 5.4, calcule varianza y desviación estándar esperadas
Solución:
8
X
V(X) = σ 2 = (x − 5.4)2 · p(x)
x=4
= (4 − 5.4)2 (0.5) + (6 − 5.4)2 (0.3) + (8 − 5.4)2 (0.2) = 2.44
√
La desviación estándar de X es σ = 2.44 = 1.562
Estadı́stica I
Formula abreviada para σ

Proposición 3.41
" #
X
2
V(X) = σ = x · p(x) − µ2 = E(X 2 ) − [E(X)]2
2
(32)
D
Demostración:
Expándase (x − µ)2 en la definición de σ 2 para obtener x2 − 2µx + µ2 y
luego lleve σ a cada uno de los tres términos:
X X X
σ2 = x2 · p(x) − 2µ · x · p(x) + µ2 p(x)
D D D
= E(X 2 ) − 2µ · µ + µ2
= E(X 2 ) − µ2
Estadı́stica I
Ejemplo 3.42
La función masa de probabilidad del número de cilindros X del siguiente
carro que va a ser afinado en un taller se dio en el Ejemplo 3.33 como
p(4) = 0.5, p(6) = 0.3 y p(8) = 0.2, a partir de las cuales µ = 5.4 y
E(X 2 ) = (42 )(0.5) + (62 )(0.3) + (82 )(0.2) = 31.6
Por lo tanto σ 2 = 31.6 − (5.4)2 = 2.44.
Estadı́stica I
Ejemplo 3.42
La función masa de probabilidad del número de cilindros X del siguiente
carro que va a ser afinado en un taller se dio en el Ejemplo 3.33 como
p(4) = 0.5, p(6) = 0.3 y p(8) = 0.2, a partir de las cuales µ = 5.4 y
E(X 2 ) = (42 )(0.5) + (62 )(0.3) + (82 )(0.2) = 31.6
Por lo tanto σ 2 = 31.6 − (5.4)2 = 2.44.
Reglas de varianza
La varianza de h(X) es el valor esperado de la diferencia al cuadrado entre
h(X) y su valor esperado:
X
2
V [h(X)] = σh(X) = {h(x) − E[h(X)]}2 · p(x) (33)
D
Cuando h(X) = aX + b, una función lineal
h(x) − E[h(X)] = ax + b − (aµ + b) = a(x − µ)
Estadı́stica I
Proposición 3.43
2
V(aX + b) = σaX+b = a2 · σX
2
y σaX+b = |a| · σX (34)
En particular,
σaX = |a| · σX , σX+b = σX (35)
Estadı́stica I
Proposición 3.43
2
V(aX + b) = σaX+b = a2 · σX
2
y σaX+b = |a| · σX (34)
En particular,
σaX = |a| · σX , σX+b = σX (35)
Ejemplo 3.44
En el problema de ventas de computadoras del Ejemplo 3.33, E(X) = 2 y
E(X 2 ) = (0)2 (0.1) + (1)2 (0.2) + (2)2 (0.3) + (3)2 (0.4) = 5
ası́ que V(X) = 5 − (2)2 = 1. La función de utilidad

h(X) = 800X − 900
tiene entonces la varianza (800)2 · V(X) = (640000)(1) = 640000 y
desviación estándar 800.
Estadı́stica I
Distribución de probabilidad binomial
Existen muchos experimentos que se ajustan exacta o aproximadamente a

la siguiente lista de requerimientos:
El experimento consta de una secuencia de n experimentos más
pequeños llamados ensayos, donde n se fija antes del experimento.
Cada ensayo puede dar por resultado uno de los mismos dos
resultados posibles (ensayos dicotómicos), los cuales se denotan como
éxito (E) y falla (F).
Los ensayos son independientes, de modo que el resultado en
cualquier ensayo particular no influye en el resultado de cualquier otro
ensayo.
La probabilidad de éxito es constante de un ensayo a otro; esta
probabilidad se denota por p.
Estadı́stica I
Definición 3.45
Un experimento para el que se satisfacen las condiciones 1–4 se llama
experimento binomial.
Estadı́stica I
Definición 3.45
Un experimento para el que se satisfacen las condiciones 1–4 se llama
Ejemplo 3.46
La misma moneda se lanza al aire sucesiva e independientemente n veces.
De manera arbitraria se utiliza E para denotar el resultado (caras) y F
para denotar el resultado (sello). Entonces este experimento satisface las
condiciones 1–4. El lanzamiento al aire de una tachuela n veces, con E =
punta hacia arriba y F = punta hacia abajo), también da por resultado un
Estadı́stica I
Ejemplo 3.47
Un estado tiene 500 000 conductores con licencia, de los cuales 400 000
están asegurados. Se selecciona una muestra de 10 conductores sin
reemplazo. El ensayo i-ésimo se denota S si el conductor i-ésimo
seleccionado está asegurado. En este caso
399999
P (S en 2|S en 1) = = 0.80000
499999
y
399991
P (S en 10|S en 9) = = 0.799996 ≈ 0.80000
499991
Estadı́stica I
Ejemplo 3.47
Un estado tiene 500 000 conductores con licencia, de los cuales 400 000
están asegurados. Se selecciona una muestra de 10 conductores sin
reemplazo. El ensayo i-ésimo se denota S si el conductor i-ésimo
seleccionado está asegurado. En este caso
399999
P (S en 2|S en 1) = = 0.80000
499999
y
399991
P (S en 10|S en 9) = = 0.799996 ≈ 0.80000
499991
Observación 3.48
Las probabilidades condicionales difieren tan poco una de otra que en la
práctica los ensayos se consideran independientes con la constante
P (E) = 0.8. Por lo tanto, para una muy buena aproximación, el
experimento es binomial con n = 10 y p = 0.8.
Estadı́stica I
Regla
Considérese muestreo sin reemplazo de una población dicotómica de
tamaño N . Si el tamaño de la muestra (número de ensayos) n es cuando
mucho 5 % del tamaño de la población, el experimento puede ser
analizado como si fuera exactamente un experimento binomial.
Ejemplo 3.49
En el Ejemplo (3.47) se tiene que:
n/N = 10/500000 < 0.05.

Estadı́stica I
Regla
Considérese muestreo sin reemplazo de una población dicotómica de
tamaño N . Si el tamaño de la muestra (número de ensayos) n es cuando
mucho 5 % del tamaño de la población, el experimento puede ser
analizado como si fuera exactamente un experimento binomial.
Ejemplo 3.49
En el Ejemplo (3.47) se tiene que:
n/N = 10/500000 < 0.05.
Observación 3.50
En la mayorı́a de los experimentos binomiales, lo que interesa es el número
total de los éxitos (E), en lugar del conocimiento de qué ensayos dieron los
éxitos.
Estadı́stica I
Definición 3.51
La variable aleatoria binomial X asociada con un experimento binomial
que consiste en n ensayos se define como
X = el número de los E entre los n ensayos (36)

Estadı́stica I
Definición 3.51
La variable aleatoria binomial X asociada con un experimento binomial
que consiste en n ensayos se define como
X = el número de los E entre los n ensayos (36)
Ejemplo 3.52
Supóngase, por ejemplo, que n = 3. Entonces existen ocho posibles
resultados para el experimento:
{EEE, EEF, EFE, EFF, FEE, FEF, FFE, FFF}
Por la definición de X, X(EEF) = 2, X(EFF) = 1 y ası́ sucesivamente.

Valores posibles de X en un experimento de n ensayos son
x = 0, 1, 2, ..., n.
Estadı́stica I
Observación 3.53
A menudo se escribirá X ∼ Bin(n, p) para indicar que X es una variable
aleatoria binomial basada en n ensayos con probabilidad de éxito p.
Estadı́stica I
Observación 3.53
Notación
Dado que la función masa de probabilidad de una variable aleatoria
binomial X depende de los dos parámetros n y p, la función masa de
probabilidad se denota por b(x; n, p).
Estadı́stica I
Observación 3.53
Notación
Dado que la función masa de probabilidad de una variable aleatoria
binomial X depende de los dos parámetros n y p, la función masa de
probabilidad se denota por b(x; n, p).
Ejemplo 3.54
Considere el caso n = 4 para el cual cada resultado, su probabilidad y
valor x correspondiente se dan en la siguiente tabla. Por ejemplo,
P (EEFE) = P (E) · P (E) · P (F ) · P (E)

= p · p · (1 − p) · p
= p3 · (1 − p)
Estadı́stica I
En este caso especial, se desea b(x; 4, p) con x = 0, 1, 2, 3 y 4. Para

b(3; 4, p), identifı́quese cuál de los 16 resultados dan un valor x de 3 y
sume las probabilidades asociadas con cada resultado.
b(3; 4, p) = P (FEEE) + P (EFEE) + P (EEFE) + P (EEEF)

= 4p3 (1 − p)
Estadı́stica I
Existen cuatro resultados con x = 3 y la probabilidad de cada uno es

p3 (1 − p), por lo tanto

número de resultados probabilidad de cualquier
b(3; 4, p) = ·
con X = 3 resultado con X = 3
Asimismo, b(2; 4, p) = 6p2 (1 − p)2
Estadı́stica I


b(3; 4, p) = ·
Asimismo, b(2; 4, p) = 6p2 (1 − p)2
En general,
 
 número de secuencias 
probabilidad de cualquier
b(x; n, p) = de longitud n compuesta ·
secuencia de este tipo
de los éxitos de x
 
Estadı́stica I


b(3; 4, p) = ·
Asimismo, b(2; 4, p) = 6p2 (1 − p)2
En general,
 
 número de secuencias 
probabilidad de cualquier
b(x; n, p) = de longitud n compuesta ·
secuencia de este tipo
de los éxitos de x
 
Observación 3.55
El segundo factor en la ecuación previa es px (1 − p)n−x (p. ej., los
primeros x ensayos producen E y los últimos n − x producen F. El primer
factor es el número de combinaciones de tamaño x que pueden ser
construidas con n objetos distintos (ensayos en este caso).
Estadı́stica I
Teorema 3.56

 n px (1 − p)n−x , x = 0, 1, 2, . . . n
b(x; n, p) = x (37)
0, de lo contrario

Estadı́stica I
Teorema 3.56

 n px (1 − p)n−x , x = 0, 1, 2, . . . n
b(x; n, p) = x (37)
0, de lo contrario

Ejemplo 3.57
A cada uno de seis bebedores de refrescos de cola seleccionados al azar se
le sirve un vaso de refresco de cola A y uno de refresco de cola B. Los
vasos son idénticos en apariencia excepto por un código que viene en el
fondo para identificar el refresco de cola. Suponga que en realidad no
existe una tendencia entre los bebedores de refresco de cola de preferir un
refresco de cola al otro. Entonces
p = P (un individuo seleccionado prefiere A) = 0.5, ası́ que con X = el
número entre los seis que prefieren A, X ∼ Bin(6, 0.5). Calcule:
P (X = 3), P (3 ≤ X), P (X ≤ 1)
Estadı́stica I
Solución:
La probabilidad de que por tres prefieran A es

6
P (X = 3) = b(3; 6, 0.5) = (0.5)3 (0.5)3 = 20(0.5)6 = 0.313
3
La probabilidad de que por lo menos tres prefieran A es

6 6
X X 6
P (3 ≤ X) = b(x; 6, 0.5) = (0.5)x (0.5)6−x = 0.656
x
x=3 x=3
La probabilidad de que cuando mucho uno prefiera A es

1 1
X X 6
P (X ≤ 1) = b(x; 6, 0.5) = (0.5)x (0.5)6−x
x
x=0 x=0
Estadı́stica I
Observación 3.58 (Utilización de tablas binomiales)

El cálculo de probabilidades binomiales es tedioso. La Tabla A.1 en TDP
tabula la función de distribución acumulativa F (x) = P (X ≤ x) con
n = 5, 10, 15, 20, 25 en combinación con valores seleccionados de p.
Notación
Para X ∼ B(n, p), la función de distribución acumulativa será denotada
por
X x
P (X ≤ x) = B(x; n, p) = b(y; n, p), x = 0, 1, 2, . . . , n (38)
y=0
Estadı́stica I
Observación 3.58 (Utilización de tablas binomiales)

El cálculo de probabilidades binomiales es tedioso. La Tabla A.1 en TDP
tabula la función de distribución acumulativa F (x) = P (X ≤ x) con
n = 5, 10, 15, 20, 25 en combinación con valores seleccionados de p.
Notación
Para X ∼ B(n, p), la función de distribución acumulativa será denotada
por
X x
P (X ≤ x) = B(x; n, p) = b(y; n, p), x = 0, 1, 2, . . . , n (38)
y=0
Ejemplo 3.59
Suponga que 20 % de todos los ejemplares de un libro de texto particular
no pasan una prueba de resistencia de encuadernación. Sea X el número
entre 15 ejemplares seleccionados al azar que no pasan la prueba.
Entonces X tiene una distribución binomial con n = 15 y p = 0.2.
Estadı́stica I
La probabilidad de que cuando mucho 8 no pasen la prueba es

8
X
P (X ≤ 8) = b(y; 15, 0.2) = B(8; 15, 0.2) (39)
y=0
la cual es el ingreso en la fila x = 8 y la columna p = 0.2 de la tabla

binomial n = 15. Según la Tabla A.1 en TDP, la probabilidad es
B(8; 15, 0.2) = 0.999
La probabilidad de que por lo menos 8 fallen es
P (X ≥ 8) = 1 − P (X ≤ 7) = 1 − B(7; 15, 0.2)

ingreso en x = 7
=1−
fila de columna p = 2
= 1 − 0.996 = 0.004
Finalmente, la probabilidad de que entre 4 y 7, inclusive, fallen es
P (4 ≤ X ≤ 7) = P (X = 4, 5, 6 o 7) = P (X ≤ 7) − P (X ≤ 3)
= B(7; 15, 0.2) − B(3; 15, 0.2) = 0.996 − 0.648 = 0.348
Estadı́stica I
La media y la varianza de X
Observación 3.60
Como un experimento binomial se compone de n ensayos, la intuición
sugiere que para X ∼ Bin(n, p), E(X) = np, el producto del número de
ensayos y la probabilidad de éxito en un solo ensayo. La expresión para
V(X) no es tan intuitiva.
Proposición 3.61
Si X ∼ Bin(n, p), entonces E(X) = np, V(X) = np(1 − p) = npq y
√
σX = npq, donde q = 1 − p.
n n
X n x n−x
X n!
E(X) = x p (1 − p) = x px (1 − p)n−x
x x!(n − x)!
x=0 x=0
n
X n!
= px (1 − p)n−x , término x = 0 desaparece
(x − 1)!(n − x)!
x=1
Estadı́stica I
Sea y = x − 1 y m = n − 1. Entonces, si x = n ⇒ y = n − 1 = m
m
X (m + 1)! y+1
E(X) = p (1 − p)m−y
y!(m − y)!
y=0
m
X m!
= (m + 1)p py (1 − p)m−y
y!(m − y)!
y=0
m
X m!
= np py (1 − p)m−y
y!(m − y)!
y=0
La formula binomial nos entrega

m
m
X m!
(a + b) = ay bm−y
y!(m − y)!
y=0
Sean a = p y b = 1 − p, entonces
Estadı́stica I
m m
X m! X m!
py (1 − p)m−y = ay bm−y
y!(m − y)! y!(m − y)!
y=0 y=0
= (a + b)m = (p + 1 − p)m = 1
Entonces E(X) = np si X ∼ Bin(n, p). Similarmente
n
X n x
E(X(X − 1)) = x(x − 1) p (1 − p)n−x
x
x=0
n
X n!
= x(x − 1) px (1 − p)n−x
x!(n − x)!
x=0
n
X n!
= px (1 − p)n−x
(x − 2)!(n − x)!
x=2
n
X (n − 2)!
= n(n − 1)p2 px−2 (1 − p)n−x
(x − 2)!(n − x)!
x=2
Estadı́stica I
Sean y = x − 2 y m = n − 2, entonces
m
X m!
= n(n − 1)p2 py (1 − p)m−y
y!(m − y)!
y=0
= n(n − 1)p (p + (1 − p))m

2
= n(n − 1)p2 .
Por lo tanto
V(X) = E(X 2 ) − (E(X))2 = E(X(X − 1)) + E(X) − (E(X))2

= n(n − 1)p2 + np − (np)2 = n2 p2 − np2 + np − n2 p2
= np(1 − p)
= npq, donde q = 1 − p
√
y la desviación estándar σX = npq.
Estadı́stica I
Ejemplo 3.62
Si 75 % de todas las compras en una tienda se hacen con tarjeta de crédito
y X es el número entre diez compras seleccionadas al azar realizadas con
tarjeta de crédito, entonces X ∼ Bin(10, 0.75). Por lo tanto,
E(X)√= np = (10)(0.75) = 7.5, V(X) = npq = 10(0.75)(0.25) = 1.875 y
σ = 1.785. Otra vez, aun cuando X puede tomar sólo valores enteros,
E(X) no tiene que ser un entero.
Estadı́stica I
Binomial random variables usando R

Lanzar una moneda diez veces. Sea X el número de caras. Si la
moneda es justa, X tiene una distribución Bin(10, 1/2).
La probabilidad de que X = 5, P (X = 5) se puede hallar
directamente a partir de la distribución con la función choose:
1 > choose (10 ,5) * (1 / 2) ^5 * (1 / 2) ^(10 -5)
2 [1] 0.2460938
Este trabajo se realiza mejor con la función dbinom:

1 > dbinom (5 , size =10 , prob =1 / 2)
2 [1] 0.2460938
La probabilidad
P de que haya seis o menos caras,
P (X ≤ 6) = k≤6 P (X = k), puede darse de cualquiera de estas
dos maneras:
1 > pbinom (6 , size =10 , p =1 / 2)
2 [1] 0.828125
Estadı́stica I
Si quisiéramos la probabilidad de siete o más caras,

P (X ≥ 7) = 1 − P (X ≤ 6), o usando el argumento extra
lower.tail=FALSE. Este retorna P (X > k) en vez de P (X ≤ k).
1 > sum ( dbinom (7:10 , size =10 , prob =1 / 2) )
2 [1] 0.171875
3 > 1 - pbinom (6 , size =10 , p =1 / 2)
4 [1] 0.171875
5 > pbinom (6 , size =10 , p =1 / 2 , lower . tail = FALSE )
6 [1] 0.171875
Se pueden elaborar gráficos de (fmp), (fda) para la distribución

utilizando dbinom:
1 > n <- 10; p <- 1 / 2
2 > heights <- dbinom (0:10 , size =n , prob = p )
3 > plot (0:10 , heights , type = " h " , main = " Spike plot of X " ,
xlab = " k " , ylab = " p . d . f . " )
4 > points (0:10 , heights , pch =16 , cex =2)
5 > plot ( ecdf ( heights ) , main = " ( fda ) Distribuci ó n Binomial
(10 , 1 / 2) " , xlab = " x " , ylab = " ( fda ) " )
Estadı́stica I
Estadı́stica I
Distribuciones hipergeométricas
Distribución hipergeométrica
Suposiciones que conducen a una distribución hipergeométrica:
La población o conjunto que se va a muestrear se compone de N
individuos, objetos o elementos (una población finita).
Cada individuo puede ser caracterizado como éxito (E) o falla (F) y
hay M éxitos en la población.
Se selecciona una muestra de n individuos sin reemplazo de tal modo
que cada subconjunto de tamaño n es igualmente probable de ser
seleccionado.
Estadı́stica I
Distribuciones hipergeométricas
Distribución hipergeométrica
Suposiciones que conducen a una distribución hipergeométrica:
La población o conjunto que se va a muestrear se compone de N
individuos, objetos o elementos (una población finita).
Cada individuo puede ser caracterizado como éxito (E) o falla (F) y
hay M éxitos en la población.
Se selecciona una muestra de n individuos sin reemplazo de tal modo
que cada subconjunto de tamaño n es igualmente probable de ser
seleccionado.
Observación 3.63
La variable aleatoria de interés es X = el número de éxitos en la muestra.
La distribución de probabilidad de X depende de los parámetros n, M y
N , ası́ que se desea obtener P (X = x) = h(x; n, M, N ).
Estadı́stica I
Proposición 3.64
Si X es el número de éxitos (E) en una muestra completamente aleatoria
de tamaño n extraı́da de la población compuesta de M éxitos y (N − M )
fallas, entonces la distribución de probabilidad de X llamada distribución
hipergeométrica, es
M N −M
x n−x
P (X = x) = h(x; n, M, N ) = (40)
N
n
donde x entero, satisface máx(0, n − N + M ) ≤ x ≤ mı́n(n, M )

Estadı́stica I
Proposición 3.64
Si X es el número de éxitos (E) en una muestra completamente aleatoria
de tamaño n extraı́da de la población compuesta de M éxitos y (N − M )
fallas, entonces la distribución de probabilidad de X llamada distribución
hipergeométrica, es
M N −M
x n−x
P (X = x) = h(x; n, M, N ) = (40)
N
n
donde x entero, satisface máx(0, n − N + M ) ≤ x ≤ mı́n(n, M )

Ejemplo 3.65
Se capturaron, etiquetaron y liberaron cinco individuos de una población
de animales que se piensa están al borde de la extinción en una región
para que se mezclen con la población. Después de haber tenido la
oportunidad de mezclarse, se selecciona una
Estadı́stica I
muestra aleatoria de 10 de estos animales. Sea X = el número de animales

etiquetados en la segunda muestra. Si en realidad hay 25 animales de este
tipo en la región, ¿cuál es la probabilidad de que a) X = 2? b) ¿X ≤ 2?
Estadı́stica I
muestra aleatoria de 10 de estos animales. Sea X = el número de animales

etiquetados en la segunda muestra. Si en realidad hay 25 animales de este
tipo en la región, ¿cuál es la probabilidad de que a) X = 2? b) ¿X ≤ 2?
Solución:
Los valores de los parámetros son n = 10, M = 5 (cinco animales
etiquetados en la población) y N = 25, por lo tanto

5 20
x 10 − x
h(x; 10, 5, 25) =
25
10
Para el inciso a)

5 20
2 8
P (X = 2) = h(2; 10, 5, 25) = = 0.385
25
10
Estadı́stica I
Para el inciso b)
2
X
P (X ≤ 2) = P (X = 0, 1 o 2) = h(x; 10, 5, 25)
x=0
= 0.057 + 0.257 + 0.385 = 0.699
1 hypgeo _ prob <- function (x , n , M , N ) {

2 prob _ res <- ( choose (M , x ) * choose (N -M , n - x ) ) / choose (N , n )
3 return ( prob _ res )
4 }
5 hypgeo _ prob (2 , 10 , 5 , 25)
6 # [1] 0.3853755
Observación 3.66
Están disponibles tablas amplias de la distribución hipergeométrica, pero
como la distribución tiene tres parámetros, estas tablas requieren mucho
más espacio que las otras tablas.
Estadı́stica I
Proposición 3.67
La media y la varianza de la variable aleatoria hipergeométrica X cuya
función masa de probabilidad es h(x; n, M, N ) son

M N −n M M
E(X) = n · , V(X) = ·n· · 1−
N N −1 N N
Estadı́stica I
Proposición 3.67
La media y la varianza de la variable aleatoria hipergeométrica X cuya
función masa de probabilidad es h(x; n, M, N ) son

M N −n M M
E(X) = n · , V(X) = ·n· · 1−
N N −1 N N
Observación 3.68
La razón M/N es la proporción de éxitos en la población. Si se reemplaza
M/N por p en E(X) y V(X), se obtiene
E(X) = np

N −n
V(X) = · np(1 − p)
N −1
las varianzas de las dos variables aleatorias difieren por el factor

(N − n)/(N − 1), a menudo llamado factor de corrección por
población finita.
Estadı́stica I
Ejemplo 3.69
En el ejemplo de etiquetado de animales, n = 10, M = 5 y N = 25, por lo
tanto p = 5/25 = 0.2. Calcule varianza y valor esperado.
Solución:
E(X) = 10(0.2) = 2
15
V(X) = (10)(0.2)(0.8) = (0.625)(1.6) = 1
24
Suponga que en realidad no se conoce el tamaño de la población N ,
ası́ que se observa el valor x y se desea estimar N . Es razonable
igualar la proporción muestral observada de éxitos, x/n, y la
proporción de la población, M/N da la estimación
M ·n
N̂ =
x
Si M = 100, n = 40 y x = 16, entonces N̂ = 250.
Estadı́stica I
Distribución binomial negativa
Definición 3.70
La variable aleatoria y la distribución binomial negativa se basan en un
experimento que satisface las siguientes condiciones:
El experimento consiste en una secuencia de ensayos independientes.
Cada ensayo puede dar por resultado un éxito (E ) o una falla (F).
La probabilidad de éxito es constante de un ensayo a otro, por lo
tanto P (E en el ensayo i) = p con i = 1, 2, 3, . . .
El experimento continúa (se realizan ensayos) hasta que un total de r
éxitos hayan sido observados, donde r es un entero positivo
especificado.
Estadı́stica I
Observación 3.71
La variable aleatoria de interés es X = el número de fallas que preceden al
r-ésimo éxito; X se llama variable aleatoria binomial negativa porque, en
contraste con la variable aleatoria binomial, el número de éxitos es fijo y el
número de ensayos es aleatorio.
Si r = 3
X(EEE · · · ) = 0, X(F EEE · · · ) = 1, X(F F EEF E) = 3
Posibles valores de X son 0, 1, 2, . . . ,. Sea nb(x; r, p) la función de

masa de probabilidad de X. Considere nb(7, 3, p) = P (X = 7), la
probabilidad de que ocurran exactamente 7F antes del 3er E
Para que esto suceda, el décimo ensayo debe ser un E y debe haber
exactamente 2E entre los 9 primeros ensayos. Por lo tanto
Estadı́stica I

9 2 7 9
nb(7; 3, p) = · p (1 − p) · p = · p3 (1 − p)7
2 2
La generalización de esta lı́nea de razonamiento da la siguiente

fórmula para la función de masa de probabilidad binomial negativa.
Proposición 3.72
La función masa de probabilidad de la variable aleatoria binomial negativa
X con los parámetros r = número de éxitos (E) y p = P (E) es

x+r−1 r
nb(x; r, p) = p (1 − p)x , x = 0, 1, 2, . . .
r−1
Estadı́stica I
Ejemplo 3.73
Un pediatra desea reclutar cinco parejas, cada una de las cuales espera a
su primer hijo, para participar en un nuevo régimen de alumbramiento
natural. Sea
p = P (una pareja seleccionada al azar está de acuerdo en participar)
Si p = 0.2, ¿cuál es la probabilidad de que 15 parejas tengan que ser

entrevistadas antes de encontrar cinco que estén de acuerdo en participar?
Es decir, E={está de acuerdo en participar}, ¿cuál es la probabilidad de
que ocurran 10 fallas antes del quinto éxito?
Solución:
Sustituyendo r = 5, p = 0.2 y x = 10 en nb(x; r, p) da

14
nb(10; 5, 0.2) = (0.2)5 (0.8)10 = 0.034
4
Estadı́stica I
La probabilidad de que cuando mucho se observen 10 fallas (cuando

mucho con 15 parejas entrevistadas) es
10 10
X X x+4
P (X ≤ 10) = nb(x; 5, 0.2) = (0.2)5 (0.8)x = 0.164
4
x=0 x=0
Estadı́stica I
La probabilidad de que cuando mucho se observen 10 fallas (cuando

mucho con 15 parejas entrevistadas) es
10 10
X X x+4
P (X ≤ 10) = nb(x; 5, 0.2) = (0.2)5 (0.8)x = 0.164
4
x=0 x=0
Observación 3.74
En algunas fuentes, la variable aleatoria binomial negativa se
considera como el número de ensayos X + r en lugar del número de
fallas. En el caso especial r = 1, la función masa de probabilidad es
nb(x; 1, p) = (1 − p)x p, x = 0, 1, 2, . . . (41)
En la literatura se hace referencia tanto a X como a Y (número de

ensayos = 1 + X) como variables aleatorias geométricas y la
función masa de probabilidad en la expresión (41) se llama
distribución geométrica.
Estadı́stica I
Proposición 3.75
Si X es una variable aleatoria binomial negativa con función masa de
probabilidad nb(x; r, p), entonces
r(1 − p) r(1 − p)
E(X) = , V(X) = (42)
p p2
Ejemplo 3.76
Si la probabilidad de que un bebé concebido sea niño es 4/7 y que sea
niña es 3/7, ¿en promedio cuantos hijos en total tendrá una pareja que
desea tener tres niñas?
Solución:
P (“Niña”) = 3/7, (“éxito”), P (“Niño”) = 4/7
X = “# Niños antes de la 3era niña”
Estadı́stica I
X ∼ Bin.neg(r, p) = Bin.neg(3, 3/7)

Entonces
E(X + 3) = E(X) + 3
r(1 − p)
= +3
p
4/7
=3 +3
3/7
=7
Conclusión: Una pareja que desea tener 3 hijas, debe tener en

promedio 7 hijos en total.
Observación 3.77
Se ha encontrado que la distribución binomial negativa generalizada (r no
entero) puede ajustar los datos observados verdaderamente bien en una
amplia variedad de aplicaciones.
Estadı́stica I
Distribución de probabilidad de Poisson
Definición 3.78
Se dice que una variable aleatoria X tiene una distribución de Poisson con
parámetro λ(λ > 0) si la función masa de probabilidad de X es
e−λ λx
p(x; λ) = , x = 0, 1, 2, . . . , (43)
x!
donde X es el número de eventos que ocurren en un intervalo de
tiempo [0, t]. Esto es P (X = x) = p(x; λ) es la probabilidad de que
ocurran x eventos en un intervalo [0, t].
Observación 3.79
El valor de λ es el número promedio de ocurrencias por unidad
de tiempo o de área.
Estadı́stica I
Observación 3.80
La letra e en p(x; λ) representa la base del sistema de logaritmos
naturales; su valor numérico es aproximadamente 2.71828.
Como λ debe ser positiva, p(x; λ) > 0 para todos los valores posibles
de x.
El hecho de que ∞
P
x=0 p(x; λ) = 1 es una consecuencia de la
expansión de la serie infinita de Maclaurin de eλ
∞
λ2 λ3 X λx
eλ = 1 + λ + + + ··· = (44)
2! 3! x!
x=0
Si los dos términos extremos de la expresión (44) se multiplican por

e−λ y luego e−λ se coloca adentro de la suma, el resultado es
∞ ∞
X λx X
1= e−λ = p(x; λ)
x!
x=0 x=0
Estadı́stica I
Ejemplo 3.81
Sea X el número de criaturas de un tipo particular capturadas en una
trampa durante un periodo determinado. Suponga que X tiene una
distribución de Poisson con λ = 4.5, ası́ que en promedio las trampas
contendrán 4.5 criaturas [El artı́culo “Dispersal Dynamics of the Bivalve
Gemma Gemma in a Patchy Environment (Ecological Monographs, 1995:
1–20 ”) sugiere este modelo: el molusco bivalvo Gemma gemma es una
pequeña almeja.] Calcule la probabilidad de que una trampa contenga
exactamente cinco criaturas y cuando mucho cinco criaturas
Solución:
e−4.5 (4.5)5
P (X = 5) == 0.1708
5!
5
e−4.5 (4.5)x (4.5)2 (4.5)5
X
−4.5
P (X ≤ 5) = =e 1 + 4.5 + + ··· +
x! 2 5!
x=0
= 0.7029
Estadı́stica I
La distribución de Poisson como lı́mite
Proposición 3.82
Suponga que en la función masa de probabilidad binomial b(x; n, p),
n → ∞ y p → 0 de tal modo que np tienda a un valor λ > 0. Entonces
b(x; n, p) → p(x; λ).
Estadı́stica I
La distribución de Poisson como lı́mite
Proposición 3.82
Suponga que en la función masa de probabilidad binomial b(x; n, p),
n → ∞ y p → 0 de tal modo que np tienda a un valor λ > 0. Entonces
b(x; n, p) → p(x; λ).
Observación 3.83
De acuerdo con esta proposición, en cualquier experimento binomial en el
cual n es grande y p es pequeña, b(x; n, p) ≈ p(x; λ), donde λ = np.
Como regla empı́rica, esta aproximación puede ser aplicada con seguridad
si n > 50 y np < 5.
Estadı́stica I
Ejemplo 3.84
Si un editor de libros no técnicos hace todo lo posible porque sus libros
estén libres de errores tipográficos, de modo que la probabilidad de que
cualquier página dada contenga por lo menos uno de esos errores es de
0.005 y los errores son independientes de una página a otra, ¿cuál es la
probabilidad de que una de sus novelas de 400 páginas contenga
exactamente una página con errores? ¿Cuándo mucho tres páginas con
errores?
Estadı́stica I
Ejemplo 3.84
Si un editor de libros no técnicos hace todo lo posible porque sus libros
estén libres de errores tipográficos, de modo que la probabilidad de que
cualquier página dada contenga por lo menos uno de esos errores es de
0.005 y los errores son independientes de una página a otra, ¿cuál es la
probabilidad de que una de sus novelas de 400 páginas contenga
exactamente una página con errores? ¿Cuándo mucho tres páginas con
errores?
Solución: Con S denotando una página que contiene por lo menos un
error y F una página libre de errores, el número X de páginas que
contienen por lo menos un error es una variable aleatoria binomial con
n = 400 y p = 0.005, ası́ que np = 2. Se desea
e−2 (2)1
P (X = 1) = b(1; 400, 0.005) ≈ p(1; 2) = = 0.270671
1!
El valor binomial es b(1; 400, 0.005) = 0.270669, ası́ que la aproximación
es muy buena.
Estadı́stica I
Asimismo 3 3
X X 2!
P (X ≤ 3) ≈ p(x, 2) = e−2
x!
x=0 x=0
= 0.135335 + 0.270671 + 0.270671 + 0.180447
= 0.8571
nuevamente se aproxima bastante al valor binomial P (X ≤ 3) = 0.8576.
Estadı́stica I
Figura 9: Comparación entre una distribución de Poisson y dos distribuciones

binomiales.
Estadı́stica I
Observación 3.85
La Tabla A.2 en TDP muestra la función de distribución acumulativa
F (x; λ) para λ = 0.1, 0.2, . . . , 1, 2, . . . , 10, 15 y 20.
Estadı́stica I
Observación 3.85
F (x; λ) para λ = 0.1, 0.2, . . . , 1, 2, . . . , 10, 15 y 20.
Observación 3.86
Como b(x; n, p) → p(x; λ) a medida que n → ∞, p → 0, np → λ, la media
y varianza de una variable binomial deberán aproximarse a las de una
variable de Poisson. Estos lı́mites son np → λ y np(1 − p) → λ
Estadı́stica I
Observación 3.85
F (x; λ) para λ = 0.1, 0.2, . . . , 1, 2, . . . , 10, 15 y 20.
Observación 3.86
Como b(x; n, p) → p(x; λ) a medida que n → ∞, p → 0, np → λ, la media
y varianza de una variable binomial deberán aproximarse a las de una
variable de Poisson. Estos lı́mites son np → λ y np(1 − p) → λ
Proposición 3.87 (Media y varianza de X)

Si X tiene una distribución de Poisson con parámetro λ, entonces
E(X) = V(X) = λ
Estadı́stica I
Ejemplo 3.88
Considere el Ejemplo 3.81. Tanto el número esperado de criaturas
atrapadas
√ como √ la varianza de éste son iguales a 4.5, y
σX = λ = 4.5 = 2.12.
Estadı́stica I
Ejemplo 3.88
Considere el Ejemplo 3.81. Tanto el número esperado de criaturas
atrapadas
√ como √ la varianza de éste son iguales a 4.5, y
σX = λ = 4.5 = 2.12.
Observación 3.89
Una aplicación muy importante de la distribución de Poisson surge en
conexión con la ocurrencia de eventos de algún tipo en el transcurso del
tiempo. Ejemplos:
Visitas a un sitio web particular
Mensajes de correo electrónico enviados a una dirección particular
Accidentes en una instalación industrial
Lluvias de rayos cósmicos observados por astrónomos en un
observatorio particular.
Estadı́stica I
Sea Pk (t) la probabilidad de que k eventos serán observados durante

cualquier intervalo de tiempo particular de duración t.
Proposición 3.90
Pk (t) = e−αt · (αt)k /k!, de modo que el número de eventos durante un
intervalo de tiempo de duración t es una variable de Poisson con
parámetro λ = αt. El número esperado de eventos durante cualquier
intervalo de tiempo es entonces αt, ası́ que el número esperado durante un
intervalo de tiempo unitario es α.
Estadı́stica I
Sea Pk (t) la probabilidad de que k eventos serán observados durante

cualquier intervalo de tiempo particular de duración t.
Proposición 3.90
Pk (t) = e−αt · (αt)k /k!, de modo que el número de eventos durante un
intervalo de tiempo de duración t es una variable de Poisson con
parámetro λ = αt. El número esperado de eventos durante cualquier
intervalo de tiempo es entonces αt, ası́ que el número esperado durante un
intervalo de tiempo unitario es α.
Ejemplo 3.91
Suponga que llegan pulsos a un contador a un ritmo promedio de seis por
minuto, ası́ que α = 6. Para determinar la probabilidad de que en un
intervalo de 0.5 min se reciba por lo menos un pulso, obsérvese que el
número de pulsos en ese intervalo tiene una distribución de Poisson con
Estadı́stica I
parámetro αt = 6(0.5) = 3 (se utiliza 0.5 min porque α está expresada

como ritmo por minuto). X = el número de pulsos recibidos en el
intervalo de 30 segundos
e−3 (3)0
P (1 ≤ X) = 1 − P (X = 0) = 1 − = 0.950
0!
Observación 3.92
En lugar de observar eventos en el transcurso del tiempo, considere
observar eventos de algún tipo que ocurren en una región de dos o
tres dimensiones.
Por ejemplo, se podrı́a seleccionar un mapa de una región R de un
bosque, ir a dicha región y contar el número de árboles. Cada árbol
representarı́a un evento que ocurre en un punto particular del espacio.
Se puede demostrar que el número de eventos que ocurren en una
región R tiene una a distribución de Poisson con parámetro α · a(R)
donde a(R) es el área de R y α es el número esperado de eventos por
unidad de área o volumen.
Estadı́stica I
Variables aleatorias continuas y distribuciones de

probabilidad
Observación 3.93
Una variable aleatoria X es continua si 1) sus valores posibles comprenden
un solo intervalo sobre la recta numérica (para alguna A < B, cualquier
número x entre A y B es un valor posible) o una unión de intervalos
disjuntos y 2) P (X = c) = 0 para cualquier número c que sea un valor
posible de X.
Estadı́stica I
Variables aleatorias continuas y distribuciones de

probabilidad
Observación 3.93
Una variable aleatoria X es continua si 1) sus valores posibles comprenden
un solo intervalo sobre la recta numérica (para alguna A < B, cualquier
número x entre A y B es un valor posible) o una unión de intervalos
disjuntos y 2) P (X = c) = 0 para cualquier número c que sea un valor
posible de X.
Ejemplo 3.94
En el estudio de la ecologı́a de un lago, se mide la profundidad en lugares
seleccionados, entonces X = la profundidad en ese lugar es una variable
aleatoria continua. En este caso A es la profundidad mı́nima en la región
muestreada y B es la profundidad máxima.
Estadı́stica I
Definición 3.95
Sea X una variable aleatoria continua. Entonces, una distribución de
probabilidad o función de densidad de probabilidad (fdp) de X es una
función f (x) tal que para dos números cualesquiera a y b con a ≤ b,
Z b
P (a ≤ X ≤ b) = f (x)dx (45)
a
Es decir, la probabilidad de que X asuma un valor en el intervalo [a, b] es

el área sobre este intervalo y bajo la gráfica de la función de densidad,
como se ilustra en la figura. La gráfica de f (x) a menudo se conoce como
curva de densidad.
Estadı́stica I
Observación 3.96
Para que f (x) sea una función de densidad de probabilidad legı́tima, debe
satisfacer las dos siguientes condiciones:
1 f (x) ≥ 0, para todo x
Z ∞
2 f (x)dx = área bajo la curva f (x) = 1,
−∞
Estadı́stica I
Observación 3.96
Para que f (x) sea una función de densidad de probabilidad legı́tima, debe
satisfacer las dos siguientes condiciones:
1 f (x) ≥ 0, para todo x
Z ∞
2 f (x)dx = área bajo la curva f (x) = 1,
−∞
Ejemplo 3.97
La dirección de una imperfección con respecto a una lı́nea de referencia
sobre un objeto circular tal como un neumático, un rotor de freno o un
volante está, en general, sujeta a incertidumbre. Considérese la lı́nea de
referencia que conecta el vástago de la válvula de un neumático con su
punto central y sea X el ángulo medido en el sentido de las manecillas del
reloj con respecto a la ubicación de una imperfección. Una posible función
de densidad de probabilidad de X es
Estadı́stica I

 1 , 0 ≤ x < 360
f (x) = 360
0 otro caso
Calcule la probabilidad de que el ángulo esté entre 90◦ y 180◦ ?

Solución:
Z 180
1 x x=180 1
P (90 ≤ X ≤ 180) = = = = 0.25
360 360 x=90 4

90
Estadı́stica I
Definición 3.98 (Distribución uniforme)

Se dice que una variable aleatoria continua X tiene una distribución
uniforme en el intervalo [A, B] si la función de densidad de probabilidad de
X es 
 1 A≤x≤B
f (x; A, B) = B − A
0 otro caso
Estadı́stica I
Definición 3.98 (Distribución uniforme)

uniforme en el intervalo [A, B] si la función de densidad de probabilidad de
X es 
 1 A≤x≤B
f (x; A, B) = B − A
0 otro caso
Observación 3.99
Cuando X es una variable aleatoria discreta, a cada valor posible se le
asigna una probabilidad positiva. Esto no es cierto en el caso de una
variable aleatoria continua dado que el área bajo una curva de densidad
situada sobre cualquier valor único es cero:
Z c Z c+
P (X = c) = f (x)dx = lı́m f (x)dx = 0
c →0 c−
Estadı́stica I
Observación 3.100
El hecho de que P (X = c) = 0 cuando X es continua tiene una
importante consecuencia práctica: La probabilidad de que X quede en
algún intervalo entre a y b no depende de si el lı́mite inferior a o el lı́mite
superior b está incluido en el cálculo de probabilidad
P (a ≤ X ≤ b) = P (a < X < b) (46)

= P (a < x ≤ b) = P (a ≤ X < b)
Estadı́stica I
Observación 3.100
El hecho de que P (X = c) = 0 cuando X es continua tiene una
importante consecuencia práctica: La probabilidad de que X quede en
algún intervalo entre a y b no depende de si el lı́mite inferior a o el lı́mite
superior b está incluido en el cálculo de probabilidad
P (a ≤ X ≤ b) = P (a < X < b) (46)

= P (a < x ≤ b) = P (a ≤ X < b)
Ejemplo 3.101
Intervalo de tiempo en el flujo de tránsito es el tiempo transcurrido
entre el tiempo en que un carro termina de pasar por un punto fijo y el
instante en que el siguiente carro comienza a pasar por ese punto. Sea
X = el intervalo de tiempo de dos carros consecutivos seleccionados al
azar en una autopista durante un periodo de tráfico intenso.
Estadı́stica I
La siguiente función de densidad de probabilidad de X es en esencia

el sugerido en “The Statistical Properties of Freeway Traffic”
(Transp. Res. vol. 11: 221-228):

0.15e−0.15(x−0.5) , x ≥ 0.5
f (x) =
0 otro caso
Verifique las condiciones para f (x) de la Observación 3.96 y calcule la

probabilidad de que el intervalo de tiempo sea cuando mucho de 5
segundos.
Estadı́stica I
Z 5
P (X ≤ 5) = f (x)dx
−∞
∞
e−ka
Z 5 Z
−0.15(x−0.5)
= 0.15e dx, como e−kx dx =
0.5 a k
Z 5
= 0.15e0.075 e−0.15x dx
0.5
1 −0.15x x=5

= 0.15e0.075 − e
0.15
x=0.5
= e0.075 (−e−0.75 + e−0.075 )
= 1.078(−0.472 + 0.928)
= 0.491 = P (menos de 5 secs) = P (X ≤ 5)

Estadı́stica I
Definición 3.102 (Función de distribución acumulativa)

La función de distribución acumulativa F (x) de una variable aleatoria
continua X se define para todo número x como
Z x
F (x) = P (X ≤ x) = f (y)dy (47)
−∞
Con cada x, F (x) es el área bajo la curva de densidad a la izquierda de x.

Estadı́stica I
Ejemplo 3.103
Sea X el espesor de una cierta lámina de metal con distribución uniforme
en [A, B]. La función de densidad se muestra en la Figura. Encuentre la
función de distribución acumulada
Solución:
x x
y=x
x−A
Z Z
1 1
F (x) = f (y)dy = dy = y =
−∞ A B−A B − A y=a B−A
Estadı́stica I
La función de distribución acumulada completa es



 0, x<A
x−A

F (x) = , A≤x<B

 B−A
1, x≥B

Estadı́stica I
La función de distribución acumulada completa es



 0, x<A
x−A

F (x) = , A≤x<B

 B−A
1, x≥B

La importancia de la función de distribución acumulativa en este caso, lo

mismo que para variables aleatorias discretas, es que las probabilidades de
varios intervalos pueden ser calculadas con una fórmula o una tabla de
F (x).
Estadı́stica I
Proposición 3.104
Sea X una variable aleatoria continua con función de densidad de
probabilidad f (x) y función de distribución acumulativa F (x). Entonces
con cualquier número a,
P (X > a) = 1 − F (a)
y para dos números cualesquiera a y b con a < b.
P (a ≤ X ≤ b) = F (b) − F (a)
Estadı́stica I
Ejemplo 3.105
Suponga que la función de densidad de probabilidad de la magnitud X de
una carga dinámica sobre un puente (en newtons) está dada por

 1 + 3 x, 0 ≤ x ≤ 2
f (x) = 8 8
0, otro caso
Calcule la función de distribución acumulada F (x), P (1 ≤ X ≤ 1.5) y

P (X > 1)
Solución:
Z x Z x
1 3 x 3
F (x) = f (y)dy = + y dy = + x2
−∞ 0 8 8 8 16
Estadı́stica I
Por lo tanto 

0, x<0
x 3 2

F (x) = + x , 0≤x≤2
 8 16


1, x>2
La probabilidad de que la carga esté entre 1 y 1.5 es

P (1 ≤ X ≤ 1.5) = F (1.5) − F (1)

1 3 2 1 3 2
= (1.5) + (1.5) − (1) − (1) = 0.297
8 16 8 16
Estadı́stica I
La probabilidad de que la carga sea de más de uno es

1 3 2
P (X > 1) = 1 − P (X ≤ 1) = 1 − F (1) = 1 − (1) + (1)
8 16
11
= = 0.688
16
Estadı́stica I

1 3 2
P (X > 1) = 1 − P (X ≤ 1) = 1 − F (1) = 1 − (1) + (1)
8 16
11
= = 0.688
16
Observación 3.106
Una vez que se obtiene la función de distribución acumulativa, cualquier
probabilidad que implique X es fácil de calcular sin cualquier integración
adicional.
Estadı́stica I

1 3 2
P (X > 1) = 1 − P (X ≤ 1) = 1 − F (1) = 1 − (1) + (1)
8 16
11
= = 0.688
16
Observación 3.106
Una vez que se obtiene la función de distribución acumulativa, cualquier
probabilidad que implique X es fácil de calcular sin cualquier integración
adicional.
Proposición 3.107 (Obtención de f (x) a partir de F (x))

Si X es una variable aleatoria continua con función de densidad de
probabilidad f (x) y función de distribución acumulativa F (x), entonces
con cada x hace posible que la derivada F 0 (x) exista, F 0 (x) = f (x).
Estadı́stica I
Ejemplo 3.108
Cuando X tiene una distribución uniforme, F (x) es derivable excepto con
x = A y x = B, donde la gráfica de F (x) tiene esquinas. Como F (x) = 0
con x < A y F (x) = 1 con x > B. F 0 (x) = 0 = f (x) con dicha x. Con
A < x < B,

d x−A 1
F 0 (x) = = = f (x)
dx B − A B−A
Estadı́stica I
Ejemplo 3.108
Cuando X tiene una distribución uniforme, F (x) es derivable excepto con
x = A y x = B, donde la gráfica de F (x) tiene esquinas. Como F (x) = 0
con x < A y F (x) = 1 con x > B. F 0 (x) = 0 = f (x) con dicha x. Con
A < x < B,

d x−A 1
F 0 (x) = = = f (x)
dx B − A B−A
Observación 3.109 (Percentiles)

Cuando se dice que la calificación de un individuo en una prueba fue el
85◦ percentil de la población, significa que 85 % de todas las calificaciones
de la población estuvieron por debajo de dicha calificación y que 15 %
estuvo arriba.
Estadı́stica I
Definición 3.110
Sea p un número entere 0 y 1. El (100p)◦ percentil de la distribución de
una variable aleatoria continua X, denotado por η(p), se define como
Z η(p)
p = F (η(p)) = f (y)dy (48)
−∞
Estadı́stica I
Definición 3.110
Sea p un número entere 0 y 1. El (100p)◦ percentil de la distribución de
una variable aleatoria continua X, denotado por η(p), se define como
Z η(p)
p = F (η(p)) = f (y)dy (48)
−∞
Observación 3.111
η(p) es ese valor sobre el eje de medición de tal que el 100p % del área
bajo la gráfica de f (x) queda a la izquierda de η(p) y 100(1 − p) % queda
a la derecha.
Estadı́stica I
Ejemplo 3.112
La distribución de la cantidad de grava (en toneladas) vendida por una
compañı́a de materiales para la construcción particular en una semana
dada es una variable aleatoria continua X con función de densidad de
probabilidad 
 3 (1 − x2 ), 0 ≤ x ≤ 1
f (x) = 2
0, otro caso
Encuentre el 50◦ percentil.
Estadı́stica I
Ejemplo 3.112
La distribución de la cantidad de grava (en toneladas) vendida por una
compañı́a de materiales para la construcción particular en una semana
dada es una variable aleatoria continua X con función de densidad de
probabilidad 
 3 (1 − x2 ), 0 ≤ x ≤ 1
f (x) = 2
0, otro caso
Encuentre el 50◦ percentil.
Solución:
La función de distribución acumulativa de las ventas para cualquier x
entre 0 y 1 es
Z x y=x
y 3 x3

3 2 3 3
F (x) = (1 − y )dy = y− = x−
0 2 2 3 y=0 2 3
Estadı́stica I
El (100p)◦ percentil de esta distribución satisface la ecuación

(η(p))3

3
p = F (η(p)) = η(p) −
2 3
es decir,
(η(p))3 − 3η(p) + 2p = 0
Para el 50◦ percentil, p = 0.5 y la ecuación que se tiene que resolver es
η 3 − 3η + 1 = 0; la solución es η = η(0.5) = 0.347. Si la distribución no
cambia de una semana a otra, entonces a la larga 50 % de todas las
semanas se realizarán ventas de menos de 0.347 ton y 50 % de más de
0.347 ton.
Estadı́stica I
Definición 3.113 (Mediana)

La mediana de una distribución continua, denotada por µ̃, es el 50◦
percentil, ası́ que µ̃ satisface 0.5 = F (µ̃). Es decir, la mitad del área bajo
la curva de densidad se encuentra a la izquierda de µ̃ y la otra mitad a la
derecha de µ̃.
Observación 3.114
Una distribución continua cuya función de densidad de probabilidad es
simétrica, tiene una mediana µ̃ igual al punto de simetrı́a, puesto que la
mitad del área bajo la curva queda a uno u otro lado de este punto.
Estadı́stica I
Valores esperados
Observación 3.115
Para una variable aleatoria discreta X, E(X) se obtuvo sumando x · p(x)
a lo largo de posibles valores de X. Aquı́ se reemplaza la suma con la
integración y la función masa de probabilidad por la función de densidad
de probabilidad para obtener un promedio ponderado continuo.
Estadı́stica I
Valores esperados
Observación 3.115
Para una variable aleatoria discreta X, E(X) se obtuvo sumando x · p(x)
a lo largo de posibles valores de X. Aquı́ se reemplaza la suma con la
integración y la función masa de probabilidad por la función de densidad
de probabilidad para obtener un promedio ponderado continuo.
Definición 3.116
El valor esperado o valor medio de una variable aleatoria continua X
con función de densidad de probabilidad f (x) es
Z ∞
µX = E(X) = x · f (x)dx (49)
−∞
Estadı́stica I
Ejemplo 3.117
La función de densidad de probabilidad de las ventas semanales de grava
X fue 
 3 (1 − x2 ), 0 ≤ x ≤ 1
f (x) = 2
0, otro caso
calcule µX = E(X)
Solución:
Z ∞ Z 1
3
E(X) = x · (1 − x2 )dx
x · f (x) =
−∞ 0 2
Z 1 2 x=1
3 3 3 x x4 3
= (x − x )dx = − =
2 0 2 2 4 x=0 8
Estadı́stica I
Proposición 3.118
probabilidad f (x) y h(X) es cualquier función de X, entonces
Z ∞
E[h(X)] = µh(X) = h(x)f (x)dx (50)
−∞
Estadı́stica I
Proposición 3.118
probabilidad f (x) y h(X) es cualquier función de X, entonces
Z ∞
E[h(X)] = µh(X) = h(x)f (x)dx (50)
−∞
Ejemplo 3.119
Dos especies compiten en una región por el control de una cantidad
limitada de un cierto recurso. Sea X = la proporción del recurso
controlado por la especie 1 y suponga que la función de densidad de
probabilidad de X es (
1, 0 ≤ x ≤ 1
f (x) =
0, otro caso
la cual es una distribución uniforme en [0, 1]. Entonces la especie que
controla la mayor parte de este recurso controla la cantidad.
Estadı́stica I
(
1 − X, si 0 ≤ X < 12
h(X) = máx(X, 1 − X) =
X, si 12 ≤ X ≤ 1
calcule la cantidad esperada controlada por la especie que controla la
mayor parte
Estadı́stica I
(
1 − X, si 0 ≤ X < 12
h(X) = máx(X, 1 − X) =
X, si 12 ≤ X ≤ 1
mayor parte
Solución: Z ∞ Z 1
E[h(X)] = máx(x, 1 − x) · f (x)dx = máx(x, 1 − x) · 1dx
−∞ 0
Z 1/2 Z 1
3
= (1 − x) · 1dx + x · 1dx =
0 1/2 4
Estadı́stica I
(
1 − X, si 0 ≤ X < 12
h(X) = máx(X, 1 − X) =
X, si 12 ≤ X ≤ 1
mayor parte
Solución: Z ∞ Z 1
E[h(X)] = máx(x, 1 − x) · f (x)dx = máx(x, 1 − x) · 1dx
−∞ 0
Z 1/2 Z 1
3
= (1 − x) · 1dx + x · 1dx =
0 1/2 4
Observación 3.120
Para h(X) una función lineal,
E[h(X)] = E(aX + b) = aE(X) + b

Estadı́stica I
Definición 3.121
La varianza de una variable aleatoria continua X con función de densidad
de probabilidad f (x) y valor medio µ es
Z ∞
2
σX = V(X) = (x − µ)2 · f (x)dx = E[(X − µ)2 ] (51)
−∞
p
La desviación estándar (DE) de X es σX = V(X).
Estadı́stica I
Definición 3.121
Z ∞
2
σX = V(X) = (x − µ)2 · f (x)dx = E[(X − µ)2 ] (51)
−∞
p
Proposición 3.122
V(X) = E(X 2 ) − [E(X)]2

Estadı́stica I
Definición 3.121
Z ∞
2
σX = V(X) = (x − µ)2 · f (x)dx = E[(X − µ)2 ] (51)
−∞
p
Proposición 3.122
V(X) = E(X 2 ) − [E(X)]2
Ejemplo 3.123
Considere la función de densidad de probabilidad de las ventas semanales
de grava X, se calcula que E(X) = 38 . Encuentre la varianza
Estadı́stica I
Solución:
Z ∞ Z 1
2 2 3
E(X ) = x f (x)dx = x2 (1 − x2 )dx
−∞ 0 2
Z1
3 2 1
= (x − x4 )dx =
0 2 5
2
1 3 19
V(X) = − = = 0.059 y σX = 0.244
5 8 320
Estadı́stica I
Solución:
Z ∞ Z 1
2 2 3
E(X ) = x f (x)dx = x2 (1 − x2 )dx
−∞ 0 2
Z1
3 2 1
= (x − x4 )dx =
0 2 5
2
1 3 19
V(X) = − = = 0.059 y σX = 0.244
5 8 320
Observación 3.124
Cuando h(X) = aX + b, el valor esperado y la varianza de h(X)
satisfacen las mismas propiedades que en el caso discreto:
E[h(X)] = aµ + b y V[h(X)] = a2 σ 2
Estadı́stica I
Distribución normal
Observación 3.125
La distribución normal es la más importante en toda la probabilidad y
estadı́stica. Muchas poblaciones numéricas tienen distribuciones que
pueden ser representadas muy fielmente por una curva normal
apropiada.
Cuando las variables individuales no estén normalmente distribuidas,
las sumas y promedios de las variables en condiciones adecuadas
tendrán de manera aproximada una distribución normal; este es el
contenido del Teorema del Lı́mite Central discutido en el
siguiente capı́tulo.
Estadı́stica I
Definición 3.126
normal con parámetros µ y σ (o µ y σ 2 ), donde −∞ < µ < ∞ y σ > 0, si
la función de densidad de probabilidad de X es
1 2 2
f (x; µ, σ) = √ e−(x−µ) /(2σ ) , −∞ < x < ∞ (52)
2πσ
Estadı́stica I
Definición 3.126
normal con parámetros µ y σ (o µ y σ 2 ), donde −∞ < µ < ∞ y σ > 0, si
la función de densidad de probabilidad de X es
1 2 2
f (x; µ, σ) = √ e−(x−µ) /(2σ ) , −∞ < x < ∞ (52)
2πσ
Observación 3.127
El enunciado de que X está normalmente distribuida con los parámetros µ
y σ 2 a menudo se abrevia como X ∼ N (µ, σ 2 ).
Estadı́stica I
Observación 3.128
Para calcular P (a ≤ X ≤ b) cuando X es una variable aleatoria
normal con parámetros µ y σ, se debe determinar
Z b
1 2 2
√ e−(x−µ) /(2σ ) dx (53)
a 2πσ
Ninguna de las técnicas estándar de integración puede ser utilizada
para evaluar la expresión (53). En cambio, con µ = 0 y σ = 1, se
calculó la expresión (53) por medio de técnicas numéricas y se tabuló
para ciertos valores de a y b.
Esta tabla también puede ser utilizada para calcular probabilidades
con cualesquiera otros valores de µ y σ considerados.
Estadı́stica I
Definición 3.129
La distribución normal con valores de parámetro µ = 0 y σ = 1 se llama
distribución normal estándar. Una variable aleatoria que tiene una
distribución normal estándar se llama variable aleatoria normal estándar
y se denotará por Z. La función de densidad de probabilidad de Z es
1 2
f (z; 0, 1) = √ e−z /2 , −∞ < z < ∞ (54)
2π
La gráfica de f (z; 0, 1) se llama curva normal estándar (o z). La función
de distribución acumulativa de Z es
Z z
P (Z ≤ z) = f (y; 0, 1)dy,
−∞
la cual será denotada por Φ(z).

Estadı́stica I
Observación 3.130
La Tabla A.3 en TDP, da Φ(z) = P (Z ≤ z), el área bajo la curva de
densidad normal estándar a la izquierda de z con
z = −3.49, −3.48, . . . , 3.48, 3.49.
Estadı́stica I
Observación 3.130
La Tabla A.3 en TDP, da Φ(z) = P (Z ≤ z), el área bajo la curva de
densidad normal estándar a la izquierda de z con
z = −3.49, −3.48, . . . , 3.48, 3.49.
Ejemplo 3.131
Determı́nense las siguientes probabilidades normales estándar: (a)
P (Z ≤ 1.25), (b) P (Z > 1.25), (c) P (Z ≤ −1.25) y (d)
P (−0.38 ≤ Z ≤ 1.25).
Estadı́stica I
(a) P (Z ≤ 1.25) = Φ(1.25), una probabilidad tabulada en la Tabla A.3

en TDP aparece en la intersección de la fila 1.2 y la columna 0.05.
El número allı́ es 0.8944, ası́ que P (Z ≤ 1.25) = 0.8944
(b) P (Z > 1.25) = 1 − P (Z ≤ 1.25) = 1 − Φ(1.25), el área bajo la curva

z a la derecha de 1.25 (un área de cola superior). En ese caso
Φ(1.25) = 0.8944 implica que P (Z > 1.25) = 0.1056. Como Z es
una variable aleatoria continua, P (Z ≥ 1.25) = 0.1056.
Estadı́stica I
(c) P (Z ≤ −1.25) = Φ(−1.25), un área de cola inferior. Directamente

de la Tabla A.3 del apéndice Φ(−1.25) = 0.1056. Por simetrı́a de la
curva z, ésta es la misma respuesta del inciso b).
(d) Según la sección 4.2, si X es una variable aleatoria continua con
función de distribución acumulativa F (x), entonces
P (a ≤ X ≤ b) = F (b) − F (a). Por lo tanto,
P (−0.38 ≤ Z ≤ 1.25) = Φ(1.25) − Φ(−0.38)

= 0.8944 − 0.3520 = 0.5424
Estadı́stica I
Estadı́stica I
Observación 3.132 (Percentiles)
Con cualquier p entre 0 y 1, se puede utilizar la Tabla A.3 en TDP

para obtener el (100p)o percentil de la distribución normal estándar.
La Tabla A.3 en TDP da con z fija el área bajo la curva normal
estándar a la izquierda de z, mientras que aquı́ se tiene el área y se
desea el valor de z.
Estadı́stica I
Ejemplo 3.133
Encuentre el 99o percentil de la distribución normal estándar. Esto es, el
valor sobre el eje horizontal tal que el área bajo la curva z a la izquierda
de dicho valor es 0.9900
Solución: Este es un problema “inverso” para P (Z ≤ z) =?. Buscamos en

la mitad de la tabla 0.9900; la fila y la columna en la que se encuentra
identificado el 99o percentil z.
Estadı́stica I
En este caso 0.9901 queda en la intersección de la fila 2.3 y la columna

0.03, ası́ que el 99o percentil es (aproximadamente) z = 2.33. Por simetrı́a,
el primer percentil está tan debajo de 0 como el 99o está sobre 0, ası́ que
es igual a -2.33 (1 % queda debajo del primero y también sobre el 99o ).
Estadı́stica I
Observación 3.134 (Notación zα )
zα denotará el valor sobre el eje z para el cual α del área bajo la

curva z queda a la derecha de zα .
Como α del área bajo la curva z queda a la derecha de zα , 1 − α del
área queda a su izquierda. Por lo tanto, zα es el 100(1 − α)◦ percentil
de la distribución normal estándar.
Estadı́stica I
Percentil 90 95 97.5 99 99.5 99.9 99.95

α (área de cola) 0.1 0.05 0.025 0.01 0.005 0.001 0.0005
zα = 100(1 − α)◦ 1.28 1.645 1.96 2.33 2.58 3.08 3.27
Cuadro 2: Percentiles normales estándar y valores crı́ticos más útiles.

Estadı́stica I
Percentil 90 95 97.5 99 99.5 99.9 99.95

α (área de cola) 0.1 0.05 0.025 0.01 0.005 0.001 0.0005
zα = 100(1 − α)◦ 1.28 1.645 1.96 2.33 2.58 3.08 3.27
Cuadro 2: Percentiles normales estándar y valores crı́ticos más útiles.

Ejemplo 3.135
z0.05 es el 100(1 − 0.05)◦ = 95◦ percentil de la distribución normal
estándar, por lo tanto z0.05 = 1.645. El área bajo la curva normal estándar
a la izquierda de −z0.05 también es 0.05.
Estadı́stica I
Distribuciones normales no estándar

Proposición 3.136
Si X tiene una distribución normal con media µ y desviación estándar σ,
entonces
X −µ
Z=
σ
tiene una distribución normal estándar. Por lo tanto,

a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ

b−µ a−µ
=Φ −Φ
σ σ

a−µ b−µ
P (X ≤ a) = Φ , P (X ≥ b) = 1 − Φ
σ σ
Estadı́stica I
Observación 3.137
La proposición se comprueba escribiendo la función de distribución
acumulativa de Z = (X − µ)/σ como
Z σz+µ
P (Z ≤ z) = P (X ≤ σz + µ) = f (x; µ, σ)dx
−∞
Utilizando un resultado del cálculo, esta integral puede ser derivada con
respecto a z para que dé la función de densidad de probabilidad deseada
f (z; 0, 1).
Estadı́stica I
Ejemplo 3.138
El tiempo que requiere un conductor para reaccionar a las luces de freno
de un vehı́culo que está desacelerando es crı́tico para evitar colisiones por
alcance. El artı́culo “Fast-Rise Brake Lamp as a Collision-Prevention
Device” (Ergonomics, 1993: 391-395), sugiere que el tiempo de reacción
de respuesta en tráfico a una señal de freno de luces estándar puede ser
modelado con una distribución normal que tiene un valor medio de 1.25 s
y desviación estándar de 0.46 s. ¿Cuál es la probabilidad de que el tiempo
de reacción esté entre 1.00 s y 1.75 s?
Solución:
Si X denota el tiempo de reacción, entonces estandarizando se obtiene
1.00 ≤ X ≤ 1.75
si y sólo si 1.00 − 1.25 X − 1.25 1.75 − 1.25

≤ ≤
0.46 0.46 0.46
Estadı́stica I
Por lo tanto

1.00 − 1.25 1.75 − 1.25
P (1.00 ≤ X ≤ 1.75) = P ≤Z≤
0.46 0.46
= P (−0.54 ≤ Z ≤ 1.09) = Φ(1.09) − Φ(−0.54)
= 0.8621 − 0.2946 = 0.5675

Estadı́stica I

2 − 1.25
P (X > 2) = P Z > = P (Z > 1.63)
0.46
= 1 − Φ(1.63) = 0.0516
Estadı́stica I

2 − 1.25
P (X > 2) = P Z > = P (Z > 1.63)
0.46
= 1 − Φ(1.63) = 0.0516
Ejemplo 3.139
Se sabe que el voltaje de ruptura de un diodo seleccionado al azar de un
tipo particular está normalmente distribuido. ¿Cuál es la probabilidad de
que el voltaje de ruptura de un diodo esté dentro de una desviación
estándar de su valor medio? Esta pregunta puede ser respondida sin
conocer µ o σ, en tanto se sepa que la distribución es normal; la respuesta
es la misma para cualquier distribución normal:
Solución:
P (X está dentro de 1 desviación estándar de su media)
= P (µ − σ ≤ X ≤ µ + σ)

µ−σ−µ µ+σ−µ
=P ≤Z≤
σ σ
Estadı́stica I
= P (−1.00 ≤ Z ≤ 1.00)
= Φ(1.00) − Φ(−1.00) = 0.6826
La probabilidad de que X esté dentro de dos desviaciones estándar es
P (−2.00 ≤ Z ≤ 2.00) = 0.9544 y dentro de tres desviaciones estándar es
P (−3.00 ≤ Z ≤ 3.00) = 0.9974.
Estadı́stica I
= P (−1.00 ≤ Z ≤ 1.00)
= Φ(1.00) − Φ(−1.00) = 0.6826
La probabilidad de que X esté dentro de dos desviaciones estándar es
P (−2.00 ≤ Z ≤ 2.00) = 0.9544 y dentro de tres desviaciones estándar es
P (−3.00 ≤ Z ≤ 3.00) = 0.9974.
Observación 3.140
Si la distribución de la población de una variable es (aproximadamente)
normal, entonces
Aproximadamente 68 % de los valores están dentro de 1 DE de la
media.
Aproximadamente 95 % de los valores están dentro de 2 DE de la
media.
Aproximadamente 99.7 % de los valores están dentro de 3 DE de la
media.
Estadı́stica I
Percentiles de una distribución normal arbitraria
El (100p)◦ percentil de una distribución normal con media µ y desviación

estándar σ es fácil de relacionar con el (100p)◦ percentil de la distribución
normal estándar.
Estadı́stica I

normal estándar.
Proposición 3.141
(100p)◦ percentil (100p)◦ percentil

=µ+ ·σ
de (µ, σ) normal de normal estándar
Estadı́stica I

normal estándar.
Proposición 3.141
(100p)◦ percentil (100p)◦ percentil

=µ+ ·σ
de (µ, σ) normal de normal estándar
Observación 3.142
Otra forma de decir es que si z es el percentil deseado de la distribución
normal estándar, entonces el percentil deseado de la distribución (µ, σ)
normal está a z desviaciones estándar de µ.
Estadı́stica I
Ejemplo 3.143
La cantidad de agua destilada despachada por una cierta máquina está
normalmente distribuida con valor medio de 64 oz y desviación estándar
de 0.78 oz. ¿Qué tamaño de contenedor c (en oz) asegurará que ocurra
rebosamiento de sólo un 0.5 % en el tiempo?
Solución:
Si X denota la cantidad despachada, la condición deseada es que
P (X > c) = 0.005, o, en forma equivalente, que P (X ≤ c) = 0.995.
Por lo tanto, c es el 99.5◦ percentil de la distribución normal con
µ = 64 y σ = 0.78. El 99.5◦ percentil de la distribución normal
estándar es de 2.58, por lo tanto,
c = η(0.995) = 64 + (2.58)(0.78) = 64 + 2.0 = 66oz

Estadı́stica I
Distribución normal y poblaciones discretas

La distribución normal a menudo se utiliza como una aproximación a la
distribución de valores en una población discreta. En semejantes
situaciones, se debe tener un cuidado especial para asegurarse de que las
probabilidades se calculen con precisión.
Estadı́stica I
Aproximación de la distribución binomial

Proposición 3.144
Sea X una variable aleatoria normal basada en n ensayos con probabilidad
de éxito p. Luego si el histograma de probabilidad binomial no es
demasiado asimétrico, X tiene aproximadamente una distribución normal
√
con µ = np y σ = npq. En particular, con x = un valor posible de X,

área bajo la curva normal
P (X ≤ x) = B(x; n, p) ≈
a la izquierda de x + 0.5

x + 0.5 − np
=Φ √
npq
Estadı́stica I
Aproximación de la distribución binomial

Proposición 3.144
Sea X una variable aleatoria normal basada en n ensayos con probabilidad
de éxito p. Luego si el histograma de probabilidad binomial no es
demasiado asimétrico, X tiene aproximadamente una distribución normal
√
con µ = np y σ = npq. En particular, con x = un valor posible de X,

área bajo la curva normal
P (X ≤ x) = B(x; n, p) ≈
a la izquierda de x + 0.5

x + 0.5 − np
=Φ √
npq
Observación 3.145
Una comprobación directa de este resultado es bastante difı́cil. En el
siguiente capı́tulo se verá que es una consecuencia de un resultado más
general llamado Teorema del Lı́mite Central.
Estadı́stica I
Figura 10: Histograma de probabilidad binomial para n = 20, p = 0.6 con curva
de aproximación normal sobrepuesta.
Estadı́stica I
Ejemplo 3.146
Suponga que 25 % de los conductores con licencia de manejo en un estado
particular no están asegurados. Sea X el número de conductores no
asegurados en una muestra aleatoria de tamaño 50 (algo perversamente,
un éxito es un conductor no asegurado), de modo que p = 0.25. Calcule
P (X ≤ 10) y P (5 ≤ X ≤ 15)
Solución:
µ = 12.5 y σ = 3.06, dado que µ = np y σ 2 = npq. Como
np = 50(0.25) = 12.5 ≥ 10 y nq = 37.5 ≥ 10 entonces

10 + 0.5 − 12.5
P (X ≤ 10) = B(10; 50, 0.25) ≈ Φ = Φ(−0.65)
3.06
= 0.2578
P (5 ≤ X ≤ 15) = B(15; 50, 0.25) − B(4; 50, 0.25)

15.5 − 12.5 4.5 − 12.5
≈Φ −Φ = 0.8320
3.06 3.06

EST1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

EST1

Cargado por

Copyright:

Formatos disponibles

Estadı́stica I

Departamento de Matemáticas y Estadı́stica

3 Variables aleatorias unidimensionales

Porcentaje y semana de evaluación

Primer Parcial (5ta semana): 20 %.

En el siguiente vı́deo podrá apreciar diferentes aplicaciones de la

El precio de las acciones de TSLA probablemente será más alto

Solución: Si solo están en estudio los 1500 establecimientos, entonces la

Estadı́stica descriptiva e inferencial

Una mujer dedicada a la polı́tica desea saber el porcentaje exacto de

Con base en una encuesta de opinión, a un polı́tico le gustarı́a

Ejemplo 1.6 (Producción de cereales)

La inducción consiste en razonar desde los ejemplos especı́ficos al

Clasificación de las variables

Las variables categóricas producen respuestas que pertenecen a

Las respuestas a preguntas sı́/no son categóricas

Ejemplo 1.9 (Datos discretos)

El número de estudiantes matriculados en una clase, el número de

Ejemplo 1.10 (Datos continuos)

El siguiente ejemplo motiva lo que definiremos como niveles de medición

Nivel de medición nominal

Nivel de medición ordinal

Valoración de la calidad del producto (1: malo; 2: medio; 3: bueno).

En estos ejemplos, las respuestas son ordinales, es decir, siguen un

Gráficos para describir variables categóricas

Las variables categóricas pueden describirse utilizando tablas de

Gráficos para describir variables categóricas

Las variables categóricas pueden describirse utilizando tablas de

Tablas de distribución de frecuencias

Empresa Número de asalariados

Gráficos de barras y gráficos de tarta

Especialidad 2000 2005

Solución: Basarse en el siguiente Tutorial usando Excel.

Figura 1: Gráfico de barras agrupado usando R. Ejemplo 1.15.

Figura 2: Gráfico de barras apilado usando R. Ejemplo 1.15.

Identificar las principales causas de los problemas e intentar

Categorı́a Tipo de error Frecuencia

Solución: Considere el siguiente Tutorial usando Excel.

Figura 3: Gráfico de Pareto usando Excel. Ejemplo 1.17.

Gráficos para describir variables numéricas

Es un gráfico de (EDA) alternativo al histograma.

Solución: Basarse en el siguiente Tutorial usando Excel. Antes debe

Si continuamos el proceso con cada calificación, obtendremos el

Utilizando el complemento MegaStat de Excel se obtiene

Al observar el diagrama de tallo y hojas anterior podemos concluir

16.5 14.3 14.3 13.9 13.8 11.2 11.1 11.1 10.8

Podemos determinar fácilmente que un 20 % de los costos promedio

El correspondiente diagrama de tallo y hojas es

Usando números enteros de tres dı́gitos

Gráfico de series temporales

Solución: Basarse en el siguiente Tutorial usando Excel.

Distribución de frecuencia relativa y acumulada.

Se obtiene una distribución de frecuencias relativas dividiendo cada

Tabla de frecuencias simple.

Solución: Basarse en el siguiente Tutorial usando Excel

Construcción de una distribución de frecuencias

Tabla de frecuencias agrupada.

c es dado, aleatorio o calculado por Regla de Sturges o de la Raı́z

c es dado, aleatorio o calculado por Regla de Sturges o de la Raı́z

Número de clases para una tabla de frecuencias agrupadas:

39.78 28.30 28.31 17.95 44.47

Ancho de clase: w = R/c = 64.82/5 = 12.96 ≈ 13

Primera clase: [17.89, 30.88)