Está en la página 1de 185

1

ESTADÍSTICA

DEFINICIONES BÁSICAS

1. ESTADÍSTICA

Definición tradicional:
Colección, organización, resumen y presentación de datos numéricos.
Definición actual:
Rama de la matemática aplicada que colecciona, clasifica y evalúa o analiza datos,
como base para inferir consecuencias o conclusiones válidas, así como para tomar
decisiones en base a dicho análisis.

2. USO DE LA ESTADÍSTICA

El método científico está constituido por las observaciones experimentales y los


conocimientos que conducen al empleo de las técnicas estadísticas. El uso de la
estadística, como herramienta de la investigación, no puede separarse de la
planeación general del proyecto de investigación. Aunque, por lo general, la
estadística se asocia a estudios demográficos, económicos y sociológicos, cada vez
son más los profesionales de distintas disciplinas que recurren a métodos
estadísticos como muestreo, simulación, diseño de experimentos, control de
calidad, modelación estadística e inferencial, etc., con la finalidad de realizar
análisis e interpretación de datos, convirtiéndose en una herramienta
imprescindible de todas las ciencias. Usualmente, un profesional que domine
diferentes técnicas estadísticas puede llegar a ser mucho más eficaz en todas las
fases de su trabajo que tengan que ver con la investigación, el desarrollo o la
producción.

3. ETAPAS DE UNA INVESTIGACIÓN ESTADÍSTICA

a. Formulación del problema:

La investigación exitosa de un problema implica crear conceptos precisos,


formular preguntas claras e imponer limitaciones adecuadas al problema,
según el tiempo y dinero disponibles y la habilidad de los investigadores. Una
mala formulación del problema puede conducir a que los datos recolectados
sean inservibles.

W. Díaz, E. García, N. Rodríguez, F. Córdova


2

b. Diseño experimental o diseño de muestras:

Implica, entre otras cosas, determinar el tamaño de la muestra, el tipo de datos


a recolectar y la forma de recolectarlos. Si no tenemos cuidado al planificar y
diseñar un experimento pueda que no se logre ninguna conclusión válida.

c. Recolección de datos y experimentación:

Se refiere a los métodos usados para obtener la información necesaria de las


unidades elementales que conforman la muestra.
d. Tabulación y descripción de los resultados:

Los datos deben ordenarse, tabularse e ilustrarse gráficamente, calculando las


medidas estadísticas fundamentales, como el promedio y la varianza.

e. Inferencia estadística y formulación de la respuesta:

Utilizando la muestra se obtiene conclusiones acerca de la población, para luego


tomar una decisión y formular la respuesta al problema planteado.

4. DIVISIÓN DE LA ESTADÍSTICA:

ESTADÍSTICA DESCRIPTIVA:
Los métodos descriptivos (que pueden usarse tanto para muestras como para
poblaciones) se utilizan para mostrar los datos en forma ordenada y gráfica, sin
obtener conclusiones de ellos.

ESTADÍSTICA INFERENCIAL:
Los métodos inferenciales, como la estimación de parámetros y la prueba de
hipótesis acerca de tales parámetros, usan sólo las características de las muestras
para inferir o generalizar las características de la población.

5. UNIDADES ELEMENTALES:

Las unidades elementales son los individuos u objetos de una colección que tienen
una característica medible cualitativa o cuantitativa en común. Cuando los datos de

W. Díaz, E. García, N. Rodríguez, F. Córdova


3

dicha característica permanecen inalterables, tal y como se los recolecta, se dice que
son datos originales.

6. UNIVERSO, POBLACIÓN Y MUESTRA:

UNIVERSO: Conjunto de individuos u objetos que tienen alguna característica en


común. Al número de estos individuos u objetos lo denotamos con la letra mayúscula
N.
Ejemplos:

• Conjunto de 80 motores para estudiar su antigüedad. (N=80).


• Conjunto de 26 automóviles para estudiar su marca. (N=26).
• Conjunto de 8 estructuras metálicas para estudiar su cantidad de corrosión, en
gramos. (N=8).
• Conjunto de 200 ventanas metálicas, para estudiar su área. (N=200).
• Conjunto de 50 muestras de fierro, para estudiar su grado de pureza. (N=50).
• Conjunto de 100 engranajes para estudiar sus diámetros. (N=100).
• Conjunto de 20 bujías para estudiar su número de electrodos. (N=20).

POBLACIÓN: Totalidad de observaciones (datos) obtenidas al medir alguna


característica de los elementos de un universo. Al tamaño de una población le
corresponde el mismo tamaño que el del universo; es decir, “N”.
Ejemplos:

• Conjunto de antigüedades de los motores, en años. (Datos: 3.5, 8, 4.1): N=3.


• Conjunto de marcas de automóviles. (Datos: Chevrolet, Chevrolet, Datsun,
Nissan, Nissan, Toyota, Peugeot, Peugeot, Chevrolet). N=9.
• Conjunto de cantidades de corrosión (en gramos) de 6 estructuras metálicas
(Datos: 150, 302, 25, 59, 126.4, 99.8): N=6.
• Conjunto de áreas (m2) de ventanas metálicas. (Datos: 5.12, 6, 0.68, 10.56, 1.34,
11.21, 0.83): N=7.
• Conjunto de grados de pureza (en %) de muestras de fierro. (Datos: 10, 20, …).
• Conjunto de diámetros (en cms.) de engranajes. (Datos: 2.5, 1.8, 1.8, 1.8, 5, …).
• Conjunto de electrodos de las bujías (Datos: 2.4x103, 3.2x103, …).

MUESTRA: Subconjunto, ya sea de una población o de un universo.


Si la muestra se selecciona utilizando algún mecanismo de azar (por ejemplo, por
sorteo, mediante la tabla de dígitos aleatorios o mediante el uso de un programa
estadístico), ella se denomina muestra aleatoria o muestra al azar. El tamaño de
una muestra se denota con la letra minúscula “n”.
Ejemplos:

• Subconjunto de 4 automóviles (n=4).

W. Díaz, E. García, N. Rodríguez, F. Córdova


4

• Subconjunto de edades de 18 alumnos de nuestra clase. (n=18).


• Subconjunto de voltajes de 10 focos de una planta metalúrgica (n=10).
• Subconjunto de consumo de corriente en una muestra de 100 fluorescentes.
(n=100).

7. DATO:

VARIABLE Y OBSERVACIÓN
Una variable es una cantidad o característica que manifiesta diferencias o cambios,
en magnitud o en valor; se la denota generalmente por la letra mayúscula “X” (puede
ser otra letra mayúscula también).
Ejemplos de variable:

• Índice de masa corporal (kg/m2).


• Colesterolemia (mg/dl).
• Tensión arterial diastólica (mm Hg).
• Sexo (categorías: hombre, mujer).
• Tasa de letalidad diaria (%) por Covid-19 en el Perú, durante el mes de marzo
de 2021.
• Número diario de pacientes recuperados por Covid-19 en el Perú, desde el 15
de marzo de 2020 al 10 de mayo de 2021.
• Número de dientes con caries de un conjunto de personas.

Una observación, llamada también dato, es el resultado de hacer una medición de


una variable sobre la unidad elemental. El lugar de donde se obtienen los datos se
denomina fuente (algunos ejemplos de fuente son: Registro Técnico de la UNT,
Escuela Académico Profesional de Estomatología, http://www.bn.com.pe, MINSA-
Perú, etc.).
Ejemplos de datos:

• Variable: Índice de masa corporal (kg/m2).


Datos: 27.6, 24.0, 25.9, 30.0, 32.5, 25.9…
• Variable: Colesterolemia (mg/dl).
Datos: 245.1, 246.8, 250.0, 252.6, 248.0, 249.4, 250.7, 250.7, …
• Variable: Tensión arterial diastólica (mm Hg).
Datos: 88, 90, 90, 89, 86, 91, 91, 88, 90, …
• Variable: Sexo.
Datos: mujer, mujer, hombre, mujer, mujer, hombre, hombre, mujer, ….
• Variable: Tasa de letalidad diaria (%) por Covid-19 en el Perú, durante el mes de
marzo de 2021.
Datos: 2.0, 2.5, 2.6, 2.6, 2.4, 3.1, …, 3.8 (hay 21 datos)
• Variable: Número diario de pacientes recuperados de Covid-19 en el Perú, desde
el 15 de marzo de 2020 al 10 de mayo de 2021.
Datos: 400, 652, 1803, …, 6782, 7428, …
• Variable: Número de dientes con caries.
Datos: 0, 0, 4, 2, 1, 1, 5, 3, 0

W. Díaz, E. García, N. Rodríguez, F. Córdova


5

CLASES DE VARIABLE:

a. VARIABLE CUANTITATIVA: Es la variable que toma valores numéricos.

Ejemplos:

• Índice de masa corporal (kg/m2).


• Colesterolemia (mg/dl).
• Tensión arterial diastólica (mm Hg).
• Tasa de letalidad diaria por covid en el Perú, durante el mes de marzo de
2021 (%).
• Número diario de pacientes recuperados de Covid-19 en el Perú, desde el
15 de marzo de 2020 al 10 de mayo de 2021.
• Número de diámetros de un conjunto de engranajes.
• Intensidad de corriente (en A) por bujía.

Una variable cuantitativa puede ser:


a.1. CONTINUA: Si puede tomar valores que se ubican en cualquier parte de la
recta numérica (por lo tanto, puede tomar valores enteros y/o decimales).
Ejemplos:

• Índice de masa corporal (kg/m2).


• Colesterolemia (mg/dl).
• Tasa de letalidad diaria (%) por covid en el Perú, durante el mes de marzo
de 2021.
• Intensidad de corriente (en A) por bujía.
• Radio atómico de polímeros (en Armstrong).
• Tamaño de los pernos (en pulgadas).

a.2. DISCRETA: Cuando sólo toma valores que corresponden a puntos aislados
de la recta numérica. En general, sus valores son números enteros. (En
general, una variable discreta no puede tomar valores que sean números
decimales).
Ejemplos:

• Número de dientes con caries por alumno.


• Número de cilindros por motor.
• Número de turbos por culata y motor.

b. VARIABLE CUALITATIVA:

Aquélla cuyos valores son atributos o cualidades. En ella, a su vez, se definen


categorías. Ejemplos:

W. Díaz, E. García, N. Rodríguez, F. Córdova


6

• Sexo de los alumnos de nuestra clase. (Categorías: hombre, mujer).


• Tipo de material usado para restaurar los dientes de los pacientes que acudieron
durante un mes a consulta odontológica. (Categorías: BC, amalgama, IV, IVBR)
• Deporte de aventura practicado (Categorías: motocross, espinamiento, etc.).
• Especialidad de los profesionales de la salud bucal. (Categorías: Asistente
dental, técnico dental, odontólogo, higienista dental).
• Estabilidad de armaduras (categorías: isoestática, hipoestática, hiperestática).
• Tipo de motor según el combustible usado (categorías: diessel, gasolina, gas, …)
• Tipo de ruedas dentadas (categorías: recta, helicoidal, cónica, etc.)

Ejemplos adicionales:

• Variable (X): Porcentaje diario de resultados positivos por Covid-19 en las


pruebas moleculares y rápidas, con respecto al número total de muestras
procesadas, entre el 21 y el 29 de junio de 2020.

Datos de X: 16.6, 18.3, 15.4, 17.7, 17.8, 18.0, 17.6, 17.2, 18.2 (16.6% el 21 de
junio, 18.3% el 22 de junio,…, 18.2% el 29 de junio)

Fuente: Elaboración propia, a partir de los comunicados del MINSA-Perú N°s


139, 140, 142, 143, 144, 146, 147, 149, 151 y 152 (para obtener el primer dato se
utilizaron los comunicados números 139 y 140; para el segundo, los comunicados
140 y 142, etc.).

Unidad elemental: El día (del cual se obtiene el porcentaje de resultados


positivos por Coronavirus-Covid 19).

• Variable (Y): Número diario de personas hospitalizadas por Covid-19, entre


el 21 y el 29 de junio de 2020.

Datos de Y: 3204, 3353, 3117, 3152, 4485, 3732, 4218, 3974, 3161

Fuente: Elaboración propia, a partir de los comunicados del MINSA-Perú N°s


139, 140, 142, 143, 144, 146, 147, 149, 151 y 152
Unidad elemental: El día.

• Variable (Z): Número de casos confirmados (positivos), obtenidos por


Coronavirus Covid-19 en las pruebas moleculares y rápidas, en 8 regiones del
Perú, el día 29 de junio de 2020.

Datos de Z: Lima (157050), Callao (17944), Lambayeque (13572), Piura


(16746), Loreto (8955), La Libertad (9856), Cajamarca (2091), Tacna (888).

Fuente: Comunicado N°152 del MINSA-Perú.

Unidad elemental: La región.

W. Díaz, E. García, N. Rodríguez, F. Córdova


7

CONJUNTO DE EJERCICIOS N° 1
a) Proponga dos ejemplos de: universo, población y muestra, aplicado a su
especialidad.
Solución:
Universo 1: Conjunto de autos vendidos cada año.
Población 1: Conjunto de marcas de los autos.
Muestra 1: Subconjunto de autos vendidos cada año.

Universo 2: conjunto de estudiantes de la UNT, matriculados en el año académico


2021-I.
Población 2: conjunto de edades de los estudiantes de la UNT, matriculados en el año
académico 2021-I.
Muestra 2: subconjunto de estudiantes de la UNT, del III ciclo de la Escuela
Académico Profesional de Ingeniería Mecánica, matriculados en el año académico
2021-I..

b) Clasifique cada una de las siguientes variables, como discreta, continua o cualitativa:
* Deporte practicado por los alumnos de nuestra clase: CUALITATIVA
* Número de docentes por Departamento de Ingeniería Mecánica en las
universidades peruanas: CUANTITATIVA DISCRETA
* Peso (gramos, hasta la cifra de las décimas) de un conjunto de dientes:
CUANTITATIVA CONTINUA
* Número de dientes con caries por persona: DISCRETA
* Edad (en años cumplidos) de pacientes que requieren atención estomatológica:
DISCRETA.
* Edad de pacientes que requieren atención estomatológica: CONTINUA.
c) Proponga dos ejemplos de cada una de las clases de variable en el campo de su
especialidad.
Solución (parte c):
Variables continuas:

• Velocidad de la hélice de los generadores eólicos (m/seg).


• Longitud (en mm) de un conjunto de cigüeñales.

Variables discretas:

• Número de cilindros por motor de combustión.


• Número de ejes por máquina.

Variables cualitativas:

• Mecanismos de transferencias de calor (categorías: por conducción, por


convección, por radiación).

W. Díaz, E. García, N. Rodríguez, F. Córdova


8

• Especialidad es Ingeniería Mecánica (categorías: automotriz, eléctrica,


supervisión de proyectos, etc.).

SUMATORIAS
La sumatoria simple de n observaciones (datos) de una variable X, se define del
siguiente modo:
n

∑x
i =1
i = x1 + x2 + ... + xn

Ejemplo:
Los precios (en nuevos soles) de 4 pequeñas moladoras de cierta marca en 4 ferreterías
(n=4) son:

N° de ferretería (i) 1 2 3 4=n n

∑x
i =1
i

Tiempo de espera (xi) 230 240 190 200 860

También es usual colocar la información anterior en dos columnas, así:

i xi
1 230
2 240
3 190
5=n 200

Total 860

En este ejemplo, podemos escribir, aplicando sumatoria:


n 4

∑ xi =
i =1
∑x
i =1
i = x1 + x2 + x3 + x4 = 230 + 240 + 190 + 200 = 860

CONJUNTO DE EJERCICIOS N° 2
Utilice la información anterior y encuentre el valor numérico de las siguientes
expresiones:
n
a) SC = ∑ xi2 = (230)2 + (240)2 + (190)2 + (200)2. (Rpta.: )
i =1

W. Díaz, E. García, N. Rodríguez, F. Córdova


9

∑x i
b) M = i =1
(Rpta.: 215)
n
n
c) A = ∑ ( xi − M ) = (230 – 215) + (240 – 215) + (190 – 215) + (200 – 215) =
i =1
n

∑ (x i − M )2
d) V = i =1

n
 n

1  n
( ∑ xi ) 2 
e) T = ∑ xi2 − i =1 
n  i =1 n 
 

Solución:

i xi xi2 xi − M = xi − 58 ( xi − M )2
1 230 230-215 = 15
2 240 240-215 = 25
3 190 190-215 = -25
4 200 200-215 = -15

Total 860 0

n 4
a) SC = ∑ xi2 = ∑x 2
i =
i =1 i =1
n 4

∑x ∑x i i
b) M = i =1 i =1
=
n 4
n
c) A = ∑ ( xi − M ) = 0
i =1

∑ (x i − M )2
d) V = i =1
=
n
 n

1  n
( ∑ xi ) 2 
e) T = ∑ xi2 − i =1 =
n  i =1 n 
 

W. Díaz, E. García, N. Rodríguez, F. Córdova


10

USO DE LA TABLA DE NÚMEROS ALEATORIOS

La Tabla de Números Aleatorios, llamada también Tabla de Dígitos Aleatorios, se usa


para seleccionar, de un universo o población de tamaño N, una muestra aleatoria de
tamaño n.

PASOS:

1º. Con la punta del lápiz se marca cualquier dígito (de preferencia, en la parte superior
izquierda de la tabla) y, a la derecha e incluyendo el dígito donde cayó el lápiz, se
selecciona tantos dígitos como cifras tenga N; ése será el primer “número” de la
muestra, al que se le denomina Arranque Aleatorio (AA). Si el arranque aleatorio
es menor o igual que N, ése será nuestro primer elemento de la muestra.

2º. Luego se selecciona el siguiente número hacia la derecha de forma horizontal


(pero también es válido seleccionarlo hacia abajo, verticalmente), del mismo
número de cifras que el anterior; ése será el “número” del segundo elemento de la
muestra, siempre y cuando sea menor o igual que N.

3º. Si el número seleccionado en el paso 2° es mayor de N, tenemos cualquiera de las


siguientes alternativas:

* se pasa al siguiente número hacia la derecha, o

* se divide entre N y se elige como elemento de la muestra el “residuo” de dicha


división.

4º. El proceso se repite hasta que se completen los n elementos de la muestra. Si al avanzar
hacia la derecha (o hacia abajo), aún no se completaran todos los elementos de la
muestra, se continúa desde el inicio de la(s) siguiente(s) fila(s) o columna(s)
inmediata(s) de la tabla, hasta completar los elementos de la muestra.

5º. Luego, de la lista de elementos poblacionales (los cuales deben estar enumerados), se
toman los elementos seleccionados para realizar la medida respectiva, según la
característica de interés.

Nota:

• Si aparece el número aleatorio cero, debe considerarse el número N. (0 equivale a


N).
• Si algún número aleatorio vuelve a aparecer durante la selección, se lo debe descartar
y pasar al siguiente número aleatorio.
• La selección de los números aleatorios también puede realizarse hacia abajo,
verticalmente.
• Si, al seleccionar los números aleatorios, aún no se completara el tamaño de la muestra
hasta llegar a la parte final de la fila por donde estamos avanzando, se debe continuar
con la siguiente fila (desde el extremo izquierdo).

W. Díaz, E. García, N. Rodríguez, F. Córdova


11

Una parte de la tabla de dígitos aleatorios (las 15 primeras filas y las 40 primeras
columnas columnas) se muestra a continuación, con la finalidad de describir su uso.

TABLA DE DÍGITOS ALEATORIOS (600 dígitos aleatorios)


1-4 5-8 9-12 13-16 17-20 21-24 25-28 29-32 33-36 37-40
1 2315 7548 5901 8372 5993 7624 9708 8695 2303 6744
2 0554 5550 4310 5374 3508 9061 1837 4410 9622 1343
3 1487 1603 5032 4043 6223 5005 1003 2211 5438 0834
4 3897 6749 5194 0517 5853 7880 5901 9432 4287 1695
5 9731 2617 1899 7553 0870 9425 1258 4154 8821 0513

6 1174 2693 8144 3393 0872 3279 7331 1822 6470 6850
7 4336 1288 5911 0164 5623 9300 9004 9943 6407 4039
8 9380 6204 7838 2680 4491 5575 1189 3258 4755 2571
9 4954 0131 8108 4298 4187 6953 8296 6177 7380 9527
10 3676 8726 3337 9482 1569 4195 9686 7045 2748 3880
11 0709 2523 9224 6271 2607 0655 8453 4467 3384 5320
12 4331 0010 8144 8638 0307 5255 5161 4889 7429 4647
13 6157 0063 6006 1736 3775 6314 8951 2335 0174 6993
14 3155 2837 9910 7791 8941 3157 9764 4862 5848 6919
15 5704 8865 2627 7959 3682 9052 9565 4635 0653 2254

EJEMPLO: Para ilustrar el uso de la tabla de números aleatorios,


supongamos que se tiene N=25 estudiantes de nuestra clase, y
que deseamos tomar una muestra aleatoria de tamaño n = 4 para
estudiar su estatura (en centímetros). En primer lugar, enumeramos
los estudiantes, de 1 á 25, o los agrupamos en algún orden de tal forma
que puedan ser identificados. En la tabla de números aleatorios
anterior, los dígitos deben escogerse de a dos a la vez porque el
universo de tamaño N =25 es un número de dos dígitos.
PASOS:

1º. Con la punta del lápiz se marca cualquier dígito (de preferencia, en la parte superior
izquierda de la tabla) y, a la derecha e incluyendo el dígito donde cayó el lápiz, se
selecciona tantos dígitos como cifras tenga N; ése será el primer “número” de la

W. Díaz, E. García, N. Rodríguez, F. Córdova


12

muestra. Supongamos que el lápiz cayó en el dígito 1, correspondiente a la fila 10 y


columna 17 de la tabla. Por lo tanto, el Arranque Aleatorio será igual a 15 (AA=15).
Como A=15 es menor o igual que N=25, el primer elemento seleccionado será el
número 15.

2º. Luego se selecciona el siguiente número hacia la derecha del arranque aleatorio,
del mismo número de cifras que el anterior; ése será el “número” del segundo
elemento de la muestra, siempre que sea menor o igual que 60. En nuestro caso,
corresponde al número 69, que es mayor que N=25.

3º. Como el número 69 es mayor que N=25, tenemos cualquiera de las siguientes
alternativas:

1ª Se pasa al siguiente número hacia la derecha, o

2ª Se divide 69 entre N=25 y se elige como elemento de la muestra el “residuo”


de dicha división.
Supongamos que tomamos la segunda alternativa. Al dividir 69 entre 25, se
obtiene un residuo igual a 19. Por lo tanto, el siguiente número de la muestra
será 19.

4º. El proceso se repite (considerando la segunda alternativa del paso 3°), hasta que se
completen los n=4 elementos de la muestra. Los números aleatorios que utilizaremos
para seleccionar la muestra son los siguientes:

15=AA 69>25 41>25 95>25 96>25


≤ 25

Según esto (teniendo en cuenta la segunda alternativa del paso 3°), los elementos de la
muestra serán los números:

15 19 16 20

5º. Luego, de la lista de elementos poblacionales (los cuales deben estar enumerados), se
toman los elementos seleccionados de la muestra para realizar la medición respectiva
(en este caso, la edad, X, de los estudiantes números 15, 19, 16 y 20). La edad (en
años cumplidos) de la muestra aleatoria de 4 estudiantes se puede resumir en un
cuadro como el siguiente:

i 1 2 3 4
xi 19 18 19 20

En este cuadro, por ejemplo, se puede afirmar que el paciente número 16 (el
tercero de la muestra) tiene una edad de 19 años.

W. Díaz, E. García, N. Rodríguez, F. Córdova


13

CONJUNTO DE EJERCICIOS N° 3
Utilice la tabla de dígitos aleatorios, cuya parte de números se da más antes, para
seleccionar una muestra aleatoria de tamaño n, de un universo (población) de tamaño
N, según como se indica en cada uno de los siguientes incisos:

a) N=9 departamentos del Perú; n=4; AA: fila 3, columna 7, utilizando la primera
alternativa del paso 3°. Seleccione los números aleatorios, avanzando de manera
horizontal y hacia la derecha.
b) N=90 docentes de la Facultad de Ingeniería de la Universidad Nacional de Trujillo;
n=10; AA: fila 9, columna 25, utilizando la segunda alternativa del paso 3°.
Seleccione los números aleatorios, avanzando de manera horizontal y hacia la
derecha.
c) N=250 estudiantes de la Escuela Académico Profesional de Ingeniería Mecánica;
n=35¸ AA: fila 13, columna 32, utilizando la segunda alternativa del paso 3°.
Seleccione los números aleatorios, avanzando de manera horizontal y hacia la
derecha.
d) Resolver los incisos a), b) y c), seleccionando los números aleatorios de manera
vertical y hacia abajo.

ORGANIZACIÓN DE LOS DATOS EN TABLAS

Cuando en una investigación se obtienen datos, ellos se encuentran en forma desordenada,


dificultando su interpretación y análisis. Con la finalidad de tener una visualización
comprensible y significativa del conjunto de datos, éstos deben organizarse y resumirse
en forma de tablas.

Antes de indicar los pasos para construir una tabla, será necesario dar las siguientes
definiciones:

1. CLASE
Está dada por un intervalo (si la variable es cuantitativa) o por una categoría (si la
variable es cualitativa).

2. INTERVALO DE CLASE
Es aquél que contiene cierta cantidad de datos numéricos. Posee dos límites: El límite
inferior que se denota por “LI” y el límite superior por “LS”. Al número de
intervalos de clase lo representamos por “m”. Mientras no se mencione otra cosa, se
trabajará con intervalos regulares semiabiertos por la derecha.

Notación de intervalos:
El i-ésimo intervalo de clase se denota por [X´i-1, X´i), o también [LIi , LSi).

Amplitud interválica:
Diferencia entre el límite superior y el límite inferior de cada intervalo de clase. Se
la denota por la letra “c”. Es decir, para el i-ésimo intervalo de clase, se tiene:

W. Díaz, E. García, N. Rodríguez, F. Córdova


14

ci = LSi – LIi.

Clases de intervalos:

Regulares:
Dos o más intervalos son regulares si su amplitud interválica es la misma en
todos ellos.
Irregulares:
Cuando la amplitud interválica no es la misma en todos los intervalos.

Ejemplo:
Si la variable X es el tiempo de observación de un conjunto de escolares al
aparecer la gingivitis (en días) y existen los siguientes intervalos de clase
regulares semiabiertos por la derecha:

Intervalo 1 (i=1): [X´0, X´1) = [LI1 , LS1) = [40, 60),


Intervalo 2 (i=2): [X´1, X´2 ) = [LI2, LS2 ) = [60, 80) e
Intervalo 3 (i=3): [X´2, X´3 ) = [LI3, LS3 ) = [80, 100);

En este caso, m = 3, los 3 intervalos de clase son regulares porque tienen la misma
amplitud:
c1 = LS1 - LI1 = 60 – 40 = 20;
c2 = LS2 - LI2 = 80 – 60 = 20;
c3 = LS3 - LI3 = 100 – 80 = 20.

3. LIMITES REALES
Se deben a Yule y Kendall. Con la finalidad de prevenir ambigüedades en cuanto
a la clase a la que pertenece cierto dato numérico, se utilizan los límites reales.
Para el intervalo de clase i-ésimo, sus límites reales (LR), se obtienen del
siguiente modo:

Límite real inferior (LRIi):

LRIi = LIi - 5x10-(k+1)

Límite real superior (LRSi):

LRSi = LSi - 5x10-(k+1) ,

donde “k” representa el número máximo de cifras decimales de los datos


recolectados.

Ejemplo:
En el ejemplo anterior, si asumimos que todos los datos son enteros, entonces
k=0 (número máximo de cifras decimales) y por lo tanto, k+1 = 1.
Los límites reales para tales intervalos, son:

LRI1 = LI1 – 5x10-1 = 40 – 0.5 = 39.5; LRS1 = LS1 - 5x10-1 = 60 - 0.5 = 59.5
LRI2 = LI2 – 5x10-1 = 60 – 0.5 = 59.5; LRS2 = LS2 - 5x10-1 = 80 - 0.5 = 79.5

W. Díaz, E. García, N. Rodríguez, F. Córdova


15

LRI3 = LI3 – 5x10-1 = 80 – 0.5 = 79.5; LRS3 = LS3 - 5x10-1 = 100 - 0.5 = 99.5

Los intervalos de clase, así como los límites reales y los intervalos cerrados
de este ejemplo, los podemos resumir en la siguiente tabla:

N° de Intervalos de clase Límites reales Intervalos


intervalo [LIi , LSi) LRIi , LRSi Cerrados: [ , ]
(i)
1 40 – 60 39.5 – 59.5 40 – 59
2 60 – 80 59.5 – 79.5 60 – 79
3 80 – 100 79.5 – 99.5 80 – 99

CÁLCULO DEL LÍMITE SUPERIOR DE UN INTERVALO CERRADO:

LS[ ] = LS[ ) – 10-k,

siendo k el número máximo de cifras decimales de los datos originales. Así por ejemplo, en el

cuadro anterior, puede verificarse que el límite superior del segundo intervalo cerrado se

obtiene así:

LS[60,79] = LS[60,80) – 10-k = 80– 10-0 = 80 – 1 = 79


CONJUNTO DE EJERCICIOS N° 4

Obtener los límites reales (inferior y superior) de los siguientes conjuntos de


intervalos y además, expresarlos como intervalos cerrados:

a) [3.80, 4.60), [4.60, 5.40), [5.40, 6.20)


b) [15.85, 18.85), [18.85, 21.85), [21.85, 24.85), [24.85, 27.85)
c) [13.83, 15.73), [15.73, 17.63), [17.63, 19.53)

Solución (inciso a):


a) k = 1 (el número máximo de cifras decimales de los datos es igual a 1)
k+1 = 2
1 1
10-(k+1) = 10-2 = 2 = = 0.01
10 100
5x10-(k+1) = 5x0.01 = 0.05

N° de Intervalos de clase Límites reales Intervalos


intervalo [LIi , LSi) LRIi , LRSi Cerrados: [ , ]

W. Díaz, E. García, N. Rodríguez, F. Córdova


16

(i)
1 3.80 – 4.60 3.75 – 4.55 3.80 – 4.50
2 4.60 – 5.40 4.55 – 5.35 4.60 – 5.30
3 5.40 – 6.20 5.35 – 6.15 5.40 – 6.10

Por ejemplo, los límites reales del segundo intervalo son:

LRI2 = LI2 - 5x10-(k+1) = 4.60 – 0.05 = 4.55


LRS2 = LS2 - 5x10-(k+1) = 5.40 – 0.05 = 5.35

b) k = 2 (el número máximo de cifras decimales de los datos es igual a 2)

N° de Intervalos de clase Límites reales Intervalos


intervalo [LIi , LSi) LRIi , LRSi Cerrados: [ , ]
(i)
1 15.85 – 18.85
2 18.85 – 21.85
3 21.85 – 24.85
4 24.85 – 27.85

4. MARCA DE CLASE
También llamada punto medio, es igual a la semisuma de los límites del respectivo
intervalo de clase. La marca de clase del i-ésimo intervalo de clase se denota por Xi .
Es decir,

LI i + LS i
Xi =
2

Ejemplo:
Para los intervalos de clase irregulares [2, 4), [4, 12) y [12, 30), las marcas de clase
son X1 = (2 + 4)/2 = 3, X2 = 8 y X3 = 21, respectivamente.

5. FRECUENCIA
Número, proporción o porcentaje de veces que se repite un dato (cuando los datos
no están agrupados o los datos son originales) o conjunto de datos (si los datos están
agrupados en intervalos).

CLASES DE FRECUENCIA:

A) FRECUENCIA ABSOLUTA:
Es el número de veces que se repite un dato. Su valor es un número entero mayor
o igual que cero. Una frecuencia absoluta puede ser:

a) Simple:

W. Díaz, E. García, N. Rodríguez, F. Córdova


17

Cuando se refiere a un solo intervalo o a una sola categoría; la i-ésima


frecuencia absoluta simple se denota por fi .
Propiedad:

∑ fi = n, con i = 1,2,...,m.,
siendo n el número total de datos y m el número de intervalos o de categorías.

b) Acumulada:
Es el número de datos cuantitativos que son menores o iguales que cierto
valor de X; se denota por Fi y representa la frecuencia absoluta acumulada
de la i-ésima clase. En particular, para la r-ésima clase, tenemos:

Fr = ∑ fi , i = 1, 2, ..., r

B) FRECUENCIA RELATIVA:
Es la proporción de veces que se repite un dato o un conjunto de datos.
Igualmente, puede ser:
a) Simple:
Denotada por hi y obtenida como
hi = fi /n.

Propiedades:

(i) 0 ≤ hi ≤ 1, i = 1,2,...,m.

(ii) ∑ hi = 1, con i = 1,2,...,m.


b) Acumulada:
Se denota por Hi y se calcula por
Hi = Fi /n.
Propiedad:
Hm = 1 (la frecuencia relativa acumulada del último intervalo es igual a 1).

C) FRECUENCIA PORCENTUAL:
Es el porcentaje de veces en que se repite un dato o un conjunto de datos. Las
propiedades de las frecuencias porcentuales son similares a las de las frecuencias
relativas. Una frecuencia porcentual puede ser:
a) Simple:
Denotada por hi% y obtenida como

W. Díaz, E. García, N. Rodríguez, F. Córdova


18

hi% = hi(100%).
b) Acumulada:
Se denota por Hi% y se obtiene como
Hi% = Hi (100%).

PASOS PARA CONSTRUIR UNA TABLA DE FRECUENCIAS EN

INTERVALOS DE CLASE

Partes de una tabla o cuadro:

Antes de dar los pasos para construir una tabla de distribución de frecuencias, es conveniente

indicar que toda tabla tiene las siguientes partes:

• Título: debe contener individuos, variable, lugar y tiempo. Si en un informe


estadístico se van a presentar varias tablas, éstas deben ser enumeradas (Tabla 1,
Tabla 2, …). Ejemplo: Distribución de 80 compresoras, según consumo de energía-
Trujillo 2020.
Tabla 1. Distribución de estudiantes de Ingeniería Mecánica, según su estatura.

Trujillo-Junio 2021.

• Cuerpo: Es la tabla (o cuadro) propiamente dicha (o).


• Fuente: Es el lugar de donde se ha obtenido la información. Ejemplos (datos que
proporcionan los ingenieros mecánicos acerca de sus tiempos de servicio, Escuela
Académico Profesional de Ingeniería Mecánica, Ministerio de Energía y Minas,
Organización Mundial de la Salud).

Supuestos para construir una tabla:

X: variable cuantitativa (numérica).

W. Díaz, E. García, N. Rodríguez, F. Córdova


19

k: número máximo de cifras decimales de los datos.

Ejemplos:

(1) X: 5, 8, 8, 10, 3, 3 (k=0).


(2) X: 18.4, 18.9, 15, 16.4, 15.4, 14 (k=1).
(3) X: 1.65, 1.70, 1.81, 1.81, 1.59, 1.58 (k=2).
Intervalos: regulares, semiabiertos por la derecha.

n: número de datos.

Los PASOS serán aplicados al siguiente

EJEMPLO:

Los siguientes datos corresponden al salario promedio diario (en nuevos soles) de un conjunto

de ingenieros mecánicos, en el año 2020 (datos hipotéticos):

174 159 158 166 161 143 187 165 163 154 174 185 152

178 162 175 178 194 172 179 186 164 159 181 143 173

183 165 172 174 163 173 169 171 177 172 195 144 178

189 167 184 153 172 177 178 179 175 173 164 163 184

Construir una tabla de frecuencias en intervalos regulares semiabiertos por la derecha:

Se tiene la siguiente información:

W. Díaz, E. García, N. Rodríguez, F. Córdova


20

X: Salario promedio diario de cada ingeniero mecánico; todos sus valores son números enteros

Unidades de observación: ingenieros mecánicos

k=0 (como todos los datos son números enteros, el número máximo de cifras decimales de los

datos es igual a 0).

n=52

PASOS:

a. Cálculo del rango ( R ):

R = Xmáx - Xmín,

siendo Xmáx el dato máximo y Xmín el dato mínimo de los datos.

R = Xmáx - Xmín = 195 – 143 = 52

R = 52

b. Determinación del número de intervalos (m):

Uno de los criterios más utilizados para hallar el valor de m consiste en aplicar la fórmula

de Sturges siguiente:

W. Díaz, E. García, N. Rodríguez, F. Córdova


21

m = 1 + 3.32 log(n),

donde “log” significa logaritmo decimal y n representa el número de datos.

m = 1 + 3.32 log(n) = 1 + 3.32 log(52) = 6.70 ≈ 7

m=7

c. Cálculo de la amplitud interválica ( c ):

R
c=
m

Si el valor de c tiene más cifras decimales que k, debe tenerse en cuenta las siguientes

recomendaciones:

c.1. El valor de c debe redondearse por exceso, a un número con k cifras decimales.

R 52
c= = = 7.43 ≈ 8 (como k=0, el valor de c debe tener 0 cifras decimales y, por
m 7

lo tanto, c=7.43 se ha redondeado por exceso a c = 8).

c=8

W. Díaz, E. García, N. Rodríguez, F. Córdova


22

Nota:

Para cualquier intervalo semiabierto por la derecha, el límite superior (LS) se puede

obtener así:

LS = LI + c

c.2. Calcular el Nuevo Rango (RN), (puesto que “c” ha sido redondeado por exceso. Si no

hubiera sido necesario redondear a “c” por exceso, no es necesario calcular el Rango

Nuevo):

RN = cm

RN = cm = 8(7) = 56

RN = 56

c.3. Calcular la diferencia, D (puesto que “c” ha sido redondeado por exceso. Si no hubiera

sido necesario redondear a “c” por exceso, no es necesario calcular la diferencia “D”).

D = RN – R

D = RN – R = 56 - 52 = 4

W. Díaz, E. García, N. Rodríguez, F. Córdova


23

D=4

c.4. Calcular la cantidad, D*(puesto que “c” ha sido redondeado por exceso. Si no hubiera

sido necesario redondear a “c” por exceso, no es necesario calcular el valor de D*).

D
• D* = , si D termina en dígito par, o
2
D − 10 − k
• D* = , si D termina en dígito impar
2
En nuestro caso, D* = 4 termina en dígito par, por lo tanto:

D 4
D* = = =2
2 2

D* = 2

Nota.- Si el valor de c es exacto con k cifras decimales, ir al siguiente paso.

d. Determinación de los intervalos de clase:


Se obtienen como se muestra en la siguiente tabla:

W. Díaz, E. García, N. Rodríguez, F. Córdova


24

No. de

Intervalo Intervalos de clase

(i)
[LIi = X´i-1, LSi = X´i)

1 [LI1 , LS1 = LI1+ c)

2 [LI2 = LS1 , LS2 = LI2 + c

. .

. .

. .

m [LIm , LSm = LIm + mc)

Puesto que los intervalos son regulares, bastará con calcular LI1, ya que el LI de cualquier

intervalo es igual al LS del intervalo anterior. El valor de LI1 se obtiene mediante cualquiera

de las dos siguientes alternativas:

1°) LI1 = Xmín, si c no se redondea por exceso (o, cuando c es número exacto, con k cifras

decimales).

2°) LI1 = Xmín – D*, si c se ha redondeado por exceso.

Si el valor de c es exacto, el último intervalo debe considerarse cerrado.

W. Díaz, E. García, N. Rodríguez, F. Córdova


25

En nuestro ejemplo, el valor de c ha sido redondeado por exceso, por tanto, estamos en la

2ª alternativa, con lo cual se tiene:

Xmín = 143, D* = 2, c = 8,

LI1 = Xmín – D* = 143 – 2 = 141,

LI1 = 141,

los intervalos de clase son los siguientes:

No. de

Intervalo Intervalos de clase

(i)
[LIi = x´i-1, LSi = x´i)

1 [141,141+8) = [141,149)

2 [149,149+8) = [149,157)

3 [157,157+8) = [157,165)

4 [165,165+8) = [165,173)

5 [173,173+8) = [173,181)

W. Díaz, E. García, N. Rodríguez, F. Córdova


26

6 [181,181+8) = [181,189)

m=7 [189,189+8) = [189,197)

e. Determinación de las frecuencias:

Con la técnica de las “tarjas”, se obtienen (a partir de los datos originales) las frecuencias

absolutas simples(fi), correspondientes a cada intervalo y, a partir de éstas, pueden

obtenerse las demás. Cuando la variable cuantitativa toma los valores: x1 , x2 , ..., xm, con

x1 < x2 < ... < xm (no en forma de intervalos), también es posible determinar las frecuencias

consideradas anteriormente, simples y/o acumuladas.

La tabla completa queda construida como se muestra a continuación:

Tabla 1. Distribución de ingenieros mecánicos, según salario medio

Diario. Trujillo-2020.

No. de Intervalo

Intervalo de clase Tarjas fi Fi hi=fi/n Hi hi % Hi %

(i) [x´i-1, x´i)

1 141 - 149 /// 3 3 0.06 0.06 6 6

2 149 - 157 /// 3 6 0.06 0.12 6 12

3 157 - 165 .…… 10 16 0.19 0.31 19 31

4 165 - 173 ……. 10 26 0.19 0.50 19 50

W. Díaz, E. García, N. Rodríguez, F. Córdova


27

5 173 – 181 ……. 16 42 0.31 0.81 31 81

6 181 – 189 ……. 7 49 0.13 0.94 13 94

7 189 - 197 ……. 3 52 0.06 1.00 6 100

TOTAL n= 52 1.00 100

Fuente: Datos hipotéticos

A continuación, en la siguiente tabla, se presenta, para una mejor comprensión, la clasificación

de las frecuencias:

Clases de frecuencias Frecuencias Frecuencias Frecuencias

absolutas relativas porcentuales

Sim- Acumu- Sim- Acumu- Sim- Acumu-

ples ladas
ples ladas ples ladas

No. de Intervalo

Intervalo de clase Tarjas fi Fi hi=fi/n Hi hi % Hi %

(i) [x´i-1, x´i)

El proceso para calcular los valores de las frecuencias absolutas simples (fi), mediante las

“tarjas”, lo ilustramos para el primer intervalo (el mismo criterio de utiliza para los demás

intervalos).

Intervalo 1: 141 – 149 (///). Hay 3 datos (salaries) que pertenecen a este intervalo

W. Díaz, E. García, N. Rodríguez, F. Córdova


28

Ejemplos del cálculo de algunas frecuencias:

F2 = f1 + f2 = 3 + 3= 6

F2 = f2 + F1 = 3 + 3 = 6

f 3 10
h3 = = = 0.19
n 52

H5 = h5 + H4 = 0.31 + 0.50 = 0.81

H5 = h1 + h2 + h3 + h4 + h5 = 0.06 + 0.06 + 0.19 + 0.19 +0.31 = 0.81

h4% = h4(100) = 0.19(100) = 19%

H3% = H3(100) = 0.31(100) = 31%

INTERPRETACION:

Con la finalidad de entender la interpretación de las frecuencias, reproducimos la tabla

completa, construida anteriormente:

Tabla 1. Distribución de ingenieros mecánicos, según salario medio

Diario. Trujillo-2020.

W. Díaz, E. García, N. Rodríguez, F. Córdova


29

No. de Intervalo

Intervalo de clase Tarjas fi Fi hi=fi/n Hi hi % Hi %

(i) [x´i-1, x´i)

1 141 - 149 /// 3 3 0.06 0.06 6 6

2 149 - 157 /// 3 6 0.06 0.12 6 12

3 157 - 165 .…… 10 16 0.19 0.31 19 31

4 165 - 173 ……. 10 26 0.19 0.50 19 50

5 173 – 181 ……. 16 42 0.31 0.81 31 81

6 181 – 189 ……. 7 49 0.13 0.94 13 94

7 189 - 197 ……. 3 52 0.06 1.00 6 100

TOTAL n= 52 1.00 100

Fuente: Datos hipotéticos

• La mayoría de ingenieros mecánicos tiene un salario promedio diario comprendido


entre 173 y menos de 181 nuevos soles. Esta afirmación se debe a que f5 = 16 es
mayor que las demás frecuencias absolutas simples.
• 16 ingenieros mecánicos tienen un salario medio diario inferior a 165 nuevos soles.
(F3 = 16).
• La proporción de ingenieros mecánicos, cuyo salario medio por día está
comprendido entre 165 y menos de 173 nuevos soles, es igual a 0.19. (h4 = 0.19).
• Una proporción de ingenieros mecánicos igual a 0.50 tiene un salario medio diario
por debajo de los 173 nuevos soles. (H4= 0.50).
• Sólo el 6% de los ingenieros mecánicos tiene un salario medio diario menor a 197
nuevos soles. (h6 % = 6%).
• El 81% de los ingenieros mecánicos tiene un salario medio por día inferior a los 181
nuevos soles. (H5 % = 81%).

Determinación de frecuencias absolutas simples con EXCEL:

W. Díaz, E. García, N. Rodríguez, F. Córdova


30

1° Digitar los n datos en cualquier columna (por ejemplo, en la Columna A). Encabezar a esta

columna con “Datos”.

2° En otra columna (digamos, la Columna B), digitar los límites superiores de los intervalos

cerrados de la tabla. Encabezar a esta columna con “Grupos”.

3° Seleccionar otra columna, del mismo tamaño que la del paso 2° (por ejemplo, la Columna C),

y escribir en la primera celda de dicha columna la siguiente expresión:

=Frecuencia(Datos; Grupos)

y, a continuación, presionar las teclas Ctrl Shift Enter, simultáneamente. Tanto “Datos” como

“Grupos” se seleccionan con el cursor. “Aparecerán en la columna seleccionada las

frecuencias absolutas simples (fi). Encabezar a esta columna con “Frecuencia”.

El proceso anterior, se realiza en una hoja de cálculo de Excel, quedando de la siguiente forma:

A B C D

1 Datos Grupos Frecuencia

2 174 148 =Frecuencia(Datos; Grupos)

3 159 156

4 158 164

5 166 172

W. Díaz, E. García, N. Rodríguez, F. Córdova


31

6 161 180

. . .

. . .

. . .

53 184

[Intervalos) [Intervalos cerrados]

141 – 149 141 - 148

149 – 157 149 - 156

157 – 165 157 - 164

165 – 173 165 - 172

173 – 181 173 - 180

181 – 189 181 - 188

189 – 197 189 - 196

CUADROS DE DISTRIBUCIÓN DE FRECUENCIAS PARA

VARIABLES CUALITATIVAS

Cuando la variable es de tipo cualitativo, solamente podemos calcular frecuencias simples

(absolutas, relativas o porcentuales).

W. Díaz, E. García, N. Rodríguez, F. Córdova


32

Ejemplo:

Campos laborales de 36 ingenieros mecánicos en el año 2015 (MA: Mantenimiento; PR:

Producción, PY: Proyectos; AE: Auditorías energéticas; DM: Diseño Mecánico)-Trujillo.

MA MA PR PY PY PY PY MA MA AE DM PR PY MA AE PR AE PY MA MA AE MA

MA PY DM PY MA MA MA PY PY AE DM PR AE PY

Al construir un cuadro de distribución de frecuencias absolutas simples, tenemos:

Tabla 2. Distribución de ingenieros mecánicos,

según campo laboral (Trujillo-2015)

Campo laboral Número de ingenieros mecánicos

MA 12

PR 4

PY 11

AE 6

DM 3

TOTAL 36

Datos hipotéticos

W. Díaz, E. García, N. Rodríguez, F. Córdova


33

INTERPRETACIÓN:

El número de ingenieros mecánicos cuyo campo laboral es el Mantenimiento (MA) es igual

a 12.

CONJUNTO DE EJERCIOS N° 5

1. Los siguientes cuadros están incompletos. Complételos, proponiendo otros ejemplos en el


campo de la ingeniería mecánica.

a. Ejemplos de variable continua:

Variable continua Unidad de Unidades Campo de aplicación Algunas

medida elementales observaciones

1. Gasto anual en Soles Motores Ing. Mecánica 258, 370, 180, 50

limpieza

2.
Ing. Mecánica

3.
Ing. Mecánica

4.
Ing. Mecánica

W. Díaz, E. García, N. Rodríguez, F. Córdova


34

5. Ing. Mecánica

f. Ejemplos de variable discreta:

Variable discreta Unidades Campo de Algunas

elementales aplicación observaciones

1. No. de hijos Docentes Ing. Mecánica 2, 3, 0, 8, 5


2.
3.
Ing. Mecánica
4.
5.
Ing. Mecánica

Ing. Mecánica

Ing. Mecánica

g. Ejemplos de variable cualitativa:

Variable cualitativa Categorías Unidades Campo de Algunas

elementales aplicación observaciones

W. Díaz, E. García, N. Rodríguez, F. Córdova


35

1. Sexo Hombre (H), Pacientes General M, M, H, M, H,

Mujer (M) M, M, H
2.
Ing. Mecánica

Ing. Mecánica

Ing. Mecánica
3.

4.

2. Recolectar conjuntos de datos de su especialidad, indicando: Nombre de variable,


unidad de medida de la variable, unidades elementales, observación máxima posible
(para variables cuantitativas), observación mínima posible (para variables cuantitativas),
categorías (para variables cualitativas).

3. Recolecte un conjunto de datos cuantitativos en el campo de la Ingeniería Mecánica y


construya un cuadro de distribución de frecuencias, realizando la respectiva
interpretación.

4. Proporcione 2 ejemplos de universo en su especialidad.

5. Proporcionar 2 ejemplos de población en su especialidad.

6. Proporcionar 2 ejemplos de muestra en su especialidad.

7. La siguiente información corresponde a los postulantes del Área C de la Universidad


Nacional de Trujillo, que rindieron su Examen de Admisión el día sábado 15 de marzo de
2008, obtenida de sus documentos de identificación de postulante y registrada durante
el proceso de inscripción.

A. ESTATURA Y PESO, SEGÚN SEXO:

MUJERES

W. Díaz, E. García, N. Rodríguez, F. Córdova


36

Postulante 1 2 3 4 5 6 7 8 9 10 11 12 13

Peso (Kg.) 52.6 52.4 50.4 69.7 45.0 57.6 46.7 51.8 72.1 57.4 45.1 50.9 56.5

Estatura (m.) 1.55 1.47 1.48 1.52 1.50 1.65 1.52 1.51 1.55 1.54 1.52 1.52 1.52

Postulante 14 15 16 17 18 19 20 21 22 23 24 25 26

Peso (Kg.) 49.8 52.4 48.7 53.3 58.2 53.2 52.6 65.3 49.5 51.3 62.3 64.5 63.0

Estatura (m.) 1.60 1.53 1.59 1.64 1.54 1.56 1.61 1.57 1.54 1.45 1.56 1.55 1.44

Postulante 27 28 29 30 31 32 33 34 35 36 37 38 39

Peso (Kg.) 61.2 55.2 60.8 55.4 56.4 51.8 53.2 54.7 61.5 66.4 55.0 43.3 57.8

Estatura (m.) 1.52 1.57 1.54 1.56 1.54 1.59 1.63 1.56 1.66 1.58 1.60 1.49 1.52

Postulante 40 41

Peso (Kg.) 55.5 69.9

Estatura (m.) 1.46 1.67

HOMBRES

Postulante 1 2 3 4 5 6 7 8 9 10 11 12 13

Peso (Kg.) 58.6 65.3 59.9 55.9 57.5 56.9 58.5 81.7 66.2 55.1 47.1 59.9 73.1

W. Díaz, E. García, N. Rodríguez, F. Córdova


37

Estatura (m.) 1.63 1.67 1.66 1.67 1.54 1.64 1.68 1.79 1.72 1.61 1.53 1.65 1.60

Postulante 14 15 16 17 18 19

Peso (Kg.) 99.1 63.9 65.1 57.1 60.1 70.2

Estatura (m.) 1.78 1.53 1.67 1.62 1.67 1.64

B. NÚMERO DE POSTULANTES SEGÚN DOCUMENTO DE IDENTIDAD DURANTE EL EXAMEN DE

ADMISIÓN:

LM (18), DNI (25), BOLETA (13), PARTIDA DE NACIMIENTO (4)

C. NÚMERO DE POSTULANTES, POR ESPECIALIDAD Y SEXO:

ANTROPOLOGÍA (2 postulantes: 1 MUJER, 1 HOMBRE)

DERECHO (32 postulantes: 20 MUJERES, 12 HOMBRES)

EDUCACIÓN SECUNDARIA (8 postulantes: 6 MUJERES, 2 HOMBRES)

TRABAJO SOCIAL (5 postulantes: 5 MUJERES, 0 HOMBRES)

TURISMO (5 postulantes: 4 MUJERES, 1 HOMBRE)

EDUCACIÓN INICIAL (1 postulante: 1 MUJER, 0 HOMBRES)

W. Díaz, E. García, N. Rodríguez, F. Córdova


38

EDUCACIÓN PRIMARIA (2 postulantes: 1 MUJER, 1 HOMBRE)

CIENCIAS DE LA COMUNICACIÓN (5 postulantes: 3 MUJERES, 2 HOMBRES)

Construya un cuadro unidimensional de frecuencias en intervalos semiabiertos por la

derecha para:

a) el peso de los hombres.


b) la estatura de las mujeres.
c) Construya los gráficos más adecuados para representar la información resumida en los
cuadros anteriores, de los ítems a), b).

REPRESENTACIONES GRÁFICAS

Además de presentar la información a través de tablas o cuadros, también se la puede

representar mediante gráficos, los cuales sirven para visualizarla de un modo más claro.

Todo gráfico tiene las mismas partes que una tabla: título, cuerpo (el gráfico propiamente dicho)

y fuente. Si en un informe estadística se van a presentar dos o más gráficos, éstos deben ir

enumerado. Por ejemplo: Gráfico 1, Gráfico 2, etc.

Existen muchos gráficos estadísticos para este propósito. A continuación se presenta aquéllos

que se utilizan con mucha frecuencia en la investigación, como son: el histograma de

frecuencias, el gráfico circular, el gráfico de barras y el gráfico de series de tiempo.

A. HISTOGRAMA DE FRECUENCIAS:

En la siguiente figura (Figura 1) se muestra un histograma de las 50 demandas de cierto


tipo de alicate (donde, en el eje de las abscisas deben ir los límites interválicos, pero en

W. Díaz, E. García, N. Rodríguez, F. Córdova


39

esta Figura 1 se han colocado las marcas de clase de cada intervalo), generadas de esta
forma, el que puede realizarse con ayuda de Excel, cuyo procedimiento se describe
inmediatamente después de dicha figura.

• El histograma de frecuencias se utiliza para representar, gráficamente, la


información de una variable cuantitativa.
• Para construirlo, en el eje de las abscisas se colocan los límites de los
intervalos de clase (la variable) y en el eje de las ordenadas van las
frecuencias simples (absolutas, relativas o porcentuales).
• El histograma de frecuencias está conformado por un conjunto de rectángulos
perpendiculares al eje de las abscisas (o paralelos al eje de las
ordenadas), con un ancho igual a la amplitud interválica y su longitud (largo)
es proporcional a la respectiva frecuencia simple. Los rectángulos deben ir
uno a continuación del otro (no deben existir espacios entre ellos).

20 - 19
18 -
16
16 -

14 -
Frecuenci

12 -

10 -

8 - 6
5
6 - 4

4 -

0 1 2 3 4
Demanda

Figura 1
CONSTRUCCIÓN DE UN HISTOGRAMA DE FRECUENCIAS CON EXCEL
1) Ingreso de datos en dos columnas cualesquiera (por ejemplo, pueden ser las
columnas A y B), como se muestra en el siguiente ejemplo, donde la variable es
el consumo de energía de 10 compresoras (en Kw) durante cierto período de uso
y las frecuencias absolutas simples, fi, (también podría utilizarse las frecuencias
relativas simples o las frecuencias porcentuales simples) corresponden al
“Número de compresoras” (Datos hipotéticos). Supongamos que dichas columnas
de Excel son “A” y “B”.

Tabla 1. Distribución de 10 compresoras, de acuerdo


al consumo de energía. Trujillo-Marzo 2021

W. Díaz, E. García, N. Rodríguez, F. Córdova


40

A B
[Consumo de N° de compresoras:
energía) (fi)
De 4 a menos de 6 2
De 6 a menos de 8 1
De 8 a menos de 10 5
De 10 a menos de 12 2

Datos hipotéticos

2) Seleccionar los contenidos de ambas columnas (sin los encabezados), así:

A B
[Consumo de N° de compresoras:
energía) (fi)
De 4 a menos de 6 2
De 6 a menos de 8 1
De 8 a menos de 10 5
De 10 a menos de 12 2

3) Insertar/Gráficos recomendados/Seleccionar el gráfico con rectángulos


verticales separados/Aceptar. (Aparece el gráfico por defecto, con
rectángulos separados).
4) Clic izquierdo fuera del gráfico mostrado en el paso 3).
5) Doble clic izquierdo en cualquier rectángulo. (Se marcan las esquinas de los
rectángulos con círculos pequeños).
6) En OPCIONES DE SERIE digitar, con el teclado, 0% en Ancho del Intervalo.
7) Clic izquierdo fuera del gráfico (se exhibe el histograma).
8) Clic izquierdo dentro del histograma.
9) Clic izquierdo en signo + (ubicado a la derecha del gráfico).
10) Activar con aspa “Ejes”, “Títulos de ejes”, “Título del gráfico” y “Etiquetas
de datos”.
11) Editar lo que está en 10), dando nombre a ejes y título al gráfico.
Ejecutando estos pasos se obtiene el gráfico que sigue a continuación:

W. Díaz, E. García, N. Rodríguez, F. Córdova


41

Distribución de compresoras según consumo de


energía-Trujillo-Marzo 2021
6
5
Número de compresoras 5

3
2 2
2
1
1

0
[4 , 6) [6 , 8) [8 , 10) [10 , 12)
Consumo de energía (Kw)

Fuente: Datos hipotéticos

Interpretación: La mayoría de las compresoras (5) ha consumido entre 8 y menos


de 10 Kw de energía. Entre 6 y 8 Kw de energía ha consumido solamente una
compresora.

Ejercicio: Utilice Excel para construir un histograma de frecuencias con la


siguiente información, correspondiente a la antigüedad de los motores de ITM-
Trujillo-2021:

Distribución porcentual de motores, de acuerdo


a su antigüedad. Trujillo-mayo 2021
Antigüedad de % de motores
motores (años) (hi%)
8 a menos de 18 15
18 a menos de 28 10
28 a menos de 38 50
38 a menos de 48 12
48 a menos de 58 8
58 a menos de 68 5
Fuente: Datos hipotéticos

B. GRÁFICO DE BARRAS SIMPLES

El gráfico de barras simples se utiliza para representar la información referente a


una variable cualitativa.
Para construirlo, se utiliza el plano cartesiano. En el eje de las abscisas se coloca
las categorías de la variable cualitativa y en el eje de las ordenadas van las
frecuencias simples (absolutas, relativas o porcentuales). A partir de cada
categoría se levanta un rectángulo (o barra), cuya altura es proporcional a la

W. Díaz, E. García, N. Rodríguez, F. Córdova


42

frecuencia simple de la categoría y el ancho es homogéneo para todos ellos. Por


lo general, los rectángulos deben diferenciarse de algún modo, por ejemplo, según
tipo de sombreado o, simplemente, por color.

CONSTRUCCIÓN DE UN GRÁFICO DE BARRAS SIMPLES CON


EXCEL

1) Ingreso de datos en dos columnas cualesquiera (por ejemplo, en las columnas A


y B), como por ejemplo:

A B
Variable (categorías) Frecuencias simples
Cat. 1 8
Cat. 2 3
… …

2) Seleccionar los contenidos de ambas columnas, incluyendo los encabezados.,


tal como puede ilustrarse a continuación:

A B
Variable (categorías) Frecuencias simples
Cat. 1 8
Cat. 2 3
… …

3) Insertar/Gráficos recomendados.
4) Seleccionar el gráfico de barras/Aceptar.
5) Clic izquierdo en + (ubicado en parte superior, a la derecha del gráfico).
6) Marcar Título, ejes, etiquetas de datos.
7) Colocar título a gráfica y nombrar ejes.
8) Clic izquierdo en cualquier rectángulo (se marcan todos los rectángulos, con
círculo pequeños).
9) Clic izquierdo sobre el rectángulo que se desea cambiar de color (se marcará sólo
el rectángulo que se desea cambiar de color).
10) Clic derecho/Relleno/Dar el color deseado y repetir los pasos 6), 7) y 8) para los
demás rectángulos.

Ejemplo:
Los siguientes datos corresponden al número de personas fallecidas por Coronavirus
en el Perú, durante los 5 últimos días del mes de junio de 2020. (Fuente: elaboración
propia, utilizando los comunicados del MINSA N°s: 146, 147, 149, 151, 152 y 153):

W. Díaz, E. García, N. Rodríguez, F. Córdova


43

Tabla 2. Número de personas fallecidas por Coronavirus en el Perú, durante los 5


últimos días del mes de junio de 2020

Fecha N° de fallecidos
26/06/2020 178
27/06/2020 196
28/06/2020 182
29/06/2020 187
30/06/2020 173
Elaboración propia, utilizando comunicados del MINSA
N°s: 146, 147, 149, 151, 152 y 153

Figura 2.
N° de fallecidos por coronavirus-Perú 2020
200 196
195
Número de fallecidos

190 187
185 182
180 178

175 173

170
165
160
26/06/2020 27/06/2020 28/06/2020 29/06/2020 30/06/2020
Fecha

Elaboración propia. Comunicados MINSA N°s: 146, 147, 149, 151, 152 y 153

Interpretación: El día donde se produjo más fallecidos fue el 27/06/2020; en


tanto que el 30/06/2020 falleció el menor número de personas. (Cabe resaltar que
el gráfico de barras, también se lo puede construir, manualmente. En esta
ocasión, el gráfico anterior se lo ha construido utilizando el programa EXCEL).

W. Díaz, E. García, N. Rodríguez, F. Córdova


44

C. GRÁFICO CIRCULAR

Además del gráfico de barras, el gráfico circular (llamado también: gráfico de


sectores circulares o gráfico de pastel) constituye también, una alternativa para
representar la información de una variable cualitativa.

Su construcción se realiza sobre una circunferencia, con tantos sectores


circulares como categorías tenga la variable cualitativa. Los grados
sexagesimales de cada sector circular se obtienen mediante una regla de tres
simple, tomando como base que la totalidad de la circunferencia tiene 360 grados.
El área de cada sector circular es proporcional a la frecuencia simple de la
categoría correspondiente.

CONSTRUCCIÓN DE UN GRÁFICO CIRCULAR CON EXCEL

1) Ingreso de datos en dos columnas cualesquiera, como por ejemplo:

A B
Variable (categorías) Frecuencias simples (hi)
A 8
B 3
… …

2) Seleccionar los contenidos de ambas columnas, incluyendo los encabezados. (De


manera semejante al del gráfico de barras simples).
3) Insertar/Gráficos recomendados/Seleccionar el gráfico circular/Aceptar. (Se
exhibe el gráfico circular, con las categorías diferenciadas por color).
4) Clic en + (ubicado en parte superior, a la derecha del gráfico).
5) Marcar Título del gráfico, ejes, Etiquetas de datos, Leyenda.
6) Clic fuera del gráfico.
7) Colocar título a gráfica.

Ejemplo:

Utilizando EXCEL, se puede construir un gráfico circular, mediante la información


contenida en el Ejemplo utilizado en el Gráfico de Barras, acerca del Número de
fallecidos durante los últimos 5 días del mes de Junio de 2020.

W. Díaz, E. García, N. Rodríguez, F. Córdova


45

Figura 3. N° diario de fallecidos por Coronavirus,


del 26 al 30 de junio de 2020-Perú

173 178

187 196

182

26/06/2020 27/06/2020 28/06/2020 29/06/2020 30/06/2020

Fuente: Comunicados del MINSA N°s: 146, 147, 149, 151, 152 y 153

Interpretación: Le corresponde la misma interpretación que a la del gráfico de barras.

Cuando se construye manualmente un gráfico circular, los grados sexagesimales de cada


sector circular se obtienen utilizando una regla de tres simple. Por ejemplo, a la
categoría “29/06/2020” (187 fallecidos) le corresponde 73.5°, tal como puede ilustrarse
a continuación, mediante la aplicación de una regla de tres simple:

916 fallecidos ---------- 360 grados sexagesimales


187 fallecidos ---------- x

x = (187)(360)/916 = 73.5

Esto se puede observar en la siguiente tabla, para la categoría 29/06/2020. De igual


modo, se puede calcular los grados sexagesimales para las demás categorías.

Fecha N° de Grados Porcentaje


fallecidos sexagesimales (%)
26/06/2020 178 19.43
27/06/2020 196 21.40
28/06/2020 182
29/06/2020 187 73.5
30/06/2020 173
Total 916 360 100

W. Díaz, E. García, N. Rodríguez, F. Córdova


46

CONJUNTO DE EJERCICIOS N° 6

1. Dada la tabla anterior, que está incompleta, obtener los demás grados sexagesimales
para las demás categorías. Luego, construya un gráfico circular, utilizando el
porcentaje de fallecidos en cada día, considerando como 100% a la totalidad de ellos
(916), para lo cual ha sido agregada una columna adicional a la tabla precedente.
(Dichos porcentajes también se obtienen mediante una regla de tres simple).
2. Proponga un ejemplo de utilización de los gráficos estudiados (hasta el momento) en
el campo de la Ingeniería Mecánica.
3. Recolecte un conjunto de datos cuantitativos en el campo de Ingeniería Mecánica y
construya una tabla de distribución de frecuencias en intervalos semiabiertos por la
derecha. Interprete los rasgos más sobresalientes de la misma. Luego, construya un
histograma de frecuencias.

D. GRÁFICO DE SERIES DE TIEMPO

El gráfico de series de tiempo, conocido también con los nombres de gráfico lineal,
gráfico de líneas, gráfico de series cronológicas o gráfico de series temporales,
se utiliza cuando la variable es cuantitativa y sus n valores (xi) ocurren a través
de n períodos de tiempo (ti) (por ejemplo, de modo diario, semanal, mensual, anual,
etc.), donde i = 1, 2, …, n.

El gráfico de series de tiempo se construye sobre el eje cartesiano, colocando en el


eje de las abscisas los períodos de tiempo y en el eje de las ordenadas los valores
de la variable cuantitativa considerada. Finalmente, los n puntos bidimensionales
(ti, xi), i = 1, 2, …, n, se unen mediante una línea poligonal. Al igual que los demás
gráficos, el gráfico de series de tiempo se lo puede construir, manualmente.

Ejemplo:

El siguiente gráfico corresponde a uno de series de tiempo (construido con el


programa estadístico MINITAB), donde la información tabular toma la forma
siguiente, en que se ha considerado como variable el porcentaje diario de casos
confirmados por coronavirus (datos del Perú, durante la aparición del Coronavirus-
Covid 19. La información de las líneas punteadas se encuentran en el gráfico mismo
):

Porcentaje diario de casos de coronavirus


en el Perú, entre el 16 de marzo y el 01 de abril de 2020

Porcentaje de casos Día


(Xi) (ti)
3 16/03/2020
6 17/03/2020
10 18/03/2020

W. Díaz, E. García, N. Rodríguez, F. Córdova


47

12 19/03/2020
6 20/03/2020
. .
. .
. .
13 30/03/2020
11 31/03/2020
23 01/04/2020
Fuente: Elaboración propia con comunicados
del MINSA

Figura 4.

W. Díaz, E. García, N. Rodríguez, F. Córdova


48

PORCENTAJE DIARIO DE CASOS DE CORONAVIRUS. PERÚ-MARZO 2020


(Con respecto al número diario de muestras analizadas)
25
23
Porcentaje diario de casos
20

15
13
12
11
10 10
10
8 8
6 6 7
6 6 6
5 4 4
3

Día (Marzo-Abril) 17 19 21 23 25 27 29 01
Mes Mar Abr
Año 2020
ELABORACIÓN PROPIA

Interpretación:
El 01 de Abril de 2020 se produjo el mayor porcentaje de casos de Coronavirus
(23%), mientras que el día 16 de Marzo de 2020 se presentó el menor porcentaje
de casos confirmados (3%). A partir del día 28 de Marzo se aprecia una tendencia
ascendente del porcentaje de casos positivos, aunque el día 31 de Marzo se
produjo una ligera disminución de este porcentaje (bajó al 11%).

CONJUNTO DE EJERCICIOS N° 7

1. Recolecte información apropiada, correspondiente a una variable cuantitativa, de


uso en el campo de la Ingeniería Mecánica y que suceda en períodos de tiempo
regulares (diario, semanal, mensual, anual, etc.). Luego construya un gráfico de
series de tiempo, interpretando los rasgos más sobresalientes del mismo.
2. Dada la siguiente información, correspondiente a la industria automotriz,
relacionada con el tiempo (en segundos) de ciclo de pistón, con factores de
control ajustados en 50 niveles mínimos (un pistón es un dispositivo mecánico
presente en muchos tipos de motores):
1.008 1.117 0.437 0.531 1.069 0.200 0.664 1.118 0.302 1.088 0.287
1.132 0.348 1.141 0.449 0.423 1.080 0.224 1.095 0.275 0.330 0.215
1.098 0.319 0.280 0.187 1.080 0.175 0.271 0.179 1.068 0.586 0.213
0.662 1.009 0.628 1.021 1.057 1.107 0.314 1.084 0.560 1.069 0.339
0.489 1.120 0.206 0.482 1.056 0.431
a) Construya una tabla de distribución de frecuencias en intervalos semiabiertos
por la derecha de los tiempos de ciclo. Interprete.
b) Con la tabla elaborada en el inciso a), construya un histograma de frecuencias,
utilizando frecuencias relativas simples. Interprete.

W. Díaz, E. García, N. Rodríguez, F. Córdova


49

3. Construya e interprete un gráfico de series de tiempo, utilizando la siguiente


información, relacionada con covid-19 en nuestro país (obtenida con los
comunicados del MINSA):
a)
Fecha Porcentaje diario de casos positivos
15/04/21 11.55
16/04/21 10.89
17/04/21 11.67
18/04/21 11.64
19/04/21 17.95
20/04/21 13.30
21/04/21 11.41

b)

Fecha Porcentaje diario de casos positivos


10/06/21 6.37
11/06/21 7.07
12/06/21 3.80
13/06/21 8.28
14/06/21 14.15
15/06/21 8.03
16/06/21 6.58
17/06/21 6.25
18/06/21 6.71

MEDIDAS ESTADÍSTICAS
Una tercera forma de presentar la información (recordemos que, hasta este momento,
hemos visto que ésta se puede presentar en forma de tablas o cuadros y, gráficamente)
es a través de medidas estadísticas.

Una medida estadística es un valor que representa a la totalidad de los datos. Existen
muchas medidas estadísticas. A continuación describimos las siguientes, por tener
mucha aplicación: medidas de posición (llamadas también medidas de tendencia
central, porque se posicionan o se ubican en la parte central de los datos: media,
mediana, moda) y las medidas de dispersión (o medidas de variabilidad, indican el
grado de variabilidad o dispersión de los datos con respecto a una medida de posición:
varianza, desviación estándar y coeficiente de variación). Todas estas medidas
corresponden al caso de una variable unidimensional cuantitativa. Pero también,
cuando la variable cuantitativa es bidimensional, nos vas a ocupar, brevemente, de la
medida estadística de asociación, conocida como coeficiente de correlación.

MEDIDAS DE TENDENCIA CENTRAL

W. Díaz, E. García, N. Rodríguez, F. Córdova


50

MEDIA

Los periódicos, las revistas y la conversación de cada día, a menudo mencionan el


“promedio” o la “media”. Por ejemplo, el número “promedio” de caries dentales en
niños de un centro educativo es de 3.4; la edad “promedio” de los estudiantes de
nuestra clase es de 19.3 años; el precio “medio” de la caja de mascarillas “3M 1860”
vendidas en un día particular por las farmacias de Trujillo es de 11.8 nuevos soles; el
nivel medio de colesterol de un paciente es de 190 mg/dl por examen; etc.

Cuando la variable cuantitativa de interés se representa por X, su media en una muestra


de n individuos se denota usualmente por x , aunque también puede utilizarse las
siguientes notaciones: E(X) ó M(X).

CÁLCULO DE LA MEDIA PARA DATOS ORIGINALES:


Si los datos están sin agrupar en intervalos (en cuyo caso, diremos que los datos son
originales), la media de los n datos se obtiene a través de la siguiente fórmula:

∑x
i =1
i
x=
n

Observación:
En general,

E ( X 2 ) ≠ [E ( X )] .
2

En el Ejemplo 3 que se proporciona más adelante, se comprueba que, efectivamente, la


desigualdad anterior se cumple. Es decir, “no siempre la media del cuadrado de una
variable X es igual al cuadrado de su media”.

Ejemplo 1:

Calcular e interpretar la media del número diario de personas infectadas con el


coronavirus y recuperadas, entre el 30 de junio y el 4 de julio de 2020 (n= 5 días): 3376,
3710, 3852, 3755, 3769 (datos originales).

Solución:

W. Díaz, E. García, N. Rodríguez, F. Córdova


51

∑x i
3376 + 3710 + 3852 + 3755 + 3769 18462
x= i =1
= = = 3692.4
n 5 5

“El número medio de personas recuperadas por día es igual a 3692.4, en el período 30
de junio-4 de julio de 2020”.

CÁLCULO DE LA MEDIA PARA DATOS AGRUPADOS EN INTERVALOS:


Si los n datos de una muestra están agrupados en intervalos regulares semiabiertos
por la derecha, la media se obtiene así:
m

∑x f i i
x= i =1

n
donde m representa el número de intervalos, xi es la marca de clase del i − ésimo
intervalo y la i − ésima frecuencia absoluta simple está representada por f i .

Ejemplo 2:

Calcular e interpretar el tiempo medio de ciclo de pistón (en segundos), con factores de
control ajustados en 100 niveles mínimos. (Un pistón es un dispositivo mecánico
presente en muchos tipos de motores):

[Tiempo de ciclo de pistón) Número de niveles mínimos (fi)


0.98 – 1.00 10
1.00 - 1.02 21
1.02 - 1.04 36
1.04 - 1.06 27
1.06 - 1.08 6
TOTAL 100

Solución:

xi fi xi f i
0.99 10 9.9
1.01 21 21.21
1.03 36 37.08
1.05 27 28.35

W. Díaz, E. García, N. Rodríguez, F. Córdova


52

1.07 6 6.42
TOTAL n=100 102.96

∑x i fi
102.96
x= i =1
= = 1.0296 .
n 100
“El tiempo medio de ciclo de pistón por cada nivel mínimo es igual a 1.0296 segundos”.

Ejemplo 3:
El número de imperfecciones encontradas en 10 placas de cerámica (utilizadas en la
fabricación de componentes híbridos), las cuales se inspeccionan visualmente, antes de
su impresión con pantalla, es: 0, 2, 0, 0, 1, 3, 0, 3, 1, 1. Calcular e interpretar el número
medio de imperfecciones por placa.
Solución:

Denotemos por X al número de imperfecciones por placa. Calculemos ahora el número


medio de imperfecciones por placa:
n 10

∑ xi ∑x i
0 + 2 + 0 + 0 + 1 + 3 + 0 + 3 + 1 + 1 11
x = E( X ) = i =1
= i =1
= = = 1.1
n 10 10 10
“el número medio de imperfecciones por placa es igual a 1.1”.

CONJUNTO DE EJERCICIOS N° 8

1. El número de estudiantes de Ingeniería Mecánica de la Universidad Nacional de


Trujillo, asistentes a 20 seminarios de Maquinaria Pesada, es: 13, 5, 13, 37, 10, 16, 2,
11, 6, 12, 8, 21, 6, 10, 4, 10, 14, 10, 3, 11. Hallar e interpretar el número medio de
estudiantes asistentes por seminario, utilizando los datos originales. (Rpta.: 11.1).

2. El contenido de cobre (en %) en 250 muestras de material de soldadura de una colada,


se exhibe a continuación:

[Contenido de cobre) Número de muestras (fi)


0.3 – 0.5 12
0.5 – 0.7 70
0.7 – 0.9 110
0.9 – 1.1 50
1.1 – 1.3 8
TOTAL 250

W. Díaz, E. García, N. Rodríguez, F. Córdova


53

Calcular e interpretar la media. (Rpta.: 0.7776%).

MEDIANA

La mediana de n datos de una variable cuantitativa X, que la denotamos por Md, es


aquel valor, por debajo del cual está, a lo más, el 50% de los datos y por encima, al
menos, dicho porcentaje.
Ejemplo 1:

[i] [1] [2] [3]


Estatura (m.) 1.00 1.50 1.60
La mediana es igual a 1.50 m.
Ejemplo 2:

[i] [1] [2] [3] [4]


Estatura (m.) 1.00 1.50 1.60 1.80
La mediana es igual a 1.55 m. (semisuma de los datos centrales, resaltados con color
amarillo).

CÁLCULO DE LA MEDIANA PARA DATOS ORIGINALES:


Una vez que los datos se han ordenado ascendentemente, la mediana (cuando los
datos están sin agrupar en intervalos; o lo que es lo mismo, cuando los datos son
originales) se obtiene, según que el número de datos, n, sea par o impar:
a) n impar:

Md = x  n +1 
 2 
 

b) n par:

x n  + x n+2 
2  2 
Md =    

donde las cantidades que están dentro de los corchetes indican el orden que ocupa el
valor de la variable X en la serie ordenada, ascendentemente, de los datos.
Ejemplo 3:

W. Díaz, E. García, N. Rodríguez, F. Córdova


54

Calcular e interpretar la mediana de los siguientes datos, correspondientes a la medición


de la emisión diaria (en toneladas) de óxido de azufre en una planta metal-mecánica,
durante 9 días: 26.4, 11.5, 18.1, 8.3, 23.5, 12.1, 22.7, 9.0, 24.3.
Solución:
n = 9 (caso a, n impar).
Ordenando los datos, de menor a mayor, tal como se muestra enseguida:

[i ] [1] [2] [3] [4] [5] [6] [7] [8] [9]


x[i ] 8.3 9 11.5 12.1 18.1 22.7 23.5 24.3 26.4

La mediana se ubica en la parte central de los datos, de manera exacta, cuando n es


impar:

Md = x  n+1  = x  9+1  = x 10  = x[5] = 18.1 .


 2   2  2
     

“La emisión diaria máxima de óxido de azufre por la planta metal-mecánica en la mitad
de los días es igual 18.1 toneladas”. También se puede interpretar del siguiente modo:
“En la mitad de los días, la planta metal-mecánica emitió menos de 18.1 toneladas de
óxido de azufre”.

Ejemplo 4:
Calcular e interpretar la mediana de los siguientes datos, correspondientes a la tasa (%)
de trabajadores mecánicos con necesidad de atención oftalmológica en 6 tallares
mecánicos: 7.8, 2.1, 3.7, 0, 1.5, 2.4.
Solución:
n = 6 (caso b, n par).
Ordenando los datos, de menor a mayor:

[i ] [1] [2] [3] [4] [5] [6]


x[i ] 0 1.5 2.1 2.4 3.7 7.8

La mediana se encuentra entre los valores resaltados y su valor será igual al promedio
de éstos:
x n  + x n+ 2  x  6  + x  6+ 2 
2  2  2  2  x[3] + x[4 ] 2.1 + 2.4 4.5
Md =    
=    
= = = = 2.25
2 2 2 2 2
“La tasa máxima de trabajadores mecánicos con necesidad de atención oftalmológica
en la mitad de los tallares mecánicos es igual a 2.2%”.

W. Díaz, E. García, N. Rodríguez, F. Córdova


55

Nota:
En este ejemplo, hemos aplicado la siguiente regla de redondeo: “cuando, en el proceso
de redondeo, se va a eliminar, exactamente, el 5, y la cifra que le antecede es par, dicha
cifra debe permanecer en el redondeo; si fuera impar, debe agregarse una unidad”.

CÁLCULO DE LA MEDIANA PARA DATOS AGRUPADOS EN INTERVALOS:


Para datos agrupados en intervalos regulares semiabiertos por la derecha, se obtiene
la mediana del siguiente modo:

n
c( − Fi −1 )
Md = LI i + 2
fi

donde:

i : orden del intervalo que contiene a la mediana.

El valor de i se obtiene utilizando la relación siguiente:

n
< Fi
2
n
( Fi es la frecuencia absoluta acumulada que supera inmediatamente a )
2

LI i : límite inferior del i − ésimo intervalo que contiene a la mediana.

Fi −1 : frecuencia absoluta acumulada del intervalo “ i − 1 ” ésimo.

c : amplitud del intervalo que contiene a la mediana.

f i : frecuencia absoluta simple del i − ésimo intervalo que contiene a la mediana.

Ejemplo 5:
Enseguida se presenta el porcentaje del contenido de ceniza (X) de 40 turberas en la
elaboración de fibras textiles de fibra de turba. Calcular e interpretar la mediana.

i [ x´i −1 , x´i ) fi Fi
1 1.00 - 1.20 7 7
2 1.20 - 1.40 20 27
3 1.40 - 1.60 6 33
4 1.60 - 1.80 4 37
5 1.80 - 2.00 3 40
TOTAL n=40

W. Díaz, E. García, N. Rodríguez, F. Córdova


56

Solución:
La información sólo está constituida por las tres primeras columnas de la tabla anterior.
La cuarta columna ha sido agregada para efectos de calcular la mediana.
Pasos:
(1) Cálculo de “ i ”:

n
El valor de i lo obtenemos utilizando la relación: < Fi
2

n 40
= = 20
2 2

n 40
< Fi ⇒ = 20 < 27 = F2 ⇒ i = 2 (el valor de “i” es el “subíndice” de la
2 2
frecuencia absoluta acumulada).

(2) Cálculo de la mediana:

n
c( − Fi −1 )
Md = LI i + 2 =
fi

(0.2)(20 − F1 ) (0.2)(20 − 7) (0.2)(13)


= LI 2 + = 1.20 + = 1.20 + =1.33
f2 20 20

(3) Interpretación:

“El porcentaje máximo del contenido de ceniza en la mitad de las turberas es de


1.33%”.

MODA

Cuando un conjunto de datos está en forma original (sin agrupar en intervalos), la


moda, que la denotamos como M o , es el valor de la variable que ocurre más
frecuentemente en los datos.

CÁLCULO DE LA MODA PARA DATOS ORIGINALES:

W. Díaz, E. García, N. Rodríguez, F. Córdova


57

Cuando los datos están en forma original, la moda se calcula, simplemente, aplicándola
definición.
Ejemplo 1:
La moda de la edad (en años cumplidos) de 8 estudiantes de nuestra clase: 20, 21, 20,
20, 19, 23, 20, 21 es igual a 20 años, puesto que 20 se repite con mayor frecuencia.
Interpretación: “la edad modal es igual a 20 años” o “la edad más frecuente es igual a
20 años”.

A menudo, no tiene sentido calcular la moda cuando se tiene pocos valores o cuando
ningún valor puede repetirse.

Ejemplo 2:

Si las edades de 6 estudiantes de nuestra clase son: 22, 20, 22, 20, 20, 21, 22, 21, 21.
Cada edad se repite tres veces y ninguna es mayor que cualquier otra. En este caso
podemos afirmar que existen 3 modas, pero ninguna de ellas es útil como una medida
central de las edades.

Ejemplo 3:

La antigüedad de 9 electrobombas centrífugas de la marca “Pedrollo”, utilizadas en 9


viviendas de la Urbanización Las Quintanas de Trujillo: 10, 8, 1, 3, 5, 11, 4, 7, 9. En esta
situación, ningún dato se repite más de una vez; por lo tanto, decimos que no existe
moda. (Ésta es una situación parecida a la del Ejemplo 2, aunque aquí la frecuencia de
cada dato es igual a 1, mientras que en la de dicho ejemplo es 3).

CÁLCULO DE LA MODA PARA DATOS AGRUPADOS EN INTERVALOS:


Cuando los datos están agrupados en intervalos semiabiertos por la derecha, la moda
se obtiene de la siguiente manera:

c(d1 )
Mo = LI i + ,
d1 + d 2

donde:

• “ i ”: orden del intervalo que contiene a la moda. Se obtiene utilizando la


relación siguiente:

f i −1 < f i > f i +1 ;

W. Díaz, E. García, N. Rodríguez, F. Córdova


58

• d 1 = f i − f i −1 ;

d 2 = f i − f i +1 .

Ejemplo 4:
Calcular la moda de los siguientes datos, acerca de la emisión diaria (X, en toneladas) de
óxido de azufre de una planta industrial, con actividad mecánica intensa, durante 80
días:

i [ x´i −1 , x´i ) fi
1 5 - 10 8
2 10 - 15 35
3 15 - 20 24
4 20 - 25 10
5 25 - 30 3
TOTAL n=80

Solución:

(1) Cálculo de “ i ”:

f i −1 < f i > f i +1

Para utilizar esta relación, observamos la columna correspondiente a las frecuencias


absolutas simples, donde se aprecia que

8 < 35 > 24

Dichas cantidades, en notación, corresponden a:

f1 = 8 , f 2 = 35 y f 3 = 24

⇒ f 2−1 = f1 = 8 < f 2 = 35 > f 2+1 = f 3 = 24

O, simplemente:
f1 < f 2 > f 3

⇒ i = 2 (el valor de “i” es igual al “subíndice” de la frecuencia absoluta simple que


se ubica al centro de la desigualdad anterior”).

Por lo tanto, la clase modal (la que contiene a la moda) es la segunda ( i = 2 ):


[10 – 15). Esto quiere decir que la moda se encontrará en el segundo intervalo.

W. Díaz, E. García, N. Rodríguez, F. Córdova


59

(2) Cálculo de " d 1 " y de " d 2 " :

d 1 = f i − f i −1 = f 2 − f 2−1 = f 2 − f1 = 35 − 8 = 27

d 2 = f i − f i +1 = f 2 − f 2+1 = f 2 − f 3 = 35 − 24 = 11

(3) Cálculo de la moda:

c(d1 ) c(d1 ) 5(27)


Mo = LI i + = LI 2 + = 10 + = 13.55
d1 + d 2 d1 + d 2 27 + 11
Como podemos notar, 13.35 pertenece al intervalo [10 – 15).

(4) Interpretación:

“La emisión diaria de óxido de azufre de la planta industrial que se ha producido con
mayor frecuencia, está alrededor de 13.55 toneladas”.

MEDIA, MEDIANA, MODA E HISTOGRAMAS

El histograma de una distribución que presenta un pico (parte elevada) podría parecerse
a las Figuras 1, 2 y 3 siguientes:

Mediana y media
0.15
Frecuencia relativa

0.10

0.05

Figura 1. Distribución aproximadamente simétrica

La Figura 1 muestra una distribución que es aproximadamente simétrica o insesgada


(es decir, que el lado a la izquierda del pico del histograma es casi un fiel reflejo del lado
derecho). Cuando la distribución es exactamente simétrica, cada valor a la izquierda del
pico del histograma está balanceado por uno a la derecha, de modo que la media y la
mediana coincidirán.

W. Díaz, E. García, N. Rodríguez, F. Córdova


60

Mediana
Moda Media
Frecuencia relativa

0.15

0.10

0.05

Figura 2. Distribución sesgada a la derecha

La distribución en la Figura 2 se dice que es sesgada a la derecha o positivamente


asimétrica, porque existen unos pocos valores extremos altos a la derecha del pico del
histograma. Estos valores extremos aumentan la media de los datos pero no afectan a
la mediana; por lo tanto, la media será mayor que la mediana.

Mediana
Media Moda
Frecuencia relativa

0.15

0.10

0.05

Figura 3. Distribución sesgada a la izquierda

La Figura 3 muestra la situación contraria a la de la Figura 2 y la distribución es sesgada


a la izquierda o de asimetría negativa pues, unos pocos valores extremos bajos estiran
la media hacia abajo, de modo que la media es menor que la mediana.
Tanto en la Figura 2 como en la Figura 3, la mediana cae entre la media y la moda. La
moda corresponde al valor de la variable donde se observa el pico del histograma.
En consecuencia, LOS VALORES RELATIVOS DE LA MODA, LA MEDIANA Y LA MEDIA
INDICAN SI LA DISTRIBUCIÓN ES SESGADA A LA IZQUIERDA O A LA DERECHA.

W. Díaz, E. García, N. Rodríguez, F. Córdova


61

Ejemplo:
El promedio de la resistencia a la compresión (lb/pulg2) de un conjunto de muestras
de una aleación de aluminio en desarrollo como material para aeronaves es de 67.8
lb/pulg2, en tanto que la mediana es igual a 63.1 lb/pulg2. Sin mirar una exhibición
gráfica, ¿qué se puede deducir acerca de la simetría o sesgo (asimetría) de la distribución
de las resistencias a la compresión?.
Solución:
Como la media (67.8) es mayor que la mediana (63.1), unos cuantos valores altos de la
resistencia a la compresión están agrandando a la media, pero no afectan a la mediana.
Por lo tanto, la distribución de la resistencia a la compresión es sesgada a la derecha
(esto se puede confirmar, observando nuevamente a la Figura 2).

CONJUNTO DE EJERCICIOS N° 9
1. Los tiempos de espera (en minutos) de 26 estudiantes de Ingeniería Mecánica para
abordar el bus e ir a la universidad son: 11, 17, 20, 22, 14, 14, 15, 28, 21, 18, 16, 18,
22, 31, 16, 18, 17, 23, 28, 11, 12, 15, 13, 18, 12, 24. ¿Es la mediana del tiempo de
espera de los estudiantes mayor o menor que el tiempo medio de espera por
estudiante?. ¿Es posible calcular la moda de los tiempos de espera y, de ser así, cuánto
vale ella?.

Solución:

∑x f i i
450
x= i =1
= = 18 minutos
n 25

x n  + x n+2 
2  2  x[13] + x[14 ] 17 + 18
Md =    
= = = 17.5 minutos
2 2 2

Mo =18 minutos
La mediana es menor que la media, por lo tanto, la distribución de los tiempos de
espera es sesgada a la derecha. La moda es igual a 18, porque 18 minutos se repite
4 veces (mayor número de repeticiones que los demás tiempos de espera).

W. Díaz, E. García, N. Rodríguez, F. Córdova


62

2. Calcular e interpretar la media y la mediana de los siguientes datos originales,


correspondientes a los siguientes salarios mensuales (S/.) de un grupo de empleados
del sector metal-mecánico:
846, 1200, 824, 1367, 2479, 925, 457, 2164, 824, 575, 1238, 1284, 563, 746, 1310,
1252, 927, 1279, 1466, 1611, 1007, 1354, 1253, 1660, 860.

Guía de Solución:

x = $ 1178.84; Md = 1238. (Verificar estas cantidades e interpretarlas).


3. Los siguientes datos corresponden al producto bruto interno (PBI, en %) de un país,
durante 30 años consecutivos: 6.0, 6.6, 7.9, 13.5, 8.0, 8.2, 10.4, 6.9, 6.8, 9.9, 7.7, 6.9,
10.5, 8.2, 7.4, 6.9, 7.4, 7.2, 9.0, 7.1, 6.7, 9.5, 9.5, 11.1, 8.1, 8.2, 8.2, 6.5, 8.1, 7.3.
Construya una tabla de distribución de frecuencias en intervalos regulares semiabiertos
por la derecha de amplitud igual a 1%, (c = 1) cuya primera clase va desde 6% hasta
menos de 7%: [6-7). Luego, utilizando esta tabla, calcule la media y la mediana.
Determine la clase modal y la moda del histograma de frecuencias.

Guía de Solución:

La tabla contiene 6 intervalos regulares semiabiertos por la derecha. x = 8.27%; Md =


8%. Como la media es mayor que la mediana, existen unos cuantos valores
extremadamente grandes del PBI y, por lo tanto, la distribución es sesgada a la
derecha. La clase modal de un histograma con amplitud interválica de 1%, comienza
en 6% y corresponde a la clase “6% hasta menos de 7%”. La moda es igual a 6.89%.

CONJUNTO DE EJERCICIOS N° 10
1. Calcular e interpretar la media, la mediana y la moda (si existe) de los siguientes datos
originales, acerca del número diario de personas recuperadas por coronavirus en
el Perú, desde, consecutivamente, el 29 de junio hasta el 10 de julio de 2020: 3161,
3376, 3710, 3852, 3755, 3769, 4336, 3662, 3319, 3810, 3054, 2836. (Datos obtenidos,
a partir de los comunicados del MINSA).

2. Los siguientes datos son las proporciones de alumnos aprobados en la Nota


Promocional de 67 asignaturas dictadas por el profesor W. Díaz, en el período
académico 1983-II y 1999-II: 41/66, 19/31, 17/28, 45/75, 5/8, 45/70, 34/84, 40/62,
32/43, 19/25, 8/23, 19/41, 89/119, 28/55, 52/71, 111/131, 58/73, 58/61, 53/58, 72/82,
49/71, 54/83, 13/24, 48/79, 25/33, 18/35, 7/25, 25/38, 37/80, 6/13, 25/33, 61/101,
72/96, 61/102, 30/57, 23/46, 37/65, 40/70, 59/80, 24/30, 27/57, 47/70, 27/53, 3/8, 7/10,
32/50, 19/52, 12/17, 69/101, 24/38, 12/26, 27/33, 31/66, 52/80, 33/65, 34/59, 71/86,
10/21, 43/53, 36/44, 36/63, 38/49, 20/27, 20/35, 19/39, 34/65, 38/45. Convierta las
fracciones a porcentajes (redondeando hasta dos cifras decimales) y luego calcule la
media y la mediana de dichos porcentajes. ¿Se podría esperar que la distribución de
los porcentajes sea sesgada a la izquierda o a la derecha o simétrica?.

3. En una encuesta de familias conducida por el Departamento de Tráfico de una ciudad,


se recolectó la siguiente información acerca de la posesión de vehículos:

W. Díaz, E. García, N. Rodríguez, F. Córdova


63

Número de vehículos por familia Número de familias


0 300
1 420
2 180
3 60
4 40

Calcular la media y la mediana del número de vehículos que tienen estas familias. Se
puede calcular la moda? y si es así, cuál es ella?. Determine la media del cuadrado del
número de vehículos por familia y compruebe que este resultado difiere del cuadrado
de la media (sugerencia: utilizar la observación, considerada anteriormente en el
estudio de la media).

4. Construya una tabla de distribución de frecuencias en 5 intervalos regulares


semiabiertos por la derecha (m=5), utilizando la siguiente información acerca del
número diario de resultados positivos en las pruebas moleculares y/o serológicas,
realizadas a personas muestreadas de la Región La Libertad, entre el 13 de junio y
el 10 de julio de 2020 (el primer dato corresponde al 13 de junio, el segundo al 14
de junio, etc.) : 196, 213, 152, 188, 135, 125, 221, 125, 196, 144, 133, 191, 241, 217,
183, 202, 164, 106, 186, 185, 176, 218, 229, 94, 121, 165, 158, 135. Luego, utilizando
la tabla construida, calcule la mediana, la mediana y la moda. ¿Es la distribución de
los datos sesgada?. Si fuera así, a la izquierda o a la derecha?. Ubique en un gráfico
las medidas calculadas. Comente.

5. Los siguientes datos corresponden al número diario de personas muestreadas para


realizarles las pruebas serológicas y/o moleculares para el Coronavirus Covid-19, del 21 al 30
de junio de 2020: 21646, 13721, 21816, 21907, 21952, 20916, 20614, 19977, 16612, 18062
(Fuente: Elaboración propia, utilizando los comunicados del MINSA N°s: 139, 140, 142, 143,
144, 146, 147, 149, 151, 152 y 154). Encuentre e interprete las medidas de tendencia central
estudiadas.

MEDIDAS DE DISPERSIÓN

Cada una de las medidas estudiadas anteriormente (media, mediana y moda) nos indica
alrededor de qué valores están distribuidos los datos, pero no nos expresa si los datos
están concentrados alrededor de esos valores (si son cercanos a ellos) o dispersos (si
están alejados).

Ejemplo 1:
Consideremos las edades de:
Grupo A:

W. Díaz, E. García, N. Rodríguez, F. Córdova


64

5 estudiantes de nuestra clase (edades: 17, 18, 19, 20 y 21). La edad promedio es igual
a 19 años
Grupo B:
Otras 5 personas (diferentes a las del Grupo A) que acuden al cine (edades:, 9, 19, 29 y
34 a 19.). De igual modo, la edad promedio es igual 22
En el Grupo A, las 5 edades están cerca de la media (concentradas a su alrededor: la
distribución es homogénea o presenta poca dispersión), en tanto que en el Grupo B las
edades están lejos de la media (dispersas: la distribución es heterogénea o presenta
mucha dispersión).
Para poder evaluar la calidad de las medidas de tendencia central y, en particular, de la
media, es importante conocer la dispersión de los datos, debido a que en una
distribución muy dispersa, la media será un “promedio de valores muy diferentes
entre sí” y no será tan fiel a los datos como si estos fueran similares. Por ejemplo, la
edad promedio de 19 años del Grupo A es una mejor medida resumen que la media de
22 años del Grupo B, ya que la primera representa mejor a los datos originales. Es por
ello que afirmamos que en el Grupo A, “la media es más representativa de las edades
de las que proviene”, por tener éstas poca dispersión.
Ejemplo 2:
Utilizando los siguientes conjuntos de datos, acerca del puntaje que obtuvieron un
grupo de 12 ingenieros mecánicos en una prueba de selección de personal en dos
empresas dedicadas a la fabricación de ventanas metálicas, A y B:
A: 0 48 49 51 52 100
B: 47 48 49 51 52 53
Tanto la media como la mediana de ambos conjuntos de datos son iguales a 50; es decir,
ambas distribuciones son simétricas. No obstante, ellas son muy diferentes. No es
suficiente describir los datos, midiendo dónde cae el centro: debemos también
considerar cómo están dispersos.
La forma más sencilla de medir la dispersión de un conjunto de datos, consiste en
calcular el rango, pero veremos que esto no es la forma más confiable, pues existen
mejores medidas de dispersión, como la varianza y el coeficiente de variación, que las
estudiaremos posteriormente.

RANGO
Como vimos anteriormente, al considerar la construcción de una tabla de distribución
de frecuencias, el rango es simplemente la diferencia entre el valor mayor y el menor de
los datos.
Si tenemos en cuenta los datos del Ejemplo 2 anterior, el rango de ambos grupos, es:

W. Díaz, E. García, N. Rodríguez, F. Córdova


65

Rango (A ) = 100 – 0 = 100


Rango (B) = 53 – 47 = 6 (mucho menor que 100).
Ahora comparemos los datos del grupo A con un nuevo conjunto de datos, C, dado a
continuación:

A: 0 48 49 51 52 100
C: 0 1 1 99 99 100

Ambos conjuntos de datos tienen el mismo rango de 100 y todavía los valores en A son
mucho más centrales que los de C. Por tanto, el rango de un conjunto de datos no es
una buena medida de dispersión, porque sólo usa los valores mínimo y máximo de los
datos. Se necesita una medida de dispersión que se calcule usando todos los datos,
como la varianza.

VARIANZA
La varianza es la medida de dispersión más versátil de un conjunto de datos,
convirtiéndose en una medida muy valiosa de la dispersión: “los datos son más
heterogéneos o están más dispersos a medida que aumente el valor de la varianza”.
La varianza es una de las ideas cruciales de la Estadística.
La varianza de los n datos muestrales de una variable X, se determina utilizando la
siguiente fórmula:
n

∑ (x i − x) 2
V (X ) = i =1
……………………………………………………………………………………………….. (1)
n
Otra forma de obtener la varianza es:

V ( X ) = E ( X 2 ) − [E ( X )] ………………………………………………………………………………………… (2)
2

El valor de la varianza no puede ser negativo y será igual a 0 si todos los datos coinciden
con la media.
Aunque probablemente se use una computadora para determinar la varianza de un
conjunto de datos, el cálculo manual sirve para comprender lo que es la varianza.
Si tenemos en cuenta la primera fórmula (1) para calcular la varianza, se observa que
ella se basa en la suma de los cuadrados de las diferencias entre cada valor y la media y,
a medida que los valores se alejen de la media, ella será más grande.

W. Díaz, E. García, N. Rodríguez, F. Córdova


66

La varianza es una buena medida de dispersión porque puede discernir entre muestras
como los conjuntos de datos A y C, los cuales tienen la misma media (50) y el mismo
rango (100), pero el conjunto C es más disperso que el A.
Cuando se pretende interpretar la varianza, se presenta dos inconvenientes. Primero,
sus unidades están elevadas al cuadrado; por lo que, por ejemplo, si medimos número
de hijos, la varianza se expresa en número de hijos al cuadrado, lo cual no tiene
significado (por ejemplo, se diría que la varianza es igual 4 hijos al cuadrado, lo cual no
tiene mucho sentido). Segundo, no tiene límite superior y su valor puede ser muy
grande y no tenemos con qué compararlo para saber si indica una gran variabilidad o si
los valores de la variable lo son.

Reconocimiento de la varianza:
La Figura 4 que sigue, muestra los histogramas de tres conjuntos de datos. Cada
conjunto tiene 400 valores, es aproximadamente simétrico y tiene una media de 30.
Pero la varianza del primer conjunto de datos es 16, la del segundo es 36 y la del tercero
es 121 (las desviaciones estándar, que veremos luego, son iguales a 4, 6 y 11,
respectivamente). Todos los valores del primer histograma están muy concentrados
alrededor de 30; los del segundo son ligeramente más variados y los del tercero son aún
mucho más dispersos.
160

140 𝑉𝑉(×) = 16

120

100
Frecuencia

80

60

40

20

0
0 10 20 30 40 50 60

W. Díaz, E. García, N. Rodríguez, F. Córdova


67

100
90 𝑉𝑉(×) = 36
80
70
60
Frecuencia

50
40
30
20
10
0
0 10 20 30 40 50 60

60

𝑉𝑉(×) = 121
50

40
Frecuencia

30

20

10

0
0 10 20 30 40 50 60

Figura 4. Histogramas de datos con la misma


media pero diferentes varianzas
Resultado de Chebysheff
Supongamos que la media de una muestra es 30 y que su varianza es 36, pero no
tenemos los datos reales. Esto nos dice que los datos son más dispersos que un conjunto
de datos con una varianza de, digamos, 16 y menos dispersos que un conjunto con
varianza 121. No obstante, también existe un resultado útil, llamado resultado de
Chebysheff, que nos da alguna idea de la proporción de los datos que cae dentro de
una distancia particular de la media.
Dicho resultado afirma que, para k ≥ 1 ,
1
UNA PROPORCIÓN DE AL MENOS ( 1 − ) DE LOS VALORES EN UNA MUESTRA CAE
k2
DENTRO DE “ k DESVIACIONES ESTÁNDAR” DE LA MEDIA.

W. Díaz, E. García, N. Rodríguez, F. Córdova


68

Ejemplo 1:
Para ilustrar el resultado anterior, supongamos que la media de una muestra es igual a
20 y que la varianza es igual a 25. El resultado de Chebysheff para, por ejemplo,
a) k =2, nos permite afirmar que al menos el
1
1 − 2 = 0.75 = 75%
2
de los valores en la muestra están comprendidos entre
LI = media – ks = 20 – (2)(5)
y
LS = media + ks = 20 + (2)(5);
donde LI representa el Límite Inferior, LS el Límite Superior y s la desviación estándar.
Es decir, entre 20-10=10 (LI=10) y 20+10=30 (LS=30). Dicho de otro modo, al menos
las tres cuartas partes de los valores en la muestra cae dentro de 2 desviaciones
estándar de la media.
b) k =3, nos dice que al menos el
1
1− = 0.889 = 88.9%
32
de los datos están entre
20 – (3)(5) y 20 + (3)(5); es decir, entre 5 (LI=5) y 35 (LS=35). O, al menos el 88.9% de
los valores en la muestra cae dentro de 3 desviaciones estándar de la media.
c) k =1.5, nos dice que al menos el
1
1− = 0.556 = 55.6%
1.5 2
de los datos están entre
20 – (1.5)(5) y 20 + (1.5)(5); es decir, entre 12.5 (LI=12.5) y 27.5 (LS=27.5). También
podemos afirmar que, al menos el 55.6% de los valores en la muestra cae dentro de
1.5 desviaciones estándar de la media.
Los resultados de los casos a), b) y c) se resumen en el siguiente cuadro:

% mínimo Límites en que están


k de los valores comprendidos dicho %
LI=media - ks LS = media + ks
1.5 55.6 12.5 27.5
2 75.0 10 30
3 88.9 5 35

W. Díaz, E. García, N. Rodríguez, F. Córdova


69

Ejemplo 2:
Calcular, manualmente, la varianza del conjunto anterior de datos (empresa A), donde
su media es igual a 50 ( x = 50 puntos).
Solución:
A: 0 48 49 51 52 100
Utilizaremos la primera de las dos fórmulas anteriores (1). Para ello, se construye una
tabla, como la que se muestra a continuación:

Datos Datos - x (Datos - x )2


(xi) (xi- x ) (xi- x )2
0 0-50=-50 2500
48 48-50=-2 4
49 49-50=-1 1
51 51-50=1 1
52 52-50=2 4
100 100-50=50 2500
Total 5010

La varianza de dichos datos es:


n

∑ (x i − x) 2
5010
V (X ) = i =1
= = 835 (puntos)2.
n 6
(Por ahora utilizaremos esta fórmula de la varianza, que corresponde a la varianza
poblacional, pero más adelante se distinguirá entre la varianza poblacional y la varianza
muestral. En la fórmula anterior se está colocando “n” en el denominador, pero lo más
adecuado es colocar el tamaño poblacional, “N”, tal como se verá más adelante).
Con la segunda fórmula (2) debemos obtener el mismo resultado. Para utilizarla, es
necesario construir la siguiente tabla (siempre utilizando el conjunto de datos de la
empresa A):

Datos Datos2
(xi) (xi2)
0 0
48 2304
49 2401
51 2601
52 2704
100 10000
6 6

∑ xi = 300
i =1
∑x
i =1
2
i = 20010

W. Díaz, E. García, N. Rodríguez, F. Córdova


70

V ( X ) = E ( X 2 ) − [E ( X )]
2

20010 300 2
= −( ) = 3335 − (50) 2 = 3335 − 2500 = 835 (coincide con el resultado
6 6
anterior).

Ejemplo 3:
Ahora, hallemos la varianza del conjunto de datos C, utilizando la fórmula (2):
C: 0 1 1 99 99 100

Datos Datos2
(xi) (xi2)
0 0
1 1
1 1
99 9801
99 9801
100 10000
6 6

∑ xi = 300
i =1
∑x
i =1
2
i = 29604

V ( X ) = E ( X 2 ) − [E ( X )]
2

29604 300 2
= −( ) = 4934 − (50) 2 = 4934 − 2500 = 2434 .
6 6
CONJUNTO DE EJERCICIOS N° 11

Hallar la varianza del conjunto anterior de datos B.


Solución:
Procedamos como en el caso del conjunto de datos C, pero ahora utilizando los datos:
B: 47 48 49 51 52 53

Datos Datos2
(xi) (xi2)
47 2209
48 2304
49 2401
51 2601

W. Díaz, E. García, N. Rodríguez, F. Córdova


71

52 2704
53 2809
6 6

∑ xi = 300
i =1
∑x
i =1
2
i = 15028

V ( X ) = E ( X 2 ) − [E ( X )]
2

15028 300 2
= −( ) = 2504.67 − (50) 2 = 2504.67 − 2500 = 4.67 (puntos)2.
6 6
Como se podría esperar, la varianza en el grupo B (4.67) es mucho más pequeña que en
los grupos A (835) y C (2434), a pesar de que los tres grupos tienen la misma media y el
mismo rango.

DESVIACIÓN ESTÁNDAR
La desviación estándar de un conjunto de datos, que la denotaremos por DE(X), es igual
a la raíz cuadrada de su varianza. Es decir:

DE(X) = V ( X )

Recordemos que el primer inconveniente para interpretar la varianza es que su valor se


expresa en unidades de medida de la variable, elevado al cuadrado, lo cual casi no tiene
sentido al momento de interpretarla. Esto se resuelve utilizando la desviación estándar,
la cual se expresa en las mismas unidades de medida de la variable de interés y no hay
problemas con su interpretación.
Ejemplo1:
Hallemos la desviación estándar de nuestro conjunto de datos A:
Solución:

DE(X) = V ( X ) = 835 = 28.90 puntos.

Ejemplo 2:
Ahora, encontremos la desviación estándar para el conjunto de datos C:

DE(X) = V ( X ) = 2434 = 49.34 puntos.

COEFICIENTE DE VARIACIÓN

W. Díaz, E. García, N. Rodríguez, F. Córdova


72

El coeficiente de variación de una variable cuantitativa X, denotado por CV(X), es otra


medida de dispersión de los datos. Para solucionar el segundo inconveniente de la
interpretación de la varianza, relacionado con su magnitud, y que sigue siendo el mismo
problema para la desviación estándar, se define el coeficiente de variación como una
medida relativa de la dispersión, al carecer de unidades. Su utilidad radica en que con
él se puede comparar la dispersión de dos o más conjuntos de datos que se pueden
expresar, incluso, en unidades de medida diferentes, puesto que su valor se expresa en
términos porcentuales (por comodidad para la interpretación), independiente de la
unidad de medida de la variable. Por ejemplo, se puede comparar, mediante este
coeficiente, la variación del peso (en kilogramos) y la de la estatura (en metros) de un
conjunto de personas.
Cuando hay mucha dispersión en los datos, la media no es una medida adecuada para
resumir la información.
El coeficiente de variación lo podemos calcular a través de la fórmula siguiente:

DE ( X )
CV ( X ) = (100%)
x
En la práctica, se considera que si el coeficiente de variación es menor al 10%, la
distribución tiene poca dispersión (o que los datos son homogéneos) y se puede confiar
en la media como medida de centralidad y considerarla como representativa de los
datos que resume.

Ejemplo 1:
El ingreso mensual (en miles de dólares) de 8 ingenieros mecánicos es: 2, 2, 2, 2, 2, 10,
10, 10. El ingreso medio mensual por ingeniero mecánico es de 40/8=5 ($5,000), el cual
no representa al ingreso de los 8 ingenieros mecánicos, porque tuvieron ingresos muy
diferentes: el ingreso mensual de cada uno de 5 ingenieros mecánicos es igual a
$2,000.00 y el de cada uno de los 3 restantes ingenieros mecánicos es de $10,000.00. El
coeficiente de variación es igual a 77.46%, un valor muy grande, lo cual indica que el
ingreso medio no es una medida adecuada para resumir los 8 ingresos mensuales.
(Como el coeficiente de variación es muy grande-mucho mayor que 10%-, se dice que la
media no es una buena medida representativa).

CONJUNTO DE EJERCICIOS N° 12
1) Verificar que el coeficiente de variación de los datos: 2, 2, 2, 2, 2, 10, 10, 10, es igual
a 77.46%.

Guía de solución:
Datos Datos2

W. Díaz, E. García, N. Rodríguez, F. Córdova


73

(xi) (xi2)
2
2
2
2
2
10
10
10
8 8

∑x
i =1
i = ∑x
i =1
2
i =

V ( X ) = E ( X 2 ) − [E ( X )] = …
2

2) Considere la información siguiente:

PORCENTAJE DE RESULTADOS CONFIRMADOS DE


CORONAVIRUS
SEGÚN TIPO DE PRUEBA (PERÚ, JULIO 2020)

PORCENTAJE DIARIO DE
COMU- RESULTADOS
NICADO CONFIRMADOS EN LAS PRUEBAS

FECHA DEL MOLE- SERO- TO-


MINSA CULARES LÓGICAS TAL

30/06/2020 153

01/07/2020 154 33.44 13.93 16.33

02/07/2020 155 34.62 13.60 16.88

03/07/2020 156 31.64 14.91 17.36

04/07/2020 157 32.18 14.45 16.62

05/07/2020 158 30.68 14.99 17.38

06/07/2020 159 32.78 13.03 16.73

07/07/2020 160 32.28 13.93 17.32

08/07/2020 162 34.54 12.38 17.31

09/07/2020 164 30.86 14.40 16.87

W. Díaz, E. García, N. Rodríguez, F. Córdova


74

10/07/2020 166 26.11 13.33 15.95

11/07/2020 167 27.88 12.37 14.65

Elaboración propia
Calcule e interprete las medidas estadísticas estudiadas, incluyendo un comentario
acerca de la asimetría de la distribución, para el porcentaje diario de resultados
confirmados de coronavirus en:
a) Las pruebas moleculares.
b) Las pruebas serológicas.
c) Las pruebas moleculares y serológicas.

(Sugerencia: compruebe que sus valores son los que se muestran en la siguiente
tabla, donde la segunda columna corresponde a las pruebas moleculares, la tercera
a las pruebas serológicas y la cuarta a ambas pruebas).

Medidas estadísticas

Media 31.55 13.75 16.67

Varianza 6.25 0.76 0.6

Desv. Est. 2.5 0.87 0.78

Coef. Var. 7.92 6.34 4.65

Mediana 32.18 13.93 16.87

Asimetría Negativa Negativa Negativa

3) El número de síntomas (X) de 6 pacientes diagnosticados de Covid-19 es: 5, 6, 6, 8,


8, 9. Calcular e interpretar las medidas estadística de centralidad y de dispersión
estudiadas. Comente con respecto a la moda.
[Rpsta.: x =7; Md=7; Mo(1) = 6; Mo(2) = 8: hay dos modas; V(X) = 2; DE(X) = 1.41;
CV(X) = 20.14%].

4) Calcular la varianza de la siguiente muestra de datos, correspondientes al tiempo (en


segundos) para pasar de 0 á 60 millas por hora, en una muestra de 10 automóviles
fabricados en Alemania: 10.9, 6.4, 8.9, 6.9, 5.5, 8.7, 6.0, 10.0, 7.5, 4.8. Disponer los
datos en columnas para realizar los cálculos. [Respuesta.: V(X) = 3.6284 seg2].

5) Sin hacer cálculos, ¿cuál de estas dos muestras de datos, correspondientes al número
de mosaicos utilizados en 8 trabajos similares en dos empresas, I y II, tiene la mayor
varianza? Justificar la respuesta:

A 2 3 3 4 5 4 6 5
B 8 10 20 35 12 22 9 30

W. Díaz, E. García, N. Rodríguez, F. Córdova


75

Confirmar o contradecir la respuesta, calculando la varianza de cada muestra.

6) El peso (libras) de óxido acumulado durante un año en protectores metálicos de


tragaluz de los hogares de cuatro ciudades (I, II, III, IV), tiene las siguientes
características mostradas en la tabla adjunta:

Ciudad Media (%) Desviación estándar (%)


I 7 4
II 6 3
III 6 2
IV 5 1

¿En qué ciudad es más homogéneo el peso de óxido acumulado en los protectores
metálicos de tragaluz?. (Sugerencia: calcular el coeficiente de variación para cada
ciudad).

MEDIDAS DE ASOCIACIÓN
Las medidas estadísticas estudiadas anteriormente, corresponden a una variable
cuantitativa unidimensional. Cuando de un conjunto de n individuos se toman, al mismo
tiempo, dos variables cuantitativas (denotadas usualmente por X e Y), es de interés
determinar el grado de asociación que existe entre ellas. Una de las medidas estadísticas
que expresan la asociación entre dos variables cuantitativas es el coeficiente de
correlación.
Ejemplo 1:
Se puede cuantificar la asociación que existe entre:
a) Peso y Estatura de las personas.
b) Velocidad y Consumo de combustible de los automóviles.
c) Desgaste y Tiempo de uso rodamientos.

COEFICIENTE DE CORRELACIÓN
El nombre ampliado del coeficiente de correlación es “COEFICIENTE DE CORRELACIÓN
PRODUCTO-MOMENTO DE PEARSON”. Por simplicidad, se utiliza a menudo el término
COEFICIENTE DE CORRELACIÓN.
Cálculo del coeficiente de correlación:
Por lo regular, facilita el cálculo manual del coeficiente de correlación, utilizando n datos
muestrales de una variable cuantitativa bidimensional (X, Y), denotado por “r”, construir
una tabla como la siguiente (la información inicial sólo está conformada por las tres

W. Díaz, E. García, N. Rodríguez, F. Córdova


76

primeras columnas; las demás han sido incluidas para ilustrar el cálculo de este
coeficiente):

i xi yi xi yi xi2 yi2
1 x1 y1 x1 y1 x12 y12
2 x2 y2 x2 y2 x22 y22
. . . . . .
. . . . . .
. . . . . .
n xn yn xn yn xn2 yn2
Total n n n n n

∑ xi
i =1
∑ yi
i =1
∑ xi y i
i =1
∑ xi2
i =1
∑y
i =1
2
i

Con los datos así dispuestos, el coeficiente de correlación se calcula utilizando la


siguiente fórmula:
n n n
n∑ xi yi − [(∑ xi )(∑ yi )]
r= i =1 i =1 i =1
n n n n
[n∑ xi2 − (∑ xi ) 2 ][n∑ yi2 − (∑ yi ) 2 ]
i =1 i =1 i =1 i =1

Según el valor de r , se presentan los siguientes tipos de relación entre X e Y:


a) Si r > 0 (+), la relación es directa entre X e Y: “a medida que aumentan (disminuyen)
los valores de X, los de Y también aumentan (disminuyen).
b) Si r < 0 (-), la relación es inversa entre X e Y: “a medida que aumentan (disminuyen)
los valores de X, los de Y disminuyen (aumentan).
c) Si r = 0, no existe relación entre X e Y.

Ejemplo 2:

Calcular el coeficiente de correlación de los siguientes datos correspondientes a la


resistencia normal (X, en ohmnios) y a la resistencia de corte (Y, en ohmnios), de un
conjunto de 12 especímenes metálicos:

i xi yi xi2 xi y i
yi2
1 26.8 26.5 710.2 718.24 702.25
2 25.4 27.3
3 28.9 24.2
4 23.6 27.1
5 27.7 23.6
6 23.9 25.9
7 24.7 26.3
8 28.1 22.5
9 26.9 21.7
10 27.4 21.4

W. Díaz, E. García, N. Rodríguez, F. Córdova


77

11 22.6 25.8
12 25.6 24.9
Total

PROBABILIDAD

EXPERIMENTO ALEAOTORIO
Se define un experimento aleatorio, como un fenómeno que, antes de su realización,
puede producirse de distintas maneras pero, una vez realizado, se produce de una
única forma. Denotamos a un experimento aleatorio con la letra griega ξ (aunque en
la bibliografía especializada, también se puede encontrar la notación ε ). Si el número
de estas posibles maneras es único, se dice que el fenómeno no es un experimento
aleatorio.
Ejemplos:

1) ξ 1 : Prueba de dos motores, para determinar si funcionan o no.

Este fenómeno es un experimento aleatorio porque, antes de producido, se pueden


dar los siguientes posibles resultados: SS, SN, NS, NN. (SS quiere decir que ambos
motores funcionan, NS significa que el primer motor no funciona y el segundo sí, etc.).
No obstante, una vez realizado el experimento (prueba de ambos motores para ver si
funcionan o no), el resultado será único (cualquiera de los cuatro posibles casos
anteriores).

2) ξ 2 : Determinación de la duración (en años) de una electrobomba centrífuga de la


marca Pedrollo. En este experimento aleatorio, antes de producirse, se dan infinitas
posibilidades de su duración, la que puede estar comprendida en el intervalo [0, ∞ ).
No obstante, una vez que se produjo el fenómeno, la duración es única.

ESPACIO MUESTRAL
Un espacio muestral asociado a un experimento aleatorio, denotado con la letra griega
Ω, es el conjunto de posibles resultados asociados a dicho experimento aleatorio. Un
espacio muestral puede ser finito, si tiene un número determinado de elementos,
mientras que si el número de sus elementos es infinito se dice que es infinito.
Ejemplos:

1) Para el experimento aleatorio anterior ξ 1 , un espacio muestral es el siguiente:

W. Díaz, E. García, N. Rodríguez, F. Córdova


78

Ω 1 = {SS , SN , NS , NN } .

2) En el caso del segundo experimento aleatorio anterior ξ 2 , un espacio muestral


asociado a él es:

Ω 2 = {t : t ≥ 0}, donde t representa el tiempo de duración de la electrobomba.

3) En el experimento aleatorio consistente en lanzar una moneda hasta que aparezca


cara, se tiene el siguiente espacio muestral:

Ω = {C, SC, SSC, SSSC, …}

En este caso el espacio muestral es infinito.

EVENTO
Un evento es cualquier subconjunto de un espacio muestral. Podemos denotar a un
evento con una letra mayúscula del abecedario. El evento será simple si tiene un
elemento y será compuesto si tiene más de un elemento. A un evento simple también
se le denomina suceso.
Ejemplos:

1) Consideremos el espacio muestral anterior Ω 1 , son eventos los siguientes:


R = {NS } : evento simple (tiene un solo elemento).
S = {SN , SS , NS } : evento compuesto (tiene más de un elemento).

2) Ahora, tengamos en cuenta el espacio muestral anterior Ω 2 . Algunos eventos son los
siguientes:
A = {t : t = 5.8} : evento simple.
B = {t : t ≥ 7.3} : evento compuesto.

ÁLGEBRA DE EVENTOS

Dado un espacio muestral Ω y un subconjunto E de Ω, entonces “E” se denomina


“evento” y un elemento ω de Ω se denomina un punto muestral o suceso. Luego,

1. Ocurre un evento E, si como resultado del experimento se obtiene alguno de los


elementos de E.

2. Evento seguro o cierto: Es el que se verifica, cualquiera que sea el resultado del
experimento aleatorio. El evento cierto o seguro corresponde al espacio muestral
Ω.

W. Díaz, E. García, N. Rodríguez, F. Córdova


79

3. Evento imposible: Es el que no se verifica nunca. El evento imposible corresponde


al conjunto nulo o vacío, ∅.

4. Evento complementario a E: Es el evento EC, el cual se verifica siempre que no se


verifique el evento E.

5. Suceso elemental: Es todo subconjunto unitario de Ω (llamado también evento


simple o suceso).

6. Evento unión de los eventos A y B: A∪B

7. Evento intersección de los eventos A y B: A∩B

8. Eventos incompatibles A y B: Los eventos A y B son incompatibles o


mutualmente excluyentes, si no se pueden verificar a la vez. Se cumple que
A∩B = ∅

9. Eventos colectivamente exhaustivos: Decimos que A1, A2, …, Ak, son eventos
colectivamente exhaustivos, si
∪ ik=1 Ai = A1 ∪ A2 ∪ ... ∪ Ak = Ω

PROBABILIDAD DE UN EVENTO

Definimos, clásicamente, la probabilidad de un evento E de un espacio muestral Ω,


del siguiente modo:
n( E )
P( E ) = ,
n(Ω)
donde:
n(E ) : número de casos favorables al evento E ,
n(Ω) : número de casos posibles del experimento aleatorio considerado (número de
elementos de Ω ).

PROPIEDADES DE LA PROBABILIDAD:

Sean E, E1 y E2 tres eventos cualesquiera de un espacio muestral Ω . Entonces:


i. 0 ≤ P( E ) ≤ 1
ii. P(∅) = 0
iii. P( Ω ) = 1.
iv. P(EC) = 1 - P(E).
v. Si E1 ⊂ E2 ⇒ P(E1) ≤ P(E2)
vi. P(E1∪E2)=P(E1) + P(E2) - P(E1∩E2)

W. Díaz, E. García, N. Rodríguez, F. Córdova


80

Ejemplos:

a) En nuestro ejemplo de experimento aleatorio, ξ1 , determinemos la probabilidad de


que al menos un motor no funcione.

Solución:

El espacio muestral asociado a este experimento aleatorio es:


Ω = {SS, SN, NS, NN} ⇒ n(Ω) = 4
Sea el evento:
E: Por lo menos un motor no funciona.
Los elementos del evento E son:
E = {SN, NS, NN} ⇒ n( E ) = 3
Luego,
n( E ) 3
P( E ) = = = 0.75
n (Ω) 4
b) ¿Cuál es la probabilidad de que, al lanzar un dado 2 veces (o, lo que es lo mismo,
lanzar dos dados una vez), la sumatoria de las puntuaciones obtenidas sea 5?.
(Rpta.: 4/36=1/9).

c) De un club cultural formado por 50 matrimonios se eligen 2 representantes para un


jurado. Calcular la probabilidad de que:

• Los elegidos sean 2 hombres  C250 / C2100 = 49 / 198 = 0.2475

• Los elegidos sean 1 hombre y una mujer  C150C150 / C2100 = 50 / 99 = 0.5050


(Sugerencia: Las “combinaciones de 50 en 2”, denotado como C 250 , se
obtiene del siguiente modo:

50! 50! (50)(49)(48!) (50(49)


C 250 = = = = = 1225 ).
2!(50 − 2)! 2!(48)! 2!(48)! 2

• Se elija un matrimonio  50 / C2100 = 1 / 99 = 0.0101

Ejercicios
1) En el experimento aleatorio: determinar la causa de falla registrada por 3 operarios
mecánicos de un torno controlado por computadora (1: fluctuaciones de corriente, 2:
otra). Dentro de otra causa (2) se tiene: controlador inestable, error del operador,
herramienta gastada no cambiada.
a) Determine un espacio muestral asociado a este experimento aleatorio.

b) Determine la probabilidad de que dos operarios registren la fluctuación de corriente


como causa de la falla.

W. Díaz, E. García, N. Rodríguez, F. Córdova


81

c) ¿Cuál es la probabilidad de que sólo el segundo operario registre otra causa de falla
del torno?.

2) Para el experimento aleatorio consistente en anotar el resultado de cada análisis


de tres soldaduras en secuencia, para saber si está defectuosa (D) o no (N).
Determinar los elementos y las respectivas probabilidades de cada uno de los
siguientes eventos:

a. E1: al menos una soldadura está defectuosa:

Solución:

Para este experimento aleatorio, el espacio muestral está dado por:

Ω = {NNN , DNN , NDN , NND, DDN , DND, NDD, DDD} ⇒ n(Ω) = 8

Sean
D: la soldadura está defectuosa.
N: la soldadura no está defectuosa.

E1 = {DNN , NDN , NND, DDN , DND, NDD, DDD} ⇒ n( E1 ) = 7


n( E1 ) 7
P( E1 ) = = = 0.875
n(Ω) 8
b. E2: como máximo, dos soldaduras están defectuosas (es decir, están defectuosas
0, 1 ó 2 soldaduras).

Solución:

E2 = {DNN, NDN, NND, DDN, DND, NDD, NNN}

⇒ n( E 2 ) = 7

El espacio muestral tiene 8 elementos, n(Ω) = 8 ; en efecto:

Ω ={ DNN , NDN , NND, DDN , DND, NDD, NNN , DDD}


n( E 2 ) 7
P( E2 ) = = = 0.875
n(Ω) 8

c. E3: una soldadura está defectuosa.

Solución:

E3 = {DNN , NDN , NND} ⇒ n( E3 ) = 3


n (Ω) = 8
n( E3 ) 3
P ( E3 ) = = = 0.375
n (Ω ) 8

W. Díaz, E. García, N. Rodríguez, F. Córdova


82

d. E4: el número de soldaduras defectuosas “está comprendido entre 0 y 2”


(coincide con el evento E2: “como máximo, dos soldaduras están defectuosas”).

Solución:

E4 = {DNN , NDN , NND, DDN , DND, NDD, NNN } ⇒ n( E 4 ) = 7


n(Ω) = 8
n( E 4 ) 7
P( E4 ) = = = 0.875 = P( E 2 )
n (Ω) 8

e. E2 ∪ E4, donde E2 y E4 son los eventos mostrados en los incisos b y d,


respectivamente.

Solución:

Reescribamos, nuevamente, los elementos de los eventos E2 y E4.

E2 = {DNN, NDN, NND, DDN, DND, NDD, NNN}

E4 = {DNN , NDN , NND, DDN , DND, NDD, NNN }

Una vez que se determina por extensión los elementos del conjunto E2 ∪ E4, se
puede obtener su probabilidad, de las siguientes maneras:

• Aplicando la “definición clásica” de probabilidad:


n( E 2 ∪ E 4 ) 7
P( E2 ∪ E4 ) = = = 0.875
n (Ω) 8

En efecto, el número de elementos del evento E2 ∪ E4 se determina del siguiente


modo:

E 2 ∪ E 4 = {DNN , NDN , NND, DDN , DND, NDD, NNN } ∪


{DNN , NDN , NND, DDN , DND, NDD, NNN } =
{DNN , NDN , NND, DDN , DND, NDD, NNN } ⇒ n( E2 ∪ E4 ) = 7
P( E2 ∪ E4 ) = 7/8 = 0.875

(Nota: Los eventos E 2 y E 4 tienen los mismos elementos. Por lo tanto, son los
mismo eventos).

• Aplicando la siguiente “propiedad vi de la probabilidad”:

P(E2 ∪ E4) = P(E2) + P(E4) – P(E2 ∩ E4)

7 7 7 7
= + - = = 0.875
8 8 8 8

W. Díaz, E. García, N. Rodríguez, F. Córdova


83

f. E3 ∩ E1

Solución:

Los eventos involucrados son los siguientes (ya obtenidos, anteriormente):

E3 = {DNN , NDN , NND}


E1 = {DNN , NDN , NND, DDN , DND, NDD, DDD}

E3 ∩ E1 = E3 ⇒ P(E3 ∩ E1) = P(E3) = 0.375 (ver inciso c).

g. (E1 ∪ E4)C

Solución:

E1: al menos una soldadura está defectuosa.


E4: el número de soldaduras defectuosas está comprendido entre 0 y 2

E1 ∪ E4= {DNN , NDN , NND, DDN , DND, NDD, DDD} ∪


{DNN , NDN , NND, DDN , DND, NDD, NNN } =
{DNN , NDN , NND, DDN , DND, NDD, NNN , DDD}= Ω ⇒ E1 ∪ E4 = Ω
Luego,

(E1 ∪ E4)C = ( Ω )C = φ .
Por lo tanto, aplicando propiedad de la probabilidad de un evento imposible:
P( φ ) = 0

h. (E2 ∩ E3)C

Solución:

E2: como máximo, dos soldaduras están defectuosas.


E3: una soldadura está defectuosa

E2 ∩ E3 =
{VNN , NVN , NNV ,VVN ,VNV , NVV , NNN } ∩ {VNN , NVN , NNV }=
{VNN , NVN , NNV }= E3 ⇒ E2 ∩ E3 = E3
Luego,

(E2 ∩ E3)C = {VVN ,VNV , NVV , NNN ,VVV } ⇒ n( E 2 ∩ E3 ) C = 5


5
P[ ( E2 ∩ E3 ) C ] = = 0.625
8

3) Considere el experimento de lanzar dos dados. Determine los elementos y las


probabilidades respectivas de cada uno de los siguientes eventos:
a) E1: la suma del resultado de las caras vueltas hacia arriba es igual a 4.

W. Díaz, E. García, N. Rodríguez, F. Córdova


84

b) E2: la suma del resultado de las caras vueltas hacia arriba está comprendida entre 2
y 10.
c) E3: la suma del resultado de las caras vueltas hacia arriba es, a lo más, igual a 3.
d) E4: la suma del resultado de las caras vueltas hacia arriba es menor que 8.
e) E2 ∪ E4
f) E 4C
g) (E2 ∪ E4)C ∩ E3

Solución:

Para comprender la solución de este ejercicio, es conveniente construir la siguiente


tabla, donde se aprecia los 36 posibles resultados (pares ordenados) del espacio
muestral Ω :


D2
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
D1 3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
⇒ n(Ω) = 36

donde:

D1: Dado 1 (con posibles resultados: 1, 2, 3, 4, 5, 6)


D2: Dado 2 (con posibles resultados: 1, 2, 3, 4, 5, 6)

a) E1: la suma del resultado de las caras de ambos dados vueltas hacia arriba es
igual a 4.

Solución:

D2
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
D1 3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

P(E1) = 3/36 = 0.08333333

W. Díaz, E. García, N. Rodríguez, F. Córdova


85

b) E2: la suma del resultado de las caras vueltas hacia arriba está comprendida
entre 2 y 10

Solución:

1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

P(E2) = 33/36 = 0.91666666

c) E3: la suma del resultado de las caras vueltas hacia arriba es, a lo más (como
máximo), igual a 3.

Solución:

1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

P(E3) = 3/36 = 0.08333333

d) E4: la suma del resultado de las caras vueltas hacia arriba es menor que 8.

Solución:


1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

P(E4) = 21/36 = 0.58333333

W. Díaz, E. García, N. Rodríguez, F. Córdova


86

e) E2 ∪ E4

Solución:

E2 ∪ E4 = E2

P(E2 ∪ E4) = P(E2) = 33/36 = 0.916666666

f) E 4C

Solución:

1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

P( E 4C ) = 15/36 = 5/12 = 0.41666666 ≈ 0.42

Otra forma de obtener este resultado consiste en aplicar la propiedad de la


probabilidad para un evento complementario (propiedad iv):

P( E 4C ) = 1 – P( E4 ) = 1 – 0.58 = 0.42

g) (E2 ∪ E4)C ∩ E3

Solución:

(E2 ∪ E4)C ∩ E3 = (E2)C ∩ E3

Del inciso b, podemos escribir:

(E2)C = {(5,6), (6,5), (6,6)}, que corresponde a (E2 ∪ E4)C, tal como puede apreciarse
en la ilustración que sigue:

Por otro lado, del inciso c, tenemos:

E3 = {(1,1), (2,1), (1,2)}, que también se ilustra más abajo.

• (E2 ∪ E4)C


1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)

W. Díaz, E. García, N. Rodríguez, F. Córdova


87

2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)


3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

• E3: la suma del resultado de las caras vueltas hacia arriba es, a lo más, igual a 3


1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

(E2 ∪ E4)C ∩ E3 = φ

Luego,

P[(E2 ∪ E4)C ∩ E3] = P( φ ) = 0: aplicando la propiedad de la probabilidad ii.

Si aplicamos la definición de probabilidad, este resultado también lo obtenemos


del siguiente modo:

n(φ )
P( φ ) = = 0 =0
n(Ω) 36

4) Considerar el experimento aleatorio consistente en determinar el número de


bombas en uso a cierta hora del día en cada una de dos gasolineras, A y B,
sabiendo que cada una de ellas dispone de 4 bombas de gasolina. Determine
los elementos y las probabilidades de los siguientes eventos:

M: el número de bombas en uso de la gasolinera A es menor que el de la


gasolinera B.
N: el número total de bombas en uso en las dos gasolineras es igual a tres.
O: por lo menos tres bombas están en uso en cada gasolinera.
P: el número de bombas en uso es el mismo en ambas gasolineras.

Guía de solución:

El espacio muestral asociado al experimento aleatorio lo podemos ilustrar así:


B
0 1 2 3 4
0 (0,0) (0,1) (0,2) (0,3) (0,4)

W. Díaz, E. García, N. Rodríguez, F. Córdova


88

1 (1,0) (1,1) (1,2) (1,3) (1,4)


A 2 (2,0) (2,1) (2,2) (2,3) (2,4)
3 (3,0) (3,1) (3,2) (3,3) (3,4)
4 (4,0) (4,1) (4,2) (4,3) (4,4)

M = {(0,1), (0,2), (0,3), (0,4), (1,2), (1,3), (1,4), (2,3), (2,4), (3,4)}
⇒ n(M) = 10 ⇒ P(M) = 10/25 = 0.40
De manera similar se procede con los demás eventos.

5) En el experimento aleatorio consistente en elegir uno de tres talleres de mecánica


(C, M, S) como centro de prácticas de tres estudiantes del VI ciclo de Ingeniería
Mecánica, determine la probabilidad de que C sea el taller de mecánica donde
realicen prácticas al menos dos estudiantes.

Guía de solución:

Enlistar los elementos del espacio muestral asociado a este experimento aleatorio
(colocar sus elementos entre llaves). El número de elementos de este espacio
muestral será igual a 27, tal como puede ilustrarse enseguida:

Primer estudiante Segundo estudiante Tercer estudiante Resultado


C C C CCC (1)
M CMC (2)
S CSC (3)

C C M CCM (4)
M CMM (5)
S CSM (6)

C C S CCS (7)
M CMS (8)
S CSS (9)
. . . .
. . . .
. . . .

SSS (27)
Con estos resultados, escribimos:

Ω = {CCC, CMC, … SSS} ⇒ n( Ω ) = 27

Para solucionar este ejercicio, se cuenta los resultados (elementos) de Ω , donde


C se repita 2 ó 3 veces en cada resultado.

PROBABILIDAD CONDICIONAL

W. Díaz, E. García, N. Rodríguez, F. Córdova


89

Consideremos dos eventos cualquiera de un espacio muestral Ω , A y B, donde A ≠ φ .


Supongamos que ha ocurrido el evento A. Definimos la “probabilidad del evento B,
condicionado a la ocurrencia del evento A”, denotada como P(B | A) , por:

P( A ∩ B )
P (B | A) = , si P(A) > 0 ……………………………………………………. (1)
P ( A)
De manera similar, si asumimos que B ≠ φ , entonces
P( A ∩ B )
P( A | B ) = , si P(B) > 0………………………………………………….… (2)
P (B )

Formas equivalentes de expresar la fórmula (2) de probabilidad condicional son las


siguientes:
• Probabilidad del evento A, dado que ha ocurrido el evento B.
• Probabilidad del evento A, si ha ocurrido el evento B.
• Probabilidad del evento A, sabiendo que ha ocurrido el evento B.
• Probabilidad del evento A, cuando ha ocurrido el evento B.

Ejemplo:
Al 25 de julio de 2020, se tiene la siguiente información acerca del resultado de las
pruebas moleculares y rápidas, proporcionado por el MINSA en su comunicado N° 183:

Tipo de Resultado
Prueba Positivo Negativo Total
Molecular 103684 251982 355666
Rápida 276200 1574239 1850439
Total 379884 1826221 2206105

Supongamos que se selecciona, aleatoriamente, a una persona que se le realizó una


prueba molecular. Determinar la probabilidad de que el resultado de la prueba sea
positivo.

Solución:
Sean los eventos:
A: El resultado de la prueba es positivo.
B: La prueba realizada a la persona es molecular. (Ha ocurrido el evento B).
Entonces, para facilitar el cálculo de la probabilidad, reproducimos el cuadro anterior y
luego aplicaremos la definición de probabilidad condicional:

W. Díaz, E. García, N. Rodríguez, F. Córdova


90

Tipo de Resultado
Prueba Positivo Negativo Total
Molecular 103684 251982 355666
Rápida 276200 1574239 1850439
Total 379884 1826221 2206105

A: … positivo
B: … molecular
103684
P( A ∩ B ) 103684
P( A | B ) = = 2206105 = = 0.2915
P (B ) 355666 355666
2206105
Interpretación: “La probabilidad de que el resultado de la prueba sea positivo, dado
que la prueba ha sido molecular, es igual a 0.2915”.

Ejercicios:

1. Considere la información del cuadro anterior, la misma que se vuelve a repetir a


continuación:

Tipo de Resultado
Prueba Positivo Negativo Total
Molecular 103684 251982 355666
Rápida 276200 1574239 1850439
Total 379884 1826221 2206105

y determine:
a) La probabilidad de que el resultado de la prueba sea negativo, si la prueba realizada a
una persona, seleccionada al azar, fue rápida.
Guía de solución:
A: El resultado de la prueba es negativo.
B: La prueba realizada a la persona es rápida (serológica).
P( A ∩ B )
P( A | B ) = = 0.8507
P (B )
b) La probabilidad de que la prueba realizada a una persona, seleccionada al azar, sea
molecular, dado que el resultado de la prueba es negativo.

W. Díaz, E. García, N. Rodríguez, F. Córdova


91

Guía de solución:
A: La prueba realizada es molecular.
B: El resultado de la prueba es negativo.

P( A ∩ B )
P( A | B ) = = (251982/2206105)/(355666/2206105) = 0.1142
P (B )

c) La probabilidad de que la prueba realizada a una persona, seleccionada al azar, sea


molecular.
Guía de solución:
A: La prueba realizada es molecular
P(A) = n(A)/n( Ω ) = 355666/2206105 = 0.1612
d) La probabilidad de que el resultado de la prueba realizada a una persona, seleccionada
al azar, sea positivo.
Guía de solución:
A: La prueba realizada ha dado un resultado positivo.
P(A) = n(A)/n( Ω ) = 379884/2206105 = 0.1722
e) La probabilidad de que la prueba realizada a una persona, seleccionada al azar, sea
molecular o rápida.
Guía de solución:
Aplicar la propiedad vi de la probabilidad.
A: la prueba es molecular
B: la prueba es rápida
P(A ∪ B) = P(A) + P(B) – P(A ∩ B)
f) La probabilidad de que el resultado de la prueba realizada a una persona, seleccionada
al azar, sea negativo.
Guía de solución:
A: La prueba realizada ha dado un resultado negativo.
P(A) = n(A)/n( Ω ) =

2. Suponga que el 55% de las muestras de hojalata de acero utilizadas en cierto trabajo
mecánico tienen algún tipo de defecto, el 15% de todas las hojalatas proviene de Aceros
Arequipa y el 5% tiene algún tipo de defecto y proviene de Aceros Arequipa. Considere
los siguientes eventos:
S: una hojalata, seleccionada al azar, sí tiene algún tipo de defecto.
Sc: una hojalata, seleccionada al azar, no tiene algún tipo de defecto.
A: la hojalata seleccionada proviene de Aceros Arequipa.
Ac: la hojalata seleccionada no proviene de Aceros Arequipa.

W. Díaz, E. García, N. Rodríguez, F. Córdova


92

a) Complete la siguiente tabla bidimensional:

S Sc Total
A 0.05 0.15
Ac
Total 0.55 1.00

b) Se selecciona una hojalata al azar, ¿cuál es la probabilidad de que no provenga de


Aceros Arequipa, sabiendo que tiene algún tipo de defecto?. (Rpta.: 0.91).
c) Determine la probabilidad de que una hojalata seleccionada aleatoriamente, no
provenga de Aceros Arequipa. (Rpta.: 0.85).
d) ¿Cuál es la probabilidad de que una hojalata, aleatoriamente seleccionada, no
provenga de Aceros Arequipa ni tenga algún tipo de defecto? (Rpta.: 0.35).
e) Calcular la probabilidad de que, una hojalata seleccionada al azar, no tenga algún
tipo de defecto, dado que proviene de Aceros Arequipa. (Rpta.: 0.67).

EVENTOS DEPENDIENTES Y EVENTOS


INDEPENDIENTES

Se dice que los eventos A y B son dependientes, si


P(A|B) ≠ P(A)
ó
P(B|A) ≠ P(B).
Si se cumple la igualdad en cualquiera de los casos anteriores, se dice que A y B son
eventos independientes, en cuyo caso se cumple:

a) P(A|B) = P(A)
o
b) P(B|A) = P(B)
o
c) P(A∩B) = P(A)P(B)

Ejemplo 1:
Al extraer una carta de una baraja española, ¿cuál es la probabilidad de obtener un
rey sabiendo que es una figura?. Determinar si los eventos involucrados en esta
probabilidad son independientes o dependientes. (Sugerencia: una baraja española tiene

W. Díaz, E. García, N. Rodríguez, F. Córdova


93

40 cartas, distribuidas en los palos oros, bastos, espadas y copas; cada palo tiene 10
cartas: as, 2, 3, 4, 5, 6, 7, figura Sota, figura Caballo y figura Rey).
Solución:
Consideremos los siguientes eventos:
F: la carta extraída es Figura. (Ha ocurrido el evento F)
R: se obtiene un Rey.
Se pide calcular:
P(R ∩ F ) 4 / 40 1
P (R | F ) = = = = 0.33
P (F ) 12 / 40 3
Para saber si F y R son eventos independientes o dependientes, calculamos:
4 1
P( R) = = = 0.10
40 10
Puesto que P(R | F ) ≠ P(R) ⇒ los eventos F y R son dependientes.

NOTA:
Tres eventos E1, E2 y E3 son independientes, si se cumplen las siguientes condiciones:
(i) P(E1∩E2) = P(E1)P(E2),
(2i) P(E1∩E3) = P(E1)P(E3),
(3i) P(E2∩E3) = P(E2)P(E3) y
(4i) P(E1∩E2∩E3) = P(E1)P(E2)P(E3).

Ejemplo 2:
En el ejemplo del experimento aleatorio consistente en lanzar un dado y observar el
número que aparece en la cara superior al reposar sobre una mesa, ¿son independientes
los eventos:
E1: “se obtiene cifra menor que 5”
E2: “se obtiene cifra menor que 4”
E3: “se obtiene cifra mayor que 2 y menor que 6”?

Solución:
Ω = {1,2,3,4,5,6} ⇒ n( Ω ) = 6
E1 = {1,2,3,4} ⇒ n(E1) = 4 ⇒ P(E1) = 4/6 = 2/3
E2 = {1,2,3} ⇒ n(E2) = 3 ⇒ P(E2) = 3/6 = 1/2
E3 = {3,4,5} ⇒ n(E3) = 3 ⇒ P(E3) = 3/6 = 1/2

W. Díaz, E. García, N. Rodríguez, F. Córdova


94

E1∩E2∩E3 = {3} ⇒ n(E1∩E2∩E3) = 1 ⇒ P(E1∩E2∩E3) = 1/6


Es suficiente verificar que no se cumple alguna de las 4 condiciones anteriores para
afirmar que los eventos E1, E2 y E3 no son independientes. Veamos si se cumple la
condición (i)
(i) P(E1∩E2) = P(E1)P(E2)?
E1∩E2 = {1, 2, 3} ⇒ P(E1∩E2) = 1/2
P(E1)P(E2) = (4/6)(3/6) = 1/3
⇒ P(E1∩E2) ≠ P(E1)P(E2)
Vemos que no se cumple la condición (i). Por lo tanto, los eventos E1, E2 y E3 no
son independientes; es decir, son eventos dependientes.
Ejercicio resuelto:
Consideremos el ejemplo de la baraja española. Analizar el cumplimiento o
incumplimiento de las condiciones (2i), para los eventos E1 y E3; (3i), para los eventos E2
y E3 ; y (4i), para los eventos E1, E2 y E3.
Solución:
(2i) P(E1∩E3) = P(E1)P(E3)?
P(E1∩E3) = 2/6 = 1/3
P(E1)P(E3) = (4/6)(3/6) = 1/3
Se cumple la condición (2i). Decimos entonces que los eventos E1 y E3 son
independientes.
(3i) P(E2∩E3) = P(E2)P(E3)?
P(E2∩E3) = 1/6
P(E2)P(E3) = (3/6)(3/6) = 1/4
No se cumple la condición (3i). Por lo tanto, los eventos E2 y E3 no son
independientes.
(4i) P(E1∩E2∩E3) = P(E1)P(E2)P(E3)?
P(E1∩E2∩E3) = 1/6
P(E1)P(E2)P(E3) = (4/6)(3/6)(3/6) = 1/6
P(E1∩E2∩E3) = P(E1)P(E2)P(E3). Se cumple la condición (4i), por lo que afirmamos que
E1, E2 y E3 son independientes.

Ejercicios:
1. Tenga en cuenta la información de las hojalatas de acero (considerada, anteriormente,
en el Ejercicio 2 sobre probabilidad condicional), ¿son independientes los eventos:
a) S y A?. (Rpta.: No). Justifique su respuesta.
b) Sc y Ac? (Rpta.: No). Justifique su respuesta.
2. Considere los siguientes eventos:

W. Díaz, E. García, N. Rodríguez, F. Córdova


95

V: No falla el primer filtro de combustible fabricado por una compañía y


seleccionado al azar de la producción de un día.
W: No falla el segundo filtro de combustible fabricado por una compañía y
seleccionado al azar de la producción de un día.
V ∪ W: Por lo menos uno de los dos filtros de combustible no falla.
Las respectivas probabilidades de V, W y V ∪ W son, respectivamente, 0.7, 0.8 y 0.94.
a) Hallar la probabilidad de que no fallen ninguno de los dos filtros de combustible.
(Rpta.: 0.56).
b) ¿Son los eventos V y W independientes?. (Rpta.: Sí). Justifique su respuesta.

PROBABILIDAD DE LA INTERSECCIÓN

Dados dos eventos A y B de un espacio muestral Ω , la probabilidad de la intersección de


A con B está dada por:
P(A∩B) = P(A)P(B|A) = P(B)P(A|B),
puesto que, a partir de la definición de probabilidad condicional, se tiene:
P( A ∩ B )
P (B | A) = ,o
P ( A)
P( A ∩ B )
P( A | B ) =
P (B )

Podemos notar que en estas dos últimas expresiones es fácil despejar del numerador, lo
cual proporciona la probabilidad de la intersección de dos eventos A y B.

Ejemplo:
Utilicemos la información acerca del resultado de las pruebas moleculares y rápidas,
proporcionado por el MINSA en su comunicado N° 183:

Tipo de Resultado
Prueba Positivo Negativo Total
Molecular 103684 251982 355666
Rápida 276200 1574239 1850439
Total 379884 1826221 2206105

Consideremos los eventos:

A: El resultado de la prueba realizada a una persona, seleccionada al azar, fue negativo

W. Díaz, E. García, N. Rodríguez, F. Córdova


96

B: El tipo de prueba practicado a una persona, seleccionada al azar, fue rápida


Determinemos la probabilidad de que la prueba realizada a una persona, seleccionada al
azar, fue negativo “y” que el tipo de prueba practicado a esa persona fue rápida.

Solución:

1574239
P(A∩B) = = 0.713582989
2206105
1826221 1574239 / 2206105 (1826221)(1574239)
P(A)P(B|A) = ( )( )= = 0.713582989.
2206105 1826221 / 2206105 (2206105)(1826221)
A partir de estos resultados, podemos concluir que se cumple la probabilidad de la
intersección:

P(A∩B) = P(A)P(B|A)

TEOREMA DE LA PROBABILIDAD TOTAL

Sea una colección de eventos B1,B2,...,Bn que forman una partición de un espacio
muestral Ω asociado a un experimento aleatorio, es decir
n
(1) Ω = ∪ Bi
i =1

y
(2) Bi∩Bj = ∅, ∀ i≠j

Los resultados (1) y (2) se pueden comprender mejor en el siguiente diagrama:


P(S|B1)

B1
S
.....

Bn

B2

P(S|Bn)

Si S es un evento cualquiera de Ω, el teorema de la probabilidad total, establece que:


n
P( S ) = ∑ P( Bi )P ( S | Bi )
i =1

W. Díaz, E. García, N. Rodríguez, F. Córdova


97

Ejemplo:
Supongamos que de los 43 estudiantes de la la Escuela Académico Profesional de
Ingeniería Mecánica de la Universidad Nacional de Trujillo, matriculados en el curso de
Estadística en el semestre 2021-I, 26 proceden de Trujillo, 4 de Lima y 13 de Cajamarca.
Se sabe que de todo el universo, el número de estudiantes que usan laptop para recibir
sus clases virtuales corresponde a 6 de Trujillo, 1 de Lima y 3 de Cajamarca. Un
estudiante se selecciona al azar de la Escuela Académico Profesional de Ingeniería
Mecánica, determinar la probabilidad de que dicho estudiante use laptop para recibir
sus clases virtuales.
Solución:

S: “El estudiante seleccionado usa laptop para recibir sus clases virtuales”
B1: “El estudiante seleccionado es de Trujillo”
B2: “El estudiante seleccionado es de Lima”
B3: “El estudiante seleccionado es de Cajamarca”

P(B1) = 26/43 = 0.605; P(B2) = 4/43 = 0.093; P(B3) = 13/43 = 0.302

6 1 3
P( S | B1 ) = = 0.231 ; P( S | B2 ) = = 0.25 ; P( S | B3 ) = = 0.231
26 4 13

Para encontrar la probabilidad del evento S, utilizaremos el Teorema de la Probabilidad


Total, cuya fórmula la volvemos a reproducir:
n 3
P( S ) = ∑ P( Bi )P( S | Bi ) = ∑ P( B )P(S | B )
i i
i =1 i =1

P(S) = P(B1) P(S|B1) + P(B2) P(S|B2) + P(B3) P(S|B3): Teorema de la probabilidad


total
= (0.605)(0.231) + (0.093)(0.25) + (0.302)(0.231) = 0.233
Interpretación:
“La probabilidad de que el estudiante seleccionado use laptop para recibir sus clases
virtuales es igual a 0.233”.

TEOREMA DE BAYES

W. Díaz, E. García, N. Rodríguez, F. Córdova


98

El Teorema de Bayes posibilita el cálculo de las probabilidades a posteriori de la forma

P(Bi|S),

conociendo las probabilidades a priori P(Bi) y las probabilidades de las causas


P(S|Bi). El teorema de Bayes se usa en diferentes áreas, como medicina, estomatología,
turismo, agronomía, economía, educación, farmacia, medicina, ingeniería, etc.

Teorema de Bayes
Sea una colección de eventos B1,B2,...,Bn que forman una partición de Ω de un
experimento aleatorio, es decir
n
(1) Ω = ∪ Bi
i =1

y
(2) Bi ∩ Bj = ∅ ∀ i≠j
Si S es un evento cualquiera de Ω y se conocen P(Bi) y P(S|Bi), entonces

P(Bi )P(S | Bi )
P(Bi | S ) = n

∑ P(B )P(S | B )
i =1
i i

El teorema de Bayes es una consecuencia inmediata de la definición de probabilidad


condicional y del teorema de la probabilidad total. [Notemos, en la expresión anterior,
que el denominador es la definición del Teorema de la Probabilidad Total: P(S)].

Ejemplo:
Una prueba molecular detecta la presencia de coronavirus en el 98% de los casos y si la
persona no está contagiada de coronavirus da negativo en el 94% de los casos. Se sabe
que la probabilidad de que una persona esté contagiada de coronavirus es igual a 0.21.
Hallar la probabilidad de que la persona:
a) Esté contagiada con coronavirus si la prueba molecular ha resultado positiva.
b) Esté contagiada de coronavirus cuando la prueba molecular ha resultado negativa.

Solución:
a) S: “la prueba molecular da resultado positivo”
B1: “la persona está contagiada con coronavirus”
 P(B1) = 0.21,
P(S|B1) = 0.98

W. Díaz, E. García, N. Rodríguez, F. Córdova


99

B2: “la persona no está contagiada con coronavirus”


 P(B2) = 1 – P(B1) = 1 – 0.21 = 0.79,
P(S|B2) = 0.06 = 1 – 0.94
P(B1 )P(S | B1 ) (0.21)(0.98)
P(B1 | S ) = = = 0.8128
P(B1 )P(S | B1 ) + P(B2 )P(S | B2 ) (0.21)(0.98) + (0.79 )(0.06 )
Interpretación:
“Si la prueba molecular dio resultado positivo, la probabilidad de que la persona
esté contagiada de coronavirus es igual a 0.8128”.

b) S: “la prueba molecular da resultado negativo”


P(B1 )P(S | B1 ) (0.21)(0.02)
P(B1 | S ) = = = 0.0056
P(B1 )P(S | B1 ) + P(B2 )P(S | B2 ) (0.21)(0.02 ) + (0.79 )(0.94 )
Interpretación:
“Si la prueba molecular dio resultado negativo, la probabilidad de que la persona
esté contagiada de coronavirus es igual a 0.0056”.

Ejercicios

1. Una compañía constructora adquiere electrobombas de las empresas I, II y III, en número


de 24, 15 y 61, respectivamente. Con el tiempo, la compañía ha comprobado que el
número de electrobombas que se malogran antes de tener un año de funcionamiento, es
de 3, 1 y 5 si las adquiere de las empresas I, II y III, respectivamente. De modo aleatorio,
de las 100 electrobombas, se selecciona una:

a) Hallar la probabilidad de que ella se malogre antes de tener un año de funcionamiento.


(Rpta.: 0.).
b) Si esa electrobomba se malogra antes de tener un año de funcionamiento, ¿cuál es la
probabilidad de que haya sido adquirida de la empresa III. (Rpta.: 0
c) Si la electrobomba no se ha malogrado antes de tener un año de funcionamiento,
determinar la probabilidad de que haya sido adquirida de la empresa I. (Rpta.: 0.).
d) Calcular la probabilidad de que la electrobomba seleccionada no se malogre antes de
tener un año de funcionamiento. (Rpta.: 0.).

2. A un centro oftalmológico llegan soldadores con cierto tipo de afección visual. El 5% de


los soldadores tienen conjuntivitis, el 80% tiene inflamación de la cornea y el 15% restante
tiene una complicación de glaucoma. Se sabe que el 1.2%, 2.6% y 3.1% de los pacientes
con cáncer oral, con necesidad de atención estomatológica y con una patología periodontal,
respectivamente, ha visitado alguna vez a un odontólogo. Se selecciona un paciente al azar:
a) Hallar la probabilidad de que haya visitado alguna vez a un odontólogo.
b) ¿Cuál es la probabilidad de que el paciente haya tenido una patología periodontal, dado
que visitó alguna vez a un odontológo?

W. Díaz, E. García, N. Rodríguez, F. Córdova


100

3. Utilizando la información de la tabla anterior, acerca del resultado de las pruebas


moleculares y rápidas, proporcionado por el MINSA en su comunicado N° 183,
comprobar que:
P(A∩B) = P(B)P(A|B)
4. Suponga que Minera Yanacocha está proyectando perforar un cerro, donde no se sabe, si
existe oro o no. De experiencias anteriores, el personal técnico que utiliza la maquinaria
pesada para el cometido, estima que la probabilidad de que exista oro en el cerro es igual
a 0.1. Antes de tomar la decision de dinamitizar el cerro, se realizará una prueba
preliminar, la cual puede, incluso, indicar que no existe oro en el cerro. Se conoce que, si
existe oro en el cerro, la prueba es positive en el 90% de las veces y si no existe oro, la
prueba da positivo en el 20% de las veces. Encontrar la probabilidad de que, si la prueba
da positivo como resultado, exista oro. (Rpta.: 0.33).

VARIABLE ALEATORIA (X)

Es una función con valor numérico, definida sobre un espacio muestral Ω. Usualmente,
se la denota con la letra mayúscula X. Es decir:

X : Ω  ℜ,

donde ℜ representa el conjunto de números reales (cuyos valores son numéricos).


A los valores de la variable aleatoria X los denotamos por la correspondiente letra
minúscula x:

EJEMPLOS:

1. X: Número de pernos de cabeza en forma hexagonal en una selección de 2, de entre


15 pernos (con cabezas en forma hexagonal, cuadrada, allen).
X= 0,1,2; n(Ω)= C 215
2. Y: Número de atenciones oftalmológicas a mecánicos en la Clínica Cristo Redentor de
Trujillo.
Y= 0,1,2,...,∞
3. Z: Cantidad de corrosión (en gramos) de una estructura metálica.
Z: 0 < Z < ∞
4. W: Consumo mensual de energía eléctrica (Kw/a) de un taller de mecánica.
5. T: Resistencia (lbs/pulg2) de una barra de acero.
6. I: Intensidad de la luz solar a cierta hora del día.

CLASES:

W. Díaz, E. García, N. Rodríguez, F. Córdova


101

a) DISCRETA: La que sólo puede asumir una cantidad de valores susceptible de


contarse.
Ejemplos (1) y (2) anteriores.
b) CONTINUA: La que puede asumir cualquiera de los valores del número
incontablemente infinito que hay dentro de un intervalo. Ejemplos: (3), (4), (5) y
(6) anteriores.

DISTRIBUCIÓN DE PROBABILIDAD:
Tabla, fórmula o gráfica que proporciona las probabilidades de los valores de X.
Tenemos dos casos:

a) DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA


DISCRETA.- Se representa así:

P(X=x)  Función de cuantía


xi P(X=xi)
x1 P(X=x1)
. .
. .
. .
xn P(X=xn)

Nota:
Cuando la variable aleatoria es discreta, a la función de cuantía también se la
denomina función masa de probabilidad (f.m.p.).

Ejemplo 1:
X: suma de puntos en las caras superiores al lanzar 2 dados.
Ω={(1,1), (1,2),..., (6,6)}  n(Ω) = 36

X 2 3 4 ... 12
P(X=x) 1/36 2/36 3/36 ... 1/36

REPRESENTACIÓN GRÁFICA:

Le corresponde un gráfico como el siguiente, al cual se le denomina gráfico de


bastones. (Un gráfico de bastones se lo construye en el plano cartesiano, colocando

W. Díaz, E. García, N. Rodríguez, F. Córdova


102

en el eje de las abscisas los valores de la variable X y en el eje de las ordenadas los
valores de P(X=x); luego, de cada valor de X se levantan segmentos perpendiculares
al eje de las abscisas, cuya longitud es igual al valor de la función de cuantía). El
gráfico correspondiente, para este ejemplo, toma la forma siguiente:

P(X=x)

6/36

3/36

X
2 3….. 7…. 12

Ejemplo 2:
X: Número de generadores eléctricos apagados en el experimento aleatorio de
observar el sistema de encendido de 2 generadores eléctricos. (Las posibilidades del
sistema de encendido son: encendido, apagado).
X: 0, 1, 2
La distribución de probabilidad de X, en forma de tabla, es la siguiente:

X 0 1 2
P(X=x) 0.25 0.50 0.25

Ejemplo 3:
X: Número de lanzamientos de una moneda legal hasta que aparezca cara:
1
X , P( X = x) = , x = 1,2 ,....
2x
PROPIEDADES DE LA FUNCIÓN DE CUANTÍA:

i) 0 ≤ P(X = x) ≤ 1,
ii) ∑ P( X
∀x
= x) = 1

Ejemplo 4:
Se extraen 3 tornillos al azar de un conjunto de 12 tornillos, 5 de los cuales están
oxidados.
X: Número de tornillos oxidados extraídos:

W. Díaz, E. García, N. Rodríguez, F. Córdova


103

C x5 C37− x
P( X = x) = , x = 0,1,2,3
C312

b) DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE CONTINUA.-

Se representa por la función f(x), del siguiente modo:

f(x), a ≤ X ≤ b
A f(x) se le llama función de densidad o función densidad de probabilidad (f.d.p.).

Ejemplo 5:
1 −Z 2 / 2
f ( z) = e , -∞ < Z < ∞

f(0) = 0.3989; f(±1) = 0.2420; f(±2) = 0.0540
Ejemplo 6:

Supongamos que el ancho del canal chavetero de una polea (X, en ciertas unidades)
está representada por:
0.5 x , 0 ≤ x ≤ 2
f ( x) = 
0 , e.o.c.
En la expresión anterior, e.o.c. significa: “en otro caso”. (En este ejemplo, e.o.c.
significa que x < 0 ó que x > 2, en cuyos valores de X, la función de cuantía toma
el valor de 0).

PROPIEDADES DE LA FUNCIÓN DE DENSIDAD:


i) f(x) ≥ 0 para todo x,

2i) ∫ f ( x)dx = 1
−∞

REPRESENTACIÓN GRÁFICA DE LA FUNCIÓN DE DENSIDAD:

La gráfica de la función de densidad, puede tomar muchas formas, dependiendo de


la forma en que tome f(x).
Así, para el Ejemplo 1,

0 3989

0 2420

0 0540

W. Díaz, E. García, N. Rodríguez, F. Córdova


104

-3 -2 -1 0 1 2 3 Z

Para el Ejemplo 6, aproximadamente, la función de densidad puede tomar la


siguiente forma (para tener una representación exacta de la función de densidad, se
puede reacomodar la escala del eje de las ordenadas, reubicando convenientemente
los valores de ¼, ½ y 3/4):

f(x)

3/4

1/2

1/4
X
0
1 2

Ejercicio:
Verificar el cumplimiento de las propiedades i) y ii) para cada uno de los ejemplos
anteriores. (Ejemplo 1, Ejemplo 2, …, Ejemplo 6).

Solución:
A continuación, se resuelve para el Ejemplo 1 (variable aleatoria discreta) y el
Ejemplo 6 (variable aleatoria continua).

Ejemplo 1 (suma de puntos en el lanzamiento de dos dados):

X 2 3 4 ... 12
P(X = x) 1/36 2/36 3/36 ... 1/36

i) P(X = x) ≥ 0.

Como se puede observar en la tabla, todos los valores de P(X = x) cumplen con
esta propiedad de la función de cuantía.
ii) ∑P(X = x) = (1/36) + (2/36) +...+ (1/36) = 1.
Igualmente, si sumamos todos los valores de la función de cuantía, se comprueba
que el resultado es igual a 1, con lo cual se cumple la propiedad ii).

Ejemplo 6:

W. Díaz, E. García, N. Rodríguez, F. Córdova


105

0.5 x , 0 ≤ x ≤ 2
f ( x) = 
0 , e.o.c.

i) f(x) ≥ 0
2 2 2
1 1
ii) ∫
0
f ( x)dx = ∫0 2 xdx = 2 ∫0 xdx
2
1 x2  1 1 2
=  = . 2 −0
2 2 0 2 2
2
( )
1
= (4 − 0) = 1
4

FUNCIÓN DE DISTRIBUCIÓN

Llamada también función de distribución acumulada. Se la denota por F(x) y se


define del siguiente modo, para una variable aleatoria X:
F(x) = P(X ≤ x)
Así, según la variable aleatoria X, tenemos:

a) FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA


DISCRETA:

x0
F ( x0 ) = ∑ P ( X = x ) :

F ( x0 ) representa el valor de la función de distribución, F (x) , cuando X = x0

b) FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA


CONTINUA:
x0

F ( x0 ) = ∫ f ( x)dx
−∞

Propiedad:
Se cumple: F , ( x) = f (x) :
Esta expresión indica que “la primera derivada de F(x), con respecto de x, es
igual a f(x)”.

W. Díaz, E. García, N. Rodríguez, F. Córdova


106

Ejemplo 1: (Caso en que X es una variable aleatoria discreta)


Para el experimento de lanzar 2 dados y observar las caras superiores con X: suma de
puntos de ambos dados, se tiene (caso discreto), obtener F(5):

Solución:
Cuando X es discreta, el valor de la función de cuantía P(X = x) corresponde al valor de
la correspondiente frecuencia relativa simple (hi) y el valor de la función de distribución
F(x) será la correspondiente frecuencia relativa acumulada (Hi).

x 2 3 4 5 6 7 8 9 10 11 12

P(X=x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

F(x) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 36/36

F (5) = P ( X ≤ 5) = ∑ P ( X = x) = P ( X = 2) + P ( X = 3) + P ( X = 4) + P ( X = 5) =
x ≤5

= (1/36) + (2/36) + (3/36) + (4/36) = 10/36

Ejercicio:
Graficar la función de distribución para el Ejemplo 1 (experimento de lanzar dos dados):

REPRESENTACIÓN GRÁFICA:

F(x)

1
30/36

20/36

10/36

0 2 3 4 5 6 7 8 9 10 11 12

Ejemplo 2:
Hallar el valor de la constante c, tal que f(x) defina una función de densidad en el
intervalo dado y hallar F(x), donde:

a) f(x) = c senx, 0 ≤ x ≤ π y f(x) = 0 e.o.c. ( a = 0 y b = π).

W. Díaz, E. García, N. Rodríguez, F. Córdova


107

b) f(x) = c/(1+x2), -∞ < x < ∞

Solución:
Aplicando la propiedad 2i) de la función de densidad, se tiene:
∞ a b ∞
a) ∫ f ( x)dx = 1 ⇒ ∫ f ( x)dx + ∫ f ( x)dx + ∫ f ( x)dx = 1
−∞ −∞ a b

Reemplazando los valores de a = 0 y b = π, se tiene:

0 ∏ ∞ ∏ ∏

∫ f ( x)dx + ∫ f ( x)dx + ∫ f ( x)dx = 1 ⇒ 0 + ∫ f ( x)dx + 0 = 1 ⇒ ∫ f ( x)dx = 1


−∞ 0 ∏ 0 0

Luego, después de reemplazar la función de densidad, se tiene:


⇒ ∫ csenxdx = 1 ⇒ − ccos x ]0 = 1 ⇒ -c(cosπ-cos0) = 1 ⇒ -c(-1-1) = 1
π
π

⇒ 2c = 1 ⇒ c=1/2
1
Por lo que f ( x) = senx
2
Ahora determinaremos la función de distribución:
Sabemos que F(x) = P(X ≤ x). Por lo tanto:
x 0 x x
1
F ( x) = ∫
−∞
f ( x)dx = ∫−∞ f ( x)dx + ∫0 f ( x)dx =0 + ∫0 2 senudu
= − 1 cos u ]0x = − 1 (cos x − cos 0 ) = − 1 (cos x − 1) = 1 (1 − cos x )
2 2 2 2
1
⇒ F ( x) = (1 − cos x )
2
∞ r
c c
∫−∞1 + x 2 dx = 1 ⇒ lím ∫ dx = 1 ⇒ lím[c arctan x ]− r = 1
r
b) 2
r →∞ 1 + x r →∞
−r

⇒ c lím[arctan r − arctan(−r )] = 1
r →∞

⇒ c{límr →∞ arctan r − límr →∞ (arctan(−r ) } = 1


Puesto que:
límr →∞ (arctan r ) = π /2 y
límr →−∞ (arctanr ) = − π /2
se concluye que
c{(∏ / 2) − (− ∏ / 2) } ⇒ c ∏ = 1 ⇒ c = 1/ π .
1
⇒ f ( x) =
(
π 1+ x2 )

W. Díaz, E. García, N. Rodríguez, F. Córdova


108

x x
du 1 du 1
F ( x) = ∫ = lím ∫ = lím [arctan u ]− r
x

(
− ∞π 1 + x
2
)u → ∞ π −r 1 + u 2 u → ∞ π
1 1 π 
= lím [arctan x − arctan(−r )] =  + arctan x 
π u →∞ π2 
1 π 
⇒ F ( x) =  + arctan x 
π2 

PROPIEDADES DE LA FUNCIÓN DE DISTRIBUCIÓN:

i) P( a ≤ X ≤ b ) = F( b ) - F( a -1) = ∑ P( X = x ) − ∑ P( X = x ) , si X es discreta.
x ≤b x ≤ a −1

ii) P( a < X ≤ b ) = P( a ≤ X < b ) = P( a < X < b ) = P( a ≤ X ≤ b ) = F( b ) - F( a )


b
= ∫ f (u )du , si X es continua
a

iii) P(X = x0) = 0, si X es continua: “la probabilidad en un punto es igual a cero”


iv) F(x) toma la forma de una escalera, si X es discreta.
v) F(x) es continua y monotónicamente creciente de x. Es decir, si a < b ⇒ F(a) ≤ F(b),
para X continua.
vi) F(x) es continua, si X es continua.
vii) F(- ∞ ) = 0, para ambos tipos de variable aleatoria.
viii) F(+ ∞ ) = 1, para ambos tipos de variable aleatoria.

Nota:
A modo de ilustración, si X es continua, la forma de F(x) puede ser la siguiente:

F(x)

Ejemplo:
Utilizando la información del Ejemplo 1 (X: suma de puntos en el lanzamiento de dos
dados; X es discreta), hallar:

W. Díaz, E. García, N. Rodríguez, F. Córdova


109

a) P(4 ≤ X ≤ 9)
b) P(3 < X ≤ 5 )
c) P(5 < X < 8)
d) P(4 < X < 9)
e) P(4 ≤ X < 9)
f) P(4 < X ≤ 9)
g) P(X = 6)
h) P(3 ≤ X < 8)

Solución:
A continuación, se presenta la solución para los incisos a), b) y c).
Con la finalidad de comprender la solución de este ejemplo, reproducimos nuevamente
la tabla que contiene los valores de X, P(X = x) y F(x):

x 2 3 4 5 6 7 8 9 10 11 12

P(X=x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

F(x) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 36/36

a) P(4 ≤ X ≤ 9)
Con a = 4 y b = 9, tenemos:
• Utilizando los valores de la función de cuantía:

P(4 ≤ X ≤ 9) = P(X = 4) + P(X = 5) + P(X = 6) + P(X = 7) + P(X = 8) + P(X = 9)


= (3/36) + (4/36) + (5/36) + (6/36) + (5/36) + (4/36) =
27/36
• Aplicando la propiedad i):
(i) P( a ≤ X ≤ b ) = F( b ) - F( a -1) = ∑ P( X = x ) − ∑ P( X = x ) , X discreta.
x ≤b x ≤ a −1

P(4 ≤ X ≤ 9) = F(9) – F(4-1) = F(9) – F(3) = (30/36) – (3/36) = 27/36

b) P(3 < X ≤ 5 )
• Utilizando los valores de la función de cuantía:

P(3 < X ≤ 5) = P(4 ≤ X ≤ 5) = P(X = 4) + P(X = 5)

W. Díaz, E. García, N. Rodríguez, F. Córdova


110

= (3/36) + (4/36) = 7/36


• Aplicando la propiedad i):
P(4 ≤ X ≤ 5) = F(5) – F(3) = (10/36) – (3/36) = 7/36

c) P(5 < X < 8)


• Utilizando los valores de la función de cuantía:

P(5 < X < 8) = P(6 ≤ X ≤ 7) = P(X = 6) + P(X = 7) = (5/36) + (6/36) = 11/36


• Aplicando la propiedad i):
P(5 < X < 8) = P(6 ≤ X ≤ 7) = F(7) – F(5) = (21/36) – (10/36) = 11/36

Ejercicio:
Una variable aleatoria X consiste en observar el número de cilindros de un grupo de
motores. Los valores de X, P(X = x) y F(x) se observan en la siguiente tabla:

xi P(X = xi) F(xi)


2 0.2 0.2
3 0.4 0.6
4 0.3 0.9
5 0.1 1.0
TOTAL 1.0

Graficar:
a. La función de cuantía (gráfico de bastones).
b. La función de distribución (gráfico en forma de escalera o escalonada).

Solución b):

W. Díaz, E. García, N. Rodríguez, F. Córdova


111

La representación gráfica, a la derecha de la tabla, se puede comprender mejor, si se tiene


en cuenta lo siguiente:

F{( − ∞ , 2)} = 0: Propiedad vii).


F{[2, 3)} = 0.2
F{[3, 4)} = 0.6
F{[4, 5)} = 0.9
F{[5, + ∞ )} = 0.2: Propiedad viii).

Ejercicios

1. La siguiente tabla muestra la distribución de probabilidad de la variable aleatoria X:


Número de juntas de soldadura de un grupo de piezas metálicas:

x 0 1 2 3 4 5
P(X=x) 0.01 0.1 0.3 0.4 0.1 ?

Asumiendo que P(X = x) es una función de cuantía (llamada también, función masa
de probabilidad):

a) Hallar P(X = 5), el cual se encuentra con el símbolo “?” en la tabla. (Rpta.: 0.09).
b) Graficar P(X = x).
c) Hallar y graficar F(x).
d) Hallar e interpretar P(X ≤ 2). (Rpta.: 0.41: “La probabilidad de que el número
máximo de juntas de soldadura sea igual a 2 es de 0.41”).

W. Díaz, E. García, N. Rodríguez, F. Córdova


112

e) Hallar P(X < 2). (Rpta.: 0.11).


f) Hallar P(X > 3). (Rpta.: 0.19).

2. Una variable aleatoria X, representa el espesor (en milímetros) de cierta lámina de


metal, cuya función de densidad es:

f(x) = ½, si 1 ≤ X ≤ 3 y f(x) = 0, en otro caso (e.o.c.). (Ésta se conoce con el nombre


de distribución uniforme en [1, 3]).

a) Obtener la función de distribución.


[Rpta.: F(x) = 0, si x < 1
F(x) = (x - 1)/2, si 1 ≤ X ≤ 3
F(x) = 1, si x ≥ 3].
b) Graficar f(x).
c) Graficar F(x).

VALOR ESPERADO Y VARIANZA MATEMÁTICA DE UNA VARIABLE


ALEATORIA

1. MEDIA (VALOR MEDIO O VALOR ESPERADO O ESPERANZA


MATEMÁTICA).- Se representa por E(X), pero más comunmente por µ y se define
por:

a) E(X) = µ = ∑ x P( X = x ) , si X es discreta.
i i

b) E(X) = µ = ∫ xf ( x)dx , si X es continua.
−∞
Ejemplo 1: El número de cilindros, X, en el motor de un conjunto de vehículos tiene
la siguiente función masa de probabilidad (o función de cuantía) de X es:

x 4 6 8
P(X = x) 0.4 0.5 0.1

Hallar el valor esperado de X. (Rpta.: µ = 5.4).


Ejemplo 2: Hallar µ para la variable aleatoria continua X: cantidad de óxido
eliminado (libras) al lijar estructuras metálicas semejantes, cuya función de
densidad toma la forma siguiente (distribución exponencial):
1 −x / 2
f ( x) = e , 0 ≤ x < ∞;
2
f ( x) = 0, e.o.c.

(Rpta.: µ = 2).

Solución:

W. Díaz, E. García, N. Rodríguez, F. Córdova


113

∞ ∞ 0
1 −x / 2 ∞
1 −x / 2

1
µ = ∫ xf ( x)dx = ∫−∞x( 2 e )dx = ∫ x(0)dx + ∫0 x( 2 e )dx = 0 + ∫ x( 2 e
−x / 2
)dx
−∞ −∞ 0


1
= ∫ x( 2 e
−x / 2
)dx
0

Para integrar la expresión precedente, debemos utilizar la integración por


∞ ∞
partes: ∫ udv =

u v 0 ] - ∫ vdu
0 0

u x du = dx
dv 1 −x / 2 v = −e − x / 2
e dx
2
Por lo tanto:
∞ ∞
1 −x / 2
∫0 x( 2 e )dx = − xe ] 0 −
−x / 2 ∞
∫−e
−x / 2
dx
0


= − {lím ( x) lím (e − x / 2 ) − lím( x) lím(e − x / 2 )} + ∫ e − x / 2 dx
x →∞ x →∞ x →0 x →0
0


= − {lím ( x)(o) − (0) lím(e − x / 2 )} + ∫ e − x / 2 dx
x →∞ x →0
0


= 0 + ∫ e − x / 2 dx
0


= −2 ∫ e (−1 / 2)dx =
−x / 2
− 2e − x / 2 ]∞0 = − 2(e −∞ − e 0 )
0

= − 2 (0 – 1) = 2.

2. VARIANZA DE UNA VARIABLE ALEATORIA (σ2)

a) σ 2 = ∑ ( xi − µ ) P( X = xi ) , si X es discreta.
2

∫ (x − µ ) f ( x)dx , si X es continua.
2
b) σ = 2

−∞

En general, independientemente de si la variable aleatoria X es discreta o continua,


la varianza de X se puede obtener del siguiente modo:

V(X) = σ 2 = E(X2) - µ2,


donde:

W. Díaz, E. García, N. Rodríguez, F. Córdova


114

E(X2) = ∑ x P( X = x ) , si X es discreta.
2
i i

E(X2) = ∫ x 2 f ( x)dx , si X es continua.
−∞

A la raíz cuadrada positiva de la varianza la llamamos desviación estándar y se


denota por σ.

ALGUNAS ILUSTRACIONES QUE RELACIONAN LA MEDIA Y LA


VARIANZA

f(x) f(x)
σ1 σ1=σ2
σ1<σ2 µ1<µ2

σ2

0 x x
µ 0 µ1 µ2

En el gráfico de la parte izquierda, se tiene dos distribuciones de probabilidad con la


misma media, pero diferentes varianzas. En cambio, en la figura de la parte derecha, las
distribuciones tienen diferente media e igual varianza.

Ejemplo 3: Hallar la varianza y la desviación estándar (σ2 y σ) de la variable aleatoria,


X: resultado obtenido al lanzar un dado legal. (Rpta.: σ2 = 2.9167, σ = 1.7078).

Solución:
Construimos la siguiente tabla:

xi P(X=xi) xi P(X=xi) (xi)2 P(X = xi)


1 1/6 1/6 1/6
2 1/6 2/6 4/6
3 1/6 3/6 9/6
4 1/6 4/6 16/6
5 1/6 5/6 25/6

W. Díaz, E. García, N. Rodríguez, F. Córdova


115

6 1/6 6/6 36/6


TOTAL 1 21/6 = µ 91/6 = E(X2)

V(X) = σ 2 = E(X2) - µ2 = (91/6) – (21/6)2 = 15.1667 – 12.25 = 2.9167

σ= 2.9167 = 1.7078
0.5 x, 0 ≤ x ≤ 2
Ejemplo 2: Si X es una variable aleatoria continua, tal que f ( x) =  .
0, e.o.c.
Hallar la esperanza matemática y la varianza de X. (Rpta.: µ = 4/3, σ2 =2/9).
Ejemplo 3: El tiempo (horas) que puede transcurrir en el Servicio de Emergencia del
Instituto Regional de Oftalmología para la llegada de un paciente soldador con un cuerpo
extraño en alguno de los ojos, se distribuye según la exponencial, cuya función de
densidad es:
x
1 −3
f ( x) = e , x > 0.
3
Hallar la función de distribución, la esperanza matemática y la varianza de X. (La
solución de la determinación de la esperanza matemática, es semejante a la del Ejemplo
2, en “Valor Esperado”, con θ = 2).
 −
x

[Rpta.: F ( x) = 1 − e 3
, x > 0 ; E(X) = 3, E(X2)=18, V(X) = 9].

0 , e.o.c.

EJERCICIOS

1) Hallar y graficar la función de probabilidades de la variable aleatoria discreta X:


suma de los tres números que se obtienen al arrojar tres dados legales.

2) Si X es una variable aleatoria continua, cuya función de densidad es

f(x) = kx, 0 ≤ x ≤ 4.

a) Hallar k y F(x).
b) Hallar “a” tal que P(X ≤ a) = 0.81 = 81%.

Respuesta:
a) k = 1/8, con lo que f(x) = x/8, 0 ≤ x ≤ 4. F(x) = x2/16, b) a = 3.6

Solución:

Inciso a)

W. Díaz, E. García, N. Rodríguez, F. Córdova


116

• Determinación de k y de f (x) :
Sabemos que la segunda propiedad de la función de densidad es:

∫ f ( x)dx = 1
−∞

Luego, reemplando f (x) = kx en dicha integral, se tiene:


∞ 0 4 ∞ 4

∫ kxdx = 1 ⇒ ∫ (0)dx + ∫ kxdx + ∫ (0)dx = 1 ⇒ ∫ kxdx


−∞ −∞ 0 4 0
=1

∫ xdx = 1 ⇒ k (x
2
⇒ k /2)] 04 = 1 ⇒ k (8-0) = 1
0

⇒ k = 1/8, con lo cual


f ( x) = x / 8

• Determinación de la función de distribución F(x):


Por definición de F(x), tenemos:
x
F ( x) = ∫ f (u )du
−∞

x
⇒ F ( x) = ∫ (u / 8)du
−∞

x 0 x

∫ (u / 8)du = ∫ (0)du + ∫ (u / 8)du = (1/8) (u / 2)]0 = (1/8)( x / 2 - 0)


2 x 2

−∞ −∞ 0

⇒ F ( x) = x 2 / 16 .

Inciso b)
Hallar “a” tal que P(X ≤ a) = 0.81 = 81%.
Acabamos de encontrar la función de distribución en el inciso a).
Reemplazemos en dicha función “x” por “a”:
F(a) = P(X ≤ a). Luego,
F(a) = a2/16 ⇒ a2/16 = 0.81, de donde: a = 16(0.81) = 12.96 = 3.6.

3) En cada caso, hallar c para que la función f(x) sea de densidad en el intervalo dado.
Hallar F(x):

a) f(x) = cx(4-x), 0 ≤ x ≤ 4.

W. Díaz, E. García, N. Rodríguez, F. Córdova


117

3 3 1
Rpta.:  f ( x) = x(4 − x) ; F ( x) = x 2 − x 3
32 16 32
b) f(x) = c/[(1+x)3], 0 ≤ x ≤ ∞.
2 1
Rpta.:  f ( x) = 3
; F ( x) = 1 −
(1 + x) (1 + x) 2
1 − cx
c) f(x) = e , 0 ≤ x ≤ ∞.
2
1
Rpta.:  f ( x) = e − x / 2 ; F ( x) = 1 − e − x / 2
2
3
d) f(x) = cx 2e − x , 0 ≤ x ≤ ∞.
3 3
Rpta.:  f ( x) = 3 x 2 e − x ; F ( x) = 1 − e − x
π π
e) f(x) = c cosx, −≤x≤
2 2
1
Rpta.: f(x) = cosx
2
1
F ( x) = ( senx + 1)
2
4) La cantidad de roca (en toneladas) extraída por una máquina autopropulsada en un
conjunto de semanas es una variable aleatoria continua que se distribuye con la
siguiente función de densidad:
3
f (x) = (1 − x 2 ), 0 ≤ x ≤ 1
2
f ( x) = 0 , en otro caso.
Hallar:
a) La función de distribución.
3 x3
[Rpta.: F (x) = ( x − ), 0 ≤ x ≤ 1 ; F (x) = 0, x < 0 ; F ( x) = 1 , x > 1].
2 3
b) El valor esperado de X. (Rpta.: 0.375).
c) La media de X2. (Rpta.: 0.2).
d) La varianza de X. (Rpta.: 0.0594).
e) La desviación estándar de X. (Rpta.: 0.24).
f) La cantidad máxima de roca extraída, a lo más en el 70% de las semanas.
3 x3
(Sugerencia: Resolver la ecuación ( x − ) = 0.7).
2 3
5) Verifique las propiedades de una función de densidad, utilizando la información de la
pregunta 4).

W. Díaz, E. García, N. Rodríguez, F. Córdova


118

MODELOS DE PROBABILIDAD
Se trata de estudiar las relaciones entre los valores de una variable aleatoria y las
probabilidades de que su ocurrencia puedan resumirse mediante la distribución de
probabilidad. Las distribuciones de probabilidad de muchas variables aleatorias de interés
pueden determinarse o asumirse sobre la base de consideraciones teóricas. Existen dos
tipos de modelos de probabilidad de una variable aleatoria, según que ésta sea discreta o
continua.

DISTRIBUCIONES DE PROBABILIDAD DISCRETA

Una de las distribuciones de probabilidad discreta, de mucha aplicación en Ingeniería,


es la distribución binomial, de la que nos ocuparemos a continuación. (No obstante, es
necesario indicar que también existen otras distribuciones probabilísticas de variable
aleatoria discreta, como por ejemplo la de Poisson y la hipergeométrica, de las que no
nos ocuparemos en esta ocasión).

DISTRIBUCIÓN BINOMIAL

Es una de las distribuciones utilizadas más ampliamente en estadística aplicada. La


distribución se deriva de un procedimiento conocido como ensayo de Bernoulli.
Cuando en un proceso aleatorio o experimento, llamado ensayo, ocurre sólo uno de dos
resultados mutuamente excluyentes, como por ejemplo:

- Instalaciones de corriente neutral o instalaciones de corriente de carga total alta.


- Alumno del sexo masculino o del sexo femenino.
- Artículo defectuoso o no defectuoso
- Persona que fuma que no fuma.
- Auto que pasa la prueba de emisiones o que no pasa.

CONDICIONES DE UN PROCESO DE BERNOULLI/ DISTRIBUCIÓN BINOMIAL

1°) En cada ensayo ocurre uno de dos posibles resultados, mutuamente excluyentes. A
cualquiera de ellos se le llama, arbitrariamente, “éxito” y al otro “fracaso”.

2°) Dados n ensayos o pruebas, la probabilidad de un éxito, p, permanece constante de


un ensayo a otro y la probabilidad de fracaso se denota por q y está dada por
q=1–p
(n y p son los parámetros de la distribución binomial).
3°) Los ensayos son independientes; es decir, el resultado de algún ensayo en particular
no es afectado por el resultado de cualquier otro ensayo. Si existen “n” ensayos, n >

W. Díaz, E. García, N. Rodríguez, F. Córdova


119

1, se tiene la Distribución Binomial. (Cuando n = 1, la distribución se denomina de


Bernoulli).
4°) La variable aleatoria binomial, X, es el número de éxitos obtenidos en las n
pruebas (es decir, n-X representa el número de fracasos).
5°) Una variable aleatoria X que se comporta de acuerdo a la distribución binomial con
parámetros n y p, se denota como:
X ~ B(n,p)
6°) La distribución de probabilidad por X está dada por la siguiente función masa de
probabilidad (o función de cuantía):
P( X = x) = C xn p x q n − x , x = 0 ,1, 2, ...,, n

6°) Dada la variable aleatoria X ~ B(n,p), su media, E(X) = µ, y su varianza, V(X) = σ2


son, respectivamente,
µ = np, σ2 = npq
7°) El muestreo se realiza con reposición o con reemplazo.

Para encontrar los valores de las probabilidades acumulativas correspondientes a un


variable aleatoria, X, con distribución binomial, se utiliza la tabla de probabilidades
acumulativas binomiales, de la forma P(X ≤ a), la cual es, precisamente, la función de
distribución; parte de la misma y con fines ilustrativos se reproduce a continuación:

Tabla 1. Probabilidades acumulativas de la distribución binomial


a
Si X ~ B(n,p), ⇒ P(X ≤ a ) = ∑C
x =0
n
x p x (1 − p ) n − x

Si Y ~ B(n, 1-p), p < 0.5 ⇒ P(Y ≤ a ) = 1 – P(X ≤ n - a - 1)


----------------------------------------------------------------------------------------------------------
n=5
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

0 0.5905 0.4437 0.3277 0.2373 0.1681 0.1160 0.0778 0.0503 0.0313


1 0.9185 0.8352 0.7373 0.6328 0.5282 0.4284 0.3370 0.2562 0.1875
2 0.9914 0.9734 0.9421 0.8965 0.8369 0.7648 0.6826 0.5931 0.5000
3 0.9995 0.9978 0.9933 0.9844 0.9692 0.9460 0.9130 0.8688 0.8125
4 1.0000 0.9999 0.9997 0.9990 0.9976 0.9947 0.9898 0.9815 0.9688
5 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

W. Díaz, E. García, N. Rodríguez, F. Córdova


120

n=6
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

0 0.5314 0.3771 0.2621 0.1780 0.1176 0.0754 0.0467 0.0277 0.0156


1 0.8857 0.7765 0.6554 0.5339 0.4202 0.3191 0.2333 0.1636 0.1094
2 0.9841 0.9527 0.9011 0.8306 0.7443 0.6471 0.5443 0.4415 0.3438
3 0.9987 0.9941 0.9830 0.9624 0.9295 0.8826 0.8208 0.7447 0.6563
4 0.9999 0.9996 0.9984 0.9954 0.9891 0.9777 0.9590 0.9308 0.8906
5 1.0000 1.0000 0.9999 0.9998 0.9993 0.9982 0.9959 0.9917 0.9844
6 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

n=7
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

0 0.4783 0.3206 0.2097 0.1335 0.0824 0.0490 0.0280 0.0152 0.0078


1 0.8503 0.7166 0.5767 0.4449 0.3294 0.2338 0.1586 0.1024 0.0625
2 0.9743 0.9262 0.8520 0.7564 0.6471 0.5323 0.4199 0.3164 0.2266
3 0.9973 0.9879 0.9667 0.9294 0.8740 0.8002 0.7102 0.6083 0.5000
4 0.9998 0.9998 0.9953 0.9871 0.9712 0.9444 0.9037 0.8471 0.7734
5 1.0000 0.9999 0.9996 0.9987 0.9962 0.9910 0.9812 0.9643 0.9375
6 1.0000 1.0000 1.0000 0.9999 0.9998 0.9994 0.9984 0.9963 0.9922
7 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

n=8
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

0 0.4305 0.2725 0.1678 0.1001 0.0576 0.0319 0.0168 0.0084 0.0039


1 0.8131 0.6572 0.5033 0.3671 0.2553 0.1691 0.1064 0.0632 0.0352
2 0.9619 0.8948 0.7969 0.6785 0.5518 0.4278 0.3154 0.2201 0.1445
3 0.9550 0.9786 0.9437 0.8862 0.8059 0.7064 0.5941 0.4770 0.3633
4 0.9996 0.9971 0.9896 0.9727 0.9420 0.8939 0.8263 0.7396 0.6367
5 1.0000 0.9998 0.9988 0.9958 0.9887 0.9747 0.9502 0.9115 0.8555
6 1.0000 1.0000 0.9999 0.9996 0.9987 0.9964 0.9915 0.9819 0.9648
7 1.0000 1.0000 1.0000 1.0000 0.9999 0.9998 0.9993 0.9983 0.9961
8 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

W. Díaz, E. García, N. Rodríguez, F. Córdova


121

n=15
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

0 0.2059 0.0874 0.0352 0.0134 0.0047 0.0016 0.0005 0.0001 0.0000


1 0.5490 0.3186 0.1671 0.0802 0.0353 0.0142 0.0052 0.0017 0.0005
2 0.8159 0.6042 0.3980 0.2361 0.1268 0.0617 0.0271 0.0107 0.0037
3 0.9444 0.8227 0.6482 0.4613 0.2969 0.1727 0.0905 0.0424 0.0176
4 0.9873 0.9383 0.8358 0.6865 0.5155 0.3519 0.2173 0.1204 0.0592
5 0.9978 0.9832 0.9389 0.8516 0.7216 0.5643 0.4032 0.2608 0.1509
6 0.9997 0.9964 0.9819 0.9434 0.8689 0.7548 0.6098 0.4522 0.3036
7 1.0000 0.9994 0.9958 0.9827 0.9500 0.8868 0.7869 0.6535 0.5000
8 1.0000 0.9999 0.9992 0.9958 0.9848 0.9578 0.9050 0.8182 0.6964
9 1.0000 1.0000 0.9999 0.9992 0.9963 0.9876 0.9662 0.9231 0.8491
10 1.0000 1.0000 1.0000 0.9999 0.9993 0.9972 0.9907 0.9745 0.9408
11 1.0000 1.0000 1.0000 1.0000 0.9999 0.9995 0.9981 0.9937 0.9824
12 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.9997 0.9989 0.9963
13 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.9995
14 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

n=19
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

0 0.1351 0.0456 0.0144 0.0042 0.0011 0.0003 0.0001 0.0000 0.0000


1 0.4203 0.1985 0.0829 0.0310 0.0104 0.0031 0.0008 0.0002 0.0000
2 0.7054 0.4413 0.2369 0.1113 0.0462 0.0170 0.0055 0.0015 0.0004
3 0.8850 0.6841 0.4551 0.2631 0.1332 0.0591 0.0230 0.0077 0.0022
4 0.9648 0.8556 0.6733 0.4654 0.2822 0.1500 0.0696 0.0280 0.0096
5 0.9914 0.9463 0.8369 0.6678 0.4739 0.2968 0.1629 0.0777 0.0318
6 0.9983 0.9837 0.9324 0.8251 0.6655 0.4812 0.3081 0.1727 0.0835
7 0.9997 0.9959 0.9767 0.9225 0.8180 0.6656 0.4878 0.3169 0.1796
8 1.0000 0.9992 0.9933 0.9713 0.9161 0.8145 0.6675 0.4940 0.3238
9 1.0000 0.9999 0.9984 0.9911 0.9674 0.9125 0.8139 0.6710 0.5000
10 1.0000 1.0000 0.9997 0.9977 0.9895 0.9653 0.9115 0.8159 0.6762
11 1.0000 1.0000 1.0000 0.9995 0.9972 0.9886 0.9648 0.9129 0.8204

W. Díaz, E. García, N. Rodríguez, F. Córdova


122

12 1.0000 1.0000 1.0000 0.9999 0.9994 0.9969 0.9884 0.9658 0.9165


13 1.0000 1.0000 1.0000 1.0000 0.9999 0.9993 0.9969 0.9891 0.9682
14 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.9994 0.9972 0.9904
15 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.9995 0.9978
16 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.9996
17 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
18 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
19 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

n=25
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

0 0.0718 0.0172 0.0038 0.0008 0.0001 0.0000 0.0000 0.0000 0.0000


1 0.2712 0.0931 0.0274 0.0070 0.0016 0.0003 0.0001 0.0000 0.0000
2 0.5371 0.2537 0.0982 0.0321 0.0090 0.0021 0.0004 0.0001 0.0000
3 0.7636 0.4711 0.2340 0.0962 0.0332 0.0097 0.0024 0.0005 0.0001
4 0.9020 0.6821 0.4207 0.2137 0.0905 0.0320 0.0095 0.0023 0.0005
5 0.9666 0.8385 0.6167 0.3783 0.1935 0.0826 0.0294 0.0086 0.0020
6 0.9905 0.9305 0.7800 0.5611 0.3407 0.1734 0.0736 0.0258 0.0073
7 0.9977 0.9745 0.8909 0.7265 0.5118 0.3061 0.1536 0.0639 0.0216
8 0.9995 0.9920 0.9532 0.8506 0.6769 0.4668 0.2735 0.1340 0.0539
9 0.9999 0.9979 0.9827 0.9287 0.8106 0.6303 0.4246 0.2424 0.1148
10 1.0000 0.9995 0.9944 0.9703 0.9022 0.7712 0.5858 0.3843 0.2122
11 1.0000 0.9999 0.9985 0.9893 0.9558 0.8746 0.7323 0.5426 0.3450
12 1.0000 1.0000 0.9996 0.9966 0.9825 0.9396 0.8462 0.6937 0.5000
13 1.0000 1.0000 0.9999 0.9991 0.9940 0.9745 0.9222 0.8173 0.6550
14 1.0000 1.0000 1.0000 0.9998 0.9982 0.9907 0.9656 0.9040 0.7878
15 1.0000 1.0000 1.0000 1.0000 0.9995 0.9971 0.9868 0.9560 0.8852
16 1.0000 1.0000 1.0000 1.0000 0.9999 0.9992 0.9957 0.9826 0.9461
17 1.0000 1.0000 1.0000 1.0000 1.0000 0.9998 0.9988 0.9942 0.9784
18 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9997 0.9984 0.9927
19 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.9996 0.9980

W. Díaz, E. García, N. Rodríguez, F. Córdova


123

20 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.9995


21 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999
22-25 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

EJEMPLO 1:
Se sabe que el 40% de un conjunto de vehículos pasa la prueba de emisiones. Si se
considera que el número de vehículos que pasa la prueba de emisiones en una muestra de
8 vehículos sigue una distribución binomial, ¿cuál es la probabilidad de que dicha muestra
contenga exactamente 3 vehículos que pasan la prueba de emisiones?
SOLUCIÓN:
X: Número de vehículos que pasan la prueba de emisiones.
Según datos de este ejemplo, X ~ B(n = 8, p = 0.40)
La probabilidad de que un vehículo pase la prueba de emisiones, p, es igual a 0.4. Por lo
tanto, q = 1 – p = 1 – 0.4 = 0.6 es la probabilidad de que el vehículo no pase la prueba de
emisiones.
La probabilidad solicitada (utilizando la función de cuantía de la distribución binomial)
es:

P ( X = 3) = C38 (0.40) (0.60)


3 8−3
= 0.2787

Este resultado se puede comprobar con el uso de la Tabla 1, para n = 8 y p = 0.40, para
cuyo efecto, reproducimos parte de la Tabla 1, del siguiente modo:
n=8
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

0 0.4305 0.2725 0.1678 0.1001 0.0576 0.0319 0.0168 0.0084 0.0039


1 0.8131 0.6572 0.5033 0.3671 0.2553 0.1691 0.1064 0.0632 0.0352
2 0.9619 0.8948 0.7969 0.6785 0.5518 0.4278 0.3154 0.2201 0.1445
3 0.9550 0.9786 0.9437 0.8862 0.8059 0.7064 0.5941 0.4770 0.3633
4 0.9996 0.9971 0.9896 0.9727 0.9420 0.8939 0.8263 0.7396 0.6367
5 1.0000 0.9998 0.9988 0.9958 0.9887 0.9747 0.9502 0.9115 0.8555
6 1.0000 1.0000 0.9999 0.9996 0.9987 0.9964 0.9915 0.9819 0.9648
7 1.0000 1.0000 1.0000 1.0000 0.9999 0.9998 0.9993 0.9983 0.9961
8 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

P(X = 3) = P(X ≤ 3) - P(X ≤ 2) = 0.5941 – 0.3154 = 0.2787.

W. Díaz, E. García, N. Rodríguez, F. Córdova


124

EJEMPLO 2:
El 15% de piezas producidas por una máquina son defectuosas. Se elige una muestra al
azar de 15 piezas. Hallar la probabilidad de que exactamente 5 sean defectuosas. (De
manera similar al Ejemplo 1, se obtiene 0.0499)

SOLUCIÓN:
X ~ B(n = 15, p = 0.15)
Haciendo uso de la Tabla 1:
P(X = 5) = P(X ≤ 5) – P(X ≤ 4)
= F(5) – F(4)
= 0.9832 – 0.9383 = 0.0449
En estos Ejemplos 1 y 2, se ha utilizado la propiedad:
P(X = a) = F(a) - F(a-1)
EJEMPLO 3:
Con los datos del Ejemplo 1, hallar P(X > 2).
SOLUCIÓN:
P(X > 2) = 1 – P(X ≤ 2) = 1 - F(2) = 1 – 0.3154 = 0.6846.
La propiedad utilizada es
P(X > a) = 1 – F(a).
EJEMPLO 4:
Hallar la media y la varianza de X, en los Ejemplos 1 y 2.

SOLUCIÓN:

Ejemplo 1:
X ~ B(n = 8, p = 0.40) ⇒ E(X) = np = 8(0.4) = 3.2; V(X) = npq = 3.2(0.6) =1.92

Ejemplo 2:
X ~ B(n = 15, p = 0.15) ⇒ E(X) = 15(0.15) = 2.25; V(X) = 2.25(0.85) = 1.9125
EJEMPLO 5:
Cierto domingo, en el 85% de las familias de Trujillo Metropolitano, algún miembro está
en casa. Un equipo de investigación sanitaria selecciona una muestra aleatoria de 12
familias para realizar una encuesta por teléfono. Calcular la probabilidad de que el equipo
encuentre a alguien en casa en:
a) 7 familias exactamente  0.0193
b) 5 familias o menos  0.0007
c) 8 o más familias  0.9761

W. Díaz, E. García, N. Rodríguez, F. Córdova


125

EJEMPLO 6: La media y la varianza en el Ejemplo 6 son:....

EJERCICIOS

1) Se informa que el 20% de los profesionales estadísticos egresados en 1983 de la


UNT trabaja en docencia universitaria. Si se elige una muestra aleatoria simple de
20 profesionales estadísticos, hallar la probabilidad de que el número de
profesionales estadísticos que trabajan en docencia universitaria, en la muestra, sea
a) Exactamente 3
b) Tres o más
c) Menos de tres
d) Entre tres y siete, inclusive

2) Hallar la media y la varianza del número de profesionales estadísticos que trabajan


en docencia universitaria, en la muestra de tamaño 15.

DISTRIBUCIONES DE PROBABILIDAD
CONTINUA

Estudiaremos, a groso modo, las siguientes distribuciones probabilísticas continuas:


normal, normal estándar y t de Student, puesto que ellas tienen muchas aplicaciones,
sobre todo en el campo de la inferencia estadística, de la que nos ocuparemos,
posteriormente.

DISTRIBUCIÓN NORMAL

Una variable aleatoria continua X, que se distribuye según la normal con parámetros
µ y σ2, denotado como
X ~ N(µ, σ2),
tiene la siguiente función de densidad:
2
1  x−µ 
1 −  
f ( x) = e 2 σ 
, - ∞ < x < ∞, - ∞ < µ < ∞; σ2 > 0.
σ 2π
Los parámetros µ y σ2 representan la media y la varianza de X, respectivamente. Es
decir, E(X) = µ y V(X) ) = σ2.

W. Díaz, E. García, N. Rodríguez, F. Córdova


126

REPRESENTACIÓN GRÁFICA DE LA
DISTRIBUCIÓN NORMAL PARA CIERTOS
VALORES DE LOS PARÁMETOS µ Y σ2

f(x) µ = -4

σ = 0.5 µ=3
µ=0
σ=1
σ=1.5

-4 0 3
X ~ N(µ, σ2)

DISTRIBUCIÓN NORMAL ESTÁNDAR

Si X ~ N(µ, σ2), entonces la variable aleatoria Z , definida por

X −µ
Z=
σ

es una variable aleatoria normal, cuya media es igual a 0 y su varianza es igual a


1, lo que se denota por

Z ~ N(0, 1)
Según esto, se tiene:
E(Z) = 0 (media de Z)
V(Z) = 1 (varianza de Z)
DE(Z) = 1 (desviación estándar de Z)

La variable aleatoria Z se denomina variable normal estándar.

W. Díaz, E. García, N. Rodríguez, F. Córdova


127

FUNCIÓN DE DISTRIBUCIÓN ACUMULADA DE LA VARIABLE


ALEATORIA X: F(x)
Si asumimos que X ~ N(µ, σ2), para hallar F(x) se usa el valor de F(z), la cual se
obtiene a partir de la Tabla de la Distribución Normal Estándar (Tabla 2). A
continuación se presenta la Tabla 2:

Tabla 2. Probabilidades Acumulativas de la Distribución Normal Estándar:


F(z) = P(Z ≤ z), z ≤ 0.
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002
-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
-3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
-3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
-1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859

W. Díaz, E. García, N. Rodríguez, F. Córdova


128

-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
-0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641

P(Z ≤ -1.14) = 0.1271 , que lo podemos denotar como Z0.1271 = -1.14. A este valor se le llama “percentil 12.71”

Tabla 2. Continuación ( para valores de z ≥ 0)


z 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998

P(Z ≤ 1.96) = 0.9750, que lo podemos denotar como Z0.9750 = 1.96. A este se le llama “percentil 97.50”.

W. Díaz, E. García, N. Rodríguez, F. Córdova


129

USO DE LA TABLA DE LA DISTRIBUCIÓN NORMAL


ESTÁNDAR (Tabla 2):

EJEMPLOS:

1) El radio (X, en milímetros) de un conjunto de engranajes, se distribuye


normalmente con media 10 milímetros y varianza 4.41 (=2.12) milímetros2.
Se elige al azar un engranaje, determinar la probabilidad de que su radio sea:
a) Al menos 11 milímetros.
b) Como mínimo 7.6 milímetros y como máximo 12.2 milímetros.

Solución:
Datos:
X ~ N(10,2.12), donde
X: radio de engranajes (milímetros)

La varianza de X es σ 2 = 4.41 = (2.1)2 ; por lo tanto, su desviación estándar


será
σ = 4.41 = 2.1. La media de X es µ =10 milímetros.
Se pide calcular:

a) P(X ≥ 11). (Rpta.: 0.3156)

Solución:
X − µ 11 − µ 11 − 10
P(X ≥ 11) = 1 – P(X ≤ 11) = 1 - P( ≤ ) = 1 - P( Z ≤ )
σ σ 2.1
= 1 - P ( Z ≤ 0.48) = 1 - 0.6844 = 0.3156 (según la Tabla 2).
b) P(7.6 ≤ X ≤ 12.2). (Rpta.: 0.7260).

Solución:

P(7.6 ≤ X ≤ 12.2) = P(X ≤ 12.2) - P(X ≤ 7.6)

X −µ 12.2 − µ X − µ 7.6 − µ
= P( ≤ ) - P( ≤ )
σ σ σ σ

W. Díaz, E. García, N. Rodríguez, F. Córdova


130

X − µ 12.2 − 10 X − µ 7.6 − 10
= P( ≤ ) - P( ≤ )
σ 2 .1 σ 2.1

12.2 − 10 7.6 − 10
= P( Z ≤ ) - P( Z ≤ )
2.1 2.1
= P(Z ≤ 1.05) - P(Z ≤ -1.14)

= 0.8531 – 0.1271 = 0.7260. (Utilizando la Tabla 2).

2) El consumo de energía mensual (X, en Kw/a) de un taller de mecánica, tiene


una distribución normal con µ = 50.1 y σ = 10.4. Se elige, al azar, un mes, hallar
la probabilidad de que el consumo de energía sea menor de 33.7.
[Rpta.: P(X ≤ 33.7) = P(Z ≤ -1.58) = 0.0571].

Solución:
X −µ 33.7 − µ 33.7 − 50.1
P(X ≤ 33.7) = P( ≤ ) = P(Z ≤ ) = P(Z ≤ -1.58) =
σ σ 10.4
0.0571
“La probabilidad de que el consumo de energía del taller de mecánica en el mes
dado, esté por debajo de 33.7 Kw/a, es igual a 0.0571 ó 5.71%”
3) Usando la Tabla 2, hallar

a) P(0.4 < Z < 1.96)

Solución:

P(0.40 < Z < 1.96) = P(Z < 1.96) – P(Z < 0.40) = 0.9750 – 0.6554 = 0.3196
“El área (la probabilidad) bajo la curva de la distribución normal estándar,
comprendida entre los percentiles de dicha distribución 0.40 y 1.96 es igual
a 0.3196 ó 31.96%”.

b) P(-1.75 < Z < -0.28)

Solución:

P(-1.75 < Z < -0.28) = P(Z < -0.28) – P(Z < -1.75) = 0.3897 – 0.0401 =
0.3496

c) P(-3.32 < Z < 0.11)

W. Díaz, E. García, N. Rodríguez, F. Córdova


131

Solución:
P(-3.32 < Z < 0.11) = P(Z < 0.11) – P(Z < -3.32) = 0.5438 – 0.0005 =
0.5433

d) P(Z > 0.27)


Solución:
P(Z > 0.27) = 1 – P(Z < 0.27) = 1 – 0.6064 = 0.3936

e) P(Z < -1.13)


Solución:
P(Z < -1.13) = 0.1292 (Uso directo de la Tabla 2).

EJERCICIOS

1. Calcular el percentil de la distribución normal estándar, Z0, tal que:

a) P(Z > Z0) = 0.0436


Solución:
P(Z > Z0) = 1 – P(Z ≤ Z0) ⇒ 0.0436 = 1 – P(Z ≤ Z0) ⇒ P(Z ≤ Z0) = 1 – 0.0436
P(Z ≤ Z0) = 0.9564 ⇒ Z0 = 1.71

b) P(Z > Z0) = 0.025


Solución:
P(Z > Z0) = 1 – P(Z ≤ Z0) ⇒ 0.025 = 1 – P(Z ≤ Z0) ⇒ P(Z ≤ Z0) = 1 – 0.025
P(Z ≤ Z0) = 0.975 ⇒ Z0 = 1.96

c) P(Z > Z0) = 0.6331

Solución:
P(Z > Z0) = 1 – P(Z ≤ Z0) ⇒ 0.6331 = 1 – P(Z ≤ Z0) ⇒ P(Z ≤ Z0) = 1 – 0.6331
P(Z ≤ Z0) = 0.3669 ⇒ Z0 = -0.34

d) P(Z < Z0) = 0.0392; e) P(Z < Z0) = 0.6064; f) P(Z < Z0) = 0.5517;
Solución:
Z0=-1.76 (inciso d); Z0=-0.27 (inciso e); Z0=0.13 (inciso f): Uso directo de la
Tabla 2
g) P(-Z0 < Z < Z0) = 0.4778. Ilustrar con un gráfico

W. Díaz, E. García, N. Rodríguez, F. Córdova


132

Solución:
P(-Z0 < Z < Z0) = P(Z < Z0) – P(Z < - Z0)

= P(Z < Z0) – {P(Z > Z0)}: debido a la simetría de la distribución


normal estándar

= P(Z < Z0) – {1 - P(Z < Z0)} = P(Z < Z0) – 1 + P(Z < Z0) =

= 2 P(Z < Z0) -1

⇒ P(-Z0 < Z < Z0) = 2 P(Z < Z0) -1, sacando extremos

⇒ 0.4778 = 2 P(Z < Z0) -1

1+ 0.4778
⇒ P(Z < Z0) = = 0.7389 ⇒ P(Z < Z0) = 0.7389 ⇒ Z0 = 0.64 (“el
2
percentil 73.89 es igual a 0.64”).

Representación gráfica:

Observar el gráfico siguiente de la izquierda:

0.7389

0.2611 0.2611
0.4778
Z~N(0,1
Z0= z=0.64 Z ~ N(0,1)) -0.64 0.64
)

En el gráfico del lado derecho, también se puede observar la solución.

Para hallar la probabilidad (o área) de que Z esté comprendida entre -0.64 y


0.64 en el gráfico de la derecha, procedemos del siguiente modo:

Área = 1 – (0.2611 + 0.2611) = 1 – 0.5222 = 0.4778

W. Díaz, E. García, N. Rodríguez, F. Córdova


133

h) P(-Z0 < Z < Z0) = 0.9216. Hacer la representación gráfica.

2. El coeficiente de fricción para un sistema de copiado, X, se distribuye como


X~N(0.55, 0.0132). En el funcionamiento del sistema, se mide dicho coeficiente en
un momento elegido al azar.
a) Hallar la probabilidad de que el coeficiente de fricción esté comprendido entre
0.53 y 0.56.
b) Hallar la probabilidad de que el coeficiente de fricción sea mayor que 0.51.

Guía de solución:
0.56 − 0.55 0.53 − 0.55
• Inciso a: P(0.53 ≤ X ≤ 0.56) = P(Z ≤ ) – P(Z ≤ )
0.013 0.013
= P(Z ≤0.77) – P(Z ≤-1.54) =
• Inciso b: P(X > 0.51)

3. La cantidad de corrosión (X, en gramos) de un conjunto de estructuras metálicas, se


distribuye según la normal con media 2.83 gramos y una desviación estándar de 0.79
gramos. Se elige, aleatoriamente, una estructura metálica. Hallar la probabilidad de
que contenga:
a) Por lo menos cuatro gramos de corrosión.
b) Entre 2 y 3 gramos de corrosión.

Guía de solución:
• Inciso a: P(X ≥ 4)
• Inciso b: P(2 ≤ X ≤ 3)

4. El acero utilizado en las tuberías de agua de Camposol, a menudo se recubre


internamente con un mortero de cemento para evitar la corrosión. En un estudio de
los recubrimientos de mortero de una tubería empleada en un proyecto de transmisión
de agua de la empresa, se especificó un espesor de 7/16 de pulgada (0.4375 pulgadas)
para el mortero. Muchas mediciones de espesor dieron una media de 0.635pulgadas
y una desviación estándar igual a σ = 0.082 pulgadas. Si tales mediciones se
distribuyen en forma normal. ¿Qué porcentaje de mediciones, aproximado, fue
inferior a 7/16 pulgadas (0.4375 pulgadas)?

Guía de solución:
P(X < 0.4375)

5. Un tubo fluorescente estándar tiene una duración distribuida normalmente, como


una normal, N(µ = 7,000 hrs, σ = 1,000 hrs). Un competidor ha inventado un sistema
de iluminación fluorescente compacto que se puede insertar en los receptáculos de
lámparas incandescentes. El competidor asegura que el nuevo tubo fluorescente tiene
una duración distribuida normalmente, N(µ = 7500 horas, σ = 1200 hrs). ¿Cuál tubo
fluorescente tiene mayor probabilidad de tener una duración
a) mayor que 9,000 horas?
b) menor que 5,000 horas?

W. Díaz, E. García, N. Rodríguez, F. Córdova


134

Guía de solución:
a)
- Fluorescente estándar:

P(X > 9000) =

- Nuevo fluorescente:

P(X > 9000) =

b)
- Fluorescente estándar:

P(X < 5000) =

- Nuevo fluorescente:

P(X < 5000) =

6. Una Compañía de comunicación ha determinado que el número de interruptores


terminales de botón, solicitados diariamente, tiene una distribución normal,
N(µ=200,σ=50).

a) En qué porcentaje de los días la demanda


(i) será de menos de 90 interruptores?
(ii) estará entre 225 y 275 interruptores?
Guía de solución:
Una vez calculadas las probabilidades de los incisos (i) y (ii), multiplicarlas por
100%.
b) Con base en consideraciones de costos, la Compañía ha determinado que su mejor
estrategia consiste en producir una cantidad de interruptores suficientes para
atender plenamente la demanda en el 99% de todos los días. ¿Cuántos
interruptores terminales deberá producir la Compañía cada día? (Rpta.: 278).

DISTRIBUCIÓN T DE STUDENT

La distribución t de Student se parece a la distribución normal estándar. Para indicar


que una variable aleatoria continua X se distribuye según la t de Student con
parámetro n (llamado número de grados de libertad), usamos la notación
X~t(n)
El rango de variación de X es -∞ < x < ∞.

W. Díaz, E. García, N. Rodríguez, F. Córdova


135

REPRESENTACIÓN GRÁFICA DE LA FUNCIÓN DE DENSIDAD DE LA


DISTRIBUCIÓN T DE STUDENT:

a) DISTRIBUCIÓN T PARA DIFERENTES VALORES DE n

n=30
n=5
n=2

X~t(n)
0
Cuando n ∞, t(n)  Z
“A medida que aumentan los grados de libertad, la distribución t se aproxima a
la distribución normal estándar”.

b) COMPARACIÓN DE LAS DISTRIBUCIONES NORMAL ESTÁNDAR Y


T DE STUDENT

Distribución Normal Estándar


Distribución T de Student

X
0
MEDIA Y VARIANZA DE UNA VARIABLE CON DISTRIBUCIÓN t DE
STUDENT
n
E(X) = 0; V(X) = , n>2
n−2

PERCENTILES DE LA DISTRIBUCIÓN T DE STUDENT:

Los valores de los percentiles de la distribución t de Student, para ciertos valores de


n y de la probabilidad acumulativa deseada se muestran en la siguiente tabla (Tabla
3):
Tabla 3. Percentiles de la Distribución t de Student
F(x): Probabilidades acumulativas
n 0.60 0.70 0.80 0.90 0.95 0.975 0.99 0.995 0.9995

1 0.3250 0.7270 1.376 3.078 6.3138 12.706 31.821 63.657 636.619

W. Díaz, E. García, N. Rodríguez, F. Córdova


136

2 0.2885 0.6172 1.061 1.886 2.9200 4.3027 6.965 9.9248 31.598


3 2.2766 0.5840 0.978 1.638 2.3534 3.1825 4.541 5.8409 12.924
4 0.2707 0.5692 0.941 1.533 2.1318 2.7764 3.747 4.6041 8.61

5 0.2672 0.5598 0.920 1.476 2.0150 2.5706 3.365 4.0321 6.869


6 0.2648 0.5536 0.906 1.440 1.9432 2.4469 3.143 3.7074 5.959
7 0.2632 0.5493 0.896 1.415 1.8946 2.3646 2.998 3.4995 5.408

8 0.2619 0.5461 0.889 1.397 1.8595 2.3060 2.896 3.3554 5.041


9 0.2610 0.5436 0.883 1.383 1.8331 2.2622 2.821 3.2498 4.781
10 0.2602 0.5416 0.879 1.372 1.8125 2.2281 2.764 3.1693 4.587

11 0.2596 0.5400 0.876 1.363 1.7939 2.2010 2.718 3.1058 4.437


12 0.2590 0.5387 0.873 1.356 1.7823 2.1788 2.681 3.0545 4.318
13 0.2586 0.5375 0.870 1.350 1.7709 2.1604 2.650 3.0123 4.221

14 0.2582 0.5366 0.868 1.345 1.7613 2.1448 2.624 2.9768 4.140


15 0.2579 0.5358 0.866 1.341 1.7530 2.1315 2.602 2.9467 4.073
16 0.2576 0.5358 0.865 1.337 1.7459 2.1199 2.583 2.9208 4.015
17 0.2574 0.5344 0.863 1.333 1.7396 2.1098 2.567 2.8982 3.965

18 0.2571 0.5338 0.862 1.330 1.7341 2.1009 2.552 2.8784 3.922


19 0.2569 0.5333 0.861 1.328 1.7291 2.0930 2.539 2.8609 3.883

20 0.2567 0.5329 0.860 1.325 1.7247 2.0860 2.528 2.8453 3.850


21 0.2566 0.5325 0.859 1.323 1.7207 2.0796 2.518 2.8314 3.819

22 0.2564 0.5321 0.858 1.321 1.7171 2.0739 2.508 2.8188 3.792


23 0.2563 0.5318 0.858 1.319 1.7139 2.0687 2.500 2.9073 3.767

24 0.2562 0.5315 0.857 1.318 1.7109 2.0639 2.492 2.7969 3.745

25 0.2561 0.5312 0.856 1.316 1.7081 2.0595 2.485 2.7874 3.725


26 0.2560 0.5309 0.856 1.315 1.7056 2.0555 2.479 2.7787 3.707

27 0.2559 0.5307 0.855 1.314 1.7033 2.0518 2.473 2.7707 3.690

28 0.2558 0.5304 0.855 1.313 1.7011 2.0484 2.467 2.7633 3.674


29 0.2557 0.5302 0.854 1.311 1.6991 2.0452 2.462 2.7564 3.659

30 0.2556 0.5300 0.854 1.310 1.6973 2.0423 2.457 2.7500 3.616

35 0.2553 0.5292 0.8521 1.3062 1.6896 2.0301 2.438 2.7239 3.5919


40 0.2550 0.5286 0.8507 1.3031 1.6839 2.0211 2.423 2.7045 3.5511

45 0.2549 0.5281 0.8497 1.3007 1.6794 2.0141 2.412 2.6896 3.5207


50 0.2547 0.5278 0.8489 1.2987 1.6759 2.0086 2.403 2.6778 3.4965

60 0.2545 0.5272 0.8477 1.2959 1.6707 2.0003 2.390 2.6603 3.4606


70 0.2543 0.5268 0.8468 1.2938 1.6669 1.9945 2.381 2.6480 3.4355

80 0.2542 0.5265 0.8462 1.2922 1.6641 1.9901 2.374 2.6388 3.4169

90 0.2541 0.5263 0.8457 1.2910 1.6620 1.9867 2.368 2.6316 3.4022


100 0.2540 0.5261 0.8452 1.2901 1.6602 1.9840 2.364 2.6260 3.3909
120 0.2539 0.5258 0.8446 1.2887 1.6577 1.9799 2.358 2.6175 3.3736
140 0.2538 0.5256 0.8442 1.2876 1.6558 1.9771 2.353 2.6114 3.3615

160 0.2538 0.5255 0.8439 1.2869 1.6545 1.9749 2.350 2.6070 3.3527

180 0.2537 0.5253 0.8436 1.2863 1.6534 1.9733 2.347 2.6035 3.3456
200 0.2537 0.5252 0.8434 1.2858 1.6525 1.9719 2.345 2.6006 3.3400

∞ 0.2533 0.5244 0.8416 1.2816 1.6449 1.9600 2.326 2.5758 3.2905

Ejemplo: t(29, 0.975) = 2.0452.

W. Díaz, E. García, N. Rodríguez, F. Córdova


137

Esto significa que P(X ≤ 2.0452) = 0.9750, donde X~t(29). También podemos
afirmar que el percentil 97.5 de una distribución t de Student con 29 grados de
libertad es igual a 2.0452.
Los percentiles de esta distribución son los valores que se encuentran en el interior
del rectángulo de la Tabla 3.
En otro ejemplo, el percentil 95 (la probabilidad acumulativa es igual a 0.95) de la
distribución t de Student con 3 grados de libertad es igual a 2.3534. En base a esto,
tenemos la siguiente notación:
t(3,0.95) = 2.3534

Propiedad:
t[n; F(x)] = - t[n; 1 – F(x)],
donde t[n; F(x)] representa el percentil de la distribución t de Student para n grados de
libertad y una probabilidad igual a la función de distribución en dicho percentil. Esta
propiedad se la puede utilizar para encontrar percentiles de la distribución t de
Student, cuando las probabilidades acumulativas son pequeñas e inferiores a
0.60.

EJEMPLOS:
Hallar el valor de x (percentil) de la distribución t de Student en los siguientes casos,
haciendo uso de la tabla de la distribución t de Student (Tabla 3). Realizar la
representación gráfica en cada caso:

a) t(29,0.99) = x [Rpta.: x = 2.462; F(x) = 0.99] b) t(3,0.05) = x (Rpta.: x = - 2.3534

0.99

0.05 0.05

x X~ t(3)
x=2.462 X ~ t(29) -2.3534
En el inciso a), podemos escribir:
P(X ≤ x) = 0.99 ⇒ x = 2.462 (percentil 99)
Más explícitamente, se tiene: P(X ≤ 2.462) = 0.99
Se puede tener una mejor visualización de la gráfica, haciendo uso del programa
estadístico “MINITAB 16”, tal como se muestra a continuación:

W. Díaz, E. García, N. Rodríguez, F. Córdova


138

Gráfica de distribución
T, df=29

0.4
0.99

0.3
Densidad

0.2

0.1

0.0
0 2.462
X

De manera similar, para el inciso b), tenemos:


P(X≤x) = 0.05 ⇒ x = -2.3534 (percentil 5).

En este inciso hemos aplicado la siguiente propiedad de la distribución t de


Student:
t[n; F(x)] = -t[n; 1 – F(x)],

t(3,0.05) = - t(3,1 - 0.05) = - t(3,0.95) = - 2.3534

Ejercicio:
Usar la tabla de la distribución t de Student (Tabla 3) y obtenga los siguientes percentiles:
a) t(40,0.90)
b) t(2,0.995)
c) t(29,0.01)
d) t(200,0.0005)
La representación gráfica de los incisos a) y d) se exhiben a continuación (con asistencia
de MINITAB 16):

W. Díaz, E. García, N. Rodríguez, F. Córdova


139

Gráfica de distribución
T, df=40

0.4

0.3
0.9
Densidad

0.2

0.1

0.0
0 1.303
X

inciso a)

W. Díaz, E. García, N. Rodríguez, F. Córdova


140

Gráfica de distribución
T, df=200

0.4

0.3
Densidad

0.2

0.1

0.0005
0.0
-3.340 0
X

inciso d). Como puede apreciarse, la probabilidad de 0.0005 es casi nula.

INFERENCIA ESTADÍSTICA

ESTIMACIÓN DE PARÁMETROS

PARÁMETRO:
Un parámetro es cualquier característica de la población. Generalmente, un parámetro
se denota por la letra griega θ . Por ejemplo, son parámetros:

• Media poblacional ( θ = µ : dureza media de un grupo de metales).


• Proporción poblacional ( θ = P: proporción de automóviles de la marca Toyota en
una ciudad.
• Varianza poblacional ( θ = σ 2 : varianza de los tiempos de ciclo (en segundos) de
un pistón. Si bien, el tiempo se expresa en segundos, la varianza lo hace en segundos2).

El tamaño de una población lo denotaremos por N. Las N observaciones poblaciones se


representan del siguiente modo: X 1 , X 2 , …, X N . (La variable de interés es X. Así, en los
ejemplos anteriores, la variable es: dureza de los metales, marca de automóviles y
tiempo de ciclo del pistón, respectivamente). Otros ejemplos de variables de interés
pueden ser: velocidad de moladoras, tipo de empleo de los egresados de Ingeniería
Mecánica, número de reparaciones de moladoras.

W. Díaz, E. García, N. Rodríguez, F. Córdova


141

ESTIMADOR DE UN PARÁMETRO:
Es una función de las n observaciones de la muestra. Las observaciones muestrales las
representaremos por: x1 , x 2 , …, x n . A n lo denominamos tamaño de la muestra. El
estimador de un parámetro puede ser de dos clases:

I. Estimador puntual:

Si el parámetro se puede estimar por un único valor. Denotamos al estimador


puntual del parámetro θ por θˆ . Por ejemplo, el estimador puntual de la media
poblacional es igual a la media muestral ( µ̂ = x ); el estimador puntual de la
proporción poblacional es igual a la proporción muestral ( Pˆ = p ) ; el estimador
puntual de la varianza poblacional es igual a la varianza muestral ( σˆ 2 = s 2 ). A
continuación se presenta la fórmula de cada uno de estos estimadores:

Media muestral:
n

∑x i
x = i =1

Proporción muestral:
a
p=
n
donde a representa el número de elementos en la muestra que poseen alguna
característica de interés y n es el tamaño de la muestra. Por ejemplo, la
característica de interés puede ser que el elemento en la muestra sea: hombre, malo
(o defectuoso), aprobado, izquierdo, etc. Para tales características, existe la
característica complementaria, que indica una cualidad opuesta a la característica
de interés. Así, para nuestros ejemplos, las características complementarias son de
que el elemento en la muestra sea mujer, bueno (o no defectuoso), desaprobado y
derecho, respectivamente.

Varianza muestral:
n

∑ (x i − x) 2
s2 = i =1
.
n −1

Otra forma de obtener la varianza muestral es la siguiente:


n
( ∑ xi ) 2
1 n
s2 = { ∑ xi2 - i =1
}
n − 1 i =1 n

A continuación, resumimos en la siguiente tabla, los parámetros y sus respectivos


estimadores puntuales:

W. Díaz, E. García, N. Rodríguez, F. Córdova


142

Parámetro Población Muestra


Media poblacional µ x
Proporción poblacional P p
Varianza poblacional σ2 s2

II. Estimador confidencial o interválico:

Cuando el parámetro se estima mediante un intervalo (en el que existen muchos


valores), con una cierta probabilidad, llamada confianza y denotada por 1 − α . Los
valores más usuales para α son 0.01, 0.05 y 0.10, para los que 1 − α será igual a
0.99, 0.95 y 0.90, respectivamente. Los siguientes son los estimadores
confidenciales de la media poblacional, de la proporción poblacional y de la varianza
poblacional. Para el caso de la media y de la varianza poblacionales, asumiremos
que la población se distribuye normalmente, X ~ N(µ, σ 2 ).

A. Media Poblacional (µ)

a. Cuando la varianza poblacional (σ2) se asume que es conocida:


n
1) Si ≤ 0.05
N
n
A la expresión se la denomina fracción de muestreo. En este caso se
N
considera que el tamaño de la muestra, n , es pequeño con respecto al
tamaño de la población, N . También se puede decir que el tamaño de la
población es grande. Si se desconociera N , podemos asumir que su valor
es grande y que la fracción de muestreo es menor o igual que 0.05. El
estimador confidencial (llamado también intervalo de confianza, y denotado
como IC) de la media poblacional es el siguiente (forma resumida):

σ
µ = x±Z α ( )
1−
2 n

donde Z α es el percentil de la distribución normal estándar para una


1−
2

α
probabilidad igual a 1 − (el valor de Z α se lo busca en la Tabla 1). La
2 1−
2
forma completa de dicho intervalo de confianza es la siguiente:

W. Díaz, E. García, N. Rodríguez, F. Córdova


143

σ σ
x−Z α . < µ < x+Z α .
1−
2 n 1−
2 n

El Límite Superior (LS) de dicho intervalo es:

σ
LS µ = x + Z α .
1−
2 n

El Límite Inferior (LI) será:

σ
LI µ = x − Z α .
1−
2 n

De modo simplificado, el intervalo de confianza de la media poblacional, lo


podemos escribir así:

[ LI µ ; LS µ ]

n
2) Si > 0.05
N
Asumiremos en esta situación que el tamaño de la muestra es grande o que
el tamaño de la población es pequeño y conocido. El intervalo de confianza
de la media poblacional es:

σ N −n
µ = x±Z α .
1−
2 n N −1

N −n
A la expresión se la denomina factor de corrección.
N −1

b. Si se desconoce la varianza poblacional σ2:

1) Cuando n ≤ 30 (tamaño de muestra pequeño):


s
µ = x ± t α .
 n −1, 1− 
 2
n

W. Díaz, E. García, N. Rodríguez, F. Córdova


144

2) Si n > 30 (tamaño de muestra grande):


s
µ = x ± Z α .
 1− 
 2
n

En estas expresiones del intervalo de confianza, s es la desviación estándar


muestral (raíz cuadrada de la varianza muestral).

Ejemplo:
Se desea estimar la resistencia media a la compresión (en lb/pulg2) de muestras de una
aleación de aluminio en desarrollo como material para aeronaves, en base a una
muestra aleatoria de tamaño 58, la que arroja las siguientes característica muestrales:
x =69.8 lb/pulg2, s=0.8 lb/pulg2. Utilizar una confianza del 90% para realizar esta
estimación.

Solución:

La variable de interés es la resistencia a la compresión, X . Estamos en el caso b, inciso


2, puesto que no se conoce la varianza poblacional. Por lo tanto, con 1 − α = 0.90 (ó
α α
α = 0.10 ; = 0.05; 1- = 0.95; Z 0.95 = 1.64 ), n = 58 (> 30), tenemos:
2 2

s 0.8 0.8
µ = x ± Z α . = 69.8 ± Z  0.10  . = 69.8 ± Z (1−0.05 ) .
 1− 
 2
n  1−


2 
58 58

0. 8 0 .8
= 69.8 ± Z (0.95 ) . = 69.8 ± [(1.64) ] = 69.8 ± 0.17 (1.64 se busca en la Tabla 2 de
58 58
la distribución normal estándar para una probabilidad de 0.95).

LI µ = 69.8 – 0.17 = 69.63


LS µ = 69.8 + 0.17 = 69.97

Con estos resultados, podemos escribir:

µ ε [69.63; 69.97]. (“ ε ” se lee: “pertenece a”).

Interpretación:

Con un 90% de confianza, la verdadera resistencia media a la compresión de las muestras


de aleación de aluminio en desarrollo como material para aeronaves, está comprendido
entre 69.63 lb/pulg2 y 69.97 lb/pulg2.

Nota:

W. Díaz, E. García, N. Rodríguez, F. Córdova


145

Si la confianza fuese del 95%, la probabilidad utilizada será igual a 0.975, para la cual
el percentil 97.5 en la Tabla 2, es igual a 1.96. En cuyo caso, los respectivos límites
confidenciales del 95% son los siguientes:

LI µ = 69.60 lb/pulg2

LS µ = 70.00 lb/pulg2

Ejercicios:

1. El índice de solución de hierro en una muestra aleatoria de 8 muestras de hojalata


para medir la resistencia a la corrosión de la hojalata de acero toma los siguientes
valores: 0.38, 0.72, 0.65, 0.78, 0.92, 1.12, 1.48, 1.03.

• Calcule un I.C. de 99% para el verdadero índice de solución de hierro promedio


para toda la población de muestras de hojalata, de la que se extrajo la muestra.

Solución:

Datos:
α
n=8; 1 − α =0.99 (1- = 0.995),
2
t(7; 0.995) = 3.5 (Tabla 2).
s 0.334
µ = x ± t α .
= 0.885 ± 3.5 = 0.885 ± 0.41
 n −1, 1− 
 2
n 8
0.475 < µ < 1.295

• Calcule un IC del 90% para el verdadero índice de solución de hierro promedio


para toda la población de muestras de hojalata  Sugerencia: t(7; 0.95)=1.895
(Tabla 3).

2. Se desea estudiar el porcentaje de hierro en un universo de especímenes de mineral de


hierro, para lo cual se extrajo una muestra aleatoria de 18 de dichos especímenes y, al
hacer la respectiva medición se obtuvo: 64.02, 66.24, 64.02, 66.39, 65.79, 63.85,
64.70, 66.70, 65.19, 65.14, 63.62, 65.75, 65.97, 66.13, 66.25, 66.05, 66.01, 66.20.
Suponiendo distribución normal de los correspondientes porcentajes poblacionales,
construir un intervalo de confianza del 95% para el verdadero porcentaje de hierro
promedio del universo de especímenes de mineral de hierro.

3. Construir un intervalo de confianza del 97% para la cantidad media por día de óxido
de azufre (en T.M.) de una planta industrial, durante 80 días, utilizando la siguiente
muestra aleatoria de 11 días de emisión: 22.3, 14.5, 21.4, 22.7, 13.9, 23.7, 15.2, 20.1,
73.1, 71.6, 70.5. Suponer distribución normal de los ingresos de todos los odontólogos
de la ciudad.

B. Proporción Poblacional (P):

W. Díaz, E. García, N. Rodríguez, F. Córdova


146

Casos:
a. n/N ≤ 0.05 o N desconocido:

pq
P= p±Z α
1−
2
n

pq
En esta expresión, el margen de error está dado por E = Z α ,
1−
2
n

donde q = 1 − p

b. Tamaño poblacional conocido y n/N > 0.05:

pq N −n
P= p±Z α
1−
2
n n −1

pq N −n
donde q = 1 − p . Para este caso, el margen de error será: E = Z α
1−
2
n n −1

Ejemplo:
En una muestra aleatoria de 95 taxistas que trabajan en la ciudad de Trujillo, 13
resultaron ser de nacionalidad extranjera. Estimar, puntual y confidencialmente (con
el 95% de confianza), la verdadera proporción de taxistas extranjeros que trabajan en
la ciudad de Trujillo, asumiendo que en la ciudad de Trujillo existen, actualmente, 1500
taxistas  Rpta.: (0.13, 0.31).

Solución:
Característica de interés: el taxista es de nacionalidad extranjera.
α
N = 1500, n = 95; 1 − α =0.95; 1- =0.975; Z0.975=1.96 (se busca en la Tabla 2).
2
n/N = 95/1500 = 0.06 > 0.05, a = 13 . Estamos en el caso del inciso b.

La estimación puntual de P es:

a 13
Pˆ = p = = = 0.14
n 95

y el intervalo de confianza del 95% será:

W. Díaz, E. García, N. Rodríguez, F. Córdova


147

pq N −n 0.14(0.86) 1500 − 95
P= p±Z α = 0.14 ± 1.96 = 0.14 ± 0.27
1−
2
n n −1 95 95 − 1

Como el límite inferior es una proporción negativa (- 0.13), se lo asume igual a 0.


Por lo tanto, los límites confidenciales respectivos para la proporción poblacional,
expresados en forma de intervalo cerrado, son:
P ε [0.00; 0.41]. En este caso, el margen de error es E=0.27 (ó E=27%).
Interpretación:
La verdadera proporción de taxistas de nacionalidad extranjera que trabajan en la
ciudad de Trujillo está comprendida entre 0.00 y 0.41, con un 95% de confianza.
Otra forma de interpretar es la siguiente: “Se estima que el porcentaje de taxistas
extranjeros que trabajan en la ciudad de Trujillo es igual al 14%, con un margen de
error de más o menos 27 puntos porcentuales”.
Ejercicios:
1) Se desea estimar la proporción a largo plazo de todos los ensayos que producirían
la circunstancia de estar cierto tipo de sustrato en incandescencia debido a un
cigarrillo encendido (ignición). En un artículo de investigación se reporta que, en una
muestra aleatoria de 80 ensayos en un laboratorio, 20 dieron como resultado la
respectiva ignición. Hallar un intervalo de confianza para la real proporción de
ensayos que producirían ignición, utilizando un 99% de confianza. {Rpta.: P ε [0.14;
0.36]; margen de error = 0.11}.

Solución:

n = 80; 1 − α =0.99; Z0.995=2.33 (de Tabla 2); p =0.25; q =0.75

Se desconoce el tamaño poblacional, N, de modo que el intervalo es:

pq pq 0.25(0.75)
P= p±Z α⇒ P= p±Z α = 0.25 ± 2.33
1−
2
n 1−
2
n 80
= 0.25 ± 0.11 ⇒ 0.14 < P < 0.36

“Con un 99% de confianza, la verdadera proporción de ensayos que producirían


ignición está compredida entre 0.14 y 0.36”.

2) Una encuesta telefónica realizada a 1068 estudiantes de una universidad acerca de la


posesión de alguna laptop para recibir clases virtuales, 673 manifestaron que tenían
laptop. Determinar:

a) La estimación puntual de la verdadera proporción de estudiantes de dicha


universidad que tienen laptop.

W. Díaz, E. García, N. Rodríguez, F. Córdova


148

Solución:

n = 1068 ; a = 673 ;

a 673
p= = = 0.6301
n 1068

b) El intervalo del 95% de confianza de la proporción poblacional de todos los


estudiantes de la universidad que tienen laptop.

Solución:

n = 1068; 1 − α =0.95; Z0.975=1.96 (de la Tabla 2); p =0.6301; q =0.3699

pq pq 0.6301(0.3699)
P= p±Z α ⇒ P= p±Z α = 0.6301 ± 1.96
1−
2
n 1−
2
n 1068
= 0.6301 ± 0.0290 ⇒ 0.6010 < P < 0.6591

“Con un 95% de confianza, la verdadera proporción de estudiantes universitarios


que poseen laptop para recibir clases virtuales está compredida entre 0.6010 y
0.6591”.

2) Suponga que INDECOPI quiere investigar acerca de la estafa de la


que son víctima los pobladores de una ciudad, con respecto a la
venta de un producto farmacéutico para “aumentar la inmunidad”.
(Como lo reveló el Dr. Huertas, en su programa radial del día 04 de
agosto de 2021, no existe medicamento alguno que aumenta la
inmunidad). Para esto, INDECOPI selecciona una muestra aleatoria
de 2017 pobladores de la ciudad, encontrándose que 1432 fueron
estafados con este producto. Utilizar los datos de la muestra para
construir un estimado de intervalo del 95% para el porcentaje de
pobladores que son estafados con el mencionado producto
farmacéutico. ¿Se trata, realmente, de un porcentaje muy alto?.
Suponga un tamaño poblacional de 65,084 pobladores.

Nota:
A continuación se presenta la numeración de las tablas utilizadas en nuestros ejemplos y/o
ejercicios:
Distribución Tabla
Binomial Tabla 1
Normal estándar Tabla 2
t de Student Tabla 3

W. Díaz, E. García, N. Rodríguez, F. Córdova


149

Estimación de la diferencia de medias poblacionales


Se trata de comparar dos poblaciones, X1 y X2, mediante la estimación de la diferencia
de sus medias, donde las muestras aleatorias e independientes de tamaños n1 y n2 ,
extraídas de X1 y X2, respectivamente, juegan un papel preponderante. Una vez
extraídas ambas muestras, para realizar la estimación interválica de la diferencia de
medias, se calcula las respectivas medias muestrales, x1 y x 2 . Asumiendo que X1 y X2
se distribuyen según la normal, con medias µ1 y µ 2 y varianzas σ 12 y σ 22 ,
respectivamente, en la estimación del intervalo de confianza del 100(1 - α ) % para µ1 -
µ 2 , se presenta los siguientes

Casos:

A. Varianzas poblacionales, σ 12 y σ 22 , conocidas:

σ 12 σ 22
µ1 - µ 2 = ( x1 - x 2 ) ± Z α +
1−
2
n1 n2

Ejemplo:

En una investigación realizada con postulantes a trabajo en dos empresas


metalmecánicas, a una muestra aleatoria de 15 postulantes de la ciudad A y 20
postulantes de la ciudad B, se les administró un examen de habilidad motriz,
obteniendo un promedio muestral de 70 y de 60 para los postulantes de las ciudades
A y B, respectivamente. Asumiendo distribución normal de los puntajes de todos los
postulantes de las ciudades A y B, cuyas varianzas poblacionales fueron iguales a 81
y 64, respectivamente. ¿Cuál es el intervalo de confianza del 95% para la real
diferencia de puntajes medios de los postulantes en las ciudades A y B?.

Solución:

81 64
µ1 - µ 2 = (70 – 60) ± 1.96 +
15 20

µ1 - µ 2 ∈ [4.25, 15.75]. “La verdadera diferencia entre los puntajes promedio de los
postulantes de ambas ciudades, está comprendida entre 4.25 y 15.75, con un 95% de
confianza”.

Ejercicio:

Resuelva el ejemplo precedente si, en las ciudades A y B, los tamaños de muestra son
iguales a 12 y 8, las medias muestrales son 90 y 70 y las desviaciones estándar
poblacionales son 11 y 12, respectivamente, y la confianza es del 99%. Interprete.
(Rpta.: µ1 - µ 2 ∈ [6.33, 33.67]).

W. Díaz, E. García, N. Rodríguez, F. Córdova


150

B. Varianzas poblacionales desconocidas e iguales:

1 1
µ1 - µ 2 = ( x1 - x 2 ) ± t α sp + ,
( n1 + n2 − 2;1− )
2
n1 n2

donde la varianza mancomunada o ponderada, s 2p , de las varianzas muestrales s12


y s 22 , está dada por:

2 (n1 − 1) s12 + (n2 − 1) s22


s =
p
n1 + n2 − 2

Ejemplo:

Se observó el porcentaje del contenido de ceniza en muestras aleatorias de turberas


para elaborar fibras textiles de turba, utilizando dos tipos de procedimiento de
fabricación de las fibras, A y B. Los datos muestrales se muestran en la siguiente tabla:

Característica Procedimiento
mustreal A B
n 18 24
x 2.1 2.5
s 2
0.42 0.62

Obtener el intervalo de confianza del 99% para la verdadera diferencia de porcentajes


promedio en ambos procedimientos, suponiendo distribución normal de los
porcentajes en ambos tipos de procedimiento e iguales varianzas poblacionales.

Solución:

Asumiendo que A es para la muestra 1 y B para la muestra 2, se tiene:

2 (n1 − 1) s12 + (n2 − 1) s 22 (18 − 1)(0.42) + (24 − 1)(0.62)


s =
p = = 0.535
n1 + n2 − 2 18 + 24 − 2

sp = 0.535 = 0.73

1 1
µ1 - µ 2 = ( x1 - x 2 ) ± t α sp +
( n1 + n2 − 2;1− )
2
n1 n2
1 1
= (2.1 -2.5) ± (2.704)(0.73) +
18 24

W. Díaz, E. García, N. Rodríguez, F. Córdova


151

µ1 - µ 2 ∈ [-1.02, 0.22]. “Con un 99% de confianza, la verdadera diferencia entre los


porcentajes medios del contenido de ceniza en los procedimientos de fabricación de
fibra de turba, A y B, está comprendida entre -1.02 y 0.22”. (El valor 2.704 se obtiene
de la Tabla 3 -Distribución t de Student- con 40 grados de libertad y una
probabilidad igual a 0.995).

Ejercicio:

Resuelva el ejemplo anterior si, para los procedimientos A y B, los tamaños de muestra
son iguales a 21 y 11, las medias muestrales son 1.9 y 1.3 y las desviaciones estándar
muestrales son 0.84 y 0.59, respectivamente. Asumir igualdad de varianzas
poblacionales y una confianza del 90%. (Rpta.: µ1 - µ 2 ∈ [0.12, 1.08]).

C. Varianzas poblacionales desconocidas y diferentes:

s12 s 22
µ1 - µ 2 = ( x1 - x 2 ) ± t α + ,
( GL ;1− )
2
n1 n2

donde GL representa los grados de libertad de la distribución t de Student, dado por:

s12 s 22 2
( + )
n n2
GL = 2 1 −2
s1 2 s 22 2
( ) ( )
n1 n
+ 2
n1 + 1 n2 + 1

Ejemplo:

Existe interés en estimar, con un 95% de confianza, la verdadera diferencia entre el


contenido porcentual de cobre en muestras de material de soldadura para dos coladas,
en base a las siguientes muestras de observaciones:

Colada 1: 0.27, 0.35, 0.37


Colada 2: 0.23, 0.15, 0.25, 0.24, 0.30, 0.33, 0.26

Suponer distribución normal de ambas poblaciones y que sus respectivas varianzas


son diferentes y desconocidas.

Solución:

W. Díaz, E. García, N. Rodríguez, F. Córdova


152

s12 s22 2 0.0028 0.0032 2


(
+ ) ( + )
n n2 3 7
GL = = 2 1 − 2 = − 2 = 72
s1 2 s22 2 0.0028 2 0.0032 2
( ) ( ) ( ) ( )
n1 n2 3 + 7
+ 3 +1 7 +1
n1 + 1 n2 + 1

s12 s 22
µ1 - µ 2 = ( x1 - x 2 ) ± t α +
( GL ;1− )
2
n1 n2

0.0028 0.0032
= (0.33 – 0.25) ± t ( 72;0.975) +
3 7
= 0.08 ± 1.9932(0.0373)

µ1 - µ 2 ∈ [0.01, 0.15]

Nota:

Como t ( 72;0.975) no se encuentra en la Tabla 3, lo obtenemos con el procedimiento


denominado por interpolación, tal como se ilustra a continuación:

t ( 70;0.975) = 1.994 (se encuentra en la Tabla 3: de la distribución t de Student)


t ( 72;0.975) = x (no se encuentra en la Tabla 3: de la distribución t de Student)
t (80;0.975) = 1.990 (se encuentra en la Tabla 3: de la distribución t de Student)

x − 1.994 72 − 70
= ⇒ x = 1.9932
1.994 − 1.990 70 − 80

Ejercicio:

Resuelva el ejemplo anterior si los datos muestrales son los siguientes:


Colada 1: 0.31, 0.26, 0.38, 0.21, 0.29
Colada 2: 0.30, 0.18, 0.21, 0.24, 0.30, 0.35, 0.24, 0.23

Además, la confianza es del 90%.

D. Muestras dependientes o muestras apareadas:


Aquí, con la finalidad de determinar el intervalo de confianza respectivo, las
observaciones muestrales se disponen como en la siguiente tabla:

i x1i x2i di= x1i - x2i


1 x11 x21 d1= x11 - x21
2 x12 x22 d2= x12 - x22
. . . .
. . . .

W. Díaz, E. García, N. Rodríguez, F. Córdova


153

. . . .
n x1n X2n dn = x1n – x2n
Total n n n

∑ x1i
i =1
∑ x 2i
i =1
∑d
i =1
i

sd
µ1 - µ 2 = d ± t α ,
( n −1;1− )
2 n
donde:
n

∑d i
d = i =1
: media muestral de las diferencias muestrales di, i=1, 2, ...,n.
n
y
n
(∑ d i ) 2
1 n
s d2 = [∑ d i2 − i =1
] : varianza muestral de las diferencias muestrales di,
n − 1 i =1 n
i=1, 2, ...,n.

Ejemplo:

Un fabricante desea comparar la resistencia al desgaste (medida en ciertas unidades,


u) de dos tipos distintos de llantas, A y B. Para hacer la comparación, asignó al azar
una llanta del tipo A y una del tipo B a las ruedas posteriores de una muestra aleatoria
de cinco automóviles. Los automóviles recorrieron un número específico de
kilómetros y se observó el desgaste de cada llanta. Estos valores se muestran en la
siguiente tabla:
i Llanta A (x1i) Llanta B (x2i) di= x1i - x2i
1 10.6 10.2 0.4
2 9.8 9.4 0.4
3 12.3 11.8 0.5
4 9.7 9.1 0.6
5 8.8 8.3 0.5

Total n n n

∑x
i =1
1i ∑x
i =1
2i ∑d
i =1
i

Hallar el intervalo de confianza del 95% para la diferencia desgaste medio de ambos
tipos de llanta.

Solución:
sd
µ1 - µ 2 = d ± t α
( n −1;1− )
2 n
n

∑d i
2.4
d = i =1
= = 0.48
n 5

W. Díaz, E. García, N. Rodríguez, F. Córdova


154

n
(∑ d i ) 2
1 n
s d2 = [∑ d i2 − i =1
] = 0.0056
n − 1 i =1 n
sd = 0.0056 = 0.0748

sd 0.0748
µ1 - µ 2 = d ± t α = 0.48 ± 2.776( ) = 0.48 ± 0.09
( n −1;1− )
2 n 5
µ1 - µ 2 ∈ [0.39, 0.57]

Ejercicio:

Las trazas de metales presentes en el agua potable afectan el sabor, y las


concentraciones inusualmente altas plantean un riesgo para la salud. En una
investigación se reporta que se seleccionaron, al azar, una muestra aleatoria de seis
lugares en el río (seis objetos experimentales) y se determinó la concentración de zinc
(mg/L), tanto en el agua superficial como en la del fondo, en cada lugar. Las
observaciones muestrales se exhiben a continuación:

Lugar (i) Agua del fondo (x1i) Agua de la superficie (x2i)


1 0.430 0.415
2 0.266 0.238
3 0.567 0.390
4 0.531 0.410
5 0.707 0.605
6 0.716 0.609

Obtener un intervalo de confianza del 99% para la verdadera diferencia entre las
concentraciones medias de zinc de ambos lugares del río.

Estimación de la diferencia de proporciones


poblacionales
Existen dos poblaciones con alguna característica cualitativa común de interés, con
proporciones P1 y P2 . Por ejemplo,

• Proporción de estudiantes varones en las Escuelas Académico Profesionales de


Ingeniería Mecánica y de Ingeniería Metalúrgica de la Universidad Nacional de
Trujillo. Las poblaciones son:
1) Población 1: Estudiantes de la Escuela Académico Profesional de Ingeniería
Mecánica. ( P1 : proporción de estudiantes varones de la Escuela Académico
Profesional de Ingeniería Mecánica).

W. Díaz, E. García, N. Rodríguez, F. Córdova


155

2) Población 2: Estudiantes de la Escuela Académico Profesional de Ingeniería


Metalúrgica. ( P2 : proporción de estudiantes varones de la Escuela Académico
Profesional de Ingeniería Metalúrgica).
• Proporción de motores con más de 5 años de antigüedad en las Compañías A y B.
Las poblaciones son:
1) Población 1: Conjunto de motores de la Compañía A. ( P1 : proporción de motores
con más de 5 años de antigüedad en la Compañía A).
2) Población 2: Conjunto de motores de la Compañía B. ( P2 : proporción de motores
con más de 5 años de antigüedad en la Compañía B).

• Proporción de retroexcavadoras de la marca “M” en las Empresas I y II.


Las poblaciones son:
1) Población 1: Conjunto de retroexcavadoras en la Empresa I. ( P1 : proporción de
retroexcavadoras de la marca “M” en la Empresa I).
2) Población 2: ( P2 : proporción de retroexcavadoras de la marca “M” en la
Empresa II).
Se trata de comparar las dos poblaciones cualitativas, X1 y X2, mediante la estimación de
la diferencia de sus proporciones, donde las muestras aleatorias e independientes,
extraídas de estas poblaciones, se asume que son suficientemente grandes y de
tamaños n1 y n2 . Una vez extraídas ambas muestras, para realizar la estimación
interválica de la diferencia de proporciones poblacionales, P1 − P2 , se calcula las
respectivas proporciones muestrales, p1 y p 2 , y el intervalo de confianza del 100(1 - α )
% para P1 − P2 es el siguiente:

p1 (1 − p1 ) p 2 (1 − p 2 )
P1 − P2 = ( p1 − p 2 ) ± Z α +
1−
2
n1 n2

Ejemplo:

En un estudio realizado con 341 soldadores de la ciudad I se encontró que 41 tuvieron al


menos una intervención quirúrgica visual (por haberles entrado un objeto metálico
extraño por lo menos a un ojo), en tanto que entre 438 soldadores de la ciudad II, 71
fueron intervenidos por el mismo motivo. Estimar, con una confianza del 95%, la
verdadera diferencia entre las proporciones de soldadores que han sido intervenidos
quirúrgicamente de la visión en ambas ciudades.

Solución:

Datos:

α
n1 = 341 ; a1 = 41 ; n2 = 438 ; a 2 = 71 ; p1 = 0.12 ; p 2 = 0.16 ; 1 − = 0.975
2

W. Díaz, E. García, N. Rodríguez, F. Córdova


156

p1 (1 − p1 ) p 2 (1 − p 2 )
P1 − P2 = ( p1 − p 2 ) ± Z α +
1−
2
n1 n2
0.12(1 − 0.12) 0.16(1 − 0.16)
= (0.12 − 0.16) ± 1.96 +
341 438

= -0.14 ± 1.96(0.02) = 0.14 ± 0.05

P1 - P2 ∈ [0.09, 0.19]

Ejercicio:

Resolver el ejemplo precedente, utilizando los siguientes cambios: n1 = 627 ; a1 = 53 ;


n2 = 841 ; a 2 = 81 ; la confianza es del 99%.

Guía de solución:

α
1− = 0.995 ; Z α = Z 0.995 = 2.58 (se busca en la Tabla 2: Probabilidades acumulativas
2 1−
2
de la distribución normal estándar).

W. Díaz, E. García, N. Rodríguez, F. Córdova


157

PRUEBA DE HIPÓTESIS (PH)


Introducción
Además de la Estimación de Parámetros, otra de las grandes ramas de la Inferencia
Estadística lo constituye la Prueba de Hipótesis acerca de dichos parámetros, mediante
la utilización de una muestra aleatoria que se selecciona de la población.
Las técnicas de la prueba de hipótesis que estudiaremos, pueden usarse para evaluar,
por ejemplo, si:
• La proporción de pernos defectuosos de una producción es, a lo más, igual a 0.02.
• Un curso de entrenamiento físico ha mejorado el funcionamiento del corazón.
• Un nuevo sistema alimenticio resultó económico.

Con el estudio de la prueba de hipótesis, se podrá comprender: el concepto de prueba


estadística, las ideas de hipótesis nula e hipótesis alternativa y niveles de significancia. También,
se podrá realizar la prueba de hipótesis acerca de la media poblacional ( µ ), de la proporción
poblacional ( P ), de la diferencia de medias poblacionales ( µ1 - µ 2 ) y de la diferencia de
proporciones poblacionales ( P1 − P2 ). Finalmente, se entenderá la diferencia entre pruebas
unilaterales y pruebas bilaterales y la relación existente entre las pruebas bilaterales y los
intervalos de confianza. Se desarrollará el método tradicional de prueba de hipótesis.
En la prueba de hipótesis a menudo sólo se necesita responder afirmativa o
negativamente una pregunta acerca de la población. Por ejemplo:
• ¿Es el consumo promedio diario de azúcar de un individuo igual a 15 gramos?
• ¿La producción defectuosa de pernos mantiene a la proporción de 0.02?.
• ¿Es la edad promedio de los egresados de la Escuela Académico Profesional de
Ingeniería Mecánica de la UNT inferior a 23 años?

Para responder a estas interrogantes, se utiliza la prueba de hipótesis, extrayendo una


muestra aleatoria de la población.

Usualmente, no se puede obtener respuestas exactas acerca de la población usando una


muestra, por lo que se usa la probabilidad para medir la incertidumbre en nuestros
resultados. Después de realizar una prueba de hipótesis haremos declaraciones como:
• “Existe poca evidencia de que el consumo promedio diario de azúcar de un individuo
sea igual a 15 gramos”,
• “Existe mucha evidencia de que la producción defectuosa de pernos mantiene a la
proporción de 0.02”
• “No existe evidencia de que la edad promedio de los egresados de Ingeniería Mecánica
de la UNT sea inferior a 23 años”.

Las ideas fundamentales de la prueba de hipótesis las daremos en los casos que
consideraremos a continuación:

W. Díaz, E. García, N. Rodríguez, F. Córdova


158

A. PRUEBA DE HIPÓTESIS ACERCA DE LA MEDIA POBLACIONAL ( µ )

El procedimiento para probar una hipótesis acerca de la media poblacional lo


ilustraremos en el siguiente

Ejemplo:

Se desea probar la hipótesis de que la temperatura media de activación de regadores


automáticos para extinguir incendios en talleres mecánicos es igual a 55 Grados
Celsius. Para esto, se extrae una muestra aleatoria de 45 regadores automáticos y
resulta que la temperatura media muestral de activación es de 56 Grados Celsius, con
una varianza muestral de 2.56 Grados Celsius2. Asumiendo distribución normal de
las temperaturas de activación con varianza desconocida. ¿Es la temperatura media
de activación de los regadores automáticos mayor que 55 Grados Celsius?. Realizar
la prueba con el 5% de significancia.
Solución:
PASO 1:
FORMULACIÓN DE LAS HIPÓTESIS NULA ( H 0 ) Y ALTERNATIVA ( H 1 )

La hipótesis nula es aquélla que se desea probar con respecto al parámetro


considerado y generalmente se expresa en forma de igualdad (o ecuación). La
hipótesis alternativa es la que contradice a la hipótesis nula y sirve para probar o
contrastar a ésta, expresándose con el signo de desigualdad (que puede ser <, > ó ≠
).
En nuestro caso, tenemos:
H 0 : µ = µ 0 = 55 versus H 1 : µ > µ 0 = 55

En esta situación diremos que la prueba es unilateral hacia la derecha o de cola


superior, puesto que el signo de la desigualdad en H 1 es “>”. (La hipótesis
alternativa es la que permite identificar si la prueba es unilateral o bilateral; además,
ella contradice a la hipótesis nula y sirve para probar a ésta).
Nota:
• Si nuestra prueba de la media poblacional hubiera sido unilateral hacia la
izquierda o de cola inferior, las hipótesis debían haberse formulado como:

H 0 : µ = µ 0 = 55 versus H 1 : µ < µ 0 = 55.

• Y si la referida prueba hubiera sido bilateral (o de dos colas), las hipótesis deberían
haberse formulado así:

H 0 : µ = µ 0 = 55 versus H 1 : µ ≠ µ 0 = 55).

PASO 2:

W. Díaz, E. García, N. Rodríguez, F. Córdova


159

FIJACIÓN DEL NIVEL DE SIGNIFICACIÓN (α)


El nivel de significación, denotado por α y llamado también nivel de significancia, es
la probabilidad de rechazar la hipótesis nula, cuando ésta es verdadera. Los valores
más utilizados para α son 0.01, 0.05 y 0.10, que representan el complemento del
nivel de confianza (1-α) en la estimación de parámetros. Este nivel lo fija el
investigador o puede estar declarado en el enunciado del problema. En nuestro
ejemplo,
α = 0.05
PASO 3:
DETERMINACIÓN DE LA ESTADÍSTICA DE PRUEBA ( EP )
La estadística de prueba, llamada también prueba estadística o función pivotal, es
una variable aleatoria que tiene una distribución de probabilidad conocida. Por
ejemplo, si el parámetro es la media poblacional de una distribución normal con
varianza conocida, la prueba estadística es la variable aleatoria Z (con distribución
normal estándar), o la variable aleatoria t (con distribución t de Student y n-1 grados
de libertad, si no se conoce la varianza poblacional y el tamaño de muestra es menor
que 30). Si el parámetro de interés es la proporción poblacional, la prueba estadística
(para muestras grandes, n > 30) es Z.
En el caso de la prueba de hipótesis de la media poblacional, bajo el supuesto de que
la población se distribuye de manera normal, la prueba estadística depende del
tamaño de la muestra y de si se conoce o no la varianza poblacional. Las posibles
situaciones que pueden presentarse son las siguientes:
a) n ≥ 30 (muestras grandes), varianza poblacional desconocida:

x−µ
EP : Z = ~ N (0,1)
s/ n
b) n < 30 (muestras pequeñas):

b1) σ2 conocida:
x−µ
EP : Z = ~ N (0,1)
σ/ n
b2) σ2 desconocida:
x−µ
EP : t = ~ t (n −1)
s/ n

W. Díaz, E. García, N. Rodríguez, F. Córdova


160

En nuestro ejemplo, como no se conoce la varianza poblacional y n = 45 ≥ 30,


corresponde al caso a). Por lo tanto, la prueba estadística que utilizaremos es la
siguiente:

x−µ
EP : Z = ~ N (0,1)
s/ n
PASO 4:
DETERMINACIÓN DE LA REGIÓN DE RECHAZO (RR) Y DE LA REGIÓN DE ACEPTACIÓN
(RA)
La Región de Rechazo, llamada también Región Crítica, es el conjunto de valores de
la prueba estadística, para los cuales se rechaza la hipótesis nula. Al complemento
de esta región se la denomina Región de Aceptación y es el conjunto de valores de la
prueba estadística para los cuales no se rechaza la hipótesis nula. Debido a esto, se
dice que ambas regiones son complementarias. La Región de Rechazo depende de:
• La prueba estadística ( EP )
• El nivel de significación (α)
• La hipótesis alternativa ( H 1 )

Las distintas alternativas de ambas regiones (RR y RA), para el caso de la prueba de
hipótesis acerca de la media poblacional, con Z como prueba estadística, se puede
ilustrar del siguiente modo:

(1) H 0 : µ = µ 0 versus H 1 : µ < µ 0 (prueba de cola inferior)

𝛼𝛼 1 − 𝛼𝛼

RR RA Z
c

donde c se denomina valor crítico (o punto crítico) y corresponde al percentil


100α de la distribución normal estándar; es decir:

c = Zα

Podemos escribir más formalmente, tanto RR como RA, así:


RR = {Z: Z ≤ c}
y
RA = {Z: Z > c}

W. Díaz, E. García, N. Rodríguez, F. Córdova


161

(2) H 0 : µ = µ 0 versus H 1 : µ > µ 0 (prueba de cola superior)

1 − 𝛼𝛼 𝛼𝛼

RA c RR Z

En este caso, el punto crítico y las regiones respectivas son:

c = Z 1−α

RR = {Z: Z ≥ c}
y
RA = {Z: Z < c}

(3) H 0 : µ = µ 0 versus H 1 : µ ≠ µ 0 (prueba es bilateral o de dos colas)

𝛼𝛼 𝛼𝛼
2 1 − 𝛼𝛼 2

Z
RR -c RA c RR

Cuando la prueba es bilateral, tenemos:


c= Z α
1−
2

RR = {Z: Z ≤ - c ó Z ≥ c}
y
RA = {Z: -c < Z < c}

W. Díaz, E. García, N. Rodríguez, F. Córdova


162

Nota:
Si la prueba estadística utilizada fuera la t de Student, en vez de Z, el punto
crítico, la región de rechazo y la región de aceptación, serán los siguientes, para
cada uno de los casos anteriores (1), (2) y (3):

(1) H 0 : µ = µ 0 versus H 1 : µ < µ 0 (prueba unilateral hacia la izquierda)

𝛼𝛼 1 − 𝛼𝛼

RR RA t
c

c = t ( n −1; α )

RR = {t: t ≤ c}
y
RA = {t: t > c}

(2) H 0 : µ = µ 0 versus H 1 : µ > µ 0 ((prueba unilateral hacia la derecha)

1 − 𝛼𝛼 𝛼𝛼

RA c RR
t

c = t ( n −1; 1−α )

RR = {t: t ≥ c}
y
RA = {t: t < c}

W. Díaz, E. García, N. Rodríguez, F. Córdova


163

(3) H 0 : µ = µ 0 versus H 1 : µ ≠ µ 0 (prueba bilateral o de dos colas)

𝛼𝛼 𝛼𝛼
2 1 − 𝛼𝛼 2

t
RR -c RA c RR

c= t α
( n −1;1− )
2

RR = {t: t ≤ - c ó t ≥ c}
y
RA = {t: -c < t < c}

Para nuestro ejemplo, las regiones correspondientes son las siguientes:

H 0 : µ = µ 0 = 55 versus H 1 : µ > µ 0 =55

1 − 𝛼𝛼 = 0.95 𝛼𝛼 = 0.05

RA c
Z
RR

Z0.95 = c = 1.64 (se busca en la Tabla 2)

PASO 5:
CÁLCULO DEL VALOR DE LA PRUEBA ESTADÍSTICA ( EP0 )

El valor de la prueba estadística depende de:


• La prueba estadística (PASO 3)
• La información muestral
• La hipótesis nula ( H 0 )

En nuestro ejemplo, el valor de la prueba estadística será:

W. Díaz, E. García, N. Rodríguez, F. Córdova


164

Se desea probar la hipótesis de que la temperatura media de activación de regadores


automáticos para extinguir incendios en talleres mecánicos es igual a 55 Grados
Celsius. Para esto, se extrae una muestra aleatoria de 45 regadores automáticos y
resulta que la temperatura media muestral de activación es de 56 Grados Celsius,
con una varianza muestral de 2.56 Grados Celsius2. Asumiendo distribución normal
de las temperaturas de activación con varianza desconocida. ¿Es la temperatura
media de activación de los regadores automáticos mayor que 55 Grados Celsius?.
Realizar la prueba con el 5% de significancia.

x − µ0 56 − 55
EP0 = Z 0 = = = 4.19
s/ n 1.6 / 45

PASO 6:
REGLA DE DECISIÓN:
• Si EP0 ε RR se decide rechazar H 0
• Si EP0 ε RA decidimos no rechazar H 0

Aplicando este paso a nuestro ejemplo, observamos que

1 − 𝛼𝛼 = 0.95 𝛼𝛼 = 0.05

RA c=1.64 RR
Z

EP0 = 4.19 ε RR

H 0 : µ = µ 0 = 55 versus H 1 : µ > µ 0 = 55

Por lo tanto, decidimos rechazar la hipótesis nula, para cuyo entendimiento hemos
reproducido, nuevamente, las hipótesis de nuestro ejemplo, después de la figura. En
otras palabras, existe suficiente evidencia de que la temperatura media de
activación de los regadores automáticos es mayor que 55 Grados Celsius. Para un
mejor entendimiento de esta conclusión, reproducimos nuevamente el enunciado
del problema:
“Se desea probar la hipótesis de que la temperatura media de activación de
regadores automáticos para extinguir incendios en talleres mecánicos es igual a 55
Grados Celsius. Para esto, se extrae una muestra aleatoria de 45 regadores
automáticos y resulta que la temperatura muestral de activación es de 56 Grados
Celsius, con una varianza de 2.56 Grados Celsius2. Asumiendo distribución normal de
las temperaturas de activación con varianza desconocida. ¿Es la temperatura media
de activación de los regadores automáticos mayor que 55 Grados Celsius?. Realizar
la prueba con el 5% de significancia”.

W. Díaz, E. García, N. Rodríguez, F. Córdova


165

Nota 1: Relación entre intervalo de confianza y prueba de hipótesis


Existe una correspondencia directa entre un intervalo de confianza y una prueba de
hipótesis, sólo si la prueba es bilateral. De este modo, si el parámetro poblacional
tiene un valor que no está incluido en el intervalo de confianza, debemos rechazar
la hipótesis nula.

Nota 2:

Cuando se tiene un conjunto de datos muestrales, para encontrar la media, la varianza


y la desviación estándar muestrales, utilizando EXCEL, se procede del siguiente
modo:

• Abrir una hoja de cálculo de Excel e ingresar los datos muestrales en una
columna.

• Cálculo de la media muestral ( x ):

En una celda vacía, escribir:

=promedio()enter

(dentro del paréntesis, seleccionar con el cursor los datos ingresados).

Se obtiene el valor de la media muestral x

• Cálculo de la varianza muestral ( s 2 ):

En otra celda vacía, escribir:

=var.s()enter

(dentro del paréntesis, seleccionar con el cursor los datos ingresados).

Se obtiene el valor de la varianza muestral, s 2

• Cálculo de la desviación estándar muestral ( s ):

En otra celda vacía, escribir:

=desvest.m()enter

(dentro del paréntesis, seleccionar con el cursor los datos ingresados).

W. Díaz, E. García, N. Rodríguez, F. Córdova


166

Se obtiene la desviación estándar muestral, s

Ejercicios:
1) Probar la hipótesis de que la verdadera distancia media (en miles de kilómetros) de
cierto tipo de llanta vehicular es igual a 25, contra la hipótesis alternativa de que
tal media es diferente a 25, tomando una muestra aleatoria de 20 llantas, extraída
de una distribución de población normal con varianza poblacional igual a 2.25,
cuya media muestral es igual a 21. El nivel de significación es igual a 1%.

Solución:

Datos:
n = 20; media muestral = 21; desviación estándar poblacional = 1.5; alfa = 0.01

PASO 1:

H 0 : µ = µ 0 = 25 versus H1 : µ ≠ µ 0 = 25 (la prueba es bilateral)

PASO 2:
α = 0.01
PASO 3:

x−µ
EP : Z = ~ N (0,1)
σ/ n
PASO 4:

H 0 : µ = 25 = µ 0 versus H1 : µ ≠ µ 0 = 25

𝛼𝛼
𝛼𝛼 = 0.005
= 0.005 2
2 1 − 𝛼𝛼 = 0.99

Z
RR -c=-2.58 RA c=2.58 RR

Cuando la prueba es bilateral, tenemos dos puntos críticos: c1 = -c y c2 = c


c= Z α = Z0.995 = 2.58
1−
2

RR = {Z:Z ≤ - 2.58 ó Z ≥ 2.58}


y

W. Díaz, E. García, N. Rodríguez, F. Córdova


167

RA = {Z:-2.58<Z<2.58}
PASO 5:

CÁLCULO DEL VALOR DE LA PRUEBA ESTADÍSTICA ( EP0 )

x − µ0 21 − 25
EP0 = Z 0 = = = −11.92
σ/ n 1.5 / 20
PASO 6:
REGLA DE DECISIÓN:
Como -11.92 pertenece a la región de rechazo (ver figura del PASO 4), decidimos
rechazar la hipótesis nula. Por lo tanto, concluimos que la verdadera distancia
media difiere de 25.

2) Una bomba de pistón es una bomba hidráulica que se utiliza para bombear el fluido
hidráulico que después accionará los diversos mecanismos (por ejemplo, motores
hidráulicos, cilindros hidráulicos, etc.). Una de las características fundamentales de
la bomba es el número de recorridos por minuto, el cual se distribuye
normalmente, pero con media desconocida. Suponer que la bomba no se utilizará
si este promedio es menor que 30. Se sabe también que la varianza poblacional es
desconocida. Formular y probar las hipótesis apropiadas, utilizando los siguientes
datos muestrales, con un 5% de significación: 21.5, 18.3, 31.7, 16.0, 41.3, 18.3,
32.5, 23.5, 41.7, 16.0, 19.4, 35.0, 17.1, 51.0, 28.0, 35.0, 20.0, 54.4, 17.8, 30.0, 40.0,
20.8, 14.5, 57.0, 31.6, 18.1, 15.5, 14.1, 18.2, 17.8, 21.0, 20.8, 31.7, 30.0, 36.7, 40.0,
55.0, 51.8, 50.0, 47.5, 33.5, 33.9, 35.0, 28.3, 27.5, 27.5, 20.0, 17.5, 19.2, 16.9, 19.0,
16.7

Solución:

n=52

PASO 1:
H 0 : µ = µ 0 = 30 versus H 1 : µ < µ 0 = 30

PASO 2:
α = 0.05
PASO 3:

W. Díaz, E. García, N. Rodríguez, F. Córdova


168

x−µ
EP : Z = ~ N (0,1)
s/ n

PASO 4:

(4) H 0 : µ = µ 0 versus H 1 : µ < µ 0 (prueba unilateral hacia la izquierda)

𝛼𝛼 1 − 𝛼𝛼

RR RA Z
c

c = -1.64
RR = {Z: Z ≤ - 1.64}
y
RA = {Z: Z > -1.64}

28.76 − 30
(5) EP : t 0 = = −0.7291
12.2647 / 52
(6) El valor de de la prueba estadística (-0.7291) pertenece a la Región de
Aceptación. En consecuencia, no existen evidencias suficientes que
indiquen que el número medio de carreras por minuto de la bomba es
inferior a 30 y, por tanto, la bomba no debe ser utilizada.

3) Para evaluar un nuevo proceso tecnológico en la producción de diamantes CVD, se


utiliza la siguiente muestra aleatoria del peso (en quilates) de 10 diamantes: 0.60,
0.43, 0.57, 0.41, 0.58, 0.50, 0.59, 0.47, 0.51, 0.42. Con la finalidad de que el proceso
sea rentable, una investigación reporta que el peso medio de los diamantes no debe
ser inferior a 0.5 quilates. ¿Presentan estos datos suficiente evidencia de que el peso
promedio de los diamantes CVD producidos por el nuevo proceso no es inferior a
0.5 quilates?. Realizar la prueba con el 1% de significación.

Guía de solución:
El valor de la prueba estadística es igual a 0.36; la prueba es unilateral hacia la
derecha; el punto crítico es igual a 2.821; se decide no rechazar la hipótesis nula.

4) Resuelva el ejercicio 3), con los siguientes cambios:

W. Díaz, E. García, N. Rodríguez, F. Córdova


169

a) El nivel de significación es del 5%.


b) La prueba es bilateral y el nivel de significancia es del 10%.

B. PRUEBA DE HIPÓTESIS ACERCA DE LA PROPORCIÓN POBLACIONAL


(P)

Supuesto:

np ≥ 5, nq ≥ 5, q = 1 - p
El procedimiento para realizar una prueba de hipótesis acerca de la proporción
poblacional es el mismo que para el caso de la media poblacional. La prueba
estadística que se utiliza en este caso (PASO 3) es la siguiente:
p−P
EP : Z = ~ N (0,1)
P(1 − P ) / n

Ejemplo:

En cierto año se realizó una investigación en el Instituto Regional de Oftalmología


(IRO) de Trujillo y, entre otros aspectos, acerca del agente causal de la lesión ocular,
se encontró que el 35% de todos los pacientes lesionados en alguno o ambos ojos
tuvieron al metal como agente causal de la lesión. En un estudio actual se reporta que
227 de los 606 pacientes en una muestra aleatoria tuvieron al metal como agente causal
de la lesión ocular. ¿Puede concluirse que más del 35% de todos los pacientes de la
población con lesión ocular han tenido al metal como agente causal, a un nivel de
significación del 1%?.

Solución:

Datos:

a 227
p= = = 0.37 (proporción muestral de pacientes cuya lesión ocular tuvo al
n 606
metal como agente causal).

q = 1 − 0.37 = 0.63 (proporción muestral de pacientes cuya lesión ocular no tuvo al


metal como agente causal).

np = 227 ≥ 5 ; nq = 379 ≥ 5 (se cumplen los supuestos)

PASO 1:

H 0 : P = P0 = 0.35 vs H 1 : P > 0.35 (prueba de cola superior o unilateral hacia

la derecha)

PASO 2:

W. Díaz, E. García, N. Rodríguez, F. Córdova


170

α = 0.01

PASO 3:

p−P
EP : Z = ~ N (0,1)
P(1 − P ) / n

PASO 4:

H 0 : P = P0 = 0.35 vs H 1 : P > 0.35

0.99 0.01

Z
RA C=2.33 RR

c = Z0.99 = 2.33 (Tabla 2)


PASO 5:

p − P0 0.37 − 0.35
EP0 = Z 0 = = = 1.03
P0 (1 − P0 ) / n 0.35(1 − 0.35) / 606

PASO 6:

El valor calculado de la prueba estadística (1.03) pertenece a la región de


aceptación. Por lo tanto, decidimos no rechazar la hipótesis nula. En consecuencia,
concluimos que la verdadera proporción de pacientes cuya lesión ocular se debió al
metal no es mayor que 0.35, al 1% de significancia.

Ejercicios:

1) Se informa que por lo menos el 85% de todos los pedidos de insumos (soldaduras,
fierro, etc.) que se reciben en un taller de mecánica se hacen con más de dos horas
de retraso. Si P representa la real proporción de tales pedidos que se reciben con
más de dos horas de retraso, probar la hipótesis nula de que P = 0.85 frente a una
alternativa de cola inferior, utilizando una muestra aleatoria de tamaño 315, en
la que 220 pedidos se comprobó que son entregados con más de dos horas de
retraso. Utilizar un nivel de significación del 5%. (Rpta.: Se rechaza la hipótesis
nula; el valor observado de la prueba estadística es igual a -5.56 y el punto crítico
es igual a -1.64).

W. Díaz, E. García, N. Rodríguez, F. Córdova


171

Solución:

PASO 1:

H 0 : P = P0 = 0.85 vs H 1 : P < 0.85 (prueba de cola inferior o unilateral hacia

la izquierda)

PASO 2:

α = 0.05

PASO 3:

p−P
EP : Z = ~ N (0,1)
P(1 − P ) / n

PASO 4:

PASO 5:

PASO 6:

2) Formular la hipótesis nula (H0) y la hipótesis alternativa (H1) en cada una de las
siguientes situaciones:
a) La proporción de estudiantes de una población encuestada que han enviado
mensajes durante un examen es mayor que 0.20.
b) La proporción de estudiantes de la UNT que recibe clases virtuales en su
celular difiere de 0.50.
3) Una empresa de manufactura de bombas de pistón, considera que, al venderlas,
los clientes solicitarán reparación de la bomba cuando menos, después de 5 años
de uso. Para ver la factibilidad de esta solicitud, se selecciona una muestra
aleatoria de 114 clientes que compraron la bomba de pistón, encontrándose que
84 solicitaron su reparación cuando menos, después de 5 años de uso. Averiguar
si la proporción poblacional de clientes que solicitan reparación de la bomba de
pistón cuando menos después de 5 años de uso, es inferior a 0.82, con un nivel
de significación de 0.10.

W. Díaz, E. García, N. Rodríguez, F. Córdova


172

Prueba de hipótesis acerca de la diferencia de dos


medias poblacionales
Debido a que el procedimiento de prueba de hipótesis es el mismo (con los mismos
pasos), a continuación se presenta los pasos fundamentales, según el caso considerado:

Casos:

E. Varianzas poblacionales, σ 12 y σ 22 , conocidas:


Hipótesis nula:
H0: µ1 − µ 2 = 0

Prueba estadística:

(media1 − media 2) − ( µ1 − µ 2 )
Z=
σ 12 σ 22
+
n1 n2

La cual se distribuye de acuerdo a la normal estándar, donde:

media1 = x 1: media de la primera muestra


media 2 = x 2: media de la segunda muestra

Ejemplo:

Consideremos el ejemplo de los postulantes a trabajo en dos empresas


metalmecánicas (ubicadas en las ciudades A y B), donde se selecciona una muestra
aleatoria de 15 postulantes de la ciudad A y 20 postulantes de la ciudad B para
administrarles un examen de habilidad motriz, obteniendo un promedio de 70 y de 60
para las muestras de postulantes de las ciudades A y B, respectivamente. Asumiendo
distribución normal de los puntajes de todos los postulantes de las ciudades A y B,
cuyas varianzas poblacionales fueron iguales a 81 y 64, respectivamente. ¿Es la
diferencia entre las medias poblacionales significativamente diferente de cero con un
nivel de significación del 5%?.

Solución:

Hipótesis nula y alternativa:

H0: µ1 − µ 2 = 0 contra H1: µ1 − µ 2 ≠ 0

Valor de la prueba estadística:

W. Díaz, E. García, N. Rodríguez, F. Córdova


173

(media1 − media 2) − ( µ1 − µ 2 ) (70 − 60) − (0)


Z0 = = = 3.41
σ 12 σ 22 81 64
+ +
n1 n2 15 20
Puntos críticos:

c1 = Z 0.025 = −1.96 y c 2 = Z 0.975 = 1.96 (según la tabla de la distribución normal


estándar).

RR = {Z: Z ≤ -1.96 ó Z ≥ 1.96}


RA = {Z: -1.96 ≤ Z ≤ 1.96}

Regla de decisión:

Z 0 ∈ RR. Por lo tanto, se decide rechazar la hipótesis nula y las medias


poblacionales son estadísticamente diferentes, con un 5% de significancia.

Nota:

Recordemos que en el ejemplo aludido, al considerar el intervalo de confianza del


95%, obtuvimos que µ1 - µ 2 ∈ [4.25, 15.75], el cual no contiene a 0, con lo que se
corrobora la relación existente entre las pruebas bilaterales y los intervalos de
confianza. (En este caso, al no contener este intervalo a 0, concluimos que existe
diferencia significativa entre las medias poblacionales, con un 5% de significación).

Ejercicio:

1. Resuelva el ejemplo precedente si, en las ciudades A y B, los tamaños de muestra


son iguales a 12 y 8, las medias muestrales son 90 y 70 y las desviaciones
estándar poblacionales son 11 y 12, respectivamente, y el nivel de significación
es del 1%. (Rpta.: Se rechaza la hipótesis nula).

Solución:

Hipótesis nula y alternativa:

H0: µ1 − µ 2 = 0 contra H1: µ1 − µ 2 ≠ 0

Valor de la prueba estadística:

(media1 − media 2) − ( µ1 − µ 2 ) (90 − 70) − (0)


Z0 = = = 3.77
σ 12 σ 22 121 144
+ +
n1 n2 12 8
Puntos críticos:

W. Díaz, E. García, N. Rodríguez, F. Córdova


174

c1 = Z 0.005 = −2.58 y c 2 = Z 0.995 = 2.58 (según la tabla de la distribución


normal estándar).

RR = {Z: Z ≤ -2.58 ó Z ≥ 2.58}


RA = {Z: -2.58 ≤ Z ≤ 2.58}

Regla de decisión:

Z 0 ∈ RR. Por lo tanto, se decide rechazar la hipótesis nula y la media de la


primera población es diferente que la media de la segunda, con un 1% de
significancia.
l

2. Resuelva el ejemplo precedente si, en las ciudades A y B, los tamaños de muestra


son iguales a 12 y 8, las medias muestrales son 90 y 70 y las desviaciones estándar
poblacionales son 11 y 12, respectivamente, la hipótesis es unilateral hacia la
izquierda y el nivel de significación es del 5%.

Solución:

Hipótesis nula y alternativa:

H0: µ1 − µ 2 = 0 contra H1: µ1 − µ 2 < 0

Valor de la prueba estadística:

(media1 − media 2) − ( µ1 − µ 2 ) (90 − 70) − (0)


Z0 = = = 3.77
σ 12 σ 22 121 144
+ +
n1 n2 12 8
Punto crítico:

c = Z 0.05 = −1.64 (según la tabla de la distribución normal estándar).


RR = {Z: Z ≤ -1.64}
RA = {Z: Z > -1.64}

Regla de decisión:

Z 0 ∈ RA. Por lo tanto, se decide no rechazar la hipótesis nula y la media de la


primera población no es menor que la media de la segunda, con un 5% de
significancia.

3. Resuelva el ejemplo precedente si, en las ciudades A y B, los tamaños de muestra


son iguales a 12 y 8, las medias muestrales son 90 y 70 y las desviaciones estándar

W. Díaz, E. García, N. Rodríguez, F. Córdova


175

poblacionales son 11 y 12, respectivamente, la hipótesis es unilateral hacia la


derecha y el nivel de significación es del 10%.

F.Varianzas poblacionales desconocidas e iguales:

Hipótesis nula:
H0: µ1 − µ 2 = 0

Prueba estadística:

(media1 − media 2) − ( µ1 − µ 2 )
t=
1 1
sp +
n1 n2

la cual se distribuye según una t de Student con n1 + n2 - 2 grados de libertad.


donde:

media1 = x 1: media de la primera muestra


media 2 = x 2: media de la segunda muestra

(n1 − 1) s12 + (n2 − 1) s 22


s 2p =
n1 + n2 − 2

Ejemplo:

Se observó el porcentaje del contenido de ceniza en muestras aleatorias de turberas


para elaborar fibras textiles de turba, utilizando dos tipos de procedimiento de
fabricación de las fibras, A y B. Los datos muestrales se muestran en la siguiente tabla:

Característica Procedimiento
muestral A B
n 18 24
x 2.1 2.5
s 2
0.42 0.62

Presentan los datos muestrales suficiente evidencia para concluir que existe diferencia
significativa entre los porcentajes promedio del contenido de ceniza en ambos
procedimientos, con el 5% de significancia?. Suponer distribución normal de los
porcentajes del contenido de ceniza en ambos tipos de procedimiento e iguales
varianzas poblacionales pero desconocidas.

Solución:

Asumiendo que A es para la muestra 1 y B para la muestra 2, se tiene:

W. Díaz, E. García, N. Rodríguez, F. Córdova


176

(n1 − 1) s12 + (n2 − 1) s 22 (18 − 1)(0.42) + (24 − 1)(0.62)


s 2p = = = 0.535
n1 + n2 − 2 18 + 24 − 2

sp = 0.535 = 0.73

Hipótesis nula e hipótesis alternativa:

H0: µ1 − µ 2 = 0; H1: µ1 − µ 2 ≠ 0

Prueba estadística:

(media1 − media 2) − ( µ1 − µ 2 ) (2.1 − 2.5) − (0)


t0 = = = -1.76
1 1 1 1
sp + (0.73) +
n1 n2 18 24

Puntos críticos:

c1 = t ( 40, 0.025) = −2.021 y c 2 = t ( 40, 0.975) = 2.021 (buscados en la tabla de la


distribución t de Student).

RR = {t: t ≤ -2.021 ó t ≥ 2.021}


RA = {t: -2.021 ≤ t ≤ 2.021}

Regla de decisión:

t 0 RA. Por lo tanto, se decide no rechazar la hipótesis nula y se concluye que los
datos no presentan evidencia de que las medias poblacionales son estadísticamente
diferentes, con un 5% de significancia.

Ejercicio:

Resuelva el ejemplo anterior si, en los procedimientos A y B, los tamaños de muestra


son iguales a 21 y 11, las medias muestrales son 1.9 y 1.3 y las desviaciones estándar
muestrales son 0.84 y 0.59, respectivamente. Asumir distribución normal de ambas
poblaciones, igualdad de varianzas poblacionales y desconocidas y un nivel de
significación del 10%. (Rpta.: µ1 - µ 2 ∈ [0.12, 1.08], el cual no contiene a 0 y se
decide rechazar la hipótesis nula, existiendo diferencia significativa entre las medias
poblacionales).

Nota:

En este ejercicio se ha utilizado el enfoque del intervalo de confianza para µ1 - µ 2 ,


con una confianza del 90%, el cual es equivalente a la prueba de hipótesis acerca de
µ1 - µ 2 , con una alternativa bilateral a una significancia del 10%. (Se pide, como
ejercicio, realizar la prueba de hipótesis, con los 6 pasos de la misma).

W. Díaz, E. García, N. Rodríguez, F. Córdova


177

G. Varianzas poblacionales desconocidas y diferentes:

Hipótesis nula:
H0: µ1 − µ 2 = 0

Prueba estadística:

(media1 − media 2) − ( µ1 − µ 2 )
t=
s12 s 22
+
n1 n2

la cual se distribuye según una t de Student con GL grados de libertad, donde

s12 s 22 2
( + )
n n2
GL = 2 1 −2
s1 2 s 22 2
( ) ( )
n1 n
+ 2
n1 + 1 n2 + 1

Ejemplo:

Probar, con el 5% de significancia, si existe diferencia significativa entre los


contenidos porcentuales medios de cobre en muestras de material de soldadura para
dos coladas, utilizando las siguientes muestras de observaciones:

Colada 1: 0.27, 0.35, 0.37


Colada 2: 0.23, 0.15, 0.25, 0.24, 0.30, 0.33, 0.26

Suponer distribución normal de ambas poblaciones y que sus respectivas varianzas


son diferentes y desconocidas.

Solución:

Hipótesis nula e hipótesis alternativa:


H0: µ1 − µ 2 = 0; H1: µ1 − µ 2 ≠ 0

Valor de la prueba estadística:

(media1 − media 2) − ( µ1 − µ 2 ) (0.33 − 0.25) − (0)


t0 = = = 2.14
s12 s 22 0.0028 0.0032
+ +
n1 n2 3 7

Puntos críticos:

W. Díaz, E. García, N. Rodríguez, F. Córdova


178

s12 s22 2 0.0028 0.0032 2


(
+ ) ( + )
n n2 3 7
GL = = 2 1 − 2 = − 2 = 72
s1 2 s22 2 0.0028 2 0.0032 2
( ) ( ) ( ) ( )
n1 n2 3 + 7
+ 3 +1 7 +1
n1 + 1 n2 + 1

c1 = t ( 72, 0.025) = −1.993 (obtenido por interpolación, puesto que en la tabla de la


distribución t de Student no se localiza 72).
c 2 = t ( 72, 0.975) = 1.993 (obtenido por interpolación)

Nota:

Otro enfoque, distinto al del método de interpolación para hallar algún valor de la tabla
que no se encuentre en la misma, consiste en utilizar el valor más cercano o próximo.
Por ejemplo, en este caso, como no hay en la tabla los 72 grados de libertad, podemos
utilizar, APROXIMADAMENTE, el valor más próximo de dicha tabla, que
corresponde a 70 (el cual sí está en la tabla de la distribución t de Student; para el cual,
los valores críticos serán de 1.994 y -1.994).

RR = {t: t ≤ -1.993 ó t ≥ 1.993}


RA = {t: -1.993 ≤ t ≤ 1.993}

Regla de decisión:

t 0 ∈ RR. Por lo tanto, se decide rechazar la hipótesis nula y se concluye que existe
diferencia significativa entre las medias poblacionales, con un 5% de significación.
Notemos que el intervalo de 95% de confianza para la diferencia de medias es el que
se obtuvo anteriormente: µ1 - µ 2 ∈ [0.01, 0.15], el cual no contiene a 0, ratificándose
que existe una relación entre los intervalos de confianza y las pruebas de hipótesis
bilaterales.

Ejercicio:

Resuelva el ejemplo anterior si los datos muestrales son los siguientes:


Colada 1: 0.31, 0.26, 0.38, 0.21, 0.29
Colada 2: 0.30, 0.18, 0.21, 0.24, 0.30, 0.35, 0.24, 0.23

Además, el nivel de significancia es del 10%.

H. Muestras dependientes o apareadas:


Las observaciones muestrales se disponen como en la siguiente tabla:

W. Díaz, E. García, N. Rodríguez, F. Córdova


179

i x1i x2i di= x1i - x2i


1 x11 x21 d1= x11 - x21
2 x12 x22 d2= x12 - x22
. . . .
. . . .
. . . .
n x1n X2n dn = x1n – x2n
Total n n n

∑x
i =1
1i ∑x
i =1
2i ∑d
i =1
i

(Antes de realizar la prueba de hipótesis, el intervalo de confianza respectivo para


la diferencia de media, es el siguiente:
sd
µ1 - µ 2 = d ± t α ,
( n −1;1− )
2 n
donde:
n

∑d i
d = i =1
: media muestral de las diferencias muestrales di, i=1, 2, ...,n.
n
y
n
(∑ d i ) 2
1 n
s d2 = [∑ d i2 − i =1
] : varianza muestral de las diferencias muestrales di,
n − 1 i =1 n
i=1, 2, ...,n.)

Hipótesis nula:
H0: µ1 − µ 2 = 0

Prueba estadística:

( d ) − ( µ1 − µ 2 )
t=
s d2
n
la cual se distribuye según la t de Student con n – 1 grados de libertad.

Ejemplo:

Un fabricante desea probar la hipótesis de existencia de diferencia significativa entre


el desgaste medio (medida en ciertas unidades, u) de dos tipos distintos de llantas, A
y B. Para realizar la prueba, asignó al azar una llanta del tipo A y una del tipo B a las
ruedas posteriores de cinco automóviles. Los automóviles recorrieron un número
específico de kilómetros y se observó el desgaste de cada llanta. Estos valores se
muestran en la siguiente tabla:

i Llanta A (x1i) Llanta B (x2i) di= x1i - x2i

W. Díaz, E. García, N. Rodríguez, F. Córdova


180

1 10.6 10.2 0.4


2 9.8 9.4 0.4
3 12.3 11.8 0.5
4 9.7 9.1 0.6
5 8.8 8.3 0.5

Total n n n

∑ x1i
i =1
∑ x 2i
i =1
∑d
i =1
i

Realizar la prueba con un 5% de significación.

Solución:
n

∑d i
2.4
d = i =1
= = 0.48
n 5
n
(∑ d i ) 2
1 n
s d2 = [∑ d i2 − i =1
] = 0.0056
n − 1 i =1 n
sd = 0.0056 = 0.0748

Hipótesis nula:
H0: µ1 − µ 2 = 0 (la hipótesis alternativa es bilateral)

Valor de la prueba estadística:

( d ) − ( µ1 − µ 2 ) 0.48 − (0)
t0 = = = 14.34
s2
d
0.0056
n 5

Puntos críticos:

c1 = t ( 4, 0.025) = −2.776 (obtenido de la Tabla de la distribución t de Student)


c 2 = t ( 4, 0.975) = 2.776 (obtenido de la Tabla de la distribución t de Student)

RR = {t: t ≤ -2.776 ó t ≥ 2.776}


RA = {t: -2.776 ≤ t ≤ 2.776}

Regla de decisión:

t 0 ∈ RR. Por lo tanto, se decide rechazar la hipótesis nula y se concluye que hay
diferencia significativa entre los dos tipos de llanta, con respecto a su desgaste
promedio, al 5% de significación. A esta misma conclusión se llega, si se utiliza el
intervalo de confianza para la diferencia de medias poblacionales, ya obtenido
anteriormente: µ1 - µ 2 ∈ [0.39, 0.57], el cual no contiene a 0.

W. Díaz, E. García, N. Rodríguez, F. Córdova


181

Ejercicio:

Las trazas de metales presentes en el agua potable afectan el sabor, y las


concentraciones inusualmente altas plantean un riesgo para la salud. En una
investigación se reporta que se seleccionaron, al azar, seis lugares en el río (seis objetos
experimentales) y se determinó la concentración de zinc (mg/L), tanto en el agua
superficial como en la del fondo, en cada lugar. Las observaciones muestrales se
muestran a continuación:

Lugar (i) Agua del fondo (x1i) Agua de la superficie (x2i)


1 0.430 0.415
2 0.266 0.238
3 0.567 0.390
4 0.531 0.410
5 0.707 0.605
6 0.716 0.609

Realizar la prueba de hipótesis acerca de la diferencia de la concentración media de


zinc en ambos lugares del río, mediante una significancia del 1%.

Prueba de hipótesis acerca de la diferencia de proporciones


poblacionales
Existen dos poblaciones alguna característica cualitativa común de interés, con
proporciones P1 y P2 . Por ejemplo,

• Proporción de estudiantes varones en las Escuelas Académico Profesionales de


Ingeniería Mecánica y de Ingeniería Metalúrgica de la Universidad Nacional de
Trujillo. Las poblaciones son:
3) Población 1: Estudiantes de la Escuela Académico Profesional de Ingeniería
Mecánica. ( P1 : proporción de estudiantes varones de la Escuela Académico
Profesional de Ingeniería Mecánica).
4) Población 2: Estudiantes de la Escuela Académico Profesional de Ingeniería
Metalúrgica. ( P2 : proporción de estudiantes varones de la Escuela Académico
Profesional de Ingeniería Metalúrgica).
• Proporción de motores con más de 5 años de antigüedad en las Compañías A y B.
Las poblaciones son:
3) Población 1: Conjunto de motores de la Compañía A. ( P1 : proporción de motores
con más de 5 años de antigüedad en la Compañía A).
4) Población 2: Conjunto de motores de la Compañía B. ( P2 : proporción de motores
con más de 5 años de antigüedad en la Compañía B).

W. Díaz, E. García, N. Rodríguez, F. Córdova


182

• Proporción de retroexcavadoras de la marca “M” en las Empresas I y II.


Las poblaciones son:
3) Población 1: Conjunto de retroexcavadoras en la Empresa I. ( P1 : proporción de
retroexcavadoras de la marca “M” en la Empresa I).
4) Población 2: ( P2 : proporción de retroexcavadoras de la marca “M” en la
Empresa II).
Se desea probar la siguiente hipótesis nula:

H0: P1 – P2 = 0
Supondremos que los tamaño de muestra son grandes, es decir mayores que 30.
Prueba estadística:
Las muestras son aleatorias e independientes, extraídas de ambas poblaciones y se
asume que son suficientemente grandes y de tamaños n1 y n2 . La prueba estadística es
la siguiente:

( p1 − p 2 ) − ( P1 − P2 )
Z= ,
1 1
p q( + )
n1 n2

que se distribuye según la normal estándar, donde:

n1 p1 + n2 p 2
p = y q =1- p
n1 + n2

Ejemplo:

En un estudio realizado con 341 soldadores de la ciudad I se encontró que 41 tuvieron al


menos una intervención quirúrgica visual (por haberles entrado un objeto metálico
extraño por lo menos a un ojo), en tanto que entre 438 soldadores de la ciudad II, 71
fueron intervenidos por el mismo motivo. Probar, con el 5% de significación, si existe
diferencia significativa entre las proporciones de soldadores que han sido intervenidos
quirúrgicamente de la visión en ambas ciudades.

Solución:

Datos:

α
n1 = 341 ; a1 = 41 ; n2 = 438 ; a 2 = 71 ; p1 = 0.12 ; p 2 = 0.16 ; 1 − = 0.975
2
n1 p1 + n2 p 2 341(0.12) + 438(0.16)
p = = = 0.14 y q = 1 - p = 0.86
n1 + n2 341 + 438

W. Díaz, E. García, N. Rodríguez, F. Córdova


183

Hipótesis nula:
H0: P1 – P2 = 0 (la hipótesis alternativa es bilateral).

Valor de la prueba estadística:

( p1 − p 2 ) − ( P1 − P2 ) (0.12 − 0.16) − (0)


Z0 = = = -1.60
1 1 1 1
p q( + ) (0.14)(0.86)( + )
n1 n2 341 438

Puntos críticos:

c1 = Z 0.025 = −1.96 y c 2 = Z 0.975 = 1.96


RR = {Z: Z ≤ -1.96 ó Z ≥ 1.96}
RA = {Z: -1.96 ≤ Z ≤ 1.96}

Regla de decisión:

Z 0 ∈ RA. Por lo tanto, se decide no rechazar la hipótesis nula y las proporciones


poblacionales de soldadores que se sometieron a intervención quirúrgica visual en ambas
ciudades, no son estadísticamente diferentes, con un 5% de significancia.

Ejercicio:

Resolver el ejemplo precedente, utilizando los siguientes cambios: n1 = 627 ; a1 = 53 ;


n2 = 841 ; a 2 = 81 ; el nivel de significancia es del 1%.

W. Díaz, E. García, N. Rodríguez, F. Córdova


184

W. Díaz, E. García, N. Rodríguez, F. Córdova


185

W. Díaz, E. García, N. Rodríguez, F. Córdova

También podría gustarte