Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA
DEFINICIONES BÁSICAS
1. ESTADÍSTICA
Definición tradicional:
Colección, organización, resumen y presentación de datos numéricos.
Definición actual:
Rama de la matemática aplicada que colecciona, clasifica y evalúa o analiza datos,
como base para inferir consecuencias o conclusiones válidas, así como para tomar
decisiones en base a dicho análisis.
2. USO DE LA ESTADÍSTICA
4. DIVISIÓN DE LA ESTADÍSTICA:
ESTADÍSTICA DESCRIPTIVA:
Los métodos descriptivos (que pueden usarse tanto para muestras como para
poblaciones) se utilizan para mostrar los datos en forma ordenada y gráfica, sin
obtener conclusiones de ellos.
ESTADÍSTICA INFERENCIAL:
Los métodos inferenciales, como la estimación de parámetros y la prueba de
hipótesis acerca de tales parámetros, usan sólo las características de las muestras
para inferir o generalizar las características de la población.
5. UNIDADES ELEMENTALES:
Las unidades elementales son los individuos u objetos de una colección que tienen
una característica medible cualitativa o cuantitativa en común. Cuando los datos de
dicha característica permanecen inalterables, tal y como se los recolecta, se dice que
son datos originales.
7. DATO:
VARIABLE Y OBSERVACIÓN
Una variable es una cantidad o característica que manifiesta diferencias o cambios,
en magnitud o en valor; se la denota generalmente por la letra mayúscula “X” (puede
ser otra letra mayúscula también).
Ejemplos de variable:
CLASES DE VARIABLE:
Ejemplos:
a.2. DISCRETA: Cuando sólo toma valores que corresponden a puntos aislados
de la recta numérica. En general, sus valores son números enteros. (En
general, una variable discreta no puede tomar valores que sean números
decimales).
Ejemplos:
b. VARIABLE CUALITATIVA:
Ejemplos adicionales:
Datos de X: 16.6, 18.3, 15.4, 17.7, 17.8, 18.0, 17.6, 17.2, 18.2 (16.6% el 21 de
junio, 18.3% el 22 de junio,…, 18.2% el 29 de junio)
Datos de Y: 3204, 3353, 3117, 3152, 4485, 3732, 4218, 3974, 3161
CONJUNTO DE EJERCICIOS N° 1
a) Proponga dos ejemplos de: universo, población y muestra, aplicado a su
especialidad.
Solución:
Universo 1: Conjunto de autos vendidos cada año.
Población 1: Conjunto de marcas de los autos.
Muestra 1: Subconjunto de autos vendidos cada año.
b) Clasifique cada una de las siguientes variables, como discreta, continua o cualitativa:
* Deporte practicado por los alumnos de nuestra clase: CUALITATIVA
* Número de docentes por Departamento de Ingeniería Mecánica en las
universidades peruanas: CUANTITATIVA DISCRETA
* Peso (gramos, hasta la cifra de las décimas) de un conjunto de dientes:
CUANTITATIVA CONTINUA
* Número de dientes con caries por persona: DISCRETA
* Edad (en años cumplidos) de pacientes que requieren atención estomatológica:
DISCRETA.
* Edad de pacientes que requieren atención estomatológica: CONTINUA.
c) Proponga dos ejemplos de cada una de las clases de variable en el campo de su
especialidad.
Solución (parte c):
Variables continuas:
Variables discretas:
Variables cualitativas:
SUMATORIAS
La sumatoria simple de n observaciones (datos) de una variable X, se define del
siguiente modo:
n
∑x
i =1
i = x1 + x2 + ... + xn
Ejemplo:
Los precios (en nuevos soles) de 4 pequeñas moladoras de cierta marca en 4 ferreterías
(n=4) son:
∑x
i =1
i
i xi
1 230
2 240
3 190
5=n 200
Total 860
∑ xi =
i =1
∑x
i =1
i = x1 + x2 + x3 + x4 = 230 + 240 + 190 + 200 = 860
CONJUNTO DE EJERCICIOS N° 2
Utilice la información anterior y encuentre el valor numérico de las siguientes
expresiones:
n
a) SC = ∑ xi2 = (230)2 + (240)2 + (190)2 + (200)2. (Rpta.: )
i =1
∑x i
b) M = i =1
(Rpta.: 215)
n
n
c) A = ∑ ( xi − M ) = (230 – 215) + (240 – 215) + (190 – 215) + (200 – 215) =
i =1
n
∑ (x i − M )2
d) V = i =1
n
n
1 n
( ∑ xi ) 2
e) T = ∑ xi2 − i =1
n i =1 n
Solución:
i xi xi2 xi − M = xi − 58 ( xi − M )2
1 230 230-215 = 15
2 240 240-215 = 25
3 190 190-215 = -25
4 200 200-215 = -15
Total 860 0
n 4
a) SC = ∑ xi2 = ∑x 2
i =
i =1 i =1
n 4
∑x ∑x i i
b) M = i =1 i =1
=
n 4
n
c) A = ∑ ( xi − M ) = 0
i =1
∑ (x i − M )2
d) V = i =1
=
n
n
1 n
( ∑ xi ) 2
e) T = ∑ xi2 − i =1 =
n i =1 n
PASOS:
1º. Con la punta del lápiz se marca cualquier dígito (de preferencia, en la parte superior
izquierda de la tabla) y, a la derecha e incluyendo el dígito donde cayó el lápiz, se
selecciona tantos dígitos como cifras tenga N; ése será el primer “número” de la
muestra, al que se le denomina Arranque Aleatorio (AA). Si el arranque aleatorio
es menor o igual que N, ése será nuestro primer elemento de la muestra.
4º. El proceso se repite hasta que se completen los n elementos de la muestra. Si al avanzar
hacia la derecha (o hacia abajo), aún no se completaran todos los elementos de la
muestra, se continúa desde el inicio de la(s) siguiente(s) fila(s) o columna(s)
inmediata(s) de la tabla, hasta completar los elementos de la muestra.
5º. Luego, de la lista de elementos poblacionales (los cuales deben estar enumerados), se
toman los elementos seleccionados para realizar la medida respectiva, según la
característica de interés.
Nota:
Una parte de la tabla de dígitos aleatorios (las 15 primeras filas y las 40 primeras
columnas columnas) se muestra a continuación, con la finalidad de describir su uso.
6 1174 2693 8144 3393 0872 3279 7331 1822 6470 6850
7 4336 1288 5911 0164 5623 9300 9004 9943 6407 4039
8 9380 6204 7838 2680 4491 5575 1189 3258 4755 2571
9 4954 0131 8108 4298 4187 6953 8296 6177 7380 9527
10 3676 8726 3337 9482 1569 4195 9686 7045 2748 3880
11 0709 2523 9224 6271 2607 0655 8453 4467 3384 5320
12 4331 0010 8144 8638 0307 5255 5161 4889 7429 4647
13 6157 0063 6006 1736 3775 6314 8951 2335 0174 6993
14 3155 2837 9910 7791 8941 3157 9764 4862 5848 6919
15 5704 8865 2627 7959 3682 9052 9565 4635 0653 2254
1º. Con la punta del lápiz se marca cualquier dígito (de preferencia, en la parte superior
izquierda de la tabla) y, a la derecha e incluyendo el dígito donde cayó el lápiz, se
selecciona tantos dígitos como cifras tenga N; ése será el primer “número” de la
2º. Luego se selecciona el siguiente número hacia la derecha del arranque aleatorio,
del mismo número de cifras que el anterior; ése será el “número” del segundo
elemento de la muestra, siempre que sea menor o igual que 60. En nuestro caso,
corresponde al número 69, que es mayor que N=25.
3º. Como el número 69 es mayor que N=25, tenemos cualquiera de las siguientes
alternativas:
4º. El proceso se repite (considerando la segunda alternativa del paso 3°), hasta que se
completen los n=4 elementos de la muestra. Los números aleatorios que utilizaremos
para seleccionar la muestra son los siguientes:
Según esto (teniendo en cuenta la segunda alternativa del paso 3°), los elementos de la
muestra serán los números:
15 19 16 20
5º. Luego, de la lista de elementos poblacionales (los cuales deben estar enumerados), se
toman los elementos seleccionados de la muestra para realizar la medición respectiva
(en este caso, la edad, X, de los estudiantes números 15, 19, 16 y 20). La edad (en
años cumplidos) de la muestra aleatoria de 4 estudiantes se puede resumir en un
cuadro como el siguiente:
i 1 2 3 4
xi 19 18 19 20
En este cuadro, por ejemplo, se puede afirmar que el paciente número 16 (el
tercero de la muestra) tiene una edad de 19 años.
CONJUNTO DE EJERCICIOS N° 3
Utilice la tabla de dígitos aleatorios, cuya parte de números se da más antes, para
seleccionar una muestra aleatoria de tamaño n, de un universo (población) de tamaño
N, según como se indica en cada uno de los siguientes incisos:
a) N=9 departamentos del Perú; n=4; AA: fila 3, columna 7, utilizando la primera
alternativa del paso 3°. Seleccione los números aleatorios, avanzando de manera
horizontal y hacia la derecha.
b) N=90 docentes de la Facultad de Ingeniería de la Universidad Nacional de Trujillo;
n=10; AA: fila 9, columna 25, utilizando la segunda alternativa del paso 3°.
Seleccione los números aleatorios, avanzando de manera horizontal y hacia la
derecha.
c) N=250 estudiantes de la Escuela Académico Profesional de Ingeniería Mecánica;
n=35¸ AA: fila 13, columna 32, utilizando la segunda alternativa del paso 3°.
Seleccione los números aleatorios, avanzando de manera horizontal y hacia la
derecha.
d) Resolver los incisos a), b) y c), seleccionando los números aleatorios de manera
vertical y hacia abajo.
Antes de indicar los pasos para construir una tabla, será necesario dar las siguientes
definiciones:
1. CLASE
Está dada por un intervalo (si la variable es cuantitativa) o por una categoría (si la
variable es cualitativa).
2. INTERVALO DE CLASE
Es aquél que contiene cierta cantidad de datos numéricos. Posee dos límites: El límite
inferior que se denota por “LI” y el límite superior por “LS”. Al número de
intervalos de clase lo representamos por “m”. Mientras no se mencione otra cosa, se
trabajará con intervalos regulares semiabiertos por la derecha.
Notación de intervalos:
El i-ésimo intervalo de clase se denota por [X´i-1, X´i), o también [LIi , LSi).
Amplitud interválica:
Diferencia entre el límite superior y el límite inferior de cada intervalo de clase. Se
la denota por la letra “c”. Es decir, para el i-ésimo intervalo de clase, se tiene:
ci = LSi – LIi.
Clases de intervalos:
Regulares:
Dos o más intervalos son regulares si su amplitud interválica es la misma en
todos ellos.
Irregulares:
Cuando la amplitud interválica no es la misma en todos los intervalos.
Ejemplo:
Si la variable X es el tiempo de observación de un conjunto de escolares al
aparecer la gingivitis (en días) y existen los siguientes intervalos de clase
regulares semiabiertos por la derecha:
En este caso, m = 3, los 3 intervalos de clase son regulares porque tienen la misma
amplitud:
c1 = LS1 - LI1 = 60 – 40 = 20;
c2 = LS2 - LI2 = 80 – 60 = 20;
c3 = LS3 - LI3 = 100 – 80 = 20.
3. LIMITES REALES
Se deben a Yule y Kendall. Con la finalidad de prevenir ambigüedades en cuanto
a la clase a la que pertenece cierto dato numérico, se utilizan los límites reales.
Para el intervalo de clase i-ésimo, sus límites reales (LR), se obtienen del
siguiente modo:
Ejemplo:
En el ejemplo anterior, si asumimos que todos los datos son enteros, entonces
k=0 (número máximo de cifras decimales) y por lo tanto, k+1 = 1.
Los límites reales para tales intervalos, son:
LRI1 = LI1 – 5x10-1 = 40 – 0.5 = 39.5; LRS1 = LS1 - 5x10-1 = 60 - 0.5 = 59.5
LRI2 = LI2 – 5x10-1 = 60 – 0.5 = 59.5; LRS2 = LS2 - 5x10-1 = 80 - 0.5 = 79.5
LRI3 = LI3 – 5x10-1 = 80 – 0.5 = 79.5; LRS3 = LS3 - 5x10-1 = 100 - 0.5 = 99.5
Los intervalos de clase, así como los límites reales y los intervalos cerrados
de este ejemplo, los podemos resumir en la siguiente tabla:
siendo k el número máximo de cifras decimales de los datos originales. Así por ejemplo, en el
cuadro anterior, puede verificarse que el límite superior del segundo intervalo cerrado se
obtiene así:
(i)
1 3.80 – 4.60 3.75 – 4.55 3.80 – 4.50
2 4.60 – 5.40 4.55 – 5.35 4.60 – 5.30
3 5.40 – 6.20 5.35 – 6.15 5.40 – 6.10
4. MARCA DE CLASE
También llamada punto medio, es igual a la semisuma de los límites del respectivo
intervalo de clase. La marca de clase del i-ésimo intervalo de clase se denota por Xi .
Es decir,
LI i + LS i
Xi =
2
Ejemplo:
Para los intervalos de clase irregulares [2, 4), [4, 12) y [12, 30), las marcas de clase
son X1 = (2 + 4)/2 = 3, X2 = 8 y X3 = 21, respectivamente.
5. FRECUENCIA
Número, proporción o porcentaje de veces que se repite un dato (cuando los datos
no están agrupados o los datos son originales) o conjunto de datos (si los datos están
agrupados en intervalos).
CLASES DE FRECUENCIA:
A) FRECUENCIA ABSOLUTA:
Es el número de veces que se repite un dato. Su valor es un número entero mayor
o igual que cero. Una frecuencia absoluta puede ser:
a) Simple:
∑ fi = n, con i = 1,2,...,m.,
siendo n el número total de datos y m el número de intervalos o de categorías.
b) Acumulada:
Es el número de datos cuantitativos que son menores o iguales que cierto
valor de X; se denota por Fi y representa la frecuencia absoluta acumulada
de la i-ésima clase. En particular, para la r-ésima clase, tenemos:
Fr = ∑ fi , i = 1, 2, ..., r
B) FRECUENCIA RELATIVA:
Es la proporción de veces que se repite un dato o un conjunto de datos.
Igualmente, puede ser:
a) Simple:
Denotada por hi y obtenida como
hi = fi /n.
Propiedades:
(i) 0 ≤ hi ≤ 1, i = 1,2,...,m.
C) FRECUENCIA PORCENTUAL:
Es el porcentaje de veces en que se repite un dato o un conjunto de datos. Las
propiedades de las frecuencias porcentuales son similares a las de las frecuencias
relativas. Una frecuencia porcentual puede ser:
a) Simple:
Denotada por hi% y obtenida como
hi% = hi(100%).
b) Acumulada:
Se denota por Hi% y se obtiene como
Hi% = Hi (100%).
INTERVALOS DE CLASE
Antes de dar los pasos para construir una tabla de distribución de frecuencias, es conveniente
Trujillo-Junio 2021.
Ejemplos:
n: número de datos.
EJEMPLO:
Los siguientes datos corresponden al salario promedio diario (en nuevos soles) de un conjunto
174 159 158 166 161 143 187 165 163 154 174 185 152
178 162 175 178 194 172 179 186 164 159 181 143 173
183 165 172 174 163 173 169 171 177 172 195 144 178
189 167 184 153 172 177 178 179 175 173 164 163 184
X: Salario promedio diario de cada ingeniero mecánico; todos sus valores son números enteros
k=0 (como todos los datos son números enteros, el número máximo de cifras decimales de los
n=52
PASOS:
R = Xmáx - Xmín,
R = 52
Uno de los criterios más utilizados para hallar el valor de m consiste en aplicar la fórmula
de Sturges siguiente:
m = 1 + 3.32 log(n),
m=7
R
c=
m
Si el valor de c tiene más cifras decimales que k, debe tenerse en cuenta las siguientes
recomendaciones:
c.1. El valor de c debe redondearse por exceso, a un número con k cifras decimales.
R 52
c= = = 7.43 ≈ 8 (como k=0, el valor de c debe tener 0 cifras decimales y, por
m 7
c=8
Nota:
Para cualquier intervalo semiabierto por la derecha, el límite superior (LS) se puede
obtener así:
LS = LI + c
c.2. Calcular el Nuevo Rango (RN), (puesto que “c” ha sido redondeado por exceso. Si no
hubiera sido necesario redondear a “c” por exceso, no es necesario calcular el Rango
Nuevo):
RN = cm
RN = cm = 8(7) = 56
RN = 56
c.3. Calcular la diferencia, D (puesto que “c” ha sido redondeado por exceso. Si no hubiera
sido necesario redondear a “c” por exceso, no es necesario calcular la diferencia “D”).
D = RN – R
D = RN – R = 56 - 52 = 4
D=4
c.4. Calcular la cantidad, D*(puesto que “c” ha sido redondeado por exceso. Si no hubiera
sido necesario redondear a “c” por exceso, no es necesario calcular el valor de D*).
D
• D* = , si D termina en dígito par, o
2
D − 10 − k
• D* = , si D termina en dígito impar
2
En nuestro caso, D* = 4 termina en dígito par, por lo tanto:
D 4
D* = = =2
2 2
D* = 2
No. de
(i)
[LIi = X´i-1, LSi = X´i)
. .
. .
. .
Puesto que los intervalos son regulares, bastará con calcular LI1, ya que el LI de cualquier
intervalo es igual al LS del intervalo anterior. El valor de LI1 se obtiene mediante cualquiera
1°) LI1 = Xmín, si c no se redondea por exceso (o, cuando c es número exacto, con k cifras
decimales).
En nuestro ejemplo, el valor de c ha sido redondeado por exceso, por tanto, estamos en la
Xmín = 143, D* = 2, c = 8,
LI1 = 141,
No. de
(i)
[LIi = x´i-1, LSi = x´i)
1 [141,141+8) = [141,149)
2 [149,149+8) = [149,157)
3 [157,157+8) = [157,165)
4 [165,165+8) = [165,173)
5 [173,173+8) = [173,181)
6 [181,181+8) = [181,189)
Con la técnica de las “tarjas”, se obtienen (a partir de los datos originales) las frecuencias
obtenerse las demás. Cuando la variable cuantitativa toma los valores: x1 , x2 , ..., xm, con
x1 < x2 < ... < xm (no en forma de intervalos), también es posible determinar las frecuencias
Diario. Trujillo-2020.
No. de Intervalo
de las frecuencias:
ples ladas
ples ladas ples ladas
No. de Intervalo
El proceso para calcular los valores de las frecuencias absolutas simples (fi), mediante las
“tarjas”, lo ilustramos para el primer intervalo (el mismo criterio de utiliza para los demás
intervalos).
Intervalo 1: 141 – 149 (///). Hay 3 datos (salaries) que pertenecen a este intervalo
F2 = f1 + f2 = 3 + 3= 6
F2 = f2 + F1 = 3 + 3 = 6
f 3 10
h3 = = = 0.19
n 52
INTERPRETACION:
Diario. Trujillo-2020.
No. de Intervalo
1° Digitar los n datos en cualquier columna (por ejemplo, en la Columna A). Encabezar a esta
2° En otra columna (digamos, la Columna B), digitar los límites superiores de los intervalos
3° Seleccionar otra columna, del mismo tamaño que la del paso 2° (por ejemplo, la Columna C),
=Frecuencia(Datos; Grupos)
y, a continuación, presionar las teclas Ctrl Shift Enter, simultáneamente. Tanto “Datos” como
El proceso anterior, se realiza en una hoja de cálculo de Excel, quedando de la siguiente forma:
A B C D
3 159 156
4 158 164
5 166 172
6 161 180
. . .
. . .
. . .
53 184
VARIABLES CUALITATIVAS
Ejemplo:
MA MA PR PY PY PY PY MA MA AE DM PR PY MA AE PR AE PY MA MA AE MA
MA PY DM PY MA MA MA PY PY AE DM PR AE PY
MA 12
PR 4
PY 11
AE 6
DM 3
TOTAL 36
Datos hipotéticos
INTERPRETACIÓN:
a 12.
CONJUNTO DE EJERCIOS N° 5
limpieza
2.
Ing. Mecánica
3.
Ing. Mecánica
4.
Ing. Mecánica
5. Ing. Mecánica
Ing. Mecánica
Ing. Mecánica
Mujer (M) M, M, H
2.
Ing. Mecánica
Ing. Mecánica
Ing. Mecánica
3.
4.
MUJERES
Postulante 1 2 3 4 5 6 7 8 9 10 11 12 13
Peso (Kg.) 52.6 52.4 50.4 69.7 45.0 57.6 46.7 51.8 72.1 57.4 45.1 50.9 56.5
Estatura (m.) 1.55 1.47 1.48 1.52 1.50 1.65 1.52 1.51 1.55 1.54 1.52 1.52 1.52
Postulante 14 15 16 17 18 19 20 21 22 23 24 25 26
Peso (Kg.) 49.8 52.4 48.7 53.3 58.2 53.2 52.6 65.3 49.5 51.3 62.3 64.5 63.0
Estatura (m.) 1.60 1.53 1.59 1.64 1.54 1.56 1.61 1.57 1.54 1.45 1.56 1.55 1.44
Postulante 27 28 29 30 31 32 33 34 35 36 37 38 39
Peso (Kg.) 61.2 55.2 60.8 55.4 56.4 51.8 53.2 54.7 61.5 66.4 55.0 43.3 57.8
Estatura (m.) 1.52 1.57 1.54 1.56 1.54 1.59 1.63 1.56 1.66 1.58 1.60 1.49 1.52
Postulante 40 41
HOMBRES
Postulante 1 2 3 4 5 6 7 8 9 10 11 12 13
Peso (Kg.) 58.6 65.3 59.9 55.9 57.5 56.9 58.5 81.7 66.2 55.1 47.1 59.9 73.1
Estatura (m.) 1.63 1.67 1.66 1.67 1.54 1.64 1.68 1.79 1.72 1.61 1.53 1.65 1.60
Postulante 14 15 16 17 18 19
ADMISIÓN:
derecha para:
REPRESENTACIONES GRÁFICAS
representar mediante gráficos, los cuales sirven para visualizarla de un modo más claro.
Todo gráfico tiene las mismas partes que una tabla: título, cuerpo (el gráfico propiamente dicho)
y fuente. Si en un informe estadística se van a presentar dos o más gráficos, éstos deben ir
Existen muchos gráficos estadísticos para este propósito. A continuación se presenta aquéllos
A. HISTOGRAMA DE FRECUENCIAS:
esta Figura 1 se han colocado las marcas de clase de cada intervalo), generadas de esta
forma, el que puede realizarse con ayuda de Excel, cuyo procedimiento se describe
inmediatamente después de dicha figura.
20 - 19
18 -
16
16 -
14 -
Frecuenci
12 -
10 -
8 - 6
5
6 - 4
4 -
0 1 2 3 4
Demanda
Figura 1
CONSTRUCCIÓN DE UN HISTOGRAMA DE FRECUENCIAS CON EXCEL
1) Ingreso de datos en dos columnas cualesquiera (por ejemplo, pueden ser las
columnas A y B), como se muestra en el siguiente ejemplo, donde la variable es
el consumo de energía de 10 compresoras (en Kw) durante cierto período de uso
y las frecuencias absolutas simples, fi, (también podría utilizarse las frecuencias
relativas simples o las frecuencias porcentuales simples) corresponden al
“Número de compresoras” (Datos hipotéticos). Supongamos que dichas columnas
de Excel son “A” y “B”.
A B
[Consumo de N° de compresoras:
energía) (fi)
De 4 a menos de 6 2
De 6 a menos de 8 1
De 8 a menos de 10 5
De 10 a menos de 12 2
Datos hipotéticos
A B
[Consumo de N° de compresoras:
energía) (fi)
De 4 a menos de 6 2
De 6 a menos de 8 1
De 8 a menos de 10 5
De 10 a menos de 12 2
3
2 2
2
1
1
0
[4 , 6) [6 , 8) [8 , 10) [10 , 12)
Consumo de energía (Kw)
A B
Variable (categorías) Frecuencias simples
Cat. 1 8
Cat. 2 3
… …
A B
Variable (categorías) Frecuencias simples
Cat. 1 8
Cat. 2 3
… …
3) Insertar/Gráficos recomendados.
4) Seleccionar el gráfico de barras/Aceptar.
5) Clic izquierdo en + (ubicado en parte superior, a la derecha del gráfico).
6) Marcar Título, ejes, etiquetas de datos.
7) Colocar título a gráfica y nombrar ejes.
8) Clic izquierdo en cualquier rectángulo (se marcan todos los rectángulos, con
círculo pequeños).
9) Clic izquierdo sobre el rectángulo que se desea cambiar de color (se marcará sólo
el rectángulo que se desea cambiar de color).
10) Clic derecho/Relleno/Dar el color deseado y repetir los pasos 6), 7) y 8) para los
demás rectángulos.
Ejemplo:
Los siguientes datos corresponden al número de personas fallecidas por Coronavirus
en el Perú, durante los 5 últimos días del mes de junio de 2020. (Fuente: elaboración
propia, utilizando los comunicados del MINSA N°s: 146, 147, 149, 151, 152 y 153):
Fecha N° de fallecidos
26/06/2020 178
27/06/2020 196
28/06/2020 182
29/06/2020 187
30/06/2020 173
Elaboración propia, utilizando comunicados del MINSA
N°s: 146, 147, 149, 151, 152 y 153
Figura 2.
N° de fallecidos por coronavirus-Perú 2020
200 196
195
Número de fallecidos
190 187
185 182
180 178
175 173
170
165
160
26/06/2020 27/06/2020 28/06/2020 29/06/2020 30/06/2020
Fecha
Elaboración propia. Comunicados MINSA N°s: 146, 147, 149, 151, 152 y 153
C. GRÁFICO CIRCULAR
A B
Variable (categorías) Frecuencias simples (hi)
A 8
B 3
… …
Ejemplo:
173 178
187 196
182
Fuente: Comunicados del MINSA N°s: 146, 147, 149, 151, 152 y 153
x = (187)(360)/916 = 73.5
CONJUNTO DE EJERCICIOS N° 6
1. Dada la tabla anterior, que está incompleta, obtener los demás grados sexagesimales
para las demás categorías. Luego, construya un gráfico circular, utilizando el
porcentaje de fallecidos en cada día, considerando como 100% a la totalidad de ellos
(916), para lo cual ha sido agregada una columna adicional a la tabla precedente.
(Dichos porcentajes también se obtienen mediante una regla de tres simple).
2. Proponga un ejemplo de utilización de los gráficos estudiados (hasta el momento) en
el campo de la Ingeniería Mecánica.
3. Recolecte un conjunto de datos cuantitativos en el campo de Ingeniería Mecánica y
construya una tabla de distribución de frecuencias en intervalos semiabiertos por la
derecha. Interprete los rasgos más sobresalientes de la misma. Luego, construya un
histograma de frecuencias.
El gráfico de series de tiempo, conocido también con los nombres de gráfico lineal,
gráfico de líneas, gráfico de series cronológicas o gráfico de series temporales,
se utiliza cuando la variable es cuantitativa y sus n valores (xi) ocurren a través
de n períodos de tiempo (ti) (por ejemplo, de modo diario, semanal, mensual, anual,
etc.), donde i = 1, 2, …, n.
Ejemplo:
12 19/03/2020
6 20/03/2020
. .
. .
. .
13 30/03/2020
11 31/03/2020
23 01/04/2020
Fuente: Elaboración propia con comunicados
del MINSA
Figura 4.
15
13
12
11
10 10
10
8 8
6 6 7
6 6 6
5 4 4
3
Día (Marzo-Abril) 17 19 21 23 25 27 29 01
Mes Mar Abr
Año 2020
ELABORACIÓN PROPIA
Interpretación:
El 01 de Abril de 2020 se produjo el mayor porcentaje de casos de Coronavirus
(23%), mientras que el día 16 de Marzo de 2020 se presentó el menor porcentaje
de casos confirmados (3%). A partir del día 28 de Marzo se aprecia una tendencia
ascendente del porcentaje de casos positivos, aunque el día 31 de Marzo se
produjo una ligera disminución de este porcentaje (bajó al 11%).
CONJUNTO DE EJERCICIOS N° 7
b)
MEDIDAS ESTADÍSTICAS
Una tercera forma de presentar la información (recordemos que, hasta este momento,
hemos visto que ésta se puede presentar en forma de tablas o cuadros y, gráficamente)
es a través de medidas estadísticas.
Una medida estadística es un valor que representa a la totalidad de los datos. Existen
muchas medidas estadísticas. A continuación describimos las siguientes, por tener
mucha aplicación: medidas de posición (llamadas también medidas de tendencia
central, porque se posicionan o se ubican en la parte central de los datos: media,
mediana, moda) y las medidas de dispersión (o medidas de variabilidad, indican el
grado de variabilidad o dispersión de los datos con respecto a una medida de posición:
varianza, desviación estándar y coeficiente de variación). Todas estas medidas
corresponden al caso de una variable unidimensional cuantitativa. Pero también,
cuando la variable cuantitativa es bidimensional, nos vas a ocupar, brevemente, de la
medida estadística de asociación, conocida como coeficiente de correlación.
MEDIA
∑x
i =1
i
x=
n
Observación:
En general,
E ( X 2 ) ≠ [E ( X )] .
2
Ejemplo 1:
Solución:
∑x i
3376 + 3710 + 3852 + 3755 + 3769 18462
x= i =1
= = = 3692.4
n 5 5
“El número medio de personas recuperadas por día es igual a 3692.4, en el período 30
de junio-4 de julio de 2020”.
∑x f i i
x= i =1
n
donde m representa el número de intervalos, xi es la marca de clase del i − ésimo
intervalo y la i − ésima frecuencia absoluta simple está representada por f i .
Ejemplo 2:
Calcular e interpretar el tiempo medio de ciclo de pistón (en segundos), con factores de
control ajustados en 100 niveles mínimos. (Un pistón es un dispositivo mecánico
presente en muchos tipos de motores):
Solución:
xi fi xi f i
0.99 10 9.9
1.01 21 21.21
1.03 36 37.08
1.05 27 28.35
1.07 6 6.42
TOTAL n=100 102.96
∑x i fi
102.96
x= i =1
= = 1.0296 .
n 100
“El tiempo medio de ciclo de pistón por cada nivel mínimo es igual a 1.0296 segundos”.
Ejemplo 3:
El número de imperfecciones encontradas en 10 placas de cerámica (utilizadas en la
fabricación de componentes híbridos), las cuales se inspeccionan visualmente, antes de
su impresión con pantalla, es: 0, 2, 0, 0, 1, 3, 0, 3, 1, 1. Calcular e interpretar el número
medio de imperfecciones por placa.
Solución:
∑ xi ∑x i
0 + 2 + 0 + 0 + 1 + 3 + 0 + 3 + 1 + 1 11
x = E( X ) = i =1
= i =1
= = = 1.1
n 10 10 10
“el número medio de imperfecciones por placa es igual a 1.1”.
CONJUNTO DE EJERCICIOS N° 8
MEDIANA
Md = x n +1
2
b) n par:
x n + x n+2
2 2
Md =
donde las cantidades que están dentro de los corchetes indican el orden que ocupa el
valor de la variable X en la serie ordenada, ascendentemente, de los datos.
Ejemplo 3:
“La emisión diaria máxima de óxido de azufre por la planta metal-mecánica en la mitad
de los días es igual 18.1 toneladas”. También se puede interpretar del siguiente modo:
“En la mitad de los días, la planta metal-mecánica emitió menos de 18.1 toneladas de
óxido de azufre”.
Ejemplo 4:
Calcular e interpretar la mediana de los siguientes datos, correspondientes a la tasa (%)
de trabajadores mecánicos con necesidad de atención oftalmológica en 6 tallares
mecánicos: 7.8, 2.1, 3.7, 0, 1.5, 2.4.
Solución:
n = 6 (caso b, n par).
Ordenando los datos, de menor a mayor:
La mediana se encuentra entre los valores resaltados y su valor será igual al promedio
de éstos:
x n + x n+ 2 x 6 + x 6+ 2
2 2 2 2 x[3] + x[4 ] 2.1 + 2.4 4.5
Md =
=
= = = = 2.25
2 2 2 2 2
“La tasa máxima de trabajadores mecánicos con necesidad de atención oftalmológica
en la mitad de los tallares mecánicos es igual a 2.2%”.
Nota:
En este ejemplo, hemos aplicado la siguiente regla de redondeo: “cuando, en el proceso
de redondeo, se va a eliminar, exactamente, el 5, y la cifra que le antecede es par, dicha
cifra debe permanecer en el redondeo; si fuera impar, debe agregarse una unidad”.
n
c( − Fi −1 )
Md = LI i + 2
fi
donde:
n
< Fi
2
n
( Fi es la frecuencia absoluta acumulada que supera inmediatamente a )
2
Ejemplo 5:
Enseguida se presenta el porcentaje del contenido de ceniza (X) de 40 turberas en la
elaboración de fibras textiles de fibra de turba. Calcular e interpretar la mediana.
i [ x´i −1 , x´i ) fi Fi
1 1.00 - 1.20 7 7
2 1.20 - 1.40 20 27
3 1.40 - 1.60 6 33
4 1.60 - 1.80 4 37
5 1.80 - 2.00 3 40
TOTAL n=40
Solución:
La información sólo está constituida por las tres primeras columnas de la tabla anterior.
La cuarta columna ha sido agregada para efectos de calcular la mediana.
Pasos:
(1) Cálculo de “ i ”:
n
El valor de i lo obtenemos utilizando la relación: < Fi
2
n 40
= = 20
2 2
n 40
< Fi ⇒ = 20 < 27 = F2 ⇒ i = 2 (el valor de “i” es el “subíndice” de la
2 2
frecuencia absoluta acumulada).
n
c( − Fi −1 )
Md = LI i + 2 =
fi
(3) Interpretación:
MODA
Cuando los datos están en forma original, la moda se calcula, simplemente, aplicándola
definición.
Ejemplo 1:
La moda de la edad (en años cumplidos) de 8 estudiantes de nuestra clase: 20, 21, 20,
20, 19, 23, 20, 21 es igual a 20 años, puesto que 20 se repite con mayor frecuencia.
Interpretación: “la edad modal es igual a 20 años” o “la edad más frecuente es igual a
20 años”.
A menudo, no tiene sentido calcular la moda cuando se tiene pocos valores o cuando
ningún valor puede repetirse.
Ejemplo 2:
Si las edades de 6 estudiantes de nuestra clase son: 22, 20, 22, 20, 20, 21, 22, 21, 21.
Cada edad se repite tres veces y ninguna es mayor que cualquier otra. En este caso
podemos afirmar que existen 3 modas, pero ninguna de ellas es útil como una medida
central de las edades.
Ejemplo 3:
c(d1 )
Mo = LI i + ,
d1 + d 2
donde:
f i −1 < f i > f i +1 ;
• d 1 = f i − f i −1 ;
d 2 = f i − f i +1 .
Ejemplo 4:
Calcular la moda de los siguientes datos, acerca de la emisión diaria (X, en toneladas) de
óxido de azufre de una planta industrial, con actividad mecánica intensa, durante 80
días:
i [ x´i −1 , x´i ) fi
1 5 - 10 8
2 10 - 15 35
3 15 - 20 24
4 20 - 25 10
5 25 - 30 3
TOTAL n=80
Solución:
(1) Cálculo de “ i ”:
f i −1 < f i > f i +1
8 < 35 > 24
f1 = 8 , f 2 = 35 y f 3 = 24
O, simplemente:
f1 < f 2 > f 3
d 1 = f i − f i −1 = f 2 − f 2−1 = f 2 − f1 = 35 − 8 = 27
d 2 = f i − f i +1 = f 2 − f 2+1 = f 2 − f 3 = 35 − 24 = 11
(4) Interpretación:
“La emisión diaria de óxido de azufre de la planta industrial que se ha producido con
mayor frecuencia, está alrededor de 13.55 toneladas”.
El histograma de una distribución que presenta un pico (parte elevada) podría parecerse
a las Figuras 1, 2 y 3 siguientes:
Mediana y media
0.15
Frecuencia relativa
0.10
0.05
Mediana
Moda Media
Frecuencia relativa
0.15
0.10
0.05
Mediana
Media Moda
Frecuencia relativa
0.15
0.10
0.05
Ejemplo:
El promedio de la resistencia a la compresión (lb/pulg2) de un conjunto de muestras
de una aleación de aluminio en desarrollo como material para aeronaves es de 67.8
lb/pulg2, en tanto que la mediana es igual a 63.1 lb/pulg2. Sin mirar una exhibición
gráfica, ¿qué se puede deducir acerca de la simetría o sesgo (asimetría) de la distribución
de las resistencias a la compresión?.
Solución:
Como la media (67.8) es mayor que la mediana (63.1), unos cuantos valores altos de la
resistencia a la compresión están agrandando a la media, pero no afectan a la mediana.
Por lo tanto, la distribución de la resistencia a la compresión es sesgada a la derecha
(esto se puede confirmar, observando nuevamente a la Figura 2).
CONJUNTO DE EJERCICIOS N° 9
1. Los tiempos de espera (en minutos) de 26 estudiantes de Ingeniería Mecánica para
abordar el bus e ir a la universidad son: 11, 17, 20, 22, 14, 14, 15, 28, 21, 18, 16, 18,
22, 31, 16, 18, 17, 23, 28, 11, 12, 15, 13, 18, 12, 24. ¿Es la mediana del tiempo de
espera de los estudiantes mayor o menor que el tiempo medio de espera por
estudiante?. ¿Es posible calcular la moda de los tiempos de espera y, de ser así, cuánto
vale ella?.
Solución:
∑x f i i
450
x= i =1
= = 18 minutos
n 25
x n + x n+2
2 2 x[13] + x[14 ] 17 + 18
Md =
= = = 17.5 minutos
2 2 2
Mo =18 minutos
La mediana es menor que la media, por lo tanto, la distribución de los tiempos de
espera es sesgada a la derecha. La moda es igual a 18, porque 18 minutos se repite
4 veces (mayor número de repeticiones que los demás tiempos de espera).
Guía de Solución:
Guía de Solución:
CONJUNTO DE EJERCICIOS N° 10
1. Calcular e interpretar la media, la mediana y la moda (si existe) de los siguientes datos
originales, acerca del número diario de personas recuperadas por coronavirus en
el Perú, desde, consecutivamente, el 29 de junio hasta el 10 de julio de 2020: 3161,
3376, 3710, 3852, 3755, 3769, 4336, 3662, 3319, 3810, 3054, 2836. (Datos obtenidos,
a partir de los comunicados del MINSA).
Calcular la media y la mediana del número de vehículos que tienen estas familias. Se
puede calcular la moda? y si es así, cuál es ella?. Determine la media del cuadrado del
número de vehículos por familia y compruebe que este resultado difiere del cuadrado
de la media (sugerencia: utilizar la observación, considerada anteriormente en el
estudio de la media).
MEDIDAS DE DISPERSIÓN
Cada una de las medidas estudiadas anteriormente (media, mediana y moda) nos indica
alrededor de qué valores están distribuidos los datos, pero no nos expresa si los datos
están concentrados alrededor de esos valores (si son cercanos a ellos) o dispersos (si
están alejados).
Ejemplo 1:
Consideremos las edades de:
Grupo A:
5 estudiantes de nuestra clase (edades: 17, 18, 19, 20 y 21). La edad promedio es igual
a 19 años
Grupo B:
Otras 5 personas (diferentes a las del Grupo A) que acuden al cine (edades:, 9, 19, 29 y
34 a 19.). De igual modo, la edad promedio es igual 22
En el Grupo A, las 5 edades están cerca de la media (concentradas a su alrededor: la
distribución es homogénea o presenta poca dispersión), en tanto que en el Grupo B las
edades están lejos de la media (dispersas: la distribución es heterogénea o presenta
mucha dispersión).
Para poder evaluar la calidad de las medidas de tendencia central y, en particular, de la
media, es importante conocer la dispersión de los datos, debido a que en una
distribución muy dispersa, la media será un “promedio de valores muy diferentes
entre sí” y no será tan fiel a los datos como si estos fueran similares. Por ejemplo, la
edad promedio de 19 años del Grupo A es una mejor medida resumen que la media de
22 años del Grupo B, ya que la primera representa mejor a los datos originales. Es por
ello que afirmamos que en el Grupo A, “la media es más representativa de las edades
de las que proviene”, por tener éstas poca dispersión.
Ejemplo 2:
Utilizando los siguientes conjuntos de datos, acerca del puntaje que obtuvieron un
grupo de 12 ingenieros mecánicos en una prueba de selección de personal en dos
empresas dedicadas a la fabricación de ventanas metálicas, A y B:
A: 0 48 49 51 52 100
B: 47 48 49 51 52 53
Tanto la media como la mediana de ambos conjuntos de datos son iguales a 50; es decir,
ambas distribuciones son simétricas. No obstante, ellas son muy diferentes. No es
suficiente describir los datos, midiendo dónde cae el centro: debemos también
considerar cómo están dispersos.
La forma más sencilla de medir la dispersión de un conjunto de datos, consiste en
calcular el rango, pero veremos que esto no es la forma más confiable, pues existen
mejores medidas de dispersión, como la varianza y el coeficiente de variación, que las
estudiaremos posteriormente.
RANGO
Como vimos anteriormente, al considerar la construcción de una tabla de distribución
de frecuencias, el rango es simplemente la diferencia entre el valor mayor y el menor de
los datos.
Si tenemos en cuenta los datos del Ejemplo 2 anterior, el rango de ambos grupos, es:
A: 0 48 49 51 52 100
C: 0 1 1 99 99 100
Ambos conjuntos de datos tienen el mismo rango de 100 y todavía los valores en A son
mucho más centrales que los de C. Por tanto, el rango de un conjunto de datos no es
una buena medida de dispersión, porque sólo usa los valores mínimo y máximo de los
datos. Se necesita una medida de dispersión que se calcule usando todos los datos,
como la varianza.
VARIANZA
La varianza es la medida de dispersión más versátil de un conjunto de datos,
convirtiéndose en una medida muy valiosa de la dispersión: “los datos son más
heterogéneos o están más dispersos a medida que aumente el valor de la varianza”.
La varianza es una de las ideas cruciales de la Estadística.
La varianza de los n datos muestrales de una variable X, se determina utilizando la
siguiente fórmula:
n
∑ (x i − x) 2
V (X ) = i =1
……………………………………………………………………………………………….. (1)
n
Otra forma de obtener la varianza es:
V ( X ) = E ( X 2 ) − [E ( X )] ………………………………………………………………………………………… (2)
2
El valor de la varianza no puede ser negativo y será igual a 0 si todos los datos coinciden
con la media.
Aunque probablemente se use una computadora para determinar la varianza de un
conjunto de datos, el cálculo manual sirve para comprender lo que es la varianza.
Si tenemos en cuenta la primera fórmula (1) para calcular la varianza, se observa que
ella se basa en la suma de los cuadrados de las diferencias entre cada valor y la media y,
a medida que los valores se alejen de la media, ella será más grande.
La varianza es una buena medida de dispersión porque puede discernir entre muestras
como los conjuntos de datos A y C, los cuales tienen la misma media (50) y el mismo
rango (100), pero el conjunto C es más disperso que el A.
Cuando se pretende interpretar la varianza, se presenta dos inconvenientes. Primero,
sus unidades están elevadas al cuadrado; por lo que, por ejemplo, si medimos número
de hijos, la varianza se expresa en número de hijos al cuadrado, lo cual no tiene
significado (por ejemplo, se diría que la varianza es igual 4 hijos al cuadrado, lo cual no
tiene mucho sentido). Segundo, no tiene límite superior y su valor puede ser muy
grande y no tenemos con qué compararlo para saber si indica una gran variabilidad o si
los valores de la variable lo son.
Reconocimiento de la varianza:
La Figura 4 que sigue, muestra los histogramas de tres conjuntos de datos. Cada
conjunto tiene 400 valores, es aproximadamente simétrico y tiene una media de 30.
Pero la varianza del primer conjunto de datos es 16, la del segundo es 36 y la del tercero
es 121 (las desviaciones estándar, que veremos luego, son iguales a 4, 6 y 11,
respectivamente). Todos los valores del primer histograma están muy concentrados
alrededor de 30; los del segundo son ligeramente más variados y los del tercero son aún
mucho más dispersos.
160
140 𝑉𝑉(×) = 16
120
100
Frecuencia
80
60
40
20
0
0 10 20 30 40 50 60
100
90 𝑉𝑉(×) = 36
80
70
60
Frecuencia
50
40
30
20
10
0
0 10 20 30 40 50 60
60
𝑉𝑉(×) = 121
50
40
Frecuencia
30
20
10
0
0 10 20 30 40 50 60
Ejemplo 1:
Para ilustrar el resultado anterior, supongamos que la media de una muestra es igual a
20 y que la varianza es igual a 25. El resultado de Chebysheff para, por ejemplo,
a) k =2, nos permite afirmar que al menos el
1
1 − 2 = 0.75 = 75%
2
de los valores en la muestra están comprendidos entre
LI = media – ks = 20 – (2)(5)
y
LS = media + ks = 20 + (2)(5);
donde LI representa el Límite Inferior, LS el Límite Superior y s la desviación estándar.
Es decir, entre 20-10=10 (LI=10) y 20+10=30 (LS=30). Dicho de otro modo, al menos
las tres cuartas partes de los valores en la muestra cae dentro de 2 desviaciones
estándar de la media.
b) k =3, nos dice que al menos el
1
1− = 0.889 = 88.9%
32
de los datos están entre
20 – (3)(5) y 20 + (3)(5); es decir, entre 5 (LI=5) y 35 (LS=35). O, al menos el 88.9% de
los valores en la muestra cae dentro de 3 desviaciones estándar de la media.
c) k =1.5, nos dice que al menos el
1
1− = 0.556 = 55.6%
1.5 2
de los datos están entre
20 – (1.5)(5) y 20 + (1.5)(5); es decir, entre 12.5 (LI=12.5) y 27.5 (LS=27.5). También
podemos afirmar que, al menos el 55.6% de los valores en la muestra cae dentro de
1.5 desviaciones estándar de la media.
Los resultados de los casos a), b) y c) se resumen en el siguiente cuadro:
Ejemplo 2:
Calcular, manualmente, la varianza del conjunto anterior de datos (empresa A), donde
su media es igual a 50 ( x = 50 puntos).
Solución:
A: 0 48 49 51 52 100
Utilizaremos la primera de las dos fórmulas anteriores (1). Para ello, se construye una
tabla, como la que se muestra a continuación:
∑ (x i − x) 2
5010
V (X ) = i =1
= = 835 (puntos)2.
n 6
(Por ahora utilizaremos esta fórmula de la varianza, que corresponde a la varianza
poblacional, pero más adelante se distinguirá entre la varianza poblacional y la varianza
muestral. En la fórmula anterior se está colocando “n” en el denominador, pero lo más
adecuado es colocar el tamaño poblacional, “N”, tal como se verá más adelante).
Con la segunda fórmula (2) debemos obtener el mismo resultado. Para utilizarla, es
necesario construir la siguiente tabla (siempre utilizando el conjunto de datos de la
empresa A):
Datos Datos2
(xi) (xi2)
0 0
48 2304
49 2401
51 2601
52 2704
100 10000
6 6
∑ xi = 300
i =1
∑x
i =1
2
i = 20010
V ( X ) = E ( X 2 ) − [E ( X )]
2
20010 300 2
= −( ) = 3335 − (50) 2 = 3335 − 2500 = 835 (coincide con el resultado
6 6
anterior).
Ejemplo 3:
Ahora, hallemos la varianza del conjunto de datos C, utilizando la fórmula (2):
C: 0 1 1 99 99 100
Datos Datos2
(xi) (xi2)
0 0
1 1
1 1
99 9801
99 9801
100 10000
6 6
∑ xi = 300
i =1
∑x
i =1
2
i = 29604
V ( X ) = E ( X 2 ) − [E ( X )]
2
29604 300 2
= −( ) = 4934 − (50) 2 = 4934 − 2500 = 2434 .
6 6
CONJUNTO DE EJERCICIOS N° 11
Datos Datos2
(xi) (xi2)
47 2209
48 2304
49 2401
51 2601
52 2704
53 2809
6 6
∑ xi = 300
i =1
∑x
i =1
2
i = 15028
V ( X ) = E ( X 2 ) − [E ( X )]
2
15028 300 2
= −( ) = 2504.67 − (50) 2 = 2504.67 − 2500 = 4.67 (puntos)2.
6 6
Como se podría esperar, la varianza en el grupo B (4.67) es mucho más pequeña que en
los grupos A (835) y C (2434), a pesar de que los tres grupos tienen la misma media y el
mismo rango.
DESVIACIÓN ESTÁNDAR
La desviación estándar de un conjunto de datos, que la denotaremos por DE(X), es igual
a la raíz cuadrada de su varianza. Es decir:
DE(X) = V ( X )
Ejemplo 2:
Ahora, encontremos la desviación estándar para el conjunto de datos C:
COEFICIENTE DE VARIACIÓN
DE ( X )
CV ( X ) = (100%)
x
En la práctica, se considera que si el coeficiente de variación es menor al 10%, la
distribución tiene poca dispersión (o que los datos son homogéneos) y se puede confiar
en la media como medida de centralidad y considerarla como representativa de los
datos que resume.
Ejemplo 1:
El ingreso mensual (en miles de dólares) de 8 ingenieros mecánicos es: 2, 2, 2, 2, 2, 10,
10, 10. El ingreso medio mensual por ingeniero mecánico es de 40/8=5 ($5,000), el cual
no representa al ingreso de los 8 ingenieros mecánicos, porque tuvieron ingresos muy
diferentes: el ingreso mensual de cada uno de 5 ingenieros mecánicos es igual a
$2,000.00 y el de cada uno de los 3 restantes ingenieros mecánicos es de $10,000.00. El
coeficiente de variación es igual a 77.46%, un valor muy grande, lo cual indica que el
ingreso medio no es una medida adecuada para resumir los 8 ingresos mensuales.
(Como el coeficiente de variación es muy grande-mucho mayor que 10%-, se dice que la
media no es una buena medida representativa).
CONJUNTO DE EJERCICIOS N° 12
1) Verificar que el coeficiente de variación de los datos: 2, 2, 2, 2, 2, 10, 10, 10, es igual
a 77.46%.
Guía de solución:
Datos Datos2
(xi) (xi2)
2
2
2
2
2
10
10
10
8 8
∑x
i =1
i = ∑x
i =1
2
i =
V ( X ) = E ( X 2 ) − [E ( X )] = …
2
PORCENTAJE DIARIO DE
COMU- RESULTADOS
NICADO CONFIRMADOS EN LAS PRUEBAS
30/06/2020 153
Elaboración propia
Calcule e interprete las medidas estadísticas estudiadas, incluyendo un comentario
acerca de la asimetría de la distribución, para el porcentaje diario de resultados
confirmados de coronavirus en:
a) Las pruebas moleculares.
b) Las pruebas serológicas.
c) Las pruebas moleculares y serológicas.
(Sugerencia: compruebe que sus valores son los que se muestran en la siguiente
tabla, donde la segunda columna corresponde a las pruebas moleculares, la tercera
a las pruebas serológicas y la cuarta a ambas pruebas).
Medidas estadísticas
5) Sin hacer cálculos, ¿cuál de estas dos muestras de datos, correspondientes al número
de mosaicos utilizados en 8 trabajos similares en dos empresas, I y II, tiene la mayor
varianza? Justificar la respuesta:
A 2 3 3 4 5 4 6 5
B 8 10 20 35 12 22 9 30
¿En qué ciudad es más homogéneo el peso de óxido acumulado en los protectores
metálicos de tragaluz?. (Sugerencia: calcular el coeficiente de variación para cada
ciudad).
MEDIDAS DE ASOCIACIÓN
Las medidas estadísticas estudiadas anteriormente, corresponden a una variable
cuantitativa unidimensional. Cuando de un conjunto de n individuos se toman, al mismo
tiempo, dos variables cuantitativas (denotadas usualmente por X e Y), es de interés
determinar el grado de asociación que existe entre ellas. Una de las medidas estadísticas
que expresan la asociación entre dos variables cuantitativas es el coeficiente de
correlación.
Ejemplo 1:
Se puede cuantificar la asociación que existe entre:
a) Peso y Estatura de las personas.
b) Velocidad y Consumo de combustible de los automóviles.
c) Desgaste y Tiempo de uso rodamientos.
COEFICIENTE DE CORRELACIÓN
El nombre ampliado del coeficiente de correlación es “COEFICIENTE DE CORRELACIÓN
PRODUCTO-MOMENTO DE PEARSON”. Por simplicidad, se utiliza a menudo el término
COEFICIENTE DE CORRELACIÓN.
Cálculo del coeficiente de correlación:
Por lo regular, facilita el cálculo manual del coeficiente de correlación, utilizando n datos
muestrales de una variable cuantitativa bidimensional (X, Y), denotado por “r”, construir
una tabla como la siguiente (la información inicial sólo está conformada por las tres
primeras columnas; las demás han sido incluidas para ilustrar el cálculo de este
coeficiente):
i xi yi xi yi xi2 yi2
1 x1 y1 x1 y1 x12 y12
2 x2 y2 x2 y2 x22 y22
. . . . . .
. . . . . .
. . . . . .
n xn yn xn yn xn2 yn2
Total n n n n n
∑ xi
i =1
∑ yi
i =1
∑ xi y i
i =1
∑ xi2
i =1
∑y
i =1
2
i
Ejemplo 2:
i xi yi xi2 xi y i
yi2
1 26.8 26.5 710.2 718.24 702.25
2 25.4 27.3
3 28.9 24.2
4 23.6 27.1
5 27.7 23.6
6 23.9 25.9
7 24.7 26.3
8 28.1 22.5
9 26.9 21.7
10 27.4 21.4
11 22.6 25.8
12 25.6 24.9
Total
PROBABILIDAD
EXPERIMENTO ALEAOTORIO
Se define un experimento aleatorio, como un fenómeno que, antes de su realización,
puede producirse de distintas maneras pero, una vez realizado, se produce de una
única forma. Denotamos a un experimento aleatorio con la letra griega ξ (aunque en
la bibliografía especializada, también se puede encontrar la notación ε ). Si el número
de estas posibles maneras es único, se dice que el fenómeno no es un experimento
aleatorio.
Ejemplos:
ESPACIO MUESTRAL
Un espacio muestral asociado a un experimento aleatorio, denotado con la letra griega
Ω, es el conjunto de posibles resultados asociados a dicho experimento aleatorio. Un
espacio muestral puede ser finito, si tiene un número determinado de elementos,
mientras que si el número de sus elementos es infinito se dice que es infinito.
Ejemplos:
Ω 1 = {SS , SN , NS , NN } .
EVENTO
Un evento es cualquier subconjunto de un espacio muestral. Podemos denotar a un
evento con una letra mayúscula del abecedario. El evento será simple si tiene un
elemento y será compuesto si tiene más de un elemento. A un evento simple también
se le denomina suceso.
Ejemplos:
2) Ahora, tengamos en cuenta el espacio muestral anterior Ω 2 . Algunos eventos son los
siguientes:
A = {t : t = 5.8} : evento simple.
B = {t : t ≥ 7.3} : evento compuesto.
ÁLGEBRA DE EVENTOS
2. Evento seguro o cierto: Es el que se verifica, cualquiera que sea el resultado del
experimento aleatorio. El evento cierto o seguro corresponde al espacio muestral
Ω.
9. Eventos colectivamente exhaustivos: Decimos que A1, A2, …, Ak, son eventos
colectivamente exhaustivos, si
∪ ik=1 Ai = A1 ∪ A2 ∪ ... ∪ Ak = Ω
PROBABILIDAD DE UN EVENTO
PROPIEDADES DE LA PROBABILIDAD:
Ejemplos:
Solución:
Ejercicios
1) En el experimento aleatorio: determinar la causa de falla registrada por 3 operarios
mecánicos de un torno controlado por computadora (1: fluctuaciones de corriente, 2:
otra). Dentro de otra causa (2) se tiene: controlador inestable, error del operador,
herramienta gastada no cambiada.
a) Determine un espacio muestral asociado a este experimento aleatorio.
c) ¿Cuál es la probabilidad de que sólo el segundo operario registre otra causa de falla
del torno?.
Solución:
Sean
D: la soldadura está defectuosa.
N: la soldadura no está defectuosa.
Solución:
⇒ n( E 2 ) = 7
Solución:
Solución:
Solución:
Una vez que se determina por extensión los elementos del conjunto E2 ∪ E4, se
puede obtener su probabilidad, de las siguientes maneras:
(Nota: Los eventos E 2 y E 4 tienen los mismos elementos. Por lo tanto, son los
mismo eventos).
7 7 7 7
= + - = = 0.875
8 8 8 8
f. E3 ∩ E1
Solución:
g. (E1 ∪ E4)C
Solución:
(E1 ∪ E4)C = ( Ω )C = φ .
Por lo tanto, aplicando propiedad de la probabilidad de un evento imposible:
P( φ ) = 0
h. (E2 ∩ E3)C
Solución:
E2 ∩ E3 =
{VNN , NVN , NNV ,VVN ,VNV , NVV , NNN } ∩ {VNN , NVN , NNV }=
{VNN , NVN , NNV }= E3 ⇒ E2 ∩ E3 = E3
Luego,
b) E2: la suma del resultado de las caras vueltas hacia arriba está comprendida entre 2
y 10.
c) E3: la suma del resultado de las caras vueltas hacia arriba es, a lo más, igual a 3.
d) E4: la suma del resultado de las caras vueltas hacia arriba es menor que 8.
e) E2 ∪ E4
f) E 4C
g) (E2 ∪ E4)C ∩ E3
Solución:
Ω
D2
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
D1 3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
⇒ n(Ω) = 36
donde:
a) E1: la suma del resultado de las caras de ambos dados vueltas hacia arriba es
igual a 4.
Solución:
Ω
D2
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
D1 3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
b) E2: la suma del resultado de las caras vueltas hacia arriba está comprendida
entre 2 y 10
Solución:
Ω
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
c) E3: la suma del resultado de las caras vueltas hacia arriba es, a lo más (como
máximo), igual a 3.
Solución:
Ω
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
d) E4: la suma del resultado de las caras vueltas hacia arriba es menor que 8.
Solución:
Ω
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
e) E2 ∪ E4
Solución:
E2 ∪ E4 = E2
f) E 4C
Solución:
Ω
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
P( E 4C ) = 1 – P( E4 ) = 1 – 0.58 = 0.42
g) (E2 ∪ E4)C ∩ E3
Solución:
(E2)C = {(5,6), (6,5), (6,6)}, que corresponde a (E2 ∪ E4)C, tal como puede apreciarse
en la ilustración que sigue:
• (E2 ∪ E4)C
Ω
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
• E3: la suma del resultado de las caras vueltas hacia arriba es, a lo más, igual a 3
Ω
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
(E2 ∪ E4)C ∩ E3 = φ
Luego,
n(φ )
P( φ ) = = 0 =0
n(Ω) 36
Guía de solución:
Ω
B
0 1 2 3 4
0 (0,0) (0,1) (0,2) (0,3) (0,4)
M = {(0,1), (0,2), (0,3), (0,4), (1,2), (1,3), (1,4), (2,3), (2,4), (3,4)}
⇒ n(M) = 10 ⇒ P(M) = 10/25 = 0.40
De manera similar se procede con los demás eventos.
Guía de solución:
Enlistar los elementos del espacio muestral asociado a este experimento aleatorio
(colocar sus elementos entre llaves). El número de elementos de este espacio
muestral será igual a 27, tal como puede ilustrarse enseguida:
C C M CCM (4)
M CMM (5)
S CSM (6)
C C S CCS (7)
M CMS (8)
S CSS (9)
. . . .
. . . .
. . . .
SSS (27)
Con estos resultados, escribimos:
PROBABILIDAD CONDICIONAL
P( A ∩ B )
P (B | A) = , si P(A) > 0 ……………………………………………………. (1)
P ( A)
De manera similar, si asumimos que B ≠ φ , entonces
P( A ∩ B )
P( A | B ) = , si P(B) > 0………………………………………………….… (2)
P (B )
Ejemplo:
Al 25 de julio de 2020, se tiene la siguiente información acerca del resultado de las
pruebas moleculares y rápidas, proporcionado por el MINSA en su comunicado N° 183:
Tipo de Resultado
Prueba Positivo Negativo Total
Molecular 103684 251982 355666
Rápida 276200 1574239 1850439
Total 379884 1826221 2206105
Solución:
Sean los eventos:
A: El resultado de la prueba es positivo.
B: La prueba realizada a la persona es molecular. (Ha ocurrido el evento B).
Entonces, para facilitar el cálculo de la probabilidad, reproducimos el cuadro anterior y
luego aplicaremos la definición de probabilidad condicional:
Tipo de Resultado
Prueba Positivo Negativo Total
Molecular 103684 251982 355666
Rápida 276200 1574239 1850439
Total 379884 1826221 2206105
A: … positivo
B: … molecular
103684
P( A ∩ B ) 103684
P( A | B ) = = 2206105 = = 0.2915
P (B ) 355666 355666
2206105
Interpretación: “La probabilidad de que el resultado de la prueba sea positivo, dado
que la prueba ha sido molecular, es igual a 0.2915”.
Ejercicios:
Tipo de Resultado
Prueba Positivo Negativo Total
Molecular 103684 251982 355666
Rápida 276200 1574239 1850439
Total 379884 1826221 2206105
y determine:
a) La probabilidad de que el resultado de la prueba sea negativo, si la prueba realizada a
una persona, seleccionada al azar, fue rápida.
Guía de solución:
A: El resultado de la prueba es negativo.
B: La prueba realizada a la persona es rápida (serológica).
P( A ∩ B )
P( A | B ) = = 0.8507
P (B )
b) La probabilidad de que la prueba realizada a una persona, seleccionada al azar, sea
molecular, dado que el resultado de la prueba es negativo.
Guía de solución:
A: La prueba realizada es molecular.
B: El resultado de la prueba es negativo.
P( A ∩ B )
P( A | B ) = = (251982/2206105)/(355666/2206105) = 0.1142
P (B )
2. Suponga que el 55% de las muestras de hojalata de acero utilizadas en cierto trabajo
mecánico tienen algún tipo de defecto, el 15% de todas las hojalatas proviene de Aceros
Arequipa y el 5% tiene algún tipo de defecto y proviene de Aceros Arequipa. Considere
los siguientes eventos:
S: una hojalata, seleccionada al azar, sí tiene algún tipo de defecto.
Sc: una hojalata, seleccionada al azar, no tiene algún tipo de defecto.
A: la hojalata seleccionada proviene de Aceros Arequipa.
Ac: la hojalata seleccionada no proviene de Aceros Arequipa.
S Sc Total
A 0.05 0.15
Ac
Total 0.55 1.00
a) P(A|B) = P(A)
o
b) P(B|A) = P(B)
o
c) P(A∩B) = P(A)P(B)
Ejemplo 1:
Al extraer una carta de una baraja española, ¿cuál es la probabilidad de obtener un
rey sabiendo que es una figura?. Determinar si los eventos involucrados en esta
probabilidad son independientes o dependientes. (Sugerencia: una baraja española tiene
40 cartas, distribuidas en los palos oros, bastos, espadas y copas; cada palo tiene 10
cartas: as, 2, 3, 4, 5, 6, 7, figura Sota, figura Caballo y figura Rey).
Solución:
Consideremos los siguientes eventos:
F: la carta extraída es Figura. (Ha ocurrido el evento F)
R: se obtiene un Rey.
Se pide calcular:
P(R ∩ F ) 4 / 40 1
P (R | F ) = = = = 0.33
P (F ) 12 / 40 3
Para saber si F y R son eventos independientes o dependientes, calculamos:
4 1
P( R) = = = 0.10
40 10
Puesto que P(R | F ) ≠ P(R) ⇒ los eventos F y R son dependientes.
NOTA:
Tres eventos E1, E2 y E3 son independientes, si se cumplen las siguientes condiciones:
(i) P(E1∩E2) = P(E1)P(E2),
(2i) P(E1∩E3) = P(E1)P(E3),
(3i) P(E2∩E3) = P(E2)P(E3) y
(4i) P(E1∩E2∩E3) = P(E1)P(E2)P(E3).
Ejemplo 2:
En el ejemplo del experimento aleatorio consistente en lanzar un dado y observar el
número que aparece en la cara superior al reposar sobre una mesa, ¿son independientes
los eventos:
E1: “se obtiene cifra menor que 5”
E2: “se obtiene cifra menor que 4”
E3: “se obtiene cifra mayor que 2 y menor que 6”?
Solución:
Ω = {1,2,3,4,5,6} ⇒ n( Ω ) = 6
E1 = {1,2,3,4} ⇒ n(E1) = 4 ⇒ P(E1) = 4/6 = 2/3
E2 = {1,2,3} ⇒ n(E2) = 3 ⇒ P(E2) = 3/6 = 1/2
E3 = {3,4,5} ⇒ n(E3) = 3 ⇒ P(E3) = 3/6 = 1/2
Ejercicios:
1. Tenga en cuenta la información de las hojalatas de acero (considerada, anteriormente,
en el Ejercicio 2 sobre probabilidad condicional), ¿son independientes los eventos:
a) S y A?. (Rpta.: No). Justifique su respuesta.
b) Sc y Ac? (Rpta.: No). Justifique su respuesta.
2. Considere los siguientes eventos:
PROBABILIDAD DE LA INTERSECCIÓN
Podemos notar que en estas dos últimas expresiones es fácil despejar del numerador, lo
cual proporciona la probabilidad de la intersección de dos eventos A y B.
Ejemplo:
Utilicemos la información acerca del resultado de las pruebas moleculares y rápidas,
proporcionado por el MINSA en su comunicado N° 183:
Tipo de Resultado
Prueba Positivo Negativo Total
Molecular 103684 251982 355666
Rápida 276200 1574239 1850439
Total 379884 1826221 2206105
Solución:
1574239
P(A∩B) = = 0.713582989
2206105
1826221 1574239 / 2206105 (1826221)(1574239)
P(A)P(B|A) = ( )( )= = 0.713582989.
2206105 1826221 / 2206105 (2206105)(1826221)
A partir de estos resultados, podemos concluir que se cumple la probabilidad de la
intersección:
P(A∩B) = P(A)P(B|A)
Sea una colección de eventos B1,B2,...,Bn que forman una partición de un espacio
muestral Ω asociado a un experimento aleatorio, es decir
n
(1) Ω = ∪ Bi
i =1
y
(2) Bi∩Bj = ∅, ∀ i≠j
Bn
B2
P(S|Bn)
Ejemplo:
Supongamos que de los 43 estudiantes de la la Escuela Académico Profesional de
Ingeniería Mecánica de la Universidad Nacional de Trujillo, matriculados en el curso de
Estadística en el semestre 2021-I, 26 proceden de Trujillo, 4 de Lima y 13 de Cajamarca.
Se sabe que de todo el universo, el número de estudiantes que usan laptop para recibir
sus clases virtuales corresponde a 6 de Trujillo, 1 de Lima y 3 de Cajamarca. Un
estudiante se selecciona al azar de la Escuela Académico Profesional de Ingeniería
Mecánica, determinar la probabilidad de que dicho estudiante use laptop para recibir
sus clases virtuales.
Solución:
S: “El estudiante seleccionado usa laptop para recibir sus clases virtuales”
B1: “El estudiante seleccionado es de Trujillo”
B2: “El estudiante seleccionado es de Lima”
B3: “El estudiante seleccionado es de Cajamarca”
6 1 3
P( S | B1 ) = = 0.231 ; P( S | B2 ) = = 0.25 ; P( S | B3 ) = = 0.231
26 4 13
TEOREMA DE BAYES
P(Bi|S),
Teorema de Bayes
Sea una colección de eventos B1,B2,...,Bn que forman una partición de Ω de un
experimento aleatorio, es decir
n
(1) Ω = ∪ Bi
i =1
y
(2) Bi ∩ Bj = ∅ ∀ i≠j
Si S es un evento cualquiera de Ω y se conocen P(Bi) y P(S|Bi), entonces
P(Bi )P(S | Bi )
P(Bi | S ) = n
∑ P(B )P(S | B )
i =1
i i
Ejemplo:
Una prueba molecular detecta la presencia de coronavirus en el 98% de los casos y si la
persona no está contagiada de coronavirus da negativo en el 94% de los casos. Se sabe
que la probabilidad de que una persona esté contagiada de coronavirus es igual a 0.21.
Hallar la probabilidad de que la persona:
a) Esté contagiada con coronavirus si la prueba molecular ha resultado positiva.
b) Esté contagiada de coronavirus cuando la prueba molecular ha resultado negativa.
Solución:
a) S: “la prueba molecular da resultado positivo”
B1: “la persona está contagiada con coronavirus”
P(B1) = 0.21,
P(S|B1) = 0.98
Ejercicios
Es una función con valor numérico, definida sobre un espacio muestral Ω. Usualmente,
se la denota con la letra mayúscula X. Es decir:
X : Ω ℜ,
EJEMPLOS:
CLASES:
DISTRIBUCIÓN DE PROBABILIDAD:
Tabla, fórmula o gráfica que proporciona las probabilidades de los valores de X.
Tenemos dos casos:
Nota:
Cuando la variable aleatoria es discreta, a la función de cuantía también se la
denomina función masa de probabilidad (f.m.p.).
Ejemplo 1:
X: suma de puntos en las caras superiores al lanzar 2 dados.
Ω={(1,1), (1,2),..., (6,6)} n(Ω) = 36
X 2 3 4 ... 12
P(X=x) 1/36 2/36 3/36 ... 1/36
REPRESENTACIÓN GRÁFICA:
en el eje de las abscisas los valores de la variable X y en el eje de las ordenadas los
valores de P(X=x); luego, de cada valor de X se levantan segmentos perpendiculares
al eje de las abscisas, cuya longitud es igual al valor de la función de cuantía). El
gráfico correspondiente, para este ejemplo, toma la forma siguiente:
P(X=x)
6/36
3/36
X
2 3….. 7…. 12
Ejemplo 2:
X: Número de generadores eléctricos apagados en el experimento aleatorio de
observar el sistema de encendido de 2 generadores eléctricos. (Las posibilidades del
sistema de encendido son: encendido, apagado).
X: 0, 1, 2
La distribución de probabilidad de X, en forma de tabla, es la siguiente:
X 0 1 2
P(X=x) 0.25 0.50 0.25
Ejemplo 3:
X: Número de lanzamientos de una moneda legal hasta que aparezca cara:
1
X , P( X = x) = , x = 1,2 ,....
2x
PROPIEDADES DE LA FUNCIÓN DE CUANTÍA:
i) 0 ≤ P(X = x) ≤ 1,
ii) ∑ P( X
∀x
= x) = 1
Ejemplo 4:
Se extraen 3 tornillos al azar de un conjunto de 12 tornillos, 5 de los cuales están
oxidados.
X: Número de tornillos oxidados extraídos:
C x5 C37− x
P( X = x) = , x = 0,1,2,3
C312
f(x), a ≤ X ≤ b
A f(x) se le llama función de densidad o función densidad de probabilidad (f.d.p.).
Ejemplo 5:
1 −Z 2 / 2
f ( z) = e , -∞ < Z < ∞
2π
f(0) = 0.3989; f(±1) = 0.2420; f(±2) = 0.0540
Ejemplo 6:
Supongamos que el ancho del canal chavetero de una polea (X, en ciertas unidades)
está representada por:
0.5 x , 0 ≤ x ≤ 2
f ( x) =
0 , e.o.c.
En la expresión anterior, e.o.c. significa: “en otro caso”. (En este ejemplo, e.o.c.
significa que x < 0 ó que x > 2, en cuyos valores de X, la función de cuantía toma
el valor de 0).
0 3989
0 2420
0 0540
-3 -2 -1 0 1 2 3 Z
f(x)
3/4
1/2
1/4
X
0
1 2
Ejercicio:
Verificar el cumplimiento de las propiedades i) y ii) para cada uno de los ejemplos
anteriores. (Ejemplo 1, Ejemplo 2, …, Ejemplo 6).
Solución:
A continuación, se resuelve para el Ejemplo 1 (variable aleatoria discreta) y el
Ejemplo 6 (variable aleatoria continua).
X 2 3 4 ... 12
P(X = x) 1/36 2/36 3/36 ... 1/36
i) P(X = x) ≥ 0.
Como se puede observar en la tabla, todos los valores de P(X = x) cumplen con
esta propiedad de la función de cuantía.
ii) ∑P(X = x) = (1/36) + (2/36) +...+ (1/36) = 1.
Igualmente, si sumamos todos los valores de la función de cuantía, se comprueba
que el resultado es igual a 1, con lo cual se cumple la propiedad ii).
Ejemplo 6:
0.5 x , 0 ≤ x ≤ 2
f ( x) =
0 , e.o.c.
i) f(x) ≥ 0
2 2 2
1 1
ii) ∫
0
f ( x)dx = ∫0 2 xdx = 2 ∫0 xdx
2
1 x2 1 1 2
= = . 2 −0
2 2 0 2 2
2
( )
1
= (4 − 0) = 1
4
FUNCIÓN DE DISTRIBUCIÓN
x0
F ( x0 ) = ∑ P ( X = x ) :
F ( x0 ) = ∫ f ( x)dx
−∞
Propiedad:
Se cumple: F , ( x) = f (x) :
Esta expresión indica que “la primera derivada de F(x), con respecto de x, es
igual a f(x)”.
Solución:
Cuando X es discreta, el valor de la función de cuantía P(X = x) corresponde al valor de
la correspondiente frecuencia relativa simple (hi) y el valor de la función de distribución
F(x) será la correspondiente frecuencia relativa acumulada (Hi).
x 2 3 4 5 6 7 8 9 10 11 12
P(X=x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
F(x) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 36/36
F (5) = P ( X ≤ 5) = ∑ P ( X = x) = P ( X = 2) + P ( X = 3) + P ( X = 4) + P ( X = 5) =
x ≤5
Ejercicio:
Graficar la función de distribución para el Ejemplo 1 (experimento de lanzar dos dados):
REPRESENTACIÓN GRÁFICA:
F(x)
1
30/36
20/36
10/36
0 2 3 4 5 6 7 8 9 10 11 12
Ejemplo 2:
Hallar el valor de la constante c, tal que f(x) defina una función de densidad en el
intervalo dado y hallar F(x), donde:
Solución:
Aplicando la propiedad 2i) de la función de densidad, se tiene:
∞ a b ∞
a) ∫ f ( x)dx = 1 ⇒ ∫ f ( x)dx + ∫ f ( x)dx + ∫ f ( x)dx = 1
−∞ −∞ a b
0 ∏ ∞ ∏ ∏
⇒ 2c = 1 ⇒ c=1/2
1
Por lo que f ( x) = senx
2
Ahora determinaremos la función de distribución:
Sabemos que F(x) = P(X ≤ x). Por lo tanto:
x 0 x x
1
F ( x) = ∫
−∞
f ( x)dx = ∫−∞ f ( x)dx + ∫0 f ( x)dx =0 + ∫0 2 senudu
= − 1 cos u ]0x = − 1 (cos x − cos 0 ) = − 1 (cos x − 1) = 1 (1 − cos x )
2 2 2 2
1
⇒ F ( x) = (1 − cos x )
2
∞ r
c c
∫−∞1 + x 2 dx = 1 ⇒ lím ∫ dx = 1 ⇒ lím[c arctan x ]− r = 1
r
b) 2
r →∞ 1 + x r →∞
−r
⇒ c lím[arctan r − arctan(−r )] = 1
r →∞
x x
du 1 du 1
F ( x) = ∫ = lím ∫ = lím [arctan u ]− r
x
(
− ∞π 1 + x
2
)u → ∞ π −r 1 + u 2 u → ∞ π
1 1 π
= lím [arctan x − arctan(−r )] = + arctan x
π u →∞ π2
1 π
⇒ F ( x) = + arctan x
π2
i) P( a ≤ X ≤ b ) = F( b ) - F( a -1) = ∑ P( X = x ) − ∑ P( X = x ) , si X es discreta.
x ≤b x ≤ a −1
Nota:
A modo de ilustración, si X es continua, la forma de F(x) puede ser la siguiente:
F(x)
Ejemplo:
Utilizando la información del Ejemplo 1 (X: suma de puntos en el lanzamiento de dos
dados; X es discreta), hallar:
a) P(4 ≤ X ≤ 9)
b) P(3 < X ≤ 5 )
c) P(5 < X < 8)
d) P(4 < X < 9)
e) P(4 ≤ X < 9)
f) P(4 < X ≤ 9)
g) P(X = 6)
h) P(3 ≤ X < 8)
Solución:
A continuación, se presenta la solución para los incisos a), b) y c).
Con la finalidad de comprender la solución de este ejemplo, reproducimos nuevamente
la tabla que contiene los valores de X, P(X = x) y F(x):
x 2 3 4 5 6 7 8 9 10 11 12
P(X=x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
F(x) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 36/36
a) P(4 ≤ X ≤ 9)
Con a = 4 y b = 9, tenemos:
• Utilizando los valores de la función de cuantía:
b) P(3 < X ≤ 5 )
• Utilizando los valores de la función de cuantía:
Ejercicio:
Una variable aleatoria X consiste en observar el número de cilindros de un grupo de
motores. Los valores de X, P(X = x) y F(x) se observan en la siguiente tabla:
Graficar:
a. La función de cuantía (gráfico de bastones).
b. La función de distribución (gráfico en forma de escalera o escalonada).
Solución b):
Ejercicios
x 0 1 2 3 4 5
P(X=x) 0.01 0.1 0.3 0.4 0.1 ?
Asumiendo que P(X = x) es una función de cuantía (llamada también, función masa
de probabilidad):
a) Hallar P(X = 5), el cual se encuentra con el símbolo “?” en la tabla. (Rpta.: 0.09).
b) Graficar P(X = x).
c) Hallar y graficar F(x).
d) Hallar e interpretar P(X ≤ 2). (Rpta.: 0.41: “La probabilidad de que el número
máximo de juntas de soldadura sea igual a 2 es de 0.41”).
a) E(X) = µ = ∑ x P( X = x ) , si X es discreta.
i i
∞
b) E(X) = µ = ∫ xf ( x)dx , si X es continua.
−∞
Ejemplo 1: El número de cilindros, X, en el motor de un conjunto de vehículos tiene
la siguiente función masa de probabilidad (o función de cuantía) de X es:
x 4 6 8
P(X = x) 0.4 0.5 0.1
(Rpta.: µ = 2).
Solución:
∞ ∞ 0
1 −x / 2 ∞
1 −x / 2
∞
1
µ = ∫ xf ( x)dx = ∫−∞x( 2 e )dx = ∫ x(0)dx + ∫0 x( 2 e )dx = 0 + ∫ x( 2 e
−x / 2
)dx
−∞ −∞ 0
∞
1
= ∫ x( 2 e
−x / 2
)dx
0
u x du = dx
dv 1 −x / 2 v = −e − x / 2
e dx
2
Por lo tanto:
∞ ∞
1 −x / 2
∫0 x( 2 e )dx = − xe ] 0 −
−x / 2 ∞
∫−e
−x / 2
dx
0
∞
= − {lím ( x) lím (e − x / 2 ) − lím( x) lím(e − x / 2 )} + ∫ e − x / 2 dx
x →∞ x →∞ x →0 x →0
0
∞
= − {lím ( x)(o) − (0) lím(e − x / 2 )} + ∫ e − x / 2 dx
x →∞ x →0
0
∞
= 0 + ∫ e − x / 2 dx
0
∞
= −2 ∫ e (−1 / 2)dx =
−x / 2
− 2e − x / 2 ]∞0 = − 2(e −∞ − e 0 )
0
= − 2 (0 – 1) = 2.
a) σ 2 = ∑ ( xi − µ ) P( X = xi ) , si X es discreta.
2
∫ (x − µ ) f ( x)dx , si X es continua.
2
b) σ = 2
−∞
E(X2) = ∑ x P( X = x ) , si X es discreta.
2
i i
∞
E(X2) = ∫ x 2 f ( x)dx , si X es continua.
−∞
f(x) f(x)
σ1 σ1=σ2
σ1<σ2 µ1<µ2
σ2
0 x x
µ 0 µ1 µ2
Solución:
Construimos la siguiente tabla:
σ= 2.9167 = 1.7078
0.5 x, 0 ≤ x ≤ 2
Ejemplo 2: Si X es una variable aleatoria continua, tal que f ( x) = .
0, e.o.c.
Hallar la esperanza matemática y la varianza de X. (Rpta.: µ = 4/3, σ2 =2/9).
Ejemplo 3: El tiempo (horas) que puede transcurrir en el Servicio de Emergencia del
Instituto Regional de Oftalmología para la llegada de un paciente soldador con un cuerpo
extraño en alguno de los ojos, se distribuye según la exponencial, cuya función de
densidad es:
x
1 −3
f ( x) = e , x > 0.
3
Hallar la función de distribución, la esperanza matemática y la varianza de X. (La
solución de la determinación de la esperanza matemática, es semejante a la del Ejemplo
2, en “Valor Esperado”, con θ = 2).
−
x
[Rpta.: F ( x) = 1 − e 3
, x > 0 ; E(X) = 3, E(X2)=18, V(X) = 9].
0 , e.o.c.
EJERCICIOS
f(x) = kx, 0 ≤ x ≤ 4.
a) Hallar k y F(x).
b) Hallar “a” tal que P(X ≤ a) = 0.81 = 81%.
Respuesta:
a) k = 1/8, con lo que f(x) = x/8, 0 ≤ x ≤ 4. F(x) = x2/16, b) a = 3.6
Solución:
Inciso a)
• Determinación de k y de f (x) :
Sabemos que la segunda propiedad de la función de densidad es:
∞
∫ f ( x)dx = 1
−∞
∫ xdx = 1 ⇒ k (x
2
⇒ k /2)] 04 = 1 ⇒ k (8-0) = 1
0
x
⇒ F ( x) = ∫ (u / 8)du
−∞
x 0 x
⇒ F ( x) = x 2 / 16 .
Inciso b)
Hallar “a” tal que P(X ≤ a) = 0.81 = 81%.
Acabamos de encontrar la función de distribución en el inciso a).
Reemplazemos en dicha función “x” por “a”:
F(a) = P(X ≤ a). Luego,
F(a) = a2/16 ⇒ a2/16 = 0.81, de donde: a = 16(0.81) = 12.96 = 3.6.
3) En cada caso, hallar c para que la función f(x) sea de densidad en el intervalo dado.
Hallar F(x):
a) f(x) = cx(4-x), 0 ≤ x ≤ 4.
3 3 1
Rpta.: f ( x) = x(4 − x) ; F ( x) = x 2 − x 3
32 16 32
b) f(x) = c/[(1+x)3], 0 ≤ x ≤ ∞.
2 1
Rpta.: f ( x) = 3
; F ( x) = 1 −
(1 + x) (1 + x) 2
1 − cx
c) f(x) = e , 0 ≤ x ≤ ∞.
2
1
Rpta.: f ( x) = e − x / 2 ; F ( x) = 1 − e − x / 2
2
3
d) f(x) = cx 2e − x , 0 ≤ x ≤ ∞.
3 3
Rpta.: f ( x) = 3 x 2 e − x ; F ( x) = 1 − e − x
π π
e) f(x) = c cosx, −≤x≤
2 2
1
Rpta.: f(x) = cosx
2
1
F ( x) = ( senx + 1)
2
4) La cantidad de roca (en toneladas) extraída por una máquina autopropulsada en un
conjunto de semanas es una variable aleatoria continua que se distribuye con la
siguiente función de densidad:
3
f (x) = (1 − x 2 ), 0 ≤ x ≤ 1
2
f ( x) = 0 , en otro caso.
Hallar:
a) La función de distribución.
3 x3
[Rpta.: F (x) = ( x − ), 0 ≤ x ≤ 1 ; F (x) = 0, x < 0 ; F ( x) = 1 , x > 1].
2 3
b) El valor esperado de X. (Rpta.: 0.375).
c) La media de X2. (Rpta.: 0.2).
d) La varianza de X. (Rpta.: 0.0594).
e) La desviación estándar de X. (Rpta.: 0.24).
f) La cantidad máxima de roca extraída, a lo más en el 70% de las semanas.
3 x3
(Sugerencia: Resolver la ecuación ( x − ) = 0.7).
2 3
5) Verifique las propiedades de una función de densidad, utilizando la información de la
pregunta 4).
MODELOS DE PROBABILIDAD
Se trata de estudiar las relaciones entre los valores de una variable aleatoria y las
probabilidades de que su ocurrencia puedan resumirse mediante la distribución de
probabilidad. Las distribuciones de probabilidad de muchas variables aleatorias de interés
pueden determinarse o asumirse sobre la base de consideraciones teóricas. Existen dos
tipos de modelos de probabilidad de una variable aleatoria, según que ésta sea discreta o
continua.
DISTRIBUCIÓN BINOMIAL
1°) En cada ensayo ocurre uno de dos posibles resultados, mutuamente excluyentes. A
cualquiera de ellos se le llama, arbitrariamente, “éxito” y al otro “fracaso”.
n=6
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
n=7
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
n=8
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
n=15
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
n=19
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
n=25
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
EJEMPLO 1:
Se sabe que el 40% de un conjunto de vehículos pasa la prueba de emisiones. Si se
considera que el número de vehículos que pasa la prueba de emisiones en una muestra de
8 vehículos sigue una distribución binomial, ¿cuál es la probabilidad de que dicha muestra
contenga exactamente 3 vehículos que pasan la prueba de emisiones?
SOLUCIÓN:
X: Número de vehículos que pasan la prueba de emisiones.
Según datos de este ejemplo, X ~ B(n = 8, p = 0.40)
La probabilidad de que un vehículo pase la prueba de emisiones, p, es igual a 0.4. Por lo
tanto, q = 1 – p = 1 – 0.4 = 0.6 es la probabilidad de que el vehículo no pase la prueba de
emisiones.
La probabilidad solicitada (utilizando la función de cuantía de la distribución binomial)
es:
Este resultado se puede comprobar con el uso de la Tabla 1, para n = 8 y p = 0.40, para
cuyo efecto, reproducimos parte de la Tabla 1, del siguiente modo:
n=8
a / p 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
EJEMPLO 2:
El 15% de piezas producidas por una máquina son defectuosas. Se elige una muestra al
azar de 15 piezas. Hallar la probabilidad de que exactamente 5 sean defectuosas. (De
manera similar al Ejemplo 1, se obtiene 0.0499)
SOLUCIÓN:
X ~ B(n = 15, p = 0.15)
Haciendo uso de la Tabla 1:
P(X = 5) = P(X ≤ 5) – P(X ≤ 4)
= F(5) – F(4)
= 0.9832 – 0.9383 = 0.0449
En estos Ejemplos 1 y 2, se ha utilizado la propiedad:
P(X = a) = F(a) - F(a-1)
EJEMPLO 3:
Con los datos del Ejemplo 1, hallar P(X > 2).
SOLUCIÓN:
P(X > 2) = 1 – P(X ≤ 2) = 1 - F(2) = 1 – 0.3154 = 0.6846.
La propiedad utilizada es
P(X > a) = 1 – F(a).
EJEMPLO 4:
Hallar la media y la varianza de X, en los Ejemplos 1 y 2.
SOLUCIÓN:
Ejemplo 1:
X ~ B(n = 8, p = 0.40) ⇒ E(X) = np = 8(0.4) = 3.2; V(X) = npq = 3.2(0.6) =1.92
Ejemplo 2:
X ~ B(n = 15, p = 0.15) ⇒ E(X) = 15(0.15) = 2.25; V(X) = 2.25(0.85) = 1.9125
EJEMPLO 5:
Cierto domingo, en el 85% de las familias de Trujillo Metropolitano, algún miembro está
en casa. Un equipo de investigación sanitaria selecciona una muestra aleatoria de 12
familias para realizar una encuesta por teléfono. Calcular la probabilidad de que el equipo
encuentre a alguien en casa en:
a) 7 familias exactamente 0.0193
b) 5 familias o menos 0.0007
c) 8 o más familias 0.9761
EJERCICIOS
DISTRIBUCIONES DE PROBABILIDAD
CONTINUA
DISTRIBUCIÓN NORMAL
Una variable aleatoria continua X, que se distribuye según la normal con parámetros
µ y σ2, denotado como
X ~ N(µ, σ2),
tiene la siguiente función de densidad:
2
1 x−µ
1 −
f ( x) = e 2 σ
, - ∞ < x < ∞, - ∞ < µ < ∞; σ2 > 0.
σ 2π
Los parámetros µ y σ2 representan la media y la varianza de X, respectivamente. Es
decir, E(X) = µ y V(X) ) = σ2.
REPRESENTACIÓN GRÁFICA DE LA
DISTRIBUCIÓN NORMAL PARA CIERTOS
VALORES DE LOS PARÁMETOS µ Y σ2
f(x) µ = -4
σ = 0.5 µ=3
µ=0
σ=1
σ=1.5
-4 0 3
X ~ N(µ, σ2)
X −µ
Z=
σ
Z ~ N(0, 1)
Según esto, se tiene:
E(Z) = 0 (media de Z)
V(Z) = 1 (varianza de Z)
DE(Z) = 1 (desviación estándar de Z)
-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
-0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
P(Z ≤ -1.14) = 0.1271 , que lo podemos denotar como Z0.1271 = -1.14. A este valor se le llama “percentil 12.71”
P(Z ≤ 1.96) = 0.9750, que lo podemos denotar como Z0.9750 = 1.96. A este se le llama “percentil 97.50”.
EJEMPLOS:
Solución:
Datos:
X ~ N(10,2.12), donde
X: radio de engranajes (milímetros)
Solución:
X − µ 11 − µ 11 − 10
P(X ≥ 11) = 1 – P(X ≤ 11) = 1 - P( ≤ ) = 1 - P( Z ≤ )
σ σ 2.1
= 1 - P ( Z ≤ 0.48) = 1 - 0.6844 = 0.3156 (según la Tabla 2).
b) P(7.6 ≤ X ≤ 12.2). (Rpta.: 0.7260).
Solución:
X −µ 12.2 − µ X − µ 7.6 − µ
= P( ≤ ) - P( ≤ )
σ σ σ σ
X − µ 12.2 − 10 X − µ 7.6 − 10
= P( ≤ ) - P( ≤ )
σ 2 .1 σ 2.1
12.2 − 10 7.6 − 10
= P( Z ≤ ) - P( Z ≤ )
2.1 2.1
= P(Z ≤ 1.05) - P(Z ≤ -1.14)
Solución:
X −µ 33.7 − µ 33.7 − 50.1
P(X ≤ 33.7) = P( ≤ ) = P(Z ≤ ) = P(Z ≤ -1.58) =
σ σ 10.4
0.0571
“La probabilidad de que el consumo de energía del taller de mecánica en el mes
dado, esté por debajo de 33.7 Kw/a, es igual a 0.0571 ó 5.71%”
3) Usando la Tabla 2, hallar
Solución:
P(0.40 < Z < 1.96) = P(Z < 1.96) – P(Z < 0.40) = 0.9750 – 0.6554 = 0.3196
“El área (la probabilidad) bajo la curva de la distribución normal estándar,
comprendida entre los percentiles de dicha distribución 0.40 y 1.96 es igual
a 0.3196 ó 31.96%”.
Solución:
P(-1.75 < Z < -0.28) = P(Z < -0.28) – P(Z < -1.75) = 0.3897 – 0.0401 =
0.3496
Solución:
P(-3.32 < Z < 0.11) = P(Z < 0.11) – P(Z < -3.32) = 0.5438 – 0.0005 =
0.5433
EJERCICIOS
Solución:
P(Z > Z0) = 1 – P(Z ≤ Z0) ⇒ 0.6331 = 1 – P(Z ≤ Z0) ⇒ P(Z ≤ Z0) = 1 – 0.6331
P(Z ≤ Z0) = 0.3669 ⇒ Z0 = -0.34
d) P(Z < Z0) = 0.0392; e) P(Z < Z0) = 0.6064; f) P(Z < Z0) = 0.5517;
Solución:
Z0=-1.76 (inciso d); Z0=-0.27 (inciso e); Z0=0.13 (inciso f): Uso directo de la
Tabla 2
g) P(-Z0 < Z < Z0) = 0.4778. Ilustrar con un gráfico
Solución:
P(-Z0 < Z < Z0) = P(Z < Z0) – P(Z < - Z0)
= P(Z < Z0) – {1 - P(Z < Z0)} = P(Z < Z0) – 1 + P(Z < Z0) =
⇒ P(-Z0 < Z < Z0) = 2 P(Z < Z0) -1, sacando extremos
1+ 0.4778
⇒ P(Z < Z0) = = 0.7389 ⇒ P(Z < Z0) = 0.7389 ⇒ Z0 = 0.64 (“el
2
percentil 73.89 es igual a 0.64”).
Representación gráfica:
0.7389
0.2611 0.2611
0.4778
Z~N(0,1
Z0= z=0.64 Z ~ N(0,1)) -0.64 0.64
)
Guía de solución:
0.56 − 0.55 0.53 − 0.55
• Inciso a: P(0.53 ≤ X ≤ 0.56) = P(Z ≤ ) – P(Z ≤ )
0.013 0.013
= P(Z ≤0.77) – P(Z ≤-1.54) =
• Inciso b: P(X > 0.51)
Guía de solución:
• Inciso a: P(X ≥ 4)
• Inciso b: P(2 ≤ X ≤ 3)
Guía de solución:
P(X < 0.4375)
Guía de solución:
a)
- Fluorescente estándar:
- Nuevo fluorescente:
b)
- Fluorescente estándar:
- Nuevo fluorescente:
DISTRIBUCIÓN T DE STUDENT
n=30
n=5
n=2
X~t(n)
0
Cuando n ∞, t(n) Z
“A medida que aumentan los grados de libertad, la distribución t se aproxima a
la distribución normal estándar”.
X
0
MEDIA Y VARIANZA DE UNA VARIABLE CON DISTRIBUCIÓN t DE
STUDENT
n
E(X) = 0; V(X) = , n>2
n−2
160 0.2538 0.5255 0.8439 1.2869 1.6545 1.9749 2.350 2.6070 3.3527
180 0.2537 0.5253 0.8436 1.2863 1.6534 1.9733 2.347 2.6035 3.3456
200 0.2537 0.5252 0.8434 1.2858 1.6525 1.9719 2.345 2.6006 3.3400
Esto significa que P(X ≤ 2.0452) = 0.9750, donde X~t(29). También podemos
afirmar que el percentil 97.5 de una distribución t de Student con 29 grados de
libertad es igual a 2.0452.
Los percentiles de esta distribución son los valores que se encuentran en el interior
del rectángulo de la Tabla 3.
En otro ejemplo, el percentil 95 (la probabilidad acumulativa es igual a 0.95) de la
distribución t de Student con 3 grados de libertad es igual a 2.3534. En base a esto,
tenemos la siguiente notación:
t(3,0.95) = 2.3534
Propiedad:
t[n; F(x)] = - t[n; 1 – F(x)],
donde t[n; F(x)] representa el percentil de la distribución t de Student para n grados de
libertad y una probabilidad igual a la función de distribución en dicho percentil. Esta
propiedad se la puede utilizar para encontrar percentiles de la distribución t de
Student, cuando las probabilidades acumulativas son pequeñas e inferiores a
0.60.
EJEMPLOS:
Hallar el valor de x (percentil) de la distribución t de Student en los siguientes casos,
haciendo uso de la tabla de la distribución t de Student (Tabla 3). Realizar la
representación gráfica en cada caso:
0.99
0.05 0.05
x X~ t(3)
x=2.462 X ~ t(29) -2.3534
En el inciso a), podemos escribir:
P(X ≤ x) = 0.99 ⇒ x = 2.462 (percentil 99)
Más explícitamente, se tiene: P(X ≤ 2.462) = 0.99
Se puede tener una mejor visualización de la gráfica, haciendo uso del programa
estadístico “MINITAB 16”, tal como se muestra a continuación:
Gráfica de distribución
T, df=29
0.4
0.99
0.3
Densidad
0.2
0.1
0.0
0 2.462
X
Ejercicio:
Usar la tabla de la distribución t de Student (Tabla 3) y obtenga los siguientes percentiles:
a) t(40,0.90)
b) t(2,0.995)
c) t(29,0.01)
d) t(200,0.0005)
La representación gráfica de los incisos a) y d) se exhiben a continuación (con asistencia
de MINITAB 16):
Gráfica de distribución
T, df=40
0.4
0.3
0.9
Densidad
0.2
0.1
0.0
0 1.303
X
inciso a)
Gráfica de distribución
T, df=200
0.4
0.3
Densidad
0.2
0.1
0.0005
0.0
-3.340 0
X
INFERENCIA ESTADÍSTICA
ESTIMACIÓN DE PARÁMETROS
PARÁMETRO:
Un parámetro es cualquier característica de la población. Generalmente, un parámetro
se denota por la letra griega θ . Por ejemplo, son parámetros:
ESTIMADOR DE UN PARÁMETRO:
Es una función de las n observaciones de la muestra. Las observaciones muestrales las
representaremos por: x1 , x 2 , …, x n . A n lo denominamos tamaño de la muestra. El
estimador de un parámetro puede ser de dos clases:
I. Estimador puntual:
Media muestral:
n
∑x i
x = i =1
Proporción muestral:
a
p=
n
donde a representa el número de elementos en la muestra que poseen alguna
característica de interés y n es el tamaño de la muestra. Por ejemplo, la
característica de interés puede ser que el elemento en la muestra sea: hombre, malo
(o defectuoso), aprobado, izquierdo, etc. Para tales características, existe la
característica complementaria, que indica una cualidad opuesta a la característica
de interés. Así, para nuestros ejemplos, las características complementarias son de
que el elemento en la muestra sea mujer, bueno (o no defectuoso), desaprobado y
derecho, respectivamente.
Varianza muestral:
n
∑ (x i − x) 2
s2 = i =1
.
n −1
σ
µ = x±Z α ( )
1−
2 n
α
probabilidad igual a 1 − (el valor de Z α se lo busca en la Tabla 1). La
2 1−
2
forma completa de dicho intervalo de confianza es la siguiente:
σ σ
x−Z α . < µ < x+Z α .
1−
2 n 1−
2 n
σ
LS µ = x + Z α .
1−
2 n
σ
LI µ = x − Z α .
1−
2 n
[ LI µ ; LS µ ]
n
2) Si > 0.05
N
Asumiremos en esta situación que el tamaño de la muestra es grande o que
el tamaño de la población es pequeño y conocido. El intervalo de confianza
de la media poblacional es:
σ N −n
µ = x±Z α .
1−
2 n N −1
N −n
A la expresión se la denomina factor de corrección.
N −1
Ejemplo:
Se desea estimar la resistencia media a la compresión (en lb/pulg2) de muestras de una
aleación de aluminio en desarrollo como material para aeronaves, en base a una
muestra aleatoria de tamaño 58, la que arroja las siguientes característica muestrales:
x =69.8 lb/pulg2, s=0.8 lb/pulg2. Utilizar una confianza del 90% para realizar esta
estimación.
Solución:
s 0.8 0.8
µ = x ± Z α . = 69.8 ± Z 0.10 . = 69.8 ± Z (1−0.05 ) .
1−
2
n 1−
2
58 58
0. 8 0 .8
= 69.8 ± Z (0.95 ) . = 69.8 ± [(1.64) ] = 69.8 ± 0.17 (1.64 se busca en la Tabla 2 de
58 58
la distribución normal estándar para una probabilidad de 0.95).
Interpretación:
Nota:
Si la confianza fuese del 95%, la probabilidad utilizada será igual a 0.975, para la cual
el percentil 97.5 en la Tabla 2, es igual a 1.96. En cuyo caso, los respectivos límites
confidenciales del 95% son los siguientes:
LI µ = 69.60 lb/pulg2
LS µ = 70.00 lb/pulg2
Ejercicios:
Solución:
Datos:
α
n=8; 1 − α =0.99 (1- = 0.995),
2
t(7; 0.995) = 3.5 (Tabla 2).
s 0.334
µ = x ± t α .
= 0.885 ± 3.5 = 0.885 ± 0.41
n −1, 1−
2
n 8
0.475 < µ < 1.295
3. Construir un intervalo de confianza del 97% para la cantidad media por día de óxido
de azufre (en T.M.) de una planta industrial, durante 80 días, utilizando la siguiente
muestra aleatoria de 11 días de emisión: 22.3, 14.5, 21.4, 22.7, 13.9, 23.7, 15.2, 20.1,
73.1, 71.6, 70.5. Suponer distribución normal de los ingresos de todos los odontólogos
de la ciudad.
Casos:
a. n/N ≤ 0.05 o N desconocido:
pq
P= p±Z α
1−
2
n
pq
En esta expresión, el margen de error está dado por E = Z α ,
1−
2
n
donde q = 1 − p
pq N −n
P= p±Z α
1−
2
n n −1
pq N −n
donde q = 1 − p . Para este caso, el margen de error será: E = Z α
1−
2
n n −1
Ejemplo:
En una muestra aleatoria de 95 taxistas que trabajan en la ciudad de Trujillo, 13
resultaron ser de nacionalidad extranjera. Estimar, puntual y confidencialmente (con
el 95% de confianza), la verdadera proporción de taxistas extranjeros que trabajan en
la ciudad de Trujillo, asumiendo que en la ciudad de Trujillo existen, actualmente, 1500
taxistas Rpta.: (0.13, 0.31).
Solución:
Característica de interés: el taxista es de nacionalidad extranjera.
α
N = 1500, n = 95; 1 − α =0.95; 1- =0.975; Z0.975=1.96 (se busca en la Tabla 2).
2
n/N = 95/1500 = 0.06 > 0.05, a = 13 . Estamos en el caso del inciso b.
a 13
Pˆ = p = = = 0.14
n 95
pq N −n 0.14(0.86) 1500 − 95
P= p±Z α = 0.14 ± 1.96 = 0.14 ± 0.27
1−
2
n n −1 95 95 − 1
Solución:
pq pq 0.25(0.75)
P= p±Z α⇒ P= p±Z α = 0.25 ± 2.33
1−
2
n 1−
2
n 80
= 0.25 ± 0.11 ⇒ 0.14 < P < 0.36
Solución:
n = 1068 ; a = 673 ;
a 673
p= = = 0.6301
n 1068
Solución:
pq pq 0.6301(0.3699)
P= p±Z α ⇒ P= p±Z α = 0.6301 ± 1.96
1−
2
n 1−
2
n 1068
= 0.6301 ± 0.0290 ⇒ 0.6010 < P < 0.6591
Nota:
A continuación se presenta la numeración de las tablas utilizadas en nuestros ejemplos y/o
ejercicios:
Distribución Tabla
Binomial Tabla 1
Normal estándar Tabla 2
t de Student Tabla 3
Casos:
σ 12 σ 22
µ1 - µ 2 = ( x1 - x 2 ) ± Z α +
1−
2
n1 n2
Ejemplo:
Solución:
81 64
µ1 - µ 2 = (70 – 60) ± 1.96 +
15 20
µ1 - µ 2 ∈ [4.25, 15.75]. “La verdadera diferencia entre los puntajes promedio de los
postulantes de ambas ciudades, está comprendida entre 4.25 y 15.75, con un 95% de
confianza”.
Ejercicio:
Resuelva el ejemplo precedente si, en las ciudades A y B, los tamaños de muestra son
iguales a 12 y 8, las medias muestrales son 90 y 70 y las desviaciones estándar
poblacionales son 11 y 12, respectivamente, y la confianza es del 99%. Interprete.
(Rpta.: µ1 - µ 2 ∈ [6.33, 33.67]).
1 1
µ1 - µ 2 = ( x1 - x 2 ) ± t α sp + ,
( n1 + n2 − 2;1− )
2
n1 n2
Ejemplo:
Característica Procedimiento
mustreal A B
n 18 24
x 2.1 2.5
s 2
0.42 0.62
Solución:
sp = 0.535 = 0.73
1 1
µ1 - µ 2 = ( x1 - x 2 ) ± t α sp +
( n1 + n2 − 2;1− )
2
n1 n2
1 1
= (2.1 -2.5) ± (2.704)(0.73) +
18 24
Ejercicio:
Resuelva el ejemplo anterior si, para los procedimientos A y B, los tamaños de muestra
son iguales a 21 y 11, las medias muestrales son 1.9 y 1.3 y las desviaciones estándar
muestrales son 0.84 y 0.59, respectivamente. Asumir igualdad de varianzas
poblacionales y una confianza del 90%. (Rpta.: µ1 - µ 2 ∈ [0.12, 1.08]).
s12 s 22
µ1 - µ 2 = ( x1 - x 2 ) ± t α + ,
( GL ;1− )
2
n1 n2
s12 s 22 2
( + )
n n2
GL = 2 1 −2
s1 2 s 22 2
( ) ( )
n1 n
+ 2
n1 + 1 n2 + 1
Ejemplo:
Solución:
s12 s 22
µ1 - µ 2 = ( x1 - x 2 ) ± t α +
( GL ;1− )
2
n1 n2
0.0028 0.0032
= (0.33 – 0.25) ± t ( 72;0.975) +
3 7
= 0.08 ± 1.9932(0.0373)
µ1 - µ 2 ∈ [0.01, 0.15]
Nota:
x − 1.994 72 − 70
= ⇒ x = 1.9932
1.994 − 1.990 70 − 80
Ejercicio:
. . . .
n x1n X2n dn = x1n – x2n
Total n n n
∑ x1i
i =1
∑ x 2i
i =1
∑d
i =1
i
sd
µ1 - µ 2 = d ± t α ,
( n −1;1− )
2 n
donde:
n
∑d i
d = i =1
: media muestral de las diferencias muestrales di, i=1, 2, ...,n.
n
y
n
(∑ d i ) 2
1 n
s d2 = [∑ d i2 − i =1
] : varianza muestral de las diferencias muestrales di,
n − 1 i =1 n
i=1, 2, ...,n.
Ejemplo:
Total n n n
∑x
i =1
1i ∑x
i =1
2i ∑d
i =1
i
Hallar el intervalo de confianza del 95% para la diferencia desgaste medio de ambos
tipos de llanta.
Solución:
sd
µ1 - µ 2 = d ± t α
( n −1;1− )
2 n
n
∑d i
2.4
d = i =1
= = 0.48
n 5
n
(∑ d i ) 2
1 n
s d2 = [∑ d i2 − i =1
] = 0.0056
n − 1 i =1 n
sd = 0.0056 = 0.0748
sd 0.0748
µ1 - µ 2 = d ± t α = 0.48 ± 2.776( ) = 0.48 ± 0.09
( n −1;1− )
2 n 5
µ1 - µ 2 ∈ [0.39, 0.57]
Ejercicio:
Obtener un intervalo de confianza del 99% para la verdadera diferencia entre las
concentraciones medias de zinc de ambos lugares del río.
p1 (1 − p1 ) p 2 (1 − p 2 )
P1 − P2 = ( p1 − p 2 ) ± Z α +
1−
2
n1 n2
Ejemplo:
Solución:
Datos:
α
n1 = 341 ; a1 = 41 ; n2 = 438 ; a 2 = 71 ; p1 = 0.12 ; p 2 = 0.16 ; 1 − = 0.975
2
p1 (1 − p1 ) p 2 (1 − p 2 )
P1 − P2 = ( p1 − p 2 ) ± Z α +
1−
2
n1 n2
0.12(1 − 0.12) 0.16(1 − 0.16)
= (0.12 − 0.16) ± 1.96 +
341 438
P1 - P2 ∈ [0.09, 0.19]
Ejercicio:
Guía de solución:
α
1− = 0.995 ; Z α = Z 0.995 = 2.58 (se busca en la Tabla 2: Probabilidades acumulativas
2 1−
2
de la distribución normal estándar).
Las ideas fundamentales de la prueba de hipótesis las daremos en los casos que
consideraremos a continuación:
Ejemplo:
• Y si la referida prueba hubiera sido bilateral (o de dos colas), las hipótesis deberían
haberse formulado así:
H 0 : µ = µ 0 = 55 versus H 1 : µ ≠ µ 0 = 55).
PASO 2:
x−µ
EP : Z = ~ N (0,1)
s/ n
b) n < 30 (muestras pequeñas):
b1) σ2 conocida:
x−µ
EP : Z = ~ N (0,1)
σ/ n
b2) σ2 desconocida:
x−µ
EP : t = ~ t (n −1)
s/ n
x−µ
EP : Z = ~ N (0,1)
s/ n
PASO 4:
DETERMINACIÓN DE LA REGIÓN DE RECHAZO (RR) Y DE LA REGIÓN DE ACEPTACIÓN
(RA)
La Región de Rechazo, llamada también Región Crítica, es el conjunto de valores de
la prueba estadística, para los cuales se rechaza la hipótesis nula. Al complemento
de esta región se la denomina Región de Aceptación y es el conjunto de valores de la
prueba estadística para los cuales no se rechaza la hipótesis nula. Debido a esto, se
dice que ambas regiones son complementarias. La Región de Rechazo depende de:
• La prueba estadística ( EP )
• El nivel de significación (α)
• La hipótesis alternativa ( H 1 )
Las distintas alternativas de ambas regiones (RR y RA), para el caso de la prueba de
hipótesis acerca de la media poblacional, con Z como prueba estadística, se puede
ilustrar del siguiente modo:
𝛼𝛼 1 − 𝛼𝛼
RR RA Z
c
c = Zα
1 − 𝛼𝛼 𝛼𝛼
RA c RR Z
c = Z 1−α
RR = {Z: Z ≥ c}
y
RA = {Z: Z < c}
𝛼𝛼 𝛼𝛼
2 1 − 𝛼𝛼 2
Z
RR -c RA c RR
RR = {Z: Z ≤ - c ó Z ≥ c}
y
RA = {Z: -c < Z < c}
Nota:
Si la prueba estadística utilizada fuera la t de Student, en vez de Z, el punto
crítico, la región de rechazo y la región de aceptación, serán los siguientes, para
cada uno de los casos anteriores (1), (2) y (3):
𝛼𝛼 1 − 𝛼𝛼
RR RA t
c
c = t ( n −1; α )
RR = {t: t ≤ c}
y
RA = {t: t > c}
1 − 𝛼𝛼 𝛼𝛼
RA c RR
t
c = t ( n −1; 1−α )
RR = {t: t ≥ c}
y
RA = {t: t < c}
𝛼𝛼 𝛼𝛼
2 1 − 𝛼𝛼 2
t
RR -c RA c RR
c= t α
( n −1;1− )
2
RR = {t: t ≤ - c ó t ≥ c}
y
RA = {t: -c < t < c}
1 − 𝛼𝛼 = 0.95 𝛼𝛼 = 0.05
RA c
Z
RR
PASO 5:
CÁLCULO DEL VALOR DE LA PRUEBA ESTADÍSTICA ( EP0 )
x − µ0 56 − 55
EP0 = Z 0 = = = 4.19
s/ n 1.6 / 45
PASO 6:
REGLA DE DECISIÓN:
• Si EP0 ε RR se decide rechazar H 0
• Si EP0 ε RA decidimos no rechazar H 0
1 − 𝛼𝛼 = 0.95 𝛼𝛼 = 0.05
RA c=1.64 RR
Z
EP0 = 4.19 ε RR
H 0 : µ = µ 0 = 55 versus H 1 : µ > µ 0 = 55
Por lo tanto, decidimos rechazar la hipótesis nula, para cuyo entendimiento hemos
reproducido, nuevamente, las hipótesis de nuestro ejemplo, después de la figura. En
otras palabras, existe suficiente evidencia de que la temperatura media de
activación de los regadores automáticos es mayor que 55 Grados Celsius. Para un
mejor entendimiento de esta conclusión, reproducimos nuevamente el enunciado
del problema:
“Se desea probar la hipótesis de que la temperatura media de activación de
regadores automáticos para extinguir incendios en talleres mecánicos es igual a 55
Grados Celsius. Para esto, se extrae una muestra aleatoria de 45 regadores
automáticos y resulta que la temperatura muestral de activación es de 56 Grados
Celsius, con una varianza de 2.56 Grados Celsius2. Asumiendo distribución normal de
las temperaturas de activación con varianza desconocida. ¿Es la temperatura media
de activación de los regadores automáticos mayor que 55 Grados Celsius?. Realizar
la prueba con el 5% de significancia”.
Nota 2:
• Abrir una hoja de cálculo de Excel e ingresar los datos muestrales en una
columna.
=promedio()enter
=var.s()enter
=desvest.m()enter
Ejercicios:
1) Probar la hipótesis de que la verdadera distancia media (en miles de kilómetros) de
cierto tipo de llanta vehicular es igual a 25, contra la hipótesis alternativa de que
tal media es diferente a 25, tomando una muestra aleatoria de 20 llantas, extraída
de una distribución de población normal con varianza poblacional igual a 2.25,
cuya media muestral es igual a 21. El nivel de significación es igual a 1%.
Solución:
Datos:
n = 20; media muestral = 21; desviación estándar poblacional = 1.5; alfa = 0.01
PASO 1:
PASO 2:
α = 0.01
PASO 3:
x−µ
EP : Z = ~ N (0,1)
σ/ n
PASO 4:
H 0 : µ = 25 = µ 0 versus H1 : µ ≠ µ 0 = 25
𝛼𝛼
𝛼𝛼 = 0.005
= 0.005 2
2 1 − 𝛼𝛼 = 0.99
Z
RR -c=-2.58 RA c=2.58 RR
RA = {Z:-2.58<Z<2.58}
PASO 5:
x − µ0 21 − 25
EP0 = Z 0 = = = −11.92
σ/ n 1.5 / 20
PASO 6:
REGLA DE DECISIÓN:
Como -11.92 pertenece a la región de rechazo (ver figura del PASO 4), decidimos
rechazar la hipótesis nula. Por lo tanto, concluimos que la verdadera distancia
media difiere de 25.
2) Una bomba de pistón es una bomba hidráulica que se utiliza para bombear el fluido
hidráulico que después accionará los diversos mecanismos (por ejemplo, motores
hidráulicos, cilindros hidráulicos, etc.). Una de las características fundamentales de
la bomba es el número de recorridos por minuto, el cual se distribuye
normalmente, pero con media desconocida. Suponer que la bomba no se utilizará
si este promedio es menor que 30. Se sabe también que la varianza poblacional es
desconocida. Formular y probar las hipótesis apropiadas, utilizando los siguientes
datos muestrales, con un 5% de significación: 21.5, 18.3, 31.7, 16.0, 41.3, 18.3,
32.5, 23.5, 41.7, 16.0, 19.4, 35.0, 17.1, 51.0, 28.0, 35.0, 20.0, 54.4, 17.8, 30.0, 40.0,
20.8, 14.5, 57.0, 31.6, 18.1, 15.5, 14.1, 18.2, 17.8, 21.0, 20.8, 31.7, 30.0, 36.7, 40.0,
55.0, 51.8, 50.0, 47.5, 33.5, 33.9, 35.0, 28.3, 27.5, 27.5, 20.0, 17.5, 19.2, 16.9, 19.0,
16.7
Solución:
n=52
PASO 1:
H 0 : µ = µ 0 = 30 versus H 1 : µ < µ 0 = 30
PASO 2:
α = 0.05
PASO 3:
x−µ
EP : Z = ~ N (0,1)
s/ n
PASO 4:
𝛼𝛼 1 − 𝛼𝛼
RR RA Z
c
c = -1.64
RR = {Z: Z ≤ - 1.64}
y
RA = {Z: Z > -1.64}
28.76 − 30
(5) EP : t 0 = = −0.7291
12.2647 / 52
(6) El valor de de la prueba estadística (-0.7291) pertenece a la Región de
Aceptación. En consecuencia, no existen evidencias suficientes que
indiquen que el número medio de carreras por minuto de la bomba es
inferior a 30 y, por tanto, la bomba no debe ser utilizada.
Guía de solución:
El valor de la prueba estadística es igual a 0.36; la prueba es unilateral hacia la
derecha; el punto crítico es igual a 2.821; se decide no rechazar la hipótesis nula.
Supuesto:
np ≥ 5, nq ≥ 5, q = 1 - p
El procedimiento para realizar una prueba de hipótesis acerca de la proporción
poblacional es el mismo que para el caso de la media poblacional. La prueba
estadística que se utiliza en este caso (PASO 3) es la siguiente:
p−P
EP : Z = ~ N (0,1)
P(1 − P ) / n
Ejemplo:
Solución:
Datos:
a 227
p= = = 0.37 (proporción muestral de pacientes cuya lesión ocular tuvo al
n 606
metal como agente causal).
PASO 1:
la derecha)
PASO 2:
α = 0.01
PASO 3:
p−P
EP : Z = ~ N (0,1)
P(1 − P ) / n
PASO 4:
0.99 0.01
Z
RA C=2.33 RR
p − P0 0.37 − 0.35
EP0 = Z 0 = = = 1.03
P0 (1 − P0 ) / n 0.35(1 − 0.35) / 606
PASO 6:
Ejercicios:
1) Se informa que por lo menos el 85% de todos los pedidos de insumos (soldaduras,
fierro, etc.) que se reciben en un taller de mecánica se hacen con más de dos horas
de retraso. Si P representa la real proporción de tales pedidos que se reciben con
más de dos horas de retraso, probar la hipótesis nula de que P = 0.85 frente a una
alternativa de cola inferior, utilizando una muestra aleatoria de tamaño 315, en
la que 220 pedidos se comprobó que son entregados con más de dos horas de
retraso. Utilizar un nivel de significación del 5%. (Rpta.: Se rechaza la hipótesis
nula; el valor observado de la prueba estadística es igual a -5.56 y el punto crítico
es igual a -1.64).
Solución:
PASO 1:
la izquierda)
PASO 2:
α = 0.05
PASO 3:
p−P
EP : Z = ~ N (0,1)
P(1 − P ) / n
PASO 4:
PASO 5:
PASO 6:
2) Formular la hipótesis nula (H0) y la hipótesis alternativa (H1) en cada una de las
siguientes situaciones:
a) La proporción de estudiantes de una población encuestada que han enviado
mensajes durante un examen es mayor que 0.20.
b) La proporción de estudiantes de la UNT que recibe clases virtuales en su
celular difiere de 0.50.
3) Una empresa de manufactura de bombas de pistón, considera que, al venderlas,
los clientes solicitarán reparación de la bomba cuando menos, después de 5 años
de uso. Para ver la factibilidad de esta solicitud, se selecciona una muestra
aleatoria de 114 clientes que compraron la bomba de pistón, encontrándose que
84 solicitaron su reparación cuando menos, después de 5 años de uso. Averiguar
si la proporción poblacional de clientes que solicitan reparación de la bomba de
pistón cuando menos después de 5 años de uso, es inferior a 0.82, con un nivel
de significación de 0.10.
Casos:
Prueba estadística:
(media1 − media 2) − ( µ1 − µ 2 )
Z=
σ 12 σ 22
+
n1 n2
Ejemplo:
Solución:
Regla de decisión:
Nota:
Ejercicio:
Solución:
Regla de decisión:
Solución:
Regla de decisión:
Hipótesis nula:
H0: µ1 − µ 2 = 0
Prueba estadística:
(media1 − media 2) − ( µ1 − µ 2 )
t=
1 1
sp +
n1 n2
Ejemplo:
Característica Procedimiento
muestral A B
n 18 24
x 2.1 2.5
s 2
0.42 0.62
Presentan los datos muestrales suficiente evidencia para concluir que existe diferencia
significativa entre los porcentajes promedio del contenido de ceniza en ambos
procedimientos, con el 5% de significancia?. Suponer distribución normal de los
porcentajes del contenido de ceniza en ambos tipos de procedimiento e iguales
varianzas poblacionales pero desconocidas.
Solución:
sp = 0.535 = 0.73
H0: µ1 − µ 2 = 0; H1: µ1 − µ 2 ≠ 0
Prueba estadística:
Puntos críticos:
Regla de decisión:
t 0 RA. Por lo tanto, se decide no rechazar la hipótesis nula y se concluye que los
datos no presentan evidencia de que las medias poblacionales son estadísticamente
diferentes, con un 5% de significancia.
Ejercicio:
Nota:
Hipótesis nula:
H0: µ1 − µ 2 = 0
Prueba estadística:
(media1 − media 2) − ( µ1 − µ 2 )
t=
s12 s 22
+
n1 n2
s12 s 22 2
( + )
n n2
GL = 2 1 −2
s1 2 s 22 2
( ) ( )
n1 n
+ 2
n1 + 1 n2 + 1
Ejemplo:
Solución:
Puntos críticos:
Nota:
Otro enfoque, distinto al del método de interpolación para hallar algún valor de la tabla
que no se encuentre en la misma, consiste en utilizar el valor más cercano o próximo.
Por ejemplo, en este caso, como no hay en la tabla los 72 grados de libertad, podemos
utilizar, APROXIMADAMENTE, el valor más próximo de dicha tabla, que
corresponde a 70 (el cual sí está en la tabla de la distribución t de Student; para el cual,
los valores críticos serán de 1.994 y -1.994).
Regla de decisión:
t 0 ∈ RR. Por lo tanto, se decide rechazar la hipótesis nula y se concluye que existe
diferencia significativa entre las medias poblacionales, con un 5% de significación.
Notemos que el intervalo de 95% de confianza para la diferencia de medias es el que
se obtuvo anteriormente: µ1 - µ 2 ∈ [0.01, 0.15], el cual no contiene a 0, ratificándose
que existe una relación entre los intervalos de confianza y las pruebas de hipótesis
bilaterales.
Ejercicio:
∑x
i =1
1i ∑x
i =1
2i ∑d
i =1
i
∑d i
d = i =1
: media muestral de las diferencias muestrales di, i=1, 2, ...,n.
n
y
n
(∑ d i ) 2
1 n
s d2 = [∑ d i2 − i =1
] : varianza muestral de las diferencias muestrales di,
n − 1 i =1 n
i=1, 2, ...,n.)
Hipótesis nula:
H0: µ1 − µ 2 = 0
Prueba estadística:
( d ) − ( µ1 − µ 2 )
t=
s d2
n
la cual se distribuye según la t de Student con n – 1 grados de libertad.
Ejemplo:
Total n n n
∑ x1i
i =1
∑ x 2i
i =1
∑d
i =1
i
Solución:
n
∑d i
2.4
d = i =1
= = 0.48
n 5
n
(∑ d i ) 2
1 n
s d2 = [∑ d i2 − i =1
] = 0.0056
n − 1 i =1 n
sd = 0.0056 = 0.0748
Hipótesis nula:
H0: µ1 − µ 2 = 0 (la hipótesis alternativa es bilateral)
( d ) − ( µ1 − µ 2 ) 0.48 − (0)
t0 = = = 14.34
s2
d
0.0056
n 5
Puntos críticos:
Regla de decisión:
t 0 ∈ RR. Por lo tanto, se decide rechazar la hipótesis nula y se concluye que hay
diferencia significativa entre los dos tipos de llanta, con respecto a su desgaste
promedio, al 5% de significación. A esta misma conclusión se llega, si se utiliza el
intervalo de confianza para la diferencia de medias poblacionales, ya obtenido
anteriormente: µ1 - µ 2 ∈ [0.39, 0.57], el cual no contiene a 0.
Ejercicio:
H0: P1 – P2 = 0
Supondremos que los tamaño de muestra son grandes, es decir mayores que 30.
Prueba estadística:
Las muestras son aleatorias e independientes, extraídas de ambas poblaciones y se
asume que son suficientemente grandes y de tamaños n1 y n2 . La prueba estadística es
la siguiente:
( p1 − p 2 ) − ( P1 − P2 )
Z= ,
1 1
p q( + )
n1 n2
n1 p1 + n2 p 2
p = y q =1- p
n1 + n2
Ejemplo:
Solución:
Datos:
α
n1 = 341 ; a1 = 41 ; n2 = 438 ; a 2 = 71 ; p1 = 0.12 ; p 2 = 0.16 ; 1 − = 0.975
2
n1 p1 + n2 p 2 341(0.12) + 438(0.16)
p = = = 0.14 y q = 1 - p = 0.86
n1 + n2 341 + 438
Hipótesis nula:
H0: P1 – P2 = 0 (la hipótesis alternativa es bilateral).
Puntos críticos:
Regla de decisión:
Ejercicio: