Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GRANDES
Y PEQUEÑAS
Estadística Inferencial
Bloque 2
ESTADÍSTICA INFERENCIAL
El presente material recopila una serie de definiciones, explicaciones, ejemplos y ejercicios prácticos de autores
especializados que te ayudarán a comprender los temas principales de este bloque.
Las marcas empleadas en la antología son única y exclusivamente de carácter educativo y de investigación, sin
fines lucrativos ni comerciales.
2
ESTADÍSTICA INFERENCIAL
En ambos casos, el estadístico de prueba sigue un comportamiento normal y en la t student se tiene una
curva normal o campana de Gauss escalada a menos de 30 datos, ésta es ideal para muestras iniciales
donde se quiere inferir, así como estimar los principales parámetros poblacionales con la menor cantidad
de datos; ahora bien, si se requiere mayor precisión, exactitud y confianza debe ampliarse el tamaño de
muestra a más de 30 cifras.
Los parámetros estadísticos definen las características de interés de una población, ya sea la tendencia
central (media, moda o mediana) o su dispersión (varianza, desviación estándar, error estándar o rango).
Los estimadores estadísticos permiten inferir el valor aproximado de un parámetro poblacional, a partir
de una muestra extraída de esta población. Dentro del campo de estudio de la inferencia estadística se
tienen dos tipos de estimadores, a saber:
3
ESTADÍSTICA INFERENCIAL
Los estimadores puntuales tienen la desventaja de que, al tener un sólo valor, están sujetos a la
variación que sufra el tamaño de la muestra. En el caso de los estimadores por intervalo se posee la
ventaja de que, con un cierto grado de confianza (normalmente del 95%), el parámetro poblacional se
concentre en alguno de estas dos cifras, lo que permite disponer de un grado de confianza mayor, como
consecuencia de la definición de un intervalo. Por lo tanto, se cuenta con los siguientes parámetros y
estimadores:
Media μ
Varianza S2 σ2
Desviación estándar S σ
Proporción p π
En este caso, sólo hay un valor calculado que se estima igual o muy cercano al parámetro poblacional.
4
ESTADÍSTICA INFERENCIAL
Intervalos de confianza
Donde
= media muestral
n = tamaño de la muestra
Para determinar este aspecto, se tienen al menos dos valores, entre los cuales, el parámetro poblacional
puede encontrarse con un cierto nivel de confianza. La pregunta central al estimar mediante muestras el
parámetro proporcional, es la exactitud y el grado de error que puede tener dicha estimación. A este tipo
de evaluaciones se les conoce como bondad de ajuste o confiabilidad de ajuste y están determinadas
por los siguientes elementos:
Nivel de significancia o confianza definido por Z para muestras grandes y que define los siguientes
valores para Z:
Figura 3. Principales valores para estadístico Z de acuerdo con los niveles de confianza
Error experimental que está asociado directamente al nivel de confianza, que se identifica con la
letra griega alfa (α), y para los valores ya definidos:
Si el intervalo de confianza es 90%, α es igual a 10%.
5
ESTADÍSTICA INFERENCIAL
A partir de lo anterior, se puede decir que si el valor de p > α, el estimador y el parámetro son iguales; por
el contrario, si p < α, el estimador y el parámetro son diferentes.
Otra forma de definir si el estimador y el parámetro son iguales, es mediante la ubicación del valor p
calculado en la región de aceptación o rechazo de la hipótesis cero o nula. Si el valor p está en la sección
de aceptación, el estimador y el parámetro son iguales; sin embargo, si está en la de rechazo, el estimador
y el parámetro son diferentes.
Consideremos el siguiente caso, una empresa productora de arroz en bolsas de 1 kg, ha recolectado una
muestra de 33 bolsas (muestra grande) de 1 kg en una población de 450 bolsas para verificar si siempre
se empacan “kilos de a kilo”, teniendo los siguientes datos en gramos:
6
ESTADÍSTICA INFERENCIAL
Calculemos el estimador de la media muestral puntual y el indicador de la media por intervalo; para ello,
debes tener en cuenta que el nivel de confianza o significancia es del 95%. Por lo que, primero debes
obtener la media muestral puntal mediante la siguiente fórmula:
Figura 5. Fórmulas de cálculo de los estimadores muestrales para medias y error estándar
7
ESTADÍSTICA INFERENCIAL
Para computar el estimador por intervalo de la media, usaremos la fórmula de Guamán (2017) para
intervalos de la media y con Z del 95%, lo cual nos arrojará un valor de 1.96. Con estos datos se
posee el siguiente cálculo de intervalos:
El intervalo resultante es (1025.81, 1013.32), dato que posibilita el afirmar, con un 95% de confianza,
que la media poblacional está entre los valores de 1013.32 a 1025.81 gramos, en otras palabras, que
sí se surten (en general) “kilos de a kilo”.
En ocasiones será necesario evaluar el estimador muestral de la diferencia de las medias de dos
poblaciones. Inicialmente se tendrá el indicador muestral de la diferencia, mismo que se calculará de
acuerdo con esta fórmula:
Ahora bien, si se requiere la estimación por intervalo de la diferencia de dos medias, pero se conocen
las desviaciones estándar de la población, se utiliza la fórmula:
8
ESTADÍSTICA INFERENCIAL
Hagamos un ejercicio, para ello considera las siguientes muestras tomadas de dos poblaciones:
n 36 40
σ 5 3
75 55
Para el primer caso, se sustituyen los valores en la fórmula con el fin de obtener los siguientes
datos:
µ1-µ2 = 75 - 55 = 20
Para el segundo, es necesario remplazar las cifras de la fórmula, sin dejar de considerar que Z para
el 90% es igual a 1.64, por consiguiente:
(75 - 55) – 1.64* (25 / 36 + 9/40) ^ 0.5 < µ1- µ2 < (75 - 55) + 1.64 * (25 / 36 + 9 / 40) ^ 0.5
20 - 1.64 * (0.694 + 0.225) ^ 0.5 < µ1- µ2 < 20 + 1.64*(0.694 + 0.225) ^ 0.5
20 - 1.64 * (0.919) < µ1- µ2 < 20 + 1.64 * (0.919)
20 - 1.507 < µ1 - µ2 < 20 + 1.507
18.493 < µ1- µ2 < 21.507
Finalmente, se obtiene que el intervalo de la diferencia de las medias poblacionales se encuentra entre
los valores de 18.427 al 21.573.
Ahora bien, el análisis de las proporciones binomiales o que presentan sólo dos resultados posibles:
éxito o fracaso, aprobación o rechazo, y que se pueden observar, por ejemplo, en el lanzamiento de una
moneda o en la inspección de piezas para detectar algunas con defectos, normalmente se caracterizan
por la proporción sin defecto (p) y por la que sí lo tiene (q), razón por la cual:
p=1-q
9
ESTADÍSTICA INFERENCIAL
La fórmula para calcular la diferencia de dos proporciones binomiales o de aceptación / rechazo es:
Consideremos un caso, se quiere conocer el intervalo por diferencia de proporciones entre dos procesos
de fabricación que generan piezas rechazadas con un 90% de confianza:
n 1500 2000
piezas defectuosas 75 80
p 0.95 0.96
q 0.05 0.04
La selección del tamaño de muestra está íntimamente relacionada con la distribución binomial, ya que
por lo general su cálculo involucra probabilidades de éxito o fracaso, nivel de confianza y tamaño de
muestra poblacional:
10
ESTADÍSTICA INFERENCIAL
Ya se ha realizado un ejercicio con esta fórmula en el bloque 1 para el caso de los iPhone con defecto.
Ahora bien, la precisión normalmente se sitúa entre el 1 y 3 % para no afectar el nivel de confianza
de la muestra, ya que entre más grande sea la precisión, el tamaño de la muestra óptima disminuye,
por lo que es importante mantenerla en estos niveles y tener una muestra representativa, así como con
un buen nivel de precisión.
Para la resolución de los problemas de este bloque, se podrán utilizar los siguientes softwares de estadística:
Hoja de cálculo
electrónica
con funciones
estadísticas Incluido en
Excel suite
básicas y la suite de
de microsoft
avanzada y Microsoft 365.
apoyo con
la ayuda del
software.
11
ESTADÍSTICA INFERENCIAL
Software
estadístico
para
Minilab ver 19
aplicaciones
industriales y
académicas.
Software
estadístico
para
SPSS IBM ver aplicaciones
en ciencias
sociales y
académicas.
Fuente: Elaborado a partir de Aplicación Excel, software Minitab y software SPSS de IBM.
12
ESTADÍSTICA INFERENCIAL
La distribución t student es una manera de analizar muestras con valores de datos menores a 30, mientras
que la distribución Z o normal, se emplea para hechos mayores a esta cantidad. La t student también se
denomina: distribución de muestras pequeñas continuas y su fórmula involucra una comparación entre
las medias muestrales y las poblacionales contrastadas con la desviación estándar, entre la raíz cuadrada
del tamaño de la muestra n.
Esta distribución es muy usada en la industria para establecer si la media muestral y poblacional son
iguales o si dos medias muestrales son iguales entre sí, para lo cual, se considera un porcentaje de
error denominado α (alfa) y que por lo general equivale a 0.05. Al hacer un supuesto o hipótesis de
que las medias son iguales, se tienen dos alternativas:
Se debe construir una gráfica que defina las regiones de aceptación y rechazo para la hipótesis nula,
y con el valor calculado, definir en cuál de las dos secciones se encuentra.
13
ESTADÍSTICA INFERENCIAL
Ahora bien, se debe construir el gráfico, por lo que es necesario considerar que α = 0.05 para una cola y
para dos colas α/2 = 0.025 Una vez conocidos estos datos, se tomarán dos colas para los valores en la
tabla de t student para α/2 = 0.025 y n - 1 = 35 - 1 = 34 grados de libertad (gl):
14
ESTADÍSTICA INFERENCIAL
Como el valor de t = - 0.0633 está dentro de la región de aceptación de la hipótesis nula, se puede
concluir, con un error de 5% o 0.05, que la media muestral del promedio de calificaciones de los
estudiantes de administración y la media de la población de la escuela son iguales.
4.3. Inferencia con muestras pequeñas para la diferencia entre dos medias
A continuación, se revisará el caso de la diferencia de medias para muestras pequeñas, mediante el uso
de la forma del estadístico de prueba t:
15
ESTADÍSTICA INFERENCIAL
En este caso, δ representa la diferencia de las medias. Ahora bien, consideraremos los siguientes
supuestos básicos:
H0 µ1 = µ2 ó < µ1 - µ2 = 0
Para efectos prácticos, trabajemos el caso de dos vendedores cuyas transacciones se presentan a
continuación:
1 59 68 44 71 63 46 69 54 48 58 10.44
2 50 36 62 52 70 41 51.83 12.69
Una vez calculados los promedios de cada muestra, así como sus desviaciones estándar, y con el
supuesto de que las desviaciones estándar poblacionales son iguales, procedamos a determinar la
varianza:
16
ESTADÍSTICA INFERENCIAL
Ya con la varianza, computemos el estadístico de prueba t, para ello, consideremos que delta δ = 0:
Por último, debemos construir el gráfico, por lo cual es importante considerar que α = 0.05 para una cola.
En este sentido, tomaremos sólo una cola por la hipótesis alterna de µ1 > µ2 de los valores en la tabla de
t student para α / 2 = 0.025 y n1+ n2 - 2 = 9 + 6 - 2 = 13 grados de libertad (gl):
17
ESTADÍSTICA INFERENCIAL
Una vez concluida la gráfica y situado el valor de t (1.031), se puede observar lo siguiente:
Como 1.031 está en la región de aceptación, es posible concluir que las medias poblacionales no son
diferentes estadísticamente, pese a que en el estimador puntual lo son.
Cuando en la práctica se tienen datos de situaciones muy parecidas o casi idénticas, se aplica el concepto
de t pareada o comparación de medias, cuyos hechos son iguales o lo más cercano a lo equivalente, sin
embargo, se debe considerar que dos procesos, aun cuando tengan los mismos operadores, las máquinas
sean similares y produzcan un producto parecido, no ofrecerán resultados exactos porque existe una
variación inherente en los procedimientos.
Del ejercicio que realizamos al comparar las medias de dos vendedores diferentes, pese a que ambos
presentan tamaños de muestra distintos y medias diferentes (comerciante 1 [10.44] y comerciante 2
[12.69]), estadísticamente poseen la misma media por la varianza calculada, lo que puede implicar que
los métodos de venta y los resultados obtenidos en esta comparación por pares o pareada, nos dé la
igualdad estadística por la región de aceptación de la hipótesis nula.
Comparar la velocidad alcanzada por 2 corredores mientras usan dos marcas de tenis en un
maratón.
Confrontar la durabilidad de dos focos para proyector de diferentes empresas que funcionen
alrededor de 1,500 horas o más.
Ahora revisarás el caso de calcular el estimador de la varianza poblacional a partir de la varianza muestral.
Para este computo se usará la distribución chi cuadrada que, al depender de los grados de libertad que
son el tamaño de muestra menos 1, se tendrá un comportamiento normal. Veamos la fórmula:
18
ESTADÍSTICA INFERENCIAL
Figura 16. Fórmula de cálculo del estimador de desviación estándar poblacional a partir de la desviación estándar muestral
a través de la distribución de la chi cuadrada
Pensemos el caso de tener 20 datos de una muestra, una varianza muestral de 0.0025 y un nivel de
confianza de 95%. ¿Cuál será el intervalo de la media poblacional al utilizar la distribución chi cuadrada?
Normalmente se buscan los valores de cada chi cuadrada por medio de tablas, pero también se puede
realizar mediante los siguientes comandos de Excel:
Cuadro 10. Cálculo de comandos de Excel para los valores de intervalo de la cola derecha e izquierda de la chi cuadrada
n 20 32.85232686 = PRUEBA.CHI.INV(0.025,19)
IC 95%
Veámoslo gráficamente:
Figura 17. Valores del intervalo de la varianza poblacional calculadas por medio de la distribución chi cuadrada
19
ESTADÍSTICA INFERENCIAL
El estimador por intervalos de la varianza poblacional, a partir de la media muestral, se encuentra entre
8.907 y 32.852 con un 95% de confianza.
Finalmente, se abordará el caso de tener que definir la diferencia de dos varianzas poblacionales, mediante
el uso de las varianzas muestrales; para ello se tendrá en cuenta el siguiente problema.
Figura 18. Datos para el cálculo de la diferencia de varianzas poblacionales y las pruebas de hipótesis
Interesa conocer si la desviación estándar 1 es menor o igual que la desviación estándar 2. Como
hipótesis nula o y como alterna o , se tendrá que la desviación estándar 1 sea mayor que la
desviación estándar 2. Para este caso, emplearemos la prueba F o distribución F de Fisher para la
estimación de este intervalo de desviaciones poblacionales.
20
ESTADÍSTICA INFERENCIAL
En la tabla de Fisher para 95% y con 20 para la muestra 1, y 22 para la muestra 2, se obtiene un valor
de 2.071. Una vez construida la gráfica de aceptación y rechazo, se puede visualizar lo siguiente:
Como el valor de 2.848 del estadístico F está en la zona de rechazo de , se acepta la hipótesis
alterna. Con un 95% de confianza es posible afirmar que la desviación estándar poblacional 1 es
mayor que la desviación estándar poblacional 2 , es decir, > .
21
ESTADÍSTICA INFERENCIAL
Para la resolución de los problemas de este bloque se pueden emplear los siguientes softwares de
estadística, algunos ellos son:
Softwares Función
spps
Es la herramienta estadística más utilizada a nivel mundial
(Statistical
en el entorno académico. Puede trabajar con bases de datos
Package for
de gran tamaño. Además, de permitir la recodificación de las
the Social
variables y registros según las necesidades del usuario. (p. 4).
Sciences)
22
ESTADÍSTICA INFERENCIAL
23
REFERENCIAS
Escudero, I. (2016). Taller Estadística Aplicada con estudios para la Investigación Biométrica. Recuperado
de
Estadística útil. (2018, abril 12). Intervalo de confianza para la diferencia de proporciones [Archivo de
video]. Recuperado de
Jurado, S. (2018, enero 24). Prueba de hipótesis para dos varianzas [Archivo de video]. Recuperado de
Leandro, G. (2017, septiembre 18). Estadística prueba de hipótesis diferencia de medias para muestras
pequeñas- parte 8 [Archivo de video]. Recuperado de
Mmteresass. (2012, octubre 27). Estimación de diferencias de medias [Archivo de video]. Recuperado
de
Quantitative shop. (2018, enero 24). Inferencia sobre varianzas poblacionales [Archivo de video]. Recu-
perado de
24