Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Y ESTADÍSTICA
UNIDAD III
ESTADÍSTICA INFERENCIAL
Índice
Presentación de la unidad ...................................................................................................................................... 3
Objetivo de aprendizaje de la unidad ...................................................................................................................... 3
Desempeños de la unidad ...................................................................................................................................... 3
Temario ................................................................................................................................................................... 4
Evaluación y calendarización de actividades por unidad ....................................................................................... 4
3.1. Estimación ........................................................................................................................................................ 5
3.1.1. Concepto de estimación ........................................................................................................................... 5
3.1.2. Estimador puntual ..................................................................................................................................... 6
3.1.2.1. Estimación puntual de medias ........................................................................................................... 6
3.1.2.2. Estimación puntual de la porción de población ................................................................................. 7
3.1.3. Estimador de intervalo .............................................................................................................................. 8
3.2. Prueba de hipótesis ....................................................................................................................................... 13
3.2.1 Conceptos ................................................................................................................................................ 14
3.2.1.1. Hipótesis .......................................................................................................................................... 14
3.2.1.2. Hipótesis nula................................................................................................................................... 14
3.2.1.3. Hipótesis alternativa ......................................................................................................................... 14
3.2.1.4. Errores tipo 1 y tipo 2 ....................................................................................................................... 15
3.2.1.5. Determinación de las zonas de aceptación y de rechazo ............................................................... 15
3.2.2. Prueba de hipótesis con una muestra .................................................................................................... 16
3.3. Regresión lineal y correlación ........................................................................................................................ 42
Cierre de la unidad ................................................................................................................................................ 74
Fuentes de consulta .............................................................................................................................................. 74
2
Presentación de la unidad
En esta unidad aprenderás a tener un mejor entendimiento de los conceptos vistos en las dos unidades
pasadas ya que podrás aplicar a problemas más prácticos pues uno de los objetivos de la estadística
es hacer inferencias acerca de una población. En esta unidad podrás identificar los conceptos de
estimación, regresión lineal, diseño de experimento, pruebas de hipótesis y analizarás y validarás los
resultados de las mismas, a fin de llegar a una conclusión probable de una muestra de la población
que te ayudará a tomar mejores decisiones a través de estas herramientas.
Desempeños de la unidad
3
Temario
Unidad 3. Estadística inferencial
3.1. Estimación
3.2. Prueba de hipótesis
3.3. Regresión lineal y correlación
3.4. Diseño de experimentos
acreditar la materia.
Total 100 %
4
3.1. Estimación
Recordemos que un parámetro de la población puede ser la media, mediana, moda, desviación
estándar, y a través de ello inferimos sobre esta población, para esto la muestra debe ser muy grande
para que sea lo suficientemente normal. En un parámetro de población se puede utilizar cualquier
estadística de muestra y a esto se le conoce como estimador, los cuales son los esenciales para el
desarrollo de este tema ya que una estadística de muestra es utilizada para estimar un parámetro de
población, 𝑥̅ puede ser un estimador de la media de la población µ y p puede utilizar como estimador
de la porción de la población. Un ejemplo de ello se encuentra ilustrado en la tabla 1 (Levin y Rubin,
1996).
“Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos a ese
valor como una estimación. En otras palabras, una estimación es un valor específico observado de
una estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que toma
nuestro estimador en una muestra” (Levin y Rubin, 1996, p. 366).
Empleado operativos en Fracción que tiene Fracción de una muestra 0.1 a 3 % tienen
una empresa sanciones de 50 empleados que sanciones
administrativas tiene sanciones administrativas
administrativas
5
Los procedimientos de estimación se pueden dividir en dos tipos, estimación puntual y estimación por
intervalos.
“Un estimador puntual es un valor individual (o punto) que se usa para aproximar un parámetro de
“Es también llamado así porque el número que representa la estimación se puede asociar con un punto
suficientemente grande puede ser aproximada por la distribución normal (Levin y Rubín, 1996).
Supongamos que en una compañía manufacturera con una gran cantidad de máquinas de
costura, el planeador del departamento de mantenimiento está interesado en conocer una
estimación del tiempo que se lleva un técnico realizando un preventivo en minutos a este tipo
de máquinas. Se ha tomado una muestra aleatoria de 40 tiempos registrados:
15 13 22 14 30 17 16 23 16 16
20 25 23 27 31 24 23 21 17 19
16 21 20 19 25 18 19 17 29 22
18 17 18 21 12 25 21 16 25 27
Encontraremos la media de la muestra 𝑥̅ mediante la suma de todos los resultados dividiendo entre el
total de números n.
6
Σ𝑥 818
𝑥̅ = = = 20.45 𝑚𝑖𝑛
𝑛 40
Para una población con ciertas características particulares será representada p y si conocemos la
̅ y este pasará a ser el
porción de esa población con esa característica utilizaremos el símbolo 𝒑
̅ adoptará las características de ser imparcial (no sesgado),
estimador de p y se puede mostrar que 𝒑
coherente, eficiente y suficiente (Levin y Rubin, 1996).
Ejemplo: Supongamos que estamos interesados en conocer cuántos de nuestros técnicos se están
tardando más de nuestro promedio en realizar este tipo de mantenimiento preventivo. De la muestra
analizada tenemos que 15 de ellos tienen un tiempo mayor a 25 min y la porción correspondiente a 40
muestreados es de 0.375, entonces diríamos que:
p, podemos estimar que la porción de técnicos que se están tardando más de 25 minutos en realizar
los mantenimientos preventivos de toda la población será también de 0.375.
7
3.1.3. Estimador de intervalo
“Un estimador por intervalos describe un intervalo de valores dentro del cual es posible que este sea
un parámetro de población” (Levin y Rubín, 1996, p. 372).
“Un intervalo de confianza (o estimado de intervalo) es un rango (o un intervalo) de valores que se usa
para estimar el valor real de un parámetro de población. El intervalo de confianza suele abreviarse
como IC” (Triola, 2009, p.322).
Es importante resaltar que los intervalos siempre van a contener un límite inferior y uno superior, es
decir, también 2 valores simétricos entre sí, que dentro de ellos encierren un porcentaje y uno de sus
objetivos es buscar ser más precisos y no quedarnos solo con un valor promedio.
Ejemplo: Recordemos que en la mayoría de los casos para muestras grandes debemos aproximar los
datos a una distribución normal. Observa la imagen 1, necesitamos calcular los valores que encierren
entre sí a una población en un 90 %.
8
Aquí tenemos lo siguiente:
-Zα/2 , Zα/2 = Son los valores críticos que tengo que buscar.
Observa la imagen 2. La Zα/2 representa el valor del área a la izquierda la cual tiene un valor de un 95 %
(0.95) y debemos ubicar en la tabla 2 para saber qué valor tomara Zα/2 .
Tabla 2. Segmento de tabla de distribución z valores positivos (Levine, Krehbiel y Berenson, 2006, p. 553).
9
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
1.8 0.9641 0.9490 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
Se puede observar que el valor de 95 % está en 0.945 y 0.9505. Podemos hacer un cálculo que se
conoce como interpolación, sumando estos 2 valores y dividiéndole entre 2 para encontrar el valor de
z. Esto es:
1.64+1.65
Interpolación = = 1.645
2
Por lo tanto, para un Zα/2 = 1.645 y para un - Zα/2 = -1.645 que es su simetrice.
“Si 𝑥̅ es la media de una muestra aleatoria de tamaño n de una población con varianza conocida σ2 el
intervalo de confianza de (1- α ) 100 % para µ es” (Walpole y Myers, 1992 p. 247).
𝜎 𝜎 𝜎
𝑥̅ ± 𝑧 ; 𝑥̅ − 𝑧𝛼 < 𝜇 < 𝑥̅ + 𝑧𝛼
√𝑛 2 √𝑛 2 √𝑛
10
Ejemplo: En una empresa de jabón líquido utilizan una máquina para el llenado de sus botellas y al
realizar los estudios de llenado se dan cuenta que los datos tienen una distribución normal con una
desviación de 0.6 litros. Encuentra un intervalo de confianza del 96 %, muestra aleatoria de 65 botellas
de jabón líquido que tiene un promedio de 4.1 litros.
tanto, α/2 = 2 % a la izquierda sumando el 96 % tenemos un 98%, ver imagen 3 y luego hay que buscar
en la tabla 2 un 98%, 0 0.98 el valor más cercano es z = 2.05.
0.6 0.6
4.1 − 2.05 < 𝜇 < 4.1 + 2.05
√65 √65
11
Interpretación: con un nivel de confianza del 96 % puedo asegurar que las botellas de jabón líquido
saldrán con una cantidad líquida en promedio entre 3.95 y 4.25 litros.
𝑝̅ (1 − 𝑝̅ )
𝑝̅ ± 𝑧 √
𝑛
Donde:
𝑝̅ = es la proporción muestral.
n = es el tamaño de la muestra.
Ejemplo: En una empresa de 2500 empleados, 1800 que se muestrean dijeron que están conformes
con el servicio médico que tiene la empresa. Si se utiliza un grado de confianza de un 94 % ¿Cuál es
la estimación de intervalo para la proporción de la población? ¿A qué conclusión se llegará con base
en el intervalo de confianza?
Solución:
Recuerda para obtener el valor z necesitamos las tablas y para un 94 % el valor de zα/2 considerando
el nivel de significancia α = 6 % por lo tanto, α/2 = 3 % a la izquierda sumando el 94 % tenemos un 97
% o un 0.97, revisando la tabla 2 el valor de z más cercano es el 1.88.
12
1800
𝑝̅ = = 0.72
2500
𝑝̅ = 0.72
z = 1.88
n = 2500
= 0.72 ± 0.0198
La prueba de hipótesis es una herramienta muy importante de la estadística inferencial, con base a
Aplican en cualquier campo y en cualquier tipo de empresa, generalmente se utilizan para decidir si
los materiales y/o materias primas que envían los proveedores están de acuerdo con los parámetros
que se les solicitan, se hace generalmente con cada pedido que llega a la empresa. También se utiliza
para saber si lo que se está produciendo sigue estando de acuerdo con los parámetros establecidos
por los diseñadores del producto o por los clientes de la empresa.
En estas pruebas, con base a los datos de una o dos muestras podemos determinar si un parámetro
que tomamos como “verdadero” es estadísticamente aceptable o no, pero para poder entender cómo
funcionan realmente las pruebas de hipótesis es necesario comprender los conceptos básicos
13
3.2.1 Conceptos
En este subtema conocerás conceptos que te serán de gran utilidad, algunos de ellos son el de
hipótesis, hipótesis nula, hipótesis alternativa, errores tipo 1 y tipo 2 y determinación de las zonas de
aceptación y de rechazo. Pon mucha atención y a seguir con tu aprendizaje.
3.2.1.1. Hipótesis
Una hipótesis es una afirmación acerca de un parámetro de la población estudiada, por ejemplo, “el
promedio de vida de la suela de los zapatos es de 3 años”, en esta oración el parámetro de la población
Es la aseveración que se opone a la hipótesis nula, con ella se determina la zona de aceptación y la
zona de rechazo en el proceso de probar la hipótesis nula. Su símbolo en este módulo es H1. La
hipótesis alternativa sólo puede tomar tres símbolos y sólo esos tres: mayor que (˃), menor que (˂) y
diferente (≠), este dependiendo del símbolo tomado por la hipótesis nula, el símbolo tiene que ser su
símbolo opuesto.
14
3.2.1.4. Errores tipo 1 y tipo 2
Error tipo 1
Es el error que se comete cuando al hacer el proceso de prueba de la hipótesis nula esta se rechaza
cuando era verdadera. También se le conoce como nivel de significancia o error α, el cuál es el que
Error tipo 2
Es el error que se comete cuando al hacer el proceso de prueba de la hipótesis nula esta se acepta
Para disminuir los errores lo mejor es tener un tamaño lo más grande posible en nuestra muestra.
Si la hipótesis alternativa toma el símbolo “menor que”, la prueba es de cola izquierda y esto nos indica
que la zona de rechazo va a quedar a la izquierda del valor crítico con signo negativo.
Si la hipótesis alternativa toma el símbolo “mayor que”, la prueba es de cola derecha y esto nos indica
que la zona de rechazo va a quedar a la derecha del valor crítico con signo positivo.
Si la hipótesis alternativa toma el símbolo “diferente”, la prueba es de dos colas, lo que provoca una
zona de rechazo a la izquierda del valor crítico con signo negativo y una zona de rechazo a la derecha
a la derecha del valor crítico con signo positivo.
15
Es el valor de la distancia en desviaciones estándar (z/t) con respecto a la media que funciona como
límite entre la zona de aceptación y la zona de rechazo, este valor depende del nivel de significancia
(α) y del tamaño de muestra (n), se busca en las tablas z o t, de acuerdo con los factores antes
mencionados.
Estadístico de prueba
El estadístico de prueba es el valor en desviaciones estándar que obtenemos con los datos de la
muestra o muestras tomadas. En base con una fórmula (la veremos más adelante), obtenemos el
estadístico de prueba y lo comparamos con el valor crítico, observando si cae en la zona de aceptación
o de rechazo marcada por la hipótesis alternativa (H0).3.3
6. Concluir de acuerdo con el paso anterior si estadísticamente hubo evidencia para aceptar o para
Planteamiento de hipótesis
Para poder plantear bien las hipótesis es necesario que tomes en cuenta algunos puntos:
16
Nunca pierdas de vista la aseveración a probar, ya que en ocasiones va a ser la hipótesis nula y en
esa frase con dinero o con calificaciones, por ejemplo: “cuando menos me tienes que dar 100 pesos”,
esta frase quiere decir que lo mínimo que debes de darle a la persona son 100 pesos, de ahí para
arriba, por lo que el símbolo es ≥.
Si la aseveración es que los tornillos producidos tienen a lo mucho un diámetro de la caña de 10 mm,
nuestras hipótesis quedarían de la siguiente manera:
17
Imagen 5. Ejemplo 2 prueba de hipótesis (Elaboración
Dependiendo del signo de la hipótesis alternativa se va a determinar el tipo de prueba que va a marcar
las zonas de aceptación y rechazo en el caso a resolver.
Si la hipótesis alternativa (𝐻1) tiene como signo el símbolo “menor qué (<)”, entonces la zona de
rechazo queda a la izquierda del valor crítico de la distribución, el cuál toma valor negativo y la zona
NOTA: El dibujo de la campana de Gauss es sólo un apoyo, por lo que no te preocupes si te queda
bien hecha o no, lo que es importante es que identifiques todos los elementos que te van ayudar a dar
la conclusión sobre la prueba de hipótesis.
18
Si la hipótesis alternativa (𝐻1 ) tiene como signo el símbolo “mayor qué (>) “, entonces la zona de
rechazo queda a la derecha del valor crítico de la distribución, el cuál toma valor positivo y la zona de
aceptación queda a la izquierda de dicho valor crítico.
Si la hipótesis alternativa (𝐻1 ) tiene como signo el símbolo “diferente” (≠), entonces la zona de rechazo
queda a la derecha del valor crítico positivo y a la izquierda del valor crítico negativo, y la zona
de aceptación queda a la al centro, en el área delimitada por los valores críticos positivo y negativo.
19
Determinar el valor crítico
Para poder probar una hipótesis se requiere que el tipo de muestreo para seleccionar la muestra de la
que vamos a obtener los datos sea aleatorio simple, después de estar seguro de que la muestra se
eligió de esta manera hay condiciones que nos van a llevar a utilizar un valor crítico con distribución Z
o con distribución t.
Si se cumplen estas condiciones, entonces pasamos al proceso para encontrar el valor crítico de la
distribución Z.
Para determinar el valor de nuestro valor crítico de z, necesitas saber el nivel de significancia (α) o en
colas.
1. Nivel de significancia.
20
2. Si la prueba es de una o de dos colas.
Si la prueba es de dos colas, entonces sólo nos queda saber cuál es el nivel de significancia (α) que
de confianza es del 90 % entonces el nivel de significancia es del 10 % ya que entre los dos nos debe
de sumar el 100 %. Para determinar este valor vamos a utilizar la Tabla 3. Valor crítico en dos colas:
Las tablas que vas a usar para determinar los valores críticos de Z, son las siguientes:
Por ejemplo:
Si el nivel de significancia es del 10 %, entonces buscando en la Tabla 3, el valor crítico a utilizar será
1.645, este valor se coloca cuando es como límite de la cola izquierda en negativo y cuando es como
límite de la cola derecha en positivo; como la prueba es de dos colas, se coloca a ambos lados con su
respectivo signo.
21
Imagen 9. Zona de rechazo en dos colas con 10 % de significancia (Elaboración propia).
Si la prueba es de una cola, entonces sólo nos queda saber cuál es el nivel de significancia (α) que le
corresponde a nuestro problema. Igual que en la prueba de dos colas, el problema nos proporciona el
nivel de significancia o en su defecto, el nivel de confianza; si el nivel de confianza es del 80 %, el nivel
de significancia es del 10 %, no del 20 % que sería su complemento, esto debido a que todo el error
se carga en una sola cola.
22
De acuerdo con la Tabla 4, el valor crítico para un α=0.10 es de 1.645, este valor se coloca
cuando es como límite de la cola izquierda en negativo, por lo que en este caso es -1.645.
Imagen 10. Zona de rechazo en cola izquierda con 10 % de significancia (Elaboración propia).
Si se cumplen estas condiciones, entonces pasamos al proceso para encontrar el valor crítico de la
distribución t.
Para determinar el valor de nuestro valor crítico de t, necesitas saber el nivel de significancia (α), si
te dan el nivel de confianza se siguen los mismos procedimientos que en la distribución z para obtener
el nivel de significancia. También necesitamos saber si la prueba a realizar es de una o de dos colas,
y el tamaño de la muestra para obtener los grados de libertad.
1. Nivel de significancia.
23
2. Si la prueba es de una o de dos colas.
3. Tamaño de muestra.
Para obtener los valores críticos de T, vas a utilizar los valores críticos de acuerdo con la imagen 11.
Ejemplo:
Si el nivel de significancia es del 10%, y el tamaño de muestra aleatoria es de 25 y el problema nos dio
una desviación estándar muestral y no poblacional, tenemos todos los datos y requisitos necesarios
para determinar el valor crítico.
1. α = 0.10.
3. Los grados de libertad se obtienen restándole 1 al tamaño de muestra, por lo que en este caso
son 24.
24
Para un nivel de significancia del 10 % (0.10) en una cola con 24 grados de libertad nos dio un valor
crítico de t de 1.318, si la prueba es de cola izquierda, el valor se pone con signo negativo (como en
esta gráfica) y si fuera prueba de cola derecha se pondría con signo positivo.
Imagen 12. Zona de rechazo en cola izquierda con 10 % de significancia, distribución T (Elaboración propia).
Para un nivel de significancia del 10 % (0.10) en dos colas con 24 grados de libertad nos dio un valor
crítico de t de 1.711, como la prueba es de dos colas el valor se pone con signo en el límite izquierdo
y con signo positivo en el límite derecho.
Imagen 13. Zona de rechazo en dos colas con 10 % de significancia, distribución T (Elaboración propia).
25
Obtener el valor estadístico de prueba
obtener también con esta distribución. El proceso es fácil, se obtiene con la fórmula:
𝑥̅ − 𝜇𝑥̅
𝑧= 𝜎
√𝑛
En dónde:
𝜇𝑥̅ = media poblacional a probar (Es la que nos determinó las hipótesis).
En dónde:
𝜇𝑥̅ = media poblacional a probar (Es la que nos determinó las hipótesis).
26
𝑠= Desviación estándar de la muestra obtenida para probar la hipótesis.
Una vez que ya se obtuvo el valor estadístico de prueba el siguiente paso es identificar en el gráfico
En la gráfica completa, ya con el valor crítico en su lugar vas a identificar la posición del valor obtenido
Suponiendo que se obtuvo un valor en la fórmula de -2, observa la Imagen 14, el valor negativo nos
queda a la izquierda del valor crítico; recuerda que la distribución normal y la distribución t se extienden
desde menos infinito hasta más infinito. En este ejemplo el estadístico de prueba nos queda en la
región de rechazo.
27
Ahora, si el valor estadístico de prueba es de 1.6, observa la Imagen 15, este valor queda dentro de la
región de aceptación.
En este caso, la hipótesis nula se rechaza, ya que los valores obtenidos en la muestra colocan a esta
Es importante que antes de que des tu conclusión sobre el problema recuerdes que en algunas
ocasiones la aseveración del problema no es la hipótesis nula, si no que la alternativa.
No hay suficiente evidencia estadística para aceptar que _ (Aquí va la aseveración) _ por lo que se
rechaza.
28
Si el estadístico de prueba cayó en la zona de aceptación
En este caso, la hipótesis nula se acepta, ya que los valores obtenidos en la muestra colocan a esta
También aquí es importante que antes de que des tu conclusión sobre el problema recuerdes que en
No hay suficiente evidencia estadística para aceptar que _ (Aquí va la aseveración) _ por lo que se
rechaza.
Ejemplo:
La empresa “Eléctricos para su hogar”, productora de focos, vende sus productos con la promesa de
que por lo menos van a durar en promedio 1000 horas; la empresa sabe que sus focos tienen una
desviación poblacional de 65 horas con respecto a la media y el problema que se les presenta es que
durante los últimos dos meses han tenido quejas por parte de sus clientes quienes argumentan que
los focos les han durado mucho menos de lo esperado, para ver si el problema estaba en un lote
aislado o si seguían produciendo focos fuera de la especificación sacaron una muestra de 100 focos
de diferentes lotes seleccionados al azar, de esta muestra se obtuvo que en promedio duraban 940
horas. Con estos datos se requiere que determines si es cierto que están produciendo focos con una
durabilidad de al menos 1000 horas, haz la prueba con un nivel de significancia del 5 %.
Datos:
𝜇𝑥̅ ≥ 1000
29
𝑥̅ =940
𝜎= 65
𝑛= 100
Paso 1
La aseveración es: Los focos duran por lo menos 1000 horas, “por lo menos” significa que ese es el
mínimo que dura, es decir dura exactamente las mil horas o más, a lo que le corresponde el signo ≥.
Como este signo tiene la igualdad, la aseveración tomada como verdadera va a ser la hipótesis nula.
𝐻0 : 𝜇𝑥̅ ≥ 1000
Paso 2
La hipótesis alternativa tiene el signo “< “, por lo que es una prueba de cola izquierda.
30
Imagen 16. Zona de rechazo a la izquierda (Elaboración propia).
Paso 3
Usando la Tabla 4:
Tabla 4. Valor crítico de Z en una cola.
31
Imagen 17. Zona de rechazo en cola izquierda con 5 % de significancia (Elaboración propia).
Paso 4
940 − 1000
𝑧 = = −𝟗, 𝟐𝟑
65
√100
Paso 5
32
Paso 6
Al caer en la zona de rechazo el estadístico de prueba, entonces, la hipótesis nula se rechaza; como
No hay suficiente evidencia estadística para aceptar que los focos tienen un promedio de vida de al
En base con esta conclusión, la empresa debe de tomar acciones correctivas para volver a producir
con base en las especificaciones.
¿Cuándo se utilizan?
Las pruebas de hipótesis para dos muestras se utilizan cuando quieres comparar los resultados de la
Por ejemplo:
• Para determinar si el promedio de defectos es el mismo en los zapatos producidos a mano que los
producidos en máquina.
• Para determinar si determinada enfermedad se cura en promedio en el mismo tiempo si lo tratas con
la medicina “A” que con la medicina “B”.
• Para determinar si las llantas que nos vende el proveedor “A” tienen el mismo promedio de vida que el
proveedor “B”.
Entre muchas otras comparaciones que ayudan a la toma de decisiones en cualquier tipo de empresa
o investigación.
33
Proceso de prueba de hipótesis para dos muestras
El proceso de prueba de hipótesis para dos muestras es muy parecido al proceso de prueba de
hipótesis convencional, para poder hacer este tipo de prueba hay condiciones que se tienen que
respetar para que los resultados sean confiables:
• Los datos de las muestras deben de ser independientes unos de otros, es decir no se relacionan o se
mezclan de alguna manera.
6. Concluir de acuerdo con el paso anterior si estadísticamente hubo evidencia para aceptar o para
rechazar la hipótesis nula.
Son exactamente los mismos pasos del otro tipo de prueba de hipótesis, pero su contenido cambia
debido a su objetivo.
Plantear Hipótesis
Se siguen las mismas reglas y consejos que en la prueba de hipótesis convencional, sólo que aquí
queremos comparar las medias poblacionales de dos muestras obtenidas de procesos diferentes, y
con esta comparación se van a plantear nuestras hipótesis.
34
• Si quieres probar que las medias son iguales, entonces las hipótesis quedarían de la siguiente manera:
𝐻0 : 𝜇 = 10
𝐻1 : 𝜇 ≠ 10
Aquí la igualdad no está en la aseveración, por lo que la hipótesis nula toma el signo opuesto a la
alternativa.
𝐻0 : 𝜇 ≤ 10
La aseveración dice que es mayor, por lo que en su “signo” no contiene la igualdad, así que es la
hipótesis alternativa:
𝐻1 : 𝜇 > 10
Como puedes observar, se plantean igual que en el proceso convencional y la aseveración siempre va
a ser la comparación entre medias.
También depende de la hipótesis alternativa, su signo determina si es de cola izquierda, cola derecha
o dos colas.
35
≠ 𝐷𝑜𝑠 𝑐𝑜𝑙𝑎𝑠
Para distribución Z
2. Además, la distribución de la población debe de ser normal o en su defecto, la muestra debe de ser
mayor a 30.
3. Si se cumple con lo anterior, como se vio en el proceso de prueba de hipótesis de una muestra, se
elige el valor crítico de z de acuerdo con el nivel de significancia y el tipo de prueba (para una cola,
Tabla 2 o para dos colas, Tabla 1).
Para distribución T
2. Además, la distribución de la población debe de ser normal o en su defecto, las dos muestras deben
3. Si se cumple con lo anterior, se obtienen los grados de libertad de cada muestra y los grados de libertad
con valor más pequeños son los que se van a utilizar.
4. Con esos grados de libertad y el nivel de significancia, se busca en la Tabla A-3 (Triola, 2009) el valor
crítico de t.
Para distribución Z
36
(𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 )
𝑧=
𝜎2 𝜎2
√( 1 + 2 )
𝑛 𝑛
1 2
En dónde:
𝑥̅ = media de la muestra.
𝑛= Tamaño de la muestra.
Para distribución T
obtener también con esta distribución. El proceso es fácil, se obtiene con la fórmula:
𝑥̅ = media de la muestra.
𝑛= Tamaño de la muestra.
zona de rechazo.
37
Imagen 19. Valor estadístico de prueba en gráfico (Elaboración propia).
Se siguen las mismas reglas para plantear las conclusiones de la hipótesis que en las pruebas de
hipótesis con una muestra.
Ejemplo:
La empresa “Eléctricos para su hogar”, determinó por medio de una prueba de hipótesis de una
muestra que no estaban produciendo los focos de acuerdo a sus especificaciones por lo que corrigieron
los problemas en una línea de producción, ahora quieren saber si los focos de la competencia tienen
efectivamente el mismo promedio de vida que los suyos; sabiendo que ambos procesos tienen una
distribución normal, se obtuvo una muestra de 24 focos de los propios, obteniendo una media de 998
horas de duración con una desviación estándar de 10 horas; también se obtuvo una muestra de los
productos similares de la competencia, los focos en esta muestra fueron 30, obteniendo una media de
990 horas con una desviación de 15 horas. Determina con un nivel de significancia del 5 % si los
38
Paso 1
Como la aseveración quiere comparar si las medias son iguales (=), entonces es nuestra hipótesis
nula.
𝐻0 : 𝜇1 = 𝜇2
𝐻1 : 𝜇1 ≠ 𝜇2
Paso 2
La hipótesis alternativa tiene el signo “= “, por lo que es una prueba de dos colas.
Imagen 20. Zona de rechazo en dos colas e identificación de valores críticos (Elaboración propia).
Paso 3
No conocemos las desviaciones estándar poblacionales, la descripción del caso sólo provee las de las
muestras, y nos dice que ambas poblaciones tienen una distribución normal, por lo que la distribución
a utilizar va a ser la t de student.
39
Para obtener el valor crítico, lo primero es obtener los grados de libertad de las dos muestras y elegir
los menores.
El nivel de significancia es del 5 %, lo cual es 0.05 en decimal y la prueba es de dos colas, por lo que
40
El gráfico quedaría de esta manera con el valor crítico:
Imagen 22. Zona de rechazo en dos colas con 5 % de significancia, distribución T (Elaboración propia).
Paso 4
No necesitamos el valor de las medias poblacionales por que como estamos suponiendo que son
iguales, su resta es cero.
(998 − 990) − 0
𝑡= = 1.02
102 152
√(
24 + 30 )
Paso 5
41
Imagen 23. Identificación del estadístico de muestra para ejercicio de dos muestras (Elaboración propia).
Cómo 1.02 está al centro de los valores críticos, se encuentra en la zona de aceptación.
Paso 6
Al caer en la zona de aceptación el estadístico de prueba, entonces la hipótesis nula se acepta; como
Hay suficiente evidencia estadística para aceptar que los focos de la competencia tienen el mismo
promedio de vida que los de “eléctricos para el hogar”.
En la vida real nos encontramos con casos en los que dos variables se relacionan entre sí, por ejemplo,
dependiendo del calor que haga, la comida podría descomponerse más rápido, o dependiendo de qué
tan rápido aceleres podrías gastar más gasolina, etc.
Esta relación entre variables podemos aproximarla a un modelo matemático para poder hacer
pronósticos con base a este.
42
En este subtema vas a aprender sobre la relación lineal entre dos variables, el cómo determinar si
existe o no existe correlación entre ellas y cómo formar un modelo matemático de este tipo para
pronosticar valores desconocidos.
Por medio del programa de Microsoft, Excel, puedes hacer el proceso de mínimos cuadrados para sólo
Da clic en opciones
43
Imagen 25. Opciones (Microsoft Excel 2016).
Da clic en complementos
44
Imagen 27. Complementos Ir (Microsoft Excel 2016).
clic en “Aceptar”.
Después de haber hecho esto, en la pestaña de “Datos” aparece la sección de “Análisis de datos”.
45
Imagen 29. Pestaña datos (Microsoft Excel 2016).
Ya que están activas las herramientas de análisis de datos es necesario que entiendas a qué se refiere
una correlación lineal, cómo obtener el índice de correlación con las herramientas de análisis y cómo
interpretarlo.
Correlación Lineal
Recordando las clases de matemáticas se sabe que en toda función existen variables dependientes y
variables independientes y que en base al tipo de relación que hay entre ellas se puede tener una
Por lo tanto, una vez que se obtienen los pares de datos de dos variables con los que se quiere armar
un modelo matemático para hacer pronósticos, tenemos que ver qué tipo de correlación existe entre
ellos o si de hecho no hay forma de ajustar estos datos a un modelo confiable y lo mejor sería buscar
otro par de variables con que trabajar.
46
El índice de correlación muestra el grado de relación que hay entre las variables que se quieren ajustar
a una función, la función a la que se va a dedicar en este módulo es a la función lineal, por lo que será
el índice de correlación lineal el que se va a calcular.
Cuando se tienen un par de datos a analizar, lo primero que debes de hacer es un diagrama de
dispersión, de manera visual te puedes dar una idea acerca del tipo de correlación lineal que vas a
obtener, por ejemplo:
En este caso la velocidad en millas por hora va a ser la variable independiente (x) y la distancia de
Por lo que se acomoda en una tabla ya sea vertical u horizontal los datos en Excel:
Tabla 5 . Velocidad vs Distancia (Spiegel y Stephens, 2014, p.344).
Velocidad Distancia
20 54
30 90
40 138
50 206
60 292
70 396
El índice de correlación lineal se puede obtener por medio de la fórmula, (Triola, 2009).
𝑛(∑ 𝑥𝑦) − (∑ 𝑥)(∑ 𝑦)
𝑟=
√𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 √𝑛(∑ 𝑦 2 ) − (∑ 𝑦)2
47
El índice de correlación siempre va a estar entre -1 y 1, los valores entre 0 y -1, denotan una correlación
con pendiente negativa y los valores entre 0 y 1, una correlación con pendiente positiva.
Entre más se acerque el valor a -1 o a 1, la relación entre los datos es más fuerte y por lo tanto más
confiable.
Para poder obtener el índice de correlación te vas a apoyar de las herramientas de Excel que acabas
de activar, por lo que, en una hoja de Excel en blanco, pon los siguientes datos tal como se muestra:
Velocidad Distancia
20 54
30 90
40 138
50 206
60 292
70 396
Los datos son la velocidad de un automóvil en millas por hora y la distancia que necesita para frenar a
esa velocidad en pies, como se requiere saber cuál es el índice de correlación, vas a seguir el proceso
que se describe a continuación:
48
Imagen 30. Sección herramientas de análisis (Microsoft Excel 2016).
49
Imagen 32. Coeficiente de correlación, selección de datos 1 (Microsoft Excel 2016).
Selecciona las dos columnas en las que tienes los datos a analizar y en seguida, da clic en la flecha
de la ventana de “Coeficiente de correlación”.
Después de eso, se vuelve a abrir la ventana completa de “Coeficiente de correlación”, en esta checa
que esté seleccionado en la sección de “Agrupado por”, el indicador de “Columnas” y que esté
50
Imagen 34. Rango de salida 1 (Microsoft Excel 2016).
Da clic en cualquier recuadro en blanco de la hoja en la que tienes los datos y después en la flecha de
la ventana “Coeficiente de correlación”.
Después de eso, se vuelve a abrir la ventana completa de “Coeficiente de correlación”, en esta da clic
en “Aceptar”.
51
Imagen 36. Coeficiente de correlación, aceptar (Microsoft Excel 2016).
Después de haber dado aceptar, aparece en la zona seleccionada un recuadro que te indica lo
correlación entre las variables, la que interesa en este análisis es la de “Velocidad” con “Distancia”, de
esta manera ya obtuviste el índice de correlación para estas dos variables, el cuál es: 0.98 (Si
redondeas a centésimas).
Cuando sabes el valor del índice de correlación, lo siguiente es interpretarlo, necesitas saber si indica
la existencia de una correlación lineal entre los datos o si no existe, hay varias maneras de determinar
si el índice de correlación lineal índica que tal correlación existe o no, pero la que vamos a utilizar es
una simple comparación del índice obtenido contra una tabla de “Valores críticos del coeficiente de
correlación de Pearson”, para esto vas a utilizar la tabla de la Imagen 38.
52
Imagen 38. Segmento de la Tabla A-6 (Triola, 2009, P. 780).
Para determinar el índice de correlación que le corresponde a la muestra con la que lo obtuvimos,
El tamaño de la muestra (número de pares de datos utilizados para obtener el índice de correlación
lineal) y el nivel de significancia que se desee usar para la determinación de este, (el nivel de
53
significancia es el riesgo que se está tomando de rechazar que hay correlación lineal entre los datos,
cuando sí había).
Velocidad Distancia
20 54
30 90
40 138
50 206
60 292
70 396
El nivel de significancia que se utiliza el 0.05, esto a menos que el problema nos indique lo contrario
Identifica estos datos en la imagen 39, en dónde se cruce, ese va a ser el valor crítico con el que vas
a comparar el valor r obtenido por la herramienta de Excel.
54
Imagen 39. Segmento de la Tabla A-6 (Triola, 2009, p. 780).
55
El valor crítico para esta muestra es de: ±0.811.
El proceso para determinar si el valor del índice de correlación obtenido-índica o no una correlación
El valor crítico obtenido en la tabla lo colocas tanto a la derecha como a la izquierda de la recta.
Después identifica en qué parte de la recta quedó el índice de correlación obtenido con la herramienta
de Excel, si el valor es negativo, debe de caer entre el valor crítico y menos uno para considerar que
existe una correlación lineal entre los datos y si el índice de correlación es positivo, este debe de caer
entre el valor crítico y uno para que se considere que existe una correlación lineal entre los datos.
56
Considerando el ejemplo de “Velocidad-Distancia de frenado”
El valor crítico que encontraste en la tabla fue 0.811, así que se coloca tanto a la izquierda como a la
derecha.
57
Proceso de Regresión Lineal
El proceso de regresión lineal consiste en ajustar los datos de las variables con correlación lineal a una
función lineal, recordando las clases de funciones matemáticas, la función lineal es:
Y = mx + b
En dónde “b” es la ordenada al origen, es decir la intersección de la línea recta con el eje “Y” y “m” es
la pendiente, la cual es la inclinación de la línea recta y como se observa en la función, multiplica a la
variable independiente.
Una vez que se determina que sí hay una correlación lineal entre los datos, se procede a realizar la
regresión lineal, para esto también te vas a apoyar de las herramientas de análisis de Excel, sigue el
En la pestaña de “Datos”, después de dar clic en “Análisis de datos” te aparece esta ventana, busca y
selecciona “Regresión” y después da clic en aceptar.
58
En esta ventana da clic en la flecha correspondiente al rubro de “Rango y de entrada”, este corresponde
a los datos que vas a usar para la variable dependiente, en el caso del ejemplo que se está trabajando,
es la distancia de frenado.
59
Repite el mismo proceso para el “Rango X de entrada”, el cual representa a la variable independiente,
en el caso del ejemplo que se está manejando, es la velocidad. Después de seleccionar los datos como
lo hiciste para la variable dependiente, asegúrate de que el recuadro de “Rótulos” esté activado, esto
debido a que la selección de los datos la hiciste desde el nombre de la variable.
60
Después, asegúrate de que esté encendido el indicador de “Rango de salida” y da clic en la flecha que
corresponde a este rubro, después selecciona un recuadro de un área libre en la hoja de cálculo dónde
se llenarán los resultados de este análisis. Después aprieta la flecha de la ventana de “Regresión” y
después “Aceptar”.
Baja un poco en la hoja de cálculo, hasta que encuentres la parte de “Coeficientes”, en la ecuación de
regresión, la intercepción representa a la ordenada al origen (b) y lo que aparece con el nombre de la
61
Imagen 49. Regresión, rango de entrada (Microsoft Excel 2016).
La Velocidad es afectada por la pendiente, en esta tabla en dónde viene el nombre de la variable
independiente, representa el valor de la pendiente, por lo que m = 6.81, entonces, la función de
regresión es:
Esta función puede ser usada para pronosticar cuanto valdría la variable dependiente para
determinado valor de la variable independiente.
62
Esto sabiendo que los valores originales se ajustaron por el proceso de regresión lineal a una función
lineal y que debido a esto va haber un error en los cálculos, para ver esto hay que graficar tanto los
valores originales como también la función de regresión lineal:
Ve a Excel e inserta un gráfico de dispersión para los datos de velocidad y distancia de frenado.
Ya que insertaste el gráfico, da clic derecho en uno de los puntos del gráfico, después en la ventana
63
A continuación, emerge esta ventana, en ella asegúrate de que está activo el indicador de “lineal” y
activa el recuadro de “Presentar ecuación en el gráfico”, con esto la gráfica queda de la siguiente
manera:
Como puedes observar, la línea de regresión lineal es la punteada y los puntos graficados de los
valores reales se encuentran en su mayoría alejados de esta línea:
64
3.4. Diseño de experimentos
El diseño de experimentos es una herramienta estadística que permite determinar qué factores afectan
realmente a una variable y qué valores deben de tener dichos factores para optimizar los resultados
de dicha variable, así como también para comparar varias medias al mismo tiempo y determinar si son
entre otros.
Algunos conceptos importantes para entender el diseño de experimentos son los siguientes;
Experimento: Es una alteración hecha a propósito en una o varias condiciones existentes dentro de un
proceso, con el objetivo de medir los cambios que esto provoca en él y de ser posible optimizar dicho
proceso.
Factores: Son las variables que afectan al proceso estudiado, los tipos de factores son:
Factores controlables: Son aquellos que pueden ser alterados por el investigador (puede ser el
ingeniero a cargo de un proceso) para obtener diferentes resultados en el proceso estudiado,
ejemplos de estos son los parámetros de un proceso, o las características de un diseño.
Factores no controlables: Son aquellos que afectan al proceso estudiado pero que no pueden
ser alterados por el investigador, como lo son las condiciones ambientales o el ánimo de los
trabajadores.
Factores estudiados: Son las variables controlables que se investigan en el experimento.
Niveles: son los valores que pueden tomar los factores controlables a estudiar, por ejemplo, si el factor
controlable en una máquina es “velocidad” sus niveles pueden ser “alta” y “baja”.
Error Aleatorio: Es aquel que se produce debido a los efectos de los factores no controlables y de los
factores controlables que no formaron parte del estudio, así como también el del error experimental.
65
Error experimental: Es aquel que se origina debido a los errores que pudo haber cometido el
En este módulo sólo se va a introducir a los experimentos con un solo factor, específicamente el
análisis de varianzas, también conocido como ANOVA.
ANOVA
EL análisis de varianzas se utiliza cuando se requiere comparar más de dos medias, en el tema de
pruebas de hipótesis comparaste dos muestras para determinar si dos medias eran realmente iguales
o no, pero se limitaba a dos, por lo que sí en determinado momento requieres la comparación de tres
o más poblaciones, requerirás de un análisis de varianzas, por ejemplo, si necesitas comparar los
resultados de 4 máquinas produciendo el mismo “estilo” o comparar los resultados de 5 procesos
diferentes para el mismo producto o para determinar si la calidad de los productos vendidos por
distintos proveedores es la misma, entre muchas comparaciones, requerirás de un ANOVA para
obtener una comparación confiable y poder tomar decisiones acertadas.
El ANOVA puede hacerse para pruebas de uno o más factores, pero en este módulo vas a aprender
acerca del ANOVA de un solo factor. Para hacerlo te vas a apoyar de las herramientas de análisis que
ya utilizaste en el tema de regresión lineal.
Vamos a tomar el siguiente ejemplo para aprender el uso de las herramientas de Excel para el ANOVA
66
operadores (O) experimentados trabajarán en ellas durante tiempos iguales. El número de unidades
Probar la hipótesis de que no existe ninguna diferencia entre las máquinas a un nivel de significancia
de a) 0.05 y b) 0.01.
Para empezar, ve a Excel, introduce la Tabla 6 en una hoja activa, después ve a la pestaña de datos
y selecciona “Análisis de datos” en la ventana que se abre, selecciona: “Análisis de varianza de un
factor”:
En seguida, en la ventana que se abre, da clic en la flecha que corresponde a “Rango de entrada”:
67
Imagen 56. ANOVA, rango de entrada (Microsoft Excel 2016).
Selecciona la tabla de datos que previamente copiaste en la hoja de Excel, asegúrate de seleccionar
sólo las filas de la A a la E, con sus columnas correspondientes como se muestra en la imagen:
Una vez seleccionados da clic en la flecha del recuadro flotante “Análisis de varianza de un factor”:
68
Ya de regreso en la ventana anterior, selecciona “Filas”:
En automático Excel maneja el alfa de 0.05, por lo que para el inciso “a” no es necesario cambiarlo:
69
Para continuar selecciona “Rango de salida”:
70
Ahora selecciona en la página una zona en blanco, en la cuál va a aparecer el ANOVA una vez que
71
Imagen 65. ANOVA, aceptar (Microsoft Excel 2016).
A este valor se le conoce como valor P, este debe de ser mayor que el nivel de significancia para que
la hipótesis de que todas las medias son iguales, en este inciso como el nivel de significancia es 0.05,
el valor P que es 0.125 es claramente mayor, por lo que se acepta estadísticamente la hipótesis de
que todas las máquinas trabajan igual.
Para el inciso b haces todo igual, sólo te aseguras de que el alfa sea de 0.01:
72
Imagen 67. ANOVA, alfa 2 (Microsoft Excel 2016).
Y asegúrate que el rango de salida sea en una zona en blanco, haciendo esto el análisis de varianza
queda de la siguiente manera:
Si observas el valor de P no cambia, por lo que también es mayor que el alfa de 0.05 y se acepta
estadísticamente que todas las máquinas trabajan de la misma manera.
Se te mostró de una manera muy resumida como obtener un ANOVA en Excel e interpretar el valor P
que esta herramienta te arroja.
73
Cierre de la unidad
El curso de probabilidad y estadística termina con este tema por lo que ya sólo
estadísticamente confiables.
Fuentes de consulta
Levin, R., y Rubin, D. (2004). Estadistica para administración y economía. México: Pearson
Educación.
Levine, D., Krehbiel, T. y Berenson M. (2006). Estadística para administración. México: Prentice
Hall.
74