Está en la página 1de 74

PROBABILIDAD

Y ESTADÍSTICA

UNIDAD III
ESTADÍSTICA INFERENCIAL
Índice
Presentación de la unidad ...................................................................................................................................... 3
Objetivo de aprendizaje de la unidad ...................................................................................................................... 3
Desempeños de la unidad ...................................................................................................................................... 3
Temario ................................................................................................................................................................... 4
Evaluación y calendarización de actividades por unidad ....................................................................................... 4
3.1. Estimación ........................................................................................................................................................ 5
3.1.1. Concepto de estimación ........................................................................................................................... 5
3.1.2. Estimador puntual ..................................................................................................................................... 6
3.1.2.1. Estimación puntual de medias ........................................................................................................... 6
3.1.2.2. Estimación puntual de la porción de población ................................................................................. 7
3.1.3. Estimador de intervalo .............................................................................................................................. 8
3.2. Prueba de hipótesis ....................................................................................................................................... 13
3.2.1 Conceptos ................................................................................................................................................ 14
3.2.1.1. Hipótesis .......................................................................................................................................... 14
3.2.1.2. Hipótesis nula................................................................................................................................... 14
3.2.1.3. Hipótesis alternativa ......................................................................................................................... 14
3.2.1.4. Errores tipo 1 y tipo 2 ....................................................................................................................... 15
3.2.1.5. Determinación de las zonas de aceptación y de rechazo ............................................................... 15
3.2.2. Prueba de hipótesis con una muestra .................................................................................................... 16
3.3. Regresión lineal y correlación ........................................................................................................................ 42
Cierre de la unidad ................................................................................................................................................ 74
Fuentes de consulta .............................................................................................................................................. 74

2
Presentación de la unidad

En esta unidad aprenderás a tener un mejor entendimiento de los conceptos vistos en las dos unidades

pasadas ya que podrás aplicar a problemas más prácticos pues uno de los objetivos de la estadística
es hacer inferencias acerca de una población. En esta unidad podrás identificar los conceptos de
estimación, regresión lineal, diseño de experimento, pruebas de hipótesis y analizarás y validarás los

resultados de las mismas, a fin de llegar a una conclusión probable de una muestra de la población
que te ayudará a tomar mejores decisiones a través de estas herramientas.

Objetivo de aprendizaje de la unidad

El alumnado realizará estimaciones de datos estadísticos para contribuir a la


toma de decisiones

Desempeños de la unidad

 Identifica elementos de problemas mediante la observación de la situación dada


y las condiciones presentadas, con base en conceptos de la hipótesis nula y
alternativa.
 Comprende la representación de problemas con base en los principios y teorías
matemáticas con el planteamiento de las hipótesis.
 Resuelve el planteamiento matemático mediante la aplicación de la metodología para las pruebas
de hipótesis.
 Valora la solución obtenida mediante la interpretación y análisis de las pruebas de hipótesis con

respecto al problema planteado para argumentar y contribuir a la toma de decisiones.

3
Temario
Unidad 3. Estadística inferencial
3.1. Estimación
3.2. Prueba de hipótesis
3.3. Regresión lineal y correlación
3.4. Diseño de experimentos

Evaluación y calendarización de actividades por unidad

La siguiente tabla presenta las actividades y ponderación que necesitarás para

acreditar la materia.

Unidad Semana Nombre de la tarea Tipo de Día límite de Porcentaje


actividad entrega

11 Actividad 1. Estimaciones de Individual Sábado de la 10 %


medias y proporciones. semana 11

12 Actividad 2. Ejercicios de Individual Sábado de la 25 %


prueba de hipótesis. semana 12
3
13 Actividad 3. Ejercicios de Individual Sábado de la 10 %
regresión lineal. semana 13

14 Actividad 4. Diseño y Individual Martes de la 20 %


solución de un caso de semana 14
aplicación sobre ANOVA.

Evaluación del tercer Individual Domingo de la 35 %


parcial. semana 14

Total 100 %

4
3.1. Estimación

Recordemos que un parámetro de la población puede ser la media, mediana, moda, desviación
estándar, y a través de ello inferimos sobre esta población, para esto la muestra debe ser muy grande

para que sea lo suficientemente normal. En un parámetro de población se puede utilizar cualquier
estadística de muestra y a esto se le conoce como estimador, los cuales son los esenciales para el
desarrollo de este tema ya que una estadística de muestra es utilizada para estimar un parámetro de

población, 𝑥̅ puede ser un estimador de la media de la población µ y p puede utilizar como estimador
de la porción de la población. Un ejemplo de ello se encuentra ilustrado en la tabla 1 (Levin y Rubin,
1996).

3.1.1. Concepto de estimación

“Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos a ese
valor como una estimación. En otras palabras, una estimación es un valor específico observado de
una estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que toma
nuestro estimador en una muestra” (Levin y Rubin, 1996, p. 366).

Tabla 1. Ilustración de poblaciones, parámetros de población, estimadores y estimaciones (Levin y Rubin,


1996).

Población de interés Parámetros de Estadística de muestra Estimaciones que


población que que utilizamos como realizamos
deseamos estimar estimador

Empleado operativos en Nivel de ausentismo de Nivel de ausentismo de 5 % ausentismo al año


una empresa los empleados en un año los empleados en un
mes

Empleado operativos en Fracción que tiene Fracción de una muestra 0.1 a 3 % tienen
una empresa sanciones de 50 empleados que sanciones
administrativas tiene sanciones administrativas
administrativas

5
Los procedimientos de estimación se pueden dividir en dos tipos, estimación puntual y estimación por
intervalos.

3.1.2. Estimador puntual

“Un estimador puntual es un valor individual (o punto) que se usa para aproximar un parámetro de

población” (Triola, 2009, p.357).

“Es también llamado así porque el número que representa la estimación se puede asociar con un punto

en una línea recta” (Mendenhall, 1991, p. 230).

Un ejemplo de un estimador puntual es la media de la muestra 𝑥̅ , es un buen estimador de la media


de la población µ ya que es un estimador imparcial coherente, eficiente y mientras la muestra sea lo

suficientemente grande puede ser aproximada por la distribución normal (Levin y Rubín, 1996).

3.1.2.1. Estimación puntual de medias

Supongamos que en una compañía manufacturera con una gran cantidad de máquinas de
costura, el planeador del departamento de mantenimiento está interesado en conocer una
estimación del tiempo que se lleva un técnico realizando un preventivo en minutos a este tipo
de máquinas. Se ha tomado una muestra aleatoria de 40 tiempos registrados:

15 13 22 14 30 17 16 23 16 16

20 25 23 27 31 24 23 21 17 19

16 21 20 19 25 18 19 17 29 22

18 17 18 21 12 25 21 16 25 27

Encontraremos la media de la muestra 𝑥̅ mediante la suma de todos los resultados dividiendo entre el
total de números n.

6
Σ𝑥 818
𝑥̅ = = = 20.45 𝑚𝑖𝑛
𝑛 40

Al usar la media de la muestra 𝑥̅ , como nuestro estimador, la estimación puntual de la media de la

población, µ, es de 20.45 minutos, de modo que el planeador de mantenimiento aceptará esta


estimación puntual como la base para realizar los tiempos estimados que un técnico tiene para realizar
estos mantenimientos preventivos a este tipo de máquinas y poder programar los recursos suficientes

para esta actividad.

3.1.2.2. Estimación puntual de la porción de población

Para una población con ciertas características particulares será representada p y si conocemos la
̅ y este pasará a ser el
porción de esa población con esa característica utilizaremos el símbolo 𝒑
̅ adoptará las características de ser imparcial (no sesgado),
estimador de p y se puede mostrar que 𝒑
coherente, eficiente y suficiente (Levin y Rubin, 1996).

Ejemplo: Supongamos que estamos interesados en conocer cuántos de nuestros técnicos se están
tardando más de nuestro promedio en realizar este tipo de mantenimiento preventivo. De la muestra

analizada tenemos que 15 de ellos tienen un tiempo mayor a 25 min y la porción correspondiente a 40
muestreados es de 0.375, entonces diríamos que:

De 40 que son, 15 tienen un tiempo mayor a 25 min.


𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 é𝑥𝑖𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
̅=
𝒑
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑡𝑜𝑡𝑎𝑙 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑎𝑑𝑜
15
̅=
𝒑 = 0.375 𝑝𝑜𝑟𝑐𝑖𝑜𝑛 𝑑𝑒 𝑡é𝑐𝑛𝑖𝑐𝑜𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑒𝑠𝑡á𝑛 𝑡𝑎𝑟𝑑𝑎𝑛𝑑𝑜 𝑚á𝑠 𝑑𝑒 25 𝑚𝑖𝑛
40

̅ es un estimador conveniente de la porción de la población


Y debido a que la porción de la muestra 𝒑

p, podemos estimar que la porción de técnicos que se están tardando más de 25 minutos en realizar
los mantenimientos preventivos de toda la población será también de 0.375.

7
3.1.3. Estimador de intervalo

“Un estimador por intervalos describe un intervalo de valores dentro del cual es posible que este sea
un parámetro de población” (Levin y Rubín, 1996, p. 372).
“Un intervalo de confianza (o estimado de intervalo) es un rango (o un intervalo) de valores que se usa

para estimar el valor real de un parámetro de población. El intervalo de confianza suele abreviarse
como IC” (Triola, 2009, p.322).

Es importante resaltar que los intervalos siempre van a contener un límite inferior y uno superior, es

decir, también 2 valores simétricos entre sí, que dentro de ellos encierren un porcentaje y uno de sus
objetivos es buscar ser más precisos y no quedarnos solo con un valor promedio.

Ejemplo: Recordemos que en la mayoría de los casos para muestras grandes debemos aproximar los
datos a una distribución normal. Observa la imagen 1, necesitamos calcular los valores que encierren
entre sí a una población en un 90 %.

Imagen 1. Intervalos de confianza IC (Elaboración propia).

8
Aquí tenemos lo siguiente:

Nivel de confianza o zona de aceptación = Lo vamos a considerar como el porcentaje de confianza


(90 %) que el estudio quiero que tenga, y se encuentra entre 2 valores simétricos.

Nivel de significancia α = 10 % por lo tanto α/2 = 5 % Es el área o la probabilidad de estar fuera de


ese intervalo, la cual es porque la mitad se ha pasado o la mitad se ha quedado fuera.

-Zα/2 , Zα/2 = Son los valores críticos que tengo que buscar.

Observa la imagen 2. La Zα/2 representa el valor del área a la izquierda la cual tiene un valor de un 95 %

(0.95) y debemos ubicar en la tabla 2 para saber qué valor tomara Zα/2 .

Imagen 2. Área al 95 % (Elaboración propia).

Tabla 2. Segmento de tabla de distribución z valores positivos (Levine, Krehbiel y Berenson, 2006, p. 553).

9
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817

1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767

1.8 0.9641 0.9490 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706

1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633

1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545

1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441

1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319

1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177

Se puede observar que el valor de 95 % está en 0.945 y 0.9505. Podemos hacer un cálculo que se

conoce como interpolación, sumando estos 2 valores y dividiéndole entre 2 para encontrar el valor de
z. Esto es:

1.64+1.65
Interpolación = = 1.645
2

Por lo tanto, para un Zα/2 = 1.645 y para un - Zα/2 = -1.645 que es su simetrice.

IC que me solicitan al 90 % es:

IC90% = (-1.645; 1.645)

Intervalos de confianza con µ y σ conocidas

“Si 𝑥̅ es la media de una muestra aleatoria de tamaño n de una población con varianza conocida σ2 el
intervalo de confianza de (1- α ) 100 % para µ es” (Walpole y Myers, 1992 p. 247).

𝜎 𝜎 𝜎
𝑥̅ ± 𝑧 ; 𝑥̅ − 𝑧𝛼 < 𝜇 < 𝑥̅ + 𝑧𝛼
√𝑛 2 √𝑛 2 √𝑛

10
Ejemplo: En una empresa de jabón líquido utilizan una máquina para el llenado de sus botellas y al

realizar los estudios de llenado se dan cuenta que los datos tienen una distribución normal con una
desviación de 0.6 litros. Encuentra un intervalo de confianza del 96 %, muestra aleatoria de 65 botellas
de jabón líquido que tiene un promedio de 4.1 litros.

Solución: Primero encontramos el valor de zα/2 considerando el nivel de significancia α = 4 % por lo

tanto, α/2 = 2 % a la izquierda sumando el 96 % tenemos un 98%, ver imagen 3 y luego hay que buscar
en la tabla 2 un 98%, 0 0.98 el valor más cercano es z = 2.05.

Imagen 3. Un Z = 96 % + 2 % (Elaboración propia).

Utilizando la fórmula tenemos:


𝜎 𝜎
𝑥̅ − 𝑧𝛼 < 𝜇 < 𝑥̅ + 𝑧𝛼
2 √𝑛 2 √𝑛

0.6 0.6
4.1 − 2.05 < 𝜇 < 4.1 + 2.05
√65 √65

3.95 < 𝜇 < 4.25

11
Interpretación: con un nivel de confianza del 96 % puedo asegurar que las botellas de jabón líquido

saldrán con una cantidad líquida en promedio entre 3.95 y 4.25 litros.

Estimación de intervalo para una proporciona de la población:

Se estima un intervalo de confianza de la siguiente forma: (Mason y Lind, 1998).

𝑝̅ (1 − 𝑝̅ )
𝑝̅ ± 𝑧 √
𝑛

Donde:

𝑝̅ = es la proporción muestral.

z = es el valor z del grado de confianza seleccionado.

n = es el tamaño de la muestra.

Ejemplo: En una empresa de 2500 empleados, 1800 que se muestrean dijeron que están conformes
con el servicio médico que tiene la empresa. Si se utiliza un grado de confianza de un 94 % ¿Cuál es

la estimación de intervalo para la proporción de la población? ¿A qué conclusión se llegará con base
en el intervalo de confianza?

Solución:

Recuerda para obtener el valor z necesitamos las tablas y para un 94 % el valor de zα/2 considerando
el nivel de significancia α = 6 % por lo tanto, α/2 = 3 % a la izquierda sumando el 94 % tenemos un 97
% o un 0.97, revisando la tabla 2 el valor de z más cercano es el 1.88.

Se procede a calcular la porción de empleados conformes.

𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 é𝑥𝑖𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎


̅=
𝒑
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑡𝑜𝑡𝑎𝑙 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑎𝑑𝑜

12
1800
𝑝̅ = = 0.72
2500
𝑝̅ = 0.72

z = 1.88

n = 2500

𝑝̅ (1−𝑝̅) 0.72 ( 1 – 0.72 )


𝑝̅ ± 𝑧 √ 𝑛
= 0.72 ± 1.88 √ 2500

= 0.72 ± 0.0198

0. 7001 < 𝑷 < 0.7398

Interpretación: utilizando un grado de confianza de 94 % podemos decir que la porción de la población


conforme con el servicio médico está entre un 70.01 % y un 73.98.

3.2. Prueba de hipótesis

La prueba de hipótesis es una herramienta muy importante de la estadística inferencial, con base a

esta, las empresas se ayudan para la toma de decisiones.

Aplican en cualquier campo y en cualquier tipo de empresa, generalmente se utilizan para decidir si
los materiales y/o materias primas que envían los proveedores están de acuerdo con los parámetros
que se les solicitan, se hace generalmente con cada pedido que llega a la empresa. También se utiliza
para saber si lo que se está produciendo sigue estando de acuerdo con los parámetros establecidos
por los diseñadores del producto o por los clientes de la empresa.

En estas pruebas, con base a los datos de una o dos muestras podemos determinar si un parámetro

que tomamos como “verdadero” es estadísticamente aceptable o no, pero para poder entender cómo
funcionan realmente las pruebas de hipótesis es necesario comprender los conceptos básicos

relacionados con su proceso.

13
3.2.1 Conceptos

En este subtema conocerás conceptos que te serán de gran utilidad, algunos de ellos son el de

hipótesis, hipótesis nula, hipótesis alternativa, errores tipo 1 y tipo 2 y determinación de las zonas de
aceptación y de rechazo. Pon mucha atención y a seguir con tu aprendizaje.

3.2.1.1. Hipótesis

Una hipótesis es una afirmación acerca de un parámetro de la población estudiada, por ejemplo, “el
promedio de vida de la suela de los zapatos es de 3 años”, en esta oración el parámetro de la población

(las suelas de los zapatos) es su media de vida.

3.2.1.2. Hipótesis nula

Es la aseveración que vamos a aceptar o a rechazar analíticamente. Su símbolo en este módulo es


H0. La hipótesis nula puede tomar tres símbolos y sólo esos tres: menor (˂) o menor igual que (≤),
mayor (˃) o mayor igual que (≥) e igual (=). Se puede utilizar sólo el símbolo de “igual que” para
cualquiera de los casos.

3.2.1.3. Hipótesis alternativa

Es la aseveración que se opone a la hipótesis nula, con ella se determina la zona de aceptación y la
zona de rechazo en el proceso de probar la hipótesis nula. Su símbolo en este módulo es H1. La
hipótesis alternativa sólo puede tomar tres símbolos y sólo esos tres: mayor que (˃), menor que (˂) y
diferente (≠), este dependiendo del símbolo tomado por la hipótesis nula, el símbolo tiene que ser su
símbolo opuesto.

14
3.2.1.4. Errores tipo 1 y tipo 2

Error tipo 1

Es el error que se comete cuando al hacer el proceso de prueba de la hipótesis nula esta se rechaza
cuando era verdadera. También se le conoce como nivel de significancia o error α, el cuál es el que

se va a utilizar en el proceso de prueba de hipótesis.

Error tipo 2

Es el error que se comete cuando al hacer el proceso de prueba de la hipótesis nula esta se acepta

cuando era falsa, también se le conoce como error β.

Para disminuir los errores lo mejor es tener un tamaño lo más grande posible en nuestra muestra.

3.2.1.5. Determinación de las zonas de aceptación y de rechazo

Prueba de cola izquierda

Si la hipótesis alternativa toma el símbolo “menor que”, la prueba es de cola izquierda y esto nos indica
que la zona de rechazo va a quedar a la izquierda del valor crítico con signo negativo.

Prueba de cola derecha

Si la hipótesis alternativa toma el símbolo “mayor que”, la prueba es de cola derecha y esto nos indica

que la zona de rechazo va a quedar a la derecha del valor crítico con signo positivo.

Prueba de dos colas

Si la hipótesis alternativa toma el símbolo “diferente”, la prueba es de dos colas, lo que provoca una

zona de rechazo a la izquierda del valor crítico con signo negativo y una zona de rechazo a la derecha
a la derecha del valor crítico con signo positivo.

Valor crítico (zα/2 o t α/2)

15
Es el valor de la distancia en desviaciones estándar (z/t) con respecto a la media que funciona como

límite entre la zona de aceptación y la zona de rechazo, este valor depende del nivel de significancia
(α) y del tamaño de muestra (n), se busca en las tablas z o t, de acuerdo con los factores antes
mencionados.

Estadístico de prueba

El estadístico de prueba es el valor en desviaciones estándar que obtenemos con los datos de la
muestra o muestras tomadas. En base con una fórmula (la veremos más adelante), obtenemos el

estadístico de prueba y lo comparamos con el valor crítico, observando si cae en la zona de aceptación
o de rechazo marcada por la hipótesis alternativa (H0).3.3

3.2.2. Prueba de hipótesis con una muestra

Pasos para probar una hipótesis

1. Plantear la hipótesis alternativa y la hipótesis nula

2. Determinar la zona de aceptación y la zona de rechazo

3. Determinar el valor crítico

4. Obtener el estadístico de prueba

5. Localizar el estadístico de prueba en la zona de aceptación o rechazo

6. Concluir de acuerdo con el paso anterior si estadísticamente hubo evidencia para aceptar o para

rechazar la hipótesis nula.

Planteamiento de hipótesis

Para poder plantear bien las hipótesis es necesario que tomes en cuenta algunos puntos:

16
 Nunca pierdas de vista la aseveración a probar, ya que en ocasiones va a ser la hipótesis nula y en

otras la alternativa y de esto va a depender la conclusión del problema.


 Recuerda que la igualdad siempre va en la hipótesis nula.
 Si no entiendes claramente a que se refiere la aseveración con frases como “cuando menos” utiliza

esa frase con dinero o con calificaciones, por ejemplo: “cuando menos me tienes que dar 100 pesos”,
esta frase quiere decir que lo mínimo que debes de darle a la persona son 100 pesos, de ahí para
arriba, por lo que el símbolo es ≥.

Si la aseveración es que los tornillos producidos tienen a lo mucho un diámetro de la caña de 10 mm,
nuestras hipótesis quedarían de la siguiente manera:

Imagen 4. Ejemplo 1 prueba de hipótesis (Elaboración propia).

Otro ejemplo: aseveración

El peso medio de los camiones de carga de la empresa es mayor a 19.5 toneladas.

17
Imagen 5. Ejemplo 2 prueba de hipótesis (Elaboración

Determinar las zonas de aceptación y rechazo

Dependiendo del signo de la hipótesis alternativa se va a determinar el tipo de prueba que va a marcar
las zonas de aceptación y rechazo en el caso a resolver.

Prueba de cola izquierda

Si la hipótesis alternativa (𝐻1) tiene como signo el símbolo “menor qué (<)”, entonces la zona de
rechazo queda a la izquierda del valor crítico de la distribución, el cuál toma valor negativo y la zona

de aceptación queda a la derecha de dicho valor crítico.

Imagen 6. Zona de rechazo a la izquierda (Elaboración propia,).

NOTA: El dibujo de la campana de Gauss es sólo un apoyo, por lo que no te preocupes si te queda

bien hecha o no, lo que es importante es que identifiques todos los elementos que te van ayudar a dar
la conclusión sobre la prueba de hipótesis.

Prueba de cola derecha

18
Si la hipótesis alternativa (𝐻1 ) tiene como signo el símbolo “mayor qué (>) “, entonces la zona de

rechazo queda a la derecha del valor crítico de la distribución, el cuál toma valor positivo y la zona de
aceptación queda a la izquierda de dicho valor crítico.

Imagen 7. Zona de rechazo a la derecha (Elaboración propia).

Prueba de dos colas

Si la hipótesis alternativa (𝐻1 ) tiene como signo el símbolo “diferente” (≠), entonces la zona de rechazo

queda a la derecha del valor crítico positivo y a la izquierda del valor crítico negativo, y la zona
de aceptación queda a la al centro, en el área delimitada por los valores críticos positivo y negativo.

Imagen 8. Zona de rechazo en dos colas (Elaboración propia).

19
Determinar el valor crítico

Para poder probar una hipótesis se requiere que el tipo de muestreo para seleccionar la muestra de la

que vamos a obtener los datos sea aleatorio simple, después de estar seguro de que la muestra se
eligió de esta manera hay condiciones que nos van a llevar a utilizar un valor crítico con distribución Z

o con distribución t.

Condiciones para distribución Z

1. Se conoce la desviación estándar poblacional (𝜎).

2. Se satisface una o ambas de las siguientes condiciones:

a. La distribución de la población es normal (z)

b. El tamaño de la muestra es mayor a 30 (n>30)

Si se cumplen estas condiciones, entonces pasamos al proceso para encontrar el valor crítico de la
distribución Z.

Determinación del valor crítico de Z

Para determinar el valor de nuestro valor crítico de z, necesitas saber el nivel de significancia (α) o en

su defecto el nivel de confianza. Ya que el nivel de significancia es la probabilidad de rechazar la


hipótesis nula cuando era verdadera (error tipo 1) y el nivel de confianza es la probabilidad de no
equivocarse, de esta manera también necesitamos saber si la prueba a realizar es de una o de dos

colas.

Por lo que hay dos cosas que debemos de saber:

1. Nivel de significancia.

20
2. Si la prueba es de una o de dos colas.

Z crítico para prueba de dos colas

Si la prueba es de dos colas, entonces sólo nos queda saber cuál es el nivel de significancia (α) que

le corresponde a nuestro problema, generalmente en la redacción de dicho problema se nos da


directamente el nivel de significancia, de lo contrario nos proporciona el nivel de confianza, si el nivel

de confianza es del 90 % entonces el nivel de significancia es del 10 % ya que entre los dos nos debe
de sumar el 100 %. Para determinar este valor vamos a utilizar la Tabla 3. Valor crítico en dos colas:

Las tablas que vas a usar para determinar los valores críticos de Z, son las siguientes:

Tabla 3. Valor crítico de Z en dos colas (Elaboración propia).

Nivel de Nivel de Valor crítico


significancia confianza
10% 90% 1.645
7% 93% 1.811
5% 95% 1.96
2% 98% 2.327
1% 99% 2.575

Por ejemplo:

Si el nivel de significancia es del 10 %, entonces buscando en la Tabla 3, el valor crítico a utilizar será
1.645, este valor se coloca cuando es como límite de la cola izquierda en negativo y cuando es como
límite de la cola derecha en positivo; como la prueba es de dos colas, se coloca a ambos lados con su
respectivo signo.

21
Imagen 9. Zona de rechazo en dos colas con 10 % de significancia (Elaboración propia).

Z crítico para prueba de una cola

Si la prueba es de una cola, entonces sólo nos queda saber cuál es el nivel de significancia (α) que le

corresponde a nuestro problema. Igual que en la prueba de dos colas, el problema nos proporciona el
nivel de significancia o en su defecto, el nivel de confianza; si el nivel de confianza es del 80 %, el nivel
de significancia es del 10 %, no del 20 % que sería su complemento, esto debido a que todo el error
se carga en una sola cola.

En la Tabla 4. Valor crítico de z en una cola, podemos observar esto:

Tabla 4. Valor crítico de Z en una cola (Elaboración propia).

Nivel de Valor crítico


significancia
10% 1.28
7% 1.48
5% 1.645
3% 1.88
1% 2.33

22
De acuerdo con la Tabla 4, el valor crítico para un α=0.10 es de 1.645, este valor se coloca
cuando es como límite de la cola izquierda en negativo, por lo que en este caso es -1.645.

Imagen 10. Zona de rechazo en cola izquierda con 10 % de significancia (Elaboración propia).

Condiciones para distribución T

1. Se desconoce la desviación estándar poblacional (𝝈).


2. Se satisface una o ambas de las siguientes condiciones:
a. La distribución de la población es normal (z)

b. El tamaño de la muestra es menor o igual a 30 (n ≤ 30)

Si se cumplen estas condiciones, entonces pasamos al proceso para encontrar el valor crítico de la
distribución t.

Determinación del valor crítico de T

Para determinar el valor de nuestro valor crítico de t, necesitas saber el nivel de significancia (α), si
te dan el nivel de confianza se siguen los mismos procedimientos que en la distribución z para obtener

el nivel de significancia. También necesitamos saber si la prueba a realizar es de una o de dos colas,
y el tamaño de la muestra para obtener los grados de libertad.

Por lo que hay dos cosas que debemos de saber:

1. Nivel de significancia.

23
2. Si la prueba es de una o de dos colas.

3. Tamaño de muestra.

Para obtener los valores críticos de T, vas a utilizar los valores críticos de acuerdo con la imagen 11.

Ejemplo:

Si el nivel de significancia es del 10%, y el tamaño de muestra aleatoria es de 25 y el problema nos dio

una desviación estándar muestral y no poblacional, tenemos todos los datos y requisitos necesarios
para determinar el valor crítico.

1. α = 0.10.

2. Checa si la prueba es de una cola o de dos colas.

3. Los grados de libertad se obtienen restándole 1 al tamaño de muestra, por lo que en este caso

son 24.

Imagen 11. Segmento de Tabla A-3 (Triola, 2009, p.774).

24
Para un nivel de significancia del 10 % (0.10) en una cola con 24 grados de libertad nos dio un valor

crítico de t de 1.318, si la prueba es de cola izquierda, el valor se pone con signo negativo (como en
esta gráfica) y si fuera prueba de cola derecha se pondría con signo positivo.

Imagen 12. Zona de rechazo en cola izquierda con 10 % de significancia, distribución T (Elaboración propia).

Para un nivel de significancia del 10 % (0.10) en dos colas con 24 grados de libertad nos dio un valor

crítico de t de 1.711, como la prueba es de dos colas el valor se pone con signo en el límite izquierdo
y con signo positivo en el límite derecho.

Imagen 13. Zona de rechazo en dos colas con 10 % de significancia, distribución T (Elaboración propia).

25
Obtener el valor estadístico de prueba

Valor estadístico de prueba para distribución Z

Si el valor crítico de la prueba es con la distribución z, entonces el valor estadístico de prueba se va a

obtener también con esta distribución. El proceso es fácil, se obtiene con la fórmula:

𝑥̅ − 𝜇𝑥̅
𝑧= 𝜎
√𝑛

En dónde:

𝑥̅ = media de la muestra obtenida para probar la hipótesis

𝜇𝑥̅ = media poblacional a probar (Es la que nos determinó las hipótesis).

𝜎= Desviación estándar de la población (no la que se obtiene con la muestra).

𝑛= Tamaño de la muestra obtenida para probar la hipótesis.

Valor estadístico de prueba para distribución T

Si el valor crítico de la prueba es con la distribución t, entonces el valor estadístico de prueba se va a

obtener también con esta distribución. Se obtiene con la fórmula:


𝑥̅ − 𝜇𝑥̅
𝑡= 𝑠
√𝑛

En dónde:

𝑥̅ = media de la muestra obtenida para probar la hipótesis.

𝜇𝑥̅ = media poblacional a probar (Es la que nos determinó las hipótesis).

26
𝑠= Desviación estándar de la muestra obtenida para probar la hipótesis.

𝑛= Tamaño de la muestra obtenida para probar la hipótesis.

Localizar el estadístico de prueba en las zonas de aceptación o rechazo

Una vez que ya se obtuvo el valor estadístico de prueba el siguiente paso es identificar en el gráfico

de la prueba de hipótesis si este cae en la zona de aceptación o si cae en la zona de rechazo.

En la gráfica completa, ya con el valor crítico en su lugar vas a identificar la posición del valor obtenido

en la fórmula como estadístico de prueba.

Suponiendo que se obtuvo un valor en la fórmula de -2, observa la Imagen 14, el valor negativo nos
queda a la izquierda del valor crítico; recuerda que la distribución normal y la distribución t se extienden

desde menos infinito hasta más infinito. En este ejemplo el estadístico de prueba nos queda en la
región de rechazo.

Imagen 14. Identificación del valor estadístico de muestra (Elaboración propia).

27
Ahora, si el valor estadístico de prueba es de 1.6, observa la Imagen 15, este valor queda dentro de la

región de aceptación.

Imagen 15. Aceptación de un valor crítico (Elaboración propia).

Concluir si la hipótesis nula es estadísticamente aceptable o no

Si el estadístico de prueba cayó en la zona de rechazo

En este caso, la hipótesis nula se rechaza, ya que los valores obtenidos en la muestra colocan a esta

hipótesis fuera de los datos esperados.

Es importante que antes de que des tu conclusión sobre el problema recuerdes que en algunas
ocasiones la aseveración del problema no es la hipótesis nula, si no que la alternativa.

 En caso de que la hipótesis nula sea la aseveración del problema, se concluye:

No hay suficiente evidencia estadística para aceptar que _ (Aquí va la aseveración) _ por lo que se
rechaza.

 En caso de que la hipótesis alternativa sea la aseveración del problema, se concluye:

Hay suficiente evidencia estadística para aceptar que _ (Aquí va la aseveración) _

28
Si el estadístico de prueba cayó en la zona de aceptación

En este caso, la hipótesis nula se acepta, ya que los valores obtenidos en la muestra colocan a esta

hipótesis dentro de los datos esperados.

También aquí es importante que antes de que des tu conclusión sobre el problema recuerdes que en

algunas ocasiones la aseveración del problema no es la hipótesis nula, si no que la alternativa.

 En caso de que la hipótesis nula sea la aseveración del problema, se concluye:

Hay suficiente evidencia estadística para aceptar que _ (Aquí va la aseveración) _.

 En caso de que la hipótesis alternativa sea la aseveración del problema, se concluye:

No hay suficiente evidencia estadística para aceptar que _ (Aquí va la aseveración) _ por lo que se
rechaza.

Ejemplo:

La empresa “Eléctricos para su hogar”, productora de focos, vende sus productos con la promesa de
que por lo menos van a durar en promedio 1000 horas; la empresa sabe que sus focos tienen una

desviación poblacional de 65 horas con respecto a la media y el problema que se les presenta es que
durante los últimos dos meses han tenido quejas por parte de sus clientes quienes argumentan que
los focos les han durado mucho menos de lo esperado, para ver si el problema estaba en un lote
aislado o si seguían produciendo focos fuera de la especificación sacaron una muestra de 100 focos
de diferentes lotes seleccionados al azar, de esta muestra se obtuvo que en promedio duraban 940
horas. Con estos datos se requiere que determines si es cierto que están produciendo focos con una

durabilidad de al menos 1000 horas, haz la prueba con un nivel de significancia del 5 %.

Datos:

(El valor que se supone es verdadero):

𝜇𝑥̅ ≥ 1000

(El promedio de vida de los focos obtenidos en la muestra):

29
𝑥̅ =940

(El valor de la desviación estándar de la población de focos):

𝜎= 65

(El tamaño de la muestra):

𝑛= 100

Paso 1

La aseveración es: Los focos duran por lo menos 1000 horas, “por lo menos” significa que ese es el

mínimo que dura, es decir dura exactamente las mil horas o más, a lo que le corresponde el signo ≥.
Como este signo tiene la igualdad, la aseveración tomada como verdadera va a ser la hipótesis nula.

𝐻0 : 𝜇𝑥̅ ≥ 1000

Por lo que la hipótesis alternativa es lo opuesto.

𝐻1 : 𝜇𝑥̅ < 1000

Paso 2

La hipótesis alternativa tiene el signo “< “, por lo que es una prueba de cola izquierda.

30
Imagen 16. Zona de rechazo a la izquierda (Elaboración propia).

Paso 3

El tamaño de la muestra es de 100 y nos proporcionaron la desviación estándar de la población, por

lo que la distribución que vamos a utilizar es la z.

El nivel de significancia de la prueba es del 5 % y la prueba es de una cola, entonces de la tabla de

valores críticos que se te proporcionó, se elige el valor correspondiente.

Usando la Tabla 4:
Tabla 4. Valor crítico de Z en una cola.

Nivel de Valor crítico


significancia
10% 1.28
7% 1.48
5% 1.645
3% 1.88
1% 2.33

El gráfico quedaría de esta manera con el valor crítico:

31
Imagen 17. Zona de rechazo en cola izquierda con 5 % de significancia (Elaboración propia).

Paso 4

El valor estadístico de prueba se obtiene con la fórmula:

940 − 1000
𝑧 = = −𝟗, 𝟐𝟑
65
√100

Paso 5

Se coloca el valor estadístico en la gráfica:

Imagen 18. Identificación del valor crítico en la gráfica (Elaboración propia).

32
Paso 6

Al caer en la zona de rechazo el estadístico de prueba, entonces, la hipótesis nula se rechaza; como

la hipótesis nula fue la aseveración original, entonces la conclusión es:

No hay suficiente evidencia estadística para aceptar que los focos tienen un promedio de vida de al

menos 1000 horas.

En base con esta conclusión, la empresa debe de tomar acciones correctivas para volver a producir
con base en las especificaciones.

3.2.3. Pruebas de hipótesis para dos muestras

¿Cuándo se utilizan?

Las pruebas de hipótesis para dos muestras se utilizan cuando quieres comparar los resultados de la

misma variable en dos “procesos diferentes”.

Por ejemplo:

• Para determinar si el promedio de defectos es el mismo en los zapatos producidos a mano que los
producidos en máquina.

• Para determinar si determinada enfermedad se cura en promedio en el mismo tiempo si lo tratas con
la medicina “A” que con la medicina “B”.

• Para determinar si las llantas que nos vende el proveedor “A” tienen el mismo promedio de vida que el

proveedor “B”.

Entre muchas otras comparaciones que ayudan a la toma de decisiones en cualquier tipo de empresa
o investigación.

33
Proceso de prueba de hipótesis para dos muestras

El proceso de prueba de hipótesis para dos muestras es muy parecido al proceso de prueba de

hipótesis convencional, para poder hacer este tipo de prueba hay condiciones que se tienen que
respetar para que los resultados sean confiables:

• Los elementos de la muestra deben de ser elegidos por muestreo aleatorio.

• Los datos de las muestras deben de ser independientes unos de otros, es decir no se relacionan o se
mezclan de alguna manera.

Pasos para probar hipótesis para dos muestras

1. Plantear la hipótesis alternativa y la hipótesis nula.

2. Determinar la zona de aceptación y la zona de rechazo.

3. Determinar el valor crítico.

4. Obtener el estadístico de prueba

5. Localizar el estadístico de prueba en la zona de aceptación o rechazo.

6. Concluir de acuerdo con el paso anterior si estadísticamente hubo evidencia para aceptar o para
rechazar la hipótesis nula.

Son exactamente los mismos pasos del otro tipo de prueba de hipótesis, pero su contenido cambia

debido a su objetivo.

Plantear Hipótesis

Se siguen las mismas reglas y consejos que en la prueba de hipótesis convencional, sólo que aquí

queremos comparar las medias poblacionales de dos muestras obtenidas de procesos diferentes, y
con esta comparación se van a plantear nuestras hipótesis.

34
• Si quieres probar que las medias son iguales, entonces las hipótesis quedarían de la siguiente manera:

Debido a que la aseveración contiene el signo igual, la hipótesis nula es la aseveración.

𝐻0 : 𝜇 = 10

Entonces, lo opuesto sería nuestra hipótesis alternativa.

𝐻1 : 𝜇 ≠ 10

• Si lo que se quiere probar es que una media es mayor que la otra:

Aquí la igualdad no está en la aseveración, por lo que la hipótesis nula toma el signo opuesto a la

alternativa.

𝐻0 : 𝜇 ≤ 10

La aseveración dice que es mayor, por lo que en su “signo” no contiene la igualdad, así que es la

hipótesis alternativa:

𝐻1 : 𝜇 > 10

Como puedes observar, se plantean igual que en el proceso convencional y la aseveración siempre va
a ser la comparación entre medias.

Determinar la zona de aceptación y rechazo

También depende de la hipótesis alternativa, su signo determina si es de cola izquierda, cola derecha

o dos colas.

< 𝐶𝑜𝑙𝑎 𝑖𝑧𝑞𝑢𝑖𝑒𝑟𝑑𝑎

> 𝐶𝑜𝑙𝑎 𝑑𝑒𝑟𝑒𝑐ℎ𝑎

35
≠ 𝐷𝑜𝑠 𝑐𝑜𝑙𝑎𝑠

Determinar el valor crítico

Para distribución Z

1. Se deben de conocer las desviaciones estándar de las dos poblaciones.

2. Además, la distribución de la población debe de ser normal o en su defecto, la muestra debe de ser
mayor a 30.

3. Si se cumple con lo anterior, como se vio en el proceso de prueba de hipótesis de una muestra, se

elige el valor crítico de z de acuerdo con el nivel de significancia y el tipo de prueba (para una cola,
Tabla 2 o para dos colas, Tabla 1).

Para distribución T

1. Se deben conocer las desviaciones estándar de las dos muestras.

2. Además, la distribución de la población debe de ser normal o en su defecto, las dos muestras deben

de ser mayores a 30.

3. Si se cumple con lo anterior, se obtienen los grados de libertad de cada muestra y los grados de libertad
con valor más pequeños son los que se van a utilizar.

4. Con esos grados de libertad y el nivel de significancia, se busca en la Tabla A-3 (Triola, 2009) el valor
crítico de t.

Obtener el valor estadístico de prueba

Para distribución Z

Si el valor crítico de la prueba es con la distribución z, entonces el valor estadístico de prueba se va a


obtener también con esta distribución. El proceso es fácil, se obtiene con la fórmula:

36
(𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 )
𝑧=
𝜎2 𝜎2
√( 1 + 2 )
𝑛 𝑛
1 2
En dónde:

𝑥̅ = media de la muestra.

𝜇𝑥̅ = media poblacional a probar.

𝜎 2 = Varianza de la población (desviación estándar poblacional al cuadrado).

𝑛= Tamaño de la muestra.

Los subíndices indican de qué población se obtuvieron los datos.

Para distribución T

Si el valor crítico de la prueba es con la distribución z, entonces el valor estadístico de prueba se va a

obtener también con esta distribución. El proceso es fácil, se obtiene con la fórmula:

(𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 )


𝑡=
𝑠2 𝑠2
√( 1 + 2 )
𝑛 𝑛
1 2
En dónde:

𝑥̅ = media de la muestra.

𝜇𝑥̅ = media poblacional a probar.

𝑠 2 = Varianza de la muestra (desviación estándar poblacional al cuadrado).

𝑛= Tamaño de la muestra.

Los subíndices indican de qué población se obtuvieron los datos.

Localizar el valor estadístico de prueba

Se localiza en el gráfico si el estadístico de prueba cae en la zona de aceptación o si lo hace en la

zona de rechazo.

37
Imagen 19. Valor estadístico de prueba en gráfico (Elaboración propia).

Concluir si la hipótesis nula es estadísticamente aceptable o no

Se siguen las mismas reglas para plantear las conclusiones de la hipótesis que en las pruebas de
hipótesis con una muestra.

Ejemplo:

La empresa “Eléctricos para su hogar”, determinó por medio de una prueba de hipótesis de una
muestra que no estaban produciendo los focos de acuerdo a sus especificaciones por lo que corrigieron
los problemas en una línea de producción, ahora quieren saber si los focos de la competencia tienen
efectivamente el mismo promedio de vida que los suyos; sabiendo que ambos procesos tienen una
distribución normal, se obtuvo una muestra de 24 focos de los propios, obteniendo una media de 998

horas de duración con una desviación estándar de 10 horas; también se obtuvo una muestra de los
productos similares de la competencia, los focos en esta muestra fueron 30, obteniendo una media de
990 horas con una desviación de 15 horas. Determina con un nivel de significancia del 5 % si los

promedios de vida de las dos muestras son iguales.

38
Paso 1

Como la aseveración quiere comparar si las medias son iguales (=), entonces es nuestra hipótesis

nula.

𝐻0 : 𝜇1 = 𝜇2

Por lo que la hipótesis alternativa es lo opuesto.

𝐻1 : 𝜇1 ≠ 𝜇2

Paso 2

La hipótesis alternativa tiene el signo “= “, por lo que es una prueba de dos colas.

Imagen 20. Zona de rechazo en dos colas e identificación de valores críticos (Elaboración propia).

Paso 3

No conocemos las desviaciones estándar poblacionales, la descripción del caso sólo provee las de las
muestras, y nos dice que ambas poblaciones tienen una distribución normal, por lo que la distribución
a utilizar va a ser la t de student.

39
Para obtener el valor crítico, lo primero es obtener los grados de libertad de las dos muestras y elegir

los menores.

El nivel de significancia es del 5 %, lo cual es 0.05 en decimal y la prueba es de dos colas, por lo que

en la tabla de valores críticos se localiza de la siguiente manera:

Imagen 21. Segmento de Tabla A-3 (Triola, 2009, p.774).

40
El gráfico quedaría de esta manera con el valor crítico:

Imagen 22. Zona de rechazo en dos colas con 5 % de significancia, distribución T (Elaboración propia).

Paso 4

El valor estadístico de prueba se obtiene con la fórmula:

No necesitamos el valor de las medias poblacionales por que como estamos suponiendo que son
iguales, su resta es cero.

(998 − 990) − 0
𝑡= = 1.02
102 152
√(
24 + 30 )

Paso 5

Localizar el estadístico de prueba en la gráfica:

41
Imagen 23. Identificación del estadístico de muestra para ejercicio de dos muestras (Elaboración propia).

Cómo 1.02 está al centro de los valores críticos, se encuentra en la zona de aceptación.

Paso 6

Al caer en la zona de aceptación el estadístico de prueba, entonces la hipótesis nula se acepta; como

la hipótesis nula fue la aseveración original, entonces la conclusión es:

Hay suficiente evidencia estadística para aceptar que los focos de la competencia tienen el mismo
promedio de vida que los de “eléctricos para el hogar”.

3.3. Regresión lineal y correlación

Relación entre dos variables

En la vida real nos encontramos con casos en los que dos variables se relacionan entre sí, por ejemplo,
dependiendo del calor que haga, la comida podría descomponerse más rápido, o dependiendo de qué
tan rápido aceleres podrías gastar más gasolina, etc.

Esta relación entre variables podemos aproximarla a un modelo matemático para poder hacer
pronósticos con base a este.

42
En este subtema vas a aprender sobre la relación lineal entre dos variables, el cómo determinar si

existe o no existe correlación entre ellas y cómo formar un modelo matemático de este tipo para
pronosticar valores desconocidos.

Uso de Excel para correlación y regresión lineal simple

Por medio del programa de Microsoft, Excel, puedes hacer el proceso de mínimos cuadrados para sólo

interpretar los resultados en base al tema que se va a desarrollar en este subtema.

Antes de empezar a entender qué es la correlación lineal y cómo interpretarla se te presenta a

continuación cómo activar en Excel las herramientas de análisis.

Realiza los siguientes pasos:

Selecciona la pestaña de “Archivo” en una hoja de Excel

Imagen 24. Pestaña Archivo (Microsoft Excel 2016).

Da clic en opciones

43
Imagen 25. Opciones (Microsoft Excel 2016).

Da clic en complementos

Imagen 26. Complementos (Microsoft Excel 2016).

En el nuevo menú da clic en Ir…

44
Imagen 27. Complementos Ir (Microsoft Excel 2016).

En la nueva pantalla emergente, selecciona la casilla “Herramientas para análisis” y posteriormente da

clic en “Aceptar”.

Imagen 28. Herramientas para el análisis (Microsoft Excel 2016).

Después de haber hecho esto, en la pestaña de “Datos” aparece la sección de “Análisis de datos”.

45
Imagen 29. Pestaña datos (Microsoft Excel 2016).

Ya que están activas las herramientas de análisis de datos es necesario que entiendas a qué se refiere
una correlación lineal, cómo obtener el índice de correlación con las herramientas de análisis y cómo
interpretarlo.

Correlación Lineal

Recordando las clases de matemáticas se sabe que en toda función existen variables dependientes y
variables independientes y que en base al tipo de relación que hay entre ellas se puede tener una

función lineal, o una cuadrática, o una exponencial, o una polinomial, etc.

Por lo tanto, una vez que se obtienen los pares de datos de dos variables con los que se quiere armar
un modelo matemático para hacer pronósticos, tenemos que ver qué tipo de correlación existe entre

ellos o si de hecho no hay forma de ajustar estos datos a un modelo confiable y lo mejor sería buscar
otro par de variables con que trabajar.

Índice de correlación lineal

46
El índice de correlación muestra el grado de relación que hay entre las variables que se quieren ajustar

a una función, la función a la que se va a dedicar en este módulo es a la función lineal, por lo que será
el índice de correlación lineal el que se va a calcular.

Cuando se tienen un par de datos a analizar, lo primero que debes de hacer es un diagrama de

dispersión, de manera visual te puedes dar una idea acerca del tipo de correlación lineal que vas a
obtener, por ejemplo:

Datos: Velocidad y distancia de frenado

La variable dependiente es la que al cambiar de valor va a provocar un cambio en la otra variable, a la


que se denomina variable dependiente.

En este caso la velocidad en millas por hora va a ser la variable independiente (x) y la distancia de

frenado en pies será la variable dependiente (y).

Por lo que se acomoda en una tabla ya sea vertical u horizontal los datos en Excel:
Tabla 5 . Velocidad vs Distancia (Spiegel y Stephens, 2014, p.344).

Velocidad Distancia

20 54
30 90

40 138
50 206

60 292

70 396

Tipos de correlación lineal

El índice de correlación lineal se puede obtener por medio de la fórmula, (Triola, 2009).
𝑛(∑ 𝑥𝑦) − (∑ 𝑥)(∑ 𝑦)
𝑟=
√𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 √𝑛(∑ 𝑦 2 ) − (∑ 𝑦)2

47
El índice de correlación siempre va a estar entre -1 y 1, los valores entre 0 y -1, denotan una correlación

con pendiente negativa y los valores entre 0 y 1, una correlación con pendiente positiva.

Entre más se acerque el valor a -1 o a 1, la relación entre los datos es más fuerte y por lo tanto más

confiable.

Para poder obtener el índice de correlación te vas a apoyar de las herramientas de Excel que acabas
de activar, por lo que, en una hoja de Excel en blanco, pon los siguientes datos tal como se muestra:

Tabla 5. Velocidad vs Distancia (Spiegel y Stephens, 2014, p.344).

Velocidad Distancia

20 54

30 90

40 138

50 206

60 292

70 396

Los datos son la velocidad de un automóvil en millas por hora y la distancia que necesita para frenar a
esa velocidad en pies, como se requiere saber cuál es el índice de correlación, vas a seguir el proceso
que se describe a continuación:

En la pestaña de “Datos”, selecciona “Herramientas de análisis”.

48
Imagen 30. Sección herramientas de análisis (Microsoft Excel 2016).

En la ventana que se abre, selecciona “Coeficiente de correlación” y da clic en “Aceptar”.

Imagen 31. Coeficiente de correlación (Microsoft Excel 2016).

En la nueva ventana, da clic en la flecha que aparece en la sección correspondiente a “Rango de


entrada”.

49
Imagen 32. Coeficiente de correlación, selección de datos 1 (Microsoft Excel 2016).

Selecciona las dos columnas en las que tienes los datos a analizar y en seguida, da clic en la flecha
de la ventana de “Coeficiente de correlación”.

Imagen 33. Coeficiente de correlación, selección de datos 2 (Microsoft Excel 2016).

Después de eso, se vuelve a abrir la ventana completa de “Coeficiente de correlación”, en esta checa
que esté seleccionado en la sección de “Agrupado por”, el indicador de “Columnas” y que esté

seleccionado el recuadro para “Rótulos en la primera fila”. En seguida, selecciona el indicador de


“Rango de salida” en las opciones de salida y da clic en la flecha correspondiente a esta sección.

50
Imagen 34. Rango de salida 1 (Microsoft Excel 2016).

Da clic en cualquier recuadro en blanco de la hoja en la que tienes los datos y después en la flecha de
la ventana “Coeficiente de correlación”.

Imagen 35. Rango de salida 2 (Microsoft Excel 2016).

Después de eso, se vuelve a abrir la ventana completa de “Coeficiente de correlación”, en esta da clic
en “Aceptar”.

51
Imagen 36. Coeficiente de correlación, aceptar (Microsoft Excel 2016).

Después de haber dado aceptar, aparece en la zona seleccionada un recuadro que te indica lo
correlación entre las variables, la que interesa en este análisis es la de “Velocidad” con “Distancia”, de

esta manera ya obtuviste el índice de correlación para estas dos variables, el cuál es: 0.98 (Si
redondeas a centésimas).

Imagen 37. Coeficiente de correlación en rango de salida (Microsoft Excel 2016).

Interpretación del índice de correlación lineal

Cuando sabes el valor del índice de correlación, lo siguiente es interpretarlo, necesitas saber si indica
la existencia de una correlación lineal entre los datos o si no existe, hay varias maneras de determinar
si el índice de correlación lineal índica que tal correlación existe o no, pero la que vamos a utilizar es
una simple comparación del índice obtenido contra una tabla de “Valores críticos del coeficiente de
correlación de Pearson”, para esto vas a utilizar la tabla de la Imagen 38.

52
Imagen 38. Segmento de la Tabla A-6 (Triola, 2009, P. 780).

Para determinar el índice de correlación que le corresponde a la muestra con la que lo obtuvimos,

debemos tener en cuenta dos cosas:

El tamaño de la muestra (número de pares de datos utilizados para obtener el índice de correlación
lineal) y el nivel de significancia que se desee usar para la determinación de este, (el nivel de

53
significancia es el riesgo que se está tomando de rechazar que hay correlación lineal entre los datos,

cuando sí había).

Los pares de datos utilizados para obtener el índice de correlación fueron 6:


Tabla 5. Velocidad vs Distancia (Spiegel y Stephens, 2014, p.344).

Velocidad Distancia

20 54

30 90

40 138

50 206

60 292

70 396

Por lo que n=6

El nivel de significancia que se utiliza el 0.05, esto a menos que el problema nos indique lo contrario

debido a que se requiera ser muy exacto en los cálculos.

Por lo que 𝛼 = 0.05

Identifica estos datos en la imagen 39, en dónde se cruce, ese va a ser el valor crítico con el que vas
a comparar el valor r obtenido por la herramienta de Excel.

54
Imagen 39. Segmento de la Tabla A-6 (Triola, 2009, p. 780).

55
El valor crítico para esta muestra es de: ±0.811.

El proceso para determinar si el valor del índice de correlación obtenido-índica o no una correlación

lineal, por lo que debes de tomar en cuenta la siguiente gráfica:

Imagen 40. Correlación lineal 1 (Elaboración propia).

El valor crítico obtenido en la tabla lo colocas tanto a la derecha como a la izquierda de la recta.

Después identifica en qué parte de la recta quedó el índice de correlación obtenido con la herramienta

de Excel, si el valor es negativo, debe de caer entre el valor crítico y menos uno para considerar que
existe una correlación lineal entre los datos y si el índice de correlación es positivo, este debe de caer

entre el valor crítico y uno para que se considere que existe una correlación lineal entre los datos.

Imagen 41. Correlación lineal 2 (Elaboración propia).

56
Considerando el ejemplo de “Velocidad-Distancia de frenado”

El valor crítico que encontraste en la tabla fue 0.811, así que se coloca tanto a la izquierda como a la

derecha.

Imagen 42. Correlación lineal 2 (Elaboración propia).

Identifica las zonas de aceptación de correlación lineal y de rechazo de correlación lineal.

Imagen 43. Correlación lineal 4 (Elaboración propia).

Lo siguiente es identificar al índice de correlación obtenido con la herramienta de Excel en la recta.

Imagen 44. Correlación lineal 5 (Elaboración propia).

57
Proceso de Regresión Lineal

El proceso de regresión lineal consiste en ajustar los datos de las variables con correlación lineal a una

función lineal, recordando las clases de funciones matemáticas, la función lineal es:

Y = mx + b

En dónde “b” es la ordenada al origen, es decir la intersección de la línea recta con el eje “Y” y “m” es
la pendiente, la cual es la inclinación de la línea recta y como se observa en la función, multiplica a la

variable independiente.

Una vez que se determina que sí hay una correlación lineal entre los datos, se procede a realizar la
regresión lineal, para esto también te vas a apoyar de las herramientas de análisis de Excel, sigue el

proceso descrito a continuación:

En la pestaña de “Datos”, después de dar clic en “Análisis de datos” te aparece esta ventana, busca y
selecciona “Regresión” y después da clic en aceptar.

Imagen 45. Regresión (Microsoft Excel 2016).

58
En esta ventana da clic en la flecha correspondiente al rubro de “Rango y de entrada”, este corresponde

a los datos que vas a usar para la variable dependiente, en el caso del ejemplo que se está trabajando,
es la distancia de frenado.

Imagen 46. Regresión, rango de entrada en y (Microsoft Excel 2016) .

59
Repite el mismo proceso para el “Rango X de entrada”, el cual representa a la variable independiente,

en el caso del ejemplo que se está manejando, es la velocidad. Después de seleccionar los datos como
lo hiciste para la variable dependiente, asegúrate de que el recuadro de “Rótulos” esté activado, esto
debido a que la selección de los datos la hiciste desde el nombre de la variable.

Imagen 47. Regresión, rango de entrada en x (Microsoft Excel 2016).

60
Después, asegúrate de que esté encendido el indicador de “Rango de salida” y da clic en la flecha que

corresponde a este rubro, después selecciona un recuadro de un área libre en la hoja de cálculo dónde
se llenarán los resultados de este análisis. Después aprieta la flecha de la ventana de “Regresión” y
después “Aceptar”.

Imagen 48. Regresión, rango de salida 1 (Microsoft Excel 2016).

Baja un poco en la hoja de cálculo, hasta que encuentres la parte de “Coeficientes”, en la ecuación de
regresión, la intercepción representa a la ordenada al origen (b) y lo que aparece con el nombre de la

variable independiente es la pendiente (m) de la función de regresión lineal.

61
Imagen 49. Regresión, rango de entrada (Microsoft Excel 2016).

La intercepción de la sección de Coeficientes es la ordenada al origen, por lo que b = -110.51.

La Velocidad es afectada por la pendiente, en esta tabla en dónde viene el nombre de la variable
independiente, representa el valor de la pendiente, por lo que m = 6.81, entonces, la función de

regresión es:

Imagen 50. Componentes (Microsoft Excel 2016).

Esta función puede ser usada para pronosticar cuanto valdría la variable dependiente para
determinado valor de la variable independiente.

62
Esto sabiendo que los valores originales se ajustaron por el proceso de regresión lineal a una función

lineal y que debido a esto va haber un error en los cálculos, para ver esto hay que graficar tanto los
valores originales como también la función de regresión lineal:

Ve a Excel e inserta un gráfico de dispersión para los datos de velocidad y distancia de frenado.

Imagen 51. Velocidad vs Distancia (Microsoft Excel 2016).

Ya que insertaste el gráfico, da clic derecho en uno de los puntos del gráfico, después en la ventana

que emergió, selecciona “Agregar línea de tendencia”.

Imagen 52. Velocidad vs Distancia, agregar tendencia (Microsoft Excel 2016).

63
A continuación, emerge esta ventana, en ella asegúrate de que está activo el indicador de “lineal” y

activa el recuadro de “Presentar ecuación en el gráfico”, con esto la gráfica queda de la siguiente
manera:

Imagen 53. Tendencia Lineal (Microsoft Excel 2016).

Como puedes observar, la línea de regresión lineal es la punteada y los puntos graficados de los
valores reales se encuentran en su mayoría alejados de esta línea:

Imagen 54. Tendencia Lineal en gráfico (Microsoft Excel 2016).

64
3.4. Diseño de experimentos

El diseño de experimentos es una herramienta estadística que permite determinar qué factores afectan

realmente a una variable y qué valores deben de tener dichos factores para optimizar los resultados
de dicha variable, así como también para comparar varias medias al mismo tiempo y determinar si son

realmente iguales o no.

El diseño de experimentos se utiliza en muchas áreas de aplicación, tales como: la medicina, la


investigación, la psicología, la mercadotecnia, el diseño, la optimización de procesos de manufactura,

entre otros.

Algunos conceptos importantes para entender el diseño de experimentos son los siguientes;

Experimento: Es una alteración hecha a propósito en una o varias condiciones existentes dentro de un

proceso, con el objetivo de medir los cambios que esto provoca en él y de ser posible optimizar dicho
proceso.

Factores: Son las variables que afectan al proceso estudiado, los tipos de factores son:

 Factores controlables: Son aquellos que pueden ser alterados por el investigador (puede ser el
ingeniero a cargo de un proceso) para obtener diferentes resultados en el proceso estudiado,
ejemplos de estos son los parámetros de un proceso, o las características de un diseño.
 Factores no controlables: Son aquellos que afectan al proceso estudiado pero que no pueden
ser alterados por el investigador, como lo son las condiciones ambientales o el ánimo de los
trabajadores.
 Factores estudiados: Son las variables controlables que se investigan en el experimento.

Niveles: son los valores que pueden tomar los factores controlables a estudiar, por ejemplo, si el factor
controlable en una máquina es “velocidad” sus niveles pueden ser “alta” y “baja”.

Error Aleatorio: Es aquel que se produce debido a los efectos de los factores no controlables y de los

factores controlables que no formaron parte del estudio, así como también el del error experimental.

65
Error experimental: Es aquel que se origina debido a los errores que pudo haber cometido el

investigador al diseñar el experimento o incluso al ejecutarlo.

Hay dos principales clasificaciones de diseño de experimentos:

 Experimentos con un solo factor.


 Experimentos con dos factores.

En este módulo sólo se va a introducir a los experimentos con un solo factor, específicamente el
análisis de varianzas, también conocido como ANOVA.

ANOVA

EL análisis de varianzas se utiliza cuando se requiere comparar más de dos medias, en el tema de
pruebas de hipótesis comparaste dos muestras para determinar si dos medias eran realmente iguales
o no, pero se limitaba a dos, por lo que sí en determinado momento requieres la comparación de tres
o más poblaciones, requerirás de un análisis de varianzas, por ejemplo, si necesitas comparar los
resultados de 4 máquinas produciendo el mismo “estilo” o comparar los resultados de 5 procesos
diferentes para el mismo producto o para determinar si la calidad de los productos vendidos por
distintos proveedores es la misma, entre muchas comparaciones, requerirás de un ANOVA para
obtener una comparación confiable y poder tomar decisiones acertadas.

El ANOVA puede hacerse para pruebas de uno o más factores, pero en este módulo vas a aprender

acerca del ANOVA de un solo factor. Para hacerlo te vas a apoyar de las herramientas de análisis que
ya utilizaste en el tema de regresión lineal.

Vamos a tomar el siguiente ejemplo para aprender el uso de las herramientas de Excel para el ANOVA

de un factor y la interpretación de sus resultados:

Ejemplo: (Problema obtenido en: Gutiérrez, H. y De la Vara, R. 2012).

Una compañía desea comprar una de cinco diferentes máquinas A, B, C, D, E. En un experimento


diseñado para decidir si existe una diferencia en el desempeño entre las máquinas, cada uno de cinco

66
operadores (O) experimentados trabajarán en ellas durante tiempos iguales. El número de unidades

producidas por cada operador en cada máquina se muestran en la tabla:


Tabla 6. Obrero - Máquina (Elaboración propia).

Probar la hipótesis de que no existe ninguna diferencia entre las máquinas a un nivel de significancia
de a) 0.05 y b) 0.01.

Para empezar, ve a Excel, introduce la Tabla 6 en una hoja activa, después ve a la pestaña de datos
y selecciona “Análisis de datos” en la ventana que se abre, selecciona: “Análisis de varianza de un
factor”:

Imagen 55. ANOVA (Microsoft Excel 2016).

En seguida, en la ventana que se abre, da clic en la flecha que corresponde a “Rango de entrada”:

67
Imagen 56. ANOVA, rango de entrada (Microsoft Excel 2016).

Selecciona la tabla de datos que previamente copiaste en la hoja de Excel, asegúrate de seleccionar

sólo las filas de la A a la E, con sus columnas correspondientes como se muestra en la imagen:

Imagen 57. ANOVA, selección de datos 1 (Microsoft Excel 2016).

Una vez seleccionados da clic en la flecha del recuadro flotante “Análisis de varianza de un factor”:

Imagen 58. ANOVA, selección de datos 2 (Microsoft Excel 2016).

68
Ya de regreso en la ventana anterior, selecciona “Filas”:

Imagen 59. ANOVA, filas (Microsoft Excel 2016).

En automático Excel maneja el alfa de 0.05, por lo que para el inciso “a” no es necesario cambiarlo:

Imagen 60. ANOVA, alfa (Microsoft Excel 2016).

69
Para continuar selecciona “Rango de salida”:

Imagen 61. ANOVA, rango de salida 1 (Microsoft Excel 2016).

En seguida da clic en la fecha correspondiente al rubro de “Rango de salida”:

Imagen 62. ANOVA, rango de salida 2 (Microsoft Excel 2016).

70
Ahora selecciona en la página una zona en blanco, en la cuál va a aparecer el ANOVA una vez que

termines este proceso:

Imagen 63. ANOVA, rango de salida 3 (Microsoft Excel 2016).

Una vez seleccionado, da clic en la flecha de la pequeña pantalla flotante:

Imagen 64. ANOVA, rango de salida 3 (Microsoft Excel 2016).

Finalmente da clic en aceptar:

71
Imagen 65. ANOVA, aceptar (Microsoft Excel 2016).

En el análisis de varianza que aparece en la zona previamente seleccionada, debes de buscar la


columna de probabilidad e identificar el valor de esta:

Imagen 66. ANOVA, resultados (Microsoft Excel 2016).

A este valor se le conoce como valor P, este debe de ser mayor que el nivel de significancia para que
la hipótesis de que todas las medias son iguales, en este inciso como el nivel de significancia es 0.05,

el valor P que es 0.125 es claramente mayor, por lo que se acepta estadísticamente la hipótesis de
que todas las máquinas trabajan igual.

Para el inciso b haces todo igual, sólo te aseguras de que el alfa sea de 0.01:

72
Imagen 67. ANOVA, alfa 2 (Microsoft Excel 2016).

Y asegúrate que el rango de salida sea en una zona en blanco, haciendo esto el análisis de varianza
queda de la siguiente manera:

Imagen 68. ANOVA, resultados 2 (Microsoft Excel 2016).

Si observas el valor de P no cambia, por lo que también es mayor que el alfa de 0.05 y se acepta
estadísticamente que todas las máquinas trabajan de la misma manera.

Se te mostró de una manera muy resumida como obtener un ANOVA en Excel e interpretar el valor P
que esta herramienta te arroja.

73
Cierre de la unidad

El curso de probabilidad y estadística termina con este tema por lo que ya sólo

resta que termines el proyecto y la evaluación de la unidad 3, fue un placer


facilitarte los conocimientos necesarios para que puedas tomar decisiones

estadísticamente confiables.

Fuentes de consulta

 Gutiérrez, H. y De la Vara, R. (2012). Análisis y diseño de


experimentos. México: Mc Graw Hill.

 Mendenhall, W. (1991). Introducción a la probabilidad y la estadística.

México: Grupo Editorial Iberoamérica.

 Levin, R., y Rubin, D. (2004). Estadistica para administración y economía. México: Pearson

Educación.

 Levine, D., Krehbiel, T. y Berenson M. (2006). Estadística para administración. México: Prentice
Hall.

 Spiegel, M. y Stephens L. (2010). Probabilidad y Estadística. México: Pearson.

 Triola, M. F. (2009). Estadística. México: Pearson Education.

Walpole, R. y Myers, R. (1992). Probabilidad y estadística para ingeniería y ciencias. México:


Pearson Educación

74

También podría gustarte