Estadistica Tema 4

Tema 4
Estadística
Pruebas de hipótesis y modelos de regresión
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Índice Pág.
4.1. Intervalos de confianza 3

4.2. Tamaño de la muestra 11
4.3. Prueba de hipótesis 14
4.4. Modelos de regresión: Regresión simple 29
Recursos complementarios 32
Bibliografía 33
Prueba de hipótesis y modelo de regresión

2
4.1. Intervalo de confianza

Un intervalo de confianza se define como un “rango de valores calculado a
partir de los datos muestrales, el cual probablemente incluye el valor verdadero
de un parámetro desconocido” (Galindo, 1999)
Un intervalo de confianza tiene un límite inferior de confianza (LCL) y un

límite superior de confianza (UCL). A cada intervalo se le asocia una
probabilidad (1-α) de que contenga el valor verdadero del valor del parámetro
considerado. A tal probabilidad se la llama nivel de confianza (o coeficiente
de confianza). Es así entonces que:
Pr(𝐿𝐿𝐿𝐿𝐿𝐿 ≤ 𝑝𝑝𝑝𝑝𝑝𝑝á𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ≤ 𝑈𝑈𝑈𝑈𝑈𝑈) = 1 − 𝛼𝛼
Al intervalo que cumpla con estas condiciones se lo nombra como intervalo de

confianza al 100 (1-α)% (α se conoce como nivel de significancia)
Para tener resultados fiables, el nivel de confianza debe ser alto (muy cercano
a 1) por lo que normalmente toma valores de 0,90; 0,95; 0,99. (90%, 95%, 99%
expresados como porcentajes)
Es importante mencionar que mientras más confiabilidad se requiera en los

resultados el nivel de confianza deberá ser mayor y por lo tanto la anchura del
intervalo; sin embargo, hay una contrapartida ya que, si bien se está seguro de
que el intervalo contiene el valor verdadero del parámetro, el intervalo de
confianza es más ancho y menos preciso. Obviamente una mayor confiabilidad
se obtendrá también con un tamaño de muestra mayor, cuyo análisis se
realizará en el transcurso de la unidad.
Interpretación de los intervalos de confianza:

3
Un intervalo de confianza puede ser interpretado de dos maneras distintas:
a) Confía, al nivel de confianza estipulado, que el parámetro se encuentra

en el intervalo determinado
b) Si se construyen todos los intervalos de confianza posibles, el porcentaje
de ellos que incluirá el parámetro desconocido coincide con el nivel de
confianza considerado.
Por ejemplo:
La directora de un centro de cuidado infantil de la ciudad de Quito ha
determinado que los gastos medios en medicina preventiva para los niños de
su centro están en un intervalo de 35 a 38 dólares calculado a un nivel de
confianza del 95%.
Esto puede ser interpretado entonces de la siguiente manera:
a) En sentido a priori (antes de calcular el intervalo) se puede decir que

existe un 95% de probabilidad de construir un intervalo que comprenda
la media poblacional. Sin embargo, una vez que se ha calculado el
intervalo, la probabilidad de que en el intervalo entre 35 y 38 se
encuentre la media poblacional es 1 o 0 y no del 95%, ya que el valor de
95% se asigna al grado de confianza de que se encuentre en el
intervalo, no a la probabilidad de que esté en él.
b) La segunda interpretación parte de la consideración de que a partir de

cualquier población se pueden tomar infinitas muestras diferentes de
tamaño n. Cada muestra dará lugar a un intervalo ligeramente distinto
porque cada una de ellas tiene una media algo diferente afirmándose
que en el 95% de estos intervalos se incluirá la media poblacional
desconocida.

4
Estimación de la media poblacional: Intervalo de confianza para la media

poblacional
Una de las más comunes aplicaciones de los intervalos de confianza es la de

estimar la media poblacional. Se toman dos consideraciones:
a) Para muestras grandes: (tamaño de muestra mayor o igual a 30)
Un intervalo de confianza para la media poblacional µ, a un determinado nivel

de confianza, viene dado por la ecuación:
𝜎𝜎 𝜎𝜎
�𝑥𝑥̅ − 𝑧𝑧𝛼𝛼� ; 𝑥𝑥̅ + 𝑧𝑧𝛼𝛼�2 �
2
√𝑛𝑛 √𝑛𝑛
donde:
n es el tamaño de la muestra
σ es la desviación estándar de la población
𝑧𝑧𝛼𝛼�2 es el valor z que corresponde al área de α/2 en el extremo superior de la
distribución normal estándar

Es importante mencionar que si se desconoce el valor de σ puede
reemplazarse por su estimador muestral, sin pérdida de exactitud.
Los valores más comunes utilizados como niveles de confianza con sus
respectivos valores de z son:
Nivel de confianza α α/2 Zα/2
90% 0,10 0,05 1,645
95% 0,05 0,025 1,960
98% 0,02 0,01 2,326
99% 0,01 0,005 2,576

5
Ejemplo:
El director creativo de una fábrica de juguetes didácticos le ha pedido que

estime el tiempo medio necesario para producir una unidad concreta del
proceso de fabricación. Una muestra de 600 unidades da una media de 7,2
días. Se sabe que la desviación estándar es de 1,90 días. A un nivel de
confianza del 90%, calcular el correspondiente intervalo de confianza para el
tiempo medio de ejecución del proceso de fabricación.
Datos:
𝑥𝑥̅ = 7,2 días
n = 600
σ =1,90 días
Nivel de confianza = 90% (0,90), es decir que α = 1- 0,90 = 0,10. Por lo tanto
α/2 = 0,05
𝑧𝑧𝛼𝛼�2 (valor z que corresponde al área de α/2) = 1,645
Entonces el intervalo de confianza para el tiempo medio de ejecución solicitado

será:
𝜎𝜎 𝜎𝜎
�𝑥𝑥̅ − 𝑧𝑧𝛼𝛼� ; 𝑥𝑥̅ + 𝑧𝑧𝛼𝛼�2 �
2
1,90 1,90
�7,2 − 1,645 × ; 7,2 + 1,645 × �
√600 √600
(7,2 − 0.128; 7,2 + 0,128)
(7,072 ; 7,328)
Interpretación: Estoy 90% seguro de que el tiempo medio de ejecución del

proceso de fabricación está entre 7,072 días y 7,328 días.

6
b) Para muestras pequeñas: (tamaño de muestra menor a 30)
Antes de hablar del intervalo de confianza para muestras pequeñas será

necesario revisar el tema sobre Distribución T de Student.
Distribución T de Student:
Cuando hay que tomar una muestra pequeña, la distribución normal no siempre
es la adecuada. En concreto, cuando la muestra es pequeña y la desviación
estándar es desconocida, no se deberá aplicar la distribución z recurriéndose a
una distribución alternativa llamada T de Student.
Estos valores dependen de los grados de libertad (gl) porque la ley de

probabilidad t varía cuando n varía. Cuando n aumenta, la distribución t tiende
hacia la normal estándar.
La lectura de la tabla se hace de la siguiente manera;
a) Escoger el número r de grados de libertad de acuerdo al tamaño de la

muestra
b) Considerar la probabilidad α, según el nivel de confianza
c) Lee los valores obtenidos de t en la tabla (recuerde que se lee: el valor t
a r grados de libertad y nivel de significancia α)
Ejemplo:
Encontrar el valor de la ley t para una muestra de 7 personas y un nivel de

confianza de 95%.
Con estos datos se sabe que:

Grados de libertad = r = tamaño de la muestra = 7
Nivel de confianza = 95% (0,95), es decir que α = 1-0,95 = 0,05

7
Con estos dos datos entrando a la tabla se obtiene que el valor t buscado es de
= 1,895.
Intervalo de confianza:
Para construir un intervalo de confianza para la media en muestras pequeñas,
debemos basar nuestra ecuación en la distribución t, por lo tanto, quedará
establecida de la siguiente manera:
𝑠𝑠 𝑠𝑠
�𝑥𝑥̅ − 𝑡𝑡𝛼𝛼� ; 𝑥𝑥̅ + 𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) �
2(𝑛𝑛−1)
donde:
n es el tamaño de la muestra
s es la desviación estándar muestral
𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) es el valor de la distribución t de Student a (n-1) grados de libertad,
para el cual el área en el extremo superior es igual a α/2.
Ejemplo:
En una muestra de 16 estudiantes de una carrera se encontró una estatura

media de 164.5 cm con una desviación estándar de 8.3 cm Calcular e
interpretar un intervalo de confianza de 95% para la media poblacional.
Datos:
𝑥𝑥̅ = 164,5 cm
n = 16, es decir n-1 = 16 -1 = 15
s = 8,3 cm
Nivel de confianza = 95% (0,95), es decir que α = 1- 0,95 = 0,05. Por lo tanto, α/2 =
0,025
𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) (el valor t a 15 grados de libertad y un nivel de significancia 0,025) =
2,131
Entonces el intervalo de confianza para la media poblacional será:

8
𝑠𝑠 𝑠𝑠
�𝑥𝑥̅ − 𝑡𝑡𝛼𝛼� ; 𝑥𝑥̅ + 𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) �
2(𝑛𝑛−1)
8,3 8,3
�164,5 − 2,131 × ; 164,5 + 2,131 �
√16 √16
(164,5 − 4,422; 164,5 + 4,422)
(160,078 ; 168,922)
Interpretación: Estoy 95% seguro de que la estatura media de los estudiantes

de una carrera está entre 160.078 cm y 168.922 cm
4.2. Tamaño de muestra

El tamaño de la muestra es importante en la determinación de la probabilidad
del error y la precisión de la estimación. Tomando en consideración el nivel de
confianza, existen dos factores que inciden en el tamaño muestral:
a) La variabilidad de la población (σ2), que es un factor no controlable por

el investigador.
b) El grado de error que se puede aceptar, que es un factor que depende
de lo crítico que sea el trabajo sobre el cual se está analizando el
parámetro. Es importante mencionar que cualquier intervalo dado tiene
una amplitud igual al doble del error tolerable.
a) Tamaño de muestra para la media poblacional:
Debemos partir de que la variable tipifica z es igual a:
𝑥𝑥̅ − 𝜇𝜇 𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 = =
𝜎𝜎𝑥𝑥 𝜎𝜎/√𝑛𝑛
despejando n se tiene:
𝑧𝑧 2 𝜎𝜎 2
𝑛𝑛 =
(𝑥𝑥̅ − 𝜇𝜇 )2

9
En ciertas bibliografías encontrará la siguiente relación, que es equivalente a la

anterior:
2
�𝑧𝑧𝛼𝛼⁄2 � (𝜎𝜎)2
𝑛𝑛 =
𝐸𝐸2
donde, 𝑥𝑥̅ − 𝜇𝜇 es el error permitido o tolerable ( E ).
𝑥𝑥̅ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝜇𝜇 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝ó𝑛𝑛
Ejemplo:
Se desea conocer la distancia promedio que corren semanalmente los

miembros del club de carreras de fondo “Correr es Vivir”. Por estudios
anteriores se conoce que la desviación estándar de estas distancias es 4 km.
¿A cuántos atletas habrá que muestrear si la estimación debe quedar a menos
de 0,2 km con un nivel de confianza del 95%?
Datos:
σ = 4 km
E = 0,2 km porque el intervalo es de la forma (𝑥𝑥̅ − 0,2; 𝑥𝑥̅ + 0,2)
Para un intervalo de confianza del 95% se tiene que el valor de z = 1,96
Entonces:
𝑧𝑧 2 𝜎𝜎 2
𝑛𝑛 =
(𝑥𝑥̅ − 𝜇𝜇 )2
(1,96)2 (4)2
𝑛𝑛 = = 1536,64
(0,2)2
Es decir, que se necesita un tamaño de muestra mínimo de 1537 atletas. Si la

muestra fuera demasiado alta, es necesario aumentar el error permitido.

10
4.3. Prueba de hipótesis

4.3.1. Fundamento de las pruebas de hipótesis
En el análisis estadístico se hace una aseveración de la población. Para
verificar si la afirmación es razonable se usan datos. En la mayor parte de
los casos la población es tan grande que por diversas razones, es
necesario tomar una muestra de la población. Por tanto, a partir de la
muestra se puede probar la afirmación para determinar si la evidencia
empírica de la muestra fundamenta o no la afirmación relativa a la
población. Así, hipótesis es un enunciado de una población elaborado
con el propósito de poner a prueba; y el procedimiento, basado en la
evidencia de la muestra y la teoría de la probabilidad, que se utiliza
para determinar si la hipótesis es una afirmación razonable se
denomina prueba de hipótesis.
Existen tres métodos para probar hipótesis que aparentemente son
distintos pero que son equivalentes en el sentido de que siempre llevan a
las mismas conclusiones. El primer procedimiento es el método
tradicional o de cinco pasos, que será el que se usa en este curso. El
segundo procedimiento, basado en los valores de P, y el tercer
procedimiento basado en intervalos de confianza.
Procedimiento de cinco pasos: este proceso sistematiza una prueba una

hipótesis. Al llegar al quinto paso aporta una clase de evidencia “más allá
de la duda razonable”, en forma similar a un proceso judicial. El gráfico 2.1,
resume los pasos del método tradicional.

11
Paso 1: Plantear hipótesis
Existen dos clases de hipótesis:

 Hipótesis nula (denotada por Ho) es una declaración acerca del
valor del parámetro de la población y debe contener la condición de
igualdad escrita con los símbolos =, ≥ o ≤. En el caso de la
media, la hipótesis nula se expresa en una de las tres formas:
H0 : µ = algún valor H0 : µ ≥ algún valor H0 : µ ≤ algún valor
 Hipótesis alternativa (denotada por H1) es la declaración que debe

ser verdad si la hipótesis nula es falsa. En el caso de la media, la
hipótesis alternativa se enuncia en una de las tres formas:
H1 : µ ≠ algún valor H1 : µ < algún valor H1 : µ > algún valor
Con las hipótesis ya planteadas, podemos determinar si es una prueba

de una cola (izquierda o derecha) o 2 colas de acuerdo con el siguiente
gráfico:

12
En el gráfico 2.2, pruebas de significancia, se resume una verificación útil.

Las colas de una distribución son las regiones extremas delimitadas por
los valores críticos. En las pruebas de dos colas, el nivel de significancia α
se divide equitativamente entre las dos colas que constituyen la región
crítica.
Paso 2: Nivel de significancia y determinar valores críticos
Nuestro nivel de significancia puede estar en valor numérico (0.05, 0.10,

etc.) o en porcentaje (5%, 10%, etc.), dependiendo si es una muestra
grande o pequeña, utilizaremos la prueba z o t según el caso.
Para determinar los valores críticos, en muestras grandes utilizamos los

valores de la tabla z:

13
Si tenemos muestras pequeñas (n<30), utilizamos la tabla t student para

determinar los valores críticos, esto se logra con el nivel de significancia y
los grados de libertad (n-1).
Paso 3: Determinar el estadístico de prueba
Un estadístico de prueba es un valor basado en los datos de muestra.

Existen muchos estadísticos de prueba, los más utilizados y los que
aplicaremos serán z y t, esto depende del tamaño de la muestra.
𝑥𝑥̅ − 𝜇𝜇 𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 = 𝜎𝜎 (𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔) ; 𝑡𝑡 = 𝑠𝑠 (𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝ñ𝑎𝑎)
𝑥𝑥̅ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

𝜇𝜇 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝ó𝑛𝑛
𝑠𝑠 − 𝜎𝜎 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑ó𝑛𝑛 𝑒𝑒𝑒𝑒𝑒𝑒á𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛
𝑛𝑛 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

14
Gráfico 2.3 Cómo escoger entre distribución normal y t Student
INICIO
Use la distribución normal con:
SI
� − 𝝁𝝁
𝒙𝒙
𝒛𝒛 = 𝝈𝝈
¿Es n ≥ 30?
√𝒏𝒏
(si desconoce σ, use s)

SI
USE MÉTODOS NO
¿Es la distribución
PARAMÉTRICOS QUE
NO NO REQUIEREN DE
poblacional
normal? UNADISTRIBUCIÓN
NORMAL
Use la distribución normal con:

SI
� − 𝝁𝝁
𝒙𝒙
𝒛𝒛 = 𝝈𝝈
SI √𝒏𝒏
¿Se conoce σ?
(si desconoce σ, use s)
SI
Use la distribución t con:
� − 𝝁𝝁
𝒙𝒙
𝒕𝒕 = 𝒔𝒔
√𝒏𝒏
Paso 4: Establecer la regla de decisión
Una regla de decisión establece las condiciones con las cuales se rechaza
la hipótesis nula y las condiciones con las cuales no se rechaza la
hipótesis nula. La región crítica, es el conjunto de todos los valores de la
estadística de prueba que harían rechazar la hipótesis nula. El valor

15
crítico, es el valor o valores que separan la región crítica de los valores de

la estadística de prueba que harían rechazar la hipótesis nula.
Así, en la tabla 2.2 se resumen las reglas de decisión.
Tabla 2.2 Tipo de prueba y regla de decisión
Tipo de Prueba Regla de decisión Conclusión
-Zcrit ≤ zcal ≤ + zcrit

Dos colas o
-tcrit ≤ tcal ≤ + tcrit
Zcal ≥ zcrit
Cola Izquierda o no rechazar la hipótesis nula
tcal ≥ tcrit
Zcal ≤ zcrit
Cola Derecha o
tcal ≤ tcrit
Paso 5: Conclusión
La afirmación original a veces se convierte en hipótesis nula y otras veces

se convierte en hipótesis alternativa. El proceso requiere que se pruebe la
hipótesis nula. Para ello se compara el estadístico de prueba (calculado)
con el estadístico crítico (que se obtiene de la tabla).
4.3.2. Prueba de hipótesis sobre la media de muestras

grandes
Los siguientes son los supuestos para probar una hipótesis respecto a la
media de una sola población:
 La muestra es grande (n≥30), así que el teorema de límite central

aplica y se usa la distribución normal.
 Al aplicar el teorema del límite central, se puede usar la desviación
estándar de la muestra s como un estimador de la desviación

16
estándar poblacional σ siempre que se desconozca σ y el tamaño

de la muestra sea grande (n≥30).
 Un valor p es la probabilidad de que la estadística de prueba sea
más extrema que la que se obtiene cuando la hipótesis nula es
verdadera.
Probar una hipótesis sobre la media de la población.
 Si se conoce la desviación estándar de la población, 𝜎𝜎 , la

estadística de prueba sigue la distribución normal estándar, z, y se
determina por:
𝑋𝑋� − 𝜇𝜇
𝑧𝑧 =
𝜎𝜎 ⁄√𝑛𝑛
 Si 𝜎𝜎 no se conoce, pero el tamaño de la muestra es mayor a 30, la

desviación estándar de la muestra, s, remplaza a 𝜎𝜎 :
𝑋𝑋� − 𝜇𝜇
𝑧𝑧 =
𝑠𝑠⁄√𝑛𝑛
Ejemplo: Como gerente de compras para una gran empresa de seguros

usted debe decidir si actualizar o no los computadores de la oficina. A
usted se le ha dicho que el costo promedio de los computadores es de
US$ 2100. Una muestra de 64 minoristas revela un precio promedio de
US$ 2251, con una desviación estándar de US$ 812. ¿A un nivel de
significancia del 5% parece que su información es correcta?
Datos: 𝜇𝜇 = $2,100 ; 𝑛𝑛 = 64; 𝑥𝑥̅ = $2,251; 𝑠𝑠 = $812 ; ∝= 5% = 0.05
1) Planteamiento de Hipótesis
𝐻𝐻0 : 𝜇𝜇 = $2,100 El costo promedio de los computadores es igual a US$

17
2100.
𝐻𝐻1 : 𝜇𝜇 ≠ $2,100 El costo promedio de los computadores es diferente de

US$ 2100.
2) Nivel de Significancia
Es una prueba de dos colas. se obtiene z crítico= ±1.96, de la tabla de

valores más comunes de nivel de significancia.
2.5% 2.5%
Z crítico Z crítico
-1.96 Z cal
1.96
1.487
3) Estadística de Prueba: Distribución “Z” porque n≥30
𝑥𝑥̅ − 𝜇𝜇 2251 − 2100

𝑍𝑍𝑍𝑍𝑍𝑍𝑍𝑍 = 𝑠𝑠 = = 1.487
812
√𝑛𝑛 √64
4) Reglas de Decisión
Si -1.96 ≤ 1.487 ≤ 1.96, no se rechaza la hipótesis nula.
5) Conclusión
A un nivel de significancia del 5% el costo promedio de los computadores

es igual a US$ 2100.
Ejemplo: La comisión promedio que cobran las compañías de corretaje

de servicio completo en una venta de valores comunes es $144, con una
desviación estándar de $52. Diana Cabrera tomó una muestra aleatoria de
121 transacciones de sus clientes y determinó que habían pagado una
comisión promedio de $151. A un nivel de significancia de 0.10, ¿puede
concluir Diana que las comisiones de sus clientes son mayores que el

18
promedio de la industria?
Datos: 𝑢𝑢 = 144 ; 𝑋𝑋� = 151 , 𝑛𝑛 = 121 ; σ = 52, ∝= 0.10
𝐻𝐻𝐻𝐻 = 𝑢𝑢 ≤ 144 Las comisiones de los clientes no son mayores que el

promedio de la industria.
𝐻𝐻𝐻𝐻 = 𝑢𝑢 > 144 Las comisiones de los clientes son mayores que el
promedio de la industria.
Es una prueba de cola derecha. Se ubica el área de bajo la curva en la
tabla de la distribución de la normal y se obtiene z crítico= 1.28
10%
Z crítico Z cal
1.28 1.481
3) Estadística de Prueba: Distribución “Z” porque n≥30
𝑋𝑋� − 𝑢𝑢 151 − 144

𝑍𝑍𝑍𝑍𝑍𝑍𝑍𝑍 = 𝜎𝜎 = = 1,48
52
√𝑛𝑛 √121
Si Zcal < 1.28, se rechaza la hipótesis nula por ser mayor y se acepta la
hipótesis alternativa

19
5) Conclusión
A un nivel de significancia de 0,10, Diana puede concluir que las

comisiones de sus clientes son mayores que el promedio de la industria.
4.3.3. Prueba de hipótesis sobre la media de muestras

pequeñas
La distribución t se utiliza como el estadístico de la prueba cuando:
 La población muestreada se aproxima a la distribución normal.

 No se conoce la desviación estándar de la población.
 La muestra contiene menos de 30 observaciones.
Las características de la distribución t son:
 Es una distribución continua.

 Tiene forma de campana de Gauss y es simétrica.
 Es más aplanada, o ancha, que la distribución normal estándar.
 Existe una familia de distribuciones t, dependiendo del número de
grados de libertad.
En una prueba de una muestra, se compara una sola media de muestra

con una media de población.
 La fórmula para el estadístico de prueba t es:

� −μ
X
t = s⁄
√n
 La fórmula para la desviación estándar es:

20
∑(𝑥𝑥 − 𝑥𝑥̅ )2
s=�
𝑛𝑛 − 1
donde 𝑋𝑋� es la media de la muestra, 𝜇𝜇 es la media de la población, s

es la desviación estándar de la muestra y n es el número de
observaciones en la muestra.
 Los grados de libertad son 𝑛𝑛 − 1.
Ejemplo: A continuación, se presenta una lista de tasas de rendimiento

por un año (reportadas en porcentaje) para una muestra de 12
mutualistas clasificadas como fondos de mercado de dinero gravable.
Utilizando el nivel de significancia de 0.05, ¿se puede concluir que la tasa
de rendimiento es mayor que 4.50%?
4.63 4.15 4.76 4.70 4.65 4.52

4.70 5.06 4.42 4.51 4.24 4.52
Datos:
n=12, ∝= 0.05, 𝜇𝜇 = 4.50%
Se determina la media y la desviación estándar de la muestra
∑ 𝑥𝑥 ∑(𝑥𝑥− 𝑥𝑥̅ )2
𝑥𝑥̅ = = 4.57 s = � = 0.000578 → 𝑠𝑠 = 0.2405
𝑛𝑛 𝑛𝑛−1
𝐻𝐻0 : 𝜇𝜇 ≤ 4.50%; 𝐿𝐿𝐿𝐿 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑒𝑒𝑒𝑒 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑜𝑜 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑎𝑎 4.50%
𝐻𝐻1 : 𝜇𝜇 > 4.50%; 𝐿𝐿𝐿𝐿 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑒𝑒𝑒𝑒 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎 4.50%
Como n< 30 debo aplica la fórmula para la distribución normal y utilizar el

estadístico “t”. Es una prueba de derecha. Con los grados de libertad
gl=n-1=11 y el nivel de significancia del 5%, se puede encontrar el t

21
crítico, en la tabla de la distribución t y se obtiene que t crítico= +1.796
5%
0
t crítico
t calculado 1.796
1.032
3) Estadística de Prueba: Distribución “t” porque n<30
𝑥𝑥̅ − 𝜇𝜇 4,57 − 4,5

𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑠𝑠 = 0,2405 = 1.032
√𝑛𝑛 √12
Si tcal < 1.796, no se rechaza la hipótesis nula.
5) Conclusión
A un nivel de significancia de 0,05, la tasa media de rendimiento es menor

al 4.5%
4.4. Modelos de regresión: Regresión lineal

simple
En esta parte de la presente unidad se habla de Regresión lineal y correlación.
¿Qué es el análisis de correlación? Se trata de un grupo de técnicas para medir

la asociación entre dos variables. Por lo general el primer paso es trazar los
datos en un diagrama de dispersión que consiste en un gráfico en el cual se
representan las variable independiente (o predictora) en el eje X y la variable

22
dependiente (o predecida) correspondiente en el eje y.
La dispersión de los datos la podemos definir como el grado de distanciamiento

de un conjunto de valores con respecto a la media. De este concepto, nacen
las medidas de dispersión (Rango, varianza, desviación estándar, etc.). de esta
manera, el diagrama de dispersión, que también se le conoce como gráfico de
dispersión o gráfico de correlación, consiste en la representación en un eje
coordenado de dos variables para un conjunto de datos. En otras palabras, se
analiza la relación entre dos variables gráficamente, como se afectan y que
independiente son entre sí.
Los valores de las dos variables se representan como puntos en el plano

cartesiano y de acuerdo a la relación que exista, se define el tipo de
correlación. Es importante elegir una escala adecuada en cada eje para realizar
dicho diagrama y además iniciar las escalas en valores cercanos a los valores
mínimos para evitar que una parte importante del diagrama queda vacío.
Gráfico 2.4 Ejemplo de un diagrama de dispersión
Diagrama de Dispersión
21
19
Notas de Examen Final
17
15
13
11
9
80 85 90 95 100 105 110 115 120 125
Cantidad de Alumnos
Coeficiente de Correlación: Una definición que entra en este estudio es el

Coeficiente de correlación. Esta medida describe la fuerza de la relación entre
dos conjuntos de variables en escala de intervalo o de razón. Esta medida se
representa por la letra r y también se conoce como r de Pearson, el apellido de

23
su creador. El valor de r puede variar entre -1 (correlación negativa perfecta) y

1 (correlación positiva perfecta). Un valor de 0 indica que no hay ninguna
relación entra las variables.
El coeficiente de correlación se calcular mediante la fórmula siguiente:
∑(𝑋𝑋 − 𝑋𝑋� )(𝑌𝑌 − 𝑌𝑌�)

𝑟𝑟 =
(𝑛𝑛 − 1)𝑆𝑆𝑋𝑋 𝑆𝑆𝑦𝑦
𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑:
∑ 𝑥𝑥
𝑋𝑋�: 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑑𝑑𝑑𝑑 𝑋𝑋, 𝑥𝑥� =
𝑛𝑛
∑ 𝑦𝑦
𝑌𝑌�: 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑑𝑑𝑑𝑑 𝑌𝑌, 𝑦𝑦
�=
𝑛𝑛
𝑆𝑆𝑋𝑋 𝑦𝑦 𝑆𝑆𝑦𝑦 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑙𝑙𝑙𝑙𝑙𝑙 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑡𝑡á𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙 𝑥𝑥 𝑦𝑦 𝑙𝑙𝑙𝑙𝑙𝑙 𝑦𝑦
�)2
∑(𝑥𝑥− 𝑥𝑥
𝑆𝑆𝑥𝑥 =� 𝑛𝑛−1
∑(𝑦𝑦 − 𝑦𝑦�)2
𝑆𝑆𝑦𝑦 = �
𝑛𝑛 − 1
Ejemplo:
Dados los siguientes valores de X e Y determinar el coeficiente de correlación r:
X Y (𝑋𝑋 − 𝑋𝑋�) (𝑌𝑌 − 𝑌𝑌� ) (𝑋𝑋 − 𝑋𝑋�)(𝑌𝑌 − 𝑌𝑌� )

5 31 -1.71 -3,37 5,76
6,6 34,2 -0,11 -0,17 0,02
4,6 32,5 -2,11 -1,87 3,94
3,2 29,3 -3,51 -5,07 17,79
8,6 36,8 1,89 2,43 4,60
9,1 38,9 2,39 4,53 10,83
7,7 35,4 0,99 1,03 1,02
8,1 36,1 1,39 1,73 2,41
7,5 35,1 0,79 0,73 0,58
60,4 309,3 46.94

24
𝑋𝑋� = 6.71
𝑌𝑌� = 34.37
Sx = 2.02
Sy = 2.99
2122.69
𝑟𝑟 = = 0.97
(8)2.02 ∗ 2.99
Análisis de regresión: Un análisis importante es el llamado análisis de

regresión, consiste mediante el método de los mínimos cuadrados en obtener
la ecuación de la recta de regresión.
La ecuación de la recta de regresión es:
𝑌𝑌 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 , 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑌𝑌 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒ó𝑛𝑛 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑢𝑢𝑢𝑢 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
𝑏𝑏 = 𝑟𝑟 𝑆𝑆𝑦𝑦 /𝑆𝑆𝑥𝑥
𝑎𝑎 = 𝑌𝑌� − 𝑏𝑏𝑋𝑋�
Ejemplo: En el ejemplo anterior, se obtuvo:
𝑋𝑋� = 6.71
𝑌𝑌� = 34.37
Sx = 2.02
Sy = 2.99
Entonces:
𝑏𝑏 = 𝑟𝑟 𝑆𝑆𝑦𝑦 /𝑆𝑆𝑥𝑥 = 1.44
𝑎𝑎 = 𝑌𝑌� − 𝑏𝑏𝑋𝑋� = 24.68
El Diagrama de dispersión con la recta de regresión se presenta a

continuación:

25
Diagrama de Dispersión
40
38
Notas de Examen Final
36
34
32
30
28
2 3 4 5 6 7 8 9 10
Cantidad de Alumnos
Podemos ver en el gráfico que las variables tienen una correlación positiva alta,
ya que se puede ver que la recta de regresión esta muy cerca de casi todos los
puntos.
Recursos complementarios
Videos de explicación de intervalos de confianza, pruebas de hipótesis y de

26
modelos de regresión
https://www.youtube.com/watch?v=2WlPJYMUxls&feature=youtu.be
https://www.youtube.com/watch?v=AJcy4eZMwWM

27
https://www.youtube.com/watch?v=SsFBnvkoZa4
Bibliografía
Levin, Rubin, y otros (2004). Estadística para la Administración y Economía.

Estados Unidos: Pearson.
Webster, A. (2012). Estadística Aplicada para la Administración y Economía.

Estados Unidos: Irwin.
Galindo, E. (1999). Estadística para la Administración y la Ingeniería. Ecuador:

Gráfica Mediavilla Hnos.

28

Estadistica Tema 4

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Tema 4

Cargado por

Copyright:

Formatos disponibles

Tema 4

4.1. Intervalos de confianza 3

Prueba de hipótesis y modelo de regresión

4.1. Intervalo de confianza

Un intervalo de confianza tiene un límite inferior de confianza (LCL) y un

Pr(𝐿𝐿𝐿𝐿𝐿𝐿 ≤ 𝑝𝑝𝑝𝑝𝑝𝑝á𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ≤ 𝑈𝑈𝑈𝑈𝑈𝑈) = 1 − 𝛼𝛼

Al intervalo que cumpla con estas condiciones se lo nombra como intervalo de

Es importante mencionar que mientras más confiabilidad se requiera en los

Interpretación de los intervalos de confianza:

Prueba de hipótesis y modelo de regresión

Un intervalo de confianza puede ser interpretado de dos maneras distintas:

a) Confía, al nivel de confianza estipulado, que el parámetro se encuentra

Esto puede ser interpretado entonces de la siguiente manera:

a) En sentido a priori (antes de calcular el intervalo) se puede decir que

b) La segunda interpretación parte de la consideración de que a partir de

Prueba de hipótesis y modelo de regresión

Estimación de la media poblacional: Intervalo de confianza para la media

Una de las más comunes aplicaciones de los intervalos de confianza es la de

a) Para muestras grandes: (tamaño de muestra mayor o igual a 30)

Un intervalo de confianza para la media poblacional µ, a un determinado nivel

distribución normal estándar

Nivel de confianza α α/2 Zα/2

90% 0,10 0,05 1,645

95% 0,05 0,025 1,960

98% 0,02 0,01 2,326

99% 0,01 0,005 2,576

Prueba de hipótesis y modelo de regresión

El director creativo de una fábrica de juguetes didácticos le ha pedido que

𝑥𝑥̅ = 7,2 días

𝑧𝑧𝛼𝛼�2 (valor z que corresponde al área de α/2) = 1,645

Entonces el intervalo de confianza para el tiempo medio de ejecución solicitado

Interpretación: Estoy 90% seguro de que el tiempo medio de ejecución del

Prueba de hipótesis y modelo de regresión

b) Para muestras pequeñas: (tamaño de muestra menor a 30)

Antes de hablar del intervalo de confianza para muestras pequeñas será

Estos valores dependen de los grados de libertad (gl) porque la ley de

La lectura de la tabla se hace de la siguiente manera;

a) Escoger el número r de grados de libertad de acuerdo al tamaño de la

Encontrar el valor de la ley t para una muestra de 7 personas y un nivel de

Con estos datos se sabe que:

Prueba de hipótesis y modelo de regresión

para el cual el área en el extremo superior es igual a α/2.

En una muestra de 16 estudiantes de una carrera se encontró una estatura

Entonces el intervalo de confianza para la media poblacional será:

Prueba de hipótesis y modelo de regresión

Interpretación: Estoy 95% seguro de que la estatura media de los estudiantes

4.2. Tamaño de muestra

a) La variabilidad de la población (σ2), que es un factor no controlable por

a) Tamaño de muestra para la media poblacional:

Debemos partir de que la variable tipifica z es igual a:

Prueba de hipótesis y modelo de regresión

En ciertas bibliografías encontrará la siguiente relación, que es equivalente a la

Se desea conocer la distancia promedio que corren semanalmente los

E = 0,2 km porque el intervalo es de la forma (𝑥𝑥̅ − 0,2; 𝑥𝑥̅ + 0,2)

Para un intervalo de confianza del 95% se tiene que el valor de z = 1,96

Es decir, que se necesita un tamaño de muestra mínimo de 1537 atletas. Si la

Prueba de hipótesis y modelo de regresión

4.3. Prueba de hipótesis

Procedimiento de cinco pasos: este proceso sistematiza una prueba una

Prueba de hipótesis y modelo de regresión

Paso 1: Plantear hipótesis

Existen dos clases de hipótesis:

H0 : µ = algún valor H0 : µ ≥ algún valor H0 : µ ≤ algún valor