Está en la página 1de 28

Tema 4

Estadística
Pruebas de hipótesis y modelos de regresión
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Índice Pág.

4.1. Intervalos de confianza 3


4.2. Tamaño de la muestra 11
4.3. Prueba de hipótesis 14
4.4. Modelos de regresión: Regresión simple 29

Recursos complementarios 32
Bibliografía 33

Prueba de hipótesis y modelo de regresión


2
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

4.1. Intervalo de confianza


Un intervalo de confianza se define como un “rango de valores calculado a
partir de los datos muestrales, el cual probablemente incluye el valor verdadero
de un parámetro desconocido” (Galindo, 1999)

Un intervalo de confianza tiene un límite inferior de confianza (LCL) y un


límite superior de confianza (UCL). A cada intervalo se le asocia una
probabilidad (1-α) de que contenga el valor verdadero del valor del parámetro
considerado. A tal probabilidad se la llama nivel de confianza (o coeficiente
de confianza). Es así entonces que:

Pr(𝐿𝐿𝐿𝐿𝐿𝐿 ≤ 𝑝𝑝𝑝𝑝𝑝𝑝á𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ≤ 𝑈𝑈𝑈𝑈𝑈𝑈) = 1 − 𝛼𝛼

Al intervalo que cumpla con estas condiciones se lo nombra como intervalo de


confianza al 100 (1-α)% (α se conoce como nivel de significancia)

Para tener resultados fiables, el nivel de confianza debe ser alto (muy cercano
a 1) por lo que normalmente toma valores de 0,90; 0,95; 0,99. (90%, 95%, 99%
expresados como porcentajes)

Es importante mencionar que mientras más confiabilidad se requiera en los


resultados el nivel de confianza deberá ser mayor y por lo tanto la anchura del
intervalo; sin embargo, hay una contrapartida ya que, si bien se está seguro de
que el intervalo contiene el valor verdadero del parámetro, el intervalo de
confianza es más ancho y menos preciso. Obviamente una mayor confiabilidad
se obtendrá también con un tamaño de muestra mayor, cuyo análisis se
realizará en el transcurso de la unidad.

Interpretación de los intervalos de confianza:

Prueba de hipótesis y modelo de regresión


3
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Un intervalo de confianza puede ser interpretado de dos maneras distintas:

a) Confía, al nivel de confianza estipulado, que el parámetro se encuentra


en el intervalo determinado
b) Si se construyen todos los intervalos de confianza posibles, el porcentaje
de ellos que incluirá el parámetro desconocido coincide con el nivel de
confianza considerado.

Por ejemplo:
La directora de un centro de cuidado infantil de la ciudad de Quito ha
determinado que los gastos medios en medicina preventiva para los niños de
su centro están en un intervalo de 35 a 38 dólares calculado a un nivel de
confianza del 95%.

Esto puede ser interpretado entonces de la siguiente manera:

a) En sentido a priori (antes de calcular el intervalo) se puede decir que


existe un 95% de probabilidad de construir un intervalo que comprenda
la media poblacional. Sin embargo, una vez que se ha calculado el
intervalo, la probabilidad de que en el intervalo entre 35 y 38 se
encuentre la media poblacional es 1 o 0 y no del 95%, ya que el valor de
95% se asigna al grado de confianza de que se encuentre en el
intervalo, no a la probabilidad de que esté en él.

b) La segunda interpretación parte de la consideración de que a partir de


cualquier población se pueden tomar infinitas muestras diferentes de
tamaño n. Cada muestra dará lugar a un intervalo ligeramente distinto
porque cada una de ellas tiene una media algo diferente afirmándose
que en el 95% de estos intervalos se incluirá la media poblacional
desconocida.

Prueba de hipótesis y modelo de regresión


4
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Estimación de la media poblacional: Intervalo de confianza para la media


poblacional

Una de las más comunes aplicaciones de los intervalos de confianza es la de


estimar la media poblacional. Se toman dos consideraciones:

a) Para muestras grandes: (tamaño de muestra mayor o igual a 30)

Un intervalo de confianza para la media poblacional µ, a un determinado nivel


de confianza, viene dado por la ecuación:

𝜎𝜎 𝜎𝜎
�𝑥𝑥̅ − 𝑧𝑧𝛼𝛼� ; 𝑥𝑥̅ + 𝑧𝑧𝛼𝛼�2 �
2
√𝑛𝑛 √𝑛𝑛

donde:
n es el tamaño de la muestra
σ es la desviación estándar de la población
𝑧𝑧𝛼𝛼�2 es el valor z que corresponde al área de α/2 en el extremo superior de la

distribución normal estándar


Es importante mencionar que si se desconoce el valor de σ puede
reemplazarse por su estimador muestral, sin pérdida de exactitud.
Los valores más comunes utilizados como niveles de confianza con sus
respectivos valores de z son:

Nivel de confianza α α/2 Zα/2

90% 0,10 0,05 1,645

95% 0,05 0,025 1,960

98% 0,02 0,01 2,326

99% 0,01 0,005 2,576

Prueba de hipótesis y modelo de regresión


5
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Ejemplo:

El director creativo de una fábrica de juguetes didácticos le ha pedido que


estime el tiempo medio necesario para producir una unidad concreta del
proceso de fabricación. Una muestra de 600 unidades da una media de 7,2
días. Se sabe que la desviación estándar es de 1,90 días. A un nivel de
confianza del 90%, calcular el correspondiente intervalo de confianza para el
tiempo medio de ejecución del proceso de fabricación.

Datos:

𝑥𝑥̅ = 7,2 días

n = 600

σ =1,90 días

Nivel de confianza = 90% (0,90), es decir que α = 1- 0,90 = 0,10. Por lo tanto
α/2 = 0,05

𝑧𝑧𝛼𝛼�2 (valor z que corresponde al área de α/2) = 1,645

Entonces el intervalo de confianza para el tiempo medio de ejecución solicitado


será:
𝜎𝜎 𝜎𝜎
�𝑥𝑥̅ − 𝑧𝑧𝛼𝛼� ; 𝑥𝑥̅ + 𝑧𝑧𝛼𝛼�2 �
2
√𝑛𝑛 √𝑛𝑛

1,90 1,90
�7,2 − 1,645 × ; 7,2 + 1,645 × �
√600 √600
(7,2 − 0.128; 7,2 + 0,128)
(7,072 ; 7,328)

Interpretación: Estoy 90% seguro de que el tiempo medio de ejecución del


proceso de fabricación está entre 7,072 días y 7,328 días.

Prueba de hipótesis y modelo de regresión


6
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

b) Para muestras pequeñas: (tamaño de muestra menor a 30)

Antes de hablar del intervalo de confianza para muestras pequeñas será


necesario revisar el tema sobre Distribución T de Student.

Distribución T de Student:

Cuando hay que tomar una muestra pequeña, la distribución normal no siempre
es la adecuada. En concreto, cuando la muestra es pequeña y la desviación
estándar es desconocida, no se deberá aplicar la distribución z recurriéndose a
una distribución alternativa llamada T de Student.

Estos valores dependen de los grados de libertad (gl) porque la ley de


probabilidad t varía cuando n varía. Cuando n aumenta, la distribución t tiende
hacia la normal estándar.

La lectura de la tabla se hace de la siguiente manera;

a) Escoger el número r de grados de libertad de acuerdo al tamaño de la


muestra
b) Considerar la probabilidad α, según el nivel de confianza
c) Lee los valores obtenidos de t en la tabla (recuerde que se lee: el valor t
a r grados de libertad y nivel de significancia α)

Ejemplo:

Encontrar el valor de la ley t para una muestra de 7 personas y un nivel de


confianza de 95%.

Con estos datos se sabe que:


Grados de libertad = r = tamaño de la muestra = 7
Nivel de confianza = 95% (0,95), es decir que α = 1-0,95 = 0,05

Prueba de hipótesis y modelo de regresión


7
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Con estos dos datos entrando a la tabla se obtiene que el valor t buscado es de
= 1,895.
Intervalo de confianza:
Para construir un intervalo de confianza para la media en muestras pequeñas,
debemos basar nuestra ecuación en la distribución t, por lo tanto, quedará
establecida de la siguiente manera:

𝑠𝑠 𝑠𝑠
�𝑥𝑥̅ − 𝑡𝑡𝛼𝛼� ; 𝑥𝑥̅ + 𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) �
2(𝑛𝑛−1)
√𝑛𝑛 √𝑛𝑛

donde:
n es el tamaño de la muestra
s es la desviación estándar muestral
𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) es el valor de la distribución t de Student a (n-1) grados de libertad,

para el cual el área en el extremo superior es igual a α/2.

Ejemplo:

En una muestra de 16 estudiantes de una carrera se encontró una estatura


media de 164.5 cm con una desviación estándar de 8.3 cm Calcular e
interpretar un intervalo de confianza de 95% para la media poblacional.
Datos:

𝑥𝑥̅ = 164,5 cm
n = 16, es decir n-1 = 16 -1 = 15
s = 8,3 cm
Nivel de confianza = 95% (0,95), es decir que α = 1- 0,95 = 0,05. Por lo tanto, α/2 =
0,025
𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) (el valor t a 15 grados de libertad y un nivel de significancia 0,025) =

2,131

Entonces el intervalo de confianza para la media poblacional será:

Prueba de hipótesis y modelo de regresión


8
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

𝑠𝑠 𝑠𝑠
�𝑥𝑥̅ − 𝑡𝑡𝛼𝛼� ; 𝑥𝑥̅ + 𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) �
2(𝑛𝑛−1)
√𝑛𝑛 √𝑛𝑛
8,3 8,3
�164,5 − 2,131 × ; 164,5 + 2,131 �
√16 √16
(164,5 − 4,422; 164,5 + 4,422)
(160,078 ; 168,922)

Interpretación: Estoy 95% seguro de que la estatura media de los estudiantes


de una carrera está entre 160.078 cm y 168.922 cm

4.2. Tamaño de muestra


El tamaño de la muestra es importante en la determinación de la probabilidad
del error y la precisión de la estimación. Tomando en consideración el nivel de
confianza, existen dos factores que inciden en el tamaño muestral:

a) La variabilidad de la población (σ2), que es un factor no controlable por


el investigador.
b) El grado de error que se puede aceptar, que es un factor que depende
de lo crítico que sea el trabajo sobre el cual se está analizando el
parámetro. Es importante mencionar que cualquier intervalo dado tiene
una amplitud igual al doble del error tolerable.

a) Tamaño de muestra para la media poblacional:

Debemos partir de que la variable tipifica z es igual a:

𝑥𝑥̅ − 𝜇𝜇 𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 = =
𝜎𝜎𝑥𝑥 𝜎𝜎/√𝑛𝑛
despejando n se tiene:
𝑧𝑧 2 𝜎𝜎 2
𝑛𝑛 =
(𝑥𝑥̅ − 𝜇𝜇 )2

Prueba de hipótesis y modelo de regresión


9
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

En ciertas bibliografías encontrará la siguiente relación, que es equivalente a la


anterior:
2
�𝑧𝑧𝛼𝛼⁄2 � (𝜎𝜎)2
𝑛𝑛 =
𝐸𝐸2
donde, 𝑥𝑥̅ − 𝜇𝜇 es el error permitido o tolerable ( E ).
𝑥𝑥̅ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝜇𝜇 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝ó𝑛𝑛

Ejemplo:

Se desea conocer la distancia promedio que corren semanalmente los


miembros del club de carreras de fondo “Correr es Vivir”. Por estudios
anteriores se conoce que la desviación estándar de estas distancias es 4 km.
¿A cuántos atletas habrá que muestrear si la estimación debe quedar a menos
de 0,2 km con un nivel de confianza del 95%?

Datos:
σ = 4 km

E = 0,2 km porque el intervalo es de la forma (𝑥𝑥̅ − 0,2; 𝑥𝑥̅ + 0,2)

Para un intervalo de confianza del 95% se tiene que el valor de z = 1,96

Entonces:
𝑧𝑧 2 𝜎𝜎 2
𝑛𝑛 =
(𝑥𝑥̅ − 𝜇𝜇 )2

(1,96)2 (4)2
𝑛𝑛 = = 1536,64
(0,2)2

Es decir, que se necesita un tamaño de muestra mínimo de 1537 atletas. Si la


muestra fuera demasiado alta, es necesario aumentar el error permitido.

Prueba de hipótesis y modelo de regresión


10
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

4.3. Prueba de hipótesis


4.3.1. Fundamento de las pruebas de hipótesis
En el análisis estadístico se hace una aseveración de la población. Para
verificar si la afirmación es razonable se usan datos. En la mayor parte de
los casos la población es tan grande que por diversas razones, es
necesario tomar una muestra de la población. Por tanto, a partir de la
muestra se puede probar la afirmación para determinar si la evidencia
empírica de la muestra fundamenta o no la afirmación relativa a la
población. Así, hipótesis es un enunciado de una población elaborado
con el propósito de poner a prueba; y el procedimiento, basado en la
evidencia de la muestra y la teoría de la probabilidad, que se utiliza
para determinar si la hipótesis es una afirmación razonable se
denomina prueba de hipótesis.
Existen tres métodos para probar hipótesis que aparentemente son
distintos pero que son equivalentes en el sentido de que siempre llevan a
las mismas conclusiones. El primer procedimiento es el método
tradicional o de cinco pasos, que será el que se usa en este curso. El
segundo procedimiento, basado en los valores de P, y el tercer
procedimiento basado en intervalos de confianza.

Procedimiento de cinco pasos: este proceso sistematiza una prueba una


hipótesis. Al llegar al quinto paso aporta una clase de evidencia “más allá
de la duda razonable”, en forma similar a un proceso judicial. El gráfico 2.1,
resume los pasos del método tradicional.

Prueba de hipótesis y modelo de regresión


11
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Paso 1: Plantear hipótesis

Existen dos clases de hipótesis:


 Hipótesis nula (denotada por Ho) es una declaración acerca del
valor del parámetro de la población y debe contener la condición de
igualdad escrita con los símbolos =, ≥ o ≤. En el caso de la
media, la hipótesis nula se expresa en una de las tres formas:

H0 : µ = algún valor H0 : µ ≥ algún valor H0 : µ ≤ algún valor

 Hipótesis alternativa (denotada por H1) es la declaración que debe


ser verdad si la hipótesis nula es falsa. En el caso de la media, la
hipótesis alternativa se enuncia en una de las tres formas:

H1 : µ ≠ algún valor H1 : µ < algún valor H1 : µ > algún valor

Con las hipótesis ya planteadas, podemos determinar si es una prueba


de una cola (izquierda o derecha) o 2 colas de acuerdo con el siguiente
gráfico:

Prueba de hipótesis y modelo de regresión


12
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

En el gráfico 2.2, pruebas de significancia, se resume una verificación útil.


Las colas de una distribución son las regiones extremas delimitadas por
los valores críticos. En las pruebas de dos colas, el nivel de significancia α
se divide equitativamente entre las dos colas que constituyen la región
crítica.

Paso 2: Nivel de significancia y determinar valores críticos

Nuestro nivel de significancia puede estar en valor numérico (0.05, 0.10,


etc.) o en porcentaje (5%, 10%, etc.), dependiendo si es una muestra
grande o pequeña, utilizaremos la prueba z o t según el caso.

Para determinar los valores críticos, en muestras grandes utilizamos los


valores de la tabla z:

Prueba de hipótesis y modelo de regresión


13
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Si tenemos muestras pequeñas (n<30), utilizamos la tabla t student para


determinar los valores críticos, esto se logra con el nivel de significancia y
los grados de libertad (n-1).

Paso 3: Determinar el estadístico de prueba

Un estadístico de prueba es un valor basado en los datos de muestra.


Existen muchos estadísticos de prueba, los más utilizados y los que
aplicaremos serán z y t, esto depende del tamaño de la muestra.

𝑥𝑥̅ − 𝜇𝜇 𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 = 𝜎𝜎 (𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔) ; 𝑡𝑡 = 𝑠𝑠 (𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝ñ𝑎𝑎)
√𝑛𝑛 √𝑛𝑛

𝑥𝑥̅ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚


𝜇𝜇 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝ó𝑛𝑛
𝑠𝑠 − 𝜎𝜎 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑ó𝑛𝑛 𝑒𝑒𝑒𝑒𝑒𝑒á𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛
𝑛𝑛 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

Prueba de hipótesis y modelo de regresión


14
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Gráfico 2.3 Cómo escoger entre distribución normal y t Student

INICIO
Use la distribución normal con:

SI
� − 𝝁𝝁
𝒙𝒙
𝒛𝒛 = 𝝈𝝈
¿Es n ≥ 30?
√𝒏𝒏

(si desconoce σ, use s)


SI

USE MÉTODOS NO
¿Es la distribución
PARAMÉTRICOS QUE
NO NO REQUIEREN DE
poblacional
normal? UNADISTRIBUCIÓN
NORMAL

Use la distribución normal con:


SI
� − 𝝁𝝁
𝒙𝒙
𝒛𝒛 = 𝝈𝝈
SI √𝒏𝒏
¿Se conoce σ?
(si desconoce σ, use s)

SI

Use la distribución t con:

� − 𝝁𝝁
𝒙𝒙
𝒕𝒕 = 𝒔𝒔
√𝒏𝒏

Paso 4: Establecer la regla de decisión

Una regla de decisión establece las condiciones con las cuales se rechaza
la hipótesis nula y las condiciones con las cuales no se rechaza la
hipótesis nula. La región crítica, es el conjunto de todos los valores de la
estadística de prueba que harían rechazar la hipótesis nula. El valor

Prueba de hipótesis y modelo de regresión


15
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

crítico, es el valor o valores que separan la región crítica de los valores de


la estadística de prueba que harían rechazar la hipótesis nula.

Así, en la tabla 2.2 se resumen las reglas de decisión.

Tabla 2.2 Tipo de prueba y regla de decisión

Tipo de Prueba Regla de decisión Conclusión

-Zcrit ≤ zcal ≤ + zcrit


Dos colas o
-tcrit ≤ tcal ≤ + tcrit
Zcal ≥ zcrit
Cola Izquierda o no rechazar la hipótesis nula
tcal ≥ tcrit

Zcal ≤ zcrit
Cola Derecha o
tcal ≤ tcrit

Paso 5: Conclusión

La afirmación original a veces se convierte en hipótesis nula y otras veces


se convierte en hipótesis alternativa. El proceso requiere que se pruebe la
hipótesis nula. Para ello se compara el estadístico de prueba (calculado)
con el estadístico crítico (que se obtiene de la tabla).

4.3.2. Prueba de hipótesis sobre la media de muestras


grandes
Los siguientes son los supuestos para probar una hipótesis respecto a la
media de una sola población:

 La muestra es grande (n≥30), así que el teorema de límite central


aplica y se usa la distribución normal.
 Al aplicar el teorema del límite central, se puede usar la desviación
estándar de la muestra s como un estimador de la desviación

Prueba de hipótesis y modelo de regresión


16
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

estándar poblacional σ siempre que se desconozca σ y el tamaño


de la muestra sea grande (n≥30).
 Un valor p es la probabilidad de que la estadística de prueba sea
más extrema que la que se obtiene cuando la hipótesis nula es
verdadera.

Probar una hipótesis sobre la media de la población.

 Si se conoce la desviación estándar de la población, 𝜎𝜎 , la


estadística de prueba sigue la distribución normal estándar, z, y se
determina por:

𝑋𝑋� − 𝜇𝜇
𝑧𝑧 =
𝜎𝜎 ⁄√𝑛𝑛

 Si 𝜎𝜎 no se conoce, pero el tamaño de la muestra es mayor a 30, la


desviación estándar de la muestra, s, remplaza a 𝜎𝜎 :

𝑋𝑋� − 𝜇𝜇
𝑧𝑧 =
𝑠𝑠⁄√𝑛𝑛

Ejemplo: Como gerente de compras para una gran empresa de seguros


usted debe decidir si actualizar o no los computadores de la oficina. A
usted se le ha dicho que el costo promedio de los computadores es de
US$ 2100. Una muestra de 64 minoristas revela un precio promedio de
US$ 2251, con una desviación estándar de US$ 812. ¿A un nivel de
significancia del 5% parece que su información es correcta?

Datos: 𝜇𝜇 = $2,100 ; 𝑛𝑛 = 64; 𝑥𝑥̅ = $2,251; 𝑠𝑠 = $812 ; ∝= 5% = 0.05

1) Planteamiento de Hipótesis

𝐻𝐻0 : 𝜇𝜇 = $2,100 El costo promedio de los computadores es igual a US$

Prueba de hipótesis y modelo de regresión


17
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

2100.

𝐻𝐻1 : 𝜇𝜇 ≠ $2,100 El costo promedio de los computadores es diferente de


US$ 2100.

2) Nivel de Significancia

Es una prueba de dos colas. se obtiene z crítico= ±1.96, de la tabla de


valores más comunes de nivel de significancia.

2.5% 2.5%
Z crítico Z crítico
-1.96 Z cal
1.96
1.487

3) Estadística de Prueba: Distribución “Z” porque n≥30

𝑥𝑥̅ − 𝜇𝜇 2251 − 2100


𝑍𝑍𝑍𝑍𝑍𝑍𝑍𝑍 = 𝑠𝑠 = = 1.487
812
√𝑛𝑛 √64

4) Reglas de Decisión

Si -1.96 ≤ 1.487 ≤ 1.96, no se rechaza la hipótesis nula.

5) Conclusión

A un nivel de significancia del 5% el costo promedio de los computadores


es igual a US$ 2100.

Ejemplo: La comisión promedio que cobran las compañías de corretaje


de servicio completo en una venta de valores comunes es $144, con una
desviación estándar de $52. Diana Cabrera tomó una muestra aleatoria de
121 transacciones de sus clientes y determinó que habían pagado una
comisión promedio de $151. A un nivel de significancia de 0.10, ¿puede
concluir Diana que las comisiones de sus clientes son mayores que el

Prueba de hipótesis y modelo de regresión


18
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

promedio de la industria?

Datos: 𝑢𝑢 = 144 ; 𝑋𝑋� = 151 , 𝑛𝑛 = 121 ; σ = 52, ∝= 0.10

1) Planteamiento de Hipótesis

𝐻𝐻𝐻𝐻 = 𝑢𝑢 ≤ 144 Las comisiones de los clientes no son mayores que el


promedio de la industria.

𝐻𝐻𝐻𝐻 = 𝑢𝑢 > 144 Las comisiones de los clientes son mayores que el
promedio de la industria.

2) Nivel de Significancia
Es una prueba de cola derecha. Se ubica el área de bajo la curva en la
tabla de la distribución de la normal y se obtiene z crítico= 1.28

10%
Z crítico Z cal
1.28 1.481

3) Estadística de Prueba: Distribución “Z” porque n≥30

𝑋𝑋� − 𝑢𝑢 151 − 144


𝑍𝑍𝑍𝑍𝑍𝑍𝑍𝑍 = 𝜎𝜎 = = 1,48
52
√𝑛𝑛 √121

4) Reglas de Decisión

Si Zcal < 1.28, se rechaza la hipótesis nula por ser mayor y se acepta la
hipótesis alternativa

Prueba de hipótesis y modelo de regresión


19
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

5) Conclusión

A un nivel de significancia de 0,10, Diana puede concluir que las


comisiones de sus clientes son mayores que el promedio de la industria.

4.3.3. Prueba de hipótesis sobre la media de muestras


pequeñas

La distribución t se utiliza como el estadístico de la prueba cuando:

 La población muestreada se aproxima a la distribución normal.


 No se conoce la desviación estándar de la población.
 La muestra contiene menos de 30 observaciones.

Las características de la distribución t son:

 Es una distribución continua.


 Tiene forma de campana de Gauss y es simétrica.
 Es más aplanada, o ancha, que la distribución normal estándar.
 Existe una familia de distribuciones t, dependiendo del número de
grados de libertad.

En una prueba de una muestra, se compara una sola media de muestra


con una media de población.

 La fórmula para el estadístico de prueba t es:


� −μ
X
t = s⁄
√n

 La fórmula para la desviación estándar es:

Prueba de hipótesis y modelo de regresión


20
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

∑(𝑥𝑥 − 𝑥𝑥̅ )2
s=�
𝑛𝑛 − 1

donde 𝑋𝑋� es la media de la muestra, 𝜇𝜇 es la media de la población, s


es la desviación estándar de la muestra y n es el número de
observaciones en la muestra.
 Los grados de libertad son 𝑛𝑛 − 1.

Ejemplo: A continuación, se presenta una lista de tasas de rendimiento


por un año (reportadas en porcentaje) para una muestra de 12
mutualistas clasificadas como fondos de mercado de dinero gravable.
Utilizando el nivel de significancia de 0.05, ¿se puede concluir que la tasa
de rendimiento es mayor que 4.50%?

4.63 4.15 4.76 4.70 4.65 4.52


4.70 5.06 4.42 4.51 4.24 4.52
Datos:

n=12, ∝= 0.05, 𝜇𝜇 = 4.50%

Se determina la media y la desviación estándar de la muestra

∑ 𝑥𝑥 ∑(𝑥𝑥− 𝑥𝑥̅ )2
𝑥𝑥̅ = = 4.57 s = � = 0.000578 → 𝑠𝑠 = 0.2405
𝑛𝑛 𝑛𝑛−1

1) Planteamiento de Hipótesis

𝐻𝐻0 : 𝜇𝜇 ≤ 4.50%; 𝐿𝐿𝐿𝐿 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑒𝑒𝑒𝑒 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑜𝑜 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑎𝑎 4.50%

𝐻𝐻1 : 𝜇𝜇 > 4.50%; 𝐿𝐿𝐿𝐿 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑒𝑒𝑒𝑒 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎 4.50%

2) Nivel de Significancia

Como n< 30 debo aplica la fórmula para la distribución normal y utilizar el


estadístico “t”. Es una prueba de derecha. Con los grados de libertad
gl=n-1=11 y el nivel de significancia del 5%, se puede encontrar el t

Prueba de hipótesis y modelo de regresión


21
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

crítico, en la tabla de la distribución t y se obtiene que t crítico= +1.796

5%
0
t crítico
t calculado 1.796
1.032

3) Estadística de Prueba: Distribución “t” porque n<30

𝑥𝑥̅ − 𝜇𝜇 4,57 − 4,5


𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑠𝑠 = 0,2405 = 1.032
√𝑛𝑛 √12

4) Reglas de Decisión

Si tcal < 1.796, no se rechaza la hipótesis nula.

5) Conclusión

A un nivel de significancia de 0,05, la tasa media de rendimiento es menor


al 4.5%

4.4. Modelos de regresión: Regresión lineal


simple
En esta parte de la presente unidad se habla de Regresión lineal y correlación.

¿Qué es el análisis de correlación? Se trata de un grupo de técnicas para medir


la asociación entre dos variables. Por lo general el primer paso es trazar los
datos en un diagrama de dispersión que consiste en un gráfico en el cual se
representan las variable independiente (o predictora) en el eje X y la variable

Prueba de hipótesis y modelo de regresión


22
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

dependiente (o predecida) correspondiente en el eje y.

La dispersión de los datos la podemos definir como el grado de distanciamiento


de un conjunto de valores con respecto a la media. De este concepto, nacen
las medidas de dispersión (Rango, varianza, desviación estándar, etc.). de esta
manera, el diagrama de dispersión, que también se le conoce como gráfico de
dispersión o gráfico de correlación, consiste en la representación en un eje
coordenado de dos variables para un conjunto de datos. En otras palabras, se
analiza la relación entre dos variables gráficamente, como se afectan y que
independiente son entre sí.

Los valores de las dos variables se representan como puntos en el plano


cartesiano y de acuerdo a la relación que exista, se define el tipo de
correlación. Es importante elegir una escala adecuada en cada eje para realizar
dicho diagrama y además iniciar las escalas en valores cercanos a los valores
mínimos para evitar que una parte importante del diagrama queda vacío.

Gráfico 2.4 Ejemplo de un diagrama de dispersión

Diagrama de Dispersión
21

19
Notas de Examen Final

17

15

13

11

9
80 85 90 95 100 105 110 115 120 125
Cantidad de Alumnos

Coeficiente de Correlación: Una definición que entra en este estudio es el


Coeficiente de correlación. Esta medida describe la fuerza de la relación entre
dos conjuntos de variables en escala de intervalo o de razón. Esta medida se
representa por la letra r y también se conoce como r de Pearson, el apellido de

Prueba de hipótesis y modelo de regresión


23
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

su creador. El valor de r puede variar entre -1 (correlación negativa perfecta) y


1 (correlación positiva perfecta). Un valor de 0 indica que no hay ninguna
relación entra las variables.

El coeficiente de correlación se calcular mediante la fórmula siguiente:

∑(𝑋𝑋 − 𝑋𝑋� )(𝑌𝑌 − 𝑌𝑌�)


𝑟𝑟 =
(𝑛𝑛 − 1)𝑆𝑆𝑋𝑋 𝑆𝑆𝑦𝑦

𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑:

∑ 𝑥𝑥
𝑋𝑋�: 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑑𝑑𝑑𝑑 𝑋𝑋, 𝑥𝑥� =
𝑛𝑛

∑ 𝑦𝑦
𝑌𝑌�: 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑑𝑑𝑑𝑑 𝑌𝑌, 𝑦𝑦
�=
𝑛𝑛

𝑆𝑆𝑋𝑋 𝑦𝑦 𝑆𝑆𝑦𝑦 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑙𝑙𝑙𝑙𝑙𝑙 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑡𝑡á𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙 𝑥𝑥 𝑦𝑦 𝑙𝑙𝑙𝑙𝑙𝑙 𝑦𝑦

�)2
∑(𝑥𝑥− 𝑥𝑥
𝑆𝑆𝑥𝑥 =� 𝑛𝑛−1

∑(𝑦𝑦 − 𝑦𝑦�)2
𝑆𝑆𝑦𝑦 = �
𝑛𝑛 − 1

Ejemplo:

Dados los siguientes valores de X e Y determinar el coeficiente de correlación r:

X Y (𝑋𝑋 − 𝑋𝑋�) (𝑌𝑌 − 𝑌𝑌� ) (𝑋𝑋 − 𝑋𝑋�)(𝑌𝑌 − 𝑌𝑌� )


5 31 -1.71 -3,37 5,76
6,6 34,2 -0,11 -0,17 0,02
4,6 32,5 -2,11 -1,87 3,94
3,2 29,3 -3,51 -5,07 17,79
8,6 36,8 1,89 2,43 4,60
9,1 38,9 2,39 4,53 10,83
7,7 35,4 0,99 1,03 1,02
8,1 36,1 1,39 1,73 2,41
7,5 35,1 0,79 0,73 0,58
60,4 309,3 46.94

Prueba de hipótesis y modelo de regresión


24
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

𝑋𝑋� = 6.71

𝑌𝑌� = 34.37

Sx = 2.02

Sy = 2.99

2122.69
𝑟𝑟 = = 0.97
(8)2.02 ∗ 2.99

Análisis de regresión: Un análisis importante es el llamado análisis de


regresión, consiste mediante el método de los mínimos cuadrados en obtener
la ecuación de la recta de regresión.

La ecuación de la recta de regresión es:

𝑌𝑌 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 , 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑌𝑌 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒ó𝑛𝑛 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑌𝑌 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑢𝑢𝑢𝑢 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑋𝑋 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠

𝑏𝑏 = 𝑟𝑟 𝑆𝑆𝑦𝑦 /𝑆𝑆𝑥𝑥

𝑎𝑎 = 𝑌𝑌� − 𝑏𝑏𝑋𝑋�

Ejemplo: En el ejemplo anterior, se obtuvo:

𝑋𝑋� = 6.71

𝑌𝑌� = 34.37

Sx = 2.02

Sy = 2.99

Entonces:

𝑏𝑏 = 𝑟𝑟 𝑆𝑆𝑦𝑦 /𝑆𝑆𝑥𝑥 = 1.44

𝑎𝑎 = 𝑌𝑌� − 𝑏𝑏𝑋𝑋� = 24.68

El Diagrama de dispersión con la recta de regresión se presenta a


continuación:

Prueba de hipótesis y modelo de regresión


25
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Diagrama de Dispersión
40

38
Notas de Examen Final

36

34

32

30

28
2 3 4 5 6 7 8 9 10
Cantidad de Alumnos

Podemos ver en el gráfico que las variables tienen una correlación positiva alta,
ya que se puede ver que la recta de regresión esta muy cerca de casi todos los
puntos.

Recursos complementarios

Videos de explicación de intervalos de confianza, pruebas de hipótesis y de

Prueba de hipótesis y modelo de regresión


26
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

modelos de regresión

https://www.youtube.com/watch?v=2WlPJYMUxls&feature=youtu.be

https://www.youtube.com/watch?v=AJcy4eZMwWM

Prueba de hipótesis y modelo de regresión


27
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

https://www.youtube.com/watch?v=SsFBnvkoZa4

Bibliografía

Levin, Rubin, y otros (2004). Estadística para la Administración y Economía.


Estados Unidos: Pearson.

Webster, A. (2012). Estadística Aplicada para la Administración y Economía.


Estados Unidos: Irwin.

Galindo, E. (1999). Estadística para la Administración y la Ingeniería. Ecuador:


Gráfica Mediavilla Hnos.

Prueba de hipótesis y modelo de regresión


28

También podría gustarte