Está en la página 1de 68

UNIVERSIDAD NACIONAL DE TRUJILLO

DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA


CURSO: ESTADÍSTICA GENERAL
Escuela Profesional de Ingeniería Agrícola
SEMANAS: 11, 12, 13, 14

Docente: Rosa Gutiérrez de Alarcón


UNIDAD III: INTRODUCCIÓN A LA
INFERENCIA ESTADÍSTICA

ESTIMACION DE
SEMANA 11
PARÁMETROS

RDGA 2
RDGA 3
INFERENCIA ESTADÍSTICA
La inferencia estadística o estadística inferencial se refiere a un
conjunto de métodos mediante los cuales podemos hacer
afirmaciones con respecto a una población completa a partir
únicamente de la observación de una parte de ella.

El objetivo de la Inferencia
Estadística es deducir características
de las poblaciones a partir de la
evidencia obtenida en las muestras.

Procedimientos para hacer inferencia sobre


los parámetros de una población:

1. Estimación (predicción) del parámetro poblacional de interés


2. Pruebas de hipótesis sobre el valor del parámetro

RDGA 4
ESTIMACIÓN
La estimación de parámetros tiene por finalidad asignar valores a los
parámetros poblacionales a partir de medidas obtenidas en las muestras.
hay dos formas de estimar un parámetro poblacional:
Parámetro Estimador (obtenido a
Estimación puntual: Poblacional partir de una muestra)
Es un estadístico calculado a partir de Media: µ Media muestral X
información de la muestra para
Varianza: σ2 Varianza muestral S2
estimar el parámetro poblacional.
Proporción: P Proporción muestral p

No es posible encontrar a partir de una muestra un valor idéntico al


parámetro que se estima. Por ello, es necesario que la estimación puntual
esté acompañada de una medida del posible error de esa estimación (𝒆).
Esto puede hacerse determinando un intervalo que incluya al verdadero
valor del parámetro con un cierto nivel de confianza (1 − 𝛼 = γ).
Sea  un parámetro poblacional desconocido, y 𝜃෡ su estimador, entonces:
𝑷 𝜽෡−𝒆 ≤𝜽 ≤𝜽 ෡+𝒆 =𝟏−𝜶=𝜸
RDGA 5
ESTIMACIÓN
Intervalo de confianza:
Es un conjunto de valores formado a partir de una muestra de datos de tal
manera que exista la posibilidad de que el parámetro poblacional ocurra
dentro de dicho conjunto con una probabilidad alta.

𝑃 𝜃෠ − 𝑒 ≤ 𝜃 ≤ 𝜃෠ + 𝑒 = 1 − 𝛼 = γ
Los intervalos que determinaremos, tanto para la media como para
proporciones, tienen la forma general siguiente:

𝑃 𝜃መ − 𝑄 𝑉(𝜃መ ≤ 𝜃 ≤ 𝜃መ + 𝑄 𝑉(𝜃መ = 1 − 𝛼 = γ

Donde Q depende del nivel de confianza y de la distribución asociada al


estimador y 𝟏 − 𝜶 = 𝜸 es el nivel de confianza
Error de estimación esta relacionado con la longitud del intervalo de
confianza.
𝑒 = 𝑄 𝑉(𝜃መ
RDGA 6
INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN
Condiciones Intervalo de confianza
• Normal 𝑋ത − 𝑍𝛼/2
𝜎
≤ 𝜇 ≤ 𝑋ത + 𝑍𝛼/2
𝜎
• σ2 Conocida, 𝑛 𝑛

• para todo “n” Usando la distribución Normal N(0, 1)

• Normal 𝑆 𝑆
𝑋ത − 𝑇𝛼/2 ≤ 𝜇 ≤ 𝑋ത + 𝑇𝛼/2
• σ2 desconocida, 𝑛 𝑛
• “n” pequeño
Usando la distribución T con n – 1 GL

𝜎 𝜎
• σ2 Conocida, 𝑋ത − 𝑍𝛼/2 ≤ 𝜇 ≤ 𝑋ത + 𝑍𝛼/2
• “n grande” 𝑛 𝑛
Usando la distribución Normal N(0, 1)
𝑆 𝑆
• σ2 desconocida, 𝑋ത − 𝑍𝛼/2 ≤ 𝜇 ≤ 𝑋ത + 𝑍𝛼/2
𝑛 𝑛
• “n grande”
Usando la distribución Normal N(0, 1)
𝝈 𝝈𝟐
෡ = 𝒁𝜶/𝟐
𝒆 = 𝑸 𝑽(𝜽 𝟐
⟹ 𝒏 = 𝒁𝜶/𝟐 𝟐
RDGA 𝒏 𝒆 7
Ejemplo 1:
Los siguientes datos son los pesos (en gramos) de 16 mangos que se
seleccionaron en una caja con la finalidad de verificar el peso promedio: 506,
508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509, 496. Si el
peso de cada mango es una variable normal con desviación típica de 5gr. σ
A) Obtener los intervalos de confianza al 90, 95, 99 % para la media del peso de
los mangos.
Datos
Variable X= peso en gramos  N(µ, 25). n = 16, X = 503.76 y σ = 5
1 – α = γ = 0.90  𝒁𝛂/𝟐 = 1.645 (1-0.90) = 0.10 = α  α/2 = 0.05
𝜎 𝜎
𝑋ത − 𝑍𝛼/2 ≤ 𝜇 ≤ 𝑋ത + 𝑍𝛼/2
𝑛 𝑛
5 5
503.76 − 1.645 ≤ 𝜇 ≤ 503.76 + 1.645 ⟹ 501.76 ≤ 𝛍 ≤ 505.82
16 16
1−α=γ 𝒁𝛂/𝟐 Intervalo
0.90 1.645 (501.76, 505.82)
0.95 1.96 (501.31, 506.21)
0.99 2.58 (500.54, 506.99)
RDGA 8
B) Determinar el tamaño muestral necesario para que la longitud del
intervalo (L = Lsup – Linf) sea menor que la unidad, con 1 − α = 0.95.
𝐿 1

En este caso 𝑒 = = = 0. 5 ⟹ 𝑒 = 𝑄 𝑉(𝜃)
2 2

25 5 1.96×5 2
0. 5 = 1.96 × = 1.96 × ⟹ 𝑛= = 384.16 ≅ 385
𝑛 𝑛 0.5
El numero mínimo de mangos es 385 para estimar la media poblacional
con un error máximo de 0. 5

Ejemplo 2:
Con el fin de garantizar la salubridad de las botellas de agua de cierta marca
se ha llevado a cabo un análisis que cuenta el número de bacterias que se
encuentran en 9 unidades. Los recuentos han dado los siguientes resultados:
157, 186, 179, 163, 171, 154, 177, 165, 168. Aceptando normalidad en la
distribución del recuento bacteriano, elaborar:
A) Estimaciones para la media y la varianza.
B) El intervalo de confianza para la media a un nivel del 95%.
C) El intervalo de confianza para la varianza a un nivel del 95%.
RDGA 9
Solución:
A) Datos:
Variable X= número de bacterias  Normal, varianza desconocida
Estimaciones de la media y la varianza:
σ𝑋 1520 σ 𝑋𝑖 −𝑋ത 2 878.888889
𝑋ത = 𝑖 = = 168.9 𝑆2 = = = 109.86111
𝑛 9 𝑛−1 8
El número promedio de bacterias en las botellas de agua es 168.9, con una
desviación estándar de 10.481.
B) Intervalo de confianza para el número promedio de bacterias en las botellas
de agua es:
1 – α =γ = 0.95  𝑻𝛂/𝟐(𝟖) = 2.31 α = 1-0.95 = 0.05 α/2 =0.025
S S
𝑋ത − T𝛼/2 ≤ 𝜇 ≤ 𝑋ത + T𝛼/2
𝑛 𝑛
10.481 10.481
168.9 − 2.31 × ≤ 𝜇 ≤ 168.9 + 2.31 × ⟹ 160.83 ≤ 𝛍 ≤ 176.97
9 9

El número promedio de bacterias en botellas de agua está entre 160.83 y


176.97.
RDGA 10
INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN POBLACIONAL

Condiciones Intervalo de confianza


𝑝(1−𝑝) 𝑝(1−𝑝)
𝑝 − 𝑍𝛼/2 ≤ 𝑃 ≤ 𝑝 + 𝑍𝛼/2
“n grande” 𝑛 𝑛

Usando la distribución Normal N(0, 1)


INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE DOS PROPORCIONES
POBLACIONALES
Condiciones Intervalo de confianza

𝑝1 1 − 𝑝1 𝑝2 1 − 𝑝2
𝑝1 − 𝑝2 − 𝑍𝛼 + ≤ 𝑃1 − 𝑃2
2 𝑛1 𝑛2
“n1, n2”
grandes 𝑝1 1 − 𝑝1 𝑝2 1 − 𝑝2
≤ 𝑝1 − 𝑝2 + 𝑍𝛼/2 +
𝑛1 𝑛2

Usando la distribución Normal N(0, 1)

RDGA 11
Ejemplo 3:
En una muestra de 105 parcelas sembradas con arroz seleccionados al azar
de una Región, se observa que en 27 de ellas hubo perdidas por escasez de
agua. Obtener un intervalo de confianza para la proporción de parcelas de la
región con pérdidas, a un nivel de confianza del 90 %.
Datos: Para determinar el intervalo necesitamos conocer la proporción en la
muestra, p, de parcelas con pérdidas:
Variable X= número de parcelas con pérdidas
𝑋 27
Estimaciones de la proporción de parcelas con pérdidas: 𝑝 = = = 0.257
𝑛 105
1 – α =γ = 0.90  𝑍𝛼/2 = 1.645
𝑝(1−𝑝) 𝑝(1−𝑝)
𝑝 − 𝑍𝛼/2 ≤ 𝑃 ≤ 𝑝 + 𝑍𝛼/2
𝑛 𝑛

0.257 1−0.257 0.257 1−0.257


0.257 − 1.645 ≤ 𝑃 ≤ 0.257+1.645
105 105

0.1828 ≤ 𝑃 ≤ 0. 3272
El intervalo de 0.90 de confianza para la proporción de parcelas de la
región con pérdidas se encuentra entre 0.1828 y 0.3272
RDGA 12
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE LAS MEDIAS DE DOS POBLACIONES

Condiciones Intervalo de confianza

• Normales
𝜎12 𝜎22 𝜎12 𝜎22
• Varianzas 𝑋ത1 − 𝑋ത2 − 𝑍𝛼 + ≤ 𝜇1 − 𝜇2 ≤ 𝑋ത1 − 𝑋ത2 + 𝑍𝛼/2 +
2 𝑛1 𝑛2 𝑛1 𝑛2
Conocidas
• Para todo n Usando la distribución Normal N(0, 1)

•Normales 1 1 1 1
•Varianzas 𝑋ത1 − 𝑋ത2 − 𝑇𝛼 𝑆 + ≤ 𝜇1 − 𝜇2 ≤ 𝑋ത1 − 𝑋ത2 + 𝑇𝛼 𝑆 +
2 𝑛1 𝑛2 2 𝑛1 𝑛2
desconocidas
pero iguales
𝑛1 − 1 𝑆12 + 𝑛2 − 1 𝑆22
•Tamaños 𝑆=
muestrales 𝑛1 + 𝑛2 − 2
pequeños
Usando la distribución T con n1 +n2 – 2 GL.

RDGA 13
Ejemplo 3: Construya un intervalo de confianza del 94% para la diferencia real
entre las ventas diarias de leche de dos establos, una muestra de 40 registros
tomada al azar del 1er establo dio un promedio de 418 litros vendidos, y una
muestra de 50 registros del 2do establo dieron un promedio de 402 litros. Las
varianzas de las dos poblaciones son 676 y 484, respectivamente.
Solución: Tenemos que: 1 – α =γ = 0.94  𝑍𝛼/2 = 1.88 α = 0.06 α/2 =0.03
Establo 1: 𝑛1 = 40 𝑋ത1 = 418 𝜎12 = 676
Establo 2: 𝑛2 = 50 𝑋ത2 = 402 𝜎22 = 484

𝜎12 𝜎22 𝜎12 𝜎22


𝑋ത1 − 𝑋ത2 − 𝑍𝛼 + ≤ 𝜇1 − 𝜇2 ≤ 𝑋ത1 − 𝑋ത2 + 𝑍𝛼/2 +
2 𝑛1 𝑛2 𝑛1 𝑛2

676 484 676 484


(418 − 402) − 1.88 + ≤ 𝜇1 − 𝜇2 ≤ (418 − 4 02) + 1.88 +
40 50 40 50

16 − 9.6925 ≤ 𝜇1 − 𝜇2 ≤ 16 + 9.6925 ⟹ 6.3075 ≤ 𝜇1 − 𝜇2 ≤ 25.6925

La diferencia real entre las ventas promedio diarias de leche de los dos
establos se encuentra entre 6.3075 y 25.6925 litros, la mayor venta diaria se
da en el 1er establo RDGA 14
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE LAS MEDIAS DE DOS POBLACIONES

Condiciones Intervalo de confianza

𝑆12 𝑆22 𝑆12 𝑆22


• Normales 𝑋ത1 − 𝑋ത2 − 𝑇𝛼 + ≤ 𝜇1 − 𝜇2 ≤ 𝑋ത1 − 𝑋ത2 + 𝑇𝛼/2 +
2 𝑛1 𝑛2 𝑛1 𝑛2
• Varianzas
desconocidas y Usando la distribución T con “v” GL.
2
diferentes. 𝑆2 𝑆2
1 + 2
𝑛1 𝑛2
• tamaños muestrales Donde: 𝐺. 𝐿(𝑣) = 2 2
pequeños 𝑆2
1 𝑆2
1
𝑛1 𝑛1
+
𝑛1−1 𝑛2−1

𝜎12 𝜎22 𝜎12 𝜎22


𝑋ത1 − 𝑋ത2 − 𝑍𝛼 + ≤ 𝜇1 − 𝜇2 ≤ 𝑋ത1 − 𝑋ത2 + 𝑍𝛼/2 +
2 𝑛1 𝑛2 𝑛1 𝑛2
Usando la distribución Normal N(0, 1)
• Muestras grandes

𝑆12 𝑆22 𝑆12 𝑆22


𝑋ത1 − 𝑋ത2 − 𝑍𝛼 + ≤ 𝜇1 − 𝜇2 ≤ 𝑋ത1 − 𝑋ത2 + 𝑍𝛼/2 +
2 𝑛1 𝑛2 𝑛1 𝑛2
Usando la distribución Normal N(0, 1)
RDGA 15
Ejemplo 4: Se desea comprara el peso promedio mango de dos
variedades diferentes. De cada variedad se tomó una muestra de 12
registros de ventas. Los datos se muestran a continuación:
X1: 446, 401, 476, 421, 459, 481, 438, 411, 456, 427, 459, 445
X2: 462, 448, 435, 465, 429, 472, 453, 459, 427, 468, 452, 447
Si se supone que el peso de los mangos de ambas variedades tienen
distribución normal con varianzas diferentes, calcular un intervalo de
0.95 de confianza para la verdadera diferencia promedio del peso de los
mangos de ambas variedades. Interprete los resultados.
2
Solución: Calculamos los valores que necesitamos. 𝑆12 𝑆22
+
𝑛1 𝑛2
n Media S 𝐺. 𝐿(𝑣) =
24.8 varianzas diferentes
2 2
12 443.3 𝑆12 𝑆12
12 451.4 14.9 debemos estimar los G.L. 𝑛1
+
𝑛1
𝑛1−1 𝑛2−1
2
24.82 14.92
12
+ 12 69.75422
𝐺. 𝐿(𝑣) = 2 2 = =18.07 ≅ 18
24.82 14.92 238.8085+31.1164
12 12
12 −1
+ 12 −1
1 – α =γ = 0.95  𝑇 18 𝛼/2 = 2.10
RDGA 16
Continuación Ejemplo 4:
𝑆12 𝑆22 𝑆12 𝑆22
𝑋ത1 − 𝑋ത2 − 𝑇𝛼 + ≤ 𝜇1 − 𝜇2 ≤ 𝑋ത1 − 𝑋ത2 + 𝑇𝛼/2 +
2 𝑛1 𝑛2 𝑛1 𝑛2

24.82 14.92
443.3 − 451.4 − 2.10 × + ≤ 𝜇1 − 𝜇2
12 12

24.82 14.92
≤ 443.3 − 451.4 + 2.10 × +
12 12

− 8.1 − 2.10 × 8.352 ≤ 𝜇1 − 𝜇2 ≤ − 8.1 + 2.10 × 8.352

− 25.6392 ≤ 𝜇1 − 𝜇2 ≤ 9.4392

La verdadera diferencia promedio del peso de los mangos de ambas


variedades está entre − 25.6392 y 9.4392 gramos con 0.95 de confianza.
El intervalo contiene al cero “0”podemos decir que no existe diferencia
significativa entre ambos promedios.
RDGA 17
INTERVALO DE CONFIANZA PARA LA VARIANZA DE UNA POBLACIÓN

Condiciones Intervalo de confianza

(𝐧 − 𝟏)𝐒𝟐 (𝐧 − 𝟏)𝐒 𝟐
Media desconocida ≤  𝟐 ≤
𝐗 𝟐𝛂/𝟐 𝐗 𝟐𝟏−𝛂/𝟐
Usando La Distribución Chi cuadrado χ𝟐(𝐧−𝟏)

INTERVALO DE CONFIANZA PARA EL COCIENTE DE DOS VARIANZAS


POBLACIONALES
Condiciones Intervalo de confianza

𝐒𝟏𝟐 𝐒𝟏𝟐
Poblaciones 𝐒𝟐𝟐 𝛔𝟐𝟏 𝐒𝟐𝟐
normales, medias ≤ 𝟐≤
desconocidas 𝐅 𝐧𝟏−𝟏 ; 𝐧𝟐−𝟏 𝛂 𝛔𝟐 𝐅𝐧 𝛂
𝟏 −𝟏 ; 𝐧𝟐 −𝟏 𝟏−𝟐
𝟐

Distribución 𝑭(𝒏𝟏−𝟏 ; 𝒏𝟐 −𝟏 )
Usando LaRDGA 18
Ejemplo 5: Un instituto de investigaciones siembra, en cinco parcelas diferentes,
dos tipos de maíz híbrido para consumo de ganado. Las producciones en
quintales métricos por hectárea son:

A) Construir un intervalo de confianza para el cociente de varianzas con un error


de significación de 0,10.
B) Construir un intervalo de confianza del 90% para la diferencia entre las
producciones medias.
Solución:
A) Sea la variable X1 = producción de maíz híbrido I  N(μ1 σ12) y X2 =
producción de maíz híbrido II  N(μ2 σ22) como las varianzas son
desconocidas determinaremos el intervalo de 0.90 de confianza para el
cociente varianzas
𝟐
𝐒𝟏 𝟐
𝐒𝟏
𝟐
𝐒𝟐 𝛔𝟐𝟏 𝟐
𝐒𝟐
Utilizaremos la fórmula ≤ ≤
𝐅 𝐧 −𝟏 ; 𝐧 −𝟏 𝛂 𝛔𝟐𝟐 𝐅 𝛂
𝟏 𝟐 𝐧𝟏 −𝟏 ; 𝐧𝟐 −𝟏 𝟏−𝟐
𝟐

NOTA: si el “1” esta incluido en el intervalo entonces las varianzas son iguales
RDGA 19
Continuación ejemplo 5:

F1-α/2 Fα/2
𝟐
𝐒𝟏 𝟐
𝐒𝟏
𝟐
𝐒𝟐 𝛔𝟐𝟏 𝟐
𝐒𝟐
fórmula ≤ ≤
𝐅 𝐧 −𝟏 ; 𝐧 −𝟏 𝛂 𝛔𝟐𝟐 𝐅 𝛂
𝟏 𝟐 𝐧𝟏 −𝟏 ; 𝐧𝟐 −𝟏 𝟏−𝟐
𝟐

El “1” esta incluido en el intervalo entonces las varianzas son iguales con una
confianza de 0.90 o 90 %
Este resultado servirá para resolver la parte (B) del problema
RDGA 20
Practicamos el uso de la tabla de la distribución F

F(7, 8)
F1-α/2 Fα/2
0.268 3.5

𝟏 𝟏
𝑭 𝟕,𝟖 𝟏−𝜶/𝟐 = = = 𝟎. 𝟐𝟔𝟖
𝑭 𝟖,𝟕 𝜶/𝟐 𝟑. 𝟕𝟑

RDGA 21
Continuación ejemplo 5:
B) Nos situamos ante un intervalo de confianza para la diferencia de
medias poblacionales (μ1 – μ2) con varianzas poblacionales desconocidas
pero iguales, con muestras pequeñas n1 + n2 < 30

Donde 𝑆𝑝2 es el promedio ponderado de las varianzas muestrales llamada


también varianza mancomunada.

Los datos:

RDGA 22
Continuación ejemplo 5:

El intervalo de confianza cubre el cero, por lo que no existe


diferencia significativa entre las producciones medias, con una
confianza del 90%.

Retomamos el Ejemplo 2 y resolvemos la parte (C ):


Con el fin de garantizar la salubridad de ciertas botellas de agua se
ha llevado a cabo un análisis que cuenta el número de bacterias que
se encuentran en 9 unidades. Los recuentos han dado los siguientes
resultados: 157, 186, 179, 163, 171, 154, 177, 165, 168. Aceptando
normalidad en la distribución del recuento bacteriano, elaborar:
C) Intervalo de confianza para la varianza a un nivel del 95%.

RDGA 23
Datos:
Variable X= número de bacterias  Normal, varianza desconocida
Estimaciones de la media y la varianza:
σ𝑋 1520 σ 𝑋𝑖 −𝑋ത 2 878.888889
𝑋ത = 𝑛 𝑖 = 9 = 168.9 𝑆 2 = = = 109.86111
𝑛−1 8
𝑪𝒐𝒏 𝟖 𝑮. 𝑳. 𝐗 𝟐𝛂/𝟐 = 17.535 𝐗 𝟐𝟏−𝛂/𝟐 = 2.18

(𝐧 − 𝟏)𝐒 𝟐 (𝐧 − 𝟏)𝐒 𝟐
≤ ≤
𝟐
𝐗 𝟐𝛂/𝟐 𝐗 𝟐𝟏−𝛂/𝟐

𝟗 − 𝟏 𝟏𝟎𝟗. 𝟖𝟔𝟏𝟏 𝟗 − 𝟏 𝟏𝟎𝟗. 𝟖𝟔𝟏𝟏


≤ 𝟐 ≤
𝟏𝟕. 𝟓𝟑𝟓 𝟐. 𝟏𝟖
2.18 17.535
Directo en tablas

50.1219 ≤ 𝟐 ≤ 403.16

El recuento bacteriano tiene una varianza entre 5.1219 y 403.16


RDGA 24
UNIDAD III: INTRODUCCIÓN A LA
INFERENCIA ESTADÍSTICA
PRUEBAS DE
SEMANA 12
HIPÓTESIS (I)

H o: H1:

 2

Rosa Gutiérrez de Alarcón 25


¿Qué es una hipótesis?
• Una creencia sobre la población, El maíz ha sido invadido por
saltamontes, creo que la
principalmente sobre sus
producción promedio será
parámetros: menor que la del año pasado
• Media
• Varianza
• Proporción

Una hipótesis
Una hipótesis estadística (H) es
una proposición acerca de una
característica de la población de
estudio.

26
Rosa Gutiérrez de Alarcón
• Las siguientes son algunos ejemplos de hipótesis:
o El rendimiento promedio de maíz por parcela es menor o igual de 80 Kg 
Ho: µ ≤ 80 H1: µ > 80
o H1: µ < 67 (la edad media poblacional de los trabajadores es menor que 67)
Ho: µ ≥ 67
o Ho: σ2 = 4 (la variancia poblacional es igual a 4) H1: σ2 ≠ 4
σ2 < 4
σ2 > 4
• La que se acepta si las pruebas no indican
lo contrario.
H0: Hipótesis nula • Rechazarla por error tiene graves
consecuencias. Los datos pueden refutarla
• Es inocente

• No debería ser aceptada sin una


gran evidencia a favor.
H1: Hipótesis alternativa • Rechazarla por error tiene
• Es culpable consecuencias consideradas
menos graves que la anterior

27
Rosa Gutiérrez de Alarcón
Tipos de hipótesis: En la prueba de hipótesis se comienza
proponiendo una hipótesis tentativa acerca de un parámetro poblacional
• A la hipótesis tentativa se le denomina hipótesis nula  (H0)
• Debe formularse una hipótesis opuesta a la hipótesis nula Ho llamada
hipótesis alternativa y se representa por  (H1)

Errores en una prueba de hipótesis


No se puede eliminar la posibilidad de errores en la prueba de
hipótesis, pero si es posible considerar su probabilidad definidas como:

H0 verdadera Ho falsa
Ha falsa Ha verdadera
Aceptar H0 Conclusión Correcta Error tipo II (β)

Rechazar H0 Error tipo I (α) Conclusión Correcta

α = probabilidad de cometer error tipo I


β = probabilidad de cometer error tipo II
Rosa Gutiérrez de Alarcón 28
Prueba de Hipótesis.
Procedimiento general.
Disponer los datos de manera ordenada
1. Identificar el parámetro de interés
2. Establecer las Hipótesis Nula Ho y alternativa H1
3. Seleccionar un nivel de significancia α
4. Establecer la estadística de prueba adecuada.
5. Establecer la región de rechazo.
6. Usando información muestral calcular la estadística de
prueba.
7. Decidir comparando el valor encontrado en (6) con la región
de rechazo determinado en (5)

29
Rosa Gutiérrez de Alarcón
PRUEBA DE HIPOTESIS PARA LA MEDIA Ho: 𝝁 = 𝝁𝒐
Estadísticas de prueba:
A) σ2 Conocida y población con distribución normal o muestras
ത 𝑜
𝑋−𝜇
grandes n ≥ 30: 𝑍𝑜 = 𝜎 ⟶ 𝑁(0,1)
ൗ 𝑛
B) σ2 desconocida, población con distribución normal y muestras pequeñas
n < 30:
ത 𝑜
Nota: En las regions de rechazo solo cambia la
𝑋−𝜇
𝑇𝑜 = 𝑆 → 𝑇(𝑛−1) distribución normal (Z) por la T de Student (T)
ൗ 𝑛

Región de rechazo para diferentes alternativas


Pruebas Unilaterales Prueba Bilateral
H 0 :   0 H 0 :   0 H 0 :   0
H a :   0 H1 : 𝜇 ≠ 𝜇 𝑜
H a :   0

𝛂 𝛂 𝛂/𝟐 𝛂/𝟐

− 𝒁α 0 0 𝒁α − 𝒁𝜶 𝒁𝜶
RRHo RRHO
𝟐 𝟐
RRHo RRHo 30
Rosa Gutiérrez de Alarcón
A) PRUEBA DE HIPOTESIS PARA µ
(σ2 Conocida o n ≥ 30)
El peso promedio de 36 hígados decomisados dio una media muestral
deX = 7600 gramos. Suponga además que estos pesos tienen distribución
normal con desviación estándar  = 300. Con un nivel de significancia de
0.05. ¿Se puede concluir que el peso promedio del hígado decomisado es
mayor que el peso promedio estipulado en 7500 gramos?

Solución
Datos: Población normal, n =36 X = 7600 kilos.  = 300
1. Parámetro de interés: Media poblacional = µ
2. Establecer la hipótesis Ho: µ ≤ 7500 (µo)
H1: µ > 7500
3. Nivel de significancia. α = 0.05
4. Establecer la estadística de prueba ത
𝑋−𝜇
𝑍𝑜 = 𝜎
𝑜
→ N(0, 1)
ൗ 𝑛
31
Rosa Gutiérrez de Alarcón
Continuación
5. Determinar RRHo y RAHo Hallamos el valor
crítico en la tabla de la normal, para α = 0.05:
Zα = 1.645

6. Calculamos Zo

7600−7500 0 𝑍𝑡 = 1.645
𝑍𝑜 = 300 =2 RAHo RRHo
ൗ 36

7. Decisión: 𝑍𝑜 = 2 > 𝑍𝑡 = 1.645, entonces se rechaza Ho: µ ≤ 7500


mas de 7500 g. de hígado se decomisan
Intervalo de 0.90 confianza para μ
𝜎 𝜎 300 300
𝑋ത − 𝑍𝛼 ത
≤ 𝜇 ≤ 𝑋 + 𝑍𝛼 = 7600 − 1.645 ≤ 𝜇 ≤ 7600 + 1.645
2 𝑛 2 𝑛 36 36

7517.75 ≤ 𝜇 ≤ 7682.25

El peso promedio de los hígados decomisados se encuentra en el intervalo


7517.75 ≤ 𝜇 ≤ 7682.25
32
Rosa Gutiérrez de Alarcón
Ejemplo
En una tienda de productos veterinarios el promedio de ventas de ivermectina por
día hasta el 2019 se logró hasta 6.9 galones, los registros muestran que la venta
diaria de ivermectina es normal. El dueño cree que este promedio de venta ha
aumentado considerablemente en lo que va del 2020 debido a la pandemia. Para
verificar esta hipótesis se tomó una muestra aleatoria de 17 ventas, resultando los
siguientes consumos:
11.
X: 8.2 6.8 6.5 8.0 6.9 8.5 12.1 8.5 9.5 8.4 9.4 10.8 8.5 7.9 8.3 6.7
2
Con un nivel de significancia de 0.05 ¿La pandemia ha influido en el incremento de
ventas de ivermectina por día?
Solución
Datos: Población normal, n =17 X = 8.6 gl. S2 = 2.5387  S = 1.59
1. Parámetro de interés: Media poblacional = µ
2. Establecer la hipótesis Ho: µ ≤ 6.9 (µo)
H1: µ > 6.9
3. Nivel de significancia. α = 0.05 ത 𝑜
𝑋−𝜇
4. Establecer la estadística de prueba 𝑇𝑜 = 𝑆 → 𝑇(𝑛−1)
ൗ 𝑛
33
Rosa Gutiérrez de Alarcón
Continuación
5. Determinar RRHo y RAHo Hallamos el valor
crítico en la tabla de la T de student, para α =
0.05: Tα = 1.746 con n – 1 = 16 G.L.

6. Cálculo de la estadística de prueba.


0 𝑇𝑡 = 1.746
8.6−6.9 RAHo RRHo
𝑇𝑜 = 1.59 = 4.4
ൗ 17
7. Decisión: 𝑇𝑜 = 4.4 > 𝑇𝑡 = 1.746, entonces se rechaza Ho: µ ≤ 6.9
En lo que va del 2020 en promedio se vendió mas de 6.9 galones
por efecto de la pandemia
Intervalo de 0.95 confianza para μ
𝑆 S 1.59 1.59
𝑋ത − T𝛼 ത
≤ 𝜇 ≤ 𝑋 + T𝛼 = 8.6 − 2.12 ≤ 𝜇 ≤ 8.6 + 1.746
2 𝑛 2 𝑛 17 17
7.7825 ≤ 𝜇 ≤ 9.4175
En lo que va del 2020 se vendió en promedio entre 7.7825 y 8.4175 galones
de ivermectina.
34
Rosa Gutiérrez de Alarcón
PRUEBA DE HIPÓTESIS PARA PROPORCIÓN
Se realizó una encuesta con el fin de estudiar las prácticas sanitarias
dentales y las actitudes, de cierta población urbana de adultos. De 300
adultos entrevistados, 123 dijeron que regularmente se sometían a una
revisión dental dos veces al año. ¿Puede afirmarse que el 50 % de los
adultos de dicha población se someten regularmente a una revisión dental,
dos veces al año?
Solución
Datos:
X: N° de adultos que se someten regularmente a una revisión dental, dos
veces al año 123
p= = 0.41
300
1. Parámetro de interés : 𝑷𝒓𝒐𝒑𝒐𝒓𝒄𝒊𝒐𝒏 𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍: 𝑷
2. Establecer las hipótesis
Ho: P = 0.5 (Po) frente a Ha: P ≠ 0.5
3. Nivel de significancia α = 0.05
𝑝 −𝑃𝑜
4. Estadística de prueba. 𝑍𝑜 = ⟶ 𝑁(0, 1)
𝑃𝑜 (1−𝑃𝑜 )
𝑛
Rosa Gutiérrez de Alarcón 35
Continuación
5. Determinar RRHo y RAHo Hallamos el valor
crítico en la tabla de la normal, para α = 0.05:
Zα/2 = 1.96

6. Calculamos Zo -1.96 0 1.96


RRHo RRHo
0.41 −0.50 RAHo
𝑍𝑜 = 0.50(1−0.50)
= − 3.1177
300
7. Decision: Zo = − 3.1177 Pertenece a la región de rechazo

Ho se rechaza y se puede concluir por tanto que el 50% de la población


no se hace una revisión dental dos veces al año.

0.41(1 − 0.41)(1 − 𝑝) 0.41(1 − 0.41)(1 − 𝑝)


0.41 − 1.96 ≤ 𝑃 ≤ 0.41 − 1.96
300 300
0.3544 ≤ 𝑃 ≤0.4656

Como puede verse la proporción de adultos que se hace una revisión dental dos
veces al año esta entre 0.4544 y 0.4656
Rosa Gutiérrez de Alarcón 36
UNIDAD III: INTRODUCCIÓN A LA
INFERENCIA ESTADÍSTICA
PRUEBAS DE
SEMANA 13
HIPÓTESIS (II)

H o: H1:

 2

Rosa Gutiérrez de Alarcón 37


PRUEBA PARA Ho: 𝝁𝟏 − 𝝁𝟐 = δo
• Población 1 Población 2
• Muestra 1: X11, X12, X13, . . . X1n1 Muestra 2: X21, X22, X22, . . . X2n2
• CALCULAMOS MEDIA Y VARIANZA CALCULAMOS MEDIA Y VARIANZA
MUESTRALES MUESTRALES
X1 𝑺𝟐𝟏 X2 𝑺𝟐𝟐
𝝈𝟐𝟏 𝝈𝟐𝟐
ഥ 𝟏 → 𝑁 𝝁𝟏 ,
𝑿 ഥ 𝟐 → 𝑁 𝝁𝟐 ,
𝑿
𝒏𝟏 𝒏𝟐

𝝈𝟐𝟏 𝝈𝟐𝟐 𝑋ത1 −𝑋ത2 −𝛿𝑜


𝑋ത1 − 𝑋ത2 → 𝑁 𝝁𝟏 − 𝝁𝟐 , +
𝒏𝟏 𝒏𝟐
𝑍𝑜 = ⟶ 𝑁(0, 1)
𝜎2 2
1 +𝜎2
𝑛1 𝑛2

Rosa Gutiérrez de Alarcón 38


PRUEBA PARA Ho: 𝝁𝟏 − 𝝁𝟐 = δo
Estadísticas de prueba:
𝑋ത1 −𝑋ത2 −𝛿𝑜
A) 𝝈𝟐𝟏 , 𝝈𝟐𝟐 Conocidas, poblaciones normales o muestras 𝑍𝑜 = ⟶ 𝑁(0, 1)
grandes 𝜎2 2
1 +𝜎2
𝑛1 𝑛2
Si las muestras son grandes las varianzas
Poblacionales desconocidas, serán reemplazadas por las varianzas
muestrales.
B) 𝝈𝟐𝟏 , 𝝈𝟐𝟐 desconocidas, poblaciones normales y muestras pequeñas
B1) 𝝈𝟐𝟏 = 𝝈𝟐𝟐
𝑛1 − 1 𝑆12 + 𝑛2 − 1 𝑆22
𝑋ത1 −𝑋ത1 −𝛿𝑜 𝑆 =
𝑇𝑜 = 1 1
⟶ 𝑇n +n – 2 Donde:
1 2
𝑛1 + 𝑛2 − 2
𝑆 𝑛 +𝑛
1 2

2
B2) 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐 𝑆2
1 𝑆2
𝑛1
+ 𝑛2
𝑋ത1 −𝑋ത1 −𝛿𝑜 2
𝑇𝑜 = ⟶ 𝑇𝑣 Donde: 𝐺. 𝐿(𝑣) = 2 2
2 𝑆2
1 𝑆2
1
𝑆2
1 + 𝑆2 𝑛1 𝑛1
𝑛1 𝑛2
𝑛1−1
+ 𝑛2−1

39
Rosa Gutiérrez de Alarcón
Región de rechazo para diferentes alternativas
Pruebas unilaterales Prueba bilateral

Ho: 𝜇1 − μ2 = 𝛿𝑂 Ho: 𝜇1 − μ2 = 𝛿𝑂 Ho: 𝜇1 − μ2 = 𝛿𝑂


Ha: 𝜇1 − μ2 < 𝛿𝑂 Ha: 𝜇1 − μ2 > 𝛿𝑂 Ha: 𝜇1 − μ2 ≠ 𝛿𝑂

𝛂 𝛂 𝛂/𝟐 𝛂/𝟐

− 𝒁α 0 0 𝒁α − 𝒁𝜶 𝒁𝜶
RRHo RRHO 𝟐 𝟐
RRHo RRHo

Nota: En las pruebas de hipótesis con varianzas desconocidas, en las


regiones de rechazo solo cambia la distribución normal (Z) por la T de
Student (T)

40
Rosa Gutiérrez de Alarcón
PRUEBA DE HIPOTESIS PARA 𝝁𝟏 − 𝝁𝟐
(𝜎12 = 𝜎22 desconocidas)

Los salarios de los trabajadores de dos establos de la ciudad de Trujillo tal


como se indica a continuación: Establo 1: 𝑛1 = 13 𝑋ത1 = 17.53 𝑆1 = 9.59 y
Establo 2: 𝑛2 = 19 𝑋ത2 = 15.50 𝑆2 = 9.33, si se asume normalidad y
varianzas iguales. Pruebe la hipótesis de que no hay una diferencia entre los
niveles salariales promedio de ambos establos, con α = 0.05
Solución
Datos: Establo 1: 𝑛1 = 13 𝑋ത1 = 17.53 𝑆1 = 9.59
Establo 2: 𝑛2 = 19 𝑋ത2 = 15.50 𝑆2 = 9.33
1. Parámetro de interés : 𝝁𝟏 − 𝝁𝟐
2. Establecer las hipótesis
Ho: µ1 = µ2 o Ho: µ1 - µ2 = 0
Ha: µ1 ≠ µ2 Ha: µ1 - µ2 ≠ 0
3. Nivel de significancia α = 0.05
4. Establecer la estadística de prueba
𝑋ത1 −𝑋ത1 −𝛿𝑜 𝑛1 − 1 𝑆22 + 𝑛2 − 1 𝑆22
𝑇𝑜 = 1 1
⟶ 𝑇𝑛 −1 Donde 𝑆 =
𝑆 + 𝑛1 + 𝑛2 − 2
𝑛1 𝑛2
41
Rosa Gutiérrez de Alarcón
Continuación
5. Determinar RRHo y RAHo Hallamos el valor crítico con la
tabla de la distribución T de Student con 13 + 19 - 2 = 30
grados de libertad, para α = 0.05: Tα/2 = 2.0423
6. Calculamos S2 y To
-2.0423 2.0423
RRHo RRHo
13 − 1 91.9681 + 19 − 1 87.0489 RAHo
𝑆2 = = 89.01658
13 + 19 − 2
17.53−15.5−0
𝑆 = 9.4349 𝑇𝑜 = = 0.5977
1 1
9.4349 +
13 19

7. Decisión: 𝑇𝑜 = 0.5977 se encuentra en la región de aceptación, no hay razón


para rechazar Ho: µ1 - µ2 = 0, no existe diferencia significativa entre ambos
promedios

1 1 1 1
17.53 − 15.5 − 2.042 × 9.4349 + ≤ 𝜇1 − 𝜇2 ≤ 17.53 − 15.5 + 2.042 × 9.4349 +
13 19 13 19

−4.9046 ≤ 𝜇1 − 𝜇2 ≤ 8.9646 No existe diferencia significativa entre


los salarios promedio de los trabajadores de ambos establos, el cero “0”
está contenido en el intervalo
42
Rosa Gutiérrez de Alarcón
PRUEBA DE HIPOTESIS PARA 𝝁𝟏 − 𝝁𝟐
(𝜎12 ≠ 𝜎22 descononocidas)
• Se quieren probar dos tipos de alimentos para pingüinos de un
zoológico cuyo peso se distribuye normalmente. Se separan en dos
grupos, uno formado por 13 pingüinos y otro por 16. Al cabo de un mes
son pesados, y se obtiene para el primer grupo un peso medio de 13
kg y desviación típica de 0,7 y para el segundo grupo, un peso medio de
11 kg y desviación típica 0,3. ¿Se puede afirmar, con el nivel de
significancia de 0.01, que están mejor alimentados los del primer grupo
que los del segundo?

Solución
Datos: n1 = 13 X1 = 13 Kg. S1 = 0.7
n2 = 16 X2 = 11 Kg. S2 = 0.3
Para realizar esta prueba primero debe verificarse si las varianzas son iguales o
diferentes

43
Rosa Gutiérrez de Alarcón
𝝈𝟐𝟏
PRUEBA PARA Ho: 𝝈𝟐𝟏 = 𝝈𝟐𝟐 o Ho: =1
𝝈𝟐𝟐
𝑆12
Estadísticas de prueba: 𝐹𝑜 = ⟶ 𝐹(𝑛1 −1 ; 𝑛2 −1 )
𝑆22

Región crítica o de rechazo:

Ho: 𝜎12 = 𝜎22


Ha: 𝜎12 < 𝜎22
Ho: 𝜎12 = 𝜎22
Ha: 𝜎12 > 𝜎22

Ho: 𝜎12 = 𝜎22


Ha: 𝜎12 ≠ 𝜎22

44
Rosa Gutiérrez de Alarcón
Prueba para la igualdad de varianzas
Datos: n1 = 13 𝑆12 = 0.49
S1 = 0.7 n2 = 16 S2 = 0.3 𝑆22 = 0.09
𝜎12
1. Parámetro de interés : 2 3. Nivel de significancia α = 0.05
𝜎2
2. Establecer las hipótesis 4. Estadística de prueba:
𝜎12 𝑆12
Ho: 𝜎12 = 𝜎22 o Ho: 2 = 1 𝐹𝑜 =
𝑆22
⟶ 𝐹(𝑛1−1 ; 𝑛2−1 )
𝜎2
𝜎12
Ha: 𝜎12 > 𝜎22 Ha: 2 > 1
𝜎2
5. Región crítica o de rechazo
𝐹 12 ;15 0.05 = 2.48

6. Calculamos 𝐹𝑜
0.49
𝐹𝑜 = = 5.444 2.48
0.09
7. Decisión: 𝐹𝑜 = 5.444 > 𝐹𝑡 = 2.48, 𝐹𝑜 está en la región de rechazo
Se rechaza Ho: 𝜎12 = 𝜎22 , es decir las varianzas son diferentes la varianza del
1er grupo es mayor que la del 2do.

45
Rosa Gutiérrez de Alarcón
PRUEBA DE HIPOTESIS PARA 𝝁𝟏 − 𝝁𝟐 (𝜎12 ≠ 𝜎22 descononocidas)
Solución
Datos: n1 = 13 X1 = 13 Kg. S1 = 0.7 n2 = 16 X2 = 11 Kg. S2 = 0.3 𝜎12 ≠ 𝜎22
1. Parámetro de interés : 𝝁𝟏 − 𝝁𝟐
2. Establecer las hipótesis
Ho: µ1 = µ2 o Ho: µ1 - µ2 = 0
Ha: µ1 > µ2 Ha: µ1 - µ2 > 0
3. Nivel de significancia α = 0.05
𝑋ത −𝑋ത −𝛿
4. Establecer la estadística de prueba 𝑇𝑜 = 1 1 1 1 𝑜 ⟶ 𝑇𝑣
𝑆 𝑛 +𝑛
1 2

𝑆2 𝑆2 2
1+ 2 0.49 0.09 2
𝑛1 𝑛2
13
+ 16 0.03769+0.00563 2
𝐺. 𝐿 𝑣 = 2 2 = 0.49 2 0.09 2
= 0.037692 0.005632
= 15.57 ≅ 15
𝑆2
1 𝑆2
1 + 15
13 + 16 12
𝑛1 𝑛1
+ 12 15
𝑛1−1 𝑛2−1

5. Determinar RRHo y RAHo. Usamos la


distribución T con 15 G.L. con α = 0.05
2.6025
46
Rosa Gutiérrez de Alarcón
Continuación
6. Calculamos To
n1 = 13 X1 = 13 Kg 𝑆12 = 0.49 𝑇𝑜 =
13−11−2
=9.6095
n2 = 16 X2 = 11 Kg. 𝑆22 = 0.09 0.49 0.09
+ 16
13

7. Decision: 𝑇𝑜 = 9.6095 se encuentra en la región de rechazo no hay razón


para aceptar Ho: µ1 - µ2 = 0, existe diferencia significativa entre ambos
promedios, el primer grupo está mejor alimentado que el segundo
Intervalo de confianza para la diferencia de medias
𝑆12 𝑆22 𝑆12 𝑆22
𝑋ത1 − 𝑋ത2 − 𝑇𝛼 + ≤ 𝜇1 − 𝜇2 ≤ 𝑋ത1 − 𝑋ത2 + 𝑇𝛼/2 +
2 𝑛1 𝑛2 𝑛1 𝑛2

0.49 0.09 0.49 0.09


13 − 11 − 2.1315 + ≤ 𝜇1 − 𝜇2 ≤ 13 − 11 − 2.1315 +
13 16 13 16

1.5564 ≤ 𝜇1 − 𝜇2 ≤ 2.4426

Se corrobora el resultado de la prueba, existe diferencia significativa


entre ambos promedios, el “0” no se encuentra en el intervalo
47
Rosa Gutiérrez de Alarcón
PRUEBA PARA Ho: 𝑷𝟏 − 𝑷𝟐 = 0 o Ho: 𝑷𝟏 = 𝑷𝟐
Estadística de prueba:
𝑃1 −𝑃2 𝑛1 𝑃1 + 𝑛2 𝑃2
𝑍𝑜 = ⟶ 𝑁(0, 1) Donde: 𝑃 =
𝑃 (1−𝑃)
1
+
1 𝑛1 + 𝑛2
𝑛1 𝑛2

Región crítica o de rechazo

Pruebas unilaterales Prueba bilateral

Ho: 𝑃1 − P2 = 0 Ho: 𝑃1 − P2 = 0 Ho: 𝑃1 − P2 = 0


Ha: 𝑃1 − P2 < 0 Ha: 𝑃1 − P2 > 0 Ha: 𝑃1 − P2 ≠ 0

𝛂 𝛂 𝛂/𝟐 𝛂/𝟐

− 𝒁α 0 0 Zα − 𝒁𝜶 𝒁𝜶
RRHo RRHo
𝟐 𝟐
RRHo RRHo

48
Rosa Gutiérrez de Alarcón
Ejemplo
Se sospecha que añadiendo al tratamiento habitual para la eliminación de plagas en
plantas de palta un medicamento A, se consigue mayor número de plantas
recuperadas. Tomamos dos grupos de plantas de palta invadidas de cierta plaga de
100 cada uno. A un grupo se le suministra el medicamento A y se recuperan 60 y al
otro no se le suministra, recuperándose 55 plantas. ¿Es efectivo el tratamiento A en la
eliminación de plagas en las plantas de palta? Use un nivel de significancia de 0.05.
Solución:
Datos:
X: N° de plantas de palta que se recuperan
n1 = 100 X1 = 60  p1 = 0.6 (reciben el tratamiento A)
n2 = 100 X2 = 55  p2 = 0.55 (no reciben el tratamiento A)

1. Parámetro de interés : 𝑷𝟏 − 𝑷𝟐
2. Establecer las hipótesis
• Ho: P1 = P2 o Ho: P1 - P2 = 0
• Ha: P1 > P2 Ha: P1 - P2 > 0
3. Nivel de significancia α = 0.05

49
Rosa Gutiérrez de Alarcón
Continuación
4. Estadística de prueba
𝑃1 −𝑃2 𝑛1 𝑃1 + 𝑛2 𝑃2
𝑍𝑜 = ⟶ 𝑁(0, 1) Donde: 𝑃 =
1
𝑃 (1−𝑃) 𝑛 +𝑛
1 𝑛1 + 𝑛2
1 2
𝛂
5. Región de rechazo

6. Calculamos Zo: 0 1.645


RRHo
100×0.6+100×0.55 115
𝑃= = = 0.575
100+100 2
0.6−0.55
𝑍𝑜 = = 0.7152
1 1
0.575 (1−0.575) +
100 100

7. Decision: 𝑍𝑜 = 0.7152 se encuentra en la región de aceptación, no hay


razón para rechazar Ho: P1 - P2 = 0, no existe diferencia significativa entre
ambas proporciones de plantas de paltas, el tratamiento A no es más
efectivo en la eliminación de plaga con un nivel de significancia de 0.05.
50
Rosa Gutiérrez de Alarcón
UNIDAD III: INTRODUCCIÓN A LA
INFERENCIA ESTADÍSTICA

CORRELACION Y
REGRESIÓN LINEAL SEMANA 14
SIMPLE

Rosa Gutiérrez de Alarcón 51


CORRELCIÓN Y REGRESIÓN LINEAL SIMPLE
• En muchos estudios experimentales se dispone de la medida
de varias variables y se desea estudiar las relaciones existentes
entre las mismas. En el caso más simple se consideran
solamente dos variables:
 Una variable dependiente o respuesta (Y)
 Una variable independiente o regresora (X).
• Las preguntas que suele hacerse un investigador experimental
al tratar con datos numéricos son las siguientes:

¿Cómo están relacionadas las dos


variables? CORRELACIÓN
¿La relación es fuerte o débil?

¿Podemos predecir la variable dependiente


a partir de la independiente? REGRESIÓN
¿Con que precisión?

Rosa Gutiérrez de Alarcón 52


CORRELACIÓN:
El término Correlación significa relación mutua, ya que indica el grado en el
que los valores de una variable se relacionan con los valores de la otra.

¿Cuando utilizar la correlación? Cuando no se pueden manipular las


variables de tratamiento debido a las siguientes razones

1. Es imposible manipular físicamente las


variables, estas son aleatorias.

2. Los sucesos ya han ocurrido.

Ejemplo. Correlacion entre:


• Altura y el peso
• Peso de la vaca antes de la preñez y peso del ternero al nacer.
• Rendimiento académico y tiempo dedicado al estudio
Rosa Gutiérrez de Alarcón 53
Rosa Gutiérrez de Alarcón 54
𝑛 σ 𝑋𝑌 − σ 𝑋 σ 𝑌
CORRELACIÓN: 𝑟=
𝑛 σ 𝑋2 − σ 𝑋 2 𝑛 σ 𝑌2 − σ 𝑌 2

Rosa Gutiérrez de Alarcón 55


Valoración del coeficiente de correlación
Coeficiente de Correlación
r=1 Correlación perfecta
0.8 ≤ r < 1 Correlación muy alta
0.6 ≤ r < 0.8 Correlación alta
0.4 ≤ r < 0.6 Correlación moderada
0.2 ≤ r < 0.4 Correlación baja
0.0 ≤ r < 0.2 Correlación muy baja
r=0 Correlación nula
– 0.2 ≤ r < 0.0 Correlación muy baja
– 0.4 ≤ r < – 0.2 Correlación baja
– 0.6 ≤ r < – 0.4 Correlación moderada
– 0.8 ≤ r < – 0.6 Correlación alta
– 1 < r < – 0.8 Correlación muy alta
r=–1 Correlación perfecta

Rosa Gutiérrez de Alarcón 56


Rosa Gutiérrez de Alarcón 57
Ejemplo:
X: Nitrógeno Y: Nitrógeno
Un ensayo sobre trigo se llevó a cabo en la en Suelo en planta
(ppm) (ppm)
zona Huamachuco y se cuantificó la
0.42 0.7
disponibilidad de Nitrógeno en el suelo y la
0.13 0.19
cantidad de Nitrógeno en la planta. Se 0.45 0.73
obtuvieron datos para 12 parcelas cada una 0.15 0.2
de 50 cm por 50 cm., en las que se registró el 0.5 0.8
contenido de nitrógeno en el suelo (X) y los 0.16 0.2
valores promedios de nitrógeno por planta 0.55 0.9
(Y). Se desea conocer la asociación entre las 0.17 0.21
dos variables: 0.68 0.92
0.18 0.22
0.69 0.94
𝑛 σ 𝑋𝑌 − σ 𝑋 σ 𝑌 0.18 0.23
𝑟=
𝑛 σ 𝑋2 − σ 𝑋 2 𝑛 σ 𝑌2 − σ 𝑌 2

Rosa Gutiérrez de Alarcón 58


Ejemplo (continuación):
X: Y:
Nitrógeno Nitrógeno
en Suelo en planta
X2 XY Y2
12 × 2.9951 − 4.26 × 6.24
𝑟= (ppm) (ppm)
12 × 2.0286 − 4.262 12 × 4.4644 − 6.242
0.42 0.7 0.1764 0.294 0.49
𝑟 = 0.9828
0.13 0.19 0.0169 0.0247 0.0361
Del cuadro de valoraciones, encontramos 0.45 0.73 0.2025 0.3285 0.5329
que el coeficiente de correlación se 0.15 0.2 0.0225 0.03 0.04
encuentra en el intervalo 0.8 ≤ r < 1, 0.5 0.8 0.25 0.4 0.64
significa que hay una asociación muy alta 0.16 0.2 0.0256 0.032 0.04
entre estas dos variables.
0.55 0.9 0.3025 0.495 0.81
0.17 0.21 0.0289 0.0357 0.0441
Continuando con el ejemplo: Estaríamos
0.68 0.92 0.4624 0.6256 0.8464
interesados en saber:
¿Cual es la relación entre cantidad de 0.18 0.22 0.0324 0.0396 0.0484
nitrógeno en suelo y cantidad de nitrógeno en 0.69 0.94 0.4761 0.6486 0.8836
planta? 0.18 0.23 0.0324 0.0414 0.0529
¿Cómo saber la cantidad de nitrógeno 4.26 6.24 2.0286 2.9951 4.4644
promedio en planta por parcela si en suelo se
encuentra 0.53 ppm?
REGRESION LINEAL SIMPLE Rosa Gutiérrez de Alarcón
REGRESIÓN LINEAL SIMPLE
Horas de estudio y Rendimiento académico
16.0

15.5
El análisis del diagrama

Rendimiento académico
15.0
de dispersión indica que
la tendencia es una línea 14.5
recta, es la que mejor se 14.0
ajusta a los datos,
entonces debemos 13.5
estimar la ecuación de 13.0
una recta.
12.5

12.0

11.5
2 3 4 5 6 7 8 9 10
Horas de estudio
Rosa Gutiérrez de Alarcón 60
REGRESIÓN LINEAL SIMPLE
El modelo de regresión lineal representa un marco metodológico, que
permite analizar la relación entre dos variables, asumiendo una hipótesis de
causalidad, esta hipótesis se representa por medio una función
metamatemática Y = f(X)
Es razonable pensar que una observación muestral de la variable Y puede ser
expresada como una combinación lineal de las observaciones de X
incluyendo un componente denominado término de error ( ):
𝒀𝒊 = 𝜷𝒐 + 𝜷𝟏 𝑿𝒊 + 𝜺𝒊 𝒊 = 𝟏, 𝟐, . . . , 𝒏

Donde:
Y: Variable dependiente, endógena, explicada, de respuesta...
X: Variable independiente, exógena, explicativa, de control, regresora...
0 y 1: Parámetros poblacionales
1: Es la cantidad de cambio que se produce en Y por cada unidad de
cambio de X.
Rosa Gutiérrez de Alarcón 61
La diferencia entre el valor observado de la variable y la recta estimada
se denomina error (𝜀𝑖 ), que representa los factores que influyen en Y
además de X.  el objetivo es estimar los parámetros 0 y 1 de tal
manera que se minimice 𝜺𝒊
Rosa Gutiérrez de Alarcón 62
Método de los mínimos cuadrados
1) El modelo lineal : 𝒀𝒊 = 𝜷𝒐 + 𝜷𝟏 𝑿𝒊 + 𝜺𝒊 𝒊 = 𝟏, 𝟐, . . . , 𝒏

2) Se despeja el término error 𝜺𝒊 = 𝒀𝒊 − 𝜷𝒐 − 𝜷𝟏 𝑿𝒊

3) Se calcula la suma del termino error al cuadrado

𝑄 = σ𝑛1 𝜺2𝑖 = σ𝑛1 𝒀𝒊 − 𝜷𝒐 − 𝜷𝟏 𝑿𝒊 2

Esta es la función que se debe minimizar


4) Dada una muestra aleatoria, el método de los Mínimos Cuadrados
Ordinarios MCO considera los valores muestrales como estimadores de los
parámetros 𝑛
𝟐

𝑀𝑖𝑛 𝑄 = 𝑀𝑖𝑛 ෍ 𝒀𝒊 − 𝜷𝒐 − 𝜷𝟏 𝑿𝒊෡
1
5) Se resuelve como un problema de optimización, mediante un sistema
de dos ecuaciones con dos incógnitas

Rosa Gutiérrez de Alarcón 63


REGRESIÓN LINEAL SIMPLE
5) Se resuelve como un problema de optimización, mediante un sistema
de dos ecuaciones con dos incógnitas
𝑛
𝜕𝑄 𝜕 σ𝑛
1 𝒀𝒊 − 𝜷𝒐 −𝜷𝟏 𝑿𝒊 2
= = −2෍ 𝒀𝒊 − 𝜷𝒐 − 𝜷𝟏 𝑿𝒊 = 0
𝜕𝛽𝑂 𝜕𝛽𝑂 1

𝑛
𝜕𝑄 𝜕 σ𝑛1 𝒀𝒊 − 𝜷𝒐 − 𝜷𝟏 𝑿𝒊 2
= = −2 ෍ 𝒀𝒊 − 𝜷𝒐 − 𝜷𝟏 𝑿𝒊 𝑋𝑖 = 0
𝜕𝛽1 𝜕𝛽1
1

Simplificando las expresiones anteriores obtenemos las siguientes


ecuaciones normales :
n 0  1X  Y
 0 X  1X 2  YX
La solución para β𝐨 y β𝟏 constituyen los estimadores de los parámetros
y se obtendrán a partir de la muestra
“un cambio de una unidad en la variable X se acompaña de un cambio
de β1 unidades en la variable Y”.
Rosa Gutiérrez de Alarcón 64
Parámetros estimados
σ 𝑋𝑖 𝑌𝑖 −𝑛𝑋ത 𝑌ത 𝑆𝑥𝑦

𝛽1 = σ 2 ത 2 = y 𝛽መ0 = 𝑌ത − 𝛽መ1 𝑋ത
𝑋𝑖 −𝑛𝑋 𝑆𝑥𝑥

La línea de regresión ajustada es: Yˆ  ˆ0  ˆ1 X

Ejemplo: Continuamos con el ejemplo


መ 2.9951−12×0.355×0.52 0.7799
𝛽1 = 2 = = 1.5106
2.0286−12×0.355 0.5163

𝛽መ0 = 0.52 − 1.5106 × 0.355 = −0.01626


𝑌෠ = −0.01626 + 1.5106𝑋

−0.01626 es el valor del intercepto (cuando X = 0)


1.5106, es el incremento en la cantidad de nitrógeno en planta por
parcela por cada unidad de nitrógeno en adicional en suelo
Rosa Gutiérrez de Alarcón 65
Y: Nitrógeno en planta (ppm)
1.2

y = 1.5106x - 0.0162
0.8 R² = 0.966

0.6

0.4

0.2

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

¿Cómo saber la cantidad de nitrógeno promedio en planta por parcela si en suelo se en


se encuentra 0.53 ppm?
𝑌෠ = −0.01626 + 1.5106 × 0.53 = 0.7844

Rosa Gutiérrez de Alarcón


Coeficiente de determinación

El coeficiente de determinación es una estadística que mide la bondad o


calidad de una modelo o ecuación cuyo principal propósito es predecir
resultados futuros o probar hipótesis, el coeficiente determina la
proporción de variabilidad de los resultados que puede explicarse por el
modelo o ecuación, en el caso de un modelo de regresión lineal simple
es el cuadrado del coeficiente de correlación: 𝑅2 = 𝑟 2

𝑅2 = 𝑟 2 = (0.9828 )2 = 0.966

Significa que el 96.6 % de la variabilidad de las cantidades de


nitrógeno en planta queda explicado por las cantidades de
nitrógeno en suelo.
RDGA 68

También podría gustarte