Está en la página 1de 55

Vicerrectorı́a Académica

Instituto de Matemáticas, Fı́sica y Estadı́stica

,
Curso: INFERENCIA ESTADISTICA (AES510)
Guı́a 2
Tema: Inferencia Estadı́stica - Estimación por Intervalos

Resultados de Aprendizaje
Estimar parámetros poblacionales a través de métodos estadı́sticos.
Determinar intervalos de confianza para parámetros poblaciones a través del análisis de
las variables en estudio.
Utilizar Software de planilla electrónica para el análisis de datos del área de las Ciencias
de la Ingenierı́a y Economı́a
Demostrar una actitud responsable hacia las exigencias de la asignatura.

Introducción
Anteriormente se revisó cómo obtener estimadores puntuales de los parámetros poblacionales
y algunas de sus propiedades. Puede ser que no siempre el estimador puntual más eficiente
estime el parámetro poblacional con exactitud, ya que la precisión aumenta con muestras gran-
des, pero no hay razón de esperar que un estimador puntual de una muestra sea exactamente
igual al parámetro poblacional que estima, es por ello que a veces es preferible determinar un
intervalo dentro del cual esperarı́amos encontrar el valor del parámetro, tal intervalo se llama
Intervalo de Confianza.

Estimación por Intervalos


Como la estimación puntual no siempre es exacta, y no nos proporciona suficiente informa-
ción, es deseable acompañar la estimación del parámetro θ, de alguna manera del posible error
asociado a esta estimación. Es decir, asociado a cada estimación del parámetro daremos un
intervalo y una medida que nos refleje la confianza que tenemos acerca de que el verdadero
valor del parámetro se encuentre dentro del intervalo.

Una estimación por intervalo de un parámetro poblacional θ es un intervalo de la forma


θ1 < θ < θb2 , donde θb1 y θb2 dependen del valor del estadı́stico θb para una muestra especifica, y
b
también de la distribución de muestreo del estadı́stico.

El objetivo que se pretende con los intervalos de confianza, es obtener un intervalo de poca
ampllitud y con una alta probabildiad de que el parámetro θ se encuentre en él.

1 de 11
Luego si deseamos obtener una estimación por intervalo del parámetro poblacional θ desco-
nocido, tendremos que obtener los estadisticos θb1 y θb2 que serán los extremos del intervalo, tales
que:
 
P θb1 < θ < θb2 = 1 − α

La fracción 1 − α se denomina nivel de confianza, y al valor 100(1 − α) % se le llama nivel


de confianza y los puntos θb1 y θb2 se llaman lı́mites de confianza inferior y superior. Ası́,
cuando α = 0,05, tendremos un intervalo de confianza del 95 %.

Estimación de la media, µ
Si seleccionamos una muestra x1 , x2 , . . . , xn a partir de una población normal con media
µ y varianza σ 2 , o si n es suficientemente grande, podemos establecer un intervalo de
confianza para µ considerando la distribución muestral de x.

De acuerdo con el Teorema del Lı́mite Central, podemos esperar que la distribución de
2
x sea aproximadamente normal con media µ y varianza σn .
2
Como x ∼ N (µ; σn ), entonces
x−µ
Z= √ ∼ N (0, 1)
σ/ n

Basándonos en esta fórmula podemos determinar el intervalo de confianza para µ, eli-


giendo un nivel de confianza 1 − α, determinaremos dos valores Z1 y Z2 , tal que:

P (Z1 < Z < Z2 ) = 1 − α


hay infinitas formas de escoger Z1 y Z2 que cumplan tal condición, el más simple es
escoger que Z2 = −Z1 = Z0 . Por lo que:
 
x−µ
P Z0 < √ < Z0 = 1 − α
σ/ n
despejando µ, se tiene
 
σ σ
P x − Z0 · √ < µ < x + Z0 · √ =1−α
n n
Por simetrı́a de la curva normal, se tiene Z0 = Z1−α/2 , donde Z1−α/2 se obtiene utilizando
la tabla de la curva normal tipificada.

Ası́,
 
σ σ
P x − Z1−α/2 · √ < µ < x + Z1−α/2 · √ =1−α
n n

2 de 11
Definición 1
Intervalo de confianza para la media de una población normal, siendo σ conocida
Sea x la media de una muestra aleatoria de tamaño n de una población de la que se conoce
su varianza σ 2 , se tiene que el intervalo de confianza de 100(1 − α) % para µ es:
 
σ σ
P x − Z1−α/2 · √ < µ < x + Z1−α/2 · √ =1−α
n n

✎ Ejercicio 1
Si una muestra aleatoria de tamaño 200 de una población normal con varianza 225 tiene
una media muestral de 64, 3. Construya un intervalo de confianza del 95 % de confianza
para µ.

✎ Ejercicio 2
Se encuentra que la concentración promedio de zinc que se obtiene en una muestra de
mediciones en 36 sitios diferentes de un rı́o es de 2,6 gramos por mililitro. Calcule el
intervalo de confianza del 99 % para la concentración media de zinc en el rı́o. Suponga que
la desviación estándar de la población es de 0,3 gramos por mililitro.

✎ Ejercicio 3
Una muestra aleatoria de 100 propietarios de automóviles de la región Metropolitana re-
vela que éstos conducen su automóvil, en promedio, 23500 kilómetro por año, con una
desviación estándar de 3900 kilómetros. Suponga que la distribución de las mediciones es
aproximadamente normal. Determine un intervalo de confianza del 95 % para el número
medio de kilómetros que conduce anualmente un propietario de automóvil en la región
Metropolitana.

✎ Ejercicio 4
Pacientes con problemas al corazón tienen un marcapasos para controlar su ritmo cardiaco.
El marcapasos tiene montado un módulo conector de plástico en la parte superior. Suponga
que la profundidad de todos los módulos conectores fabricados por cierta empresa tiene una
distribución aproximadamente normal con una desviación estándar de 0,0015 pulgadas.
Calcule un intervalo de confianza del 95 % para la media de la profundidad de todos los
módulos conectores fabricados. Se conisdera una muestra aleatoria de 75 módulos que
tienen una profundidad promedio de 0,310 pulgadas.

3 de 11
Intervalo de confianza para la media de una población normal, siendo σ
desconocida

Supongamos una población N (µ; σ 2 ), en donde µ y σ son desconocidos. Consideremos


una muestra aleatoria simple x1 , x2 , ..., xn , buscaremos un estadı́stico que dependa del
parámetro µ y de su estimador, y cuya distribución muestra1 no dependa µ. Ese es-
tadı́stico será:
x−µ
T = √ ∼ tn−1
S/ n

que se distribuye según una t − Student con n − 1 grados de libertad, siendo S 2 la


varianza muestral.

Siguiendo la misma metologı́a del intervalo de confianza anterior, elegimos t1 y t2 , tales


que:  
x−µ
P t 1 < √ < t2 = 1 − α
S/ n
eligiendo a, −t1 = t2 = to , y que t0 = tn−1;1−α/2 , se tiene:

 
S S
P x − t0 · √ < µ < x + t0 · √ =1−α
n n
Por lo que el intervalo de confianza queda:

 
S S
P x − tn−1;1−α/2 · √ < µ < x + tn−1;1−α/2 · √ =1−α
n n

Definición 2
Supongamos que tenemos una muestra aleatoria de n observaciones de una
distribución N (µ, σ 2 ). Si σ es desconocida, y la media y la desviación tı́pica
muestra1 observadas son x y S, respectivamente, entonces el intervalo de confian-
za para la media poblacional µ, al nivel de confianza del 100(1−α) % viene dado por:

 
S S
P x − tn−1;1−α/2 · √ < µ < x + tn−1;1−α/2 · √ =1−α
n n

donde la variable tn−1 , sigue una distribución t−Student con n−1 grados de libertad.

4 de 11
✎ Ejercicio 5
Un fabricante de pintura quiere determinar el tiempo de secado promedio para una nueva
pintura para pared interior. Si para una prueba de 12 áreas de igual tamaño obtiene un
tiempo medio de secado de 66,3 minutos y una desviación estándar de 8,4 minutos. Cons-
truya un intervalo del 99 % de confianza para µ si el tiempo de secado tiene distribución
normal.

✎ Ejercicio 6
Un fabricante de una determinada marca de vehı́culos de lujo sabe que el consumo de
gasolina de sus vehı́culos se distribuye normalmente. Se selecciona una muestra aleatoria
de 6 autos y se observa el consumo cada 100 km, y se obtuvo un consumo promedio de
gasolina de 19, 5 litros con una desviación tı́pica muestra1 de 1, 06 litros. Construya un
intervalo de confianza del 95 % de confianza para µ.

✎ Ejercicio 7
Una máquina produce piezas metálicas de forma cilı́ndrica. Se toma una muestra de las
piezas y los diámetros son 1,01; 0,97; 1,03; 1,04; 0,99; 0,98; 0,99; 1,01; 1,03 centı́metros.
Calcule un intervalo de confianza del 95 % para la media del diámetro de las piezas que se
manufacturan con esta máquina. Suponga una distribución aproximadamente normal.

✎ Ejercicio 8
Una muestra aleatoria de 10 barras energéticas de chocolate de cierta marca tiene, en
promedio, 230 calorı́as por barra y una desviación estándar de 15 calorı́as. Construya un
intervalo de confianza del 99 % para el contenido medio verdadero de calorı́as de esta marca
de barras energéticas de chocolate. Suponga que la distribución del contenido calórico es
aproximadamente normal.

✎ Ejercicio 9
La afluencia de visitantes al Parque de Lota durante un mes, medida a través de una
muestra durante 10 dı́as elegidos aleatoriamente, han sido los siguientes:
682, 553, 555, 666, 657, 649, 522, 568, 700, 552
Suponiendo que los niveles de afluencia siguen una distribución normal. Construya un
intervalo de confianza del 95 % para el nivel medio de afluencia de visitantes al Parque de
Lota.

5 de 11
Intervalo de confianza para la proporción poblacional

Cuando en una población de interés se está estudiando una caracterı́stica en particular


y cada miembro de la población puede clasificarse según la posea o no, definimos como
p a la proporción (porcentaje) de la población que presenta la caracterı́stica o rasgo. El
estimador puntual para p, lo podemos obtener extrayendo una muestra aleatoria de la
población de interés y determinar la proporción de objetos o sujetos con la caracterı́stica
en la muestra y utilizar esta “proporción muestral” como estimador de la proporción p.
Es decir,
número de objetos en la muestra con el rasgo
pb =
tamaño de la muestra (n)

Si n es suficientemente grande,ppb tiene una distribución aproximadamente normal con


media p y desviación estándar (p(1 − p))/n).

Con el mismo razonamiento que empleamos en la estimación de la media poblacional


µ, el planteo inicial para estimar la proporción poblacional es determinar p1 y p2 que
verifiquen:

P (p1 < pb < p2 ) = 1 − α


eligiendo a, −p1 = p2 = po ,
!
pb − p
P p0 < p < p0 =1−α
(p(1 − p))/n)

y considerando que p0 = Z1−α/2 , se tiene

r r !
p(1 − p) p(1 − p)
P pb − Z1−α/2 · < p < pb + Z1−α/2 · =1−α
n n

El problema es que no conocemos el parámetro p, por lo que no conocemos la desviación


estándar, ası́ que se estima la desviación estándar con el error estándar de pb, luego la
desviación estándar de pb es:
q
p) = pb(1−b
S(b n
p)
.

El intervalo de confianza para la proporción poblacional para un nivel de confianza


(1 − α)100 % es:

r r !
pb(1 − pb) pb(1 − pb)
P pb − Z1−α/2 · < p < pb + Z1−α/2 · =1−α
n n

6 de 11
✎ Ejercicio 10
Se quiere estimar la proporción de personas que esperan que su situación económica mejore
el año próximo. Para ello se ha preguntado a 500 personas de Santiago, de la cuales 175
esperan que su situación económica mejore, se catalogan como optimistas.

a) ¿Cuál es la estimación de la proporción de personas optimistas?


b) Calcula un intervalo de confianza para la proporción de personas optimistas en esta
población, con un nivel de confianza del 95 %.

✎ Ejercicio 11
Se preguntó a 80 pacientes si habı́an sufrido algún efecto secundario tras seguir un tra-
tamiento, de los cuales 60 dijeron que no. Calcule un intervalo de confianza, al 95 % de
confianza, para la proporción de pacientes que sufre efectos secundarios tras el tratamiento.

✎ Ejercicio 12
Para estimar el grado de satisfacción de sus clientes, una compañı́a de seguros realiza una
encuesta aleatoria entre 200 de sus clientes. De ellos, 112 declararon estar satisfechos.

a) ¿Cuál es la estimación de la proporción de clientes satisfechos?


b) Hallar el intervalo de confianza al 99 % para la estimación de la proporción de clientes
satisfechos

✎ Ejercicio 13
Para estimar la proporción de individuos de una población que utilizan el comercio electróni-
co se ha realizado una encuesta a una muestra aleatoria de 200 individuos, de los cuales 80
han respondido que utilizan el comercio electrónico. Con estos datos, hallar un intervalo de
confianza del 95 % para la proporción de individuos de la población que utilizan el comercio
electrónico.

✎ Ejercicio 14
Se realiza una encuesta a un grupo de personas de la comuna X, sobre cuál es su preferencia
de los candidatos a alcalde, de los 250 encuestados, 120 indicaron que votarı́an por el
candidato A, 26 votarı́an por el candidato B,y el resto por el candidato C. Hallar un
intervalo de confianza del 95 % para la proporción de individuos de la comuna que votarı́a
por el candidato C.

7 de 11
Intervalo de confianza para la varianza poblacional

Supongamos una población normal N (µ; σ 2 ), en donde µ y σ son desconocidos y


deseamos obtener un intervalo de confianza para la varianza poblacional σ 2 al nivel de
confianza del (1 − α)100 %. Para ello tomamos una muestra aleatoria x1 , x2 , . . . , xn de
tamaño n, y utilizamos un estadı́stico que dependa del parámetro σ 2 y de su estimador
S y cuya dsitribución no dependa de σ 2 .

A partir del estadı́tico:


(n − 1) · S 2
X2 =
σ2
que distribuye Chi-Cuadrado con n − 1 grados de libertad, esto se obtiene a través del
Teorema de Fisher, siendo S 2 la varianza nuestral. Luego:

(n − 1) · S 2
∼ χ2n−1
σ2
la fórmula para el intervalo de confianza, con nivel de confianza 1 − α es la siguiente,
para los valores k1 y k2 :
 
(n − 1) · S 2
P k1 < < k2 =1−α
σ2

Recordando los procesos anteriores en la construcción de intervalos de confianza, con


un nivel de confianza de 1 − α, determinamos k1 y k2 de manera que el intervalo tenga
una longuitud mı́nima, pero como la distribución χ2 no es simétrica, tenemos que estos
valores dependerán de los grados de libertad.

Teniendo en cuenta la forma de la distribución χ2 , tenemos para k1 y k2 :


 
2 (n − 1) · S 2 2
P χn−1,α/2 < < χn−1,1−α/2 = 1 − α
σ2

despejando σ 2 y ordenando la expresión, se tiene el intervalo de confianza del (1−α)100 %


para σ 2 :
!
(n − 1)S 2 (n − 1)S 2
P < σ2 < 2 =1−α
χ2n−1,1−α/2 χn−1,α/2

en donde los valores χ2n−1,1−α/2 y χ2n−1,α/2 , se obtienen de una distribución χ2 con n − 1


grados de libertad.

Se tiene, ademas el Intervalo de confianza para la Desviación Estándar

s s !
(n − 1)S 2 (n − 1)S 2
P <σ< =1−α
χ2n−1,1−α/2 χ2n−1,α/2

8 de 11
✎ Ejercicio 15
Una muestra aleatoria de quince cápsulas de un medicamneto para el dolor de cabeza
tiene una desviación tı́pica de 0,7 % en la concentración del ingrediente activo. Calcule un
intervalo de confianza al 95 % para la varianza de la población para estas cápsulas.

✎ Ejercicio 16
Sospechamos que nuestro cromatógrafo está estropeado, y queremos determinar si los resul-
tados que nos proporciona son lo suficientemente precisos. Para ello, realizamos una serie
de 8 mediciones del contenido de una solución de referencia que, sabemos, contiene 90 %
de un determinado compuesto. Los resultados que obtenemos son:

93,3; 86,8; 90,4; 90,1; 94,9; 91,6; 92,3; 96,5


Construir un intervalo de confianza al nivel de 95 % para la varianza poblacional. ¿ Que
conclusiones podemos realizar?

✎ Ejercicio 17
Una agencia de arriendo de automóviles necesita estimar el número de kilómetros diarios
que realiza su flota, durante varios dı́as toma los recorridos de cien vehı́culos de su flota
y obtiene que la media muestral es de 165 km/dı́a, y la cuasidesviación estándar muestral
es de 6 km/dı́a. Construir un intervalo de confianza del 90 % para la varianza de dicha
distribución.

✎ Ejercicio 18
Se desea estimar la varianza poblacional para el proceso de llenado de envases con un de-
tergente lı́quido. Se tomo una muestra de 20 envases llenos y se encontró que la varianza de
las cantidades de llenados es de 0, 0025 onzas2 , con esta infomación determine un intervalo
de 95 % de confianza para la varianza poblacional.

✎ Ejercicio 19
Una farmaceutica fabrica un medicamento para la alergia. El departamento de control de
la calidad prueba rutinariamnete muestras aleatorias de tabletas de cada lote. La potencia
nominal de cada tableta es 25 miligramos, y las potencias medidas de 30 tabletas en una
muestra, dan como promedio de 25, 097 miligramos con una varianza de 2, 1583. Determine
un intervalo de confianza para la desviación estándar de la potencia de las tabletas.

9 de 11
✎ Ejercicio 20
Para verificar que una máquina para empacar café de grano está bien regulada para llenar
paquetes se toma una muestra de 16 paquetes y se obtuvo una varianza de 169 gramos2 ,
se sabe que el peso de cada paquete se distribuye normalmente. Determine un intervalo de
confianza al 90 % para la desviación estándar del peso de cada paquete.

✎ Ejercicio 21
En 16 recorridos de prueba, el consumo de gasolina de un motor experimental tuvo una
desviación estándar de 2,2 litros. Construir un intervalo de confianza del 99 % para la
varianza y para la desviación estándar esperadas de este motor.

10 de 11
Soluciones
1.- El intervalo de confianza al 95 % es (62, 221; 66, 379)

2.- El intervalo de confianza al 95 %

2- El intervalo de confianza al 99 % de la concentración media de zinc es (2, 47125; 2, 72875)

3.- El intervalo de confianza al 95 % para el número medio de kilometros es (22735, 8; 24264, 4)

4- El intervalo de confianza al 95 % de la profundidad media de los módulos conectores fabri-


cados es (0, 30966; 0, 31034)

5- El intervalo de confianza al 99 % del tiempo medio de secado es (58, 768; 73, 8377)

6.- El intervalo de confianza al 95 % del consumo promedio de gasolina es (18, 3872; 20, 613)

7- El intervalo de confianza al 95 % para la media del diámetro de las peizas es (0, 9862; 1, 0238)

8.- El intervalo de confianza al 99 % para el contenido medio de calorı́as es (210, 584; 245, 416)

9- El intervalo de confianza al 95 % para el nivel medio de afluencia de visitantes es (562, 216; 658, 584)

10- a) La esimación de proporción de personas optimistas es 0,35


b) El intervalo de confianza al 95 % de la propoción de personas optimistas es (0, 3082; 0, 3918)

11- El intervalo de confianza al 95 % de la proporción de pacientes que sufre efectos secundarios


es (0, 2016; 0, 2984)

12- a) La esimación de proporción de clientes satisfechos es 0,3


b) El intervalo de confianza al 99 % de la proporción de clientes satisfechos es (0, 4696; 0, 6504)

13- El intervalo de confianza al 95 % de la proporción de la población que utliza el comercio


electrónico es (0, 33211; 0, 4679)

14- El intervalo de confianza al 95 % de la proporción de individuos de la comuna que votarı́a


por el cnadidato C es (0, 3549; 0, 4771)

15- El intervalo de confianza al 95 % para la varianza de la población es (0, 0000263; 0, 0001287)

16- El intervalo de confianza al 95 % para la varianza de la población es (3, 9877; 57, 777)

17- El intervalo de confianza al 95 % para la varianza de la población es (29, 32; 47, 865)

18- El intervalo de confianza al 95 % para la varianza de la población es (0, 001445; 0, 00533)

19- El intervalo de confianza al 95 % para la desviación estándar de la potenciade las tabletas


es (1, 17; 1, 974)

20- El intervalo de confianza al 95 % para la desviación estándar del peso de cada paquete es
(0, 069; 18, 6849)

21- El intervalo de confianza al 95 % para la desviación estándar esperada del motor es (1, 4878; 3, 9723)

11 de 11
Vicerrectorı́a Académica
Instituto de Matemáticas, Fı́sica y Estadı́stica

,
Curso: INFERENCIA ESTADISTICA (AES510)
Guı́a 3
Tema: Inferencia Estadı́stica - Pruebas de Hipótesis - Tamaño Muestral

Resultados de Aprendizaje
Determinar intervalos de confianza para parámetros poblacionales asociados a distintas
variables del área de ingenierı́a y economı́a.
Aplicar test estadı́sticos para la validación de hipótesis de parámetros poblacionales en
problemas del área de ingenierı́a y economı́a.
Utilizar Software de planilla electrónica para el análisis de datos del área de las ciencias
de la ingenierı́a y economı́a.
Demostrar una actitud responsable hacia las exigencias de la asignatura.

Introducción
Junto con los intervalos de confianza para la diferencia de medias, los contrastes o test de
hipótesis son la herramienta más importante de la inferencia estadı́stica, ya que permite ex-
traer información de la población. Los test de hipótesis son capaces de responder a preguntas
concretas que nos podemos formular sobre los parámetros poblacionales de interés. Entonces,
se establece la hipótesis de investigación relacionada a la pregunta: ¿Existe una diferencia es-
tadı́sticamente significativa entre un estimador y el parámetro de la población o entre dos
estimadores?.

Otro punto importante en una investigación, es la determinación previa del tamaño mues-
tral. El tamaño de la muestra fija la precisión de un análisis y valida las conclusiones que se
extrapolan al ambito poblacional. Se considera la técnica de muestreo más usual, denominada
“Muestreo Aleatorio Simple”(m.a.s.).

Objetivo

El experto determina el tamaño de la muestra representativa de toda una población para


realizar las inferencias estadı́sticas. Luego, observa la naturaleza de un fenómeno, formula una
teorı́a y a continuación, confronta esta teorı́a con la evidencia observada. Si lo observado no
está de acuerdo con la teorı́a, se rechaza la hipótesis. En caso contrario, se pueden obtener dos
conclusiones: la teorı́a es verdadera o bien en la muestra no se detectó diferencia significativa
entre los valores reales y los postulados en la hipótesis planteada.

1 de 13
Técnicas de Muestreo y determinación del tamaño muestral
Al realizar una investigación, es necesario determinar una muestra representativa de la po-
blación en estudio, con la finalidad de realizar inferencias sobre la totalidad de los individuos
u objetos de la población. Una muestra es representativa cuando la selección de los elementos
de la población se realizan aleatoriamente y cuando cada elemento tiene la misma posibilidad
de ser seleccionado.
La estimación del tamaño muestral, se puede considerar un instrumento del que dispone el
investigador para evaluar la factibilidad y la necesidad de recursos de su proyecto.
El muestreo aleatorio simple, es la técnica de muestreo más conocida, garantizando la misma
probabilidad de elección de cualquier elemento, y la independencia de selección de cualquier
otro. En este procedimiento se extraen al azar un número determinado de elementos, ”n”, del
conjunto mayor ”N ” o población. Cabe mencionar que existen otras técnicas de muestreo, tales
como: Muestreo Estratificado, Muestreo por Conglomerados, etc.
Definición 1
Determinación del Tamaño Muestral

Si conocemos la varianza poblacional σ 2 , con un nivel de confianza del (1 − α) % y un


error permitido en la estimación de e, el tamaño muestral queda determindo por:

Z1− α2 σ 2
 
n=
e

✎ Ejercicio 1
El tiempo de conexión a internet de los alumnos de la Universidad de las Américas, sigue
una distribución normal con desviación tı́pica de 15 minutos. Para estimar el tiempo medio
de conexión, se quiere calcular un intervalo de confianza que tenga una amplitud menor o
igual a 6 minutos, con un nivel de confianza del 95 %. Determina cuál es el tamaño mı́nimo
de la muestra que es necesario observar.

✎ Ejercicio 2
Un fabricante de estufas sabe que la vida media de estas sigue una distribución normal
con media 100 trimestres y desviación tı́pica 12 trimestres. Determina el mı́nimo tamaño
muestral que garantiza, con una probabilidad de 98 %, que la vida media de las estufas en
dicha muestra se encuentre entre 90 y 100 trimestres.

✎ Ejercicio 3
Una marca de ampolletas desea hacer un estudio e indica que la desviación tı́pica de la
duración de sus ampolletas es de 100 horas en uso. Calcula el tamaño de la muestra que se
ha de someter a prueba para tener una confianza del 90 % de que el error de la duración
media sea menor a 10 horas.

2 de 13
Intervalos de confianza para diferencias de medias de dos poblaciones
Suponemos dos poblaciones independientes: x ∼ N (µ1 ; σ12 ) e y ∼ N (µ2 ; σ22 ).Sea x la media
de una muestra aleatoria de tamaño n1 e y la media de una muestra aleatoria de tamaño n2 ,
respectivamente, provenientes de dos problaciones.
Definición 2
Intervalo de confianza para diferencia de medias, siendo σ12 y σ22 conocidas.
Las varianzas poblacionales conocidas como σ12 y σ22 , respectivamente. El intervalo de con-
fianza de (1 − α) % para µ1 − µ2 es:

 s s 
σ12 σ22 σ12 σ22 
P (x − y) − Z1− α2 · + < µ1 − µ2 < (x − y) + Z1− α2 · + =1−α
n1 n2 n1 n2

✎ Ejercicio 4
Se extraen dos muestras de poblaciones independientes de focos halógenos. Una muestra
de 40 focos tomada al azar de una primera marca dio una duración media de 418 horas,
y una muestra de 50 focos de otra marca dieron una duración media de 402 horas. Las
desviaciones estándares de las dos poblaciones son 26 horas y 22 horas, respectivamente.
Construya un intervalo de confianza del 95 % para la diferencia real entre las duraciones
de dos marcas de focos y recomiende la marca de mayor duración.

Definición 3
Intervalo de confianza para diferencia de medias, siendo σ12 y σ22 desconocidas
pero iguales.

Se desconocen sus varianzas pero se sabe que σ12 = σ22 . El intervalo de confianza de
100(1 − α) % para µ1 − µ2 es:
 r r 
1 1 1 1
P (x − y) − tgl;1− α2 · Sp + < µ1 − µ2 < (x − y) + tgl;1− α2 · Sp + =1−α
n1 n2 n1 n2
Donde,

s
(n1 − 1)S12 + (n2 − 1)S22
Sp =
n1 + n2 − 2

gl = n1 + n2 − 2
donde la variable tgl , sigue una distribución t−Student con n1 + n2 − 2 grados de libertad.

3 de 13
✎ Ejercicio 5
Una empresa de neumáticos desea comparar dos partidas. La primera partida con una
muestra de 15 neumáticos con una duración de 28000 km y una desviación estándar de
800 km. La segunda partida con una muestra de 20 neumáticos con una duración media
de 27700 km y desviación estándar de 1000 km. La distancia de duración se distribuye
normalmente y se sabe que las varianzas poblacionales son iguales. Realice un intervalo de
confianza para la diferencia de duraciones medias entre ambas partidas de neumáticos y
concluya al 99 % de confianza.

Definición 4
Intervalo de confianza para diferencia de medias, siendo σ12 y σ22 desconocidas y
diferentes.

El intervalo de confianza de 100(1 − α) % para µ1 − µ2 es:

 s s 
S12 S22 S12 S22 
P (x − y) − tgl;1− α2 · + < µ1 − µ2 < (x − y) − tgl;1− α2 · + =1−α
n1 n1 n1 n1

Donde,
 2
S12 S22
n1
+ n2
gl =  2 2  2
2
S1 S2
n1 n2

n1 −1
+ n2 −1

donde la variable tgl , sigue una distribución t − Student con gl grados de libertad.

✎ Ejercicio 6
Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un
nuevo proceso en el que se añade una aleación a la producción del metal. Los fabricantes se
encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de
los metales producidos por los dos procesos. Para cada metal se seleccionan 12 ejemplares y
cada uno de éstos se somete a una tensión hasta que se rompe. Los resultados para el proceso
Estandar arrojan una tensión media de ruptura de 443,3 con una desviación estandar de
24,8 kilogramos por centı́metro cuadrado. Mientras que el Nuevo proceso resulta entregar
una tensión media de ruptura de 451,4 con una desviación estandar de 14,9 kilogramos
por centı́metro cuadrado. Compruebe con un 90 % de confianza, que el Nuevo proceso trae
mejoras en la tensión media a la ruptura del metal.

4 de 13
✎ Ejercicio 7
Los siguientes datos resultan de dos muestras aleatorias para comparar el contenido de
nicotina de dos marcas de cigarrillos. La marca A, con una muestra de 10 cigarrillos, indica
un promedio de 3,1 ml de nicotina con una desviación tı́pica de 0,5 ml. La marca B, con
una muestra de 8 cigarrillos arroja una media de 2,7 ml de nicotina y una desviación tı́pica
de 0,7 ml.
Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de pobla-
ciones normales con varianzas desconocidas e iguales, construya un intervalo de confianza
del 95 % para la diferencia real de nicotina de las dos marcas.

✎ Ejercicio 8
El peso de las bolsas de aceitunas (en gr) de dos marcas se distribuye N (300, σi2 ).

Para la primera (n1 = 10): 300, 290, 280, 307, 305, 295, 299, 305, 300, 307.
Para la segunda (n2 = 12): 280, 300, 307, 290, 285, 295, 300, 260, 290, 300, 304, 298.

Suponga que ambas muestras provienen de poblaciones normales con varianzas descono-
cidas y distintas.
Hallar un intervalo del 90 % para la diferencia de medias entre los pesos de las bolsas de
aceitunas.

✎ Ejercicio 9
Para averiguar si el calor disipado por el funcionamiento de un procesador afecta a su
eficiencia, se miden los tiempos de espera para ciertas operaciones al encender el ordenador
(A) y tras dos horas de funcionamiento de este (B).
Del ordenador A con una σ = 2, 5 segundos, se extrae una muestra tamaño 10 obteniendose
un tiempo medio de 168 segundos y del ordenador B con σ = 3, 6 segundos, se extrae una
muestra tamaño 12 y resulta un tiempo medio de 178 segundos.
Calcular un intervalo de confianza del 95 % para la diferencia media del tiempo de ejecución.

✎ Ejercicio 10
Se desea averiguar la brecha en los salarios (en pesos) de profesionales sin postgrado versus
aquellos que estudiaron algún postgrado.
De los profesionales sin postgrado se sabe que σ = 150000 pesos, se extrae una muestra de
30 individuos y el salario medio resultó ser de 900000 pesos. Por otro lado, de trabajadores
con postgrado, se conoce σ = 100000 pesos, y mediante la selección de 25 profesionales se
obtiene un sueldo promedio de 1400000 pesos.
Encuentre el intervalo de confianza al 98 % para la diferencia de salarios medios y concluya
respecto de esa diferencia de sueldos.

5 de 13
Prueba de Hipótesis
Una hipótesis estadı́stica es una afirmación con respecto a alguna caracterı́stica desconocida
de una población de interés. El probar la hipótesis estadı́stica es el decidir si la afirmación
se encuentra apoyada por la evidencia experimental que se obtiene a través de una muestra
aleatoria. La decisión acerca de si los datos muestrales apoyan estadı́sticamente la afirmación
se toma en base a la probabilidad, y, si esta es mı́nima, entonces será rechazada.

Definición 5
Las hipótesis

Una hipótesis estadı́stica es una afirmación acerca de los parámetros de la distribución


de probabilidades de una o más variables aleatorias. Las hipótesis expresan el objetivo del
investigador.

En cualquier contraste o test de hipótesis tendremos 2 opciones en las que se especificarán


distintos valores de un parámetro poblacional y a la vista de los datos, debemos de optar
por una de ellas. Las hipótesis estadı́sticas a plantear son:

Hipótesis nula H0 : Corresponde a la hipótesis que va a ser probada.


Hipótesis alternativa H1 : Corresponde a posibles alternativas ante la hipótesis nula.

Al terminar el contraste habremos de optar por aceptar H0 (si no tenemos evidencia


suficiente en su contra) o rechazarla (si los datos hacen que la descartemos).

Ejemplo

Suponga que se tiene interés en el tiempo promedio necesario para terminar una pieza en
una lı́nea de ensamblado. Bajo condiciones de operación estándares, el objetivo es tener un
tiempo promedio de armado por pieza de 6 minutos. El gerente de la fábrica decide continuar
con el proceso a menos que se encuentre una evidencia de que el tiempo promedio no es de 6
minutos. La evidencia estará en una muestra aleatoria de tamaño n obtenida de la distribución
de interés para el tiempo promedio de ensamblaje de una pieza. ¿Cómo debe decidirse si el
proceso continúa en operación?

Como el ejemplo muestra, no es de interés estimar el tiempo medio, sino determinar que
el tiempo promedio para terminar la pieza es de 6 minutos. Por lo que se asume que al to-
mar una muestra se llevara a cabo bajo una distribución cuya media es 6. Si la afirmación es
estadı́sticamente aceptable basados en la evidencia experimental, entonces asumiremos que el
valor promedio es de 6 minutos, y continuaremos con el proceso, en caso contrario, si la muestra
no apoya la afirmación, entonces podremos detener el proceso, y realizar los ajustes necesarios.

6 de 13
El procedimiento para decidir si una hipótesis se acepta como valida o no, es el contraste
de hipótesis.
Definición 6
Contraste de Hipótesis
Un contraste de hipótesis es un procedimiento para decidir si una hipótesis se acepta como
válida o se rechaza. Serán dos las hipótesis que generalmente se contrastan, la que deno-
minamos hipótesis nula denotada por (H0 ) y la hipótesis alternativa denotada por (Ha o
H1 ).

Para realizar el contraste de una hipótesis seleccionamos una muestra aleatoria de la


población y trataremos de tomar una decisión de acuerdo con la información que nos pro-
porcionan los valores muestrales, a través de una estimación del parámetro (caracterı́stica)
a estudiar y de su distribución muestral.

Todas los contrastes de hipótesis trabajan en base a ciertos principios que se pueden
resumir en los siguientes elementos, todos ellos indispensables en la construcción del test.
Estos son:

1. Hipótesis nula, es la hipótesis en la que se basa el procedimiento de contraste. Se


refiere a la afirmación contraria a la que ha llegado el investigador. Es la hipótesis
que el investigador pretender rechaza, si tiene la evidencia suficiente.
2. Hipótesis alternativa, son las posibles alternativas ante la hipótesis nula. Es la
conclusión a la que el investigador ha llegado a través de su investigación.
3. Estadı́stico de Prueba, es una variable aleatoria con distribución conocida. Interesa
que contenga el máximo de información sobre la hipótesis nula planteada. Respecto
a este estadı́stico se tomará la decisión respecto de la aceptación o rechazo de la
hipótesis nula.
4. Zona de Rechazo o Región Crı́tica, define los valores del estadı́stico de prueba
para los cuales se contradice la hipótesis nula.
5. Regla de decisión, procedimiento que permite rechazar o no la hipótesis nula, H0 ,
dependiendo del valor del estadı́stico de prueba. Si para una muestra particular el
estadı́stico de prueba cae dentro de la región critica o zona de rechazo, rechazaremos
la hipótesis nula en favor de la hipótesis alternativa. Si el valor calculado no cae dentro
de la zona de rechazo no podremos rechazar la hipótesis nula.
6. Nivel de significación, que denotaremos por α, es la probabilidad con la que el
valor observado del estadı́stico de prueba esté en la región crı́tica.

7 de 13
Ejemplo
En nuestro ejemplo, sobre el tiempo promedio necesario para terminar una pieza en una lı́nea
de ensamblado, podemos plantear una hipotesis.

Se quiere comprobar que el tiempo promedio de armado por pieza es de 6 minutos. Si µ


representa el tiempo medio, la afirmación propuesta será µ = 6, lo que plantearemos como
nuestra hipótesis nula, entonces como hipótesis alternativa vendrá determinada por aquello que
estamos interesados en demostrar, en este caso que el tiempo promedio no sea 6 minutos. Las
hipótesis a plantear serı́an:

H0 : µ = 6
H1 : µ 6= 6

La hipótesis nula se considerará verdadera a menos que exista evidencia suficiente en su contra.

Definición 7
Decisiones y Tipos de errores

Al concluir el contraste de la hipótesis se tomará una de dos decisiones posibles: estar


de acuerdo con la hipótesis nula y se concluirá que “no se puede rechazar H0 ”, o bien,
se decidirá en contra de la hipótesis nula y se concluye que “se rechaza H0 ”. Esto está
relacionado con la veracidad de la hipótesis nula y lo correcto de la decisión que se tome,
es decir, se puede llegar a que la hipótesis nula sea verdadera o falsa, y que la decisión sea
no rechazar o bien rechazar por lo que se tiene cuatro posibilidades:

HIPOTESIS NULA
DECISION H0
VERDADERA FALSA
NO SE RECHAZA H0 Decisión Correcta Error Tipo II
SE RECHAZA H0 Error Tipo I Decisión Correcta

Ocurre, solo uno a la vez:


Error Tipo I, cuando es cierta la hipótesis nula, pero se decide en su contra.
Error Tipo II, cuando se decide a favor de una hipótesis nula que en realidad es falsa.
La probabilidad asignada al error tipo I se conoce como nivel de significación y se denota
por α, y la probabilidad de cometer el error tipo II se denota por la letra β. Se definen:

Error Tipo I: α = P (error tipo I) = P (rechazarH0 /H0 es verdadera)


Error Tipo II: β = P (error tipo II) = P (no rechazarH0 /H0 es falsa)

8 de 13
Definición 8
Tipos de Contrastes

Podemos definir dos tipos de contraste: los contrastes unilaterales y los bilaterales. Según
estos contrastes se tiene una región crı́tica.

Consideremos la hipótesis nula simple, es decir,

H0 : θ = θ0
con respecto al parámetro de interés θ, cuando se muestra una distribución cuya función
de densidad es f (x; θ), en donde θ0 es el valor propuesto de θ, se tienen los contrastes:

Contrastes unilaterales, son aquellos contrastes en los que la hipótesis nula H0 sea
de la forma ≤ o ≥ . Se tienen dos casos:

H 1 : θ < θ0 o H 1 : θ > θ0

Contrastes bilaterales, son aquellos contrastes en los que la hipótesis alternativa


H1 se defina mediante el signo 6=, ya que nos valen ambos sentidos de la desigualdad.
Se tiene:

H1 : θ 6= θ0

En base al contraste, se define la región crı́tica y la regla de decisión.

H 1 : θ < θ0 H 1 : θ > θ0 H1 : θ 6= θ0

Se rechaza H0 si el estadı́stico de prueba definido pertenece a la zona de rechazo (RC).


En caso contrario no hay evidencia para rechazar H0 .

9 de 13
EL CONTRASTE PARA LA MEDIA DE UNA POBLACIÓN NORMAL
En los contrastes de hipótesis para una media tenemos la misma casuı́stica que en el
caso de los intervalos de confianza estudiados anteriormente, es decir, cuando se conoce
o no la varianza.

Varianza conocida
Sea una muestra x1 , x2 , . . . , xn de una población normal con media µ y varianza
σ 2 conocida, o si n es suficientemente grande. El estadı́stico de prueba es la media
muestral x, que bajo la hipótesis nula tiene una distribución normal con media µ0
y desviación estándar √σn .
Se define el estadı́stico de prueba, como:

x−µ
Zcalc = √ ∼ N (0, 1)
σ/ n
Nos permite llevar a cabo el contraste.

H 0 : µ = µ0 Región de Rechazo
H1 : µ 6= µ0 RC = {Zcalc < −Z1−α/2 o Zcalc > Z1−α/2 }

H 0 : µ ≤ µ0 Región de Rechazo
H1 : µ > µ0 RC = {Zcalc > Z1−α }

H 0 : µ ≥ µ0 Región de Rechazo
H1 : µ < µ0 RC = {Zcalc < −Z1−α }

Varianza desconocida
Sea una muestra x1 , x2 , . . . , xn de una población normal con media µ y varianza σ 2
desconocida. El estadı́stico de prueba es la media muestral x, que bajo la hipótesis
nula tiene una distribución normal con media µ0 y desviación estándar √sn .
Se define el estadı́stico de prueba, como:

x−µ
Tcalc = √ ∼ t(n−1)
s/ n
Nos permite llevar a cabo el contraste.

H 0 : µ = µ0 Región de Rechazo
H1 : µ 6= µ0 RC = {Tcalc < −t1−α/2,n−1 o Tcalc > t1−α/2,n−1 }

H 0 : µ ≤ µ0 Región de Rechazo
H1 : µ > µ 0 RC = {Tcalc > t1−α,n−1 }

H 0 : µ ≥ µ0 Región de Rechazo
H1 : µ < µ 0 RC = {Tcalc < −t1−α,n−1 }

10 de 13
✎ Ejercicio 11
Se desea determinar si la edad promedio en la que los niños abandonan el sistema escolar
es de 17 años o más, asumiendo que una población con distribución N (µ; 36), donde, para
una muestra aleatoria de tamaño 25, se encontró que x = 19. Contraste dicha hipótesis a
un nivel de significancia del 5 %.

✎ Ejercicio 12
Un inspector de la superintendencia de valores y seguros visita una agencia encargada
de regular las extrañas ganancias de las AFP en el último tiempo para verificar que ese
incremento sea el indicado de acuerdo a los informes. El jefe administrativo asegura al
inspector que las ganancias promedio son de 750 unidades monetarias (en millones de
pesos) con una desviación estándar de 5 UM. El inspector selecciona, al azar, 100 empresas
del rubro y encuentra que la ganancia promedio es de 748 unidades monetarias. Bajo
estas condiciones y usando un nivel de significancia de 0,05, ¿Qué actitud debe tomar el
inspector?.

✎ Ejercicio 13
Un fabricante de embarcaciones pesqueras sostiene que el motor de las de tipo A, tiene un
rendimiento promedio de 13 hr/ton de petróleo diesel. Para verificar esta afirmación, se
selecciona una muestra de 9 de estas embarcaciones y cada una navega, en aproximadamente
las mismas condiciones, con una tonelada de petróleo. La muestra proporciona una media
de 12,34 hr/ton, con una desviación estándar de 1,26 hr/ton. Contraste dicha hipótesis a
un nivel de significancia del 5 %.

✎ Ejercicio 14
Un modelo económico sugiere que el aumento en el precio promedio de los alimentos que
componen la canasta básica familiar por región no deberı́a ser mayor de 5 puntos en la
escala utilizada. Los aumentos del puntaje en la ejecución del modelo económico medidos
en 8 regiones del paı́s fueron:

6.4 4.3 5.7 4.9 6.5 5.9 6.4 5.1

Con un nivel de significancia del 5 %, ¿Cree usted que los datos contradicen la información
del modelo económico suponiendo normalidad en los datos?

✎ Ejercicio 15
Un comprador de ladrillos cree que la calidad de los ladrillos está disminuyendo. De ex-
periencias anteriores, la resistencia media al desmoronamiento de tales ladrillos es 200 kg.
con una desviación tı́pica de 10 kg. Una muestra de 100 ladrillos arroja una media de 195
kg. Probar la hipótesis, la calidad media no ha cambiado, contra la alternativa que ha
disminuido.

11 de 13
✎ Ejercicio 16
El gerente de una empresa asegura que sus vendedores hacen, en promedio, a lo mas
15 ventas por semana. Para verificar su afirmación toma una muestra aleatoria de 15
vendedores y registra el número X de ventas correspondiente a una semana seleccionada
también al azar. Se sabe que el número de ventas semanales tiene distribución normal con
media µ y varianza σ 2 , ambos parámetros desconocidos. La muestra revela que el número
medio de venta de la muestra es de 17 ventas y una varianza de 9. ¿La evidencia de la
muestra contradice la aseveración del gerente?. Contraste dicha hipótesis a un nivel de
significancia del 5 %.

✎ Ejercicio 17
Supóngase que en cierto proceso para producir alambre, la resistencia a la ruptura del
alambre es una variable aleatoria normal con media 90,80 kg. Para reducir los costos de
producción, se prueba otro proceso. Una muestra de 10 valores obtenidos bajo el proceso
dio una media de 85,352 kg. y una desviación tı́pica de 2,724 kg. ¿El nuevo proceso tiene
un efecto negativo sobre el alambre?. Use α = 0,05

✎ Ejercicio 18
Una fábrica produce clavos cuya longitud media es de 1 pulgada. Después de efectuadas
algunas modificaciones en los dispositivos de las máquinas de dicha fábrica y con respecto
a la producción de clavos durante los últimos meses se han recibido continuos reclamos de
los compradores quienes han manifestado que los clavos presentan un incremento en más
de 0,1 pulgadas en su longitud, lo que perjudica a los usuarios; para verificar lo manifestado
por los compradores, el fabricante tomó una m.a. de 10 clavos cuyas logitudes resultaron:

1.14 1.12 1.11 1.10 1.16 1.09 1.08 1.12 1.11 1.10

Usando α = 0,05, ¿podrá el fabricante aceptar lo manifestado por los compradores?

✎ Ejercicio 19
En un estudio acerca de cómo utilizan las tarjetas de crédito los estudiantes no titulados,
se reportó que este tipo de población tiene un saldo medio en su tarjeta de crédito de
$3173 (Sallie Mae, abril de 2009). Tal cifra fue la más alta de todos los tiempos y tuvo un
incremento de 44 % sobre la de los cinco años previos. Suponga que se realiza un estudio
actual para determinar si es posible concluir que el saldo medio en la tarjeta de crédito
de estudiantes no titulados ha continuado en aumento comparado con el informe de abril
de 2009. Con base en reportes previos, utilice una desviación estándar poblacional de
σ = $1000.
a) Establezca las hipótesis nula y alternativa.
b) Se toma una muestra de 180 estudiantes no titulados con un saldo medio muestral en
su tarjeta de crédito de $3250. Usando un nivel de significancia de 0,05, ¿cuál es su
conclusión?

12 de 13
Soluciones
1.- El itamaño mı́nimo de la muestra es de 96

3.- El itamaño de la muestra es de 268 ampolletas

4.- El intervalo de confianza al 95 % es (5, 895; 26, 105)


Como el intervalo de confinza es mayor que 0. Con un 95 % de confianza, se puede establecer
que la marca que tiene mayor duración corresponde a la marca 1.

5.- El intervalo de confianza al 99 % es (−559, 39; 1159, 39)


Como el intervalo de vconfianza contiene al 0, por lo que ambas partidas de neumáticos son
igualescon un 99 % de confianza

6.- El intervalo de confianza al 90 % es (−94, 45; −67, 55)


Como el intervalo de confinza es menor que 0. Se puede establecer que el nuevo proceso trae
mejoras, pues el promedio es mayor en el tiempo que se somete a la ruptura del metal.

6.- El intervalo de confianza al 90 % es (−94, 45; −67, 55)


Como el intervalo de confinza es menor que 0. Se puede establecer que el nuevo proceso trae
mejoras, pues el promedio es mayor en el tiempo que se somete a la ruptura del metal.

11.- H0 : µ = 17 vs H1 : µ > 17, estadistico de prueba Z = −1, 67


ENo eiste evidencia suficiente para rechazar H0 con un nivel de confianza del 95 %, es decir
la afirmación propuesta está en lo correcto.

13.- H0 : µ = 13 vs H1 : µ 6= 13, estadistico de prueba T = −1, 57


Existe evidencia suficiente para rechazar H0 con un nivel de confianza del 95 %, es decir,
no se puede sostener que el motor tenga un rendimiento promedio de 13 hr/ton.

15.- H0 : µ = 200 vs H1 : µ < 200, estadistico de prueba Z = 7, 07


Existe evidencia suficiente para rechazar H0 con un nivel de confianza del 95 %, es decir,
nha disminuido la resistencia de los ladrillos

17.- H0 : µ = 90, 80 vs H1 : µ < 90, 80, estadistico de prueba T = −6, 324


Existe evidencia suficiente para rechazar H0 con u nnivel de confianza del 95 %, es decir,
el nuevo proceso tiene un efecto negativo sobre el alambre.

19.- H0 : µ = 3173 vs H1 : µ > 3173, estadistico de prueba Z = 1, 033


No existe evidencia suficiente para rechazar H0 con un nivel de confianza del 95 %, es
decir, no se peude establecer que el saldo medio en una tarjeta de crédito de estudiantes
no titulados ha continuado en aumento con el informe de Abril de 2009.

13 de 13
Vicerrectorı́a Académica
Instituto de Matemáticas, Fı́sica y Estadı́stica

,
Curso: INFERENCIA ESTADISTICA (AES510)
Guı́a 4
Tema: Inferencia Estadı́stica - Pruebas de Hipótesis

Resultados de Aprendizaje
Aplicar test estadı́sticos para la validación de hipótesis de parámetros poblacionales.
Utilizar Software de planilla electrónica para el análisis de datos del área de las Ciencias
de la Ingenierı́a y Economı́a.
Demostrar una actitud responsable hacia las exigencias de la asignatura.

Introducción
En las sesiones anteriores se vieron métodos de inferencia estadı́stica para las medias po-
blacionales. En esta sesión se extiende dicho estudio a la revisión de contrastes (pruebas) de
hipótestis para las proporciones, varianzas y diferencias de medias poblacionales.

1 de 10
EL CONTRASTE PARA LA PROPORCION DE UNA POBLACIÓN NORMAL
Para realizar este contraste, el estadı́stico mejor conocido es la proporción muestral,
donde pb es la proporción de la muestra que cumple con la condición.

Supongamos una población normal, x ∼ N (µ, σ 2 ),


p pq
y la proporción pb ∼ N (p, n
).

El estadı́stico de prueba que se define a continuación:


pb − p0
Zcalc = p ∼ N (0, 1)
(p0 (1 − p0 ))/n
Nos permite llevar a cabo el contraste, al igual que el contraste para una media.

H0 : p = p 0 Región de Rechazo
H1 : p 6= p0 RC = {Zcalc < −Z1−α/2 o Zcalc > Z1−α/2 }

H0 : p ≤ p 0 Región de Rechazo
H1 : p > p0 RC = {Zcalc > Z1−α }

H0 : p ≥ p 0 Región de Rechazo
H1 : p < p0 RC = {Zcalc < −Z1−α }

2 de 10
✎ Ejercicio 1
En una muestra de 100 comercios seleccionados al azar de una zona, se observa que 28 de
ellos han tenido pérdidas en este mes. Un analista económico de la zona establece que la
proporción de comercios en la zona con pérdidas es igual o superior a 0,35. Contraste la
hipótesis propuesta por el analista económico, a un nivel de significación del 5 %.

✎ Ejercicio 2
En un estudio se encontró que, en 2005, el 12,5 % de los trabajadores estadounidenses
pertenecı́a a un sindicato (The Wall Street Journal, 21 de enero de 2006). El caso es que
en 2006 se toma una muestra de 400 trabajadores para ver si el esfuerzo realizado por los
sindicatos por organizarse ha hecho que aumente el número de sus miembros.

a) Formule las hipótesis que puedan ser usadas para determinar si la afiliación a los
sindicatos ha aumentado en 2006.
b) Si los resultados muestrales indican que 52 de los trabajadores pertenecen a los sin-
dicatos, contraste dicha hipótesis a un nivel de significancia del 5 %.

✎ Ejercicio 3
Según el Center for Logistics Management de la Universidad de Nevada, 6 % de todas las
mercancı́as vendidas en Estados Unidos son devueltas (BusinessWeek, 15 de enero de 2007).
Una tienda departamental en Houston tomó una muestra de 80 artı́culos vendidos en enero
y encontró que 12 de ellos fueron devueltos.

a) Calcule una estimación puntual de la proporción de artı́culos devueltos para la po-


blación de transacciones de ventas en el almacén de Houston.
b) ¿La proporción de devoluciones es significativamente distinta de las devoluciones de
toda la nación en conjunto?. Use α = 0, 05

✎ Ejercicio 4
Un portal e-business sabe que el 60 % de todos sus visitantes a la web están interesados en
adquirir sus productos, pero son reacios a las compras online y no realizan finalmente la
compra vı́a internet. Sin embargo, en la dirección del portal se piensa que en el último año el
porcentaje de potenciales clientes que está dispuesta a comprar por internet ha aumentado
y esto se debe reflejar en los resultados empresariales. En esta lı́nea, se tomó una muestra
de 500 visitantes para conocer su opinión y se observó que el 55 % no estaba dispuesta a
realizar compras vı́a online. Contrastar con el 2 % de significación si el último año se ha
reducido el porcentaje de personas que no está dispuesta a comprar vı́a intenet.

3 de 10
EL CONTRASTE PARA LA VARIANZA DE UNA POBLACIÓN NORMAL
Realizar inferencias con respeto a la varianza es tan importante como las que se realizan
sobre la media, ya que es de gran interés el parámetro de variabilidad, de hecho, en
algunas áreas resulta más importante reconocer la variablilidad de la población que el
promedio.

Se presentan criterios para probar hipótesis con respecto a las varianzas con base en
una sola muestra aleatoria o en dos muestras aleatorias independientes provenientes de
distribuciones normales.

Supongamos una muestra x1 , x2 , . . . , xn de una población normal con media µ desco-


nocida y varianza σ 2 desconocida. Consideremos la hipótesis de que podemos hacer las
pruebas sobre un valor especı́fico de la varianza poblacional. Para ello nos basamos en
el estimador de σ 2 , la varianza muestral S 2 , que se conoce su distribución, una χ2 con
n − 1 grados de libertad.

Con H0 cierta, tenemos que el estadı́stico de prueba es:

2 (n − 1)S 2
Xcalc = ∼ χ2n−1
σ2

En este caso, la distribución del estadı́stico no es simétrica, lo que lleva a realizar tres
tipos de contrastes, tomando en consideración dicha asimetrı́a. Se presupone que la
hipótesis nula es cierta, y se rechaza en caso contrario:

H0 : σ 2 = σ02 Región de Rechazo


H1 : σ 2 6= σ02 RC = {χ2calc < χ2α/2;n−1 o χ2calc > χ21−α/2;n−1 }

H0 : σ 2 ≤ σ02 Región de Rechazo


H1 : σ 2 > σ02 RC = {χ2calc > χ2α;n−1 }

H0 : σ 2 ≥ σ02 Región de Rechazo


H1 : σ 2 < σ02 RC = {χ2calc < χ21−α;n−1 }

✎ Ejercicio 5
Un fabricante sostiene que el modelo de auto A, tiene un rendimiento promedio de 13
kilómetros por litro. Selecciona una muestra de 9 de estos autos y cada uno es conducido
con un litro de bencina en las mismas condiciones. La muestra proporciona una media de
12,34 km/lt, con una desviación estándar de 1,26 km/lt.
Si el fabricante sostiene que la desviación estándar poblacional es de 1,20 km/lt. Contraste
dicha hipótesis a un nivel de significancia del 5 %.

4 de 10
✎ Ejercicio 6
En un dı́a se cambia el aceite lubricante en una máquina de avión, el nuevo aceite contenı́a
30 ppm de plomo. Después de 25 horas de vuelo sacaron 11 muestras pequeñas de aceite
y se quemaron en un espectrómetro para determinar el nivel de contaminación de plomo
presente. De la muestra se obtuvo una media de 34, 9 ppm, con una desviación estándar
de 4,5 ppm. Supondiendo normalidad.

a) ¿Deberı́amos aceptar la afirmación que el contenido medio de plomo es de 30 ppm?


Utilice un nivel de significancia del 1 %.
b) Pruebe la hipótesis que la desviación estándar es a lo más de 4 ppm a un nivel de
significancia del 5 %.

✎ Ejercicio 7
Un ingeniero encargado del control de calidad de llenado de un producto en pequeñas
botellas, sabe que si la variabilidad de la cantidad de llenado es alta, algunas botellas van a
tener poco o demasiado contenido. Para controlar la variabilidad de los pesos del contenido
por botella cuya especificación es a lo más 0,45 gramos, tomó una muestra aleatoria de
10 botellas y observó que el peso medio, en gramos, de los llenados es de 10,04 y una
desviación estándar de 0,24.
El ingeniero concluye que está controlado el proceso. ¿Está usted de acuerdo con esta
conclusión?. Asuma que los pesos de toda la producción se distribuyen según la distribución
normal, a un nivel de significancia del 1 %.

✎ Ejercicio 8
Los rodamientos esféricos que fabrica una máquina deben tener un diámetro uniforme para
ser aptos para su uso. El responsable de la máquina asegura que la varianza es σ 2 = 0,025.
Medidos 50 rodamientos se obtuvo una varianza muestral s2 = 0,02. ¿Es compatible este
resultado con la afirmación previa?. Use α = 0,05

✎ Ejercicio 9
La gerencia de una empresa avı́cola considera que la variabilidad que se presenta en el peso
de los pollos de 3 meses es aceptable, puesto que cree que la desviación estándar de los
pesos es de 250 gramos. Un grupo de socios de la empresa pone en duda lo manifestado
por la gerencia y considera que la variabilidad es superior; por lo cual 6 meses después la
gerencia ordena tomar una muestra de 30 pollos de 3 meses seleccionados aleatoriamente y
encuentra que la desviación estándar es de S = 225 gramos. Con un nivel de significación
del 5 %, compruebe quien tiene la razón.

5 de 10
EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS
En la práctica, se presenta una diversidad de problemas en la industria y en las ciencias
sociales que nos sugieren confrontar cual de dos procesos es mejor que el otro a la luz
de la media que arroja cada uno de ellos. Se nos podrı́a ocurrir por ejemplo: Verificar si
el contenido de determinada sustancia en una artı́culo fabricado por una compañı́a A
es inferior o no al contenido de dicha sustancia en el mismo artı́culo fabricado por una
compañı́a B de la competencia. etc.

Con el fin de resolver las pruebas de hipótesis para la diferencia de medias, debemos
tener en cuenta el mismo procedimiento y las mismas reglas que seguimos para las
pruebas de hipótesis para la media.

En cuanto a la distribución en el muestreo de la diferencia de medias, recordemos los


siguientes tres casos:

a) Si las dos poblaciones son normales, las diferencias de las medias muestrales
también se distribuirán normalmente cualquiera sea el tamaño de las muestras. No
obstante, si no se conocen las varianzas poblacionales (σ12 y σ22 ), éstas pueden ser
reemplazadas por las varianzas muestrales (S12 y S22 ), sólo si los tamaños de las
muestras son mayores que 30, (n1 > 30 y n2 > 30 o n1 + n2 > 60).

b) Según el Teorema Central del Lı́mite, si las dos poblaciones no son normales o
no sabemos si se cumple o no éste comportamiento, las diferencias de las medias
muestrales se distribuirán aproximadamente como una distribución normal, si
los tamaños de las muestras son mayores que 30, (n1 > 30 y n2 > 30 o n1 +n2 > 60).

c) Si las dos poblaciones son normales o están muy cerca de éste comportamiento y
por otra parte no conocemos las varianzas poblacionales (σ12 y σ22 ) y además los
tamaños de las muestras son menores que 30, (n1 < 30 y n2 < 30 o n1 + n2 < 60),
entonces, las diferencias de las medias muestrales se distribuirán de acuerdo a la ley
t − student.

En la distribución del muestreo para la diferencia de medias, se cumplen las siguientes


propiedades:

µx−y = µ1 − µ2

s
σ12 σ22
σx−y = +
n1 n2

Donde µx−y es la diferencia de las medias muestrales, mientras que σx−y es la desviación
estándar de las diferencias de las medias muestrales.

6 de 10
En los contrastes de hipótesis para diferencias de medias, tenemos los mismos casos que
para las pruebas de hipótesis para la media, es decir, cuando se conocen o desconocen
las varianzas poblacionales.
2
Sean dos poblaciones X e Y , con medias µX y µY y varianzas σX y σY2 respectivamente, y
dos muestras de tamaño nX y nY proveniente de distribuciones normales independientes,
que se han seleccionado aleatoriamente de su población.

Suponga que se desea probar la hipótesis nula:


H 0 : µX − µY = δ 0
en donde δ0 es una cantidad que representa la diferencia propuesta entre los valores
desconocidos de las medias.

Definición 1

Prueba de hipótesis para diferencia de medias con varianzas conocidas.

Se define el estadı́stico de prueba como la diferencia de medias muestral, X − Y , se


tiene:
(x − y) − δ0
Zcalc = s ∼ N (0, 1)
σx2 σy2
+
nx ny
Nos permite llevar a cabo el contraste con respecto a las medias de dos distribuciones
normales e independiendets con varianzas conocidas.

H 0 : µX − µY = δ 0 Región de Rechazo
H1 : µX − µY 6= δ0 RC = {Zcalc < −Z1−α/2 o Zcalc > Z1−α/2 }

H 0 : µX − µY = δ 0 Región de Rechazo
H 1 : µX − µY > δ 0 RC = {Zcalc > Z1−α }

H 0 : µX − µY = δ 0 Región de Rechazo
H 1 : µX − µY < δ 0 RC = {Zcalc < −Z1−α }

✎ Ejercicio 10
Un rodamiento para una troqueladora producida por la empresa A, tiene una vida media
útil de 3,5 años con una desviación estándar de 0,4 años. El mismo tipo de rodamientos
producido por la empresa B, tiene una vida media útil de 3,3 años con una desviación
estándar de 0,3 años. ¿Cual es la probabilidad de que una muestra de 25 rodamientos de
la empresa A tenga una vida media de por lo menos 0,4 años más, que la vida media de
una muestra de 36 rodamientos de la empresa B?

7 de 10
Definición 2

Prueba de hipótesis para diferencia de medias con varianzas desconocidas.

Hay dos posibles situaciones en los contrastes de hipótesis para diferencias de medias
2
µX − µY con varianzas σX y σY2 desconocidas:

En el caso de varianzas poblacionales desconocidas y diferentes, o que


en la distribución en el muestreo de la media, las poblaciones son pequeñas
(nX < 30 y nY < 30 o nX + nY < 60).

Si las dos poblaciones se distribuyen normalmente, la ley t−Student nos permite


resolver situaciones como ésta. Entonces, obtendremos el estadı́stico T , similar
al estadı́stico Z, visto anteriormente. Se define el estadı́stico de prueba, como:

(x − y) − δ0
Tcalc = s ∼ tnx +ny −2
2
2
Sx S y
+
nx ny

En el caso de varianzas poblacionales desconocidas pero iguales, el de-


nominador, correspondiente a la desviación estándar de las medias muestrales
que se utilizará es Sp :
s
(nx − 1)Sx2 + (ny − 1)Sy2
Sp =
nx + ny − 2

Nos permite llevar a cabo el contraste. Considerar que m = nx + ny − 2

H 0 : µX − µY = δ 0 Región de Rechazo
H1 : µX − µY 6= δ0 RC = {Tcalc < −t1−α/2,m o Tcalc > t1−α/2,m }

H 0 : µX − µY = δ 0 Región de Rechazo
H 1 : µX − µY > δ 0 RC = {Tcalc > t1−α,m }

H 0 : µX − µY = δ 0 Región de Rechazo
H 1 : µX − µY < δ 0 RC = {Tcalc < −t1−α,m }

8 de 10
✎ Ejercicio 11
Supongamos que se ha recibido información de parte de un vendedor, en el sentido de que
cierta pieza de cobre fabricado por una empresa A, tiene una duración media que supera
en 60 horas a la misma pieza producida por una empresa B de la competencia. Un analista
quiere poner a prueba dicha afirmación, para lo cual toma una muestra de 9 piezas en
aquellas empresas, encontrando que para la empresa A, la duración media es de 1000 horas
con una desviación estándar de 60 horas, mientras que para la empresa B, la duración media
es de 925 horas con desviación estándar de 50 horas. El analista aceptará la afirmación del
vendedor, utilice α = 0,05. Se sabe que la duración de las piezas se comporta normalmente
en ambas empresas y que las varianzas poblacionales son distintas.

✎ Ejercicio 12
Una compañia de seguros médicos reúne datos sobre el tiempo de hospitalización, en dı́as,
de pacientes internadas por apendicectomı́a. Dos muestras aleatorias tomadas de dos hos-
pitales distintos, proporcionaron los siguientes resultados:

Hospital 1 Hospital 2
Media Muestral 8, 2 9, 4
Desviación estándar Muestral 3, 6 2, 9
Tamaño de la muestra 56 38

Pruebe la hipótesis nula de que el promedio en el lı́mite se conserva igual, en contra de


una hipótesis alternativa general, utilizar α = 0, 10. Suponga varianzas desconocidas pero
iguales.

✎ Ejercicio 13
Para probar la afirmación de que la resistencia de un conductor eléctrico puede reducirse
en más de 0,050 ohms mediante aleaciones, se toman 32 valores obtenidos de alambre
ordinario que produjeron x1 = 0, 136 ohms, y 32 valores obtenidos con alambre fabricado
en base a aleaciones que produjeron x2 = 0, 083 ohms . Se sabe que σ1 = 0, 004 ohms y
σ2 = 0, 005 ohms ¿Se apoya la afirmación con un nivel de significacancia de 0,05?

✎ Ejercicio 14
La estatura media de 50 estudiantes de un colegio que tomaban parte en las pruebas atléti-
cas fue de 1, 70 mts con desviación estándar de 0, 0625 mts, mientras que 50 estudiantes
que no mostraban interés en tal participación tenı́an una estatura media de 1, 69 mts con
desviación estándar de 0, 07 mts. Ensayar la hipótesis de que los estudiantes que partici-
pan en pruebas atléticas son más altos que los otros, con un nivel de significancia de 0,05.
Suponga varianzas poblacionales iguales.

9 de 10
✎ Ejercicio 15
Un fabricante que elabora botes de alumnio reciclado, está preocupado por los niveles de
impurezas en lotes que tienen distintos origenes. Los análisis de laboratorio de una muestra
de lotes arrojan los siguientes datos, kilogramos de impurezas por cada 100 kilogramos del
producto:

Origen 1 3, 4 3, 5 4, 1 2, 5 3, 6 4, 3 2, 1 2, 9 3, 2 3, 7 2, 8 2, 7
Media = 3, 267 y Desv estándar = 0, 676
Origen 2 1, 8 2, 2 1, 3 5,1 4, 6 4, 7 3, 3 4, 3 4, 2 2, 5 5, 4 4, 6
Media = 3, 617 y Desv estándar = 1, 365

¿Puede concluir el fábricante, utlizando α = 0, 05, que la diferencia entre las medias es
distinta de cero? Asuma varianzas poblacionales desconocidas y diferentes.

✎ Ejercicio 16
Un diseñador de productos está interesado en reducir el tiempo de secado de una pintura.
Se prueban dos fórmulas de pintura; la fórmula 1 tiene el contenido quı́mico estándar y la
fórmula 2 tiene un nuevo ingrediente secante que tiende a reducir el tiempo de secado. De
la experiencia se sabe que la desviación estándar del tiempo de secado de la formula 1 es
8 minutos y la desviación estándar del tiempo de secado de la formula 2 es de 6 minutos.
Se pintan 35 placas con la fórmula 1 y otras 35 con la fórmula 2. Los dos tiempos promedio
de secado muestrales son 116 minutos para la fórmula 1 y 112 minutos para la fórmula
2. ¿A qué conclusión puede llegar el diseñador del producto sobre la eficacia del nuevo
ingrediente, al nivel de significancia 0,01?

✎ Ejercicio 17
Se realiza una investigación para determinar la acumulación de DDT en las células cere-
brales de una variedad de aves. Muestras de tamaño 10 de la categorı́a juveniles y 13 de
adultos, proporciona los siguientes resultados:

Juveniles Adultos
nJ = 10 nA = 13
µJ = 0, 041 ppm µA = 0, 026 ppm
sJ = 0, 017 sA = 0, 006

Algunos investigadores opinan que los juveniles deberı́an tener una mayor concentración
media de DDT que los adultos. Determine la veracidad de esta opinión, considerando
varianzas poblacionales desconocidad pero iguales, estableciendo las hipótesis adecuadas y
desarrollando las pruebas pertinentes. ¿Existe suficiente evidencia como para concluir que
la concentración en las células cerébrales de los juveniles excede de la de los adultos en más
de de 0,01 ppm?

10 de 10
Vicerrectorı́a Académica
Instituto de Matemáticas, Fı́sica y Estadı́stica

,
Curso: INFERENCIA ESTADISTICA (AES510)
Guı́a 5
Tema: Regresión Lineal - Relación entre Variables

Resultados de Aprendizaje
Identificar un modelo estadı́stico lineal, y su representación algebraica para el análisis de
las variables en estudio.
Aplicar el coeficiente de correlación para el estudio de la asociación entre variables del
área de la ingenierı́a y economı́a.
Predecir información a través de modelos estadı́sticos lineales y no lineales en problemas
del área de la ingenierı́a y economı́a.
Utilizar Software de planilla electrónica para el análisis de datos del área de las ciencias
de la ingenierı́a y economı́a.
Demostrar una actitud responsable hacia las exigencias de la asignatura.

Introducción
En la vida cotidiana existen diversas situaciones en las que interesa observar si dos variables
están relacionadas, y en ese caso, en qué medida.

La relación entre variables, es uno de los aspectos más relevantes a estudiar, ya que resulta de
interés conocer el efecto que una o varias variables pueden causar sobre otra, e incluso predecir
valores de una variable a partir de otra.

A menudo es necesario contestar preguntas como las siguientes: “¿Están relacionadas estas dos
variables? En caso afirmativo, ¿de qué manera? ¿Existe una correlación entre las variables?”.
Para contestar las preguntas anteriores, se requiere del análisis de datos bivariados, es decir,
dada cierta población y dos variables asociadas a esa población, se requiere estudiar las posibles
relaciones que existen entre ellas. En esta guı́a trataremos medidas estadı́sticas que permitan
analizar la relación entre dos variables.

1 de 5
RELACIÓN ENTRE VARIABLES

Al estudiar la relación entre dos variables sobre una misma población, debemos ser capaces de
responder si las variables están relacionadas y en qué grado. Esto se puede responder a través
de una representación gráfica, como el Diagrama de Dispersión y utilizando las medidas
estadı́sticas de asociación entre variables como la Covarianza y el Coeficiente de Correla-
ción de Pearson.

Definición 1
Diagrama de Dispersión

Una representación gráfica útil para describir el comportamiento conjunto de dos varia-
bles es el Diagrama de Dispersión o Nube de Puntos, donde cada caso aparece representado
como un punto en el plano definido por las variables X e Y .

La nube de puntos resultante, donde cada observación (x, y) se representa con un punto
en el plano cartesiano XY , permite evaluar si existe relación entre las dos variables y la
naturaleza de tal relación, por ejemplo si es creciente o decreciente.

Para interpretar el gráfico de dispersión debe mirarse el patrón general (tendencia) que
siguen los puntos, este patrón revela dirección, forma y fuerza de la relación.

✎ Ejercicio 1
El dueño de una flota de camiones desea estudiar la relación entre el peso de la carga,
en toneladas, y el rendimiento del combustible, en km por litro. Para ello consideró una
muestra de 10 viajes. La siguiente tabla muestra el registro del peso de la carga y el
rendimiento del combustible de estos viajes.

Peso de la carga 7,9 0,2 6,5 2,5 8,8 4,5 5 3,7 8,3 4,4
Rendimiento de combustible 8,3 6,6 7,7 6,6 4,2 6,8 8,7 7,9 6,9 4,1

Realizar gráfico de dispersión del problema e interpretar.

2 de 5
MEDIDAS DE ASOCIACIÓN ENTRE DOS VARIABLES

Al estudiar la relación entre dos variables debemos ser capaces de responder las siguientes
preguntas:
¿Las variables están relacionadas o no?
¿Es lineal esta relación y cuál es su grado?
Las preguntas anteriores pueden ser resueltas utilizando las medidas de Covarianza y Coefi-
ciente de Correlación Lineal de Pearson.

Definición 2
Covarianza

La covarianza entre X e Y, SXY = Cov(X, Y ), nos indica si la posible relación entre dos
variables es directa o inversa, esta medida habla de la variabilidad conjunta de las variables.

n n
1X 1X
SXY = (xi − x)(yi − y) = (xi yi ) − x · y
n i=1 n i=1
Por lo que:

Si SXY > 0; La relación entre la variable X e Y es directa o creciente, es decir, si una


de las variables aumenta la otra también aumenta.
Si SXY < 0; La relación entre la variable X e Y es inversa o decreciente, es decir, si
una de las variables aumenta la otra disminuye y viceversa.
Si SXY = 0; No hay relación entre la variable X e Y.

Observación: El signo de la covarianza nos dice si el aspecto de la nube de puntos


es creciente o decreciente, pero no nos da mayor información con respecto al grado de la
relación.

✎ Ejercicio 2
Supongamos que un analista de una empresa tiene un conjunto de datos de cinco trimestres
que muestra el crecimiento trimestral del producto interno bruto (PIB) en porcentajes (X)
y el crecimiento de la lı́nea de productos nuevos de una compañı́a en porcentajes (Y ). El
conjunto de datos puede verse ası́:

Trimestre Q1 Q2 Q3 Q4 Q5
Crecimiento PIB 1 3 2 3 4
Crecimiento Lı́nea producción 10 14 12 15 20

a) Realizar gráfico de dispersión de la situación descrita e intrepretar.


b) Determine la covarianza e interprete.

3 de 5
Definición 3
Coeficiente de Correlación de Pearson

El Coeficiente de Correlación Lineal entre dos variables rXY , nos indica si los puntos
tienen una tendencia lineal (excluyendo rectas horizontales y verticales). Pero no servirá
para otro tipo de relaciones, como por ejemplo exponencial o logarı́tmica.

SXY
rXY =
SX S Y
donde SX podemos determinar como:
v !2
n n
u
1u X X
SX = t n· x2i − xi
n i=1 i=1

De manera análoga se calcula SY .

Por lo que:

Si rXY ≈ 1; La relación entre la variable X e Y es lineal con pendiente positiva (recta


lineal creciente).
Si rXY ≈ −1; La relación entre la variable X e Y es lineal con pendiente negativa
(recta lineal decreciente).
Si rXY = 0; No existe relación lineal entre la variable X e Y. Aunque podrı́a existir
otro tipo de relación (exponencial, logarı́tmica, etc.).

Propiedades de rXY

Es adimensional (no posee unidades de medida).


Sólo toma valores en [−1, 1].
Relación lineal perfecta entre dos variables si rXY = 1 o rXY = −1 .
Cuando rXY = 0 podemos afirmar que no existe relación lineal entre ambas variables,
en este caso se dicen que las variables son incorrelacionadas.

Observación: En la correlación no se distingue la variable dependiente de la independiente.


La correlación de X con respecto a Y es la misma que la correlación de Y con respecto a X.
No indica causalidad.

4 de 5
✎ Ejercicio 3
El inventor de un nuevo material aislante quiere determinar la magnitud de la compresión
(Y ) que se producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes
niveles de presión (X), ambas en MPa. Para ello prueba 5 piezas de material bajo diferentes
presiones. Los pares de valores observados (x, y) se muestran en la siguiente tabla:
Pieza Presión (x) Compresión (y)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4

a) Realizar gráfico de dispersión del problema e intrepretar.


b) Determine la covarianza e interpretar la proporcionalidad de las variables.
c) Determine la correlación e interprete.

✎ Ejercicio 4
Se ha solicitado a un grupo de 5 individuos información sobre el número de horas que
dedican diariamente a dormir y ver televisión. La clasificación de las respuestas ha permitido
elaborar la siguiente tabla:

N o de horas dormidas 6 7 8 9 10
N o de horas de televisión 4 3 3 2 1

a) Realizar gráfico de dispersión del problema e interpretar.


b) Calcular el coeficiente de covarianza e interprete.
c) Determine la correlación de Pearson e interprete.

✎ Ejercicio 5
El gerente de personal piensa que quizá exista relación entre el ausentismo laboral y la
edad de los trabajadores. Selecciona una muestra de 10 trabajadores que se han ausentado
y la edad de ellos. Los datos se encuentran en la siguiente tabla:

Trabajador 1 2 3 4 5 6 7 8 9 10
Edad 27 55 37 23 46 58 29 36 60 40
Dias Ausentes 15 6 10 18 9 7 14 11 5 8

a) Grafique la situación expuesta e intreprete.


b) Calcular el covarianza e interprete.
c) Determine el coeficiente de correlación de Pearson e interprete.

5 de 5
Vicerrectorı́a Académica
Instituto de Matemáticas, Fı́sica y Estadı́stica

,
Curso: INFERENCIA ESTADISTICA (AES510)
Guı́a 6
Tema: Regresión Lineal - Relación entre Variables

Resultados de Aprendizaje
Identificar un modelo estadı́stico lineal, y su representación algebraica para el análisis de
las variables en estudio.
Aplicar el coeficiente de correlación para el estudio de la asociación entre variables del
área de la Ingenierı́a y Economı́a.
Predecir información a través de modelos estadı́sticos lineales y no lineales en problemas
del área de la Ingenierı́a y Economı́a.
Utilizar Software de planilla electrónica para el análisis de datos del área de las ciencias
de la Ingenierı́a y Economı́a.
Demostrar una actitud responsable hacia las exigencias de la asignatura.

Introducción
Como analizamos anteriormente, existen diversas situaciones donde las variables involucradas
están relacionadas y también con la fortaleza con la que lo están, analizado a través de medidas
de asociación y gráficos. Tales relaciones, suelen expresarse en forma matemática a través de
una ecuación (modelo) que conecte las variables.

En esta guı́a se trata el Modelo de Regresión Lineal, uno de los modelos (ecuaciones)
utilizados para estudiar la relación lineal entre dos variables.

Fue un biólogo y estadı́stico inglés, SIR FRANCIS GALTON, quien introdujo en 1889 el
término “regresión” en estadı́stica y empleó este concepto para indicar la relación que existı́a
entre la estatura de los niños de una muestra y la estatura de su padre. Observó, que si los
padres son altos, los hijos generalmente también lo son, y si los padres son bajos los hijos son
también de menor estatura. Pero ocurrı́a un hecho curioso: cuando el padre es muy alto o muy
bajo, aparece una perceptible “regresión”hacia la estatura media de la población, de modo que
sus hijos retroceden hacia la media de la que sus padres. Hoy dı́a, el término es más amplio.

1 de 7
MODELO LINEAL

Cuando la asociación entre ambas variables es linealmente fuerte (medida a través del coefi-
ciente de correlación de Pearson), la regresión estará dirigida a describir como es la relación
entre X e Y hasta ofrecer un modelo estadı́stico que puede alcanzar finalidades predictivas.

El Análisis de Regresión Lineal Simple, es un modelo matemático cuyo objetivo es estudiar


la relación lineal existente entre dos variables cuantitativas. La variable independiente (o ex-
plicativa) X, explica el comportamiento de una variable dependiente (o explicada) Y , a partir
de una función lineal.

Un primer análisis visual, que consiste en el diagrama de dispersión, permite observar


una posible relación lineal entre las dos variables. La covarianza y la correlación, aporta un
indicador concreto para el encuentro de una ecuación de la recta que mejor se ajuste a la nube
de puntos. Esta recta se denomina recta de regresión lineal simple.

Definición 1
Regresión Lineal Simple

El modelo de regresión lineal simple, consiste en aproximar los valores de la variable


dependiente (Y ) a partir de la variable independiente (X), para ello se determina una
función lineal de la siguiente forma:

Y =α+β·X +ε

Donde,

α, es un parámetro constante que representa a la ordenada en el origen (coeficiente


de posición, es el valor que toma Y cuando X = 0).
β, es la pendiente de la recta e indica cómo cambia Y al incrementar X en una unidad.
ε, es el error o perturbación aleatoria, que representa a un conjunto de factores no
controlados, que provoca que la relación entre la variable dependiente e independiente,
no sea perfecta.

En un modelo lineal, se verifican las siguientes hipótesis:


1. En la función de regresión lineal, para un valor de x, se tiene:
E(Y /X = x) = α + β · x + E(ε/X = x) = α + β · x
2. Los errores aleatorios sean de media cero para cualquier valor x de X, es decir
E(ε/X = x) = E(ε) = 0.
3. La varianza de ε es constante para cualquier valor de x, V ar(ε/X = x) = σ 2
4. La distribución de ε es normal con media 0 y desviación estandár σ
5. Los errores asociados a los valores de Y son independientes unos de otros.

2 de 7
Definición 2
Método de Estimación MCO

El análisis de regresión lineal simple tiene por objetivo encontrar la lı́nea recta que mejor
se ajuste a los datos, esto significa que se desea encontrar la lı́nea recta para la cual las
diferencias entre los valores reales de (y) y los valores estimados estimados (b y ) sean lo más
pequeña posible, lo que llamamos minimización de los residuos cuadráticos.
X
n X
n
e2i = (yi − ybi )2
i=1 i=1

Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar
una recta de la forma:

y =α+β·X +ε
de modo que se ajuste a la nube de puntos. Para esto utilizaremos el método de Mı́nimos
Cuadrados Ordinarios (MCO). Este método consiste en minimizar la suma de los cuadrados
de los errores:
X
n X
n
e2i = (yi − ybi )2
i=1 i=1

b y βb son las siguientes:


Con este método, las expresiones que se obtiene para α
X
n X
n X
n
n· xi yi − xi yi
Sxy
βb = i=1 i=1 i=1
=
Xn Xn
Sx2
n· x2i − ( xi ) 2
i=1 i=1

b = y − βb · x
α

Hipótesis del modelo de regresión lineal simple:


Los datos deben ser independientes.
Una observacion no debe dar información sobre las demás.
Habitualmente, se sabe por el análisis visual, que tipo de datos es adecuado para el
análisis.
En general, las series temporales no cumplen la hipótesis de independencia.
Normalidad de los residuos.

3 de 7
✎ Ejercicio 1
Supongamos que un analista de una empresa tiene un conjunto de datos de cinco trimestres
que muestra el crecimiento trimestral del producto interno bruto (PIB) en porcentajes (X)
y el crecimiento de la lı́nea de productos nuevos de una compañı́a en porcentajes (Y ). El
conjunto de datos puede verse ası́:

Trimestre Q1 Q2 Q3 Q4 Q5
Crecimiento PIB 1 3 2 3 4
Crecimiento Lı́nea producción 10 14 12 15 20

a) Determine los coeficientes del modelo lineal e interprete.


b) Construya el modelo de regresión lineal.

✎ Ejercicio 2
El inventor de un nuevo material aislante quiere determinar la magnitud de la compresión
(Y ) que se producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes
cantidades de presión (X), ambas en MPa. Para ello prueba 5 piezas de material bajo
diferentes presiones. Los pares de valores observados (x, y) se muestran en la siguiente
tabla:
Pieza Presión (x) Compresión (y)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4

a) Determine los coeficientes del modelo lineal e interprete.


b) Construya el modelo de regresión lineal.

✎ Ejercicio 3
Se ha solicitado a un grupo de 5 individuos información sobre el número de horas que
dedican diariamente a dormir y ver televisión. La clasificación de las respuestas ha permitido
elaborar la siguiente tabla:

N o de horas dormidas 6 7 8 9 10
N o de horas de televisión 4 3 3 2 1

a) Determine los coeficientes del modelo lineal e interprete.


b) Construya el modelo de regresión lineal.

4 de 7
Definición 3
Coeficiente de Determinación - Bondad de ajuste

Se define como la proporción de la varianza total de la variable respuesta Y , explicada


por la regresión X. El coeficiente de determinación, también llamado r2 , refleja la bondad
del ajuste de un modelo a la variable que pretender explicar.
El coeficiente de determinación (multiplicado por cien) representa el porcentaje de la
variabilidad de Y explicada por los cambios provocados por la variable independiente X.
 2
2 Sxy
R = = (rxy )2
Sx Sy

donde, rxy = Coeficiente de correlación de Pearson.

y,
1X 1X
n n
Sxy = (xi − x)(yi − y) = (xi yi ) − x · y
n i=1 n i=1

v !2
u
1u X X
n n
Sx = t n· x2i − xi
n i=1 i=1

v !2
u
1u X X
n n
Sy = t n· yi2 − yi
n i=1 i=1

Propiedades del coeficiente de determinación:

El coeficiente de determinación de la recta de regresión de Y sobre X es el mismo que


el de la recta de regresión de X sobre Y. Es decir, el coeficiente de determinación es
una medida del grado de relación lineal entre las variables.
Coeficiente de determinación es el cuadrado del coeficiente de correlación lineal, es
decir: R2 = (rxy )2

✎ Ejercicio 4
Una empresa ha trabajado hasta ahora con la hipótesis de que las ventas de la empresa
dependen linealmente de la inversión en gastos de publicidad efectuados (miles de euros).
Realiza un análisis durante los últimos 9 años y obtiene un modelo lineal junto al respectivo
coeficiente de correlación:
Yb = 3, 32 + 8, 44 · Xi
rxy = 0, 76
Interprete la bondad de ajuste para aceptar la hipótesis.

5 de 7
✎ Ejercicio 5
En base al porcentaje de puntualidad X, se trata de ver si hay correlación con las quejas
Y , en las lı́neas aéreas. Las quejas son por cada 100000 pasajeros.
Aerolı́nea A B C D E F G
Puntualidad 81,8 76,6 76,6 75,7 73,8 72,2 70,8
Quejas 0,21 0,58 0,85 0,68 0,74 0,93 0,92

a) Realizar gráfico de dispersión del problema e interpretar.


b) Calcular la covarianza de las variables e interpretar.
c) Calcular el coeficiente de correlación e interpretar.
d) Determinar el modelo lineal e interpretar los coeficientes obtenidos.
e) Calcular el coeficiente de determinación e interpretar.

✎ Ejercicio 6
El gerente de personal piensa que quizá exista relación entre el ausentismo laboral y la
edad de los trabajadores. Selecciona una muestra de 10 trabajadores que se han ausentado
y la edad de ellos. Los datos se encuentran en la siguiente tabla:

Trabajador 1 2 3 4 5 6 7 8 9 10
Edad 27 55 37 23 46 58 29 36 60 40
Dı́as Ausentes 15 6 10 18 9 7 14 11 5 8

a) Obtener un modelo lineal que se ajuste a los datos.


b) Interpretar los coeficientes obtenidos.
c) Determinar la medida de bondad de ajuste e interpretar.

✎ Ejercicio 7
Se lleva a cabo un estudio, por medio de detectores radioactivos sobre la capacidad corpo-
ral para absorver hierro y plomo. En el estudio participaron 6 personas y obtuvieron los
siguientes resultados:

Hierro 1.7 2.2 3 4.3 8 6


Plomo 2.1 2 1.8 2.5 4.2 4

a) Obtener un modelo lineal que explique la absorción de plomo en función del hierro.
b) Interpretar los coeficientes obtenidos.
c) Determinar la medida de bondad de ajuste e interpretar.

6 de 7
✎ Ejercicio 8
La energı́a consumida en las máquinas de un proceso depende del tiempo de ajuste que
se les realice. Se desea explicar la energı́a consumida (kW/hr) en función del tiempo de
mantención anual en las máquinas (hr). Se dispone de los siguientes datos:
Ajuste (hr) 11.2 15.7 19 19.5 21.5
Consumo (kW/hr) 5 4 1.8 1 0.8

a) Determine el coeficiente de correlación e interprete.


b) Obtener un modelo lineal que se ajuste a los datos.
c) Interpretar los coeficientes obtenidos.
d) Determinar la medida de bondad de ajuste e interpretar.

✎ Ejercicio 9
Se supone que se puede establecer cierta relación lineal entre las exportaciones de un paı́s
y la producción interna de dicho paı́s. En el caso de España, tenemos los datos anuales
(expresados en miles de millones de pesetas) para tales variables correspondientes al año
1992 en la siguiente tabla:

Producción 52 54 58 61 65
Exportaciones 10 12 15 17 19

a) Calcule el coeficiente de correlación de Pearson e interprete.


b) Determine el modelo lineal.
c) Interpretar los coeficientes obtenidos en el modelo.
d) Determinar el coeficiente de determinación e interpretar.

✎ Ejercicio 10
Se han observado, en varios modelos de automóviles, los datos de potencia del motor (X),
en caballos, y la aceleración (Y), medida en el número de segundos necesarios para acelerar
de 0 a 100 Km./h. La tabla adjunta refleja los valores obtenidos:

Potencia 50 75 90 100 120


Aceleración 15 12 10 11 9

a) Para determinar si es posible obtener un modelo lineal, calcule e interprete el coefi-


ciente de correlación.
b) Determine el modelo lineal, si es posible.
c) Interpretar los coeficientes obtenidos en el modelo.
d) Determinar la medida de bondad de ajuste del modelo e interprete.

7 de 7
Vicerrectorı́a Académica
Instituto de Matemáticas, Fı́sica y Estadı́stica

,
Curso: INFERENCIA ESTADISTICA (AES510)
Guı́a 7
Tema: Regresión Lineal - Inferencia sobre los parámetros

Resultados de Aprendizaje
Identificar un modelo estadı́stico lineal, y su representación algebraica para el análisis de
las variables en estudio.
Determinar intervalos de confianza para parámetros poblacionales a través del análisis de
las variables en estudio.
Aplicar test estadı́sticos para la validación de hipótesis de parámetros poblacionales.
Predecir información a través de modelos estadı́sticos lineales y no lineales en problemas
del área de la Ingenierı́a y Economı́a.
Utilizar Software de planilla electrónica para el análisis de datos del área de las ciencias
de la Ingenierı́a y Economı́a.
Demostrar una actitud responsable hacia las exigencias de la asignatura.

Introducción
Una vez analizada la relación entre variables X e Y , se procede a la construcción de un mo-
delo lineal que permite predecir o calcular valores esperados para la variable dependiente (Y )
en función de la variable predictora (X).

En la validación del Modelo de Regresón Lineal, es necesario realizar el análisis a los residuos
del modelo, entendiéndose a los residuos, como las diferencias entre los valores reales de la
variable explicada (yi ) y los valores obtenidos mediante el modelo lineal para la misma variable
yi ).
(b

Finalmente, se obtienen los intervalos de confianza destinados a ser una medida de la pre-
cisión de dichas estimaciones y a través de los contrastes de hipótesis, se comprueba que un
determinado valor muestral puede ser el auténtico valor del parámetro.

En esta guı́a se trata la predicción, el análisis de residuos e inferencias sobre los


parámetros del modelo lineal, con la finalidad de validar la elección de la ecuación utilizada
para estudiar la relación lineal entre dos variables.

1 de 9
ANALISIS DE LOS RESIDUOS

Retomando la información analizada con anterioridad, el modelo de regresión lineal simple,


consiste en aproximar los valores de la variable dependiente (Y ) a partir de la variable inde-
pendiente (X), para ello se determina una función lineal de la siguiente forma:

Y =α+β·X +ε
Donde,

Y , es la variable dependiente, explicada, respuesta o predicha.

X, es la variable independiente, explicativa o predictora.

α, es el coeficiente de posición, es el valor que toma Y cuando X = 0.

β, es la pendiente de la recta e indica cómo cambia Y al variar X en una unidad.

ε, es el error, residuo o perturbación aleatoria, que representa a un conjunto de factores no


controlados.

Definición 1
Supuestos de los residuos

Los supuestos de un modelo lineal, se refieren a las condiciones necesarias que deben
cumplirse para otorgar validez a las estimaciones obtenidas al desarrollar un modelo. Ası́,
si se desea darle una aplicación práctica en la predicción del modelo de regresión lineal, es
necesario revisar los supuestos para los residuos:

1. Para cada valor de x, la variable aleatoria ε se distribuye normal.


2. Para cada valor de x, la varianza de ε es constante, V ar(ε/X = x) = σ 2 , llamada
varianza del error.
3. La distribución de ε es normal con media 0 y desviación estandár σ.
4. Los errores asociados a los valores de Y son independientes unos de otros. Los valores
del término de error ε son independientes.

Por lo tanto:
ε ∼ N (0; σ 2 )
Donde,
ε = yi − ybi
La utilidad del análisis residual radica en dos puntos:
1. La exactitud de los pronósticos o predicciones realizadas con el modelo obtenido.
2. La detección de casos atı́picos para perfeccionar la ecuación lineal en su ajuste a la
realidad.

2 de 9
✎ Ejercicio 1
En base al porcentaje de puntualidad X, se sabe que la relación establecida con las quejas
Y , en las lı́neas aéreas, sigue un comportamiento lineal. Las quejas son por cada 100000
pasajeros.
Aerolı́nea A B C D E F G
Puntualidad 81,8 76,6 76,6 75,7 73,8 72,2 70,8
Quejas 0,21 0,58 0,85 0,68 0,74 0,93 0,92
Si se conoce el modelo lineal obtenido:

Ybi = 5, 46 − 0, 06 · Xi

r2 = 0, 8165

a) Calcule las quejas esperadas según el modelo entregado (Ybi ).


b) Obtenga los residuos del modelo de regresión lineal (ε = yi − ybi ).
c) Grafique los residuos en función de la puntualidad.
d) Comente respecto a la independencia de los residuos, mediante la gráfica lograda.

✎ Ejercicio 2
El gerente de personal comprobó que existe relación lineal entre el ausentismo laboral y la
edad de los trabajadores. De la selección de una muestra de 10 trabajadores que se han
ausentado y la edad de ellos, se tienen los siguientes datos:

Trabajador 1 2 3 4 5 6 7 8 9 10
Edad 27 55 37 23 46 58 29 36 60 40
Dı́as Ausentes 15 6 10 18 9 7 14 11 5 8

Además, se sabe que el modelo lineal obtenido es el siguiente:

Ybi = 22, 61 − 0, 2995 · Xi

r2 = 0, 8836

a) Calcule los dı́as de ausencia esperados, según el modelo, para las diferentes edades
dadas (Ybi ).
b) Obtenga los residuos del modelo de regresión lineal (ε = yi − ybi ) y comente respecto
al supuesto E(ε) = 0.
c) Grafique los residuos en función de la edad e interprete respecto al supuesto de inde-
pendencia de ε.

3 de 9
Definición 2
Predicción

Se refiere a la entrega de un pronóstico, un valor esperado que se acerque lo más posible a


la realidad de un fenómeno. La capacidad predictora que se logra mediante la estimación de
un modelo de regresión lineal validado, colabora en el proceso de estimación en situaciones
de incertidumbre.

La variable dependiente, explicada, respuesta o predicha Y es la que se predice mediante


reemplazos en la variable independiente, explicativa o predictora X.

✎ Ejercicio 3
Un analista de una empresa tiene un conjunto de datos de cinco trimestres que muestra el
crecimiento trimestral del producto interno bruto (PIB) en porcentajes (X) y el crecimiento
de la lı́nea de productos nuevos de una compañı́a en porcentajes (Y ). El conjunto de datos
puede verse ası́:

Trimestre Q1 Q2 Q3 Q4 Q5
Crecimiento PIB 1 3 2 3 4
Crecimiento Lı́nea producción 10 14 12 15 20

El analista determina que las variables PIB y crecimiento de la lı́nea de producción, siguen
una tendencia lineal con un modelo:

Ybi = 6 + 3, 15 · Xi

r2 = 0, 9106
a) Prediga el crecimiento de la lı́nea de producción para un crecimiento del PIB del 6 %.
b) Si se desea un crecimiento de la lı́nea de producción de un 22 %, ¿Cuánto tendrı́a que
ser el crecimiento del PIB para lograrlo?.

✎ Ejercicio 4
Una empresa comprueba que sus ventas dependen linealmente de la inversión en gastos de
publicidad efectuados (ambas en miles de euros). Realiza un análisis durante los últimos 9
años y el modelo lineal logrado es:

Ybi = 3, 32 + 8, 44 · Xi
rxy = 0, 76
a) Prediga las ventas esperadas para una inversión en publicidad de 4 mil euros.
b) Si se quiere lograr un nivel de ventas de 50 mil euros, ¿Cuánto se tendrı́a que invertir
en publicidad para lograrlo?.

4 de 9
✎ Ejercicio 5
El inventor de un nuevo material aislante determina la magnitud de la compresión (Y )
(MPa) que se producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes
cantidades de presión (X)(MPa), mediante un modelo lineal. Analizó 5 piezas de material
bajo diferentes presiones y el modelo lineal obtenido fue el siguiente:

Ybi = −0, 1 + 0, 7 · Xi
r2 = 0, 8167

a) Prediga la compresión para un nivel de presión de 6 Mpa en el nuevo material aislante.


b) Si se quiere establecer un nivel de compresión de 10 Mpa, ¿Cuánta tendrı́a que ser la
presión aplicada al material?.

✎ Ejercicio 6
Se ha solicitado a un grupo de 5 individuos información sobre el número de horas que
dedican diariamente a dormir y ver televisión. Se obtiene el modelo lineal que se ajusta
con los datos:
N o de horas dormidas 6 7 8 9 10
N o de horas de televisión 4 3 3 2 1

El modelo lineal obtenido es:

Ybi = 8, 2 − 0, 7 · Xi
r2 = 0, 9423

a) ¿Cuántas horas de TV se esperan ver para alguien que duerme 12 horas?.


b) Si se quieren ver 5 horas de TV, ¿Cuántas horas se deben dormir?.

✎ Ejercicio 7
Se ha determinado un modelo de regresión lineal para varios modelos de automóviles, los
datos de potencia del motor (X), en caballos, y la aceleración (Y), medida en el número de
segundos necesarios para acelerar de 0 a 100 Km/h.

El modelo lineal resultante es:

Ybi = 18, 57 − 0, 08 · Xi
r2 = 0, 8898

a) ¿Cuál es la aceleración para una potencia de 140 caballos?.


b) Si se quiere lograr una aceleración de 14 segundos en pasar de 0 a 100 km/hr, ¿de
cuánta potencia debe ser el auto?.

5 de 9
Definición 3
Hipótesis para el parámetro β

Utilizando contrastes de hipótesis se puede comprobar si un determinado valor muestral


puede ser el auténtico valor del parámetro poblacional.
La hipótesis de prueba son:

H0 : βb = 0
H1 : βb 6= 0

Se define el estadı́stico de prueba:

βb
Tcalc = ∼ t(n−2)
b
s(β)
Donde,
b es la desviación tı́pica del coeficiente βb es:
s(β)

b = sr
s(β) √
sx · n
• sx es la desviación tı́pica de la variable independiente dada por:
v
u n
uX
u (xi − xi )2
u
t i=1
sx =
n−1

• sr es la desviación tı́pica de los residuos dada por:


v v
u n u n
uX uX 2
u (b
yi − yi ) 2 u εbi
u u
t i=1 t i=1
sr = = = CM R
n−2 n−2

La región de rechazo de la hipótesis nula es:

|Tcalc | > t(1− α2 ,n−2)

Decisiones:
• Si no se rechaza la hipótesis nula, se concluye que no hay evidencias de que haya
una relación lineal entre las variables y el modelo, en principio, no es apropiado.
Puede haber una relación lineal en la población pero la muestra elegida no la
detecta.
• Si se rechaza la hipótesis nula, se concluye que el modelo lineal es apropiado. Los
datos son consistentes con un modelo lineal.

6 de 9
Definición 4
Intervalo de confianza para el parámetro β

Hasta ahora sólo se han obtenido estimaciones puntuales de los coeficientes del modelo
de regresión lineal. Utilizando intervalos de confianza se puede obtener una medida de la
precisión de dichas estimaciones respecto al verdadero valor del parámetro.

El intervalo de confianza para el parametro β al 100(1 − α) %:


 
b sr b sr
P β − tn−2;1− 2 ·
α √ < β < β − tn−2;1− 2 ·
α √ =1−α
sx · n sx · n

La longitud del intervalo disminuirá si:


Aumenta el tamaño de la muestra.
Aumenta la varianza de las xi .
Disminuye la varianza residual.

✎ Ejercicio 8
En base al porcentaje de puntualidad X, se sabe que la relación establecida con las quejas
Y , en las lı́neas aéreas, sigue un comportamiento lineal. Se sabe que, a partir de un muestra
de 7 aerolı́neas, se obtiene:

Ybi = 5, 46 − 0, 06 · Xi
n
X
(xi − x)2 = 77, 88
i=1
n
X
εb2i = 0, 07
i=1

x = 75, 36

a) Plantee la hipótesis para el coeficiente β y concluya al 5 % de significación.


b) Calcule el intervalo de confianza para β e interprete al 95 % de confianza.

7 de 9
✎ Ejercicio 9
El gerente de personal obtuvo el modelo lineal entre el ausentismo laboral Y y la edad de
los trabajadores X. De la selección de una muestra de 10 trabajadores que se han ausentado
y la edad de ellos, se tienen los siguientes resultados para el modelo de regresión lineal:

Ybi = 22, 61 − 0, 2995 · Xi

n
X
(xi − x)2 = 1576, 9
i=1
n
X
εb2i = 18, 64
i=1

x = 41, 1

a) Valide el modelo mediante un contraste de hipótesis para β y concluya al 1 % de


significancia.
b) Calcule el intervalo de confianza para β e interprete al 90 % de confianza.

✎ Ejercicio 10
Un analista de una empresa desarrolla un modelo lineal con datos de cinco trimestres,
donde muestra el crecimiento trimestral del producto interno bruto (PIB) en porcentajes
(X) y el crecimiento de la lı́nea de productos nuevos de una compañı́a en porcentajes (Y ).
Los resultados son los siguientes:

Ybi = 6 + 3, 15 · Xi

n
X
(xi − x)2 = 5, 2
i=1
n
X
εb2i = 5, 08
i=1

x = 2, 6

a) Contraste la hipótesis para el coeficiente β y concluya al 2 % de significación.


b) Obtenga el intervalo de confianza para β e interprete al 98 % de confianza.

8 de 9
✎ Ejercicio 11
Una empresa comprueba que sus ventas dependen linealmente de la inversión en gastos de
publicidad efectuados (ambas en miles de euros). Realiza un análisis durante los últimos 9
años y el modelo lineal logrado es:

Ybi = 3, 32 + 8, 44 · Xi

b = 0, 701
s(β)

a) Compruebe la hipótesis para el coeficiente β y concluya al 5 % de significancia.


b) Calcule el intervalo de confianza para β e interprete al 90 % de confianza.

✎ Ejercicio 12
El inventor de un nuevo material aislante determina la magnitud de la compresión (Y )
que se producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes
cantidades de presión (X), mediante un modelo lineal. Analizó 5 piezas de material bajo
diferentes presiones y el modelo lineal obtenido fue el siguiente:

Ybi = −0, 1 + 0, 7 · Xi
n
X
(xi − x)2 = 10
i=1
n
X
εb2i = 1, 1
i=1

a) Plantee la hipótesis para el coeficiente β y concluya al 5 % de significación.


b) Obtenga el intervalo de confianza para β e interprete al 95 % de confianza.

✎ Ejercicio 13
Se ha desarrollado un modelo lineal con una muestra de 5 individuos sobre el número de
horas que dedican diariamente a dormir y ver televisión. El modelo lineal y datos obtenidos
son:

Ybi = 8, 2 − 0, 7 · Xi
sr = 0, 316; sx = 1, 58

a) Contraste la hipótesis para el coeficiente β y concluya al 10 % de significancia.


b) Calcule el intervalo de confianza para β e interprete al 95 % de confianza.

9 de 9

También podría gustarte