Guía 2 (6 Files Merged)

Vicerrectorı́a Académica
Instituto de Matemáticas, Fı́sica y Estadı́stica
,
Curso: INFERENCIA ESTADISTICA (AES510)
Guı́a 2
Tema: Inferencia Estadı́stica - Estimación por Intervalos
Resultados de Aprendizaje
Estimar parámetros poblacionales a través de métodos estadı́sticos.
Determinar intervalos de confianza para parámetros poblaciones a través del análisis de
las variables en estudio.
Utilizar Software de planilla electrónica para el análisis de datos del área de las Ciencias
de la Ingenierı́a y Economı́a
Demostrar una actitud responsable hacia las exigencias de la asignatura.
Introducción
Anteriormente se revisó cómo obtener estimadores puntuales de los parámetros poblacionales
y algunas de sus propiedades. Puede ser que no siempre el estimador puntual más eficiente
estime el parámetro poblacional con exactitud, ya que la precisión aumenta con muestras gran-
des, pero no hay razón de esperar que un estimador puntual de una muestra sea exactamente
igual al parámetro poblacional que estima, es por ello que a veces es preferible determinar un
intervalo dentro del cual esperarı́amos encontrar el valor del parámetro, tal intervalo se llama
Intervalo de Confianza.
Estimación por Intervalos

Como la estimación puntual no siempre es exacta, y no nos proporciona suficiente informa-
ción, es deseable acompañar la estimación del parámetro θ, de alguna manera del posible error
asociado a esta estimación. Es decir, asociado a cada estimación del parámetro daremos un
intervalo y una medida que nos refleje la confianza que tenemos acerca de que el verdadero
valor del parámetro se encuentre dentro del intervalo.
Una estimación por intervalo de un parámetro poblacional θ es un intervalo de la forma

θ1 < θ < θb2 , donde θb1 y θb2 dependen del valor del estadı́stico θb para una muestra especifica, y
b
también de la distribución de muestreo del estadı́stico.
El objetivo que se pretende con los intervalos de confianza, es obtener un intervalo de poca
ampllitud y con una alta probabildiad de que el parámetro θ se encuentre en él.
1 de 11
Luego si deseamos obtener una estimación por intervalo del parámetro poblacional θ desco-
nocido, tendremos que obtener los estadisticos θb1 y θb2 que serán los extremos del intervalo, tales
que:

P θb1 < θ < θb2 = 1 − α
La fracción 1 − α se denomina nivel de confianza, y al valor 100(1 − α) % se le llama nivel

de confianza y los puntos θb1 y θb2 se llaman lı́mites de confianza inferior y superior. Ası́,
cuando α = 0,05, tendremos un intervalo de confianza del 95 %.
Estimación de la media, µ
Si seleccionamos una muestra x1 , x2 , . . . , xn a partir de una población normal con media
µ y varianza σ 2 , o si n es suficientemente grande, podemos establecer un intervalo de
confianza para µ considerando la distribución muestral de x.
De acuerdo con el Teorema del Lı́mite Central, podemos esperar que la distribución de
2
x sea aproximadamente normal con media µ y varianza σn .
2
Como x ∼ N (µ; σn ), entonces
x−µ
Z= √ ∼ N (0, 1)
σ/ n
Basándonos en esta fórmula podemos determinar el intervalo de confianza para µ, eli-

giendo un nivel de confianza 1 − α, determinaremos dos valores Z1 y Z2 , tal que:
P (Z1 < Z < Z2 ) = 1 − α

hay infinitas formas de escoger Z1 y Z2 que cumplan tal condición, el más simple es
escoger que Z2 = −Z1 = Z0 . Por lo que:

x−µ
P Z0 < √ < Z0 = 1 − α
σ/ n
despejando µ, se tiene

σ σ
P x − Z0 · √ < µ < x + Z0 · √ =1−α
n n
Por simetrı́a de la curva normal, se tiene Z0 = Z1−α/2 , donde Z1−α/2 se obtiene utilizando
la tabla de la curva normal tipificada.
Ası́,

σ σ
P x − Z1−α/2 · √ < µ < x + Z1−α/2 · √ =1−α
n n
2 de 11
Definición 1
Intervalo de confianza para la media de una población normal, siendo σ conocida
Sea x la media de una muestra aleatoria de tamaño n de una población de la que se conoce
su varianza σ 2 , se tiene que el intervalo de confianza de 100(1 − α) % para µ es:

σ σ
P x − Z1−α/2 · √ < µ < x + Z1−α/2 · √ =1−α
n n
✎ Ejercicio 1
Si una muestra aleatoria de tamaño 200 de una población normal con varianza 225 tiene
una media muestral de 64, 3. Construya un intervalo de confianza del 95 % de confianza
para µ.
✎ Ejercicio 2
Se encuentra que la concentración promedio de zinc que se obtiene en una muestra de
mediciones en 36 sitios diferentes de un rı́o es de 2,6 gramos por mililitro. Calcule el
intervalo de confianza del 99 % para la concentración media de zinc en el rı́o. Suponga que
la desviación estándar de la población es de 0,3 gramos por mililitro.
✎ Ejercicio 3
Una muestra aleatoria de 100 propietarios de automóviles de la región Metropolitana re-
vela que éstos conducen su automóvil, en promedio, 23500 kilómetro por año, con una
desviación estándar de 3900 kilómetros. Suponga que la distribución de las mediciones es
aproximadamente normal. Determine un intervalo de confianza del 95 % para el número
medio de kilómetros que conduce anualmente un propietario de automóvil en la región
Metropolitana.
✎ Ejercicio 4
Pacientes con problemas al corazón tienen un marcapasos para controlar su ritmo cardiaco.
El marcapasos tiene montado un módulo conector de plástico en la parte superior. Suponga
que la profundidad de todos los módulos conectores fabricados por cierta empresa tiene una
distribución aproximadamente normal con una desviación estándar de 0,0015 pulgadas.
Calcule un intervalo de confianza del 95 % para la media de la profundidad de todos los
módulos conectores fabricados. Se conisdera una muestra aleatoria de 75 módulos que
tienen una profundidad promedio de 0,310 pulgadas.
3 de 11
Intervalo de confianza para la media de una población normal, siendo σ
desconocida
Supongamos una población N (µ; σ 2 ), en donde µ y σ son desconocidos. Consideremos

una muestra aleatoria simple x1 , x2 , ..., xn , buscaremos un estadı́stico que dependa del
parámetro µ y de su estimador, y cuya distribución muestra1 no dependa µ. Ese es-
tadı́stico será:
x−µ
T = √ ∼ tn−1
S/ n
que se distribuye según una t − Student con n − 1 grados de libertad, siendo S 2 la

varianza muestral.
Siguiendo la misma metologı́a del intervalo de confianza anterior, elegimos t1 y t2 , tales

que:
x−µ
P t 1 < √ < t2 = 1 − α
S/ n
eligiendo a, −t1 = t2 = to , y que t0 = tn−1;1−α/2 , se tiene:

S S
P x − t0 · √ < µ < x + t0 · √ =1−α
n n
Por lo que el intervalo de confianza queda:

S S
P x − tn−1;1−α/2 · √ < µ < x + tn−1;1−α/2 · √ =1−α
n n
Definición 2
Supongamos que tenemos una muestra aleatoria de n observaciones de una
distribución N (µ, σ 2 ). Si σ es desconocida, y la media y la desviación tı́pica
muestra1 observadas son x y S, respectivamente, entonces el intervalo de confian-
za para la media poblacional µ, al nivel de confianza del 100(1−α) % viene dado por:

S S
P x − tn−1;1−α/2 · √ < µ < x + tn−1;1−α/2 · √ =1−α
n n
donde la variable tn−1 , sigue una distribución t−Student con n−1 grados de libertad.
4 de 11
✎ Ejercicio 5
Un fabricante de pintura quiere determinar el tiempo de secado promedio para una nueva
pintura para pared interior. Si para una prueba de 12 áreas de igual tamaño obtiene un
tiempo medio de secado de 66,3 minutos y una desviación estándar de 8,4 minutos. Cons-
truya un intervalo del 99 % de confianza para µ si el tiempo de secado tiene distribución
normal.
✎ Ejercicio 6
Un fabricante de una determinada marca de vehı́culos de lujo sabe que el consumo de
gasolina de sus vehı́culos se distribuye normalmente. Se selecciona una muestra aleatoria
de 6 autos y se observa el consumo cada 100 km, y se obtuvo un consumo promedio de
gasolina de 19, 5 litros con una desviación tı́pica muestra1 de 1, 06 litros. Construya un
intervalo de confianza del 95 % de confianza para µ.
✎ Ejercicio 7
Una máquina produce piezas metálicas de forma cilı́ndrica. Se toma una muestra de las
piezas y los diámetros son 1,01; 0,97; 1,03; 1,04; 0,99; 0,98; 0,99; 1,01; 1,03 centı́metros.
Calcule un intervalo de confianza del 95 % para la media del diámetro de las piezas que se
manufacturan con esta máquina. Suponga una distribución aproximadamente normal.
✎ Ejercicio 8
Una muestra aleatoria de 10 barras energéticas de chocolate de cierta marca tiene, en
promedio, 230 calorı́as por barra y una desviación estándar de 15 calorı́as. Construya un
intervalo de confianza del 99 % para el contenido medio verdadero de calorı́as de esta marca
de barras energéticas de chocolate. Suponga que la distribución del contenido calórico es
aproximadamente normal.
✎ Ejercicio 9
La afluencia de visitantes al Parque de Lota durante un mes, medida a través de una
muestra durante 10 dı́as elegidos aleatoriamente, han sido los siguientes:
682, 553, 555, 666, 657, 649, 522, 568, 700, 552
Suponiendo que los niveles de afluencia siguen una distribución normal. Construya un
intervalo de confianza del 95 % para el nivel medio de afluencia de visitantes al Parque de
Lota.
5 de 11
Intervalo de confianza para la proporción poblacional
Cuando en una población de interés se está estudiando una caracterı́stica en particular

y cada miembro de la población puede clasificarse según la posea o no, definimos como
p a la proporción (porcentaje) de la población que presenta la caracterı́stica o rasgo. El
estimador puntual para p, lo podemos obtener extrayendo una muestra aleatoria de la
población de interés y determinar la proporción de objetos o sujetos con la caracterı́stica
en la muestra y utilizar esta “proporción muestral” como estimador de la proporción p.
Es decir,
número de objetos en la muestra con el rasgo
pb =
tamaño de la muestra (n)
Si n es suficientemente grande,ppb tiene una distribución aproximadamente normal con

media p y desviación estándar (p(1 − p))/n).
Con el mismo razonamiento que empleamos en la estimación de la media poblacional

µ, el planteo inicial para estimar la proporción poblacional es determinar p1 y p2 que
verifiquen:
P (p1 < pb < p2 ) = 1 − α

eligiendo a, −p1 = p2 = po ,
!
pb − p
P p0 < p < p0 =1−α
(p(1 − p))/n)
y considerando que p0 = Z1−α/2 , se tiene
r r !
p(1 − p) p(1 − p)
P pb − Z1−α/2 · < p < pb + Z1−α/2 · =1−α
n n
El problema es que no conocemos el parámetro p, por lo que no conocemos la desviación

estándar, ası́ que se estima la desviación estándar con el error estándar de pb, luego la
desviación estándar de pb es:
q
p) = pb(1−b
S(b n
p)
.
El intervalo de confianza para la proporción poblacional para un nivel de confianza

(1 − α)100 % es:
r r !
pb(1 − pb) pb(1 − pb)
P pb − Z1−α/2 · < p < pb + Z1−α/2 · =1−α
n n
6 de 11
✎ Ejercicio 10
Se quiere estimar la proporción de personas que esperan que su situación económica mejore
el año próximo. Para ello se ha preguntado a 500 personas de Santiago, de la cuales 175
esperan que su situación económica mejore, se catalogan como optimistas.
a) ¿Cuál es la estimación de la proporción de personas optimistas?

b) Calcula un intervalo de confianza para la proporción de personas optimistas en esta
población, con un nivel de confianza del 95 %.
✎ Ejercicio 11
Se preguntó a 80 pacientes si habı́an sufrido algún efecto secundario tras seguir un tra-
tamiento, de los cuales 60 dijeron que no. Calcule un intervalo de confianza, al 95 % de
confianza, para la proporción de pacientes que sufre efectos secundarios tras el tratamiento.
✎ Ejercicio 12
Para estimar el grado de satisfacción de sus clientes, una compañı́a de seguros realiza una
encuesta aleatoria entre 200 de sus clientes. De ellos, 112 declararon estar satisfechos.
a) ¿Cuál es la estimación de la proporción de clientes satisfechos?

b) Hallar el intervalo de confianza al 99 % para la estimación de la proporción de clientes
satisfechos
✎ Ejercicio 13
Para estimar la proporción de individuos de una población que utilizan el comercio electróni-
co se ha realizado una encuesta a una muestra aleatoria de 200 individuos, de los cuales 80
han respondido que utilizan el comercio electrónico. Con estos datos, hallar un intervalo de
confianza del 95 % para la proporción de individuos de la población que utilizan el comercio
electrónico.
✎ Ejercicio 14
Se realiza una encuesta a un grupo de personas de la comuna X, sobre cuál es su preferencia
de los candidatos a alcalde, de los 250 encuestados, 120 indicaron que votarı́an por el
candidato A, 26 votarı́an por el candidato B,y el resto por el candidato C. Hallar un
intervalo de confianza del 95 % para la proporción de individuos de la comuna que votarı́a
por el candidato C.
7 de 11
Intervalo de confianza para la varianza poblacional
Supongamos una población normal N (µ; σ 2 ), en donde µ y σ son desconocidos y

deseamos obtener un intervalo de confianza para la varianza poblacional σ 2 al nivel de
confianza del (1 − α)100 %. Para ello tomamos una muestra aleatoria x1 , x2 , . . . , xn de
tamaño n, y utilizamos un estadı́stico que dependa del parámetro σ 2 y de su estimador
S y cuya dsitribución no dependa de σ 2 .
A partir del estadı́tico:

(n − 1) · S 2
X2 =
σ2
que distribuye Chi-Cuadrado con n − 1 grados de libertad, esto se obtiene a través del
Teorema de Fisher, siendo S 2 la varianza nuestral. Luego:
(n − 1) · S 2
∼ χ2n−1
σ2
la fórmula para el intervalo de confianza, con nivel de confianza 1 − α es la siguiente,
para los valores k1 y k2 :

(n − 1) · S 2
P k1 < < k2 =1−α
σ2
Recordando los procesos anteriores en la construcción de intervalos de confianza, con

un nivel de confianza de 1 − α, determinamos k1 y k2 de manera que el intervalo tenga
una longuitud mı́nima, pero como la distribución χ2 no es simétrica, tenemos que estos
valores dependerán de los grados de libertad.
Teniendo en cuenta la forma de la distribución χ2 , tenemos para k1 y k2 :

2 (n − 1) · S 2 2
P χn−1,α/2 < < χn−1,1−α/2 = 1 − α
σ2
despejando σ 2 y ordenando la expresión, se tiene el intervalo de confianza del (1−α)100 %

para σ 2 :
!
(n − 1)S 2 (n − 1)S 2
P < σ2 < 2 =1−α
χ2n−1,1−α/2 χn−1,α/2
en donde los valores χ2n−1,1−α/2 y χ2n−1,α/2 , se obtienen de una distribución χ2 con n − 1

grados de libertad.
Se tiene, ademas el Intervalo de confianza para la Desviación Estándar
s s !
(n − 1)S 2 (n − 1)S 2
P <σ< =1−α
χ2n−1,1−α/2 χ2n−1,α/2
8 de 11
✎ Ejercicio 15
Una muestra aleatoria de quince cápsulas de un medicamneto para el dolor de cabeza
tiene una desviación tı́pica de 0,7 % en la concentración del ingrediente activo. Calcule un
intervalo de confianza al 95 % para la varianza de la población para estas cápsulas.
✎ Ejercicio 16
Sospechamos que nuestro cromatógrafo está estropeado, y queremos determinar si los resul-
tados que nos proporciona son lo suficientemente precisos. Para ello, realizamos una serie
de 8 mediciones del contenido de una solución de referencia que, sabemos, contiene 90 %
de un determinado compuesto. Los resultados que obtenemos son:
93,3; 86,8; 90,4; 90,1; 94,9; 91,6; 92,3; 96,5

Construir un intervalo de confianza al nivel de 95 % para la varianza poblacional. ¿ Que
conclusiones podemos realizar?
✎ Ejercicio 17
Una agencia de arriendo de automóviles necesita estimar el número de kilómetros diarios
que realiza su flota, durante varios dı́as toma los recorridos de cien vehı́culos de su flota
y obtiene que la media muestral es de 165 km/dı́a, y la cuasidesviación estándar muestral
es de 6 km/dı́a. Construir un intervalo de confianza del 90 % para la varianza de dicha
distribución.
✎ Ejercicio 18
Se desea estimar la varianza poblacional para el proceso de llenado de envases con un de-
tergente lı́quido. Se tomo una muestra de 20 envases llenos y se encontró que la varianza de
las cantidades de llenados es de 0, 0025 onzas2 , con esta infomación determine un intervalo
de 95 % de confianza para la varianza poblacional.
✎ Ejercicio 19
Una farmaceutica fabrica un medicamento para la alergia. El departamento de control de
la calidad prueba rutinariamnete muestras aleatorias de tabletas de cada lote. La potencia
nominal de cada tableta es 25 miligramos, y las potencias medidas de 30 tabletas en una
muestra, dan como promedio de 25, 097 miligramos con una varianza de 2, 1583. Determine
un intervalo de confianza para la desviación estándar de la potencia de las tabletas.
9 de 11
✎ Ejercicio 20
Para verificar que una máquina para empacar café de grano está bien regulada para llenar
paquetes se toma una muestra de 16 paquetes y se obtuvo una varianza de 169 gramos2 ,
se sabe que el peso de cada paquete se distribuye normalmente. Determine un intervalo de
confianza al 90 % para la desviación estándar del peso de cada paquete.
✎ Ejercicio 21
En 16 recorridos de prueba, el consumo de gasolina de un motor experimental tuvo una
desviación estándar de 2,2 litros. Construir un intervalo de confianza del 99 % para la
varianza y para la desviación estándar esperadas de este motor.
10 de 11
Soluciones
1.- El intervalo de confianza al 95 % es (62, 221; 66, 379)
2.- El intervalo de confianza al 95 %
2- El intervalo de confianza al 99 % de la concentración media de zinc es (2, 47125; 2, 72875)
3.- El intervalo de confianza al 95 % para el número medio de kilometros es (22735, 8; 24264, 4)
4- El intervalo de confianza al 95 % de la profundidad media de los módulos conectores fabri-

cados es (0, 30966; 0, 31034)
5- El intervalo de confianza al 99 % del tiempo medio de secado es (58, 768; 73, 8377)
6.- El intervalo de confianza al 95 % del consumo promedio de gasolina es (18, 3872; 20, 613)
7- El intervalo de confianza al 95 % para la media del diámetro de las peizas es (0, 9862; 1, 0238)
8.- El intervalo de confianza al 99 % para el contenido medio de calorı́as es (210, 584; 245, 416)
9- El intervalo de confianza al 95 % para el nivel medio de afluencia de visitantes es (562, 216; 658, 584)
10- a) La esimación de proporción de personas optimistas es 0,35

b) El intervalo de confianza al 95 % de la propoción de personas optimistas es (0, 3082; 0, 3918)
11- El intervalo de confianza al 95 % de la proporción de pacientes que sufre efectos secundarios

es (0, 2016; 0, 2984)
12- a) La esimación de proporción de clientes satisfechos es 0,3

b) El intervalo de confianza al 99 % de la proporción de clientes satisfechos es (0, 4696; 0, 6504)
13- El intervalo de confianza al 95 % de la proporción de la población que utliza el comercio

electrónico es (0, 33211; 0, 4679)
14- El intervalo de confianza al 95 % de la proporción de individuos de la comuna que votarı́a

por el cnadidato C es (0, 3549; 0, 4771)
15- El intervalo de confianza al 95 % para la varianza de la población es (0, 0000263; 0, 0001287)
19- El intervalo de confianza al 95 % para la desviación estándar de la potenciade las tabletas

es (1, 17; 1, 974)
20- El intervalo de confianza al 95 % para la desviación estándar del peso de cada paquete es
(0, 069; 18, 6849)
21- El intervalo de confianza al 95 % para la desviación estándar esperada del motor es (1, 4878; 3, 9723)
11 de 11
,
Guı́a 3
Tema: Inferencia Estadı́stica - Pruebas de Hipótesis - Tamaño Muestral
Determinar intervalos de confianza para parámetros poblacionales asociados a distintas
variables del área de ingenierı́a y economı́a.
Aplicar test estadı́sticos para la validación de hipótesis de parámetros poblacionales en
problemas del área de ingenierı́a y economı́a.
Utilizar Software de planilla electrónica para el análisis de datos del área de las ciencias
de la ingenierı́a y economı́a.
Introducción
Junto con los intervalos de confianza para la diferencia de medias, los contrastes o test de
hipótesis son la herramienta más importante de la inferencia estadı́stica, ya que permite ex-
traer información de la población. Los test de hipótesis son capaces de responder a preguntas
concretas que nos podemos formular sobre los parámetros poblacionales de interés. Entonces,
se establece la hipótesis de investigación relacionada a la pregunta: ¿Existe una diferencia es-
tadı́sticamente significativa entre un estimador y el parámetro de la población o entre dos
estimadores?.
Otro punto importante en una investigación, es la determinación previa del tamaño mues-
tral. El tamaño de la muestra fija la precisión de un análisis y valida las conclusiones que se
extrapolan al ambito poblacional. Se considera la técnica de muestreo más usual, denominada
“Muestreo Aleatorio Simple”(m.a.s.).
Objetivo
El experto determina el tamaño de la muestra representativa de toda una población para

realizar las inferencias estadı́sticas. Luego, observa la naturaleza de un fenómeno, formula una
teorı́a y a continuación, confronta esta teorı́a con la evidencia observada. Si lo observado no
está de acuerdo con la teorı́a, se rechaza la hipótesis. En caso contrario, se pueden obtener dos
conclusiones: la teorı́a es verdadera o bien en la muestra no se detectó diferencia significativa
entre los valores reales y los postulados en la hipótesis planteada.
1 de 13
Técnicas de Muestreo y determinación del tamaño muestral
Al realizar una investigación, es necesario determinar una muestra representativa de la po-
blación en estudio, con la finalidad de realizar inferencias sobre la totalidad de los individuos
u objetos de la población. Una muestra es representativa cuando la selección de los elementos
de la población se realizan aleatoriamente y cuando cada elemento tiene la misma posibilidad
de ser seleccionado.
La estimación del tamaño muestral, se puede considerar un instrumento del que dispone el
investigador para evaluar la factibilidad y la necesidad de recursos de su proyecto.
El muestreo aleatorio simple, es la técnica de muestreo más conocida, garantizando la misma
probabilidad de elección de cualquier elemento, y la independencia de selección de cualquier
otro. En este procedimiento se extraen al azar un número determinado de elementos, ”n”, del
conjunto mayor ”N ” o población. Cabe mencionar que existen otras técnicas de muestreo, tales
como: Muestreo Estratificado, Muestreo por Conglomerados, etc.
Definición 1
Determinación del Tamaño Muestral
Si conocemos la varianza poblacional σ 2 , con un nivel de confianza del (1 − α) % y un

error permitido en la estimación de e, el tamaño muestral queda determindo por:
Z1− α2 σ 2

n=
e
✎ Ejercicio 1
El tiempo de conexión a internet de los alumnos de la Universidad de las Américas, sigue
una distribución normal con desviación tı́pica de 15 minutos. Para estimar el tiempo medio
de conexión, se quiere calcular un intervalo de confianza que tenga una amplitud menor o
igual a 6 minutos, con un nivel de confianza del 95 %. Determina cuál es el tamaño mı́nimo
de la muestra que es necesario observar.
✎ Ejercicio 2
Un fabricante de estufas sabe que la vida media de estas sigue una distribución normal
con media 100 trimestres y desviación tı́pica 12 trimestres. Determina el mı́nimo tamaño
muestral que garantiza, con una probabilidad de 98 %, que la vida media de las estufas en
dicha muestra se encuentre entre 90 y 100 trimestres.
✎ Ejercicio 3
Una marca de ampolletas desea hacer un estudio e indica que la desviación tı́pica de la
duración de sus ampolletas es de 100 horas en uso. Calcula el tamaño de la muestra que se
ha de someter a prueba para tener una confianza del 90 % de que el error de la duración
media sea menor a 10 horas.
2 de 13
Intervalos de confianza para diferencias de medias de dos poblaciones
Suponemos dos poblaciones independientes: x ∼ N (µ1 ; σ12 ) e y ∼ N (µ2 ; σ22 ).Sea x la media
de una muestra aleatoria de tamaño n1 e y la media de una muestra aleatoria de tamaño n2 ,
respectivamente, provenientes de dos problaciones.
Definición 2
Intervalo de confianza para diferencia de medias, siendo σ12 y σ22 conocidas.
Las varianzas poblacionales conocidas como σ12 y σ22 , respectivamente. El intervalo de con-
fianza de (1 − α) % para µ1 − µ2 es:
 s s 
σ12 σ22 σ12 σ22 
P (x − y) − Z1− α2 · + < µ1 − µ2 < (x − y) + Z1− α2 · + =1−α
n1 n2 n1 n2
✎ Ejercicio 4
Se extraen dos muestras de poblaciones independientes de focos halógenos. Una muestra
de 40 focos tomada al azar de una primera marca dio una duración media de 418 horas,
y una muestra de 50 focos de otra marca dieron una duración media de 402 horas. Las
desviaciones estándares de las dos poblaciones son 26 horas y 22 horas, respectivamente.
Construya un intervalo de confianza del 95 % para la diferencia real entre las duraciones
de dos marcas de focos y recomiende la marca de mayor duración.
Definición 3
Intervalo de confianza para diferencia de medias, siendo σ12 y σ22 desconocidas
pero iguales.
Se desconocen sus varianzas pero se sabe que σ12 = σ22 . El intervalo de confianza de
100(1 − α) % para µ1 − µ2 es:
r r
1 1 1 1
P (x − y) − tgl;1− α2 · Sp + < µ1 − µ2 < (x − y) + tgl;1− α2 · Sp + =1−α
n1 n2 n1 n2
Donde,
s
(n1 − 1)S12 + (n2 − 1)S22
Sp =
n1 + n2 − 2
gl = n1 + n2 − 2
donde la variable tgl , sigue una distribución t−Student con n1 + n2 − 2 grados de libertad.
3 de 13
✎ Ejercicio 5
Una empresa de neumáticos desea comparar dos partidas. La primera partida con una
muestra de 15 neumáticos con una duración de 28000 km y una desviación estándar de
800 km. La segunda partida con una muestra de 20 neumáticos con una duración media
de 27700 km y desviación estándar de 1000 km. La distancia de duración se distribuye
normalmente y se sabe que las varianzas poblacionales son iguales. Realice un intervalo de
confianza para la diferencia de duraciones medias entre ambas partidas de neumáticos y
concluya al 99 % de confianza.
Definición 4
Intervalo de confianza para diferencia de medias, siendo σ12 y σ22 desconocidas y
diferentes.
El intervalo de confianza de 100(1 − α) % para µ1 − µ2 es:
 s s 
S12 S22 S12 S22 
P (x − y) − tgl;1− α2 · + < µ1 − µ2 < (x − y) − tgl;1− α2 · + =1−α
n1 n1 n1 n1
Donde,
2
S12 S22
n1
+ n2
gl = 2 2 2
2
S1 S2
n1 n2
n1 −1
+ n2 −1
donde la variable tgl , sigue una distribución t − Student con gl grados de libertad.
✎ Ejercicio 6
Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un
nuevo proceso en el que se añade una aleación a la producción del metal. Los fabricantes se
encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de
los metales producidos por los dos procesos. Para cada metal se seleccionan 12 ejemplares y
cada uno de éstos se somete a una tensión hasta que se rompe. Los resultados para el proceso
Estandar arrojan una tensión media de ruptura de 443,3 con una desviación estandar de
24,8 kilogramos por centı́metro cuadrado. Mientras que el Nuevo proceso resulta entregar
una tensión media de ruptura de 451,4 con una desviación estandar de 14,9 kilogramos
por centı́metro cuadrado. Compruebe con un 90 % de confianza, que el Nuevo proceso trae
mejoras en la tensión media a la ruptura del metal.
4 de 13
✎ Ejercicio 7
Los siguientes datos resultan de dos muestras aleatorias para comparar el contenido de
nicotina de dos marcas de cigarrillos. La marca A, con una muestra de 10 cigarrillos, indica
un promedio de 3,1 ml de nicotina con una desviación tı́pica de 0,5 ml. La marca B, con
una muestra de 8 cigarrillos arroja una media de 2,7 ml de nicotina y una desviación tı́pica
de 0,7 ml.
Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de pobla-
ciones normales con varianzas desconocidas e iguales, construya un intervalo de confianza
del 95 % para la diferencia real de nicotina de las dos marcas.
✎ Ejercicio 8
El peso de las bolsas de aceitunas (en gr) de dos marcas se distribuye N (300, σi2 ).
Para la primera (n1 = 10): 300, 290, 280, 307, 305, 295, 299, 305, 300, 307.
Para la segunda (n2 = 12): 280, 300, 307, 290, 285, 295, 300, 260, 290, 300, 304, 298.
Suponga que ambas muestras provienen de poblaciones normales con varianzas descono-
cidas y distintas.
Hallar un intervalo del 90 % para la diferencia de medias entre los pesos de las bolsas de
aceitunas.
✎ Ejercicio 9
Para averiguar si el calor disipado por el funcionamiento de un procesador afecta a su
eficiencia, se miden los tiempos de espera para ciertas operaciones al encender el ordenador
(A) y tras dos horas de funcionamiento de este (B).
Del ordenador A con una σ = 2, 5 segundos, se extrae una muestra tamaño 10 obteniendose
un tiempo medio de 168 segundos y del ordenador B con σ = 3, 6 segundos, se extrae una
muestra tamaño 12 y resulta un tiempo medio de 178 segundos.
Calcular un intervalo de confianza del 95 % para la diferencia media del tiempo de ejecución.
✎ Ejercicio 10
Se desea averiguar la brecha en los salarios (en pesos) de profesionales sin postgrado versus
aquellos que estudiaron algún postgrado.
De los profesionales sin postgrado se sabe que σ = 150000 pesos, se extrae una muestra de
30 individuos y el salario medio resultó ser de 900000 pesos. Por otro lado, de trabajadores
con postgrado, se conoce σ = 100000 pesos, y mediante la selección de 25 profesionales se
obtiene un sueldo promedio de 1400000 pesos.
Encuentre el intervalo de confianza al 98 % para la diferencia de salarios medios y concluya
respecto de esa diferencia de sueldos.
5 de 13
Prueba de Hipótesis
Una hipótesis estadı́stica es una afirmación con respecto a alguna caracterı́stica desconocida
de una población de interés. El probar la hipótesis estadı́stica es el decidir si la afirmación
se encuentra apoyada por la evidencia experimental que se obtiene a través de una muestra
aleatoria. La decisión acerca de si los datos muestrales apoyan estadı́sticamente la afirmación
se toma en base a la probabilidad, y, si esta es mı́nima, entonces será rechazada.
Definición 5
Las hipótesis
Una hipótesis estadı́stica es una afirmación acerca de los parámetros de la distribución

de probabilidades de una o más variables aleatorias. Las hipótesis expresan el objetivo del
investigador.
En cualquier contraste o test de hipótesis tendremos 2 opciones en las que se especificarán

distintos valores de un parámetro poblacional y a la vista de los datos, debemos de optar
por una de ellas. Las hipótesis estadı́sticas a plantear son:
Hipótesis nula H0 : Corresponde a la hipótesis que va a ser probada.

Hipótesis alternativa H1 : Corresponde a posibles alternativas ante la hipótesis nula.
Al terminar el contraste habremos de optar por aceptar H0 (si no tenemos evidencia

suficiente en su contra) o rechazarla (si los datos hacen que la descartemos).
Ejemplo
Suponga que se tiene interés en el tiempo promedio necesario para terminar una pieza en
una lı́nea de ensamblado. Bajo condiciones de operación estándares, el objetivo es tener un
tiempo promedio de armado por pieza de 6 minutos. El gerente de la fábrica decide continuar
con el proceso a menos que se encuentre una evidencia de que el tiempo promedio no es de 6
minutos. La evidencia estará en una muestra aleatoria de tamaño n obtenida de la distribución
de interés para el tiempo promedio de ensamblaje de una pieza. ¿Cómo debe decidirse si el
proceso continúa en operación?
Como el ejemplo muestra, no es de interés estimar el tiempo medio, sino determinar que
el tiempo promedio para terminar la pieza es de 6 minutos. Por lo que se asume que al to-
mar una muestra se llevara a cabo bajo una distribución cuya media es 6. Si la afirmación es
estadı́sticamente aceptable basados en la evidencia experimental, entonces asumiremos que el
valor promedio es de 6 minutos, y continuaremos con el proceso, en caso contrario, si la muestra
no apoya la afirmación, entonces podremos detener el proceso, y realizar los ajustes necesarios.
6 de 13
El procedimiento para decidir si una hipótesis se acepta como valida o no, es el contraste
de hipótesis.
Definición 6
Contraste de Hipótesis
Un contraste de hipótesis es un procedimiento para decidir si una hipótesis se acepta como
válida o se rechaza. Serán dos las hipótesis que generalmente se contrastan, la que deno-
minamos hipótesis nula denotada por (H0 ) y la hipótesis alternativa denotada por (Ha o
H1 ).
Para realizar el contraste de una hipótesis seleccionamos una muestra aleatoria de la

población y trataremos de tomar una decisión de acuerdo con la información que nos pro-
porcionan los valores muestrales, a través de una estimación del parámetro (caracterı́stica)
a estudiar y de su distribución muestral.
Todas los contrastes de hipótesis trabajan en base a ciertos principios que se pueden
resumir en los siguientes elementos, todos ellos indispensables en la construcción del test.
Estos son:
1. Hipótesis nula, es la hipótesis en la que se basa el procedimiento de contraste. Se

refiere a la afirmación contraria a la que ha llegado el investigador. Es la hipótesis
que el investigador pretender rechaza, si tiene la evidencia suficiente.
2. Hipótesis alternativa, son las posibles alternativas ante la hipótesis nula. Es la
conclusión a la que el investigador ha llegado a través de su investigación.
3. Estadı́stico de Prueba, es una variable aleatoria con distribución conocida. Interesa
que contenga el máximo de información sobre la hipótesis nula planteada. Respecto
a este estadı́stico se tomará la decisión respecto de la aceptación o rechazo de la
hipótesis nula.
4. Zona de Rechazo o Región Crı́tica, define los valores del estadı́stico de prueba
para los cuales se contradice la hipótesis nula.
5. Regla de decisión, procedimiento que permite rechazar o no la hipótesis nula, H0 ,
dependiendo del valor del estadı́stico de prueba. Si para una muestra particular el
estadı́stico de prueba cae dentro de la región critica o zona de rechazo, rechazaremos
la hipótesis nula en favor de la hipótesis alternativa. Si el valor calculado no cae dentro
de la zona de rechazo no podremos rechazar la hipótesis nula.
6. Nivel de significación, que denotaremos por α, es la probabilidad con la que el
valor observado del estadı́stico de prueba esté en la región crı́tica.
7 de 13
Ejemplo
En nuestro ejemplo, sobre el tiempo promedio necesario para terminar una pieza en una lı́nea
de ensamblado, podemos plantear una hipotesis.
Se quiere comprobar que el tiempo promedio de armado por pieza es de 6 minutos. Si µ

representa el tiempo medio, la afirmación propuesta será µ = 6, lo que plantearemos como
nuestra hipótesis nula, entonces como hipótesis alternativa vendrá determinada por aquello que
estamos interesados en demostrar, en este caso que el tiempo promedio no sea 6 minutos. Las
hipótesis a plantear serı́an:
H0 : µ = 6
H1 : µ 6= 6
La hipótesis nula se considerará verdadera a menos que exista evidencia suficiente en su contra.
Definición 7
Decisiones y Tipos de errores
Al concluir el contraste de la hipótesis se tomará una de dos decisiones posibles: estar

de acuerdo con la hipótesis nula y se concluirá que “no se puede rechazar H0 ”, o bien,
se decidirá en contra de la hipótesis nula y se concluye que “se rechaza H0 ”. Esto está
relacionado con la veracidad de la hipótesis nula y lo correcto de la decisión que se tome,
es decir, se puede llegar a que la hipótesis nula sea verdadera o falsa, y que la decisión sea
no rechazar o bien rechazar por lo que se tiene cuatro posibilidades:
HIPOTESIS NULA
DECISION H0
VERDADERA FALSA
NO SE RECHAZA H0 Decisión Correcta Error Tipo II
SE RECHAZA H0 Error Tipo I Decisión Correcta
Ocurre, solo uno a la vez:

Error Tipo I, cuando es cierta la hipótesis nula, pero se decide en su contra.
Error Tipo II, cuando se decide a favor de una hipótesis nula que en realidad es falsa.
La probabilidad asignada al error tipo I se conoce como nivel de significación y se denota
por α, y la probabilidad de cometer el error tipo II se denota por la letra β. Se definen:
Error Tipo I: α = P (error tipo I) = P (rechazarH0 /H0 es verdadera)

Error Tipo II: β = P (error tipo II) = P (no rechazarH0 /H0 es falsa)
8 de 13
Definición 8
Tipos de Contrastes
Podemos definir dos tipos de contraste: los contrastes unilaterales y los bilaterales. Según
estos contrastes se tiene una región crı́tica.
Consideremos la hipótesis nula simple, es decir,
H0 : θ = θ0
con respecto al parámetro de interés θ, cuando se muestra una distribución cuya función
de densidad es f (x; θ), en donde θ0 es el valor propuesto de θ, se tienen los contrastes:
Contrastes unilaterales, son aquellos contrastes en los que la hipótesis nula H0 sea
de la forma ≤ o ≥ . Se tienen dos casos:
H 1 : θ < θ0 o H 1 : θ > θ0
Contrastes bilaterales, son aquellos contrastes en los que la hipótesis alternativa

H1 se defina mediante el signo 6=, ya que nos valen ambos sentidos de la desigualdad.
Se tiene:
H1 : θ 6= θ0
En base al contraste, se define la región crı́tica y la regla de decisión.
H 1 : θ < θ0 H 1 : θ > θ0 H1 : θ 6= θ0
Se rechaza H0 si el estadı́stico de prueba definido pertenece a la zona de rechazo (RC).

En caso contrario no hay evidencia para rechazar H0 .
9 de 13
EL CONTRASTE PARA LA MEDIA DE UNA POBLACIÓN NORMAL
En los contrastes de hipótesis para una media tenemos la misma casuı́stica que en el
caso de los intervalos de confianza estudiados anteriormente, es decir, cuando se conoce
o no la varianza.
Varianza conocida
Sea una muestra x1 , x2 , . . . , xn de una población normal con media µ y varianza
σ 2 conocida, o si n es suficientemente grande. El estadı́stico de prueba es la media
muestral x, que bajo la hipótesis nula tiene una distribución normal con media µ0
y desviación estándar √σn .
Se define el estadı́stico de prueba, como:
x−µ
Zcalc = √ ∼ N (0, 1)
σ/ n
Nos permite llevar a cabo el contraste.
H 0 : µ = µ0 Región de Rechazo
H1 : µ 6= µ0 RC = {Zcalc < −Z1−α/2 o Zcalc > Z1−α/2 }
H 0 : µ ≤ µ0 Región de Rechazo
H1 : µ > µ0 RC = {Zcalc > Z1−α }
H 0 : µ ≥ µ0 Región de Rechazo
H1 : µ < µ0 RC = {Zcalc < −Z1−α }
Varianza desconocida
Sea una muestra x1 , x2 , . . . , xn de una población normal con media µ y varianza σ 2
desconocida. El estadı́stico de prueba es la media muestral x, que bajo la hipótesis
nula tiene una distribución normal con media µ0 y desviación estándar √sn .
Se define el estadı́stico de prueba, como:
x−µ
Tcalc = √ ∼ t(n−1)
s/ n
Nos permite llevar a cabo el contraste.
H 0 : µ = µ0 Región de Rechazo
H1 : µ 6= µ0 RC = {Tcalc < −t1−α/2,n−1 o Tcalc > t1−α/2,n−1 }
H 0 : µ ≤ µ0 Región de Rechazo
H1 : µ > µ 0 RC = {Tcalc > t1−α,n−1 }
H 0 : µ ≥ µ0 Región de Rechazo
H1 : µ < µ 0 RC = {Tcalc < −t1−α,n−1 }
10 de 13
✎ Ejercicio 11
Se desea determinar si la edad promedio en la que los niños abandonan el sistema escolar
es de 17 años o más, asumiendo que una población con distribución N (µ; 36), donde, para
una muestra aleatoria de tamaño 25, se encontró que x = 19. Contraste dicha hipótesis a
un nivel de significancia del 5 %.
✎ Ejercicio 12
Un inspector de la superintendencia de valores y seguros visita una agencia encargada
de regular las extrañas ganancias de las AFP en el último tiempo para verificar que ese
incremento sea el indicado de acuerdo a los informes. El jefe administrativo asegura al
inspector que las ganancias promedio son de 750 unidades monetarias (en millones de
pesos) con una desviación estándar de 5 UM. El inspector selecciona, al azar, 100 empresas
del rubro y encuentra que la ganancia promedio es de 748 unidades monetarias. Bajo
estas condiciones y usando un nivel de significancia de 0,05, ¿Qué actitud debe tomar el
inspector?.
✎ Ejercicio 13
Un fabricante de embarcaciones pesqueras sostiene que el motor de las de tipo A, tiene un
rendimiento promedio de 13 hr/ton de petróleo diesel. Para verificar esta afirmación, se
selecciona una muestra de 9 de estas embarcaciones y cada una navega, en aproximadamente
las mismas condiciones, con una tonelada de petróleo. La muestra proporciona una media
de 12,34 hr/ton, con una desviación estándar de 1,26 hr/ton. Contraste dicha hipótesis a
un nivel de significancia del 5 %.
✎ Ejercicio 14
Un modelo económico sugiere que el aumento en el precio promedio de los alimentos que
componen la canasta básica familiar por región no deberı́a ser mayor de 5 puntos en la
escala utilizada. Los aumentos del puntaje en la ejecución del modelo económico medidos
en 8 regiones del paı́s fueron:
6.4 4.3 5.7 4.9 6.5 5.9 6.4 5.1
Con un nivel de significancia del 5 %, ¿Cree usted que los datos contradicen la información
del modelo económico suponiendo normalidad en los datos?
✎ Ejercicio 15
Un comprador de ladrillos cree que la calidad de los ladrillos está disminuyendo. De ex-
periencias anteriores, la resistencia media al desmoronamiento de tales ladrillos es 200 kg.
con una desviación tı́pica de 10 kg. Una muestra de 100 ladrillos arroja una media de 195
kg. Probar la hipótesis, la calidad media no ha cambiado, contra la alternativa que ha
disminuido.
11 de 13
✎ Ejercicio 16
El gerente de una empresa asegura que sus vendedores hacen, en promedio, a lo mas
15 ventas por semana. Para verificar su afirmación toma una muestra aleatoria de 15
vendedores y registra el número X de ventas correspondiente a una semana seleccionada
también al azar. Se sabe que el número de ventas semanales tiene distribución normal con
media µ y varianza σ 2 , ambos parámetros desconocidos. La muestra revela que el número
medio de venta de la muestra es de 17 ventas y una varianza de 9. ¿La evidencia de la
muestra contradice la aseveración del gerente?. Contraste dicha hipótesis a un nivel de
significancia del 5 %.
✎ Ejercicio 17
Supóngase que en cierto proceso para producir alambre, la resistencia a la ruptura del
alambre es una variable aleatoria normal con media 90,80 kg. Para reducir los costos de
producción, se prueba otro proceso. Una muestra de 10 valores obtenidos bajo el proceso
dio una media de 85,352 kg. y una desviación tı́pica de 2,724 kg. ¿El nuevo proceso tiene
un efecto negativo sobre el alambre?. Use α = 0,05
✎ Ejercicio 18
Una fábrica produce clavos cuya longitud media es de 1 pulgada. Después de efectuadas
algunas modificaciones en los dispositivos de las máquinas de dicha fábrica y con respecto
a la producción de clavos durante los últimos meses se han recibido continuos reclamos de
los compradores quienes han manifestado que los clavos presentan un incremento en más
de 0,1 pulgadas en su longitud, lo que perjudica a los usuarios; para verificar lo manifestado
por los compradores, el fabricante tomó una m.a. de 10 clavos cuyas logitudes resultaron:
1.14 1.12 1.11 1.10 1.16 1.09 1.08 1.12 1.11 1.10
Usando α = 0,05, ¿podrá el fabricante aceptar lo manifestado por los compradores?
✎ Ejercicio 19
En un estudio acerca de cómo utilizan las tarjetas de crédito los estudiantes no titulados,
se reportó que este tipo de población tiene un saldo medio en su tarjeta de crédito de
$3173 (Sallie Mae, abril de 2009). Tal cifra fue la más alta de todos los tiempos y tuvo un
incremento de 44 % sobre la de los cinco años previos. Suponga que se realiza un estudio
actual para determinar si es posible concluir que el saldo medio en la tarjeta de crédito
de estudiantes no titulados ha continuado en aumento comparado con el informe de abril
de 2009. Con base en reportes previos, utilice una desviación estándar poblacional de
σ = $1000.
a) Establezca las hipótesis nula y alternativa.
b) Se toma una muestra de 180 estudiantes no titulados con un saldo medio muestral en
su tarjeta de crédito de $3250. Usando un nivel de significancia de 0,05, ¿cuál es su
conclusión?
12 de 13
Soluciones
1.- El itamaño mı́nimo de la muestra es de 96
3.- El itamaño de la muestra es de 268 ampolletas
4.- El intervalo de confianza al 95 % es (5, 895; 26, 105)

Como el intervalo de confinza es mayor que 0. Con un 95 % de confianza, se puede establecer
que la marca que tiene mayor duración corresponde a la marca 1.
5.- El intervalo de confianza al 99 % es (−559, 39; 1159, 39)

Como el intervalo de vconfianza contiene al 0, por lo que ambas partidas de neumáticos son
igualescon un 99 % de confianza
6.- El intervalo de confianza al 90 % es (−94, 45; −67, 55)

Como el intervalo de confinza es menor que 0. Se puede establecer que el nuevo proceso trae
mejoras, pues el promedio es mayor en el tiempo que se somete a la ruptura del metal.
6.- El intervalo de confianza al 90 % es (−94, 45; −67, 55)

Como el intervalo de confinza es menor que 0. Se puede establecer que el nuevo proceso trae
mejoras, pues el promedio es mayor en el tiempo que se somete a la ruptura del metal.
11.- H0 : µ = 17 vs H1 : µ > 17, estadistico de prueba Z = −1, 67

ENo eiste evidencia suficiente para rechazar H0 con un nivel de confianza del 95 %, es decir
la afirmación propuesta está en lo correcto.
13.- H0 : µ = 13 vs H1 : µ 6= 13, estadistico de prueba T = −1, 57

Existe evidencia suficiente para rechazar H0 con un nivel de confianza del 95 %, es decir,
no se puede sostener que el motor tenga un rendimiento promedio de 13 hr/ton.
15.- H0 : µ = 200 vs H1 : µ < 200, estadistico de prueba Z = 7, 07

Existe evidencia suficiente para rechazar H0 con un nivel de confianza del 95 %, es decir,
nha disminuido la resistencia de los ladrillos
17.- H0 : µ = 90, 80 vs H1 : µ < 90, 80, estadistico de prueba T = −6, 324

Existe evidencia suficiente para rechazar H0 con u nnivel de confianza del 95 %, es decir,
el nuevo proceso tiene un efecto negativo sobre el alambre.
19.- H0 : µ = 3173 vs H1 : µ > 3173, estadistico de prueba Z = 1, 033

No existe evidencia suficiente para rechazar H0 con un nivel de confianza del 95 %, es
decir, no se peude establecer que el saldo medio en una tarjeta de crédito de estudiantes
no titulados ha continuado en aumento con el informe de Abril de 2009.
13 de 13
,
Guı́a 4
Tema: Inferencia Estadı́stica - Pruebas de Hipótesis
Aplicar test estadı́sticos para la validación de hipótesis de parámetros poblacionales.
Utilizar Software de planilla electrónica para el análisis de datos del área de las Ciencias
de la Ingenierı́a y Economı́a.
Introducción
En las sesiones anteriores se vieron métodos de inferencia estadı́stica para las medias po-
blacionales. En esta sesión se extiende dicho estudio a la revisión de contrastes (pruebas) de
hipótestis para las proporciones, varianzas y diferencias de medias poblacionales.
1 de 10
EL CONTRASTE PARA LA PROPORCION DE UNA POBLACIÓN NORMAL
Para realizar este contraste, el estadı́stico mejor conocido es la proporción muestral,
donde pb es la proporción de la muestra que cumple con la condición.
Supongamos una población normal, x ∼ N (µ, σ 2 ),

p pq
y la proporción pb ∼ N (p, n
).
El estadı́stico de prueba que se define a continuación:

pb − p0
Zcalc = p ∼ N (0, 1)
(p0 (1 − p0 ))/n
Nos permite llevar a cabo el contraste, al igual que el contraste para una media.
H0 : p = p 0 Región de Rechazo
H1 : p 6= p0 RC = {Zcalc < −Z1−α/2 o Zcalc > Z1−α/2 }
H0 : p ≤ p 0 Región de Rechazo
H1 : p > p0 RC = {Zcalc > Z1−α }
H0 : p ≥ p 0 Región de Rechazo
H1 : p < p0 RC = {Zcalc < −Z1−α }
2 de 10
✎ Ejercicio 1
En una muestra de 100 comercios seleccionados al azar de una zona, se observa que 28 de
ellos han tenido pérdidas en este mes. Un analista económico de la zona establece que la
proporción de comercios en la zona con pérdidas es igual o superior a 0,35. Contraste la
hipótesis propuesta por el analista económico, a un nivel de significación del 5 %.
✎ Ejercicio 2
En un estudio se encontró que, en 2005, el 12,5 % de los trabajadores estadounidenses
pertenecı́a a un sindicato (The Wall Street Journal, 21 de enero de 2006). El caso es que
en 2006 se toma una muestra de 400 trabajadores para ver si el esfuerzo realizado por los
sindicatos por organizarse ha hecho que aumente el número de sus miembros.
a) Formule las hipótesis que puedan ser usadas para determinar si la afiliación a los
sindicatos ha aumentado en 2006.
b) Si los resultados muestrales indican que 52 de los trabajadores pertenecen a los sin-
dicatos, contraste dicha hipótesis a un nivel de significancia del 5 %.
✎ Ejercicio 3
Según el Center for Logistics Management de la Universidad de Nevada, 6 % de todas las
mercancı́as vendidas en Estados Unidos son devueltas (BusinessWeek, 15 de enero de 2007).
Una tienda departamental en Houston tomó una muestra de 80 artı́culos vendidos en enero
y encontró que 12 de ellos fueron devueltos.
a) Calcule una estimación puntual de la proporción de artı́culos devueltos para la po-

blación de transacciones de ventas en el almacén de Houston.
b) ¿La proporción de devoluciones es significativamente distinta de las devoluciones de
toda la nación en conjunto?. Use α = 0, 05
✎ Ejercicio 4
Un portal e-business sabe que el 60 % de todos sus visitantes a la web están interesados en
adquirir sus productos, pero son reacios a las compras online y no realizan finalmente la
compra vı́a internet. Sin embargo, en la dirección del portal se piensa que en el último año el
porcentaje de potenciales clientes que está dispuesta a comprar por internet ha aumentado
y esto se debe reflejar en los resultados empresariales. En esta lı́nea, se tomó una muestra
de 500 visitantes para conocer su opinión y se observó que el 55 % no estaba dispuesta a
realizar compras vı́a online. Contrastar con el 2 % de significación si el último año se ha
reducido el porcentaje de personas que no está dispuesta a comprar vı́a intenet.
3 de 10
EL CONTRASTE PARA LA VARIANZA DE UNA POBLACIÓN NORMAL
Realizar inferencias con respeto a la varianza es tan importante como las que se realizan
sobre la media, ya que es de gran interés el parámetro de variabilidad, de hecho, en
algunas áreas resulta más importante reconocer la variablilidad de la población que el
promedio.
Se presentan criterios para probar hipótesis con respecto a las varianzas con base en
una sola muestra aleatoria o en dos muestras aleatorias independientes provenientes de
distribuciones normales.
Supongamos una muestra x1 , x2 , . . . , xn de una población normal con media µ desco-

nocida y varianza σ 2 desconocida. Consideremos la hipótesis de que podemos hacer las
pruebas sobre un valor especı́fico de la varianza poblacional. Para ello nos basamos en
el estimador de σ 2 , la varianza muestral S 2 , que se conoce su distribución, una χ2 con
n − 1 grados de libertad.
Con H0 cierta, tenemos que el estadı́stico de prueba es:
2 (n − 1)S 2
Xcalc = ∼ χ2n−1
σ2
En este caso, la distribución del estadı́stico no es simétrica, lo que lleva a realizar tres
tipos de contrastes, tomando en consideración dicha asimetrı́a. Se presupone que la
hipótesis nula es cierta, y se rechaza en caso contrario:
H0 : σ 2 = σ02 Región de Rechazo

H1 : σ 2 6= σ02 RC = {χ2calc < χ2α/2;n−1 o χ2calc > χ21−α/2;n−1 }
H0 : σ 2 ≤ σ02 Región de Rechazo

H1 : σ 2 > σ02 RC = {χ2calc > χ2α;n−1 }
H0 : σ 2 ≥ σ02 Región de Rechazo

H1 : σ 2 < σ02 RC = {χ2calc < χ21−α;n−1 }
✎ Ejercicio 5
Un fabricante sostiene que el modelo de auto A, tiene un rendimiento promedio de 13
kilómetros por litro. Selecciona una muestra de 9 de estos autos y cada uno es conducido
con un litro de bencina en las mismas condiciones. La muestra proporciona una media de
12,34 km/lt, con una desviación estándar de 1,26 km/lt.
Si el fabricante sostiene que la desviación estándar poblacional es de 1,20 km/lt. Contraste
dicha hipótesis a un nivel de significancia del 5 %.
4 de 10
✎ Ejercicio 6
En un dı́a se cambia el aceite lubricante en una máquina de avión, el nuevo aceite contenı́a
30 ppm de plomo. Después de 25 horas de vuelo sacaron 11 muestras pequeñas de aceite
y se quemaron en un espectrómetro para determinar el nivel de contaminación de plomo
presente. De la muestra se obtuvo una media de 34, 9 ppm, con una desviación estándar
de 4,5 ppm. Supondiendo normalidad.
a) ¿Deberı́amos aceptar la afirmación que el contenido medio de plomo es de 30 ppm?

Utilice un nivel de significancia del 1 %.
b) Pruebe la hipótesis que la desviación estándar es a lo más de 4 ppm a un nivel de
significancia del 5 %.
✎ Ejercicio 7
Un ingeniero encargado del control de calidad de llenado de un producto en pequeñas
botellas, sabe que si la variabilidad de la cantidad de llenado es alta, algunas botellas van a
tener poco o demasiado contenido. Para controlar la variabilidad de los pesos del contenido
por botella cuya especificación es a lo más 0,45 gramos, tomó una muestra aleatoria de
10 botellas y observó que el peso medio, en gramos, de los llenados es de 10,04 y una
desviación estándar de 0,24.
El ingeniero concluye que está controlado el proceso. ¿Está usted de acuerdo con esta
conclusión?. Asuma que los pesos de toda la producción se distribuyen según la distribución
normal, a un nivel de significancia del 1 %.
✎ Ejercicio 8
Los rodamientos esféricos que fabrica una máquina deben tener un diámetro uniforme para
ser aptos para su uso. El responsable de la máquina asegura que la varianza es σ 2 = 0,025.
Medidos 50 rodamientos se obtuvo una varianza muestral s2 = 0,02. ¿Es compatible este
resultado con la afirmación previa?. Use α = 0,05
✎ Ejercicio 9
La gerencia de una empresa avı́cola considera que la variabilidad que se presenta en el peso
de los pollos de 3 meses es aceptable, puesto que cree que la desviación estándar de los
pesos es de 250 gramos. Un grupo de socios de la empresa pone en duda lo manifestado
por la gerencia y considera que la variabilidad es superior; por lo cual 6 meses después la
gerencia ordena tomar una muestra de 30 pollos de 3 meses seleccionados aleatoriamente y
encuentra que la desviación estándar es de S = 225 gramos. Con un nivel de significación
del 5 %, compruebe quien tiene la razón.
5 de 10
EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS
En la práctica, se presenta una diversidad de problemas en la industria y en las ciencias
sociales que nos sugieren confrontar cual de dos procesos es mejor que el otro a la luz
de la media que arroja cada uno de ellos. Se nos podrı́a ocurrir por ejemplo: Verificar si
el contenido de determinada sustancia en una artı́culo fabricado por una compañı́a A
es inferior o no al contenido de dicha sustancia en el mismo artı́culo fabricado por una
compañı́a B de la competencia. etc.
Con el fin de resolver las pruebas de hipótesis para la diferencia de medias, debemos
tener en cuenta el mismo procedimiento y las mismas reglas que seguimos para las
pruebas de hipótesis para la media.
En cuanto a la distribución en el muestreo de la diferencia de medias, recordemos los

siguientes tres casos:
a) Si las dos poblaciones son normales, las diferencias de las medias muestrales
también se distribuirán normalmente cualquiera sea el tamaño de las muestras. No
obstante, si no se conocen las varianzas poblacionales (σ12 y σ22 ), éstas pueden ser
reemplazadas por las varianzas muestrales (S12 y S22 ), sólo si los tamaños de las
muestras son mayores que 30, (n1 > 30 y n2 > 30 o n1 + n2 > 60).
b) Según el Teorema Central del Lı́mite, si las dos poblaciones no son normales o
no sabemos si se cumple o no éste comportamiento, las diferencias de las medias
muestrales se distribuirán aproximadamente como una distribución normal, si
los tamaños de las muestras son mayores que 30, (n1 > 30 y n2 > 30 o n1 +n2 > 60).
c) Si las dos poblaciones son normales o están muy cerca de éste comportamiento y
por otra parte no conocemos las varianzas poblacionales (σ12 y σ22 ) y además los
tamaños de las muestras son menores que 30, (n1 < 30 y n2 < 30 o n1 + n2 < 60),
entonces, las diferencias de las medias muestrales se distribuirán de acuerdo a la ley
t − student.
En la distribución del muestreo para la diferencia de medias, se cumplen las siguientes

propiedades:
µx−y = µ1 − µ2
s
σ12 σ22
σx−y = +
n1 n2
Donde µx−y es la diferencia de las medias muestrales, mientras que σx−y es la desviación
estándar de las diferencias de las medias muestrales.
6 de 10
En los contrastes de hipótesis para diferencias de medias, tenemos los mismos casos que
para las pruebas de hipótesis para la media, es decir, cuando se conocen o desconocen
las varianzas poblacionales.
2
Sean dos poblaciones X e Y , con medias µX y µY y varianzas σX y σY2 respectivamente, y
dos muestras de tamaño nX y nY proveniente de distribuciones normales independientes,
que se han seleccionado aleatoriamente de su población.
Suponga que se desea probar la hipótesis nula:

H 0 : µX − µY = δ 0
en donde δ0 es una cantidad que representa la diferencia propuesta entre los valores
desconocidos de las medias.
Definición 1
Prueba de hipótesis para diferencia de medias con varianzas conocidas.
Se define el estadı́stico de prueba como la diferencia de medias muestral, X − Y , se

tiene:
(x − y) − δ0
Zcalc = s ∼ N (0, 1)
σx2 σy2
+
nx ny
Nos permite llevar a cabo el contraste con respecto a las medias de dos distribuciones
normales e independiendets con varianzas conocidas.
H 0 : µX − µY = δ 0 Región de Rechazo
H1 : µX − µY 6= δ0 RC = {Zcalc < −Z1−α/2 o Zcalc > Z1−α/2 }
H 1 : µX − µY > δ 0 RC = {Zcalc > Z1−α }
H 1 : µX − µY < δ 0 RC = {Zcalc < −Z1−α }
✎ Ejercicio 10
Un rodamiento para una troqueladora producida por la empresa A, tiene una vida media
útil de 3,5 años con una desviación estándar de 0,4 años. El mismo tipo de rodamientos
producido por la empresa B, tiene una vida media útil de 3,3 años con una desviación
estándar de 0,3 años. ¿Cual es la probabilidad de que una muestra de 25 rodamientos de
la empresa A tenga una vida media de por lo menos 0,4 años más, que la vida media de
una muestra de 36 rodamientos de la empresa B?
7 de 10
Definición 2
Prueba de hipótesis para diferencia de medias con varianzas desconocidas.
Hay dos posibles situaciones en los contrastes de hipótesis para diferencias de medias
2
µX − µY con varianzas σX y σY2 desconocidas:
En el caso de varianzas poblacionales desconocidas y diferentes, o que

en la distribución en el muestreo de la media, las poblaciones son pequeñas
(nX < 30 y nY < 30 o nX + nY < 60).
Si las dos poblaciones se distribuyen normalmente, la ley t−Student nos permite

resolver situaciones como ésta. Entonces, obtendremos el estadı́stico T , similar
al estadı́stico Z, visto anteriormente. Se define el estadı́stico de prueba, como:
(x − y) − δ0
Tcalc = s ∼ tnx +ny −2
2
2
Sx S y
+
nx ny
En el caso de varianzas poblacionales desconocidas pero iguales, el de-

nominador, correspondiente a la desviación estándar de las medias muestrales
que se utilizará es Sp :
s
(nx − 1)Sx2 + (ny − 1)Sy2
Sp =
nx + ny − 2
Nos permite llevar a cabo el contraste. Considerar que m = nx + ny − 2
H1 : µX − µY 6= δ0 RC = {Tcalc < −t1−α/2,m o Tcalc > t1−α/2,m }
H 1 : µX − µY > δ 0 RC = {Tcalc > t1−α,m }
H 1 : µX − µY < δ 0 RC = {Tcalc < −t1−α,m }
8 de 10
✎ Ejercicio 11
Supongamos que se ha recibido información de parte de un vendedor, en el sentido de que
cierta pieza de cobre fabricado por una empresa A, tiene una duración media que supera
en 60 horas a la misma pieza producida por una empresa B de la competencia. Un analista
quiere poner a prueba dicha afirmación, para lo cual toma una muestra de 9 piezas en
aquellas empresas, encontrando que para la empresa A, la duración media es de 1000 horas
con una desviación estándar de 60 horas, mientras que para la empresa B, la duración media
es de 925 horas con desviación estándar de 50 horas. El analista aceptará la afirmación del
vendedor, utilice α = 0,05. Se sabe que la duración de las piezas se comporta normalmente
en ambas empresas y que las varianzas poblacionales son distintas.
✎ Ejercicio 12
Una compañia de seguros médicos reúne datos sobre el tiempo de hospitalización, en dı́as,
de pacientes internadas por apendicectomı́a. Dos muestras aleatorias tomadas de dos hos-
pitales distintos, proporcionaron los siguientes resultados:
Hospital 1 Hospital 2
Media Muestral 8, 2 9, 4
Desviación estándar Muestral 3, 6 2, 9
Tamaño de la muestra 56 38
Pruebe la hipótesis nula de que el promedio en el lı́mite se conserva igual, en contra de

una hipótesis alternativa general, utilizar α = 0, 10. Suponga varianzas desconocidas pero
iguales.
✎ Ejercicio 13
Para probar la afirmación de que la resistencia de un conductor eléctrico puede reducirse
en más de 0,050 ohms mediante aleaciones, se toman 32 valores obtenidos de alambre
ordinario que produjeron x1 = 0, 136 ohms, y 32 valores obtenidos con alambre fabricado
en base a aleaciones que produjeron x2 = 0, 083 ohms . Se sabe que σ1 = 0, 004 ohms y
σ2 = 0, 005 ohms ¿Se apoya la afirmación con un nivel de significacancia de 0,05?
✎ Ejercicio 14
La estatura media de 50 estudiantes de un colegio que tomaban parte en las pruebas atléti-
cas fue de 1, 70 mts con desviación estándar de 0, 0625 mts, mientras que 50 estudiantes
que no mostraban interés en tal participación tenı́an una estatura media de 1, 69 mts con
desviación estándar de 0, 07 mts. Ensayar la hipótesis de que los estudiantes que partici-
pan en pruebas atléticas son más altos que los otros, con un nivel de significancia de 0,05.
Suponga varianzas poblacionales iguales.
9 de 10
✎ Ejercicio 15
Un fabricante que elabora botes de alumnio reciclado, está preocupado por los niveles de
impurezas en lotes que tienen distintos origenes. Los análisis de laboratorio de una muestra
de lotes arrojan los siguientes datos, kilogramos de impurezas por cada 100 kilogramos del
producto:
Origen 1 3, 4 3, 5 4, 1 2, 5 3, 6 4, 3 2, 1 2, 9 3, 2 3, 7 2, 8 2, 7
Media = 3, 267 y Desv estándar = 0, 676
Origen 2 1, 8 2, 2 1, 3 5,1 4, 6 4, 7 3, 3 4, 3 4, 2 2, 5 5, 4 4, 6
Media = 3, 617 y Desv estándar = 1, 365
¿Puede concluir el fábricante, utlizando α = 0, 05, que la diferencia entre las medias es
distinta de cero? Asuma varianzas poblacionales desconocidas y diferentes.
✎ Ejercicio 16
Un diseñador de productos está interesado en reducir el tiempo de secado de una pintura.
Se prueban dos fórmulas de pintura; la fórmula 1 tiene el contenido quı́mico estándar y la
fórmula 2 tiene un nuevo ingrediente secante que tiende a reducir el tiempo de secado. De
la experiencia se sabe que la desviación estándar del tiempo de secado de la formula 1 es
8 minutos y la desviación estándar del tiempo de secado de la formula 2 es de 6 minutos.
Se pintan 35 placas con la fórmula 1 y otras 35 con la fórmula 2. Los dos tiempos promedio
de secado muestrales son 116 minutos para la fórmula 1 y 112 minutos para la fórmula
2. ¿A qué conclusión puede llegar el diseñador del producto sobre la eficacia del nuevo
ingrediente, al nivel de significancia 0,01?
✎ Ejercicio 17
Se realiza una investigación para determinar la acumulación de DDT en las células cere-
brales de una variedad de aves. Muestras de tamaño 10 de la categorı́a juveniles y 13 de
adultos, proporciona los siguientes resultados:
Juveniles Adultos
nJ = 10 nA = 13
µJ = 0, 041 ppm µA = 0, 026 ppm
sJ = 0, 017 sA = 0, 006
Algunos investigadores opinan que los juveniles deberı́an tener una mayor concentración
media de DDT que los adultos. Determine la veracidad de esta opinión, considerando
varianzas poblacionales desconocidad pero iguales, estableciendo las hipótesis adecuadas y
desarrollando las pruebas pertinentes. ¿Existe suficiente evidencia como para concluir que
la concentración en las células cerébrales de los juveniles excede de la de los adultos en más
de de 0,01 ppm?
10 de 10
,
Guı́a 5
Tema: Regresión Lineal - Relación entre Variables
Identificar un modelo estadı́stico lineal, y su representación algebraica para el análisis de
Aplicar el coeficiente de correlación para el estudio de la asociación entre variables del
área de la ingenierı́a y economı́a.
Predecir información a través de modelos estadı́sticos lineales y no lineales en problemas
del área de la ingenierı́a y economı́a.
de la ingenierı́a y economı́a.
Introducción
En la vida cotidiana existen diversas situaciones en las que interesa observar si dos variables
están relacionadas, y en ese caso, en qué medida.
La relación entre variables, es uno de los aspectos más relevantes a estudiar, ya que resulta de
interés conocer el efecto que una o varias variables pueden causar sobre otra, e incluso predecir
valores de una variable a partir de otra.
A menudo es necesario contestar preguntas como las siguientes: “¿Están relacionadas estas dos
variables? En caso afirmativo, ¿de qué manera? ¿Existe una correlación entre las variables?”.
Para contestar las preguntas anteriores, se requiere del análisis de datos bivariados, es decir,
dada cierta población y dos variables asociadas a esa población, se requiere estudiar las posibles
relaciones que existen entre ellas. En esta guı́a trataremos medidas estadı́sticas que permitan
analizar la relación entre dos variables.
1 de 5
RELACIÓN ENTRE VARIABLES
Al estudiar la relación entre dos variables sobre una misma población, debemos ser capaces de
responder si las variables están relacionadas y en qué grado. Esto se puede responder a través
de una representación gráfica, como el Diagrama de Dispersión y utilizando las medidas
estadı́sticas de asociación entre variables como la Covarianza y el Coeficiente de Correla-
ción de Pearson.
Definición 1
Diagrama de Dispersión
Una representación gráfica útil para describir el comportamiento conjunto de dos varia-
bles es el Diagrama de Dispersión o Nube de Puntos, donde cada caso aparece representado
como un punto en el plano definido por las variables X e Y .
La nube de puntos resultante, donde cada observación (x, y) se representa con un punto
en el plano cartesiano XY , permite evaluar si existe relación entre las dos variables y la
naturaleza de tal relación, por ejemplo si es creciente o decreciente.
Para interpretar el gráfico de dispersión debe mirarse el patrón general (tendencia) que
siguen los puntos, este patrón revela dirección, forma y fuerza de la relación.
✎ Ejercicio 1
El dueño de una flota de camiones desea estudiar la relación entre el peso de la carga,
en toneladas, y el rendimiento del combustible, en km por litro. Para ello consideró una
muestra de 10 viajes. La siguiente tabla muestra el registro del peso de la carga y el
rendimiento del combustible de estos viajes.
Peso de la carga 7,9 0,2 6,5 2,5 8,8 4,5 5 3,7 8,3 4,4
Rendimiento de combustible 8,3 6,6 7,7 6,6 4,2 6,8 8,7 7,9 6,9 4,1
Realizar gráfico de dispersión del problema e interpretar.
2 de 5
MEDIDAS DE ASOCIACIÓN ENTRE DOS VARIABLES
Al estudiar la relación entre dos variables debemos ser capaces de responder las siguientes
preguntas:
¿Las variables están relacionadas o no?
¿Es lineal esta relación y cuál es su grado?
Las preguntas anteriores pueden ser resueltas utilizando las medidas de Covarianza y Coefi-
ciente de Correlación Lineal de Pearson.
Definición 2
Covarianza
La covarianza entre X e Y, SXY = Cov(X, Y ), nos indica si la posible relación entre dos
variables es directa o inversa, esta medida habla de la variabilidad conjunta de las variables.
n n
1X 1X
SXY = (xi − x)(yi − y) = (xi yi ) − x · y
n i=1 n i=1
Por lo que:
Si SXY > 0; La relación entre la variable X e Y es directa o creciente, es decir, si una

de las variables aumenta la otra también aumenta.
Si SXY < 0; La relación entre la variable X e Y es inversa o decreciente, es decir, si
una de las variables aumenta la otra disminuye y viceversa.
Si SXY = 0; No hay relación entre la variable X e Y.
Observación: El signo de la covarianza nos dice si el aspecto de la nube de puntos

es creciente o decreciente, pero no nos da mayor información con respecto al grado de la
relación.
✎ Ejercicio 2
Supongamos que un analista de una empresa tiene un conjunto de datos de cinco trimestres
que muestra el crecimiento trimestral del producto interno bruto (PIB) en porcentajes (X)
y el crecimiento de la lı́nea de productos nuevos de una compañı́a en porcentajes (Y ). El
conjunto de datos puede verse ası́:
Trimestre Q1 Q2 Q3 Q4 Q5
Crecimiento PIB 1 3 2 3 4
Crecimiento Lı́nea producción 10 14 12 15 20
a) Realizar gráfico de dispersión de la situación descrita e intrepretar.

b) Determine la covarianza e interprete.
3 de 5
Definición 3
Coeficiente de Correlación de Pearson
El Coeficiente de Correlación Lineal entre dos variables rXY , nos indica si los puntos
tienen una tendencia lineal (excluyendo rectas horizontales y verticales). Pero no servirá
para otro tipo de relaciones, como por ejemplo exponencial o logarı́tmica.
SXY
rXY =
SX S Y
donde SX podemos determinar como:
v !2
n n
u
1u X X
SX = t n· x2i − xi
n i=1 i=1
De manera análoga se calcula SY .
Por lo que:
Si rXY ≈ 1; La relación entre la variable X e Y es lineal con pendiente positiva (recta

lineal creciente).
Si rXY ≈ −1; La relación entre la variable X e Y es lineal con pendiente negativa
(recta lineal decreciente).
Si rXY = 0; No existe relación lineal entre la variable X e Y. Aunque podrı́a existir
otro tipo de relación (exponencial, logarı́tmica, etc.).
Propiedades de rXY
Es adimensional (no posee unidades de medida).

Sólo toma valores en [−1, 1].
Relación lineal perfecta entre dos variables si rXY = 1 o rXY = −1 .
Cuando rXY = 0 podemos afirmar que no existe relación lineal entre ambas variables,
en este caso se dicen que las variables son incorrelacionadas.
Observación: En la correlación no se distingue la variable dependiente de la independiente.

La correlación de X con respecto a Y es la misma que la correlación de Y con respecto a X.
No indica causalidad.
4 de 5
✎ Ejercicio 3
El inventor de un nuevo material aislante quiere determinar la magnitud de la compresión
(Y ) que se producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes
niveles de presión (X), ambas en MPa. Para ello prueba 5 piezas de material bajo diferentes
presiones. Los pares de valores observados (x, y) se muestran en la siguiente tabla:
Pieza Presión (x) Compresión (y)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4
a) Realizar gráfico de dispersión del problema e intrepretar.

b) Determine la covarianza e interpretar la proporcionalidad de las variables.
c) Determine la correlación e interprete.
✎ Ejercicio 4
Se ha solicitado a un grupo de 5 individuos información sobre el número de horas que
dedican diariamente a dormir y ver televisión. La clasificación de las respuestas ha permitido
elaborar la siguiente tabla:
N o de horas dormidas 6 7 8 9 10
N o de horas de televisión 4 3 3 2 1
a) Realizar gráfico de dispersión del problema e interpretar.

b) Calcular el coeficiente de covarianza e interprete.
c) Determine la correlación de Pearson e interprete.
✎ Ejercicio 5
El gerente de personal piensa que quizá exista relación entre el ausentismo laboral y la
edad de los trabajadores. Selecciona una muestra de 10 trabajadores que se han ausentado
y la edad de ellos. Los datos se encuentran en la siguiente tabla:
Trabajador 1 2 3 4 5 6 7 8 9 10
Edad 27 55 37 23 46 58 29 36 60 40
Dias Ausentes 15 6 10 18 9 7 14 11 5 8
a) Grafique la situación expuesta e intreprete.

b) Calcular el covarianza e interprete.
c) Determine el coeficiente de correlación de Pearson e interprete.
5 de 5
,
Guı́a 6
Tema: Regresión Lineal - Relación entre Variables
Aplicar el coeficiente de correlación para el estudio de la asociación entre variables del
área de la Ingenierı́a y Economı́a.
del área de la Ingenierı́a y Economı́a.
Introducción
Como analizamos anteriormente, existen diversas situaciones donde las variables involucradas
están relacionadas y también con la fortaleza con la que lo están, analizado a través de medidas
de asociación y gráficos. Tales relaciones, suelen expresarse en forma matemática a través de
una ecuación (modelo) que conecte las variables.
En esta guı́a se trata el Modelo de Regresión Lineal, uno de los modelos (ecuaciones)
utilizados para estudiar la relación lineal entre dos variables.
Fue un biólogo y estadı́stico inglés, SIR FRANCIS GALTON, quien introdujo en 1889 el
término “regresión” en estadı́stica y empleó este concepto para indicar la relación que existı́a
entre la estatura de los niños de una muestra y la estatura de su padre. Observó, que si los
padres son altos, los hijos generalmente también lo son, y si los padres son bajos los hijos son
también de menor estatura. Pero ocurrı́a un hecho curioso: cuando el padre es muy alto o muy
bajo, aparece una perceptible “regresión”hacia la estatura media de la población, de modo que
sus hijos retroceden hacia la media de la que sus padres. Hoy dı́a, el término es más amplio.
1 de 7
MODELO LINEAL
Cuando la asociación entre ambas variables es linealmente fuerte (medida a través del coefi-
ciente de correlación de Pearson), la regresión estará dirigida a describir como es la relación
entre X e Y hasta ofrecer un modelo estadı́stico que puede alcanzar finalidades predictivas.
El Análisis de Regresión Lineal Simple, es un modelo matemático cuyo objetivo es estudiar

la relación lineal existente entre dos variables cuantitativas. La variable independiente (o ex-
plicativa) X, explica el comportamiento de una variable dependiente (o explicada) Y , a partir
de una función lineal.
Un primer análisis visual, que consiste en el diagrama de dispersión, permite observar

una posible relación lineal entre las dos variables. La covarianza y la correlación, aporta un
indicador concreto para el encuentro de una ecuación de la recta que mejor se ajuste a la nube
de puntos. Esta recta se denomina recta de regresión lineal simple.
Definición 1
Regresión Lineal Simple
El modelo de regresión lineal simple, consiste en aproximar los valores de la variable

dependiente (Y ) a partir de la variable independiente (X), para ello se determina una
función lineal de la siguiente forma:
Y =α+β·X +ε
Donde,
α, es un parámetro constante que representa a la ordenada en el origen (coeficiente

de posición, es el valor que toma Y cuando X = 0).
β, es la pendiente de la recta e indica cómo cambia Y al incrementar X en una unidad.
ε, es el error o perturbación aleatoria, que representa a un conjunto de factores no
controlados, que provoca que la relación entre la variable dependiente e independiente,
no sea perfecta.
En un modelo lineal, se verifican las siguientes hipótesis:

1. En la función de regresión lineal, para un valor de x, se tiene:
E(Y /X = x) = α + β · x + E(ε/X = x) = α + β · x
2. Los errores aleatorios sean de media cero para cualquier valor x de X, es decir
E(ε/X = x) = E(ε) = 0.
3. La varianza de ε es constante para cualquier valor de x, V ar(ε/X = x) = σ 2
4. La distribución de ε es normal con media 0 y desviación estandár σ
5. Los errores asociados a los valores de Y son independientes unos de otros.
2 de 7
Definición 2
Método de Estimación MCO
El análisis de regresión lineal simple tiene por objetivo encontrar la lı́nea recta que mejor
se ajuste a los datos, esto significa que se desea encontrar la lı́nea recta para la cual las
diferencias entre los valores reales de (y) y los valores estimados estimados (b y ) sean lo más
pequeña posible, lo que llamamos minimización de los residuos cuadráticos.
X
n X
n
e2i = (yi − ybi )2
i=1 i=1
Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar
una recta de la forma:
y =α+β·X +ε
de modo que se ajuste a la nube de puntos. Para esto utilizaremos el método de Mı́nimos
Cuadrados Ordinarios (MCO). Este método consiste en minimizar la suma de los cuadrados
de los errores:
X
n X
n
e2i = (yi − ybi )2
i=1 i=1
b y βb son las siguientes:

Con este método, las expresiones que se obtiene para α
X
n X
n X
n
n· xi yi − xi yi
Sxy
βb = i=1 i=1 i=1
=
Xn Xn
Sx2
n· x2i − ( xi ) 2
i=1 i=1
b = y − βb · x
α
Hipótesis del modelo de regresión lineal simple:

Los datos deben ser independientes.
Una observacion no debe dar información sobre las demás.
Habitualmente, se sabe por el análisis visual, que tipo de datos es adecuado para el
análisis.
En general, las series temporales no cumplen la hipótesis de independencia.
Normalidad de los residuos.
3 de 7
✎ Ejercicio 1
Supongamos que un analista de una empresa tiene un conjunto de datos de cinco trimestres
que muestra el crecimiento trimestral del producto interno bruto (PIB) en porcentajes (X)
y el crecimiento de la lı́nea de productos nuevos de una compañı́a en porcentajes (Y ). El
conjunto de datos puede verse ası́:
a) Determine los coeficientes del modelo lineal e interprete.

b) Construya el modelo de regresión lineal.
✎ Ejercicio 2
El inventor de un nuevo material aislante quiere determinar la magnitud de la compresión
(Y ) que se producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes
cantidades de presión (X), ambas en MPa. Para ello prueba 5 piezas de material bajo
diferentes presiones. Los pares de valores observados (x, y) se muestran en la siguiente
tabla:
Pieza Presión (x) Compresión (y)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4

✎ Ejercicio 3
dedican diariamente a dormir y ver televisión. La clasificación de las respuestas ha permitido
elaborar la siguiente tabla:

4 de 7
Definición 3
Coeficiente de Determinación - Bondad de ajuste
Se define como la proporción de la varianza total de la variable respuesta Y , explicada

por la regresión X. El coeficiente de determinación, también llamado r2 , refleja la bondad
del ajuste de un modelo a la variable que pretender explicar.
El coeficiente de determinación (multiplicado por cien) representa el porcentaje de la
variabilidad de Y explicada por los cambios provocados por la variable independiente X.
2
2 Sxy
R = = (rxy )2
Sx Sy
donde, rxy = Coeficiente de correlación de Pearson.
y,
1X 1X
n n
Sxy = (xi − x)(yi − y) = (xi yi ) − x · y
n i=1 n i=1
v !2
u
1u X X
n n
Sx = t n· x2i − xi
n i=1 i=1
v !2
u
1u X X
n n
Sy = t n· yi2 − yi
n i=1 i=1
Propiedades del coeficiente de determinación:
El coeficiente de determinación de la recta de regresión de Y sobre X es el mismo que

el de la recta de regresión de X sobre Y. Es decir, el coeficiente de determinación es
una medida del grado de relación lineal entre las variables.
Coeficiente de determinación es el cuadrado del coeficiente de correlación lineal, es
decir: R2 = (rxy )2
✎ Ejercicio 4
Una empresa ha trabajado hasta ahora con la hipótesis de que las ventas de la empresa
dependen linealmente de la inversión en gastos de publicidad efectuados (miles de euros).
Realiza un análisis durante los últimos 9 años y obtiene un modelo lineal junto al respectivo
coeficiente de correlación:
Yb = 3, 32 + 8, 44 · Xi
rxy = 0, 76
Interprete la bondad de ajuste para aceptar la hipótesis.
5 de 7
✎ Ejercicio 5
En base al porcentaje de puntualidad X, se trata de ver si hay correlación con las quejas
Y , en las lı́neas aéreas. Las quejas son por cada 100000 pasajeros.
Aerolı́nea A B C D E F G
Puntualidad 81,8 76,6 76,6 75,7 73,8 72,2 70,8
Quejas 0,21 0,58 0,85 0,68 0,74 0,93 0,92
a) Realizar gráfico de dispersión del problema e interpretar.

b) Calcular la covarianza de las variables e interpretar.
c) Calcular el coeficiente de correlación e interpretar.
d) Determinar el modelo lineal e interpretar los coeficientes obtenidos.
e) Calcular el coeficiente de determinación e interpretar.
✎ Ejercicio 6
El gerente de personal piensa que quizá exista relación entre el ausentismo laboral y la
edad de los trabajadores. Selecciona una muestra de 10 trabajadores que se han ausentado
y la edad de ellos. Los datos se encuentran en la siguiente tabla:
Trabajador 1 2 3 4 5 6 7 8 9 10
Edad 27 55 37 23 46 58 29 36 60 40
Dı́as Ausentes 15 6 10 18 9 7 14 11 5 8
a) Obtener un modelo lineal que se ajuste a los datos.

b) Interpretar los coeficientes obtenidos.
c) Determinar la medida de bondad de ajuste e interpretar.
✎ Ejercicio 7
Se lleva a cabo un estudio, por medio de detectores radioactivos sobre la capacidad corpo-
ral para absorver hierro y plomo. En el estudio participaron 6 personas y obtuvieron los
siguientes resultados:
Hierro 1.7 2.2 3 4.3 8 6

Plomo 2.1 2 1.8 2.5 4.2 4
a) Obtener un modelo lineal que explique la absorción de plomo en función del hierro.
b) Interpretar los coeficientes obtenidos.
c) Determinar la medida de bondad de ajuste e interpretar.
6 de 7
✎ Ejercicio 8
La energı́a consumida en las máquinas de un proceso depende del tiempo de ajuste que
se les realice. Se desea explicar la energı́a consumida (kW/hr) en función del tiempo de
mantención anual en las máquinas (hr). Se dispone de los siguientes datos:
Ajuste (hr) 11.2 15.7 19 19.5 21.5
Consumo (kW/hr) 5 4 1.8 1 0.8
a) Determine el coeficiente de correlación e interprete.

b) Obtener un modelo lineal que se ajuste a los datos.
c) Interpretar los coeficientes obtenidos.
d) Determinar la medida de bondad de ajuste e interpretar.
✎ Ejercicio 9
Se supone que se puede establecer cierta relación lineal entre las exportaciones de un paı́s
y la producción interna de dicho paı́s. En el caso de España, tenemos los datos anuales
(expresados en miles de millones de pesetas) para tales variables correspondientes al año
1992 en la siguiente tabla:
Producción 52 54 58 61 65
Exportaciones 10 12 15 17 19
a) Calcule el coeficiente de correlación de Pearson e interprete.

b) Determine el modelo lineal.
c) Interpretar los coeficientes obtenidos en el modelo.
d) Determinar el coeficiente de determinación e interpretar.
✎ Ejercicio 10
Se han observado, en varios modelos de automóviles, los datos de potencia del motor (X),
en caballos, y la aceleración (Y), medida en el número de segundos necesarios para acelerar
de 0 a 100 Km./h. La tabla adjunta refleja los valores obtenidos:
Potencia 50 75 90 100 120

Aceleración 15 12 10 11 9
a) Para determinar si es posible obtener un modelo lineal, calcule e interprete el coefi-

ciente de correlación.
b) Determine el modelo lineal, si es posible.
c) Interpretar los coeficientes obtenidos en el modelo.
d) Determinar la medida de bondad de ajuste del modelo e interprete.
7 de 7
,
Guı́a 7
Tema: Regresión Lineal - Inferencia sobre los parámetros
Determinar intervalos de confianza para parámetros poblacionales a través del análisis de
Aplicar test estadı́sticos para la validación de hipótesis de parámetros poblacionales.
del área de la Ingenierı́a y Economı́a.
Introducción
Una vez analizada la relación entre variables X e Y , se procede a la construcción de un mo-
delo lineal que permite predecir o calcular valores esperados para la variable dependiente (Y )
en función de la variable predictora (X).
En la validación del Modelo de Regresón Lineal, es necesario realizar el análisis a los residuos
del modelo, entendiéndose a los residuos, como las diferencias entre los valores reales de la
variable explicada (yi ) y los valores obtenidos mediante el modelo lineal para la misma variable
yi ).
(b
Finalmente, se obtienen los intervalos de confianza destinados a ser una medida de la pre-
cisión de dichas estimaciones y a través de los contrastes de hipótesis, se comprueba que un
determinado valor muestral puede ser el auténtico valor del parámetro.
En esta guı́a se trata la predicción, el análisis de residuos e inferencias sobre los

parámetros del modelo lineal, con la finalidad de validar la elección de la ecuación utilizada
para estudiar la relación lineal entre dos variables.
1 de 9
ANALISIS DE LOS RESIDUOS
Retomando la información analizada con anterioridad, el modelo de regresión lineal simple,

consiste en aproximar los valores de la variable dependiente (Y ) a partir de la variable inde-
pendiente (X), para ello se determina una función lineal de la siguiente forma:
Y =α+β·X +ε
Donde,
Y , es la variable dependiente, explicada, respuesta o predicha.
X, es la variable independiente, explicativa o predictora.
α, es el coeficiente de posición, es el valor que toma Y cuando X = 0.
β, es la pendiente de la recta e indica cómo cambia Y al variar X en una unidad.
ε, es el error, residuo o perturbación aleatoria, que representa a un conjunto de factores no

controlados.
Definición 1
Supuestos de los residuos
Los supuestos de un modelo lineal, se refieren a las condiciones necesarias que deben
cumplirse para otorgar validez a las estimaciones obtenidas al desarrollar un modelo. Ası́,
si se desea darle una aplicación práctica en la predicción del modelo de regresión lineal, es
necesario revisar los supuestos para los residuos:
1. Para cada valor de x, la variable aleatoria ε se distribuye normal.

2. Para cada valor de x, la varianza de ε es constante, V ar(ε/X = x) = σ 2 , llamada
varianza del error.
3. La distribución de ε es normal con media 0 y desviación estandár σ.
4. Los errores asociados a los valores de Y son independientes unos de otros. Los valores
del término de error ε son independientes.
Por lo tanto:
ε ∼ N (0; σ 2 )
Donde,
ε = yi − ybi
La utilidad del análisis residual radica en dos puntos:
1. La exactitud de los pronósticos o predicciones realizadas con el modelo obtenido.
2. La detección de casos atı́picos para perfeccionar la ecuación lineal en su ajuste a la
realidad.
2 de 9
✎ Ejercicio 1
En base al porcentaje de puntualidad X, se sabe que la relación establecida con las quejas
Y , en las lı́neas aéreas, sigue un comportamiento lineal. Las quejas son por cada 100000
pasajeros.
Aerolı́nea A B C D E F G
Puntualidad 81,8 76,6 76,6 75,7 73,8 72,2 70,8
Quejas 0,21 0,58 0,85 0,68 0,74 0,93 0,92
Si se conoce el modelo lineal obtenido:
Ybi = 5, 46 − 0, 06 · Xi
r2 = 0, 8165
a) Calcule las quejas esperadas según el modelo entregado (Ybi ).

b) Obtenga los residuos del modelo de regresión lineal (ε = yi − ybi ).
c) Grafique los residuos en función de la puntualidad.
d) Comente respecto a la independencia de los residuos, mediante la gráfica lograda.
✎ Ejercicio 2
El gerente de personal comprobó que existe relación lineal entre el ausentismo laboral y la
edad de los trabajadores. De la selección de una muestra de 10 trabajadores que se han
ausentado y la edad de ellos, se tienen los siguientes datos:
Trabajador 1 2 3 4 5 6 7 8 9 10
Edad 27 55 37 23 46 58 29 36 60 40
Dı́as Ausentes 15 6 10 18 9 7 14 11 5 8
Además, se sabe que el modelo lineal obtenido es el siguiente:
Ybi = 22, 61 − 0, 2995 · Xi
r2 = 0, 8836
a) Calcule los dı́as de ausencia esperados, según el modelo, para las diferentes edades
dadas (Ybi ).
b) Obtenga los residuos del modelo de regresión lineal (ε = yi − ybi ) y comente respecto
al supuesto E(ε) = 0.
c) Grafique los residuos en función de la edad e interprete respecto al supuesto de inde-
pendencia de ε.
3 de 9
Definición 2
Predicción
Se refiere a la entrega de un pronóstico, un valor esperado que se acerque lo más posible a

la realidad de un fenómeno. La capacidad predictora que se logra mediante la estimación de
un modelo de regresión lineal validado, colabora en el proceso de estimación en situaciones
de incertidumbre.
La variable dependiente, explicada, respuesta o predicha Y es la que se predice mediante

reemplazos en la variable independiente, explicativa o predictora X.
✎ Ejercicio 3
Un analista de una empresa tiene un conjunto de datos de cinco trimestres que muestra el
crecimiento trimestral del producto interno bruto (PIB) en porcentajes (X) y el crecimiento
de la lı́nea de productos nuevos de una compañı́a en porcentajes (Y ). El conjunto de datos
puede verse ası́:
El analista determina que las variables PIB y crecimiento de la lı́nea de producción, siguen
una tendencia lineal con un modelo:
Ybi = 6 + 3, 15 · Xi
r2 = 0, 9106
a) Prediga el crecimiento de la lı́nea de producción para un crecimiento del PIB del 6 %.
b) Si se desea un crecimiento de la lı́nea de producción de un 22 %, ¿Cuánto tendrı́a que
ser el crecimiento del PIB para lograrlo?.
✎ Ejercicio 4
Una empresa comprueba que sus ventas dependen linealmente de la inversión en gastos de
publicidad efectuados (ambas en miles de euros). Realiza un análisis durante los últimos 9
años y el modelo lineal logrado es:
Ybi = 3, 32 + 8, 44 · Xi
rxy = 0, 76
a) Prediga las ventas esperadas para una inversión en publicidad de 4 mil euros.
b) Si se quiere lograr un nivel de ventas de 50 mil euros, ¿Cuánto se tendrı́a que invertir
en publicidad para lograrlo?.
4 de 9
✎ Ejercicio 5
El inventor de un nuevo material aislante determina la magnitud de la compresión (Y )
(MPa) que se producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes
cantidades de presión (X)(MPa), mediante un modelo lineal. Analizó 5 piezas de material
bajo diferentes presiones y el modelo lineal obtenido fue el siguiente:
Ybi = −0, 1 + 0, 7 · Xi
r2 = 0, 8167
a) Prediga la compresión para un nivel de presión de 6 Mpa en el nuevo material aislante.

b) Si se quiere establecer un nivel de compresión de 10 Mpa, ¿Cuánta tendrı́a que ser la
presión aplicada al material?.
✎ Ejercicio 6
dedican diariamente a dormir y ver televisión. Se obtiene el modelo lineal que se ajusta
con los datos:
El modelo lineal obtenido es:
Ybi = 8, 2 − 0, 7 · Xi
r2 = 0, 9423
a) ¿Cuántas horas de TV se esperan ver para alguien que duerme 12 horas?.

b) Si se quieren ver 5 horas de TV, ¿Cuántas horas se deben dormir?.
✎ Ejercicio 7
Se ha determinado un modelo de regresión lineal para varios modelos de automóviles, los
datos de potencia del motor (X), en caballos, y la aceleración (Y), medida en el número de
segundos necesarios para acelerar de 0 a 100 Km/h.
El modelo lineal resultante es:
Ybi = 18, 57 − 0, 08 · Xi
r2 = 0, 8898
a) ¿Cuál es la aceleración para una potencia de 140 caballos?.

b) Si se quiere lograr una aceleración de 14 segundos en pasar de 0 a 100 km/hr, ¿de
cuánta potencia debe ser el auto?.
5 de 9
Definición 3
Hipótesis para el parámetro β
Utilizando contrastes de hipótesis se puede comprobar si un determinado valor muestral

puede ser el auténtico valor del parámetro poblacional.
La hipótesis de prueba son:
H0 : βb = 0
H1 : βb 6= 0
Se define el estadı́stico de prueba:
βb
Tcalc = ∼ t(n−2)
b
s(β)
Donde,
b es la desviación tı́pica del coeficiente βb es:
s(β)
b = sr
s(β) √
sx · n
• sx es la desviación tı́pica de la variable independiente dada por:
v
u n
uX
u (xi − xi )2
u
t i=1
sx =
n−1
• sr es la desviación tı́pica de los residuos dada por:

v v
u n u n
uX uX 2
u (b
yi − yi ) 2 u εbi
u u
t i=1 t i=1
sr = = = CM R
n−2 n−2
La región de rechazo de la hipótesis nula es:
|Tcalc | > t(1− α2 ,n−2)
Decisiones:
• Si no se rechaza la hipótesis nula, se concluye que no hay evidencias de que haya
una relación lineal entre las variables y el modelo, en principio, no es apropiado.
Puede haber una relación lineal en la población pero la muestra elegida no la
detecta.
• Si se rechaza la hipótesis nula, se concluye que el modelo lineal es apropiado. Los
datos son consistentes con un modelo lineal.
6 de 9
Definición 4
Intervalo de confianza para el parámetro β
Hasta ahora sólo se han obtenido estimaciones puntuales de los coeficientes del modelo
de regresión lineal. Utilizando intervalos de confianza se puede obtener una medida de la
precisión de dichas estimaciones respecto al verdadero valor del parámetro.
El intervalo de confianza para el parametro β al 100(1 − α) %:

b sr b sr
P β − tn−2;1− 2 ·
α √ < β < β − tn−2;1− 2 ·
α √ =1−α
sx · n sx · n
La longitud del intervalo disminuirá si:

Aumenta el tamaño de la muestra.
Aumenta la varianza de las xi .
Disminuye la varianza residual.
✎ Ejercicio 8
En base al porcentaje de puntualidad X, se sabe que la relación establecida con las quejas
Y , en las lı́neas aéreas, sigue un comportamiento lineal. Se sabe que, a partir de un muestra
de 7 aerolı́neas, se obtiene:
Ybi = 5, 46 − 0, 06 · Xi
n
X
(xi − x)2 = 77, 88
i=1
n
X
εb2i = 0, 07
i=1
x = 75, 36
a) Plantee la hipótesis para el coeficiente β y concluya al 5 % de significación.

b) Calcule el intervalo de confianza para β e interprete al 95 % de confianza.
7 de 9
✎ Ejercicio 9
El gerente de personal obtuvo el modelo lineal entre el ausentismo laboral Y y la edad de
los trabajadores X. De la selección de una muestra de 10 trabajadores que se han ausentado
y la edad de ellos, se tienen los siguientes resultados para el modelo de regresión lineal:
Ybi = 22, 61 − 0, 2995 · Xi
n
X
(xi − x)2 = 1576, 9
i=1
n
X
εb2i = 18, 64
i=1
x = 41, 1
a) Valide el modelo mediante un contraste de hipótesis para β y concluya al 1 % de

significancia.
✎ Ejercicio 10
Un analista de una empresa desarrolla un modelo lineal con datos de cinco trimestres,
donde muestra el crecimiento trimestral del producto interno bruto (PIB) en porcentajes
(X) y el crecimiento de la lı́nea de productos nuevos de una compañı́a en porcentajes (Y ).
Los resultados son los siguientes:
Ybi = 6 + 3, 15 · Xi
n
X
(xi − x)2 = 5, 2
i=1
n
X
εb2i = 5, 08
i=1
x = 2, 6
a) Contraste la hipótesis para el coeficiente β y concluya al 2 % de significación.

b) Obtenga el intervalo de confianza para β e interprete al 98 % de confianza.
8 de 9
✎ Ejercicio 11
Una empresa comprueba que sus ventas dependen linealmente de la inversión en gastos de
publicidad efectuados (ambas en miles de euros). Realiza un análisis durante los últimos 9
años y el modelo lineal logrado es:
Ybi = 3, 32 + 8, 44 · Xi
b = 0, 701
s(β)
a) Compruebe la hipótesis para el coeficiente β y concluya al 5 % de significancia.

✎ Ejercicio 12
El inventor de un nuevo material aislante determina la magnitud de la compresión (Y )
que se producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes
cantidades de presión (X), mediante un modelo lineal. Analizó 5 piezas de material bajo
diferentes presiones y el modelo lineal obtenido fue el siguiente:
Ybi = −0, 1 + 0, 7 · Xi
n
X
(xi − x)2 = 10
i=1
n
X
εb2i = 1, 1
i=1
a) Plantee la hipótesis para el coeficiente β y concluya al 5 % de significación.

b) Obtenga el intervalo de confianza para β e interprete al 95 % de confianza.
✎ Ejercicio 13
Se ha desarrollado un modelo lineal con una muestra de 5 individuos sobre el número de
horas que dedican diariamente a dormir y ver televisión. El modelo lineal y datos obtenidos
son:
Ybi = 8, 2 − 0, 7 · Xi
sr = 0, 316; sx = 1, 58
a) Contraste la hipótesis para el coeficiente β y concluya al 10 % de significancia.

9 de 9

Guía 2 (6 Files Merged)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guía 2 (6 Files Merged)

Cargado por

Copyright:

Formatos disponibles

Vicerrectorı́a Académica

Instituto de Matemáticas, Fı́sica y Estadı́stica

Estimación por Intervalos

Una estimación por intervalo de un parámetro poblacional θ es un intervalo de la forma

La fracción 1 − α se denomina nivel de confianza, y al valor 100(1 − α) % se le llama nivel

Basándonos en esta fórmula podemos determinar el intervalo de confianza para µ, eli-

P (Z1 < Z < Z2 ) = 1 − α

Supongamos una población N (µ; σ 2 ), en donde µ y σ son desconocidos. Consideremos

que se distribuye según una t − Student con n − 1 grados de libertad, siendo S 2 la

Siguiendo la misma metologı́a del intervalo de confianza anterior, elegimos t1 y t2 , tales

Cuando en una población de interés se está estudiando una caracterı́stica en particular

Si n es suficientemente grande,ppb tiene una distribución aproximadamente normal con

Con el mismo razonamiento que empleamos en la estimación de la media poblacional

P (p1 < pb < p2 ) = 1 − α

y considerando que p0 = Z1−α/2 , se tiene

El problema es que no conocemos el parámetro p, por lo que no conocemos la desviación

El intervalo de confianza para la proporción poblacional para un nivel de confianza

a) ¿Cuál es la estimación de la proporción de personas optimistas?

a) ¿Cuál es la estimación de la proporción de clientes satisfechos?

Supongamos una población normal N (µ; σ 2 ), en donde µ y σ son desconocidos y

A partir del estadı́tico:

Recordando los procesos anteriores en la construcción de intervalos de confianza, con

Teniendo en cuenta la forma de la distribución χ2 , tenemos para k1 y k2 :

despejando σ 2 y ordenando la expresión, se tiene el intervalo de confianza del (1−α)100 %

en donde los valores χ2n−1,1−α/2 y χ2n−1,α/2 , se obtienen de una distribución χ2 con n − 1

Se tiene, ademas el Intervalo de confianza para la Desviación Estándar

93,3; 86,8; 90,4; 90,1; 94,9; 91,6; 92,3; 96,5

2.- El intervalo de confianza al 95 %

2- El intervalo de confianza al 99 % de la concentración media de zinc es (2, 47125; 2, 72875)

3.- El intervalo de confianza al 95 % para el número medio de kilometros es (22735, 8; 24264, 4)

4- El intervalo de confianza al 95 % de la profundidad media de los módulos conectores fabri-

10- a) La esimación de proporción de personas optimistas es 0,35

11- El intervalo de confianza al 95 % de la proporción de pacientes que sufre efectos secundarios

12- a) La esimación de proporción de clientes satisfechos es 0,3

13- El intervalo de confianza al 95 % de la proporción de la población que utliza el comercio

14- El intervalo de confianza al 95 % de la proporción de individuos de la comuna que votarı́a

15- El intervalo de confianza al 95 % para la varianza de la población es (0, 0000263; 0, 0001287)

18- El intervalo de confianza al 95 % para la varianza de la población es (0, 001445; 0, 00533)

19- El intervalo de confianza al 95 % para la desviación estándar de la potenciade las tabletas

El experto determina el tamaño de la muestra representativa de toda una población para

Si conocemos la varianza poblacional σ 2 , con un nivel de confianza del (1 − α) % y un

El intervalo de confianza de 100(1 − α) % para µ1 − µ2 es:

Una hipótesis estadı́stica es una afirmación acerca de los parámetros de la distribución

En cualquier contraste o test de hipótesis tendremos 2 opciones en las que se especificarán

Hipótesis nula H0 : Corresponde a la hipótesis que va a ser probada.

Al terminar el contraste habremos de optar por aceptar H0 (si no tenemos evidencia

Para realizar el contraste de una hipótesis seleccionamos una muestra aleatoria de la

1. Hipótesis nula, es la hipótesis en la que se basa el procedimiento de contraste. Se

Se quiere comprobar que el tiempo promedio de armado por pieza es de 6 minutos. Si µ

Al concluir el contraste de la hipótesis se tomará una de dos decisiones posibles: estar

Ocurre, solo uno a la vez:

Error Tipo I: α = P (error tipo I) = P (rechazarH0 /H0 es verdadera)

Consideremos la hipótesis nula simple, es decir,

Contrastes bilaterales, son aquellos contrastes en los que la hipótesis alternativa

En base al contraste, se define la región crı́tica y la regla de decisión.

Se rechaza H0 si el estadı́stico de prueba definido pertenece a la zona de rechazo (RC).

6.4 4.3 5.7 4.9 6.5 5.9 6.4 5.1

Usando α = 0,05, ¿podrá el fabricante aceptar lo manifestado por los compradores?

3.- El itamaño de la muestra es de 268 ampolletas

4.- El intervalo de confianza al 95 % es (5, 895; 26, 105)

5.- El intervalo de confianza al 99 % es (−559, 39; 1159, 39)

6.- El intervalo de confianza al 90 % es (−94, 45; −67, 55)

6.- El intervalo de confianza al 90 % es (−94, 45; −67, 55)