Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Inferencial-Estadistica Inferencial PDF
Estadistica Inferencial-Estadistica Inferencial PDF
ESTADÌSTICA INFERENCIAL
MÓDULO EN REVISIÓN
DIRECCIÓN DE EDUCACIÓN ABIERTA Y A
DISTANCIA Y VIRTUALIDAD
PROGRAMA A DISTANCIA DE
ADMINITRACION DE EMPRESAS.
ESTADÌSTICA INFERENCIAL
SINCELEJO
2014
TABLA DE CONTENIDO
INTRODUCCIÓN
JUSTIFICACIÓN
PROPÓSITOS DE FORMACIÓN
REFERENTE TEÓRICO
Estimado(a) estudiante:
Mantener una actitud de superación para que con su esfuerzo personal logre
el desarrollo concienzudo de cada una de las actividades propuestas.
Al final del curso el alumno será capaz de utilizar los métodos y modelos
estadísticos apropiados para el tratamiento de la información numérica
fundamental para la toma de decisiones cuando existan condiciones de
incertidumbre, de formular y solucionar problemas propios de las ciencias
administrativas
5. REFERENTE TEÓRICO
Distribución en el
muestreo de la media
muestral
DISTRIBUCIONES
FUNDAMENTALES DE
MUESTREO
Distribución en el
muestreo de una
proporción muestral
Intervalos de confianza
para la media
poblacional
Intervalos de confianza
ESTIMACIONES POR
para la proporciòn
INTERVALOS
poblacional
Intervalos de confianza
para la diferencia de
media de dos
poblaciones
ESTADÍSTICA
INFERENCIAL
Prueba de hipòtesis para
la media poblacional
REGRESIÓN LINEAL
SIMPLE
Verificación de hipótesis
y capacidad explicativa
de una función de
regresión lineal.
7. COMPETECIAS TRANSVERSALES A DESARROLLAR
Para hacer este tipo de afirmaciones las poblaciones suelen ser demasiado
grandes para estudiarlas en su totalidad, por lo tanto se hace necesario elegir una
muestra representativa que tenga un tamaño más manejable, sobre la base de la
información muestral; nuestro objetivo será hacer inferencia acerca de la población
de la que procede la muestra.
PREGUNTA PROBLEMA
COMPETENCIAS ESPECÍFICAS
SABERES
Distribución muestral
Distribución en el muestreo de la media muestral
Distribución en el muestreo de una proporción muestral
DINÁMICA PARA CONSTRUIR EL CONOCIMIENTO
ACTIVIDAD GRUPAL
1 DISTRIBUCIONES MUESTRALES
Quienes toman decisiones lo hacen con solo tomar una muestra.Por ejemplo,
considérese un fabricante que desea saber los tiempos que requieren en promedio
los trabajadores para terminar un trabajo dado, o la cantidad promedio de
combustible necesario para enviar un camión a cierta distancia, o la edad
promedio de quienes utilizan un producto, o la porción de mercado para un
producto, o el porcentaje de unidades defectuosas en un lote de producción o
sobre la proporción de personas que ven un determinado programa de televisión.
En todos estos casos el estadístico está interesado en saber algo sobre una
población estadística. A falta de un censo, el conocimiento deseado sobre
parámetros como la media de la población ( ), la desviación estándar de la
población ( ) o la proporción de una población ( ), sólo se puede adquirir si se
saca una muestra representativa de la población, se calcula los estadísticos como
la media muestral ( X ), la desviación estándar (S) o la proporción muestral (P), y
se hace inferencia sobre los parámetros a partir del ellos. El proceso de inferir los
valores de parámetros desconocidos de una población, a partir del estadístico de
una muestra conocida se denomina estimación.
Para ilustrar el concepto consideremos que de una gran empresa que tiene 300
empleados se desea tomar una muestra, por ejemplo de 25 empleados, y a partir
de esta muestra calcular el salario medio, y la proporción P, de hombres que
laboran en la empresa. Esta media muestral sirve después como estimación de ,
media aritmética del salario de los 300 trabajadores.
Como es posible extraer 300 C 25 1,95 x10 36 muestras diferentes de tamaño 25, para
hacer más didáctico el ejemplo, supóngase que se tiene una población de N=5
empleados cuyo salario y sexo se muestran a continuación:
Alejandro 400 M
Berena 300 F
Carlos 350 M
Sandra 500 F
Eliecer 450 M
Con esta información completa al alcance es fácil calcular las medidas de
resumen de dicha población como es el salario mensual medio ( ), junto con su
Medidas de resumen:
x 2000 400
3
0,6 (Proporción de hombres)
h
N 5 5
2
(x ) 2
5000 ,
N
5000 70,71
5 C3
Como = 400 mil, la probabilidad de elegir al azar una muestra que de una
Es evidente que nunca se podrá calcular el tamaño real del error muestral, puesto
que la media poblacional sigue siendo desconocida, pero hay que ser consciente
de la probabilidad de incurrir en este error.
Con una población de N = 5 se puede listar todas las medias muéstrales posibles,
junto con su probabilidad. Dicha lista se llama DISTRIBUCIÓN MUSTRAL y se
refleja en la tabla 1.3
350 1 1/10
366,667 1 1/10
383,333 2 2/10
400 2 2/10
416,667 2 2/10
433,333 1 1/10
450 1 1/10
Una posible interpretación de la tabla 1.3 es: Si han de seleccionarse, por ejemplo
1.000 muestras aleatorias simples de tamaño n=3, de la población de N = 5,
podría esperarse calcular 100 veces un salario medio de 350 mil pesos o 200
veces un salario medio de 400 mil pesos.
(∑ ̅ )
Esto quiere decir, que la media de las medias muéstrales, conocida como la media
general, es igual a la media poblacional.
∑̅
̿ , K numero de muestras
∑( ̅ ̿)
,Knúmero de muestras.
( ) ( ) ( ) ( )
( ) ( ) ( )
̅
Pesos al cuadrado.
̅ √ ̅
(∑ ) ( ) ( ) ( ) ( )
̅ , ̅
√
Supóngase que se tienen los ingresos de varios millares de estudiantes que dan
una media de 500 mil pesos y que dichos ingresos siguen una distribución normal.
Si se eligen todas las muestras de tamaño n de esa población normal de ingreso
de los estudiantes, la distribución muestral de las medias muéstrales también será
normal.
Como el error típico de la media muestral es ̅ , entonces, ̅
√
Esto quiere decir que las ̅ están menos dispersas que los datos originales.
varianza es: ̅ * +* + ̅ * + [√ ]
√
EJEMPLO 1.1
La oficina del DANE desea estimar el índice de natalidad por 100.000 habitantes
en las 100 localidades más grandes del país. Se sabe que la desviación típica de
los índices de natalidad de estos 100 centros urbanos es de 12 nacimientos por
cada 100.000 habitantes.
SOLUCION:
( )
̅ * +* + * +* + y ̅ * + [√ ]
√
1.5 DISTRIBUCIÓN EN EL MUESTREO DE UNA PROPORCIÓN
MUESTRAL
PROPORCION MUESTRAL
( )
y recibe el nombre de error estándar y está dada por: √
( )
proporciones muestrales queda: √ √
̅
Variable tipificada de la distribución muestral.
̅
EJEMPLO 1.2
La desviación típica de las compras realizadas por los clientes de una tienda
concreta es de 18 dólares. Si se toma una muestra al azar de 100 consumidores.
SOLUCION:
a. ̅
√ √
b. Como la diferencia entre ̅ se establece en ̅ se tiene:
o un área de 0,4973.
Luego: ( ̅ ) ( )
EJEMPLO 1.3
La duración de las bombillas producidas por un cierto fabricante tiene una media
de 1.200 horas y una desviación típica de 400 horas. La población sigue una
distribución normal. Suponga que se han comprado 49 bombillas que pueden ser
consideradas como una muestra aleatoria de la producción del fabricante.
SOLUCIÓN:
a. Como ̿ ̿
b. ̅
c. ̅
√ √
̅
d. Se calcula el valor de Z asì:
̅
La probabilidad pedida es : ( ̅ ) ( )
La probabilidad que una variable aleatoria sea menor que -2,63 según la tabla 1
del apéndice es: 0,5 – 0,4957 = 0,0043, luego la probabilidad de que el tiempo
medio de duración de las 49 bombillas sea menor de 1.050 horas es del 0,43%.
EJEMPLO 1.4
SOLUCIÓN:
a. Como la diferencia entre ̅ se establece en ̅ y además la fracción
̅ √ [√ ]
√ √
Luego: ( ̅ ) ( ( )
Luego: ( ̅ ) ( ) ( )
( ̅ ) ( ) ( )
EJEMPLO 1.5
Una empresa empacadora de cereales asegura que la media del peso que
contienen las cajas de estos cereales es de 200 gramos y sus desviación típica de
6 gramos. La distribución en los pesos es normal. Se eligen 4 cajas que pueden
ser consideradas como una muestra aleatoria del total de la producción.
SOLUCION:
a. ̅
√ √
b. Se calcula el valor de Z:
Luego: (̅ ) ( )
c. Se calcula el valor de Z:
Luego: (̅ ) ( )
( ̅ ) ( ) ( )
EJEMPLO 1.6
El dueño de una tienda de discos ha comprobado que el 20% de los clientes que
entran a su tienda realizan alguna compra. Un día entran a la tienda 180 personas,
que pueden ser considerados como una muestra aleatoria de todos los clientes:
SOLUCION:
a. ( ) ( )
b. La distribución muestral de tiene varianza
( ) ( )
( )
El error muestral de la distribución de es: √ √ =0,0298
c. La variable tipificada es:
EJEMPLO 1.7
SOLUCION:
( )
√
( ) ( )
La probabilidad de que sean defectuosos menos del 10% es del 77%.
EJEMPLO 1.8
SOLUCION:
( )
√
( ) ( )
http://ftp.utalca.cl/profesores/gicaza/Clases/7Distribuciones%20Muestrales.pdf
http://www.geociencias.unam.mx/~ramon/EstInf/Clase4.pdf
http://www.educatina.com/matematicas/probabilidad-y-estadistica/estadistica/poblacion-
estadistica/diferencias-en-la-distribucion-de-medias-muestrales-video
1.5 RESUMEN
( ) ( )
√ y √ √ si
̅
Variable tipificada de la distribución muestral de medias.
̅
7. Una fábrica tiene a 439 obreros contratados. De ellos 239 están preocupados
sobre sus futuras pensiones. Se toma una muestra de 80 obreros y se les
interroga con el fin de estimar la proporción de la población que está
preocupada sobre el futuro de su pensión.
10. El alcalde una ciudad de 950 vecinos piensa que la renta media de éstos es de
por lo menos $625.000, con una desviación típica de $85.900. Si se toma una
muestra aleatoria de 150 personas. ¿Cuál es la probabilidad de la renta media
de estos sea mayor que $640.000?
12. Una compañía farmacéutica sabe que un 5% de todos los usuarios de cierto
medicamento experimentan graves efectos colaterales. Si se examina una
muestra aleatoria simple de 120 usuarios, calcule cuál es la probabilidad de
hallar:
a. Qué no hay efectos colaterales.
b. Entre 5 y 10 casos con efectos colaterales.
c. Más de 10 casos con efectos colaterales.
http://www.educandus.cl/estadistica/ejercicios/bases_teoricas/Distribucion/ResueltosDistribucio
nesMuestrales.pdf
Evaluación
Con base en la información responda las preguntas 1 a 4
30
25
20
15
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
PRESENTACION
Se estudió anteriormente la estimación de un parámetro desconocido de la
población, es decir, el cálculo de un único número que fuera una buena
aproximación para dicho parámetro. En la gran mayoría de los casos prácticos, un
estimador puntual por si solo no es adecuado. Por ejemplo, supongamos que un
control realizado sobre una muestra aleatoria de piezas procedentes de un gran
lote de producción nos lleva a estimar que un 10% de todas las piezas son
defectuosas. Un gerente que se enfrente a este dato posiblemente se hará
preguntas del tipo: ¿puedo estar totalmente seguro de que el verdadero porcentaje
de piezas defectuosas está entre el 5% y el 15%? o ¿es muy posible que entre el
8% y el 12% de las piezas sean defectuosas? Esta clase de preguntas va más
allá de la contenida en una simple estimación puntual; son preguntas que buscan
conocer la fiabilidad de dicho estimador. En otras palabras se trata de la
búsqueda de un estimador por intervalos, un rango de valores entre los que
posiblemente se encuentre la cantidad que se estima.
PREGUNTA PROBLEMA
COMPETENCIAS ESPECÍFICAS
SABERES
Intervalos de confianza
Intervalos de confianza para la media poblacional
Intervalos de confianza para proporciones poblacionales
Intervalos de confianza para la diferencia de media de dos poblaciones
A. x R / x 5 B. x R / x 2
C. x R / 1 x 5 D. x R / 0 x 7
E. x R / 4 x 5 F. x R / x 3
ACTIVIDAD GRUPAL
SABERES Y ACTIVIDADES
2. ESTIMACION POR INTERVALOS
Se puede partir del hecho que cualquier parámetro que se estime es igual al estadístico
que se utilice como estimación puntual más el error muestrale (negativo o positivo).
Para el caso de la media muestral se tiene:
X + e
Si tomamos como ejemplo los datos de la tabla 1.2 y se selecciona la muestra (1), X =
350.000, aquí se manifiesta un error muestral de e = 50.000 por lo tanto
350.000 50.000 400.000
Sin embargo, los límites del intervalo no necesitan estar precisamente en el error
estándar abajo o arriba de la estimación puntual. Al definir un coeficiente C como
cualquier valor positivo de fracción o entorno se puede hacer la afirmación
I.C = Estimación puntual C.(error típico)
EJEMPLO 2.1
SOLUCIÓN:
I .C para X C . X
La tabla 1 del apéndice se puede utilizar para calcular las áreas bajo la curva
normal que se encuentra dentro de los límites así calculados.
tanto X ( Z . ) X (Z. )
X X
a) Si Z = 0.5, se tiene que el área bajo la curva normal estándar entre el centro y
Z = 0.5 es 0,1915, por lo tanto el área entre Z = - 0.5 y Z = 0.5 es igual a
2(0,1915) = 0.383. Debido a que el centro de la distribución muestral se
encuentra en X , se puede tener un 38% de confianza en que nuestro
método de construcción del intervalo producirá un intervalo que en realidad
contiene a .
b) Si Z = 1.0, se tiene que el 68% de todos los valores de X caen dentro del
intervalo de X 1 X . Se puede tener un 68,28 % de confianza en que
EJEMPLO 2.2
SOLUCION:
4 minutos.
n 50 llamadas
X 9,1 minutos
Nivel de confianza 95%
Se tiene una población grande, con conocido, luego:
4
X 0,5657
n 50
Esto quiere decir que con una confianza del 95% se puede afirmar que la
duración media de las llamadas que entran a la central telefónica esta entre 7,99 y
10,21 minutos.
EJEMPLO 2.3
N 75
99
n 36
X 736
Nivel de confianza 99,8
N n
X
n N 1
Luego
99 75 36
X 11,98
36 75 1
699,1 772,9
Lo cual indica que la inversión media de los empleados de la firma en estudio está
comprendida entre 699,1 y 772,9 dólares.
EJEMPLO 2.4
En una ciudad donde hay 200 gasolineras, un economista toma una muestra
aleatoria de 50 de ellas, cuyo precio promedio de gasolina es de 5.839 pesos por
galón, con una desviación estándar muestral de 68 pesos por galón. Determine e
interprete un intervalo de confianza del 80% para el precio promedio en la ciudad,
si se supone que la distribución poblacional es normal.
SOLUCION:
N = 200 gasolineras
n= 50
S = 68
Se tiene una muestra grande, con una fracción de muestreo n/N mayor del 10%,
luego se hace necesario aplicar el factor de corrección. es desconocido.
S N n 68 200 50
X . 8,35
n N 1 50 200 1
I .C para X Z .S X
I .C para 5839 (1,28) ( 8,35)
Luego
I .C para 5839 10,688
5828,31 5849,69
Esto nos indica que el precio promedio de la gasolina por galón en la ciudad esta
entre 5828,31 y 5849,69 pesos.
2.4 INTERVALOS DE CONFIANZA PARA LA MEDIA
POBLACIONALMUESTRAS PEQUEÑAS.
Cuando se toma una muestra pequeña (n< 30) la distribución normal puede ser
inadecuada. Es decir, cuando la muestra es pequeña y es desconocida, no se
deberá aplicar la distribución Z. En este caso de muestras pequeñas, los errores
estándar de la media y la proporción X y P se estiman solo en forma
deficiente con la ayuda de desviaciones estándar muéstrales, S y Px
Como primero lo demostró William S Gosset, cervecero inglés, que escribía bajo el
seudónimo de “student” (estudiante), en las circunstancias especificadas, se
puede derivar mejores estimaciones de intervalos si se usa una función de
densidad de probabilidad algo diferente de la curva normal.
Gosset, describió una distribución muestral para una variable aleatoria, t, derivada
de una población normalmente distribuida y definida en analogía a la desviación
normal estándar Z. Esto se ilustra en la figura 2.1
FIGURA 2.1 Comparación de la distribución Z y la distribución t
n 1
2
n 3
Esta varianza de t implica que existe una distribución t diferente para cada tamaño
muestral n, y también que la distribución t se aproxima a la distribución Z a
medida que aumenta el tamaño muestral. La distribución t para n = tiene una
varianza igual a uno (1) y es indistinguible de la normal (véase figura 2.2).
Debido a la simetría de la curva 0.1 del área bajo esta curva también esta
asociada con t < - 1,372. En consecuencia, 0.8 del área bajo la curva esta
asociada con valores de t entre –1,372 y 1,372; la probabilidad para dicho
valor t es igual a 0.8 . Para construir una estimación de intervalos con un nivel de
confianza de 0.8, o sea del 80% se debe usar t = 1,372. Luego los intervalos de
confianza se pueden construir con ayuda de los valores t de la tabla 2 del
apéndice así:
EJEMPLO 2.5
16 10 21 22 8 17 19 14 19
X 16,22
S X 4,79
4,79
SX 1,5967 con t 0.10, 8 1,860
9
Con un nivel de confianza del 90% se estima que,en promedio, los vehículos de la
empresa se encuentran fuera de servicio entre 13 y 19 días.
EJEMPLO 2.6
SOLUCION:
S
I .C para X t
n
8.5
I .C para 106 (1,729)
20
I .C para 106 3,29
así 102,71 109,29
Px (1 Px ) Px (1 Px )
Es decir Px Z Px Z , donde la variable Z se
2 n 2 n
distribuye normalmente.”1
EJEMPLO 2.7
En una encuesta a 673 grandes almacenes, 521 declaraban tener problemas con
los robos de los empleados ¿se puede llegar a la conclusión, con una confianza
del 99% de que estos datos indican que el 78% de todas las tiendas tiene
dificultades similares?
1
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p253
SOLUCION:
I .C para Px Z S P ; SP
0,774 0,226
673
I .C para P 0,774 (2,58) (0,016)
I .C para P 0,774 0,0412
0,732 P 0,815
Con una confianza del 99% se puede concluir que el 78% de todas las tiendas
tienen problemas con los robos de los empleados.
EJEMPLO 2.8
SOLUCION:
12
Px 0,1519
79
SP
0,1519 0,8481 0,040
79
I .C para Px Z . S P
I .C para 0,15189 2,580,040
I .C para 0,15189 0,1042
0,05 0,26
Esto quiere decir que la proporción de clientes que pagan con tarjeta de crédito
esta entre el 5% y el26%.
EJEMPLO 2.9
En una compañía de autobuses, cada mes, miles de sus autobuses llegan a cierta
terminal. Con ayuda de una muestra aleatoria de 49 autobuses, sin
remplazamiento, ha de construirse un intervalo de confianza del 99,9% para la
proporción de todos los que llegan a tiempo. La proporción muestral de llegada
exacta es de 0,64.
SOLUCION:
SP
0,640,36 0,0686
49
I .C para Px Z S P
Luego: I .C para 0,64 3,27 0,0686
0,42 0,86
Con un confianza del 99.9% se puede afirmar que el porcentaje de autobuses que
llegan a tiempo a la terminal está entre 42% y 86%
http://www.slideshare.net/yohanabonillagutierrez/taller-intervalos-de-confianza
http://www.iesxunqueira1.com/Download/pdf/teointervalos.pdf
Resumen
INTERVALO DE CONFIANZA: Si de una población dada se toman repetidamente
muestras aleatorias de tamaño n, se encontraran muchos valores diferentes de un
estadístico muestral dado. Si a este valor se suma y se resta una cierta cantidad,
el estadístico muestral se convierte en un rango de valores entre los que
presumiblemente se puede encontrar el parámetro poblacional desconocido. A
este rango de valores se le llama intervalo de confianza.
S X
I .C para X (t ) (S X ) , Donde S X , t
n S
n
Para la construcción del intervalo de confianza para la proporción poblacional se
utiliza la proporción muestralPx como estimador del error y se tiene
Px (1 Px ) N n
SP . Utilizando el factor de corrección . cuando sea
n N 1
requerido.
Px (1 Px ) Px (1 Px )
Es decir Px Z Px Z , donde la variable Z se
2 n 2 n
distribuye normalmente.”2
2
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p253
Taller 2
1. Una muestra de 155 usuarios del tren suburbano emplean en este medio de
transporte una hora y 37 minutos en promedio, con una desviación típica de
42 minutos. ¿Cuál es el intervalo del 90% para el tiempo medio de todos los
usuarios?
Z
2
13. “In a simple random sample of 500 employees, 160 preferred to take training
classes in the morning rather than in the afternoon. Construct a 95% C.I. on the
true proportion of employees who favor morning training classes
14. Human beings vary in the time it takes them to respond to driving hazards. In
one experiment in which 100 healthy adults between age 21 and 30 years were
subjected to a certain driving hazard, and the sample variance of the observed
times it took them to respond was 0.0196 second squared. Assuming that the
times to respond are normally distributed, estimate the variability in the time
response of the given age group using a 95% C.I
15. Suppose you want to estimate the average weight of chickens in a laboratory.
You like to be 95% certain that the error is at most 0.1lbs. How many chickens
you should include in your sample?
3
Mohammed A. Shayib, Applied Statistics, bookboon.com, 2013 p129,133,135, 154
Evaluación
Con base en la información responda las preguntas 1 y 2
“La calificación que obtienen los vendedores de una firma comercial en una
prueba de aptitud, sigue una distribución normal. Se extrae una muestra de 25
25
calificaciones que dan lugar a los siguientes estadísticos: x i 1
i 1.508
25
x
i 1
2
i 95.628 ”4
(1508) 2 (1508) 2
95.628 95.628
C. 25 D. 25
25 24
4
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p52
2. Un intervalo de confianza del 90% para la media tendrá:
5
HILDEBRAND Y OTT. Estadística aplicada a la administración y a la Economía. U.S.A, Addison – Wesley
Iberoamericana 1997, p307.
PRESENTACION
PREGUNTA PROBLEMA
COMPETENCIAS ESPECÍFICAS
6
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p281
1. Formula y contrastar hipótesis para la media poblacional, para situaciones
específicas de la empresa.
2. Formula y contrasta hipótesis para una proporción poblacional.
3. Identifica cuando una hipótesis es unilateral o bilateral.
4. Formular y contrastar hipótesis para la diferencia de medias dos poblaciones.
SABERES
ACTIVIDAD GRUPAL
2. Indique los criterios que se deben tener en cuenta para aplicar una prueba t
o una prueba Z.
3. Indique los criterios que se deben tener en cuenta para determinar si una
prueba de hipótesis es bilateral o unilateral.
3. CONTRASTE DE HIPOTESIS
“Una hipótesis, nula o alternativa, puede designar un único valor, llamado 0 , para
H 0 : 0
Que se lee “La hipótesis nula es que el parámetro poblacional es igual al valor
específico 0 ”7. La hipótesis alternativa es H A : 0 .
7
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p282
La situación descrita en (1) es un ejemplo de este tipo, aquí el fabricante afirma
que la duración promedio de las baterías tipo A que él fabrica es de 150 horas.
H0 : 150
H A : 150
H 0 : 0 ,
especifica mente
H 0 : 500 gr
H A : 500 gr
8
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p282
Si en cambio el fabricante asegura que las bolsas de detergentes contienen una
media de más de 500 gramos, entonces el sistema queda así:
H 0 : 500
H A : 500
H 0 : 0
En el sistema: , la hipótesis nula dice que el parámetro es mayor o
H A : 0
igual que un valor específico, en tanto que en la alternativa dice que es menor que
ese valor, este sistema de hipótesis se plantea cuando algo puede ser con
seguridad mayor que un cierto valor, pero donde valores menores serían
inaceptables. Por ejemplo, si de una batería se garantiza que tendría una duración
de 100 horas, nadie se preocupará si dura más; pero la alternativa de que dure
menos podría ser verdad y exigiría una acción correctiva rápida.
H 0 : 0
En el sistema , la hipótesis nula dice que el parámetro es menor o
H A : 0
igual que un valor específico, en tanto que la alternativa dice que es mayor que
ese valor. La hipótesis alternativa sugiere que el promedio es mayor que 0 . Este
tipo de hipótesis se establece cuando algo puede ser con seguridad menor o igual
que un cierto valor, pero donde valores mayores serían inaceptables, por ejemplo,
si se considera la hipótesis nula “el tiempo promedio de entrega de una compañía
de transporte es igual o menor que tres días”, nadie se quejaría si es menor, pero
si es mayor sería causa de alarma.
El sistema de hipótesis sobre el valor de una media poblacional , se indica por lo
general en una de estas tres formas con referencia a un valor específico 0 .
H 0 : 0 H 0 : 0 H 0 : 0
H A : 0 H A : 0 H A : 0
H 0 : A B H 0 : A B H 0 : A B
H A : A B H A : A B H A : A B
Por lo tanto, la hipótesis nula puede decir, forma 1, que dos medias poblacionales
son las mismas, por ejemplo, que la duración promedio de dos tipos de llantas son
idénticas. O puede decir forma 2, que una media poblacional es mayor o igual que
otra, por ejemplo que los sueldos promedios de la industria de la construcción en
Bogotá son al menos iguales pero posiblemente mayores que los de Barranquilla.
O puede decir forma 3, que una media poblacional es menor o igual que otra, por
ejemplo que la producción promedio de la fábrica A es al menos igual o
posiblemente menor que la producción en la fábrica B.
Las hipótesis sobre una proporción de la población , tal como la proporción de
unidades defectuosas producidas en un proceso, se formulan de una manera
análoga a aquellas sobre una media poblacional, simplemente se sustituye
por , dejando todo lo demás sin cambios, incluyendo las hipótesis sobre la
diferencia entre las proporciones de la población.
Cada estadístico muestral tiene una distribución muestral propia que puede
aproximarse muchas veces por la distribución normal para muestras grandes, o
por una distribución t de student para muestras pequeñas. Es así como el
estadístico de prueba se puede convertir en un valor Z o un valor t al dividir la
diferencia entre el estadístico muestral y el valor extremo del parámetro
poblacional postulado en la hipótesis nula entre el error estándar del estadístico
muestral.
x 0
Z Para una media poblacional Muestras grandes
X
X 0
t Para una media poblacional Muestras pequeñas
SX
Px
Z Para una proporción de la población
P
Si el valor obtenido para X se sitúa más allá de esos valores críticos en una u
otra cola, se rechaza la hipótesis nula de que = 150. Estos valores críticos se
determinan con la siguiente formula
Donde:
S S N n
SX ó SX Error típico de la distribución muestral.
n n N 1
Son muchos los casos en que interesa contrastar una hipótesis en relación con el
valor de una media poblacional, entre los cuales se pueden citar:
EJEMPLO 3.1
SOLUCIÓN:
H 0 : 50
H A : 50
Se trata de una prueba bilateral, puesto que la hipótesis nula puede ser rechazada
si los resultados de la muestra están muy por encima o por debajo de 50. Aparece
una región de rechazo en cada una de las colas de la distribución.
5,7
Además: X 0,465
n 150
Luego: X C H Z X
X C 50 1,96(0,465)
X C 50 0,911
49,1 - - - - - - - - - 50.91
FIGURA 3.2
Fase 4: Conclusión
EJEMPLO 3.2
Una compañía láctea utiliza una máquina para llenar sus latas de kumis de 18
onzas. Si la máquina funciona mal, tiene que ser ajustada. Se elige una muestra
de 50 latas, que dan una media de 18,9 onzas, con una desviación típica de 4,7
onzas. Si se admite un error del 5%. ¿Deberá reajustarse la máquina?
SOLUCION:
H 0 : 18
H A : 18
Nuevamente se trata de una prueba bilateral dado que la hipótesis nula puede ser
rechazada si los resultados de la muestra están muy por encima o por debajo de
18 onzas.
S 4,7
SX 0,665
n 50
X C H ZS X
X C 18 (1,96) (0,665)
X C 18 1,3
16,7 - - - - - - - 19,3
menor que 16,7 o mayor que 19,3; esto se ilustra en la figura 3.3.
FIGURA 3.3
Fase 4: Conclusión
EJEMPLO 3.3
El problema plantea que los agentes deben imponer una media de 27 multas, ni
más ni menos, entonces el sistema de hipótesis se establece así:
H 0 : 27
H A : 27
Se trata de una prueba bilateral, dado que la hipótesis nula puede ser rechazada,
si los resultados de la muestra están muy por encima o por debajo de 27. Como
sólo se dispone de datos originales, se hace necesario determinar la media y la
desviación típica muestral. Los cálculos indican que:
X 29,27
S 4,3
S 4,3
SX 1,11
n 15
X C H t S X
Así: X C 27 (2,145) (1,11)
X C 27 2,38
24,62 --------------29,38
No rechazar la hipótesis nula si la media muestral está entre 24,62 y 29,38 multas.
Rechazar la hipótesis nula si la media muestral es inferior a 24,62 o superior a
29,38.Ver figura 3.4
FIGURA 3.4
OBSERVACIONES
EJEMPLO 3.4
SOLUCIÓN:
0,06
X 0,02
n 9
H0 : 2
HA : 2
X C H Z X
X C 2 (1,96) ( 0,02)
X C 2 0,0392
Como X = 1,95 < 1,96 se rechaza la hipótesis nula y por lo tanto se concluye que
la media poblacional no es de dos centímetros y que el taladro no funciona
correctamente.
Sistema 2 Sistema 3
H 0 : 0 H 0 : 0
H A : 0 H A : 0
Otra explicación de por qué la hipótesis nula debe contener el signo igual se basa
en que lo que se contrasta es la hipótesis nula, no la alternativa; además se
contrasta a un nivel de significancia concreto, no se puede contrastar la
afirmación ambigua H a un nivel de significancia especifico, por ejemplo
EJEMPLO 3.5
Supóngase que en el ejemplo 3.2 la compañía láctea afirma que las latas de
kumis contienen una media de más de 18 onzas, Si se interpreta correctamente,
ello significa que 18 , como ésta desigualdad no contiene el signo igual, ha de
ser la hipótesis alternativa; mientras que la hipótesis nula será 18 . Luego el
sistema de hipótesis se puede formular así:
H0 : 18
H A : 18
Pero si la compañía láctea hubiera afirmado que las latas de kumis contienen una
media de 18 onzas o más, la interpretación correcta sería 18 , como esta
desigualdad contiene el signo igual se convierte en la hipótesis nula y el sistema
de hipótesis pasaría a ser:
H 0 : 18
H A : 18
H 0 : 18
HA : 18
Escrita de esta forma, la hipótesis nula no permite utilizar valores pequeños para
la media. Establece claramente que la media es igual o menor que 18 onzas. Los
valores menores que 18, apoyarán y no refutarán la hipótesis nula. Los resultados
a la izquierda de 18 confirmarán la hipótesis nula de que es igual o menor que
18. Así pues, son sólo valores superiores a 18 los que dan lugar al rechazo de la
hipótesis nula. Por lo tanto, la región de rechazo se encuentra en el extremo
derecho o superior de la distribución. Esta prueba de cola a la derecha se ilustra
en la figura 3.6.
FIGURA 3.6
El valor crítico de la media muestral que marca una diferencia significativa con
hipotética limita la región de rechazo en la cola derecha. La fórmula de este valor
crítico en una prueba de cola a la derecha es:
H0 : 18
HA : 18
El valor crítico de la media muestral que marca una diferencia significativa con la
hipotética, limita la región de rechazo en la cola izquierda. La fórmula de este
valor crítico es:
OBSERVACIONES
Es bueno recordar que para rechazar una prueba unilateral se deben tener en
cuenta las siguientes recomendaciones:
EJEMPLO 3.6
Un concesionario de autos afirma que los propietarios de sus coches usados
pueden recorrer una media de 10.000 millas como mínimo sin necesidad de
ninguna reparación. Con objeto de determinar el grado de honestidad del gerente
se eligen 100 clientes y se halla que recorrieron una media de 9.112 millas sin
reparación, con una desviación estándar de 207 millas. Se quiere estar seguro al
99% de que el gerente no miente. ¿Cómo podría contrastar su afirmación?
SOLUCIÓN
H 0 : 10.000
H A : 10.000
X C H Z S X ; H 10.000
S 207
SX 20,7
n 100
FIGURA 3.8
EJEMPLO 3.7
SOLUCIÓN:
Más de 10.000 millas por término medio se pueden expresar con la siguiente
desigualdad 10.000 que representa la hipótesis alternativa, el sistema de
hipótesis es entonces:
H 0 : 10.000
H A : 10.000
Luego: X C H Z S X
FIGURA 3.9
EJEMPLO 3.8
4
x 1
n 16
H 0 : 200
H A : 200
X C H Z X
X C 200 (1,28) (1)
X C 200 1,28
X C 198,72
FIGURA 3.10
Como 198,4 es menor que 198,6 se rechaza la hipótesis nula de que 200 y en
consecuencia se puede decir que el fabricante no tiene la razón.
EJEMPLO 3.9
Una compañía que recibe cargamento de pilas tiene como política aceptar el envío
si el tiempo medio de vida de las pilas del cargamento es como mínimo de 50
horas. Para un cargamento en particular, el tiempo medio de vida en una muestra
aleatoria de 9 pilas fue de 48,2 horas con una desviación típica de 3 horas, si se
considera un nivel de significancia del 5% qué se podría decir de la aceptación de
este lote.
SOLUCIÓN:
La hipótesis alternativa indica que es una prueba de cola a la izquierda por lo que
el valor crítico se calcula con el uso de la fórmula: X C H t S X
S 3
Ademas, SX 1
n 9
X C 50 (1,86) (1)
Así : X C 50 1,86
XC 48,14
Como X = 48,2 es mayor que 48,14 no se rechaza la hipótesis nula. Esto nos
indica que no hay suficiente evidencia para rechazar el envío. Ver FIGURA 3.11
FIGURA 3.11
EJEMPLO 3.10
SOLUCION:
H 0 : 30
H A : 30
FIGURA 3.12
Como X = 32,1 es mayor que 31,06, lo probable es que sea mayor que 30 y
se rechaza la hipótesis nula de 30 . La empresa deberá tomar medidas para
reducir el peso de sus expediciones y evitar costos de envíos excesivos.
EJEMPLO 3.11
ApexCompany supone que el 15% de las mercancías que producen por un nuevo
método son defectuosas. En una muestra de 132 unidades hay 22 defectuosas.
Con un nivel de significancia del 10% ¿Qué se puede decir de la suposición de
ApexCompany?
SOLUCION:
H 0 : 0.15
El sistema de hipótesis es:
H A : 0.15
(0,15) ( 0.85)
P 0,031
132
PC H Z P
PC 0,15 (0,031) (1,65)
PC 0,15 0,05
PC 0,1 0.2
22
Px 0,17
132
Como Px = 0,17 está entre 0,10 Y 0,20, no se rechaza la hipótesis nula. Puede
decirse entonces que efectivamente el 15% de las mercancías producidas por la
compañía son defectuosas.
EJEMPLO 3.12
SOLUCION:
14
0.07 Px 0.26 n 54 PH 0,30
54
H ( 1 H ) (0,30 ) ( 0,70)
P 0,062
n 54
El 30% como mínimo se puede expresar como 0.30 que es la hipótesis nula,
luego el sistema a contrastar es:
H 0 : 0,30
H A : 0.30
PC : H Z P
Como 0.26 > 0.21 no se rechaza la hipótesis nula, esto nos indica que puede
fundar su propia empresa.
EJEMPLO 3.13
SOLUCION:
H 0 : 0.10
H A : 0.10
La hipótesis alternativa indica que es una prueba de cola a la derecha, por tanto el
valor crítico se calcula con la expresión PC H Z P
36
H 0.10 0.04 Px 0,12
300
H ( 1 H ) (0.10) (0.9)
P 0.017
n 300
El valor de Z para 4%, (0.5 - 0.04 = 0.46) según la tabla 1 del apéndice es igual
a 1,75, Así:
Como 0,12 < 0,13 no se rechaza la hipótesis nula, esto nos indica que no se ha
cumplido con lo encomendado.
Hasta ahora se han manejado situaciones en las que interviene una sola
muestra. “Examinaremos ahora el caso en que se dispone de muestras aleatorias
de dos poblaciones, y en el que el parámetro de interés consiste en la diferencia
entre las dos medias poblacionales. En los procedimientos que se desarrollaran
para contrastar este tipo hipótesis, la metodología adecuada depende de la
manera en la que se tomaron las muestras”9, es así como se necesita considerar
separadamente los casos de los pares asociados y las muestras independientes.
9
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p308
Se entiende por muestra pareada, llamada también de pares coincidentes, un
procedimiento en el cual se hace coincidir varias parejas de observaciones con la
mayor exactitud posible en las características de interés. Los dos conjuntos de
observaciones sólo difieren en un aspecto o tratamiento, cualquier diferencia
posterior de los dos grupos se atribuye a ese tratamiento.
da
d i
Media de las diferencias en observaciones pareadas.
n
d
2
2
nd a
S
2 i
Varianza de las diferencias en observaciones pareadas
n 1
d
Sd
dC t Diferencia crítica en la media de observaciones pareadas.
n
EJEMPLO 3.14
Una corporación ofrece cursos de preparación a los estudiantes para superar
exámenes. Como parte de un experimento para evaluar la eficiencia del curso, se
elige doce estudiantes y se dividen en 6 parejas, de manera que los dos miembros
de cada pareja tengan similares expedientes académicos. Antes de realizar el
examen, se elige aleatoriamente un miembro de cada pareja para asistir al curso
de preparación. La siguiente tabla muestra las puntuaciones conseguidas en el
examen.
1 82 75
2 73 71
3 59 52
4 48 46
5 69 70
6 93 83
Asumiendo que las diferencias en las puntuaciones sigue una distribución normal,
contrastar al nivel de significancia del 5% que la media de los puntajes es mayor
para los estudiantes que asisten al curso de preparación.
SOLUCION:
Sea
“La media es mayor para los estudiantes que asisten al curso de preparación” se
puede escribir como A B . Cómo esta desigualdad no contiene el signo igual,
se convierte en la hipótesis alternativa. El sistema a contrastar es:
H0 : A B
Que corresponde a una prueba unilateral a la derecha.
H A : A B
Sd
El valor crítico se obtiene con el uso de la fórmula dC t
n
1 82 75 7 49
2 73 71 2 4
3 59 52 7 49
4 48 46 2 4
5 69 70 -1 1
6 93 83 10 100
SUMATORIA 27 207
da d i
27
4,5
n 6
d
2
nd a 2
207 6 ( 4,5) 2 85,5
S
2
i
17,1
n 1
d
5 5
Sd 17,1 4,13
t0.05 ; 5 2,015
Sd
dc t
n
4,13
d C 2,015
6
d C 3,4
FIGURA 3.14
Fase 4: Conclusión
X XB
Es el error típico de la diferencia entre las dos medias muestrales.
A
A2 B2
X XB
Error típico de la diferencia entre dos medias muestrales.
A
nA nB
Para llevar a cabo la prueba se compara la diferencia real entre las medias
muéstrales, da X A X B con la diferencia crítica dC
EJEMPLO 3.15
SOLUCIÓN:
H 0 : A E
H A : A E
dC Z X A X E
X
A2
E2
517 2 4852 44,06
XE
A
nA nE 230 302
Regla de decisión:
EJEMPLO 3.16
Una empresa fabricante de camisas para hombres tiene dudas sobre el tiempo
medio necesario para fabricar sus dos modelos: clásico e informal. El jefe de
producción afirma que lleva más tiempo producir las camisas clásicas que fabricar
las informales. Los datos de producción indican que para fabricar 90 camisas
clásicas se requirió una media de 140,2 horas con una desviación típica de 22,7
horas, mientras que para fabricar 110 camisas informales se tardó una media de
131,7 horas con una desviación típica de 23,9 horas. Si el jefe de producción tiene
razón, abandonarán la producción de las camisas clásicas. ¿Se deberá hacer un
cambio en la línea de producción?
SOLUCION:
Como las varianzas poblacionales son desconocidas, se utilizan las varianzas
muéstrales como estimaciones y el error típico de la diferencia entre medias
muéstrales se estimará por la fórmula:
SC2 S I2
SX C XI
nC nI
Como el jefe de producción afirma que lleva más tiempo producir las camisas
clásicas C , que las informales I , se puede escribir C I , y como esta
desigualdad no contiene el signo igual se toma como hipótesis alternativa y el
sistema es:
H 0 : C I
H A : C I
(22,7)2 (23,9) 2
SXC X I 3,30
90 110
http://www.youtube.com/watch?v=AJcy4eZMwWM
http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html
http://www.virtual.unal.edu.co/cursos/ciencias/2001091/html/un6/cont_601_54.html
Resumen
El contraste de hipótesis, es un procedimiento que puede emplearse para
verificar, con base en la información muestral, la validez de una conjetura o
hipótesis, que se haya formulado sobre la población.
H 0 : 0 H 0 : 0 H 0 : 0
H A : 0 H A : 0 H A : 0
X 0
Z Para una media poblacional Muestras grandes
X
X 0
t Para una media poblacional Muestras pequeñas
SX
Px 0
Z Para una proporción de la población
P
X C H t S X
PC H Z P
Para pruebas unilaterales
X C H Z S X
XC H Z X
X C H t S X
X C H t S X
PC H Z P
PC H Z P
Taller 3
1. Un fabricante ha estado recibiendo quejas de sus clientes por que los pedidos
llegan 12 o más días después de haber sido enviados. El fabricante selecciona
al azar 25 de los pedidos de la semana siguiente y los envía de una manera
diferente. Un estadístico ha de probar si el nuevo procedimiento es mejor, a un
nivel de significancia de = 0.05. El tiempo medio de entrega en la muestra
resulta de X =10, con una desviación estándar muestral de s = 3 días. Haga la
prueba.
HOMBRE MUJER
1 1524 1586
2 1472 1540
3 1568 1566
4 1586 1590
5 1434 1486
6 1446 1596
7 1572 1608
8 1524 1588
10
Mohammed A. Shayib, Applied Statistics, bookboon.com, 2013, 172
Evaluación
1. Un fabricante de detergente afirma que el contenido medio de los paquetes
que vende es de al menos 200 gramos. Se sabe que la distribución de los
pesos es normal, con desviación típica de cuatro gramos. Una muestra de
16 paquetes da una media de 198,4 gramos. Para realizar el contraste de
hipótesis, al nivel del10%, el sistema requerido es:
H 0 : 200 H 0 : 200
A. B.
H A : 200 H A : 200
H 0 : 200 H 0 : 200
C. D.
H A : 200 H A : 200
A. 12.5 B. 50
C. 0,25 D. 1
H 0 : 0,25 H 0 : 25
C. D.
H A : 0,25 H A : 25
A.0,240 B. 0,024
C. 0,283 D. 0,239
H 0 : 200
5. En un contraste de hipótesis cuyo sistema a contrastar es y
H A : 200
__
se ha obtenido una media X y punto crítico X c , se rechaza la hipótesis
nula si:
__ __ __
A. X X c B. X cInf X X cSup
__ __
C. X X c D. X X c
http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un6/cont_08_69.html
PRESENTACION
PREGUNTA PROBLEMA
COMPETENCIAS ESPECÍFICAS
A. 2 x 3 y 2 xy 1 B. 2x 3 y 2 y 2
C. 3x 2 y 3 4 x D. x 3 y 5
A. 0,5 B. 1,5
C. -0,5 D. -1,5
ACTIVIDA GRUPAL
Se comenzará por la forma más simple de regresión, que es la relación lineal entre
dos variables.
EJEMPLO 4.2
EJEMPLO 4.3
1 X1 Y1
2 X2 Y2
. . .
. . .
. . .
i Xi Yi
. . .
. . .
. . .
n Xn Yn
Si el precio y la cantidad demandada son variables independientes, se moverán
una al margen de la otra. En este caso, la representación en un sistema de
coordenadas de los pares de la tabla anterior generaría una nube de puntos como
las de la figura 4.1.
4. 2 TERMINOLOGIA Y NOTACIÓN
Ingreso familiar 80 100 120 140 160 180 200 220 240 260
Total 325 462 445 707 678 750 685 1043 966 1211
Para un ingreso semanal de 100 mil pesos, hay 6 familias cuyos gastos de
consumo semanales están entre 65 mil y 88 mil pesos. Es decir, cada columna
muestra la distribución de los gastos de consumo Y correspondiente a un nivel fijo
de Ingreso X, esto es, muestra la distribución condicional de Y dado valores de X.
E (Y/X= 120) = (1/5) (79) + (1/5) (84) + (1/5)(90) + (1/5) (94) + (1/5) (98) = 89.
En la última fila de la tabla 4.2 se muestran los demás valores esperados para Y
dado Xi respectivos.
De aquí se puede concluir que cada media condicional E (Y/Xi) está en función de
Xi. Simbólicamente:
E(Y/Xi) = (4.2)
Como se aprecia en la figura 4.3 a medida que el ingreso familiar aumenta, los
gastos de consumo familiar en promedio también aumentan. Pero si observamos
la tabla 4.2 se deduce que no necesariamente aumentan con el nivel de ingreso.
Por ejemplo: para un nivel de ingreso de $100.000 existe una familia cuyos gastos
de consumo de $65.000 son menores que el gasto de consumo de dos familias
cuyo ingreso semanal es solo de $80.000.
Sin embargo los gastos de consumo promedio de las familias con ingresos
semanales de $100.000 son superiores que los de familia con ingresos semanales
de $80.000; $77.000 y $65.000 mil respectivamente.
De este análisis se concluye que para un nivel de ingreso dado Xi, los gastos de
consumo de una familia se concentran alrededor del consumo promedio de todas
las familias para ese mismo Xi, esto es, alrededor de su esperanza condicional.
Por consiguiente, se puede expresar la desviación de un Yi individual alrededor de
su valor esperado así:
(4.3)
Yi = E( Y/Xi) + i
(4.4)
= E (Y / Xi ) + E ( i / Xi)
En otras palabras, el supuesto de que la línea de regresión pasa por los medios
E ( Y/ Xi ) = 1 2 Xi es equivalente a :
Yi = 1 2 Xi i si E(Yi / Xi) 0
Y X Y X
70 80 55 80
65 100 88 100
90 120 90 120
95 140 80 140
110 160 118 160
115 180 120 180
120 200 145 200
140 220 135 220
155 240 145 240
150 260 175 260
Para minimizar, e 2
i respecto a 1 y 2 se tiene:
e 2 i
1
2 Yi ˆ 1 ˆ2 X i 0
ei2
2 Xi(Yi ˆ1 ˆ2 Xi) 0
2
Yi ˆ ˆ Xi 0
1 2 (1)
Xi Yi ˆ ˆ Xi 0
Luego:
1 2 (2)
Yi
i 1
ˆ1
i 1
ˆ Xi , entonces , Yi n ˆ
i 1
2 1 ˆ2 Xi (1)
XiYi
i 1
ˆ1 Xi ˆ2 X i
2
(2)
ˆ1
Yi 2 X i (*)
n
2 Xi
Xi Yi
2
XiYi
n
n
2 X i2
Xi Yi Xi 2
XiYi
n
ˆ2 X i2
n
Xi Yi n Xi Yi
Xi Yi XiYi
Entonces: ˆ2 n n.n
Xi2 n Xi
2
X i
2
n
X i
2
n.n
EJEMPLO 4.4
Con los siguientes datos relativos a consumo renta (en Dólares) de 15 familias
ajuste una regresión:
Consumo = 1 2 renta.
Consumo 74 98 80 53 57 81 44 90 72 47 87 50 42 101 44
Renta 80 110 90 60 60 65 45 91 78 84 87 92 90 98 56
Solución: Y 1 2 Xi
Yi (Consumo) Xi (Renta) XiYi X i2
74 80 5920 6400
98 110 10780 12100
80 90 7200 8100
53 60 3180 3600
57 60 3420 3600
81 65 5265 4225
44 45 1980 2025
90 91 8190 8281
72 78 5616 6084
47 84 3948 7056
87 87 7569 7569
50 92 4600 8464
42 90 3780 8100
101 98 9898 9604
44 56 2464 3136
ˆ 2
Xi Yi n X Y
X nX 2 2
i
ˆ 2 0,69
ˆ1 Y ˆ 2 X
ˆ1 68 (0,69) (79,06)
ˆ1 13,38
Así el modelo estimado queda representado por Y = 13,38 + 0,69X
La gráfica 4.7 presenta la recta de regresión estimada junto con los demás
puntos.
SUPUESTO 1
con los valores negativos de tal forma que sus efectos promedios sobre Y es
cero.
SUPUESTO 2
Igual varianza para i . Esto quiere decir que el término aleatorio tiene la
Varianza de X i E i E ( i ) E ( i ) 2 2
2
SUPUESTO 3
( i , j ) E i E ( i ) j E ( j ) 0
SUPUESTO 4
Dado que las perturbaciones siguen una distribución para las que se han
introducido unos supuestos, la forma de cálculo de los estimadores hace que ellos
también sean variables aleatorias con una cierta distribución. Esto implica que el
verdadero valor puede cambiar de una muestra a otra y por ello resulta
conveniente alguna medida de precisión de estos estimadores. Para ello en
estadística se utiliza la desviación estándar o ERROR ESTANDAR DE LOS
ESTIMADORES. En este sentido cabe señalar que si a los supuestos anteriores
se les añade la hipótesis de que la variable i sigue una distribución normal, con
Donde S representa la
1
El error estándar de 2 , S se calcula con la fórmula:
2
ei2
S 2
n2
e
Dada una muestra y obtenida una estimación de 1 mediante el método de
mínimos cuadrados, se puede construir un intervalo de confianza a través de la
expresión i S t , n2 , la cual arrojara dos valores entre los cuales se encuentra
i
EJEMPLO 4.5
Con los datos relativos a Consumo – Renta de 15 familias (ejemplo 4.4), construir
un intervalo de confianza del 95% para el coeficiente de regresión.
SOLUCION:
Primero se debe calcular el error estándar de 2 ,
S e2
S
X
2
2
i
2
nX
ei2
S
2
, para este caso n – 2 = 15 – 2 = 13
n2
e
e 2
i SCE , suma de cuadrados
ei Yi Yi , Yi 13,38 0,69 X i
e i 0 e 2
i 3950,7228
3950,7228
Luego S e2 303,90
13
S e2 303,90 303,90
Así, S 0,2574
X 98344 15(79,06)
2 2
2
i
2
nX 4586,746
Este valor se contrasta con el valor teórico arrojado por las tablas de distribución al
nivel de significancia escogido con n – 2 grados de libertad. Debe tenerse en
cuenta si la hipótesis es bilateral o unilateral.
rechaza Ho.
EJEMPLO 4.6
La elección del test de una sola cola responde al conocimiento que se tiene sobre
la teoría de consumo que es función directa de renta.
Existe una medida de uso muy generalizada en el análisis de regresión que indica
el grado de explicación que la variable independiente logra al ajustar los datos
mediante una relación lineal que se denomina coeficiente de determinación, R –
squared; cuando los datos son arrojados mediante ordenador.
11
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p398
El coeficiente de determinación se representa por R2 y se calcula mediante
el cociente entre la varianza explicada por el modelo y la varianza total de la
variable dependiente.
como Y 1 2 X i ei o también, Y Y ei donde Y 1 2 X i
La cantidad Yi es el valor predicho por la recta de regresión para la variable
12
PAUL NEWBOLD. Estadística para los Negocios y la economía. España, Prentice Hall 1997, p399
Ahora si a la ecuación Y Y ei se resta Y a cada lado se obtiene:
(Yi Y ) (Yi Y ) ei . Elevando al cuadrado ambos términos de la ecuación y
sumando respecto al índice i, se obtiene como resultado:
(Y i Y )2 (Y Y )
i
2
e 2
i
SCE
Luego R 2 1
SCT
Yi Yi 13,38 0,69 X i ei Yi Yi Yi Y Yi Y
74 68,58 5,42 6 0,58
98 89,28 8,72 30 21,28
80 75,48 4,52 12 7,48
53 54,78 -1,78 -15 -13,22
57 54,78 2,22 -11 -13,22
81 58,23 22,77 13 -9,77
44 44,43 -0,43 -24 -23,57
90 76,17 13,83 22 8,17
72 67,20 4,80 4 -0,8
47 71,34 -24,34 -21 3,34
87 73,41 13,59 19 5,41
50 76,86 -26,86 -18 8,86
42 75,48 -33,48 -26 7,48
101 81,00 20,00 33 13
44 52,02 -8,02 -24 -15,98
3950,7228
R2 1 0,3563
6138
R
2 ( S XY ) 2
, donde S XY XY
X Y
S X SY n
SX X 2
X 2
SY Y
2
Y 2
n n
Para el ejemplo:
(1186 )(1020 )
S XY 83810 3162
15
(1186) 2
S X 98344 4570,93
15
(1020) 2
SY 75498 6138
15
( S XY ) 2 (3162 ) 2 9998244
R2 0,3563
S X SY (4570,93)(6138) 28056368 ,34
http://www.uv.es/uriel/material/Morelisi.pdf
http://www.youtube.com/watch?v=J1DoRMupI8k
http://www.slideshare.net/adangraus/regresion-lineal-simple-13381573
Resumen
En términos generales se puede decir que: El análisis de regresión está
relacionado con el estudio de la dependencia de una variable (VARIABLE
DEPENDIENTE) de una o más variables adicionales (VARIABLES
INDEPENDIENTES) con la perspectiva de estimar y/o predecir el valor
(poblacional) medio o promedio de la primera en términos de los valores
conocidos o fijos de la segunda.
Para minimizar, e 2
i respecto a 1 y 2 se tiene:
ˆ1
Yi 2 Xi
Y 2 X
n
ˆ 2
Xi Yi n X Y
X nX 2 2
i
Y 1 2 Xi
Precio: 55 60 65 60 50 65 45 50
a. realice un gráfico con estos datos y estime la regresión lineal de las ventas
sobre el precio.
b. ¿Qué efectos se esperaría en las ventas si se produjera un incremento de
10.000 pesos
c. Halle un estimador puntual del volumen de venta cuando el precio de radio
grabadora en una ciudad dada es de 48. 000 pesos.
d. Si el precio de una radio grabadora se fija en 48.000 pesos, hallar intervalos de
confianza del 95% para el volumen de ventas reales en una ciudad concreta y
para el número esperado de ventas en esa región.
X i
2
145,7 X Y 150,5
i i
a. Estime la regresión lineal de Y sobre X.
b. Interprete la pendiente de la recta de regresión muestral
c. Interprete la constante de la recta de regresión muestral.
Ventas semanales: 10 12 28 24 18 16 15 12
Puntuación en el test: 55 60 85 75 80 85 65 60
X 2.550 Y 16
X
2
X
3.500.000
i
n 1
X i
X Yi Y 18.000
n 1
0 2,4
4 7,2
14 10,3
10 9,1
9 10,2
8 4,1
6 7,6
1 3,5
X 24 21 22 22 18 13 9 6
8. Supongamos que el pasado año ocho empresas tuvieron los beneficios y gastos
(en millones de pesos) en investigación recogidos en la tabla adjunta.
a. Ajuste una línea de regresión tomando los beneficios como variable
dependiente y los gastos en investigación como variable independiente.
b. Obtenga el coeficiente de terminación y verifique la significación de la
pendiente de la recta de regresión. A partir de los resultados obtenidos,
¿podremos concluir que los gastos en investigación originan beneficios?
50 40
60 40
40 30
50 50
30 40
45 45
50 35
50 55
9. Los economistas suelen afirmar que las variaciones del PNB real afectan a la
rentabilidad de los fondos de inversión. A continuación se presentan los datos
recogidos para u periodo de 10 años.
1.3 21.0
1.5 25.0
0.2 18.0
-1.1 7.0
1.9 25.0
2.1 21.0
2.6 31.0
2.4 29.0
3.1 33.0
2.7 32.0
a. ¿Qué sugiere el coeficiente de regresión?
b. ¿Respalda el coeficiente de determinación esta afirmación?
c. Calcular e interpretar el error típico de la estimación.
Evaluación
RESPONDA LAS PREGUNTAS CON BASE EN LA SIGUIENTE INFORMACION
x 62,5 x 2
411,25 y 413,7
y 23421,27
2
xy 2930,45
(62,5)(413,7)
2930,45
2930,45 10(62,5)(413,7) 10
A. B.
411,25 10(62,5) 2 411,25 (6,25) 2
(62,5)(413,7)
2930,45
10 2930,45 10(6,25)(41,37)
C. D.
(62,5) 2 411,25 10(62,5) 2
411,25
10
(62,5)(413,7)
2930,45
413,7 10
A.
10 (62,5) 2
411,25
10
(62,5)(413,7)
2930,45
413,7 10
B.
10 411,25 (6,25) 2
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
13
http://www.disfrutalasmatematicas.com/datos/distribucion-normal-estandar.html
TABLA 2
DISTRIBUCION t (Unilateral)
TABLA 3
DISTRIBUCION t (Bilateral)
BIBLIOGRAFIA
CIBERGRAFIA
Distribuciones muestrales
http://ftp.utalca.cl/profesores/gicaza/Clases/7Distribuciones%20Muestrales.pdf
http://www.geociencias.unam.mx/~ramon/EstInf/Clase4.pdf
http://www.educatina.com/matematicas/probabilidad-y-estadistica/estadistica/poblacion-
estadistica/diferencias-en-la-distribucion-de-medias-muestrales-video
http://www.educandus.cl/estadistica/ejercicios/bases_teoricas/Distribucion/ResueltosDistribucio
nesMuestrales.pdf
Intervalos de confianza
http://www.slideshare.net/yohanabonillagutierrez/taller-intervalos-de-confianza
http://www.iesxunqueira1.com/Download/pdf/teointervalos.pdf
Prueba de hipótesis
http://www.youtube.com/watch?v=AJcy4eZMwWM
http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html
http://www.virtual.unal.edu.co/cursos/ciencias/2001091/html/un6/cont_601_54.html
Regresión Lineal
http://www.uv.es/uriel/material/Morelisi.pdf
http://www.youtube.com/watch?v=J1DoRMupI8k
http://www.slideshare.net/adangraus/regresion-lineal-simple-13381573
DIRECCIÓN DE EDUCACIÓN ABIERTA Y A DISTANCIA Y VIRTUALIDAD
ESTADÌSTICA INFERENCIAL