Está en la página 1de 199

SEP SES DGEST

Instituto Tecnológico de Hermosillo

Departamento de Ciencias Básicas


Licenciatura en Administración

Materia:
Estadística II
Plan ADT-0427

Por: MCII José Antonio Cuatepotzo Varela

Horario 13 – 14 Horas, A - 32

Hermosillo; Sonora Septiembre de 2008


Criterios de Evaluación

Evaluación: 80%: la evaluación podrá ser cualquier día a partir del final de cada
unidad.
Asistencia: 10%
Tareas y Trabajos: 10%

Consideraciones

En Evaluación: Normativa vigente en el Manual de Acreditación de Asignaturas de la


DGEST. (*)

En Asistencia: Después de la entrada del Asesor al aula, no entrará nadie más; 1 Falta
-4% de su porcentaje asignado a su calificación, 2 Faltas -7%, 3 Faltas -10% y 4
Faltas pierde derecho a calificación de la unidad correspondiente.

Nota: Toda inasistencia justificada con comprobante del ITH, será borrada. (*)
Tareas y Trabajos

El porcentaje para cada trabajo será acordado mutuamente entre el Asesor y el Jefe de
Grupo; todos los trabajo que dará derecho a presentar examen de la misma, aún los
exámenes de nivelación. (*)

Puntos Extras: Asignados a consideración del Asesor, aplicados solamente al


porcentaje de Evaluación, con un máximo de 15 puntos. (*)

Generales

Mantener compostura y tener respeto a toda la gente que se encuentre en el salón o


llegue a éste. (*)

Queda prohibido el uso de mp3 players, pda’s, video juegos portátiles y celulares,
hacer / recibir llamadas y/o mensajes.

Pedir permiso para dejar el aula en horario de clase. (*)


Unidad 1

Prueba de Hipótesis
Unidad 1: Prueba de Hipótesis

1.1 Hipótesis estadísticas. Conceptos generales

Muchos problemas de ingeniería, ciencia, y administración, requieren que se tome


una decisión entre aceptar o rechazar una proposición sobre algún parámetro. Esta
proposición recibe el nombre de hipótesis. Este es uno de los aspectos más útiles de la
inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones,
pruebas o experimentos en el mundo de la ingeniería, pueden formularse como
problemas de prueba de hipótesis.

Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o
más poblaciones.

La hipótesis nula, representada por Ho, es la afirmación sobre una o más


características de poblaciones que al inicio se supone cierta (es decir, la “creencia a
priori”).
Unidad 1: Prueba de Hipótesis

La hipótesis alternativa, representada por H1, es la afirmación contradictoria a Ho, y


ésta es la hipótesis del investigador.

La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia


muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se
continúa creyendo en la validez de la hipótesis nula.

Entonces, las dos conclusiones posibles de un análisis por prueba de hipótesis son
rechazar Ho o no rechazar Ho.

Para probar si la hipótesis nula es cierta, se toma una muestra aleatoria y se calcula la
información, como el promedio, la proporción, etc. Esta información muestral se
llama estadística de prueba.

Estadística de Prueba: Una estadística de prueba se basa en la información de la


muestra como la media o la proporción .
Unidad 1: Prueba de Hipótesis

1.2 Errores tipo I y tipo II

El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es


verdadera. También es conocido como α ó nivel de significancia.

Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería


del 5%. Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de
significancia sería del 10%.

El error tipo II ó error β se define como la aceptación de la hipótesis nula cuando ésta
es falsa.
Unidad 1: Prueba de Hipótesis

1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad


de uno por lo general tiene como resultado un aumento en la probabilidad del otro.

2. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo


I, siempre se puede reducir al ajustar el o los valores críticos.

3. Un aumento en el tamaño muestral n reducirá α y β de forma simultánea.

4. Si la hipótesis nula es falsa, β es un máximo cuando el valor real del parámetro se


aproxima al hipotético. Entre más grande sea la distancia entre el valor real y el valor
hipotético, será menor β.
Unidad 1: Prueba de Hipótesis

1.3 Pruebas unilaterales y bilaterales

Al probar hipótesis en las que la estadística de prueba es discreta, la región crítica se


puede elegir de forma arbitraria y determinar su tamaño. Si a es demasiado grande, se
puede reducir al hacer un ajuste en el valor crítico. Puede ser necesario aumentar el
tamaño de la muestra para compensar la disminución que ocurre de manera
automática en la potencia de la prueba (probabilidad de rechazar Ho dado que una
alternativa específica es verdadera).

Por generaciones enteras de análisis estadístico, se ha hecho costumbre elegir un nivel


de significancia de 0.05 ó 0.01 y seleccionar la región crítica en consecuencia.
Entonces, por supuesto, el rechazo o no rechazo estricto de Ho dependerá de esa
región crítica. En la estadística aplicada los usuarios han adoptado de forma extensa
la aproximación del valor P. La aproximación se diseña para dar al usuario una
alternativa a la simple conclusión de “rechazo” o “no rechazo”.
Unidad 1: Prueba de Hipótesis

La aproximación del valor P como ayuda en la toma de decisiones es bastante natural


pues casi todos los paquetes de computadora que proporcionan el cálculo de prueba
de hipótesis entregan valores de P junto con valores de la estadística de la prueba
apropiada.

Bilateral
Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
Unidad 1: Prueba de Hipótesis

Unilateral Izquierda
Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Unidad 1: Prueba de Hipótesis

Unilateral Derecha
Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Unidad 1: Prueba de Hipótesis

Formulación de Hipótesis estadísticas

1. Interpretar correctamente hacia que distribución muestral se ajustan los datos del
enunciado.

2. Interpretar correctamente los datos del enunciado diferenciando los parámetros de


los estadísticos. Así mismo se debe determinar en este punto información implícita
como el tipo de muestreo y si la población es finita o infinita.

3. Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del


problema. El ensayo de hipótesis está en función de parámetros ya que se quiere
evaluar el universo de donde proviene la muestra. En este punto se determina el tipo
de ensayo (unilateral o bilateral).

4. Establecer la regla de decisión.


Unidad 1: Prueba de Hipótesis

Esta se puede establecer en función del valor crítico, el cual se obtiene dependiendo
del valor de α (Error tipo I o nivel de significancia) o en función del estadístico límite
de la distribución muestral. Cada una de las hipótesis deberá ser argumentada
correctamente para tomar la decisión, la cual estará en función de la hipótesis nula o
Ho.

5. Calcular el estadístico real, y situarlo para tomar la decisión.

6. Justificar la toma de decisión y concluir.


Unidad 1: Prueba de Hipótesis

Consideraciones:

H0: μ=X
H1:μ≠X
Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
Unidad 1: Prueba de Hipótesis

Consideraciones:

H0: μ≥X
H1:μ<X Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Unidad 1: Prueba de Hipótesis

Consideraciones:

H0: μ≤X
H1:μ>X
Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Unidad 1: Prueba de Hipótesis

1.4 Prueba de una hipótesis: referente a la media con varianza Desconocida


utilizando la distribución normal y “t” student

Ejemplo 1: Una muestra aleatoria de 100 muertes registradas en Estados Unidos el


año pasado muestra una vida promedio de 71.8 años. Suponga una desviación
estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es
mayor que 70 años? Utilice un nivel de significancia de 0.05.

Solución:

1) Identificar Datos
= 71.8 μ = 70 σ = 8.9 n = 100 α = 0.05
2) Establecer Hipótesis

H0: μ = 70 años
H1:μ > 70 años
Unidad 1: Prueba de Hipótesis

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo


Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(1.645) = 0.95
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(1.645) = 0.95
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el promedio de vida excede los
70 años en Estados Unidos”

Ejemplo 2: Una empresa eléctrica fabrica focos que tienen una duración que se
distribuye de forma aproximadamente normal con una media de 800 horas y una
desviación estándar de 40 horas. Si una muestra aleatoria de 30 focos tiene una
duración promedio de 788 horas, ¿muestran los datos suficiente evidencia para decir
que la duración media ha cambiado? Utilice un nivel de significancia del 0.04.
Unidad 1: Prueba de Hipótesis

Solución:

1) Identificar Datos
= 800 μ = 788 σ = 40 n = 30 α = 0.04
2) Establecer Hipótesis

H0: μ = 788 horas


H1:μ ≠ 788 horas

3) Establecer Estadístico de Prueba


Unidad 1: Prueba de Hipótesis

4) Establecer Zonas de Aceptación y Rechazo


Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
Z(-2.05) = 0.02 Z(2.05) = 0.98
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
Z(-2.05) = 0.02 Z(2.05) = 0.98
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 96% de confianza ó con un 4% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el promedio de vida en horas de
los focos no es diferente a 800 horas”

Ejemplo 3: Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en


promedio 5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis
de que μ = 5.5 onzas contra al hipótesis alternativa, μ < 5.5 onzas en el nivel de
significancia de 0.05.
Unidad 1: Prueba de Hipótesis

Solución:

1) Identificar Datos
= 5.5 μ = 5.23 σ = 0.24 n = 64 α = 0.05
2) Establecer Hipótesis

H0: μ = 5.5 onzas


H1:μ < 5.5 onzas

3) Establecer Estadístico de Prueba


Unidad 1: Prueba de Hipótesis

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(-1.645) = 0.05
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo


Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(-1.645) = 0.05
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el promedio de contenido en
onzas de palomitas no excede las 5.5 onzas”

Ejemplo 4: El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-
hora que gastan varios aparatos electrodomésticos. Se afirma que una aspiradora gasta
un promedio de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que
se incluye en un estudio planeado indica que las aspiradoras gastan un promedio de
42 kilowatt-hora al año con una desviación estándar de11.9 kilowatt-hora.
Unidad 1: Prueba de Hipótesis

¿Esto sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en
promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de
kilowatt-hora es normal.

Solución:

1) Identificar Datos
= 42 μ = 46 s = 11.9 n = 12 α = 0.05
2) Establecer Hipótesis

H0: μ = 46 kilowatt-hora
H1: μ < 46 kilowatt-hora

3) Establecer Estadístico de Prueba


Unidad 1: Prueba de Hipótesis

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
-t(0.05,11) = -1.796
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo


Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
-t(0.05,11) = -1.796
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el promedio de contenido en
onzas de palomitas no excede las 5.5 onzas”

Ejemplo 5: Los pesos en libras de una muestra aleatoria de bebés de seis meses son:
14.6, 12.5, 15.3, 16.1, 14.4, 12.9, 13.7 y 14.9. Haga una prueba con nivel de 5% de
significancia para determinar si el peso promedio de todos los bebés de seis meses es
distinto a 14 libras, suponga que sus pesos se distribuyen normalmente.
Unidad 1: Prueba de Hipótesis

Solución:

1) Identificar Datos
= 14.3 μ = 14 s = 1.21 n=8 α = 0.05
2) Establecer Hipótesis

H0: μ = 14 libras
H1: μ ≠ 14 libras

3) Establecer Estadístico de Prueba


Unidad 1: Prueba de Hipótesis

4) Establecer Zonas de Aceptación y Rechazo


Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
-t(0.025,7) = -2.365 t(0.025,7) = 2.365
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
-t(0.025,7) = -2.365 t(0.025,7) = 2.365
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el peso promedio de todos los
bebés de seis meses no es distinto a 14 libras”
Unidad 1: Prueba de Hipótesis

1.5 Dos muestras: pruebas sobre dos medias utilizando la distribución Normal y
“t” student.

Ejemplo 6: Un diseñador de productos está interesado en reducir el tiempo de secado


de una pintura tapa poros. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el
contenido químico estándar, y la fórmula 2 tiene un nuevo ingrediente secante que
debe reducir el tiempo de secado. De la experiencia se sabe que la desviación
estándar del tiempo de secado es ocho minutos, y esta variabilidad inherente no debe
verse afectada por la adición del nuevo ingrediente. Se pintan diez especímenes con la
fórmula 1, y otros diez con la fórmula 2. Los dos tiempos promedio de secado
muestrales son 121 min y 112 min respectivamente. ¿A qué conclusiones puede llegar
el diseñador del producto sobre la eficacia del nuevo ingrediente, utilizando a = 0.05?
Unidad 1: Prueba de Hipótesis

Solución:

1) Identificar Datos

= 121 σ1 = 8 n1 = 10 α = 0.05
= 112 σ2= 8 n2= 10

2) Establecer Hipótesis

H0: μ1 = μ2
H1: μ1 > μ2

3) Establecer Estadístico de Prueba


Unidad 1: Prueba de Hipótesis

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(1.645) = 0.95
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(1.645) = 0.95
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el tiempo de secado de la segunda
pintura es menor que la primera pintura, utilizando el nuevo ingrediente”

Ejemplo 7: Se utilizan dos máquinas para llenar botellas de plástico con un volumen
neto de 16.0 onzas. Las distribuciones de los volúmenes de llenado pueden suponerse
normales, con desviaciones estándar σ1= 0.020 y σ2 = 0.025 onzas. Un miembro del
grupo de ingeniería de calidad sospecha que el volumen neto de llenado de ambas
máquinas es el mismo, sin importar si éste es o no de 16 onzas. De cada máquina se
toma una muestra aleatoria de 10 botellas. ¿Se encuentra el ingeniero en lo correcto?
Utilice a = 0.05
Unidad 1: Prueba de Hipótesis

Solución:

1) Identificar Datos:

= 16.015 σ1 = 0.020 n1 = 10 α = 0.05


= 16.005 σ2 = 0.025 n2 = 10
2) Establecer Hipótesis

H0: μ1 = μ2
H1: μ1 ≠ μ2
Unidad 1: Prueba de Hipótesis

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
Z(-1.96) = 0.025 Z(1.96) = 0.975
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
Z(-1.96) = 0.025 Z(1.96) = 0.975
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el promedio de contenido de las
botellas es el mismo”

Ejemplo 8: Existen dos tipos de plástico apropiados para su uso por un fabricante de
componentes electrónicos. La tensión de ruptura de ese plástico es un parámetro
importante . Se sabe que σ1=σ2= 1.0 psi. De una muestra aleatoria de tamaño 10 y 12
para cada plástico respectivamente, se tiene una media de 162.5 para el plástico 1 y
de 155 para el plástico 2. La compañía no adoptará el plástico 1 a menos que la
tensión de ruptura de éste exceda a la del plástico 2 al menos por 10 psi. Con base a la
información contenida en la muestra, ¿la compañía deberá utilizar el plástico 1?
Utilice α = 0.05 para llegar a una decisión.
Unidad 1: Prueba de Hipótesis

Solución:

1) Identificar Datos:

= 162.5 σ1 = 1.0 n1 = 10 α = 0.05


= 155 σ2 = 1.0 n2 = 12
2) Establecer Hipótesis

H0: μ1 = μ2
H1: μ1 > μ2

3) Establecer Estadístico de Prueba


Unidad 1: Prueba de Hipótesis

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(1.645) = 0.95
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(1.645) = 0.95
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el plástico 1 no es más fuerte que
el plástico 2 en la tensión a la ruptura por 10 psi ”

Ejemplo 9: Para encontrar si un nuevo suero detiene la leucemia, se seleccionan


nueve ratones, todos con una etapa avanzada de la enfermedad. Cinco ratones reciben
el tratamiento y cuatro no. Los tiempos de sobrevivencia en años, a partir del
momento en que comienza el experimento son los siguientes:

Con tratamiento 2.1 5.3 1.4 4.6 0.9


Sin tratamiento 1.9 0.5 2.8 3.1
Unidad 1: Prueba de Hipótesis

¿Se puede decir en el nivel de significancia del 0.05 que el suero es efectivo?
Suponga que las dos poblaciones se distribuyen normalmente con varianzas iguales.

Solución:

1) Identificar Datos

=2.86 s1 = 1.97 n1 = 5 α = 0.05


= 2.075 s2 = 1.1672 n2 = 4

2)Establecer Hipótesis

H0: μSuero = μSin suero


H1: μSuero > μSin suero
Unidad 1: Prueba de Hipótesis

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo


Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
t(0.05,7) = 1.895
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
t(0.05,7) = 1.895
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el suero suministrado no es
efectivo”

Ejemplo 10: Se realizó un experimento para comparar el tiempo promedio requerido


por el cuerpo humano para absorber dos medicamentos, A y B. Suponga que el
tiempo necesario para que cada medicamento alcance un nivel específico en el
torrente sanguíneo se distribuye normalmente. Se eligieron al azar a doce personas
para ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar
un nivel específico en la sangre.
Unidad 1: Prueba de Hipótesis

Calcule con α = 0.05 si existe diferencia entre los tiempos promedio. Suponga
varianzas iguales.

Solución:

1) Identificar Datos:

= 26.8 s12 = 15.57 n1 = 12 α = 0.05


= 32.6 s22 = 17.54 n2 = 12

2) Establecer Hipótesis

H0: μMA = μMB


H1: μMA ≠ μMB
Unidad 1: Prueba de Hipótesis

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo


Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
-t(0.025,22) = -2.074 t(0.025,22) = 2.074
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
-t(0.025,22) = -2.074 t(0.025,22) = 2.074
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el tiempo de efectividad para ser
absorbido entre ambos medicamentos es diferente”
Unidad 1: Prueba de Hipótesis

1.6 Una muestra: prueba sobre una sola proporción

Ejercicio 11: Un constructor afirma que se instalan bombas de calor en 70% de todas
las casas que se construyen hoy en día en la ciudad de Richmond. ¿Estaría de acuerdo
con esta afirmación si una investigación de casas nuevas en esta ciudad muestra que 8
de 15 tienen instaladas bombas de calor? Utilice un nivel de significancia de 0.10.

Solución:

1) Identificar Datos
x=8 po = 0.70 α = 0.10 n = 15
2) Establecer Hipótesis

H0: po = 0.70
H1: po ≠ 0.70
Unidad 1: Prueba de Hipótesis

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α/2)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
Z(-1.645) = 0.05 Z(1.645) = 0.95
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α/2)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
Z(-1.645) = 0.05 Z(1.645) = 0.95
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 90% de confianza ó con un 10% de significancia se puede decir que existe
suficiente evidencia estadística para determinar el 70% de las casas tienen bombas de
calor instaladas ”

Ejercicio 12: Un fabricante de semiconductores produce controladores que se


emplean en aplicaciones de motores automovilísticos. El cliente requiere que la
fracción de controladores defectuosos en uno de los pasos de manufactura críticos no
sea mayor que 0.05, y que el fabricante demuestre esta característica del proceso de
fabricación con este nivel de calidad, utilizando α = 0.05. El fabricante de
semiconductores toma una muestra aleatoria de 200 dispositivos y encuentra que
cuatro de ellos son defectuosos. ¿El fabricante puede demostrar al cliente la calidad
del proceso?
Unidad 1: Prueba de Hipótesis

Solución:

1) Identificar Datos:

x=4 po = 0.05 α = 0.05 n = 200

2) Establecer Hipótesis

H0: po = 0.05
H1: po < 0.05

3) Establecer Estadístico de Prueba


Unidad 1: Prueba de Hipótesis

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(-1.645) = 0.05
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo


Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(-1.645) = 0.05
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que la proporción de elementos
defectuosos de dicho fabricante es menor del 0.05”
Unidad 1: Prueba de Hipótesis

1.7 Dos muestras: prueba sobre dos proporciones

Ejemplo 13: Se evalúan dos tipos diferentes de soluciones para pulir, para su posible
uso en una operación de pulido en la fabricación de lentes intraoculares utilizados en
el ojo humano después de una cirugía de cataratas. Se pulen 300 lentes con la primera
solución y, de éstos, 253 no presentaron defectos inducidos por el pulido. Después se
pulen otros 300 lentes con la segunda solución, de los cuales 196 resultan
satisfactorios. ¿Existe alguna razón para creer que las dos soluciones para pulir son
diferentes? Utilice a = 0.01

Solución:

1) Identificar Datos:

p1 = 253/300 X1 = 253 n1 = 300 α = 0.01


p2 = 196/300 X2 = 196 n2 = 300
Unidad 1: Prueba de Hipótesis

2) Establecer Hipótesis

H0: P1 – P2 = 0
H1: P1 – P2 ≠ 0

3) Establecer Estadístico de Prueba


Unidad 1: Prueba de Hipótesis

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
Z(-2.58) = 0.005 Z(2.58) = 0.995
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
Z(-2.58) = 0.005 Z(2.58) = 0.995
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1

8) Emitir Conclusión

“Con un 99% de confianza ó con un 1% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que las 2 soluciones para pulir son
diferentes”

Ejemplo 14: Se tomará el voto entre los residentes de una ciudad y el condado
circundante para determinar si se debe construir una planta química propuesta. El
lugar de construcción está dentro de los límites de la ciudad y por esta razón muchos
votantes del condado consideran que la propuesta pasará debido a la gran proporción
de votantes que favorecen la construcción. Para determinar si hay una diferencia
significativa en la proporción de votantes de la ciudad y votantes del condado que
favorecen la propuesta, se realiza una encuesta.
Unidad 1: Prueba de Hipótesis

Si 120 de 200 votantes de la ciudad favorecen la propuesta y 240 de 500 residentes


del condado también lo hacen, ¿estaría de acuerdo en que la proporción de votantes
de la ciudad que favorecen la propuesta es más alto que la proporción de votantes del
condado? Utilice un nivel de significancia de 0.025.

Solución:

1) Identificar Datos:

p1 = 120/200 X1 = 120 n1 = 200 α = 0.025


p2 = 240/500 X2 = 240 n2 = 500

2) Establecer Hipótesis:

H0: P1 – P2 = 0
H1: P1 – P2 > 0
Unidad 1: Prueba de Hipótesis

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(1.96) = 0.975
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
Z(1.96) = 0.975
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1

8) Emitir Conclusión

“Con un 97.5% de confianza ó con un 2.5% de significancia se puede decir que existe
suficiente evidencia estadística para determinar que la proporción de votantes de la
ciudad que favorecen la propuesta es más alto que la proporción de votantes del
condado”
Unidad 1: Prueba de Hipótesis

1.8 Dos muestras: pruebas pareadas

Ejemplo 15: Se hizo un estudio para definirse si los ejercicios aeróbicos reducen el
ritmo cardiaco de una persona durante el descanso, y al examinar a diez voluntarios
antes y después de seguir un programa de ese tipo durante seis meses, sus
pulsaciones, en latidos por minuto, dieron los siguientes registros:

Use α = 0.05 para calcular si los ejercicios aeróbicos reducen el ritmo cardiaco
durante el reposo.
Unidad 1: Prueba de Hipótesis

Solución:

a) Se procederá a calcular las diferencias de cada par:

1) Identificar Datos:
sd = 1.57 = 3.6 n = 10 α = 0.05

2) Establecer Hipótesis:

H0: μA = μB
H1: μA > μB
Unidad 1: Prueba de Hipótesis

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo


Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
t(0.05,9) = 1.833
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0
(α)
t(0.05,9) = 1.833
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que los ejercicios aeróbicos reducen
el ritmo cardiaco durante el reposo”

Ejemplo 16: Diez hombres se sometieron a una dieta especial registrando sus pesos
antes de comenzarla y después de un mes de estar en ella. Los resultados de los pesos,
en libras, se muestran a continuación:
Unidad 1: Prueba de Hipótesis

Haga una prueba con α = 0.05 para determinar si la dieta logró alguna diferencia, ya
sea positiva o negativa.

Solución:

a) Se procederá a calcular las diferencias de cada par:

1) Identificar Datos:

sd = 3.52 =2 n = 10 α = 0.05

2) Establecer Hipótesis:

H0: μA = μB
H1: μA ≠ μB
Unidad 1: Prueba de Hipótesis

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo


Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
-t(0.025,9) = -2.262 t(0.025,9) = 2.262
Unidad 1: Prueba de Hipótesis

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)

Zona de Rechazo H0 Zona de Rechazo H0


(α/2) (α/2)
-t(0.025,9) = -2.262 t(0.025,9) = 2.262
Unidad 1: Prueba de Hipótesis

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que la dieta logró alguna diferencia
un poco negativa”
Unidad 2

Pruebas de la bondad del


ajuste y análisis de
varianza
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

2.1 Análisis Ji-Cuadrada

Como ya se ha visto, los resultados obtenidos de muestras no siempre concuerdan


exactamente con los resultados teóricos esperados, según las reglas de probabilidad.
Por ejemplo, aunque consideraciones teóricas conduzcan a esperar 50 caras y 50
cruces cuando se lanza 100 veces una moneda bien hecha, es raro que se obtengan
exactamente estos resultados.

Supóngase que en una determinada muestra se observan una serie de posibles sucesos
E1, E2, E3, . . . , EK, que ocurren con frecuencias o1, o2, o3, . . ., oK, llamadas
frecuencias observadas y que, según las reglas de probabilidad, se espera que
ocurran con frecuencias e1, e2, e3, . . . ,eK llamadas frecuencias teóricas o esperadas.
A menudo se desea saber si las frecuencias observadas difieren significativamente de
las frecuencias esperadas. Para el caso en que solamente son posibles dos sucesos E1
y E2 como, por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto
satisfactoriamente con los métodos de los temas anteriores.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Definición de X2

Una medida de la discrepancia existente entre las frecuencias observadas y


esperadas es suministrada por el estadístico X2, dado por:

donde si el total de frecuencias es N,

Si X2 = 0, las frecuencias observadas y esperadas concuerdan exactamente, mientras


que si X2 >0, no coinciden exactamente. A valores mayores de X2, mayores son las
discrepancias entre las frecuencias observadas y esperadas. Si las frecuencias
esperadas son al menos iguales a 5, la aproximación mejora para valores superiores.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

El número de grados de libertad n está dado por:

v=k–1–m

en donde:

k = número de clasificaciones en el problema.


m = número de parámetros estimados a partir de los datos muestrales para obtener los
valores esperados.

2.1.1 Prueba de independencia

En la práctica, las frecuencias esperadas se calculan de acuerdo con la hipótesis Ho.


Si bajo esta hipótesis el valor calculado de X2 dado es mayor que algún valor crítico,
se deduce que las frecuencias observadas difieren significativamente de las esperadas
y se rechaza Ho al nivel de significación correspondiente. En caso contrario, no se
rechazará. Este procedimiento se llama ensayo o prueba de chi-cuadrado de la
hipótesis.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Debe advertirse que en aquellas circunstancias en que X2 esté muy próxima a cero
debe mirarse con cierto recelo, puesto que es raro que las frecuencias observadas
concuerden demasiado bien con las esperadas. Para examinar tales situaciones, se
puede determinar si el valor calculado de X2 es menor que las X2 críticas o de tabla
(ensayo unilateral izquierdo), en cuyos casos se decide que la concordancia es
bastante buena.

Ejemplo 17: La siguiente tabla muestra las frecuencias observadas al lanzar un dado
120 veces. Ensayar la hipótesis de que el dado está bien hecho al nivel de
significación del 0.05.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Solución:

a) Primero se procede a calcular los valores esperados. Como es bien sabido por todos
la probabilidad de que caiga cualquier número en un dado no cargado es de 1/6.
Como la suma de los valores observados es de 120, se multiplica este valor por 1/6
dando un resultado de 20 para cada clasificación.

1) Identificar Datos:

Grados de libertad = k-1-m = 6-1-0 = 5. No se tuvo que calcular ningún parámetro


para obtener las frecuencias esperadas.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

2) Establecer Hipótesis:

H0: Las frecuencias observadas y esperadas son significativamente iguales (dado bien
hecho)

H1: Las frecuencias observadas y esperadas son diferentes (dado cargado).

3) Establecer Estadístico de Prueba


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
χ2(0.05,5) = 11.07

5) Sustituir Valores en Estadístico de Pruebas


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
χ2(0.05,5) = 11.07

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el dado esta bien hecho”

Ejemplo 18: En los experimentos de Mendel con guisantes, observó 315 lisos y
amarillos, 108 lisos y verdes, 101 rugosos y amarillos y 32 rugosos y verdes. De
acuerdo con su teoría, estos números deberían presentarse en la proporción 9:3:3:1.
¿Hay alguna evidencia que permita dudar de su teoría al nivel de significación del
0.01?

Solución:

a) El número total de guisantes es 315+108+101+32=556. Puesto que los números


esperados están el la proporción 9:3:3:1 (9+3+3+1=16), se esperaría:
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

1) Identificar Datos:

Grados de libertad = k-1-m = 4-1-0 = 3. No se tuvo que calcular ningún parámetro


para obtener las frecuencias esperadas.

2) Establecer Hipótesis:

H0: La teoría de Mendel es acertada.


H1: La teoría de Mendel no es acertada.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
χ2(0.01,3) = 11.34
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
χ2(0.01,3) = 11.34
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 99% de confianza ó con un 1% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que la teoría de Mendel es acertada”

Ejemplo 19: Una encuesta sobre 320 familias con 5 niños dio la distribución que
aparece en la siguiente tabla. ¿Es el resultado consistente con la hipótesis de que el
nacimiento de varón y hembra son igualmente posibles? Use a = 0.05.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Solución:

a) Este experimento tiene un comportamiento binomial, puesto que se tienen dos


posibles resultados y la probabilidad de éxito se mantiene constante en todo el
experimento. Se le llamará éxito al nacimiento de un varón o niño. Por lo que la
variable aleatoria “x” tomará valores desde 0 hasta 5. Como se quiere ver si es
igualmente probable el nacimiento de niños y niñas, la probabilidad de éxito será de
0.5. Utilizando la fórmula de la distribución binomial se calcularán las
probabilidades, que multiplicadas por el número total de familias nos darán los
valores esperados en cada clasificación.

Recordando la fórmula de la distribución binomial:


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Así tenemos que:

Probabilidad de 5 niños y 0 niñas =

Probabilidad de 4 niños y 1 niñas =

Probabilidad de 3 niños y 2 niñas =

Probabilidad de 2 niños y 3 niñas =

Probabilidad de 1 niños y 4 niñas =

Probabilidad de 0 niños y 5 niñas =


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

1) Identificar Datos

Grados de libertad: k-1-m = 6-1-0 = 5

2) Establecer Hipótesis:

H0: El nacimiento de niños y niñas es igualmente probable.

H1: El nacimiento de niños y niñas no es igualmente probable.


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
χ2(0.05,5) = 11.07
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
χ2(0.05,5) = 11.07
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el nacimiento de niños y niñas no
es igualmente probable”

2.1.2 Prueba de la bondad del ajuste

Ejemplo 20: Se propone que el número de defectos en las tarjetas de circuito impreso
sigue una distribución Poisson. Se reúne una muestra aleatoria de 60 tarjetas de
circuito impreso y se observa el número de defectos. Los resultados obtenidos son los
siguientes:
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

¿Muestran estos datos suficiente evidencia para decir que provienen de una
distribución Poisson? Haga la prueba de la bondad del ajuste con un α = 0.05

Solución:

a) La media de la distribución Poisson propuesta en este ejemplo es desconocida y


debe estimarse a partir de los datos contenidos en la muestra.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

A partir de la distribución Poisson con parámetro 0.75, pueden calcularse las


probabilidades asociadas con el valor de x. Esto es la fórmula de la Poisson es:

Con esta fórmula se calculan las probabilidades, mismas que se multiplican por 60
para obtener los valores esperados.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Puesto que la frecuencia esperada en la última celda es menor que 3, se combinan las
dos últimas celdas.

1) Identificar los Datos:

Los grados de libertad serían 3-1-1=1, debido a que la media de la distribución


Poisson fue estimada a partir de los datos.

2) Establecer Hipótesis:

H0: La forma de la distribución de los defectos es Poisson.


H1: La forma de la distribución de los defectos no es Poisson.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

3) Establecer Estadístico de Prueba

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
χ2(0.05,1) = 3.84
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

5) Sustituir Valores en Estadístico de Pruebas

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
χ2(0.05,1) = 3.84
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que la distribución de defectos en las
tarjetas de circuito impreso es Poisson.”

2.1.3 Tablas de contingencia

En muchas ocasiones, los n elementos de una muestra tomada de una población


pueden clasificarse con dos criterios diferentes. Por tanto, es interesante saber si los
dos métodos de clasificación son estadísticamente independientes. Supóngase que el
primer método de clasificación tiene r niveles, y que el segundo tiene c niveles.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

O sea Oij la frecuencia observada para el nivel i del primer método de clasificación y
el nivel j del segúndo método de clasificación. En general, los datos aparecerán como
se muestra en la siguiente tabla. Una tabla de este tipo usualmente se conoce como
tabla de contingencia r x c.

El interés recae en probar la hipótesis de que los dos métodos de clasificación


renglón-columna son independientes. Si se rechaza esta hipótesis, entonces se
concluye que existe alguna interacción entre los dos criterios de clasificación.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Los procedimientos de prueba exactos son difíciles de obtener, pero puede obtenerse
un estadístico de prueba aproximado válido para n grande.

Sea pij la probabilidad de que un elemento seleccionado al azar caiga el la ij-ésima


celda, dado que las dos clasificaciones son independientes. Entonces, pij=uivj, donde
ui es la probabilidad de que un elemento seleccionado al azar pertenezca al renglón de
la clase i, y vj es la probabilidad de que un elemento seleccionado pertenezca a la
columna de la clase j. Ahora bien, si se supone independencia, los estimadores de ui y
vj son:

Por lo tanto, la frecuencia esperada de la celda es:


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Entonces, para n grande, el estadístico

tiene una distribución aproximada ji-cuadrada con (r-1)(c-1) grados de libertad si la


hipótesis nula es verdadera. Por consiguiente, la hipótesis de independencia debe
rechazarse si el valor del estadístico de prueba X2 calculado es mayor que X2 crítico o
de tabla.

Ejemplo 21: Una asociación de profesores universitarios quiere determinar si la


satisfacción en el trabajo es independiente del rango académico. Para ello realizó un
estudio nacional entre los académicos universitarios y encontró los resultados
mostrados son la tabla siguiente. Con a=0.05, haga una prueba para saber si son
dependientes la satisfacción en el trabajo y el rango.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Solución:

1) Identificar los Datos:

Grados de libertad: (r-1)(c-1) = (3-1)(4-1)=(2)(3) = 6. Se procederá a calcular los


valores esperados de cada celda. Como los grados de libertad son 6, esto quiere decir
que necesitamos calcular únicamente 6 frecuencias esperadas, y las faltantes se
encuentran por diferencia. Se calcularán los valores esperados E11, E12, E13, E21, E22 y
E23. Como se necesitan los totales de renglón y columna se mostrarán en la tabla:
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

2) Establecer Hipótesis:

H0: La satisfacción en el trabajo y el rango son independientes.


H1: La satisfacción en el trabajo y el rango no son independientes.

3) Establecer Estadístico de Prueba


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
χ2(0.05,6) = 12.592
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

5) Sustituir Valores en Estadístico de Pruebas


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
χ2(0.05,6) = 12.592
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

7) Aceptar o Rechazar H0

Se Acepta H0 y Se Rechaza H1

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que si son dependientes la
satisfacción en el trabajo y el rango.”

2.2 Análisis de varianza

En estadística, análisis de varianza (ANOVA, según terminología inglesa) es una


colección de modelos estadísticos y sus procedimientos asociados. El análisis de
varianza sirve para comparar si los valores de un conjunto de datos numéricos son
significativamente distintos a los valores de otro o más conjuntos de datos.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

El procedimiento para comparar estos valores está basado en la varianza global


observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de
varianza se utiliza para asociar una probabilidad a la conclusión de que la media de
un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.

Supuestos previos

El ANOVA parte de algunos supuestos que han de cumplirse:

•La variable dependiente debe medirse al menos a nivel de intervalo.


•Independencia de las observaciones.
•La distribución de la variable dependiente debe ser normal.
•Homocedasticidad: homogeneidad de las varianzas.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Existen tres tipos de modelos:

•El modelo de efectos fijos asume que el experimentador ha considerado para el


factor todos los posibles valores que éste puede tomar. Ejemplo: Si el género del
individuo es un factor, y el experimentador ha incluido tantos individuos masculinos
como femeninos, el género es un factor fijo en el experimento.

•Los modelos de efectos aleatorios asumen que en un factor se ha considerado tan


sólo una muestra de los posibles valores que éste puede tomar. Ejemplo: Si el método
de enseñanza es analizado como un factor que puede influir sobre el nivel de
aprendizaje y se ha considerado en el experimento sólo tres de los muchos más
métodos posibles, el método de enseñanza es un factor aleatorio en el experimento.

•Los modelos mixtos describen situaciones donde están presentes ambos tipos de
factores: fijos y aleatorios.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

2.2.1 Inferencia sobre una varianza de población (Anova).

Tratamientos Donde:

1 2  i  k
y11 y21  yi1  yk 1
y12 y22  yi 2  yk 2
   
y1n y2 n  yin  yki
Total T1 T2  Ti   Tk  T
Media y1 y 2  yi  yk y 
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Con estos datos podemos hacer una tabla de análisis de varianza para la clasificación
en una dirección:

Fuente de Suma de Grados de Cuadrados f


Variación Cuadrados Libertad Medios Calculada

Tratamientos SSA k-1

Error SSE k(n -1)

Total SST nk - 1
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Ejemplo 22: Pruebe la hipótesis de que μ1=μ2=μ3=μ4=μ5 son iguales a un nivel de


significancia del 5% acerca de la absorción de humedad de varios tipos de mezcla de
concreto, que se muestran en la siguiente tabla:

Mezcla (% de Peso)
1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3,320 3,416 3,663 2,791 3,664 16,854
Media 553.33 569.33 610.50 465.17 610.67 561.80
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

1) Identificar Datos:

v1 = (k – 1) = (5 – 1) =4; v2 = k*(n – 1) = 5*(6 – 1) = 25; α = 0.05

2) Establecer Hipótesis:

H0: μ1=μ2=μ3=μ4=μ5
H1: que por lo menos 2 promedios de las mezclas son diferentes.

3) Establecer Estadístico de Prueba


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
f(0.05,4,25) = 2.759
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

5) Sustituir Valores en Estadístico de Pruebas

Fuente de Suma de Grados de Cuadrados f


Variación Cuadrados Libertad Medios Calculada

Mezclas 85,356.47 4 21,339.12 4.30

Error 124,020.33 25 4,960.81

Total 209,376.80 29
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
4.30
f(0.05,4,25) = 2.759

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que las mezclas no tienen la misma
absorción media”.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova).

Bloque

Tratamiento
Tratamiento 1 2  j  b Total Media
1 y11 y12  y1 j  y1b T1. y1.
2 y 21 y 22  y2 j  y 2b T2 . y 2.
      
i yi1 yi 2  yij  yib Ti . y i.
      
k yk1 yk 2  ykj  y kb Tk . y k.
Total T .1 T .2  T. j  T .b T ..
Media y .1 y .2  y. j  y .b y ..
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Con estos datos podemos hacer una tabla de análisis de varianza para la clasificación
en dos direcciones:

Fuente de Suma de Grados de Cuadrados f


Variación Cuadrados Libertad Medios Calculada

Tratamientos SSA k-1

Bloques SSB b -1

Error SSE (k-1)(b -1)

Total SST bk - 1
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Donde:

Ejemplo 23: Para el ensamble de un artículo en particular se están considerando


cuatro máquinas diferentes M1, M2, M3, y M4. Se decide que deben utilizarse 6
operadores diferentes en un experimento de bloque aleatorizado para comparar las
máquinas. Las máquinas se asignan a cada operador en un orden aleatorio. La
operación de las máquinas requieren determinada destreza física y se anticipa que
habrá una diferencia entre los operarios en cuanto a la velocidad con la cuál operaria
la maquinaria. Pruebe la hipótesis nula con α=0.05, que las máquinas llevan a cabo la
tarea a la misma velocidad promedio.
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

Operador
Máquina 1 2 3 4 5 6 Total
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8
2 39.8 40.1 40.5 42.3 42.5 43.1 248.3
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4
Total 163.8 162.1 164.9 169.8 176.2 174.1 1010.9

1) Identificar Datos:

v1 = (k – 1) = (4 – 1) =3; v2 = (k – 1) *(b – 1) = (4 – 1) *(6 – 1) = 15; α = 0.05


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

2) Establecer Hipótesis:

H0: α1= α2= α3= α4= α5=0

H1: que por lo menos 2 promedios de velocidad de las máquinas son diferentes.

3) Establecer Estadístico de Prueba


Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

4) Establecer Zonas de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
f(0.05,3,15) = 3.287
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

5) Sustituir Valores en Estadístico de Pruebas

Fuente de Suma de Grados de Cuadrados f


Variación Cuadrados Libertad Medios Calculada

Tratamientos 15.92 3 5.31 3.34

Bloques 42.09 5 8.42

Error 23.85 15 1.59

Total 81.86 23
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

6) Verificamos el Valor Obtenido contra los Criterios de Aceptación y Rechazo

Zona de Aceptación H0
(1-α)
Zona de Rechazo H0
(α)
3.34
f(0.05,4,25) = 2.759

7) Aceptar o Rechazar H0

Se Rechaza H0 y Se Acepta H1
Unidad 2: Pruebas de la bondad del ajuste y análisis de varianza

8) Emitir Conclusión

“Con un 95% de confianza ó con un 5% de significancia se puede decir que existe


suficiente evidencia estadística para determinar que el promedio de velocidad de las
máquinas no son iguales entre si”.

2.3 Paquete computacional

NOTA: Eso de andar con mi laptop y mi cañón, haciéndolo todo sin saber que hacen
mis alumnos y ellos sin comprender de dónde salen los resultados no va conmigo,
pero si quieren un paquete computacional, nada como Excel o Minitab, cuando
quieran clases avísenme, también soy una fiera en eso, y en mis clases se aprende
arrastrando lápiz, usando calculadora y razonando, no como en otras clases donde,
bueno, mejor omito mis comentarios!!!
Unidad 3

Análisis de regresión,
correlación lineal simple y
múltiple
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

3.1 Estimación mediante la línea de regresión

Si sabemos que existe una relación entre una variable denominada dependiente y
otras denominadas independientes, puede darse el problema de que la dependiente
asuma múltiples valores para una combinación de valores de las independientes.

La dependencia a la que hacemos referencia es relacional matemática y no


necesariamente de causalidad.

Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los


cuales se obtiene una nueva relación pero de un tipo especial denominado función, en
la cual la variable independiente se asocia con un indicador de tendencia central de la
variable dependiente. Cabe recordar que en términos generales, una función es un tipo
de relación en la cual para cada valor de la variable independiente le corresponde uno
y sólo un valor de la variable dependiente.
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

3.1.1 Diagrama de Dispersión

Definición: Representación gráfica del grado de relación entre dos variables


cuantitativas.

Características principales

A continuación se comentan una serie de características que ayudan a comprender la


naturaleza de la herramienta.

Impacto visual: Un Diagrama de Dispersión muestra la posibilidad de la existencia de


correlación entre dos variables de un vistazo.

Comunicación: Simplifica el análisis de situaciones numéricas complejas.


Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

Guía en la investigación: El análisis de datos mediante esta herramienta proporciona


mayor información que el simple análisis matemático de correlación, sugiriendo
posibilidades y alternativas de estudio, basadas en la necesidad de conjugar datos y
procesos en su utilización.

Ejemplo 24: Los datos que a continuación se proporcionan corresponden a las horas
trabajadas y el sueldo devengado por once empleados de una empresa.

Elabore un diagrama de dispersión para ver la relación entre las variables.


Unidad 3: Análisis de regresión, correlación lineal simple y múltiple
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

3.1.1 Diagrama de Dispersión

Ejemplo 25: Los datos de la tabla siguiente proporcionan información sobre el


tiempo, en horas, que un grupo de alumnos estudió para un examen parcial y la
calificación obtenida en el mismo. Construya un diagrama de dispersión con los
datos.
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

3.1.2 Método de mínimos cuadrados

En el estudio de la relación funcional entre dos variables poblacionales, una variable


X, llamada independiente, explicativa o de predicción y una variable Y, llamada
dependiente o variable respuesta, presenta la siguiente notación:

Y = a + βx + 

Donde:

a: es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.


β: es el coeficiente de regresión poblacional (pendiente de la línea recta)
: es el error.
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

Suposiciones de la regresión lineal

1. Los valores de la variable independiente X son fijos, medidos sin error.


2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y
(subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente
independientes.

Estimación de la ecuación de regresión muestral

Consiste en determinar los valores de “a” y “β” a partir de la muestra, es decir,


encontrar los valores de a y b con los datos observados de la muestra. El método de
estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

b
 x yi i  n  xi  y i
a  y i  b xi
x i
2
 n  xi
2

Y la ecuación que estime una línea de predicción será:



Y  abx

Considere también el siguiente método alternativo, de sistema de ecuaciones lineales


para estimar “a” y “b”, por el método convencional que guste (Método de Crammer
es el más fácil):

x b   y
na  i i

x a  x b  x  y
i
2
i i i
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

3.1.3 Interpretación del error estándar de la estimación

Como se aplicaba en la desviación estándar; mientras más grande sea el error estándar
de estimación (Se), mayor será la dispersión de los puntos alrededor de la línea de
regresión. De manera que inversa, si Se = 0, esperemos que la ecuación de estimación
sea un estimador perfecto de la variable dependiente. En este caso todos lo puntos
deben caer en la línea de regresión y no habría puntos dispersos.

Usaremos el error estándar como una herramienta de igual forma que la desviación
estándar. Esto suponiendo que los puntos observados están distribuidos normalmente
alrededor de la línea de regresión, podemos encontrar un 68% de los puntos en ± 1
Se, 95.5% en ± 2 Se y 99.7% de los puntos en ± 3 Se. Otra cosa que debemos
observar es que el error estándar de la estimación se mide a lo largo del eje Y, y no
perpendicularmente de la línea de regresión.
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

3.1.4 Intervalos de predicción aproximados

Una forma de ver el error estándar de la estimación es concebirla como la herramienta


estadística que podemos usar para hacer un enunciado de probabilidad sobre el
intervalo alrededor del valor estimado dentro del cuál cae el valor real de Y.

Cuando la muestra es mayor de 30 datos, se calcula los intervalos de predicción


aproximados de la siguiente manera:

Si queremos estar seguros en aproximadamente 65% de que el valor real de Y caerá


dentro de ± 1 error estándar. Podemos calcular los limites superior e inferior de este
intervalo de predicción de la siguiente manera:

= Limite superior del intervalo de predicción


= Limite inferior del intervalo de predicción
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

Si, en lugar decimos que estamos seguros en aproximadamente 95.5% de que el dato
real estará dentro de ± 2 errores estándar de la estimación. Podríamos calcular los
limites de este intervalo de la siguiente manera:

= Limite superior del intervalo de predicción


= Limite inferior del intervalo de predicción

y por ultimo decimos que estamos seguros en aproximadamente el 99.7% cuando


usamos ± 3 errores estándar de la estimación de Podríamos calcular los limites de este
intervalo de la siguiente manera:

= Limite superior del intervalo de predicción


= Limite inferior del intervalo de predicción
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

3.1.5 Análisis de correlación

El análisis de correlación es la herramienta estadística que podemos usar para


describir el grado hasta el cual una variable esta linealmente relacionada con la otra.
Con frecuencia el análisis de correlación se utiliza junto con el análisis de regresión
para medir que tan bien la línea de regresión explica los cambio de la variable
dependiente Y. Sin embargo, la correlación también se puede usar sola para medir el
grado de asociación entre dos variables.

Los estadísticos han desarrollado dos medidas para describir la correlación entre dos
variables: el coeficiente de determinación y el coeficiente de correlación.

R
nx y  x  y
i i i i

n   x   x  n   y   y 
2 2 2 2
i i i i
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

3.1.6 Paquete computacional para la solución de problemas

Insisto: Eso de andar con mi laptop y mi cañón, haciéndolo todo sin saber que hacen
mis alumnos y ellos sin comprender de dónde salen los resultados no va conmigo,
pero si quieren un paquete computacional, nada como Excel, cuando quieran clases
avísenme, también soy una fiera en eso, y en mis clases se aprende arrastrando lápiz,
usando calculadora y razonando, no como en otras clases donde, bueno, mejor omito
mis comentarios!!!

Ejemplo 26: Los datos de la tabla siguiente proporcionan información sobre el


tiempo, en horas, que un grupo de alumnos estudió para un examen parcial y la
calificación obtenida en el mismo. Construya una línea y ecuación de regresión para
estimar la calificación de ellos si las horas de estudio hubiesen sido de 5.5, 7.5 y 8.5
horas. (Tabla en el Ejemplo 25).
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

H. Estudio Calificación
xi yi x2i y2i xi*yi Ŷ Residuales
0.5 50 0.25 2500 25 47.5989 2.4011
1 45 1 2025 45 50.2643 -5.2643 b= 5.3309
1.5 60 2.25 3600 90 52.9298 7.0702
2 60 4 3600 120 55.5952 4.4048 a= 44.9334
2.5 55 6.25 3025 137.5 58.2607 -3.2607
3 65 9 4225 195 60.9262 4.0738 Ŷ = a + bx
3.5 60 12.25 3600 210 63.5916 -3.5916
5 55 25 3025 275 71.5880 -16.5880 R= 0.9156
6 75 36 5625 450 76.9189 -1.9189
6.5 85 42.25 7225 552.5 79.5843 5.4157 R2 = 0.8383
7 90 49 8100 630 82.2498 7.7502
8 85 64 7225 680 87.5807 -2.5807
9 95 81 9025 855 92.9116 2.0884
Σ 55.5 880 332.25 62800 4265
Medias 4.2692 67.6923 25.5577

xi Ŷ
5.5 74.2534
7.5 84.9153
8.5 90.2462
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

Método Alternativo Utilizando Ecuaciones de Primer Grado con 2 Incógnitas


(Método de Crammer)

x b   y
na  i i 13a  55.5b  880
x a  x b  x  y
i
2
i i i 55.5a  332.25b  4,265

880 55.5
4,265 332 .25 880  332.25  4,265  55.5 55,672.5
a    44.9334
13 55.5 13  332.25  55.5  55.5 1,239
55.5 332.25

13 880

b
55.5 4,265

13  4,265   880  55.5  6,605  5.3309
13 55.5 13  332.25  55.5  55.5 1,239
55.5 332.25
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

Análisis Residual
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

3.1.7 Regresión múltiple y análisis de correlación

Otro método para hacer pronósticos es la regresión múltiple en cuyo caso


consideraremos una serie de variables así como sus efectos de cada una en cuestión.
Esto es conveniente cuando una serie de factores influyen en una variable de interés.

Para este estudio consideraremos primordialmente a 2 variables que afectan a una


variable en particular:

y  a0  a1 x1  a2 x2

n x x
1 2 a0 y
x 1 x x  x
2
1 1 2  a1  x  y
1

x 2 x  x x
1 2
2
2 a2 x  y
2
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

La ecuación de Regresión múltiple para 2 incógnitas es la siguiente:

x a  x a   y
n  a0  1 1 2 2

x a  x a  x  x a  x  y
1 0
2
1 1 1 2 2 1

x a  x  x a  x a  x  y
2 0 1 2 1
2
2 2 2

Y él método de solución más óptimo es el Método de Crammer:

n x x
1 2 y x x 1 2

x 1 x x x
2
1 1 2 x  y x x x
1
2
1 1 2
D  x 2 x x x
1 2
2
2 x  y x x x
2 1 2
2
2
n x x
1 2 y x x 1 2

x 1 x x x
2
1 1 2
a 
 x y  x 1 x x 2
1 1 2
0
D
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

n y x 2 n x 1y
x 1 x  y
1 x x
1 2 x 1 x x  y
2
1 1

x 2 x  y
2 x 2
2 x 2 x x x  y
1 2 2
n y x 2 n x 1y
a
 x 1 x  y
1 x x
1 2
a 
 x 1 x x  y
2
1 1
1 2
D D

Ejemplo 27: Telmex ha estado reportando que la contratación de servicio de Internet


de Alta Velocidad en los últimos 6 periodos (meses), dependen de la velocidad de
banda en GBps y la capacidad de los Procesadores en la PC en Ghz. Realice cálculos
de regresión múltiple para pronosticar los siguientes 3 periodos.
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

Contrataciones Y GBps x1 Ghz x2 x1x2 x1² x2² x1y x2y

345 0.5 2.2 1.100 0.2500 4.84 172.50 759.00


360 0.45 2.1 0.945 0.2025 4.41 162.00 756.00
375 0.6 2.3 1.380 0.3600 5.29 225.00 862.50
350 0.9 2.6 2.340 0.8100 6.76 315.00 910.00
365 0.75 2.4 1.800 0.5625 5.76 273.75 876.00
380 0.8 2.5 2.000 0.6400 6.25 304.00 950.00
Totales 2,175 4 14.1 9.565 2.825 33.31 1,452.25 5,113.50

? 1 2.8
? 0.65 2.4
? 1.1 2.9
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

La ecuación de Regresión múltiple para 2 incógnitas es la siguiente:

6a0  4a1  14.1a2  2,175


4a0  2.825a1  9.565a2  1,452.25
14.1a0  9.565a1  33.31a2  5,113.5

Y él método de solución más óptimo es el Método de Crammer:

2,175 4 14.1
1452 .25 2.825 9.565
5113 .5 9.565 33.31
6 4 14.1
2,175 4 14.1
4 2.825 9.565
1452 .25 2.825 9.565 1.17275000
D  14.1 9.565 33.31  0.00289999 a0    404.3965518
D 0.00289999
6 4 14.1
4 2.825 9.565
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

6 2,175 14.1
4 1,452.25 9.565
14.1 5,113.5 33.31
6 2,175 14.1
4 1,452.25 9.565 0.13499999
a1    46.55172412
0.00289999 0.00289999

6 4 2,175
4 2.825 1452 .25
14.1 9.565 5,113.5
6 4 2,175
4 2.825 1452 .25  0.089999999
a2   31.03448275
0.00289999 0.00289999
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

Por lo tanto, la ecuación para estimar los siguientes tres contratos es:

Y  404.39655171  46.55172412 x1  31.03448275 x2

Y las contrataciones son:

Contrataciones Y GBps x1 Ghz x2

364.0517 1 2.8
360.1724 0.65 2.4
365.6034 1.1 2.9
Unidad 3: Análisis de regresión, correlación lineal simple y múltiple

Los puntos en de las 3 variables quedarían (MiniTAB)


Unidad 4

Series de tiempo
Unidad 4: Series de tiempo

4.1 Modelo clásico de series de tiempo

Con frecuencia se realizan observaciones de datos a través del tiempo. Cualquier


variable que conste de datos reunidos, registrados u observados sobre incrementos
sucesivos de tiempo se denomina serie de tiempo.

Una serie de tiempo es un conjunto de observaciones producidas en determinados


momentos durante un periodo, semanal, mensual, trimestral o anual, generalmente a
intervalos iguales.

Si bien el comportamiento de cualquier serie de tiempo puede observarse


gráficamente, no en todos los casos es posible distinguir las particularidades que cada
una puede contener. La experiencia basada en muchos ejemplos se series de tiempo,
sin embargo, ha revelado que existen ciertos movimientos o variaciones
características que pueden medirse y observarse por separado. Estos movimientos,
llamados a menudo componentes, de una serie de tiempo y que se supone son
causados por fenómenos distintos.
Unidad 4: Series de tiempo

El primer paso para analizar una serie de tiempo es graficarla, esto permite:
identificar la tendencia, la estacionalidad, las variaciones irregulares (componente
aleatoria). Un modelo clásico para una serie de tiempo, puede ser expresada como
suma o producto de tres componentes: tendencia, estacional y un término de error
aleatorio.

En el análisis de series de tiempo de datos, una tentación inmediata consiste en


intentar explicar o contabilizar el comportamiento de las series. La descomposición
clásica es un método que se basa en la suposición de que se pueden descomponer en
componentes como tendencia, ciclo, estacionalidad e irregularidad. Una predicción se
hace mediante la combinación de las proyecciones de cada componente individual.
Unidad 4: Series de tiempo

4.2 Análisis de tendencia

De forma amplia podemos definir la tendencia como aquella componente que recoge
el comportamiento de la serie a largo plazo. Para poder detectarla es necesario que la
serie conste de un número de observaciones elevado, a lo largo de muchos años, para
que se puede determinar si la serie muestra un movimiento a largo plazo que responda
a una determinada ley de crecimiento, decrecimiento o estabilidad. Ese
comportamiento tendencial puede responder a distintos perfiles: lineal, exponencial,
parabólico, logístico, etc.

Para el ejemplo del paro registrado en la Figura 1, puede observase que la tendencia
de esa serie a lo largo de esos seis años (este periodo de tiempo no es muy largo para
hablar de tendencia a largo plazo) es prácticamente una línea recta con pendiente
negativa, aunque el ritmo de decrecimiento no solo se reduce al final del periodo sino
que a lo largo de 2002 parece tener lugar un incipiente cambio de tendencia.
Unidad 4: Series de tiempo

O sea, que se tiene una serie que es, básicamente, decreciente para el periodo
considerado. Mediante la tendencia se puede ver si la serie es estacionaria o
evolutiva. Al considerar estos movimientos a largo plazo, prescindiremos de las
variaciones a corto y medio plazo.

Figura 1:
Unidad 4: Series de tiempo

4.3 Análisis de variaciones cíclicas

Esta componente tiene un marcado carácter económico, pues suele ser el resultado de
la sucesión de las fases expansivas y recesivas de la economía.

Son movimientos a plazo medio, periodos superiores al año, que se repiten de forma
casi periódica, aunque no son tan regulares como las variaciones estacionales. Esta
componente resulta difícil de aislar, pues ocurre, con frecuencia, que se pueden
superponer ciclos de distintos periodos o amplitudes. La amplitud es el número de
años que dura un ciclo completo.

En nuestro ejemplo no se detecta de forma clara la presencia de ciclos, bien sea


porque el periodo de tiempo estudiado sea muy corto o porque realmente no hay
ciclos, aunque lo más verosímil en este caso sea la primera razón, pues el empleo
responde a los ciclos de la economía.
Unidad 4: Series de tiempo

4.4 Medición de variaciones estacionales

Son movimientos de la serie que se repiten de forma periódica. La razón de estas


variaciones se basa en causas de tipo climatológico (producción, turismo, etc.) o de
ordenación del tiempo (los días de la semana condiciona el comportamiento de ciertas
series).

La periodicidad generalmente es el año, aunque puede ser el mes, la semana o incluso


el día. En el ejemplo de la Figura 1 se observa un patrón de estacionalidad bastante
bien definido: el paro registrado desciende notablemente en los meses estivales y el
resto del año se mantiene en niveles más elevados, salvo en el mes de diciembre que,
de forma sistemática es algo más reducido que en los anteriores y posteriores.
Unidad 4: Series de tiempo

4.5 Aplicación de ajustes estacionales


Unidad 4: Series de tiempo

Proceso de Ajuste Estacional:


Unidad 4: Series de tiempo

4.6 Promedios móviles

El método más sencillo para el pronóstico de series de tiempo es el método de


promedios móviles. Para éste se supone que la serie de tiempo solamente cuenta con
un componente de un nivel, además de un componente aleatorio. No se supone la
existencia de patrones estacionales, tendencias o ciclos en los datos sobre la demanda.

Cuando se utiliza un promedio móvil, se selecciona un número de periodos N para los


cálculos, Entonces la demanda promedio A para los periodos anteriores en el
momento t se calcula de la siguiente manera:
Unidad 4: Series de tiempo

Cuando se supone que la serie de tiempo es plana (u horizontal), el mejor pronóstico


para t+1 es simplemente una continuación de la demanda promedio que se observa a
lo largo del periodo t. De esta manera se tiene:
Unidad 4: Series de tiempo

Ejemplo 28:
Periodo Demanda Dt Promedio Móvil para Pronóstico para Error
3 periodos At 3 periodos Ft
1 10
2 18
3 29 19
4 15 20.7 19 -4
5 30 24.7 20.7 9.3
6 12 19 24.7 -12.7
7 16 19.3 19 -3
8 8 12 19.3 -11.3
9 22 15.3 12 10
10 14 14.7 15.3 -1.3
11 15 17 14.7 0.3
12 27 18.7 17 10
13 30 24 18.7 11.3
14 23 26.7 24 -1
15 15 22.7 26.7 -11.7
Unidad 4: Series de tiempo

Datos de Series de Tiempo


35

30
Demanda
25
Promedio Móvil
20 para 3 periodos
Demanda

Pronóstico para 3
15 periodos

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Unidad 4: Series de tiempo

4.7 Suavización exponencial como pronóstico

El Suavizamiento Exponencial se fundamenta en la sencilla idea de que es posible


calcular un nuevo promedio a partir de otro antiguo y la demandas observada más
reciente; se supone que la serie de tiempo es plana, no tiene ciclos ni componentes de
tendencia o estacionalidad, luego el pronóstico de suavizamiento exponencial para el
periodo siguiente es simplemente el promedio que se obtiene a través del periodo
actual.

Donde:

Y α la ponderación de peso que se le dará a las nuevas demandas frente al promedio


antiguo.
Unidad 4: Series de tiempo

Ejemplo 29: Bimbo, S. A. de C. V. reporta la demanda de sus “Panques relleno de


Chocolate” en los pasados 15 periodos (semanas). Ajuste mediante suavización
exponencial y pronostique las demandas de los siguientes 15 periodos con un peso de
α=0.1 y 0.3.
α=0.1 α=0.3
Periodo Demanda Pronóstico 0.1 Error Pronóstico 0.3 Error
1 10 15 -5.00 15 -5.00
2 18 14.50 3.50 13.50 4.50
3 29 14.85 14.15 14.85 14.15
4 15 16.27 -1.27 19.10 -4.10
5 30 16.14 13.86 17.87 12.13
6 12 17.52 -5.52 21.51 -9.51
7 16 16.97 -0.97 18.65 -2.65
8 8 16.87 -8.87 17.86 -9.86
9 22 15.99 6.01 14.90 7.10
10 14 16.59 -2.59 17.03 -3.03
11 15 16.33 -1.33 16.12 -1.12
12 27 16.20 10.80 15.78 11.22
13 30 17.28 12.72 19.15 10.85
14 23 18.55 4.45 22.40 0.60
15 15 18.99 -3.99 22.58 -7.58
Unidad 4: Series de tiempo

Suavización Exponencial de la Demanda


32.5
30
27.5
25
22.5
20
Demanda

17.5
Demanda
15 Pronóstico 0.1
12.5 Pronóstico 0.3
10
7.5
5
2.5
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Periodos
Unidad 5

Estadística no paramétrica
Unidad 5:Estadística no paramétrica

5.1 Escala de medición

Una escala puede concebirse como un continuo de valores ordenados


correlativamente que admite un punto inicial y otro final. Si evaluamos el
rendimiento académico de estudiantes podemos asignar el valor cero al mínimo
rendimiento imaginable al respecto; al mayor rendimiento posible podemos atribuirle
un valor de 100, 20, 10 o 7 puntos, según resulte más práctico. Con estos dos valores
tendríamos ya marcados los límites de nuestra escala; para concluir de confeccionarla
será necesario asignar a los posibles rendimientos intermedios puntajes también
intermedios. Con ello obtendremos una escala capaz de medir la variable rendimiento
académico a través de los indicadores concretos de los trabajos presentados por los
estudiantes, de sus exámenes, pruebas y otras formas de evaluación posibles.

Para que una escala pueda considerarse como capaz de aportar información objetiva
debe reunir los dos siguiente requisitos básicos:
Unidad 5:Estadística no paramétrica

Confiabilidad: se refiere a la consistencia interior de la misma, a su capacidad para


discriminar en forma constante entre un valor y otro."Cabe confiar en una escala –
anotan Goode y Hatt- cuando produzca constantemente los mismos resultados al
aplicarla a una misma muestra", es decir, cuando siempre los mismos objetos
aparezcan valorados en la misma forma.

Validez: indica la capacidad de la escala para medir las cualidades para las cuales ha
sido construida y no otras parecidas. Una escala confusa no puede tener validez, lo
mismo que en una escala que esté midiendo, a la vez e indiscriminadamente, distintas
variables superpuestas. "Una escala tiene validez cuando verdaderamente mide lo que
afirma medir".

Existen diferentes tipos de escalas que se distinguen de acuerdo a la rigurosidad con


que han sido construidas y al propio comportamiento de las variables que miden. Se
acostumbra a clasificarlas en cuatro tipos generales que son los siguientes: escalas
nominales, ordinales, de intervalos iguales y de cocientes o razones.
Unidad 5:Estadística no paramétrica

Escalas nominales son aquellas en que sólo se manifiesta una equivalencia de


categorías entre los diferentes puntos que asume la variable. Es como una simple lista
de las diferentes posiciones que pueda adoptar la variable, pero sin que en ella se
defina ningún tipo de orden o de relación.

Si es una investigación sobre producción agrícola queremos determinar los cereales


que se cultivan en una cierta región, tendremos una variable que se designará como
"cereal cultivado". Los distintos valores que esa variable reconoce serán,
concretamente: trigo, maíz, centeno, etc.

Entre estos valores no cabe obviamente ninguna jerarquía, no se puede trazar ningún
ordenamiento. Sin embargo, a la enunciación explícita de todas estas posibilidades la
consideramos como una escala, pues de algún modo es útil para medir el
comportamiento de la variable, indicándonos en que posición se halla en cada caso.
Unidad 5:Estadística no paramétrica

Las escalas ordinales distinguen los diferentes valores de la variable jerarquizándolos


simplemente de acuerdo a un rango. Establecen que existe una gradación entre uno y
otro valor de la escala, de tal modo que cualquiera de ellos es mayor que el
precedente y menor que el que le sigue a continuación.

Sin embargo la distancia entre un valor y otro no queda definida sino que es
indeterminada. En otras palabras, tales escalas nos esclarecen solamente el rango que
las distintas posiciones guardan entre sí. Un ejemplo de escala ordinal es el que suele
usarse para medir la variable "grado de escolaridad": podemos decir que una persona
que ha tenido 2 años de instrucción escolar ha recibido más instrucción que quien
solo tiene un año y menos que quien posee tres. Sin embargo no puede afirmarse
válidamente que la diferencia entre quien posee 2 años de instrucción y quien ha
recibido un año es igual a la diferencia entre quienes han recibido 16 y 17años de
educación formal. Por tanto, como no podemos determinar la equivalencia entre las
distancias que separan un valor de otro, debemos concluir que la escala pertenece a la
categoría ordinal.
Unidad 5:Estadística no paramétrica

Las escalas de intervalos iguales, además de poseer la equivalencia de categorías y el


ordenamiento interno entre ellas, como en el caso de las ordinales, tienen las
características de que la distancia entre sus intervalos está claramente determinada y
que estos son iguales entre sí.

Un ejemplo típico de las escalas de intervalos iguales esta dado por las escalas
termométricas. Entre 23 y 24 grados centígrados, por ejemplo, existe la misma
diferencia que hay entre 45 y 46 grados. Muchas otras escalas, como las que se
utilizan en los test psicológicos y de rendimiento, pertenecen a este tipo. La
limitación que poseen es que no definen un cero absoluto, un valor límite que exprese
realmente la ausencia completa de la cualidad medida. Por ello no se pueden
establecer equivalencias matemáticas como las de la proporcionalidad: no puede
afirmarse que 24° C es el doble de temperatura que 12° C, porque el cero de la escala
es un valor arbitrario y no se corresponde con la ausencia absoluta de la variable que
se mide.
Unidad 5:Estadística no paramétrica

Por último tenemos las escalas de cocientes, llamadas también de razones. En ellas se
conservan todas las propiedades de los casos anteriores pero además se añade la
existencia de un valor cero real, con lo que se hacen posibles ciertas operaciones
matemáticas, tales como la obtención de proporciones y cocientes.

Esto quiete decir que un valor de 20 en una escala de este tipo es el doble de un valor
de 10, o de las dos terceras partes de un valor de 30. Son escalas de cocientes las que
miden la longitud, la masa, la intensidad de corriente eléctrica y otras variables del
mundo físico. Difícilmente las variables que intervienen en las ciencias sociales son
medidas con escalas de razones, pues son contados los casos en que dichas variables
pueden ser definidas con la exactitud y precisión necesarias. La economía y la
demografía son, entre estas disciplinas, las que más utilizan escalas de razones.
Unidad 5:Estadística no paramétrica

5.2 Métodos estadísticos contra no paramétricos

La estadística proporciona herramientas que formalizan y uniforman los


procedimientos para sacar conclusiones.

En el desarrollo de los métodos estadísticos modernos, las primeras técnicas de


inferencia que aparecieron fueron las paramétricas, puesto que los valores de la
población de la que se obtuvieron los puntajes, se conocen como parámetros.

Sin embargo, más recientemente se ha presenciado el desarrollo de gran número de


técnicas de inferencia que no hacen suposiciones numerosas ni severas acerca de los
parámetros. Estas nuevas distribuciones libres o técnicas no paramétricas permiten
sacar conclusiones de las que hay menos reservas.
Unidad 5:Estadística no paramétrica

PARAMÉTRICAS NO PARAMÉTICAS
Al computarlas: se suman, se dividen y se Se fija el orden o rango de los puntajes,
multiplican los puntajes de las muestras. sin considerar el valor numérico.
Por lo tanto, sólo deben usarse puntajes Existen otras técnicas en las que ni
que sean verdaderamente numéricos. siguiera es posible meter orden (por
Cuando estas operaciones aritméticas se ejemplo, con datos clasificatorios).
hacen con puntajes que no son
verdaderamente numéricos, ocasionan
naturalmente deformaciones de los datos
y menoscaban el valor de las
conclusiones de la prueba.

Fija su atención en la diferencia de las Fija su atención en la diferencia de las


medias de dos conjuntos de puntajes. medianas.
Unidad 5:Estadística no paramétrica

5.3 Prueba de corridas para aleatoriedad

Una corrida es una serie de observaciones similares. La prueba de corridas se usa para
probar la aleatoriedad de una serie de observaciones cuando cada observación puede
ser asignada a una de dos categorías.

El estadístico de prueba será:

P( V ≤ v) cuando Ho es verdadera, y v = 2, 3, 4, … 20 corridas. Considere que n1 es el


número de símbolos asociados a con la categoría que ocurre menos, y n2 el número
de símbolos que pertenece a la otra categoría.

Ejemplo 30: Se ajusta una máquina para despachar adelgazante de pintura acrílica en
un recipiente. ¿Diría usted que la cantidad de adelgazante que está siendo despachada
por máquina varía aleatoriamente, si los contenidos de los siguientes15 recipientes se
miden y se encuentra que son: 3.6, 3.9, 4.1, 3.6, 3.8, 3.7, 3.4, 4.0, 3.8, 4.1, 3.9, 4.0,
3.8, 4.2 y 4.1 litros? Utilice un α del 1%
Unidad 5:Estadística no paramétrica

Solución:
Unidad 5:Estadística no paramétrica

5.1
Unidad 5:Estadística no paramétrica

5.1
Unidad 5:Estadística no paramétrica

5.1
Unidad 5:Estadística no paramétrica

5.1
Unidad 5:Estadística no paramétrica

5.1
Unidad 5:Estadística no paramétrica

5.1

También podría gustarte