Probabilidad y Estadistica II

PROBABILIDAD Y
ESTADÍSTICA II
Guía de Clases
2020
Prof. Lic. Pedro Nelson Cáceres Recalde
RESUMEN
El propósito de esta guía es la de facilitar el proceso de enseñanza aprendizaje, tanto para el
docente y para el estudiante, ya que con esto se evitará la fatiga de estar anotando las clases
dictadas en clases, también permitirá administrar el tiempo y de sarrollar mejor las actividades
programadas. La estructura del documento está hecha de la siguiente manera: una portada por cada
capítulo describiendo las competencias a lograr, luego el desarrollo del capítulo seguida de ejemplos
resueltos en computadora (Excel), a estos le sigue los ejercicios propuestos, y por último, una hoja
para evaluar los logros de las competencias propuesta para cada capítulo. En ella se estudian la parte
inferencial de la estadística (intervalos de confianza y pruebas de hipótesis), pruebas de bondad de
ajustes y análisis de tablas de contingencia, control estadístico de calidad y muestreo para aceptación
seguida de los diseños de experimentos y como cierre el análisis de regresión y correlación lineal
(simple y múltiple).
CONTENIDOS
CAPITULO 1: ESTIMACIÓN PUNTUAL Y POR INTERVALO ......................................................... 1

COMP ETENCI AS ................................................................................................................................................................... 1
1. Estimación puntual y por in tervalo ............................................................................................................................... 2

1.1. Introducción.............................................................................................................................................................. 2
1.2. Propiedades deseables de los estimadores puntuales ..................................................................................... 2
1.2.1. Estimadores insesgados ................................................................................................................................. 3
1.2.2. Estimadores consistentes .............................................................................................................................. 4
1.2.3. Estimadores insesgados de varianza mínima ............................................................................................. 4
1.2.4. Estadísticas suficientes ................................................................................................................................... 5
1.3. Métodos de estimación puntual ........................................................................................................................... 5
1.4. Estimación por intervalo....................................................................................................................................... 10
1.4.1. Intervalos de confianza para µ cuando se muestrea una distribución normal con varianza
conocida ..................................................................................................................................................................... 10
1.4.2. Intervalos de confianza para cuando se muestrea una distribución normal con varianza
desconocida............................................................................................................................................................... 13
1.4.3. Intervalos de confianza para la diferencia de medias cuando se muestrean dos distribuciones
normales independientes con varianzas conocidas ........................................................................................... 13
1.4.4. Intervalos de confianza para la diferencia de medias cunado se muestrean dos poblaciones
normales independientes con varianzas desconocidas pero consider adas iguales ..................................... 15
1.4.5. Intervalos de confianza para cuando se muestrea una distribución normal con media
desconocida............................................................................................................................................................... 17
1.4.6. Intervalos de confianza para el cociente de dos varianzas cuando se muestrean dos
distribuciones normales independientes ............................................................................................................. 17
1.4.7. Intervalos de confianza para el parámetro de proporción “p” cuando se muestrea una
distribución binomial ............................................................................................................................................... 19
1.4.7.1. Tamaño de muestra para una distribución binomial ..................................................................... 19
1.5. Estimación Bayesiana............................................................................................................................................ 20
1.5.1. Estimación puntual bayesiana .................................................................................................................... 20
1.5.2. Estimación bayesiana por intervalo ........................................................................................................... 21
1.6. Límites estadísticos de tolerancia ....................................................................................................................... 21
1.6.1. Límites de tolerancia independientes de la distribución ....................................................................... 21
1.6.2. Límites de tolerancia cuando se muestrea una distribución normal ................................................... 22
1.7. Ejercicios.................................................................................................................................................................. 23
EVALUACI ÓN DE LOGROS DE LAS C OMPETENCIAS PROPUESTAS ......................................................................................... 28
CAPITULO 2: PRUEBA DE HIPÓTESIS ESTADÍSTICA ................................................................. 29

COMP ETENCI AS ................................................................................................................................................................. 29
2. Prueba de hipótesis estadísticas ................................................................................................................................. 30

2.1. Conceptos básicos para la prueba de hipótesis estadística ........................................................................... 30
2.2. Tipos de regiones críticas y función potencia................................................................................................... 30
2.3. Principios generales para probar una hipótesis nula contra un hipótesis alternativa .............................. 31
2.4. Pruebas de hipótesis para la media de una población normal...................................................................... 32
2.4.1. Tamaño de muestra para estimar µ en función del error para hipótesis de dos colas... 33
2.4.2. Tamaño de muestra para estimar µ en función del error para hipótesis de una cola .... 33
2.4.3. Prueba de hipótesis para la media cuando se muestrea una población normal con varianza
conocida ..................................................................................................................................................................... 33
2.4.3.1. Regla de decisión................................................................................................................................... 33
2.4.3.1.1. Para hipótesis de dos colas ......................................................................................................... 33
2.4.3.1.2. Para hipótesis de cola izquierda................................................................................................. 34
2.4.3.1.3. Para hipótesis de cola derecha................................................................................................... 34
2.4.4. Prueba de hipótesis para la media cuando se muestrea una población normal con varianza
desconocida............................................................................................................................................................... 36
2.5. Prueba de hipótesis para la varianza cuando se muestrea una población normal ................................... 39
2.5.1. El estadístico de prueba: .............................................................................................................................. 40
2.5.2. Regla de decisión ........................................................................................................................................... 40
2.5.2.1. Hipótesis de dos colas .......................................................................................................................... 40
2.5.2.2. Hipótesis de cola izquierda.................................................................................................................. 40
2.5.2.3. Hipótesis de cola derecha.................................................................................................................... 40
2.6. Prueba de hipótesis para la proporción cuando se muestrea una población con distribución binomial
.......................................................................................................................................................................................... 41
2.6.1. Regla de decisión ........................................................................................................................................... 42
2.6.1.1. Para hipótesis de dos colas ................................................................................................................. 42
2.6.1.2. Para hipótesis de cola izquierda ......................................................................................................... 42
2.6.1.3. Para hipótesis de cola derecha ........................................................................................................... 42
2.7. Pruebas de hipótesis para la diferencia de medias cuando se muestrean dos poblaciones normales . 44
2.7.1. Prueba de hipótes is para dos medias cuando se muestrean dos poblaciones normales
independientes con varianzas conocidas............................................................................................................. 44
2.7.2. Tamaño de muestra para prueba de hipótesis de dos medias con poblaciones normales
independientes ......................................................................................................................................................... 45
2.7.3. Prueba de hipótesis para dos medias cuando se muestrean dos poblaciones normales
independientes con varianzas desconocidas....................................................................................................... 47
2.8. Prueba de hipótesis para dos varianzas cuando se muestrean dos poblaciones normales
independientes .............................................................................................................................................................. 49
2.8.1. Reglas de decisión ......................................................................................................................................... 49
2.8.1.1. Hipótesis de dos colas .......................................................................................................................... 49
2.8.1.2. Hipótesis de cola izquierda.................................................................................................................. 50
2.8.1.3. Hipótesis de cola derecha.................................................................................................................... 50
2.9. Prueba de hipótesis para dos proporciones cuando se muestrean dos poblaciones binomiales
independientes .............................................................................................................................................................. 52
2.9.1. Estadístico de prueba ................................................................................................................................... 52
2.9.1.1.1. Hipótesis de dos colas .................................................................................................................. 52
2.9.1.1.2. Hipótesis de cola izquierda ......................................................................................................... 52
2.9.1.1.3. Hipótesis de cola derecha............................................................................................................ 53
2.10. Ejercicios ............................................................................................................................................................... 54
CAPITULO 3: PRUEBAS DE BONDAD DE AJUSTE Y ANÁLISIS DE TABLA DE CONTINGENCIA . 62

COMP ETENCI AS ................................................................................................................................................................. 62
3. Pruebas de bondad de ajuste y análisis de tabla de contingencia ........................................................................ 63

3.1. La prueba de bondad de ajuste chi -cuadrada .................................................................................................. 63
3.1.1. Formulación de las hipótesis ....................................................................................................................... 63
3.1.1.1. Estadístico de prueba ........................................................................................................................... 63
3.1.1.2. Criterio de decisión............................................................................................................................... 63
3.2. La estadística de Kolmogorov-Smirnov.............................................................................................................. 65
3.2.1. Formulación de las hipótesis ....................................................................................................................... 65
3.2.1.1. Estadística de prueba ........................................................................................................................... 65
3.3. La prueba chi-cuadrada para el análisis de tablas de contingencia con dos criterios de clasificación... 65
3.3.1. Planteamiento de la hipótesis..................................................................................................................... 65
3.3.1.1. Estadística de prueba ........................................................................................................................... 66
3.4. Ejercicios.................................................................................................................................................................. 67
CAPITULO 4: MÉTODOS PARA EL CONTROL DE CALIDAD Y MUESTREO PARA ACEPTACIÓN72

COMP ETENCI AS ................................................................................................................................................................. 72
4. Métodos para el control de calidad y muestreo para aceptación ......................................................................... 73

4.1. Tablas de control estadístico ............................................................................................................................... 73
4.1.1. Tablas (media conocida de la población) .............................................................................................. 73
4.1.2. Tablas S (desviación estándar conocida de la población) ...................................................................... 75
4.1.3. Tablas (media y varianza desconocida de la población) ............................................................. 77
4.1.4. Tabla p (no se conoce el valor de P poblacional)..................................................................................... 79
4.2. Procedimiento de muestreo para aceptación .................................................................................................. 80
4.2.1. El desarrollo de planes de muestreo sencillos para riesgos estipulados del productor y del
consumidor ................................................................................................................................................................ 81
4.2.2. Muestreo para aceptación por variables .................................................................................................. 82
4.3. Ejercicios.................................................................................................................................................................. 83
CAPITULO 5: DISEÑO Y ANÁLISIS DE EXPERIMENTOS ESTADÍSTICOS.................................... 88

COMP ETENCI AS ................................................................................................................................................................. 88
5. Diseño y análisis de experimentos estadístico s ........................................................................................................ 89

5.1. Experimentos estadísticos.................................................................................................................................... 89
5.2. Diseños Estadísticos .............................................................................................................................................. 89
5.2.1. Elementos en un diseño estadístico .......................................................................................................... 89
5.2.2. Etapas en el diseño de experimentos ........................................................................................................ 89
5.3. Diseños para comparar más de dos tratamientos en un factor de interés ................................................. 90
5.3.1. Análisis de experimentos unifactorial es en un diseño completamente aleatorio ............................ 90
5.3.1.1. Notación de puntos .............................................................................................................................. 90
5.3.1.2. Arreglo para los datos del diseño completamente al azar ............................................................ 90
5.3.1.3. Modelo estadístico ............................................................................................................................... 91
5.3.1.4. Anova para el diseño completamente al azar.................................................................................. 91
5.3.1.5. Comparaciones o pruebas de rangos múltiples. Método LSD (Diferencia mínima significativa)
................................................................................................................................................................................ 92
5.3.2. Análisis de experimentos con solo un factor en un diseño en bloque completamente aleatorizado
..................................................................................................................................................................................... 94
5.3.2.1. Notación de puntos .............................................................................................................................. 94
5.3.2.2. Arreglo para los datos en un diseño de un factor en bloques completos al azar ..................... 94
5.3.2.3. El modelo estadístico ........................................................................................................................... 94
5.3.2.4. Anova para el diseño de un factor en bloques completos al azar................................................ 94
5.4. Diseños para comparar y analizar efectos de dos o más factores de interés ............................................. 97
5.4.1. Diseños factoriales ........................................................................................................................................ 97
5.4.1.1. Diseños factoriales con dos factores y dos o más niveles ............................................................. 98
5.4.1.1.1. Modelo Estadístico ....................................................................................................................... 98
5.4.1.1.2. Hipótesis a evaluar y análisis de varianza................................................................................. 98
5.4.1.1.3. Notación de puntos ...................................................................................................................... 99
5.5. Ejercicios................................................................................................................................................................102
EVALUACI ÓN DE LOGROS DE LAS C OMPETENCIAS PROPUESTAS .......................................................................................109
CAPITULO 6: ANÁLISIS DE REGRESIÓN-EL MODELO LINEAL SIMPLE ................................... 111

COMP ETENCI AS ...............................................................................................................................................................111
6. Análisis de regresión: el modelo lineal simple ........................................................................................................112

6.1. El significado de la regresión y suposiciones básicas ....................................................................................112
6.2. Estimación por mínimos cuadrados para el modelo lineal simple .............................................................113
6.3. Estimación por máxima verosimilitud para el modelo lineal simple ..........................................................114
6.4. Inferencia estadística para el modelo lineal simple ......................................................................................114
6.4.1. Intervalo de confianza para ................................................................................................................114
6.4.2. Intervalo de confianza para ................................................................................................................115
6.4.3. Prueba de hipótesis para .....................................................................................................................115
6.4.3.1. Hipótesis de dos colas ........................................................................................................................115
6.4.3.2. Hipótesis de cola izquierda................................................................................................................115
6.4.3.3. Hipótesis de cola derecha..................................................................................................................115
6.4.4. El uso de análisis de varianza ....................................................................................................................116
6.4.4.1. Tabla ANOVA para el modelo lineal simple....................................................................................116
6.5. Correlación lineal .................................................................................................................................................116
6.6. Series de tiempo y autocorrelación..................................................................................................................119
6.6.1. Componentes de una serie de tiempo ....................................................................................................119
6.6.2. Modelos estadísticos ..................................................................................................................................119
6.6.3. Estadística de Durbin-Watson...................................................................................................................119
6.6.3.1. Hipótesis planteada para Durbin-Watson ......................................................................................120
6.6.4. Eliminación de la autocorrelación mediante la transformación de datos ........................................120
6.7. Ejercicios................................................................................................................................................................123
CAPITULO 7: ANÁLISIS DE REGRESIÓN-MODELO LINEAL GENERAL..................................... 128

COMP ETENCI AS ...............................................................................................................................................................128
7. Análisis de regresión: el modelo lineal general ......................................................................................................129
7.1. El modelo lineal general .....................................................................................................................................129
8. Bibliografía ....................................................................................................................................................................132
CAPITULO 1: ESTIMACIÓN PUNTUAL Y POR INTERVALO
COMPETENCIAS
Genéricas
 Capacidad de abstracción, análisis y síntesis.
 Capacidad para identificar, plantear y resolver problemas.
Específicas
 Capacidad para trabajar con datos experimentales y contribuir su análisis.
 Capacidad para expresarse correctamente utilizando el lenguaje de la matemática.
 Capacidad para iniciar investigaciones matemáticas bajo orientación de expertos.
1
1. Estimación puntual y por intervalo
1.1. Introducción
Las estadísticas se emplean para estimar los valores de parámetros desconocidos o funciones de
éstos. En este curso se examinará con detalle el concepto de estimación de parámetros mediante
la especificación de las propiedades deseables de los estimadores y el desarrollo de técnicas
apropiadas para implementar el proceso de estimación ya sea puntual o por intervalos.
1.2. Propiedades deseables de los estimadores puntuales

Es posible definir muchas estadísticas para estimar un parámetro desconocido . Por ejemplo,
para un caso particular podría elegirse la mediana muestral para estimar el valor de la media
poblacional. Entonces, ¿Cómo seleccionar un buen estimador de ? ¿Cuáles son los criterios para
juzgar cuando un estimador de es bueno o malo?
Para ampliar, considérese lo siguiente. Sea una muestra aleatoria de tamaño n
proveniente de una población con función de densidad , y sea
cualquier estadística. El problema es encontrar una función u que se a la que proporcione la mejor
estimación de . Al buscar el mejor estimador de se hará uso de una cantidad muy importante
que recibe el nombre de error cuadrático medio de un estimador.
Definición 1: Se T cualquier estimador de un parámetro desconocido . Se define el error
cuadrático medio de T como el valor esperado del cuadrado de la diferencia entre .
Se denotará el error cuadrático medio por:
Puede verse la razón del por qué el error cuadrático medio es una cantidad importante para
enjuiciar a los posible estimadores de mediante el desarrollo de (1)
Al desarrollar el cuadrado del binomio y distribuir el operador E se obtiene
[ ]
El error cuadrático medio de cualquier estimador es la suma de dos cantidades no negativas: una
es la varianza del estimador y la otra es el cuadrado del sesgo del estimador. De manera específica,
la varianza de un estimador debe ser lo más pequeña posible, mientras que la distribución de
muestreo debe concentrarse alrededor del valor del parámetro. Por lo tanto, el problema visto de
manera superficial parece bastante sencillo; esto es, seleccionar como el mejor estimador de , la
estadística que tenga el error cuadrático medio más pequeño posible entre todos los estimadores
factibles. Sin embargo, en realidad el problema es mucho más complicado. Aun si fuese práctico
determinar los errores cuadrático medios de un numero grande de estimadores, para la mayor
parte de las densidades no existe ningún estimador que minimice el error cuadrático medio
para todos los posibles valores de . Es decir, un estimador puede tener un error cuadrático medio
mínimo para algunos valores de , mientras que otro estimador tendrá la misma propiedad, pero
para otros valores de .
A pesar de que el error cuadrático medio sea el concepto más importante, de manera específica
se estudiaran los estimadores insesgados, consistentes, insesgado de varianza mínima y eficientes.
Entonces, con base en lo anterior, se presentará un concepto importante en la estimación puntual
que se conoce como estadísticas suficientes. A lo largo de toda la discusión se supondrá la
existencia de un solo parámetro desconocido. Si embargo, debe notarse que bajo condiciones
2
generales estos conceptos pueden extenderse para incluir un número mayor de parámetros
desconocidos.
1.2.1. Estimadores insesgados

Definición 2: Se dice que la estadística , es un estimador insesgado del
parámetro , si para tosos los posibles valores de . De esta manera, para cualquier
estimador insesgado de , la distribución de muestreo de T se centra alrededor de y
Ejemplo 1:
Demostrar que sin importar la distribución de la población de interés, que la media muestral ̅ es
un estimador insesgado de µ.
Solución
La definición de insesgado sugiere que:
̅
El operador E es distributiva respecto a la sumatoria, entonces
Por tanto: ̅ , es decir ̅ es un estimador insesgado de µ sin importar la distribución de la

población
Ejemplo 2:
Sea una estadística T, una combinación lineal de las variables aleatorias de la muestra de manera
tal que:
Dónde:
Demostrar que T es un estimador insesgado de µ

Ejemplo 3:
∑
Demostrar que la varianza muestral , es un estimador insesgado de
3
1.2.2. Estimadores consistentes
Definición 3: Sea T el estimador de un parámetro , y sea una secuencia de
estimadores que representa a T con base en muestras de tamaño , respectivamente. Se
dice que T es un estimador consistente para si
| |
Para demostrar que ̅ es un estimador consistente de µ, primero se enunciará un importante
teorema conocido como desigualdad de Tchebysheff.
Teorema 1: Sea X una variable aleatoria con una función (densidad) de probabilidad de
manera talque tanto como tienen un valor finito. Entonces
| |
| |
Para cualquier constante
Esta desigualdad es muy importante ya que permite determinar los límites de las probabilidades
de variables aleatorias discretas o continuas sin tener que especificar sus funciones (densidades) de
probabilidad. Este teorema asegura que la probabilidad de que una variable aleatoria se aleje no
más de k desviaciones estándares de la media, es menor o igual a ⁄ para algún valor de
Teorema 2: Sean , n variables aleatorias iid, tales que y
∑
tienen un valor finito para Entonces ̅ es un estimador consistente de µ.
Demostración: se quiere demostrar que:
|̅ |
Dado que ̅ es una variable aleatoria tal que ̅ ̅ ⁄ , se deduce del teorema
de Tchebysheff que
|̅ |
√
Sea √ una constante positiva, en donde es un número real positivo. Entonces
|̅ |
Dado que la varianza tiene un valor finito, tomando límite de esta expresión conforme n tiende a
infinito se tiene
|̅ |
Por lo tanto se concluye por el complemento que
|̅ |
Lo cual implica que ̅ es un estimador consistente de µ.
Este teorema también se conoce como ley de los grandes números. Esto permite determinar el
tamaño necesario de la muestra para asegurar con determinada probabilidad que la media
muestral no se alejaría más allá de una cantidad específica de la media de la población.
1.2.3. Estimadores insesgados de varianza mínima

Definición 4: Sea , una muestra aleatoria de una distribución cuya función (densidad)
de probabilidad es . Sea la estadística un estimador de tal que
es menor que la varianza de cualquier otro estimador insesgado de para
4
todos los posibles valores de . Se dice entonces que T es un estimador insesgado de varianza
mínima de .
Teorema 3: Sea una muestra aleatoria de una distribución con una función de
(densidad) probabilidad . Si T es un estimador insesgado de , entonces la varianza de T
debe satisfacer la siguiente desigualdad
*( ) +
Aquel estimador que cumple con esta condición y es el que tiene la varianza más pequeña entre
todos, entonces se dice que el estimador es de varianza mínima.
Definición 5: Si T es un estimador insesgado del parámetro tal que
*( ) +
Entonces se dice que T es un estimador eficiente de .

De esta manera, el estimador eficiente de es el estimador insesgado de varianza mínima igual al
límite de la restricción dada por Cramer-Rao.
1.2.4. Estadísticas suficientes

Teorema 4: Sea , una muestra aleatoria de una distribución de densidad de
probabilidad . Se dice que la estadística es una estadística suficiente
para si y solo si la función de verosimilitud puede factorizarse de la siguiente forma:
Para cualquier de T y en donde no contiene al parámetro
1.3. Métodos de estimación puntual

En la sección anterior se mencionaron las propiedades deseables de un buen estimador. En esta
sección se estudiará cómo obtener estimadores que, de manera general, tengan buenas
propiedades. Específicamente se considerarán los métodos de máxima verosimilitud y el de
momentos.
1.3.1. Método de máxima verosimilitud

Definición: Sea una muestra aleatoria de una distribución con función de densidad
de probabilidad , y sea la función verosimilitud de la muestra como
función de . Si es el valor de para el cual el valor de la función de
verosimilitud es máxima, entonces es el estimador de máxima verosimilitud
de y t es la estimación de máxima verosimilitud
El método de máxima verosimilitud (MV) tiene la propiedad de proporcionar estimadores que son
funciones de estadísticas suficientes, siempre y cuando el estimador MV sea único. Además, el
método MV proporciona el estimador eficiente, si es que existe. Sin embargo, los estimadores MV
son generalmente sesgados. El procedimiento para obtener este tipo de estimadores es directo.
Debido a la naturaleza de la función verosimilitud se escoge, por lo común, maximizar el logaritmo
natural de . Esto es, en muchas ocasiones es más fácil obtener el estimado MV maximizando
Ejemplo 4:
5
En una secuencia de Bernoulli se observan éxitos en n ensayos. Obtener el estimador de
máxima verosimilitud del parámetro p.
Solución
Primeramente debemos escribir la función de probabilidad de Bernoulli
Ahora hallaremos la función verosimilitud, que no es otra cosa que la productoria de la función de
probabilidad en este caso, de cada observación
Resumiendo algebraicamente queda:

∑ ∑
Para facilitar el procedimiento aplicaremos Ln a la función verosimilitud
[ ∑ ∑ ]
∑ ( ∑ )
Para maximizar esta expresión debemos de derivar, como queremos estimar el valor del
parámetro, entonces consideraremos al parámetro como una variable. Así la derivada es respecto a
P.
∑ ∑
Por la asignatura Cálculo sabemos que la primera derivada es la pendiente de la recta tangente a
la curva en el punto. Ésta pendiente se hace cero en los valores máximos y mínimos de la curva,
entonces debemos igualar a cero la derivada para tratar de obtener el máximo.
∑ ∑
∑ ∑
∑ ∑
∑ ∑ ∑
Ejemplo 5:
Sea , una muestra aleatoria de una distribución normal con una función de densidad
de probabilidad+
6
√
Determinar los estimadores de máxima verosimilitud para
Solución
La función verosimilitud es como sigue:
√ √ √
∑
[ ]
√
∑
[ ] ,[ ] -
√
[ ] * √ + ∑
[ ] ∑
{ [ ]}
∑
∑ ∑
∑
̅
Ahora derivamos respecto a

{ [ ]} ∑
[ ]
∑
[ ]
∑
[ ]
7
1.3.2. Método de los momentos
Quizá el método más antiguo para la estimación de parámetros es el método de los momentos.
Éste consiste en igualar los momentos apropiados de la distribución de la población con los
correspondientes momentos muestrales para estimar un parámetro desconocido de la distribución.
Los momentos están relacionados con los parámetros de la distribución asociada.
Dada una muestra aleatoria , el momento muestral de orden k es:
∑
Definición: Sea una muestra aleatoria de una distribución con función de

probabilidad puntual o función de densidad que depende de m parámetros . Los
estimadores de momentos de son los valores ̂ ̂ ̂ que se obtienen igualando
m momentos poblacionales con los correspondientes momentos muestrales. En general, se
obtienen resolviendo el siguiente sistema de ecuaciones:
∑
( )
Si solo hay un parámetro a estimar, basta con igualar los primeros momentos muestrales y
poblacionales, si hay dos parámetros a estimar, serán necesarios igualar los primeros momentos
muestrales y poblacionales, también los segundos momentos muestrales y poblacionales. En la
mayoría de los casos se quieren estimar uno o dos parámetros como máximo.
Cuando queremos estimar dos parámetros, nos encontramos ante el problema de encontrar el
segundo momento poblacional, es decir no sabemos a qué es igual el segundo momento en la
población. Para solucionar este problema recurriremos siempre a la varianza de la distribuci ón, que
se define en general como sigue:
[ ]
Así, el segundo momento poblacional se obtiene despejando
[ ]
Donde la varianza y la esperanza son conocidas para cualquier distribución.
Ejemplo 6:
Sea una muestra aleatoria de una distribución exponencial de parámetro .
Encuentre el estimador de los momentos para .
Solución
Como se tiene un solo parámetro que estimar, basta plantear una ecuación basada en el primer
momento.
∑
Sabemos que la esperanza de x en la distribución exponencial (Cálculo de probabilidades) es ⁄

Entonces tenemos:
∑
Ahora reemplazaremos por su estimador ̂ , y tenemos:

∑
̂
Despejamos ̂ y se tiene:
8
̂
∑ ̅
Ejemplo 7:
Sea una muestra aleatoria de una distribución gamma . Hallar los
estimadores de los parámetros por el método de los momentos.
Solución
Como hay dos parámetros a estimar, planteamos un sistema de ecuaciones basadas en el primer y
en el segundo momento.
∑
∑
{
Utilizando la esperanza y la varianza de la distribución gamma tenemos:
[ ]
* +
Reemplazando en 1 y 2 se obtiene:
∑
∑
{ * +
Ahora reemplacemos los parámetros por sus estimadores:
∑ ̂
̂
∑ ̂ ̂
[ ]
{ ̂ ̂
Tenemos dos ecuaciones con dos incógnitas, es decir, tiene solución finita.
Resolviendo el sistema de ecuaciones se obtuvo:
̅
̂
∑
̅
̅
̂ ̅̂
∑
̅
Ejemplo 8:
Sea una muestra aleatoria de una distribución uniforme . Encontrar el
estimador utilizando el método de los momentos.
Solución
Como hay un único parámetro a estimar, parece natural plantear una ecuación basada en el
primer momento. Sin embargo, si lo hacemos,
∑
Ya que la esperanza de la distribución uniforme es
9
Observamos que el primer momento no depende de y por lo tanto no podemos despejar a
partir de esta ecuación el estimador del parámetro. En este caso, es necesario plantear una
ecuación basada en el segundo momento:
∑
No conocemos el segundo momento poblacional de la distribución uniforme, pero conocemos la

relación con la varianza.
[ ]
La varianza de la uniforme es:
En este caso es:
Entonces
Ahora reemplazamos por su estimador ̂ tenemos:

∑ ̂
Despejando ̂ se tiene:
∑
̂ √
1.4. Estimación por intervalo

Para la estimación por intervalo se consideran, tanto el estimador puntual del parámetro , como
su distribución de muestreo, con el propósito de determinar un intervalo que, con cierta seguridad,
contiene a .
En palabras esto es, si se obtuviesen muestras del mismo tamaño en forma repetida de una
población, y cada vez que éstas se seleccionan, se calculan los valores específicos para el intervalo
aleatorio, entonces debe esperarse que un de estos intervalos contengan el valor de .
Antes de entrar en los distintos casos de intervalos de confianzas, mencionaremos que los
cuantiles de las distribuciones asociadas a los cálculos de los intervalos lo conseguiremos en la
función estadística de Excel, específicamente en las inversas de las distribuciones asociadas a las
fórmulas de cada intervalo.
1.4.1. Intervalos de confianza para µ cuando se muestrea una distribución normal con
varianza conocida
Sea una muestra aleatoria de una distribución normal con media desconocida µ,
pero con varianza conocida, el intervalo de confianza para µ está dado por:
[ ̅ ⁄ ⁄√ ̅ ⁄ ⁄√ ]
10
Supóngase que se especifica que el muestreo se efectúa sobre una población que tiene una
distribución normal con media µ y varianza conocida . Se desea estimar el tamaño de muestra
necesario de manera tal que, con una probabilidad de , la media muestral ̅ se encuentre en
un intervalo igual a unidades alrededor de la media de la población µ.
⁄
( )
Para una población con distribución no especificada el tamaño de muestra necesario se calcula de
la siguiente manera:
Ejemplo 9:
Los datos que a continuación se dan son los pesos en gramos del contenido de 16 cajas de cereal
que se seleccionaron de un proceso de llenado con el propósito de verificar el peso promedio: 506,
508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509, 496. Si el peso de cada caja es
una variable aleatoria normal con una desviación estándar de 5 g, obtener el intervalo de confianza
del 95% para la media de llenado de este proceso.
Solución
Datos:
.
.
.
La desviación estándar de la población es conocida, entonces es adecuada la utilización del
estadístico Z para la construcción del intervalo de confianza.
Como se calculó en Excel:

LI: =PROMEDIO(A2:A17)-INV.NORM.ESTAND(1-0,05/2)*C4/RCUAD(C3)
LS: =PROMEDIO(A2:A17)+INV.NORM.ESTAND(1-0,05/2)*C4/RCUAD(C3)
Interpretación del intervalo hallado
La probabilidad de que el intervalo (501,30; 506,20) acierte al verdadero valor del promedio de
los pesos en la población es de 95%.
Ejemplo 10:
11
Considere el proceso de selección de una muestra aleatoria de una distribución normal que tiene
una varianza conocida de pero con una media desconocida µ. ¿Cuál debe ser el tamaño de
̅
la muestra para que la media se encuentre dentro de un intervalo igual a dos unidades de la
media poblacional con una probabilidad de por los menos 0,9?
Solución
Calculo en Excel
n: =POTENCIA(INV.NORM.ESTAND(0,95)*RCUAD(B2)/B4;2)}
Serán necesarias siete observaciones para cumplir con los requisitos mencionados, en este caso
se asumió la distribución normal. A continuación para el mismo problema hallaremos el tamaño de
muestra, pero sin considerar la distribución normal de los datos.
Calculo en Excel
n: =B2/((1-0,9)*POTENCIA(B4;2))
Aquí se ve que cuando hay informaciones adicionales sobre el fenómeno a estudiar, siempre el
tamaño de muestra será más pequeño, en este caso la información adicional es la distribución
normal de los datos, y se observa la diferencia, asumiendo distribución normal es necesario tomar
muestras más pequeñas.
12
1.4.2. Intervalos de confianza para cuando se muestrea una distribución normal con
varianza desconocida
Sea una muestra aleatoria de una distribución normal con media desconocida µ, y
varianza también desconocida, el intervalo de confianza para µ está dado por:
[ ̅ ⁄ ⁄√ ̅ ⁄ ⁄√ ]
Ejemplo 11:
Los datos que a continuación se dan son los pesos en gramos del contenido de 16 cajas de cereal
que se seleccionaron de un proceso de llenado con el propósito de verificar el peso promedio: 506,
508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509, 496. Si el peso de cada caja e s
una variable aleatoria normal, obtener el intervalo de confianza del 95% para la media de llenado
de este proceso.
Solución
Calculo en Excel
LI: =PROMEDIO(A2:A17)-INV.T(1-0,05/2;C2-1)*DESVEST.M(A2:A17)/RCUAD(C2)
LS: =PROMEDIO(A2:A17)+INV.T(1-0,05/2;C2-1)*DESVEST.M(A2:A17)/RCUAD(C2)
La interpretación del intervalo obtenido es similar al caso que se halló con Z, pero ahora el
intervalo es más amplio, esto es debido a que la distribución T tiene colas más pesadas que la
distribución Z normal estándar.
1.4.3. Intervalos de confianza para la diferencia de medias cuando se muestrean dos

distribuciones normales independientes con varianzas conocidas
Sean , dos muestras aleatorias de dos distribuciones normales
independientes, con medias y varianzas , respectivamente. El intervalo de
confianza para la diferencia de medias es:
0 ̅ ̅ ⁄ √ ̅ ̅ ⁄ √ 1
Ejemplo 12:
Se piensa que los estudiantes de licenciatura de contaduría pueden esperar un salario promedio
distinto al egresar de la licenciatura, que el que esperan los estudiantes de administración.
13
Recientemente se obtuvieron muestras aleatorias de ambos grupos de un área geográfica
relativamente homogénea, proporcionando los datos que se encuentran en la tabla. Determinar un
intervalo de confianza del 90% para la diferencia entre los salarios promedio para los estudiantes
de contaduría y administración, al egresar de la licenciatura, suponga que las desviaciones típicas
son de 1000 y 1100 respectivamente.
Sa l a ri os a nua l es i ni ci a l es pa ra reci én gra dua dos
Contadores Administradores
16300 13200
18200 15100
17500 13900
16100 14700
15900 15600
15400 15800
15800 14900
17300 18100
14900 15600
15100 15300
16200
15200
15400
16600
Solución
Se pide intervalo de confianza para la diferencia de medias de dos poblaciones, pero en este caso
las varianzas son conocidas, entonces el estadístico adecuado para hallar dicho intervalo es la Z.
Calculo en Excel
LI: =PROMEDIO(A2:A11)-PROMEDIO(B2:B15)-INV.NORM.ESTAND(0 ,95)*RCUAD(B17^2/10+B18 ^2/14)
LS: =PROMEDIO(A2:A11)-PROMEDIO(B2:B15)+INV.NORM.ESTAND(0,95)*RCUAD(B17^2/10+B18^2/14)
Interpretación
14
La probabilidad de que el intervalo (139,795; 1560,204) le contenga a la verdadera diferencia
entre el promedio de salarios iniciales entre contadores y administradores es de 90%. Ahora para
responder al problema planteado, debemos mirar los signos de los valores del intervalo, en este
caso todos son positivos, esto quiere decir que el cero no forma parte, lo cual nos indica que los
promedios de salarios iniciales son distintos entre las dos profesiones.
1.4.4. Intervalos de confianza para la diferencia de medias cuando se muestrean dos

poblaciones normales independientes con varianzas desconocidas pero
consideradas iguales
independientes, con medias y varianzas , ambas desconocidas pero consideradas
iguales. El intervalo de confianza para la diferencia de medias es:
0 ̅ ̅ ⁄ √ ̅ ̅ ⁄ √ 1
En donde el estimado de la varianza común es
Ejemplo 13:
distinto al egresar de la licenciatura, que el que esperan los estudiantes de administración.
Recientemente se obtuvieron muestras aleatorias de ambos grupos de un área geográfica
relativamente homogénea, proporcionando los datos que se encuentran en la tabla. Determinar un
intervalo de confianza del 90% para la diferencia entre los salarios promedio para los estudiantes
de contaduría y administración, al egresar de la licenciatura, suponga que las varianzas
poblacionales son iguales.
16300 13200
18200 15100
17500 13900
16100 14700
15900 15600
15400 15800
15800 14900
17300 18100
14900 15600
15100 15300
16200
15200
15400
16600
15
Solución
En este caso las varianzas son desconocidas, pero puede considerarse iguales, entonces el
estadístico adecuado para el intervalo de confianza es la T.
Calculo en Excel
LI: =PROMEDIO(A2:A11)-PROMEDIO(B2:B15)-INV.T(0,95;10+14-2)*RCUAD(F3)*RCUAD(1/10+1/14)
LS: =PROMEDIO(A2:A11)-PROMEDIO(B2:B15)+INV.T(0,95;10+14-2)*RCUAD(F3)*RCUAD(1/10+1/14)
La interpretación es el mismo que el anterior, lo interesante en ambos ejemplos radica en que,
con la distribución T se obtienen intervalos más amplios, esto es así por el hecho de que la
distribución T presenta unas colas más pesadas con respecto a la normal estándar.
Así vemos los dos casos de comparación de dos medias, que no es otra cosa tener en frente dos
muestras provenientes de dos poblaciones distribuidas normalmente, en el primer caso hemos
estudiado la distribución que presenta la diferencia de dos medias muestrales dado que se conoce
las dos varianzas poblacionales, en este caso la única variable aleatoria sería la diferencia entre
medias muestrales y su varianza es una combinación de las dos varianzas conocidas ponderadas
por cada uno de los tamaños muestrales, como las variables originales tienen distribución normal,
también las medias muestrales tendrán las mismas distribuciones y por ende la diferencia entre
ambos. En el segundo caso analizado, las variables originales también tienen distribuciones
normales, pero con varianzas desconocidas en las poblaciones, las medias muestrales también
tienen distribuciones normales, y en este caso sus varianzas son las varianzas muestrales divididas
por cada tamaño muestral, finalmente la diferencia de medias en consecuencia de los anterio r
también posee distribución normal, pero con varianza combinando las dos varianzas muestrales
ponderadas por cada tamaño muestral, en este caso estas varianzas muestrales también son
variables aleatorias, cuyas distribuciones se ajustan a la chi-cuadrada, la estandarización en este
caso posee dos variables aleatorias, las diferencias de medias y la combinación de las varianzas, y
finalmente sabemos que el cociente entre una normal estándar y una raíz cuadrada de chi -
cuadrado conduce a la distribución T-students.
16
1.4.5. Intervalos de confianza para cuando se muestrea una distribución normal con
media desconocida
Sea una muestra aleatoria de una distribución normal con media desconocida µ, y
varianza también desconocida, el intervalo de confianza para está dado por:
* +
⁄ ⁄
Ejemplo 14:
Un proceso produce cierta clase de cojinetes de bola cuyo diámetro inferior es de 3 cm. Se
seleccionan en forma aleatoria, 12 de estos cojinetes y se miden sus diámetros internos, que
resultan ser 3,01, 3,05, 2,99, 2,99, 3,00, 3,02, 2,98, 2,99, 2,97, 2,97, 3,02, 3,01. Suponiendo que el
diámetro es una variable aleatoria normalmente distribuida, determinar un intervalo de confianza
del 99% para la varianza
Solución
Calculo en Excel
LI: =11*VAR.S(A3:A14)/INV.CHICUAD(0,995;11)
LS: =11*VAR.S(A3:A14)/INV.CHICUAD(0,005;11)
Interpretación
La probabilidad de que el intervalo (0,000224; 0,002305) le contenga al verdadero valor de la
varianza de los diámetros de los cojinetes es de 99%.
1.4.6. Intervalos de confianza para el cociente de dos varianzas cuando se muestrean dos
distribuciones normales independientes
independientes, con medias desconocidas y varianzas , ambas también
desconocidas. El intervalo de confianza para el cociente de las varianzas es:
* +
⁄
⁄
17
Ejemplo 15:
similar al egresar de la licenciatura, que el que esperan los estudiantes de administración, pero no
se sabe nada respecto a la variabilidad para no dudar. Recientemente se obtuvieron muestras
aleatorias de ambos grupos de un área geográfica relativamente homogénea, proporcionando los
datos que se encuentran en la tabla. Determinar un intervalo de confianza del 95% para el cociente
entre la variabilidad de los salarios para los estudiantes de contaduría y administración, al egresar
de la licenciatura.
16300 13200
18200 15100
17500 13900
16100 14700
15900 15600
15400 15800
15800 14900
17300 18100
14900 15600
15100 15300
16200
15200
15400
16600
Solución:
Calculo en Excel
a: =1/INV.F(0,975;13;9)
18
b: =INV.F(0,975;9;13)
LI: =F5*VAR.S(B2:B15)/VAR.S(A2:A11)
LS: =F8*VAR.S(B2:B15)/VAR.S(A2:A11)
Interpretación
Con una probabilidad del 95%, el intervalo (0,297; 3,772) puede contener al verdadero valor del
cociente entre las varianzas de los ingresos iniciales de las dos profesiones.
Aquí vemos que los posibles valores del cociente puede ser 1, que indica, que las dos varianzas
pueden ser iguales.
1.4.7. Intervalos de confianza para el parámetro de proporción “p” cuando se muestrea

una distribución binomial
Sea una muestra aleatoria de una distribución binomial con parámetro “p” de
proporción desconocido, el intervalo de confianza para la proporción “p” está dado por:
̂ ̂ ̂ ̂
0 ̂ ⁄ √ ̂ ⁄ √ 1
1.4.7.1. Tamaño de muestra para una distribución binomial

⁄
Ejemplo 16:
Un fabricante asegura, a una compañía que le compra un producto en forma regular, que el
porcentaje de productos defectuosos no es mayor del 5%. La compañía decide comprobar la
afirmación del fabricante seleccionando, de su inventario, 200 unidades de este producto y
probándolas. ¿Deberá sospechar la compañía de la afirmación del fabricante si se descubren un
total de 19 unidades defectuosas en la muestra? Tomar 95% de confianza.
Solución
Para probar la sospecha sobre la afirmación del fabricante, debemos construir un intervalo de
confianza.
Calculo en Excel
19
LI: =B4/B3-INV.NORM.ESTAND(1-B6/2)*RCUAD(B4/B3*(1-B4/B3)/B3)
LS: =B4/B3+INV.NORM.ESTAND(1-B6/2)*RCUAD(B4/B3*(1-B4/B3)/B3)
Interpretación y conclusión
La probabilidad de que el intervalo (0,054; 0,135) le contenga al verdadero valor de la proporción
de productos defectuosos es de 95%.
El fabricante afirmó que el porcentaje de defectuosos en su fábrica no es superior al 5%, pero el
intervalo calculado (0,054; 0,135) no le contiene al 5%, es más, el intervalo se encuentra
completamente a la derecha del 5%, por tanto, la compañía debería sospechar de la afirmación del
fabricante.
1.5. Estimación Bayesiana

El enfoque bayesiano para la estimación de parámetros ha sido favorecido por muchas personas,
en forma especial en aquellas situaciones en las que un parámetro no puede considerarse, en
forma real, como una cantidad fija.
1.5.1. Estimación puntual bayesiana

Dado que se considera a un parámetro como una variable aleatoria, se denotará a este por el
símbolo . Supóngase que es una variable aleatoria continua con una función de densidad (a
priori) incondicional ( , la cual refleja la creencia a priori con respecto a la incertidumbre de .
La información muestral se encuentra representada por n variables aleatorias independientes e
idénticamente distribuidas , con densidad ⁄ condicional común sobre la
realización .
La función de densidad a posteriori de está dada por:
( ⁄ )
( ⁄ )
∫ ( ⁄ )
Dónde:
( ⁄ ) ( ⁄ ) ( ⁄ ) ⁄
Es la función verosimilitud de la variable x dado el parámetro
Definición 6: Sea ⁄ la función de
la función de densidad a priori de un parámetro , y
máxima verosimilitud de una muestra aleatoria de n variables aleatorias independientes e
idénticamente distribuidas condicionadas sobre . Además sea ⁄ la función de densidad a
posteriori de , y sea la función de pérdida. El estimador Bayes de , ,
es aquel para el cual el valor esperado de la función de pérdida dada por
[ ] ∫ ( ⁄ )
En la definición es claro que para determinar un estimador Bayes, debe especificarse una función
de pérdida. La especificación de esta última es una tarea difícil, ya que las consecuencias
económicas no son fácilmente medibles. En muchos problemas de aplicación puede formularse un
argumento razonable para utilizar una función de pérdida de la forma:
Lo cual se conoce como como función de pérdida cuadrático o de error cuadrático. Para una
función de perdida cuadrática puede demostrarse que el estimador Bayes de es igual a la
20
esperanza a posteriori ⁄ de . En otras palabras, la media de la distribución a posteriori de
es el estimador Bayes de para una función de pérdida de error cuadrático.
1.5.2. Estimación bayesiana por intervalo

Se puede determinar un intervalo estimado para mediante el uso de la función de densidad a
posteriori del parámetro aleatorio .
Definición 7: Sea ( ⁄ ) la función de densidad a posteriori de condicionada sobre el resultado
muestral , sean límites tales que:
∫ ( ⁄ )
En donde son funciones del resultado muestral . Entonces el intervalo (a, b) es un intervalo
bayesiano tal que la probabilidad de que se encuentre contenido en (a, b) es .
En efecto, un intervalo bayesiano, es un intervalo de probabilidad. Es decir, puede decirse que la
probabilidad de que se encuentre contenido en el intervalo (a, b) es .
1.6. Límites estadísticos de tolerancia

En esta sección se desarrollarán límites estadísticos de tolerancia cuando se muestrea una
distribución no especifica de probabilidad, o cuando el muestreo se lleva acabo sobre una
distribución normal. Estos límites se conocen como límites de tolerancia independiente de la
distribución debido a que ésta no se especifica.
1.6.1. Límites de tolerancia independientes de la distribución

Definición 8: Si D es la proporción de observaciones de la variable aleatoria que se encuentra
entre los límites , que son funciones univaluadas de las observaciones de manera tal que:
Entonces , reciben el nombre de límites de tolerancia.

Ya que son funciones univaluadas de las observaciones, ellas mismas son variables
aleatorias. A su vez, la proporción D es una variable aleatoria, y la proposición de probabilidad:
Tiene un significado que se interpreta como la probabilidad de que la proporción de valores en

la distribución de X entre no sea menor que d.
Sean el r-ésimo valor más pequeño y el (n-r+1)-ésimo valor más grande,
respectivamente, en una muestra aleatoria de tamaño n la cual involucra a la variable de medición
x. Se ha demostrado que la proporción de valores D que se encuentra entre
tiene una distribución beta con parámetros sin importar la forma de la
función de densidad de probabilidad de x, en donde son de orden simétrico. De esta forma:
El principal uso de esta expresión, es determinar el tamaño de muestra más pequeño de manera
talque con una probabilidad por los menos una proporción d de la distribución de x se encuentre
incluida entre los valores extremos de la muestra. Esto es, para se reduce a:
La que puede simplificarse para obtener
21
[ ]
Lo que da como resultado una expresión en la que puede aparecer la función de distribución beta
como una suma si uno de los parámetros de forma es un número entero pe queño.
Muchas veces se buscan límites de tolerancia unilaterales de manera tal que la probabilidad de
que por lo menos una proporción d de la distribución de x sea más grande de un límite de
tolerancia inferior o menor que un límite de tolerancia superior, sea . Puede demostrarse, sin
importar la distribución de x que:
Nótese que si la inferencia se realizará con base en el valor más pequeño de la muestra ;
si , la inferencia se realizará con base en el valor más grade . Para la expresión se
reduce a:
Despejando n se obtiene
Lo cual permite la determinación del tamaño de muestra necesario para que con una probabilidad
, por lo menos una proporción d de los valores de x sea más grande que el valor más pequeño de
la muestra.
1.6.2. Límites de tolerancia cuando se muestrea una distribución normal

En algunas situaciones la distribución de interés puede modelarse en forma adecuada por una
distribución normal. En esta sección se examinará los límites de tolerancia para estas situaciones.
Recuérdese que los límites de tolerancia colocan limites sobre las mediciones que se llevan a cabo
sobre una distribución a diferencia de los intervalos de confianza, los cuales determinan a aquellos
donde es probable que se encuentre un parámetro desconocido. De esta forma, si el muestreo se
lleva acabo sobre una distribución normal de manera tal que µ como son conocidos, entonces los
límites ⁄ incluirán al de la distribución. O para los límites unilaterales
e l de las observaciones de la distribución excederá el límite inferior de , o
también, el de las observaciones de la distribución serán inferiores a . El único
problema, es que no es común el conocer los valores de la media y la varianza poblacional.
Supóngase que se considera los estimadores ̅ . Dado que ambos son variables aleatorias y
están sujetas a la variabilidad en el muestreo, se debe considerar el intervalo aleatorio ̅ , en
don k es una constante apropiada perteneciente a la distribución conjunta de ̅ . Dado que
̅ son límites aleatorios, es imposible establecer con absoluta certeza que porcentaje de la
distribución estará contenido entre estos límites. Sin embargo, es posible seleccionar un valor de K
tal que si se obtienen en forma repetida muestras del mismo tamaño de una distribución normal,
proporción fija de estos límites contendrá por lo menos un 100d% de los valores de la
distribución.
Con base en una muestra aleatoria de tamaño n los límites de tolerancia bilateral de un
para un porcentaje 100d de una distribución normal son:
̅
En donde es coeficiente de confianza y d es el alcance de la distribución.
Muchas veces solo se tiene interés en los límites de tolerancia unilaterales. De acuerdo con lo
anterior, puede determinarse un valor de k tal que, con una probabilidad del de que por lo
menos un 100d% de los valores de la distribución normal serán mayores que el límite de tolerancia
22
inferior ̅ , o menores que el límite de tolerancia superior ̅ . Las tablas H e I de Canavos
proporcionan los valores de k para límites de tolerancia bilateral y unilateral respectivamente.
1.7. Ejercicios
1. En un experimento binomial se observan x éxitos en n ensayos independientes. Se proponen las
siguientes dos estadísticas como estimadores del parámetro de proporción p:
.
a) Obtener y comparar los errores cuadráticos medios para .
b) Hallar una gráfica del error cuadrático medio de cada estadística como funciones de p para
.
2. Sea , una muestra aleatoria de tamaño cuatro de una población cuya distribución es
exponencial con parámetro desconocido. De las siguientes estadísticas, ¿Cuáles son
estimadores insesgados de ?
3. Sea un amuestra aleatoria de una población cuya distribución es normal con

media µ y varianza . Considérese las estadísticas
como estimadores de µ. Identificar la estadística que posee la varianza más pequeña.
4. Sea una muestra aleatoria de una población cuya distribución es gama con
parámetro de forma conocido. Obtener el estimador de máxima verosimilitud para el
parámetro de escala .
5. Sea una muestra aleatoria de una población cuya distribución es exponencial con
parámetro de escala . Obtener el estimador de máxima verosimilitud y demostrar que éste es
una estadística suficiente para .
6. Los siguientes datos son una muestra aleatoria de la duración en horas, que se observaron par un
determinado componente eléctrico: 142.84, 97.04, 32.46, 69.14, 85.67, 114.43, 41.76. 163.07,
108.22, 63.28. Supóngase que la duración de un componente es una variable aleatoria con
distribución normal con .
a) Obtener un estimador de máxima verosimilitud para el parámetro µ
b) El método de los momentos, ¿Daría un estimador de µ diferente al que se obtuvo en la parta
a)?
7. Los siguientes datos son tiempos de falla, ordenados en horas de diez componentes que fallarán
de un total de 40 en una prueba de duración: 421, 436, 448, 474, 496, 499, 510, 525, 593, 675.
Supóngase que el tiempo de falla es una variable aleatoria exponencialmente distribuida.
Obtener el estimador de máxima verosimilitud para el parámetro .
8. Un fabricante de fibras sintéticas desea estimar la tensión de ruptura media de una fibra. Diseña
un experimento en el que se observan las tensiones de ruptura, en libras, de 16 hilos del proceso
seleccionados aleatoriamente. Las tensiones son: 20.8, 20.6, 21.0, 20.9, 19.9, 20.2, 19.8, 19.6,
20.9, 21.1, 20.4, 20.6, 19.7, 19.6, 20.3, y 20.7. Supóngase que la tensión de ruptura de una fibra
se encuentra modelada por una distribución normal con desviación estándar de 0.45 libras.
Construir un intervalo de confianza estimado del 98% para el valor real de la tensión de ruptura
promedio de la fibra. Interpretar el resultado.
23
9. La cámara de comercio de una ciudad se encuentra interesada en estimar la cantidad promedio
de dinero que gasta la gente que asiste a convenciones, calculando comidas, alojamiento y
entretenimiento por día. De las distintas convenciones que se llevan a cabo en la ciudad, se
seleccionaron 16 personas y se les preguntó la cantidad que gastaban por día. Se obtuvo la
siguiente información por día en dólares: 150, 175, 163, 148, 142, 189, 135, 174, 168, 152, 158,
184, 134, 146, 155, 163. Si se supone que la cantidad de dinero gastada en un día es una variable
aleatoria normal, obtener los intervalos de confianza estimados del 90, 95 y 98% para la cantidad
promedio real.
10.Una muestra aleatoria de los salarios por hora para nueve mecánicos de automóviles
proporcionó los siguientes datos en dólares: 10.5, 11, 9.5, 12, 10, 11.5, 13, 9, 8.5. Bajo la
suposición de que el muestreo de llevó a cabo sobre una población con distribución normal,
construir los intervalos de confianza del 90, 95 y 98% para los salarios por hora promedio para
todos los mecánicos. Interpretar los resultados.
11.Dos universidades financiadas por el gobierno tienen métodos distintos para inscribir sus alumnos
a principios de cada semestre. Las dos desean comparar el tiempo promedio que les toma a los
estudiantes completar el trámite de inscripción. En cada universidad se tomaron los tiempos de
inscripción para 100 alumnos seleccionados al azar. Las medias y las desviaciones estándares
muestrales son los siguientes:
̅ ̅
Si se supone que el muestreo se llevó a cabo sobre dos poblaciones distribuidas normal e
independientes, obtener los intervalos de confianza estimados del 90, 95 y 99% para la diferencia
entre las medias del tiempo de inscripción para las dos universidades. Con base a esta evidencia,
¿se estaría inclinando a concluir que existe una diferencia real entre los tiempos medios para cada
universidad?
12.Cierto metal se produce por lo común, mediante un proceso estándar. Se desarrolla un n nuevo
proceso en el que se añade una aleación a la producción del metal. Los fabricantes se encuentran
interesados en estimar la verdadera diferencia entre las tensiones de ruptura de los metales
producidos por los dos procesos. Para cada metal se seleccionan 12 especímenes y cada uno de
éstos se somete a una tensión hasta que se rompe. La siguiente tabla muestra las tensiones de
ruptura de los especímenes en kilogramos por centímetro cuadrado:
Estándar 428 419 458 439 441 456 463 429 438 445 441 463
Nuevo 462 448 435 465 429 472 453 459 427 468 452 447
Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e independientes
con varianzas iguales, obtener los intervalos de confianza estimados del 90, 95 y 99% para
. Con base a los resultados, ¿se estaría inclinando a concluir que existe una diferencia real
entre ?
13.Se espera tener una cierta variación aleatoria nominal en el espesor de las láminas de plástico que
una máquina produce. Para determinar cuando la variación en el espesor se encuentra dentro de
ciertos límites, cada día se seleccionan en forma aleatoria 12 láminas de plástico y se mide en
milímetros su espesor. Los datos que se obtuvieron son los siguientes: 12.6, 11.9, 12.3, 12.8, 11.8,
11.7, 12.4, 12.1, 12.3, 12.0, 12.5, 12.9. Si se supone que el espesor es una variable aleatoria con
distribución normal, obtener los intervalos de confianza estimados del 90, 95 y 99% para la
24
varianza desconocida del espesor. Si no es aceptable una varianza mayor de 0.9 mm, ¿existe
alguna razón para preocuparse con base a esta evidencia?
14.Una agencia estatal tiene la responsabilidad de vigilar la calidad del agua para la cría de peces con
fines comerciales. Esta agencia se encuentra interesada en comparar la variación de cierta
sustancia tóxica en dos estuarios cuyas aguas se encuentran contaminadas por desperdicios
industriales provenientes de una zona industrial cercana. En el primer estuario se seleccionaron
11 muestras y en el segundo 8, las cuales se enviaron a un laboratorio para su análisis. Las
mediciones en ppm que se observaron en cada muestra se expone en la siguiente tabla:
Estuario I
10 10 12 13 9 8 12 12 10 14 8
Estuario II
11 8 9 7 10 8 8 10
Si se supone que el muestreo se hizo sobre dos poblaciones independientes distribuidas

normalmente, obtener un intervalo de confianza estimado del 95% para el cociente de las dos
varianzas no conocidas. Con base en este resultado, ¿se podría concluir que las dos varianzas son
diferentes? ¿Por qué?
15.Una lista electoral final en una elección reciente para senador, reveló que 1400 personas de un
total de 2500 seleccionados aleatoriamente, tienen preferencia por el candidato A con respecto al
candidato B.
a) Obtener un intervalo de confianza unilateral inferior del 99% para la verdadera proporción de
votantes a favor del candidato A. Con base a este resultado, ¿podría usted afirmar que es
probable que A gane las elecciones? ¿Por qué?
b) Supóngase que se selecciona aleatoriamente una muestra de 225 personas con la misma
proporción muestral a favor del candidato A. ¿Son los resultados diferentes a los del inciso a)?
c) ¿En este caso, son razonables las suposiciones para los intervalos de confianza aproximados
del 99%?
16.Se recibe un lote muy grande de artículos proveniente de un fabricante que asegura que el
porcentaje de artículos defectuosos en la producción es del 1%. Al seleccionar una muestra
aleatoria de 200 artículos y después de inspeccionarlos, se descubren 8 defectuosos. Obtener los
intervalos de confianza aproximados del 90, 95 y 99% para la verdadera proporción de artículos
defectuosos en el proceso de manufactura del fabricante. Con base a estos resultados, ¿qué se
puede concluir con respecto a la afirmación del fabricante?
17.Un médico investigador desea estimar la proporción de hombres, en edad madura, que fuman en
exceso y que desarrollaran cáncer pulmonar en los siguientes cinco años. El investigador desea
seleccionar una cierta cantidad de hombres que hayan fumado por los menos dos cajetillas de
cigarrillos al día durante 20 años y observarlos durante los próximos cinco años para saber
cuántos desarrollan cáncer pulmonar. ¿Cuál debe ser el tamaño de muestra que el investigador
debe seleccionar de manera tal que con una probabilidad de 0.95, la proporción muestral se
encuentre a no más de 0.02 unidades de la proporción real?
18.Las compañías auditoras generalmente seleccionan una muestra aleatoria de los clientes de un
banco y verifican los balances contables reportados por el banco. Si una compañía de este tipo se
encuentra interesada en estimar la proporción de cuentas para las cuales existe una discrepancia
entre el cliente y el banco, ¿Cuántas cuentas deberán seleccionarse de manera tal que con una
confiabilidad del 99% la proporción muestral se encuentre a no más de 0.02 unidades de la
proporción real?
25
19.El volumen semanal de ventas de una tienda de descuentos se encuentra representado, en forma
adecuada, por una distribución normal con media desconocida µ, pero con una desviación
estándar de . Debido a muchas influencias de índole menor, se cree que el volumen
de ventas semanal promedio puede considerarse como una variable aleatoria. Supóngase que se
está pensando asignar una distribución normal a la media semanal con
. Una muestra aleatoria de 16 semanas revela un volumen de ventas promedio muestral de
$21500.
a) Para una función de pérdida de error cuadrático, obtener el estimador Bayes de µ.
b) Obtener un intervalo estimado de probabilidad bayesiano del 95% para µ.
c) Obtener un intervalo de confianza del 95% para µ y compararlo con el estimado en el inciso
b).
20.Una oficina estatal determinó que el número de llamadas telefónicas que recibe es una variable
aleatoria de Poisson. Debido a las condiciones del mercado, la oficina ha llegado a la conclusión
de que el parámetro de Poisson es una variable aleatoria con distribución gama y parámetros de
forma y de escala son iguales a 20 y 4 respectivamente. En un día, seleccionado al azar, se
reciben 90 llamadas telefónicas.
a) Para una función de pérdida del error cuadrático, obtener el estimador Bayes del parámetro
de Poisson 𝜆.
b) Obtener un intervalo de probabilidad bayesiano del 95%.
21.Una compañía constructora de hoteles se encuentra muy interesada en las tensiones de ruptura
de los cables de acero que sostendrán un pasillo por encima del vestíbulo del hotel. El contratista
hace uso de los servicios de una organización independiente a la cual da las instrucciones
necesarias para probar los cables y determinar un límite de tolerancia inferior para la tensión de
ruptura de estos de manera tal que, con una probabilidad de 0.95, el 99% de los cables tengan
una tensión de ruptura mayor al límite deseado. La organización selecciona, en forma aleatoria,
20 cables y los prueba para determinar sus tensiones de ruptura. Los resultados de la prueba, en
kilogramos por centímetro cuadrado son: 2130, 2158, 2192, 2110, 2145, 2208, 2201, 21 95, 2125,
2148, 2166, 2172, 2192, 2138, 2210, 2215, 2108, 2105, 2120, 2130. Si se supone que la tensión de
ruptura es una variable aleatoria distribuida en forma normal, obtener el límite de tolerancia
deseado.
22.El diámetro interno de un cojinete es una medida crucial en la fabricación de este, con base a una
muestra aleatoria de 25 cojinetes, la media muestral fue de 3 cm y la desviación estándar
muestral fue de 0.005 cm. Obtener los límites de tolerancia bilaterales de manera tal que, con
una probabilidad de 0.99, el 95% de los diámetros de todos los cojinetes manufacturados por este
proceso se encuentre dentro de los límites de tolerancia. Supóngase que el diámetro interno es
una variable aleatoria distribuida normalmente.
23.Supóngase que no es posible asumir una distribución normal en el ejercicio 20. Si de los 25
cojinetes, el diámetro más pequeño fue de 2.984 y el más grande 3.013 y se está interesado en un
intervalo que contenga al 90, 95 o 99% de todos los diámetros internos, ¿Cuál es la probabilidad
que puede asociarse con el intervalo de 2.984 al 3.013 para cada uno de los porcentajes
anteriores?
24.Supóngase que se está muestreando una población cuya distribución de probabilidad es
desconocida. ¿Cuál de be ser el tamaño de muestra necesario para que, con una probabilidad de
26
0.99, por los menos el 95% de los valores de la variable aleatoria de interés esté incluido entre los
dos valores extremos de la muestra?
25.Supóngase que se está muestreando una población cuya distribución de probabilidad es
desconocida. ¿Cuál debe ser el tamaño de muestra necesario para que, con una probabilidad de
0.99, por los menos el 97% de los valores de la variable aleatoria sea mayor que el valor más
pequeño de la muestra?
27
EVALUACIÓN DE LOGROS DE LAS COMPETENCIAS PROPUESTAS
Capítulo I: Estimación puntual y por intervalo
Actividad N°:………
Trabajo Práctico Resolución de Problemas o Ejercicios
Grupal Individual Grupal Individual
Alumno:……………………………………………………………………………………………………………………………..
La valoración se debe realizar con la escala 0-10, donde cero es no logrado y diez es totalmente logrado
Competencias Dimensión Indicadores Nivel
Logrado
- Capacidad para trabajar con Lee y parafrasea el texto del problema.
datos experimentales y Comprensión del
Identifica los datos y la incógnita de un problema
contribuir su análisis problema o ejercicio
Realiza estimaciones sobre el resultado
- Capacidad para iniciar Activa sus conocimientos previos y establece relaciones

investigaciones matemáticas con problemas anteriores
bajo orientación de expertos. Concepción de un Relaciona de forma sistematizada los datos y la
- Capacidad para trabajar con plan incógnita con sus conocimientos matemáticos
datos experimentales y
Planifica de forma clara y ordenada el proceso de
contribuir su análisis.
resolución
- Capacidad para trabajar con Verificación y visión Verifica siempre el resultado obtenido
datos experimentales y retrospectiva del
Revisa los pasos de resolución
contribuir su análisis proceso de
resolución Plantea otras formas de solución
- Capacidad para trabajar con Todo el pensamiento matemático es correcto

contribuir su análisis
Utiliza lenguaje matemático o connotaciones detalladas
- Capacidad para expresarse Retos
correctamente utilizando el
lenguaje de la matemática Las representaciones gráficas son claras y fáciles de
entender
- Capacidad para trabajar con

datos experimentales y Aplica las estrategias trabajadas
Cálculo mental Son claros todos los pasos seguidos
Relaciona conceptos para solucionar los problemas
28
CAPITULO 2: PRUEBA DE HIPÓTESIS ESTADÍSTICA
COMPETENCIAS
Genéricas

Específicas
 Capacidad para construir y desarrollar argumentaciones lógicas con una

identificación clara de hipótesis y conclusiones.
 Capacidad de abstracción, incluido el desarrollo lógico de teorías matemáticas y las
relaciones entre ellas.
29
2. Prueba de hipótesis estadísticas
2.1. Conceptos básicos para la prueba de hipótesis estadística

La inferencia estadística es el proceso mediante el cual se utiliza la información de los datos de
una muestra para extraer conclusiones acerca de la población de la que se seleccionó la muestra.
Las técnicas de inferencia estadística se dividen en dos áreas principales: Estimación de intervalos
de confianza y Pruebas de hipótesis.
En cada prueba estadística, se comparan algunos valores observados contra algunos esperados u
otro valor observado, comparando estimaciones de parámetros (media, desviación están dar,
varianza, proporciones, etc.).
Estas estimaciones de los verdaderos parámetros son obtenidas usando una muestra de datos y
calculando los estadísticos.
La capacidad para detectar una diferencia entre lo que es observado y lo que es esperado
depende del desarrollo de la muestra de datos.
Incrementando el tamaño de la muestra mejora la estimación y la confianza en las conclusiones
estadísticas.
Al realizar pruebas de hipótesis, se parte de que un valor supuesto (hipotético) es el parámetro
poblacional. Después de recolectar una muestra aleatoria, se compara el estadístico muestral, con
el parámetro hipotético. Después se acepta o se rechaza el valor hipotético, según proceda. Se
rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la
hipótesis es cierta.
Se trata de probar una afirmación sobre parámetros de la población (media ӯ; varianza σ2 o
proporción P) en base a datos de estadísticos de una muestra (ӯ, s 2 o p).
Problemas
Complicaciones en la asimilación de conceptos de estadística inferencial
Dificultad para el planteamiento de hipótesis
Falta de claridad en las etapas de la prueba de hipótesis
Confusión para la selección de estadísticas de pruebas adecuadas para cada caso
Dudas en las tomas de decisiones
2.2. Tipos de regiones críticas y función potencia

 Prueba Estadística: Procedimiento para decidir aceptar o rechazar hipótesis.
 Hipótesis: Es una afirmación acerca de una o más poblaciones.
 Hipótesis Nula (Ho): Usualmente es una afirmación representando una situación.
Generalmente deseamos rechazar la hipótesis nula.
 Hipótesis Alterna (Ha): Es el complemento de la hipótesis nula, generalmente se especifica en
ella lo que el investigador sospecha.
o Puede ser del tipo distinto (≠), prueba de dos colas
o Puede ser del tipo (<), prueba de cola izquierda
o Puede ser del tipo (>), prueba de cola derecha
30
 Estadístico de prueba: Para probar la hipótesis nula se calcula un estadístico de prueba con la
información de la muestra el cual se compara a un valor crítico apropiado. De esta forma se
toma una decisión sobre rechazar o no rechazar la Ho.
 Región Crítica: Indica los valores de la prueba estadística para los cuales es rechazada la H 0 .
Esta región está basada en dos riesgos no deseado:
o Error tipo I (alfa): Se comete al rechazar la Ho cuando en realidad es verdadera.
o Error tipo II (beta): Se comete cuando no se rechaza la hipótesis nula siendo en realidad
falsa.
2.3. Principios generales para probar una hipótesis nula contra una hipótesis
alternativa
 Etapa 1.- Plantear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor
hipotético del parámetro que se compara con el resultado muestral. La hipótesis alternativa es
el complemento de la hipótesis nula.
Si el signo de la hipótesis alterna es ≠, entonces se trata de una prueba de dos colas; si es > de
cola derecha y si es < de cola izquierda.
Si la Ha es distinto a un valor poblacional, entonces el riesgo alfa se reparte en ambos extremos de
la distribución. Por ejemplo:
Ho: µ = µ0
Ha: µ ≠ µa
P(Z<= - Zexcel ) = alfa/2 P(Z>= + Zexcel ) = alfa/2
Regiones de rechazo
Si la Ha es mayor que un valor poblacional, entonces el riesgo alfa se coloca en el extremo derecho
de la distribución.
Ho: µ = µ0
Ha: µ > µ0
Región de
rechazo
P(Z>= + Zexcel ) = alfa
Si la Ha es menor que un valor poblacional, entonces el riesgo alfa se coloca en el extremo

izquierdo de la distribución.
31
Ho: µ = µ0
Ha: µ < µa
Región de
rechazo
P(Z<= - Zexcel ) = alfa
Zexcel ( 0.01 )
 Etapa 2.- Especificar el nivel de significancia “α” que se va a utilizar, y si es posible la potencia
deseada de la prueba (1- β). Entonces se rechaza la hipótesis nula solamente si el resultado
muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor,
pudiera ocurrir aleatoriamente con una probabilidad de α o menos.
 Etapa 3.- Calcular el tamaño de muestra adecuado para la prueba de hipótesis del parámetro.
 Etapa 4.- Elegir el estadístico de prueba. El estadístico de prueba dependerá del tipo de
parámetros que se desea probar, también de las características de la población estudiada.
 Etapa 5.- Establecer el valor o valores críticos del estadístico de prueba. Habiendo especificado
la hipótesis nula, el nivel de significancia y el estadístico de prueba que se van a utilizar, se
procede a establecer el o los valores críticos del estadístico de prueba. Puede haber uno o más
de esos valores, dependiendo de si se va a realizar prueba de una o dos colas.
 Etapa 6.- Determinar el valor muestral del estadístico de prueba.
 Etapa 7.- Tomar la decisión. Se compara el valor muestral del estadístico con el valor (o
valores) críticos del estadístico de prueba descrito en la etapa 5, dependiendo en que región
se encuentre el estadístico muestral se rechaza o no la hipótesis nula.
Otra manera de tomar la decisión es calcular el p-valor asociado al estadístico muestral, que no es
otra cosa que la probabilidad asociada de observar un valor igual o más extremo en la muestra
seleccionada.
 Etapa 8.- Calcular las probabilidades de los errores tipo I o tipo II asociados a la región crítica
cuando el tamaño muestral ya está determinada. La probabilidad del error del tipo I es el
máximo grado de incertidumbre que está dispuesto a aceptar el investigador para rechazar
erróneamente la hipótesis nula. La probabilidad del error tipo II es el grado de incertidumbre
que está dispuesto a aceptar el investigador para no rechazar erróneamente la Ho, para
calcular estas probabilidades se debe construir la región crítica para el estadístico muestral.
2.4. Pruebas de hipótesis para la media de una población normal

Se trata de probar una afirmación sobre la media de la población “µ” en datos del estadístico
muestral ӯ, es decir se busca establecer cuan verosímil son los datos de la muestra con la población
especificada en la hipótesis nula, para ello se cuantifica la incertidumbre asociada a la diferencia
observada entre la media muestral (ӯ) y la media teórica µ o, La toma de decisión está sujeta bajo
dos riesgos, la de rechazar erróneamente una afirmación cierta y la de aceptar una afirmación falsa.
Afortunadamente existen técnicas matemáticas para cuantificar la incertidumbre de estos dos tipos
de errores ajenos al investigador.
32
2.4.1. Tamaño de muestra para estimar µ en función del error ̅ para hipótesis de
dos colas
2.4.2. Tamaño de muestra para estimar µ en función del error ̅ para hipótesis de
una cola
2.4.3. Prueba de hipótesis para la media cuando se muestrea una población normal con
varianza conocida
Cuando la varianza es conocida en una población y el objetivo del muestreo es la de probar el

valor teórico de la media, se recurre al estadístico más conocida para tomar la decisión, este
estadístico se define como sigue:
̅
⁄√
Tiene una distribución normal estándar con media cero y desviación típica uno, es utilizada
cuando la desviación típica es conocida, población normal, el promedio como prueba.
1. Zc: estadísticos de prueba para la media poblacional
2. n: Tamaño muestral
3. ̅: Media muestral calculada con las observaciones
4. µ0 : Media poblacional teórica especificada en la hipótesis nula
5. : Desviación típica poblacional
2.4.3.1. Regla de decisión
2.4.3.1.1. Para hipótesis de dos colas
̅
.| | /
⁄√
̅
.| | /
⁄√
Región crítica para ̅ el cálculo de las probabilidades de los errores tipo I y II
̅
√ √
̅ ̅
√ √
33
Con ̅
√
̅
√
[ ̅ ̅ ] [ ̅ ̅ ]
[ ̅ ̅ ̅ ]
Observación 1: el valor de la media muestral ̅ se puede usar como

Observación 2:
Potencia de la prueba
2.4.3.1.2. Para hipótesis de cola izquierda
̅
. /
⁄√
̅
. /
⁄√
̅
√
̅
√
Con ̅
√
[ ̅ ̅ ]
[ ̅ ̅ ]
Observación: el valor de la media muestral ̅ se puede usar como
2.4.3.1.3. Para hipótesis de cola derecha
̅
. /
⁄√
34
̅
. /
⁄√
Región crítica para ̅ y el cálculo de las probabilidades de los errores tipo I y II
̅
√
̅
√
Con ̅
√
[ ̅ ̅ ]
[ ̅ ̅ ]
Ejemplo 17:
Los siguientes datos representan los tiempos de armado para 20 unidades seleccionadas
aleatoriamente: 9,8, 10,4, 10,6, 9,9, 9,7, 9,9, 10,9, 11,1, 9,6, 10,2, 10,3, 9,6, 9,9, 11,2, 10,6, 9,8,
10,5, 10,1, 10,5, 9,7. Supóngase que el tiempo necesario para armar una unidad es una variable
aleatoria normal con media µ y desviación estándar minutos. Con base a esta muestra,
¿existe alguna razón para creer, a un nivel de 0,05, que el tiempo de armado promedio es mayor de
10 minutos? Calcular la probabilidad del error tipo II.
Solución
Calculo en Excel:
35
Zc: =(PROMEDIO(A2:A21)-G3)/(D3/RCUAD(D5))
P(Z>1,603): =1-DISTR.NORM.ESTAND(D15)
Decisión
Como P(Z>1,603)=0,055, es mayor que , entonces no se puede rechazar la hipótesis nula,

es decir, no existe razón alguna para creer que el tiempo de armado promedio sea superior a 10
minutos.
Calculo de la probabilidad del error tipo II
Calculo en Excel
̅ : =G3+INV.NORM.ESTAND(0,95)*D3/RCUAD(D5)
: =DISTR.NORM.N(J11;PROMEDIO(A2:A21);D3/RCUAD(D5);1)
Interpretación
Asumiendo que el promedio de la hipótesis alternativa es la media muestral, la probabilidad de no

rechazar hipótesis nula es de 0,516885
2.4.4. Prueba de hipótesis para la media cuando se muestrea una población normal con
varianza desconocida
Es común muestrear una población con el fin de probar el valor teórico de la media poblacional,
en ocasiones se conocen el valor de la varianza poblacional, pero es mucho más probable que se
desconozca su valor, entonces se debe usar su estimación para someter a prueba al valor teórica de
la media. En este caso se recurre al estadístico T que se define a continuación.
̅
⁄
√
36
Tiene una distribución t-students con media cero y n-1 grados de libertad, es utilizada cuando la
desviación típica es desconocida, población normal, el promedio como prueba.
Tc: estadísticos de prueba para la media poblacional
n: Tamaño muestral
̅: Media muestral calculada con las observaciones

µ0: Media poblacional teórica especificada en la hipótesis nula
S: Desviación típica muestral
̅
.| | /
⁄
√
̅
.| | /
⁄
√
̅
√ √
̅ ̅
√ √
̅
√
̅
√
[ ̅ ̅ ] [ ̅ ̅ ]
[ ̅ ̅ ̅ ]

37
̅
. /
⁄
√
̅
. /
⁄
√
̅
√
̅
√
̅
√
[ ̅ ̅ ]
[ ̅ ̅ ]

̅
. /
⁄
√
̅
. /
⁄
√
̅
√
̅
√
̅
√
[ ̅ ̅ ]
[ ̅ ̅ ]
38
Ejemplo 18:
aleatoriamente: 9,8, 10,4, 10,6, 9,9, 9,7, 9,9, 10,9, 11,1, 9,6, 10,2, 10,3, 9,6, 9,9, 11,2, 10,6, 9,8,
aleatoria normal con media µ y desviación estándar desconocidos. Con base a esta muestra,
¿existe alguna razón para creer, a un nivel de 0,05, que el tiempo de armado promedio es distinto
de 10 minutos? Calcular la probabilidad del error tipo II.
Solución:
Calculo en Excel
Tc: =PROMEDIO((A2:A21)-G3)/(DESVEST.M(A2:A21)/RCUAD(D4))
P(ǀTcǀ>0,902): =1-DISTR.T.N(0,902;D4-1;1)
P(-4,033379 < T< 0,1526692): =DISTR.T.N(0,1526692;D4-1;1)-DISTR.T.N(-4,033379;D4-1;1)
Decisión
Como p-valor igual a 0,189 es mayor a ⁄ , entonces no se puede rechazar hipótesis
nula, es decir, no existe razón para creer que el tiempo promedio de armado sea diferente de 10
minutos.
2.5. Prueba de hipótesis para la varianza cuando se muestrea una población normal
El hecho de que el valor muestral de la varianza sea diferente al valor al valor teórico, no significa
que sean estadísticamente diferente, de aquí la necesidad de contrastar o probar las hipótesis.
Como en el caso de la media también pueden plantearse tres formas de hipótesis, de dos colas,
de cola izquierda y de cola derecha dependiendo del planteamiento.
39
2.5.1. El estadístico de prueba:
Tiene una distribución chi-cuadrada con grados de libertad
2.5.2. Regla de decisión
2.5.2.1. Hipótesis de dos colas
( ) ⁄ ( )
( ) ⁄ ( )
La distribución chi-cuadrada no es simétrica como la normal estándar o la t-students, entonces

usar el valor absoluto no encaja en esta ocasión, entonces para decidir cuál de los signos (mayor o
menor) usar para el cálculo de probabilidad debemos observar si es menor que , entonces
usar el signo menor, si ocurre lo contrario usar el signo mayor.
2.5.2.2. Hipótesis de cola izquierda
( )
( )
2.5.2.3. Hipótesis de cola derecha
( )
( )
Ejemplo 19
aleatoriamente: 9,8, 10,4, 10,6, 9,9, 9,7, 9,9, 10,9, 11,1, 9,6, 10,2, 10,3, 9,6, 9,9, 11,2, 10,6, 9,8,
40
aleatoria normal con desviación estándar desconocido. Con base a esta muestra, ¿existe alguna
razón para creer, a un nivel de 0,05, que la desviación estándar en el tiempo de armado es distinta
a 0,6 minutos?
Solución
Calculo en Excel
S: =DESVEST.M(A2:A21)
: =(D3-1)*POTENCIA(D5;2)/POTENCIA(D4;2)
: =DISTR.CHICUAD(D15;D3-1;1). Se ha usado el signo menor que porque S es
menor que .
Decisión
Como p-valor es igual a 0,159, mayor a ⁄ , entonces no se debe rechazar la hipótesis
nula, es decir la varianza de los tiempos de armados no es diferente de 0,36.
2.6. Prueba de hipótesis para la proporción cuando se muestrea una población con
distribución binomial
Se considerará el problema de probar la hipótesis de que la proporción de éxitos en un
experimento binomial sea igual a un cierto valor especifico.
El estadístico de prueba que nos permitirá tomar una decisión es:
̂
̂
√
Que sigue una distribución normal estándar aproximada para n superior o igual a 30
41
2.6.1. Regla de decisión
2.6.1.1. Para hipótesis de dos colas
̂
| |
√
( )
̂
| |
√
( )
2.6.1.2. Para hipótesis de cola izquierda
√
( )
√
( )
2.6.1.3. Para hipótesis de cola derecha
√
( )
√
( )
Ejemplo 20:
Un fabricante de lavadoras afirma que solo el 5% de todas las unidades que vende sufren una falla
durante el primer año de operación normal. Una organización de consumidores ha pedido a 20
familias de igual número de miembros que han adquirido estas lavadoras, que reporten cualquier
mal funcionamiento durante el primer año. Al final de éste, solo tres familias reportaron mal
funcionamiento. La evidencia muestral apoya la afirmación del fabricante a un nivel de significancia
del 5%?
42
Solución
A continuación se presenta el cuadro de captura de la pantalla Excel, en el cual aparecen los
cálculos necesarios para tratar de dar solución al problema planteado, contiene los datos del
problema, los planteamientos de las hipótesis, las reglas de decisión y los cálculos pertinentes para
la toma de decisión.
Calculo en Excel
Zc: =(C4/C3-F2)/(RCUAD(F2*(1-F2)/C3))
P(Z>1,252): =1-DISTR.NORM.ESTAND.N(C18;1)
Decisión
Como el p-valor es inferior a , debemos de rechazar la hipótesis nula, es decir la evidencia no
apoya la afirmación del fabricante.
Este mismo ejercicio podemos resolver utilizando la distribución binomial, de hecho con la ayuda
del Excel es lo más adecuado, sin importar el tamaño muestral, ya que la variable tiene una
distribución binomial. La estandarización es una aproximación nada más y funciona
adecuadamente para . A continuación se realiza el cálculo utilizando la distribución
binomial.
43
Calculo en Excel
: =1-DISTR.BINOM.N(C4;C3;F2;1)
Haciendo comparación entre los resultados, vemos que utilizando la binomial el p -valor es más
pequeño, y es una diferencia muy importante, esto se debe a que la estandarización es adecuada a
partir de , y en este caso tenemos . Pero la conclusión es la misma, la de rechazar la
hipótesis nula, con la diferencia de que con la binomial se tiene mayor potencia, es decir mayor
capacidad de detectar diferencias más pequeñas como significativas.
2.7. Pruebas de hipótesis para la diferencia de medias cuando se muestrean dos

poblaciones normales
2.7.1. Prueba de hipótesis para dos medias cuando se muestrean dos poblaciones
normales independientes con varianzas conocidas
Sean dos muestras aleatorias independientes de dos distribuciones
normales con medias y varianzas , respectivamente, se desea probar la hipótesis
nula de igualdad de medias contra una de las alternativas del tipo . El estadístico de prueba
es el siguiente:
̅ ̅
Tiene una distribución normal estándar con media cero y varianza uno.
̅ ̅
| |
√
( )
̅ ̅
| |
√
( )
44
En pruebas de hipótesis para una muestra se ha mostrado la decisión para hipótesis de dos colas
utilizando el mismo estadístico, en esa ocasión se ha utilizado el valor absoluto para el cálculo de
probabilidades, en este caso también se puede usarlo. Es lo mismo.
̅ ̅
√
( )
̅ ̅
√
( )
̅ ̅
√
( )
̅ ̅
√
( )
Observación: En Excel las probabilidades de tipo mayor se calculan por su complemento
2.7.2. Tamaño de muestra para prueba de hipótesis de dos medias con poblaciones
normales independientes
: es el tamaño de efecto o la diferencia mínima entre proporciones que el investigador

considera significativa.
Ejemplo 21:
Se desea comprar una gran cantidad de bombillas y se tienen que elegir entre las marcas A y B. Se
sabe que el tiempo de vida de las bombillas tienen un distribución normal con desviaciones
estándares conocidas, . Para ello se compraron 100 focos de cada
45
marca, y se encontró que las bombillas probadas de la marca A tuvieron un tiempo de vida medio
de 1120 horas, mientras que la marca B tuvieron un tiempo de vida me dio de 1064 horas.
a) ¿Es significativa la diferencia entre los tiempos medios de vida? Use .
Solución
Datos:
.
.
̅ .
̅ .
.
Para dar respuesta al problema, usaremos Excel para los cálculos y el estadístico de prueba será la
prueba z para dos poblaciones normales, ya que se trata de dos muestras con distribuciones
normales y desviaciones estándares conocidas en la población, además se debe usar la de dos colas
ya que no se menciona ninguna sospecha sobre cuál puede ser mejor.
̅ ̅
| |
√
( )
Si ocurre lo contrario no se rechaza Ho
Se calculó Z como indica la fórmula dentro del paréntesis, solo se calcula uno, ahora como decidir
si usar mayor o menor para el cálculo de probabilidades, es simple, si z toma valor positivo,
entonces utilizar el signo mayor, si es negativo utilizar menor. En este caso z tomó un valor positivo,
por eso el cálculo de probabilidad se realiza en base al signo mayor. El cálculo de Z se realizó
introduciendo primeramente el signo = en la celda, luego se va cargando las operaciones indicadas
con sus correspondientes paréntesis, luego Enter. La probabilidad se calculó así =1-
DISTR.NORM.ESTAND.N (D6;1) luego Enter. Se utilizó 1 menos porque la probabilidad es del tipo
mayor, D6 porque el valor de Z en este caso está en la columna D fila 6 y 1 porque se requiere
probabilidad, no densidad.
46
Análisis del resultado
El cuadro del Excel muestra un valor de aproximadamente, con una probabilidad
asociada o p-valor asociado de 0,0000, este p-valor es por mucho más pequeño que
, entonces se rechaza la hipótesis nula de igualdad de medias, es decir que el tiempo de vida
promedio de las bombillas A y B no son iguales.
2.7.3. Prueba de hipótesis para dos medias cuando se muestrean dos poblaciones
normales independientes con varianzas desconocidas
normales con medias y varianzas desconocidas, se desea probar la hipótesis nula
de igualdad de medias contra una de las alternativas del tipo . El estadístico de prueba es el
siguiente:
̅ ̅
Tiene una distribución T-students con grados de libertad.
̅ ̅
| |
√
( )
̅ ̅
| |
√
( )
47
̅ ̅
√
( )
̅ ̅
√
( )
̅ ̅
√
( )
̅ ̅
√
( )
Ejemplo 22:
En un laboratorio bajo condiciones controladas, se evaluó, para diez hombres y diez mujeres, la
temperatura que cada persona encontró más confortable. Los resultados, en grados Fahrenheit,
fueron los siguientes:
Mujer 75 77 78 79 77 73 78 79 78 80
Varón 74 72 77 76 76 73 75 73 74 75
a) ¿Es la temperatura promedio de confort superior para las mujeres? Con .

Solución
Datos:
.
.
.
Primeramente analizando los datos conocidos, vemos que hay dos grupos de muestras, además
las desviaciones estándares no se conocen, las hipótesis plantean comparación de medias de cola
derecha. Con estas condiciones se debería utiliza el estadístico T para tomar las decisiones. La
fórmula a utilizar es:
48
̅ ̅
√
( )
Recurrimos l Excel para los cálculos
Para el cálculo de probabilidad hemos utilizado la siguiente fórmula, =1-distr.t.n(G6;18;1);

Donde G6 es la celda donde se encuentra el valor T calculado, 18 es el grado de libertad
y 1 indica que queremos calcular probabilidad.
Como p-valor=0,0012 es menor que , entonces se rechaza Ho, es decir, la temperatura
promedio de confort para las mujeres es superior a la de los varones.
2.8. Prueba de hipótesis para dos varianzas cuando se muestrean dos poblaciones
normales independientes
normales con medias y varianzas desconocidas, se desea probar la hipótesis nula
de igualdad de varianzas contra una de las alternativas del tipo . El estadístico de prueba
bajo la hipótesis nula es el siguiente:
Sigue una distribución F de Fisher con grados de libertad respectivamente
2.8.1. Reglas de decisión
49
( ) ⁄ ( ) ⁄
( ) ⁄ ( ) ⁄
( )
( )
( )
( )
Ejemplo 23:
Se comparan dos tipos de instrumentos para medir la cantidad de monóxido de azufre en la
atmósfera en un experimento sobre la contaminación del aire. Los investigadores desean
determinar si los dos tipos de instrumentos proporcionan mediciones con la misma variabilidad. Se
registran las siguientes lecturas para los dos instrumentos:
Instrumento A Instrumento B
0,96 0,87
0,82 0,74
0,75 0,63
0,61 0,55
0,89 0,76
0,64 0.70
0,81 0,69
0,68 0,57
0,65 0,53
50
Suponga que las poblaciones de mediciones se distribuyen de forma aproximadamente normal,
pruebe la hipótesis del investigador, con un nivel de significancia del 5%.
Solución
Datos
.
.
.
El problema pide comparar si los dos instrumentos presentan la misma variabilidad, es decir las
mismas varianzas, además no se especifica cuál de los instrumentos es mejor o peor, por lo que la
hipótesis alternativa es de dos colas
La fórmula a utilizar es la siguiente
( ) ⁄ ( ) ⁄
Con la ayuda de Excel vamos a calcular el estadístico indicado en la fórmula, también la

probabilidad asociada.
Primeramente explicaremos como se calculó el p-valor, una vez calculada el valor de F, el

siguiente paso es hallar su p-valor asociado, la hipótesis alternativa es de dos colas, entonces hay
dos posibles criterios de decisión, ¿utilizo el mayor o el menor? Cuando el valor F supera 1,
entonces usar el mayor, si no supera 1 usar el menor. En nuestro caso el valor de F supera 1, por
eso el cálculo del p-valor se realiza con el signo mayor P (F>1,1853). Su valor en Excel se consigue
como sigue, =1-distr.f.n (F; .
Como p-valor = 0,4079 superior a , entonces no se puede rechazar Ho, es decir, la

variabilidad de los dos instrumentos se pueden considerar iguales.
51
2.9. Prueba de hipótesis para dos proporciones cuando se muestrean dos
poblaciones binomiales independientes
binomiales con proporciones desconocidas, se desea probar la hipótesis nula de igualdad de
proporciones contra una de las alternativas del tipo .
2.9.1. Estadístico de prueba

̂ ̂
(√ ̂( ̂)) √
Donde Z tiene una distribución normal estándar aproximada con media cero y varianza uno.
2.9.1.1.1. Hipótesis de dos colas
̂ ̂
| |
(√ ̂( ̂)) .√ /
( )
̂ ̂
| |
(√ ̂( ̂)) .√ /
( )
2.9.1.1.2. Hipótesis de cola izquierda
̂ ̂
( √ ̂( ̂)) .√ /
( )
̂ ̂
( √ ̂( ̂)) .√ /
( )
52
2.9.1.1.3. Hipótesis de cola derecha
̂ ̂
( √ ̂( ̂)) .√ /
( )
̂ ̂
( √ ̂( ̂)) .√ /
( )
Ejemplo 24:
En una muestra de 50 familias de una comunidad muestra que diez de ellas están viendo un
programa especial de televisión sobre economía nacional. En una segunda comunidad, quince
familias de una muestra aleatoria de 50 están viendo el programa especial de televisión. El
investigador piensa que en la primera comunidad la proporción de televidentes es inferior a la
segunda comunidad. Con un nivel de significancia del 1%, ayude a este investigador a dilucidar su
duda.
Solución
Datos
.
.
.
En primer lugar analizaremos el tipo de variable que se estudia, en este caso la variable que se
registró es si ve o no ve el programa de tv, es una variable dicotómica, entonces su distribu ción es
binomial, y como se estudia en dos comunidades, se tienen dos muestras en las cuales se quiere
comparar la proporción de televidentes, la hipótesis planteada es de cola izquierda, entonces la
fórmula a utilizar sería:
̂ ̂
( √ ̂( ̂)) .√ /
( )
Con la ayuda de la planilla electrónica Excel, calculamos el estadístico y la probabilidad asociada

para dar solución al planteamiento.
53
Como p-valor=0,124 y es mayor que , entonces no se rechaza Ho, es decir la proporción
de televidentes del programa especial no es inferior en la comunidad 1 con respecto a la
comunidad 2.
2.10. Ejercicios
1. Los enanos de Blanca Nieves le informan que excavan 12 toneladas promedio por semana. Nieves
recolecta datos de 49 semanas y obtiene ӯ=11.5, s= 1.1, a un nivel de significancia α=10%. ¿Los
Enanos están en lo cierto?
2. Se quiere probar la afirmación de que la distancia promedio viajada por pelotas de golf es más de
270 yardas a un 95% de confianza.
Se toma una muestra de 16 distancias, además se sabe que la distancia viajada por las pelotas de
golf sigue una distribución normal con desviación típica de 12 yardas.
N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Yardas 269 300 268 278 282 263 301 295 288 278 276 286 296 265 271 279
3. Se planea en un restaurante eliminar del menú el pollo frito. Se afirma que las ventas se ajustan a
una distribución normal y que habían descendido por debajo de la media histórica de $4,500
mensuales. ¿Parece una decisión adecuada si en una muestra de 26 observaciones se observa una
media= 4,477 y una desviación típica de 1,128 con α= 5%?
4. Un distribuidor piensa que los promedios de sus ventas son de $12,000 al mes. Selecciona n=10
meses y encuentra ӯ = 11,277, s=3,772. A un alfa del 5% ¿qué se puede concluir?
54
5. Las ganancias por acción son de 3 dólares, probar para un 95% de confianza si esto es cierto. Una
muestra de datos arrojó los resultados siguientes:
N° 1 2 3 4 5 6 7 8 9 10
Ganancias 1.92 2.16 3.63 3.16 4.02 3.14 2.2 2.34 3.05 2.38
6. La vida útil de un foco es de 5,000 horas. Un nuevo diseño se piensa incremente esta vida. Se
prueban n=25 focos con fusión a ̅ =5,117, s= 1,886. Concluir para un nivel alfa del 5%.
7. Las horas tomadas para plantar un árbol mediano son las siguientes. Probar a un 5% si el tiempo
es > 2 Hrs.
N° 1 2 3 4 5 6 7 8 9 10
Horas 1.9 1.7 2.8 2.4 2.6 2.5 2.8 3.2 1.6 2.5
8. Los tiempos que toma el registro de las órdenes en un negocio son los siguientes:
N° 1 2 3 4 5 6 7 8 9 10
Tie mpos 1.9 1.7 2.8 2.4 2.6 2.5 2.8 3.2 1.6 2.5
a) Probar a un Nivel de Confianza del 90% si el tiempo es mayor a 1.98.
b) Probar a un alfa de 0.02 si la desviación estándar es mayor a 0.6.

9. Se quiere probar la afirmación de que la distancia viajada por pelotas de golf es de 250 yardas a
un 95% de confianza. Se toma una muestra de 36 distancias
269 300 268 278 282 263 301 295 288 278 276 286 296 265 271 279
284 260 275 282 260 266 270 293 272 285 293 281 269 291 274 277
299 263 264 273
10.Las Ganancias por acción son de 3 dólares, para un 95% de confianza, probar esta afirmación,
sabiendo que las ganancias siguen una distribución normal.
Una muestra de datos arrojó los resultados siguientes:
N° 1 2 3 4 5 6 7 8 9 10
Ganancias 1.92 2.16 3.63 3.16 4.02 3.14 2.2 2.34 3.05 2.38
11.Un estudio encontró que 40% de los usuarios de Internet recibieron más de 10 mensajes diarios.
Si de 420 usuarios 188 recibieron estos mensajes, a un nivel de 5% ¿Cuál es la conclusión?
12.Un estudio indicó que el 64% de los consumidores de supermercado creen en las marcas propias.
El fabricante de una salsa de tomate preguntó a 100 compradores donde 52 prefie ren marca
propia,probar si el porcentaje de preferencias es menor al 64%, para un 5% de nivel de
significancia.
55
13. Un restaurante planea una oferta especial si más del 15% de los clientes compra vasos de diseño
especialcon personajes de caricaturas. En una prueba 88 de 500 clientes compraron vasos. A un
0.01 de nivel de significancia, ¿Cuál es su recomendación?
14.Las rentas diarias de automóviles en Dólares de ocho ciudades se muestran a continuación:
Ciudad A B C D E F G H
Renta 47 50 53 45 40 43 39 37
¿A un 5% se comprueba la hipótesis de que la varianza de la población es de 30?
15.Se midió la temperatura de fusión de un aceite vegetal hidrogenado en n=16 muestras y se

encontró una media de 94.32. Si la temperatura de fusión sigue una distribución normal con
sigma = 1.20.
a) Probar a un 95% de nivel de confianza de que la media se ha mantenido en 95.
16.La duración promedio de cierto foco es de 750 horas. El cliente cambiaría de marca sólo que se
demuestre que de manera concluyente que la vida de los focos es menor que la anunciada. Se
elige una muestra aleatoria de 20 focos, se determina su duración y se obtiene una vida media de
738.44 con una desviación estándar de 38.20.
a) ¿Cuál sería la conclusión a un 95% de nivel de confianza?
17.Después de ciertas horas de trabajo se determinó el desgaste de flechas en 0.0001” para cada una
de las n=8 máquinas que tienen plomo y cobre como material de soporte, y se obtuvo como
resultado que la media fue de 3.72 con desviación estándar de 1.25.
a) Se desea probar si el desgaste es mayor a 3.5 a un 95% de nivel de confianza.
18.Las lecturas de radiación de Radón tomadas en 12 lugares fueron como sigue:
105.6, 90.9, 91.2, 96.9, 96.5, 91.3, 100.1, 105, 99.6, 107.7, 103.3 y 92.4.
a) A un alfa de 5%, ¿indican las lecturas que difieren de 100?
19.Se prueban 100 baterías de Ni-H para celdas de prueba y se determina que 14 de ellas se apoyan
en sus placas fallando. Para un 5% de nivel de significancia.
a) ¿Proporciona lo anterior una evidencia de que más del 10% de las baterías fal lan?
20.Para un cierto servicio los tiempos de respuesta son de 3 horas, probar la afirmación para un 98%
de nivel de confianza.
Una muestra de datos arrojó los resultados siguientes:
N° 1 2 3 4 5 6 7 8 9 10
Tie mpos 1.92 2.16 3.63 3.16 4.02 3.14 2.2 2.34 3.05 2.38
56
21.Las horas tomadas para mantenimiento son las siguientes. Probar a un 5% si el tiempo promedio
es > 2 Hrs. Asumiendo normalidad de los datos.
N° 1 2 3 4 5 6 7 8 9 10 11
T iempo 1.9 1.7 2.8 2.4 2.6 2.5 2.8 3.2 1.6 2.5 2.3
22. Una encuesta realizada por Bancomer a 35 clientes indicó que un poco más del 74 por
ciento tenían un ingreso familiar de más de $200,000 al año. Si esto es cierto, el banco
desarrollará un paquete especial de servicios para este grupo. La administración quiere
determinar si el porcentaje verdadero es mayor del 60 por ciento antes de desarrollar e
introducir este nuevo paquete de servicios. Los resultados mostraron que 74.29 por
ciento de los clientes encuestados reportaron ingresos de $200,000 o más al año.
23.El presidente del PRI en 1988, basado en su experiencia, sostiene que un 90% de los votos para las
elecciones presidenciales han sido a favor de su partido. Los partidos de oposición levantaron una
muestra de 1,100 electores y encontraron que un 87% de ellos votaría por el PRI. El presidente del
PRI quiere probar la hipótesis, con un nivel de significación de 0.05, que el 90% de los votos son
para su partido.
24.El cuadro siguiente muestra la frecuencia y el porcentaje observado del sexo de dueños de
microempresas:
SE XO DEL P ATRON
Valid Cumulative
Frequency Percent Percent Percent
Valid Hombre 1634 83.9 83.9 83.9
Mujer 314 16.1 16.1 100.0
Total 1948 100.0 100.0
Pruebe la hipótesis de que el porcentaje de microempresas cuyos dueños son hombres captado
por la ENAMIN es distinto de 85 por ciento.
25.Una empresa dedicada a la fabricación de lámparas de bajo consumo anuncia que como máximo
hay un 1% de defectuosas. Para contrastar si es cierta esta afirmación con un nivel de
significación del 5%, observamos una muestra de 300 lámparas y obtenemos que h ay 6
defectuosas. ¿Debemos aceptar la afirmación del fabricante?
26.Un estudio encontró que 40% de los usuarios de Internet recibieron más de 10 mensajes diarios.
Si de 420 usuarios 188 recibieron estos mensajes, a un nivel de 5% ¿Cuál es la conclusión?
27.Un estudio indicó que el 64% de los consumidores de supermercado creen en las marcas propias.
El fabricante de una salsa de tomate preguntó a 100 compradores donde 52 prefieren marca
propia, probar si el porcentaje de preferencias es menor al 64%, para un 5% d e nivel de
significancia.
57
28.Se cree que el promedio verbal para el número de respuestas para la prueba SAT para las mujeres
es mayor que el de los hombres por más de diez puntos. Las muestras aleatorias para ambos
sexos arrojaron los siguientes resultados:
Mujeres Hombres
̅ ̅
Si se muestrearon dos poblaciones normales independientes, ¿se encuentra la creencia apoyada

por la evidencia muestral con ?
29.A finales de la década de los setenta se descubrió que la sustancia carcionogénica nitro-
sodimetilamina (NDMA) se formula durante el secado de la malta verde, la cual se empleaba para
fabricar cerveza. A principios de los ochenta se desarrolló un nuevo proceso para el secado de la
malta, el cual minimizaba la formación de NDMA. Se tomaron muestras aleatorias de una cerveza
doméstica que se fabricó empleando ambos procesos de secado, y se tomaron los niveles de
NDMA en partes por billón. Se obtuvieron los siguientes resultados:
Proceso 6 4 5 5 6 5 5 6 4 6 7 4
anterior
Proceso 2 1 2 2 1 0 3 2 1 0 1 3
propuesto
Si se supone que se muestrearon dos distribuciones normales independientes con varianzas
iguales, ¿existe alguna razón para creer, a un nivel de que ha disminuido la cantidad
promedio de NDMA en más de dos partes por billón con el empleo del nuevo proceso?
30.Se espera que dos operadores produzcan, en promedio, el mismo número de unidades
terminadas en el mismo tiempo. Los siguientes datos son los números de unidades terminadas
para ambos trabajadores en una semana de trabajo:
Operador 1 Operador 2
12 14
11 18
18 18
16 17
13 16
Si se supone que el número de unidades terminadas diariamente por los dos trabajadores son
variables aleatorias independientes distribuidas en forma normal con varianzas iguales, ¿se puede
discernir alguna diferencia entre las medias a un nivel ?
31.Un investigador médico se interesa en comparar la efectividad de dos dietas muy populares, A y
B. En particular, el investigador desea determinar si una dieta es más efectiva para reducir el peso
58
de las personas obesas en un lapso dado de tiempo. Discuta de manera completa el cómo debe el
investigador llevar a cabo su experimento. Asegúrese de indicar las suposiciones necesarias.
32.Un fabricante desea comparar el proceso de armado para uno de sus productos con un método
propuesto que supuestamente reduce el tiempo de armado. Se seleccionaron ocho trabajadores
de la planta de armado y se les pidió que armaran las unidades con ambos procesos. Los
siguientes son los tiempos observados en minutos.
Trabajador Proceso actual Proceso
propuesto
1 38 30
2 32 32
3 41 34
4 35 37
5 42 35
6 32 26
7 45 38
8 37 32
¿Existe alguna razón para creer que el tiempo de armado para el proceso actual es mayor que el
del método propuesto por más de dos minutos con una significancia de 5%?
33.Un inversionista desea comparar los riesgos asociados con dos diferentes mercados, A y B. El
riesgo de un mercado se mide por la variación en los cambios diarios de precios. El inversionista
piensa que el riesgo asociado con el mercado B es mayor que el de A. Se obtienen muestras
aleatorias de 21 cambios de precios diarios para el mercado A y de 16 para el mercado B. Se
obtienen los siguientes resultados:
Mercada A Mercado B
̅ ̅
Si se supone que las muestras provienen de dos poblaciones normales e independientes a un nivel
de significancia de 0,05 ¿encuentra apoyo la creencia del inversionista?
34.Para el ejercicio 3, ¿puede apoyarse la opinión de que la variación en el número de artículos
terminados para el operador 2 es menor que para el operador 1 a un nivel de confianza del 95%?
35.En un estudio reciente que abarcó 25 años, se investigó la posible protección que proporciona la
ingestión de una forma de vitamina A llamada caroteno contra el desarrollo del cáncer pulmonar.
Se encontró que de 488 hombres que habían ingerido una baja cantidad de esta sustancia
durante este tiempo, 14 desarrollaron cáncer pulmonar, pero en un grupo del mismo tamaño en
el que el consumo de caroteno era mayor, solo dos personas desarrollaron cáncer. Bajo las
suposiciones apropiadas, ¿puede concluirse que la ingestión de caroteno reduce el riesgo de
desarrollar cáncer pulmonar en los hombres? Empléese una significancia del 1%. Desde un punto
59
de vista estadístico, ¿Qué consejo se podría dar al investigador médico que se interesa en un
proyecto como este?
36.Un economista al servicio de una agencia estatal desea determinar si la frecuencia de desempleo
en dos grandes áreas urbanas del estado son diferentes. Con base en muestras aleatorias de cada
ciudad, cada una de 500 personas, el economista encuentra 35 personas desempleadas en un
área y 25 en la otra. Bajo las suposiciones adecuadas y con una significancia de 5%, ¿existe alguna
razón para creer que las frecuencias de desempleo en las dos áreas son diferentes?
37.Un usuario de grandes cantidades de componentes eléctricos adquiere estos principalmente de
dos proveedores, A y B. Debido a una mejor estructura en precios, el usuario hará negocio
únicamente con el proveedor B si la proporción de artículos defectuosos para A y para B es la
misma. De dos grandes lotes, el usuario selecciona al azar 125 unidades de A y 100 unidades de
B; inspecciona las unidades y encuentra siete y siete unidades defectuosas, respectivamente. Bajo
las suposiciones adecuadas y con base en esta información, ¿existe alguna razón para no comprar
en forma única las componentes del proveedor B? Empléese significancia 2%.
60
Capítulo 2: Pruebas de hipótesis estadísticas
Alumno:……………………………………………………………………………………………………………………………..
Logrado
- Capacidad para trabajar con Lee y parafrasea el texto del problema.
contribuir su análisis Comprensión del problema
- Capacidad para construir y Plantea claramente las hipótesis a probar
o ejercicio
desarrollar argumentaciones
Identifica las características de los datos de un
lógicas con una
problema
identificación clara de
Las conclusiones responden a lo planteado en las
hipótesis y conclusiones.
hipótesis
- Capacidad de abstracción, Activa sus conocimientos previos y establece
incluido el desarrollo lógico relaciones con problemas anteriores
de teorías matemáticas y las
Relaciona de forma sistematizada los datos y la
relaciones entre ellas. Concepción de un plan
incógnita con sus conocimientos matemáticos
datos experimentales y Planifica de forma clara y ordenada el proceso de
contribuir su análisis. resolución
Pone en práctica los pasos diseñados
- Capacidad para trabajar con Ejecución del plan
datos experimentales y Realiza las operaciones de forma correcta
contribuir su análisis. Expresa en el resultado el concepto adecuado
- Capacidad para trabajar con Verificación y visión Verifica siempre el resultado obtenido
datos experimentales y retrospectiva del proceso
contribuir su análisis de resolución
Plantea otras formas de solución
- Capacidad para trabajar con Muestra respeto y valora las propuestas de
datos experimentales y Trabajo colaborativo resolución de sus compañeros
contribuir su análisis Toma parte activa en la resolución
Argumenta sus razonamientos
- Capacidad para trabajar con Todo el pensamiento matemático es correcto
Utiliza lenguaje matemático o connotaciones
contribuir su análisis Retos
detalladas
Ha encontrado conexión en el problema o en los
ejercicios
- Capacidad para trabajar con Aplica las estrategias trabajadas
datos experimentales y Cálculo mental Relaciona conceptos para solucionar los problemas
61
CAPITULO 3: PRUEBAS DE BONDAD DE AJUSTE Y ANÁLISIS
DE TABLA DE CONTINGENCIA
COMPETENCIAS
Genéricas

Específicas

 Capacidad para formular problemas en lenguaje matemático, de forma tal que se
faciliten su análisis y su solución.
62
3. Pruebas de bondad de ajuste y análisis de tabla de contingencia
Recuérdese que una hipótesis estadística es una afirmación con respecto a una característica que
se desconoce de una población de interés, en el capítulo anterior fue, en forma exclusiva, el valor
de algún parámetro . En este capítulo se examinaran las pruebas de hipótesis estadísticas en las
que las características que se desconoce es alguna propiedad de la forma funcional de la
distribución que se muestrea. Además se discutirá las pruebas de independencia entre dos
variables aleatorias en las cuales la evidencia muestral se obtiene mediante la clasificación de cada
variable aleatoria en un cierto número de categorías. En forma tradicional, este tipo de prueba
recibe el nombre de bondad de ajuste.
3.1. La prueba de bondad de ajuste chi-cuadrada

Una prueba de bondad de ajuste se emplea para decidir cuándo un conjunto de datos se apega a
una distribución de probabilidad dada. Considérese una muestra aleatoria de tamaño n de la
distribución de una variable aleatoria X dividida en k clases exhaustivas y mutuamente excluyentes,
(variables categóricas) y sea , , el número de observaciones en la i-ésima clase.
En este caso el planteamiento de la hipótesis alternativa siempre será de dos colas
3.1.1. Formulación de las hipótesis
Donde, es la distribución teórica especificada al cual queremos ajustar los datos muestrales,
y es la distribución muestral de los datos.
3.1.1.1. Estadístico de prueba
𝜆 ∑
Este estadístico tiene una distribución chi-cuadrada aproximada con grados de libertad.
Dónde:
O: es la frecuencia observada en cada categoría de la variable aleatoria
E: es la frecuencia esperada bajo la distribución teórica especificada en la hipótesis nula
n: es el tamaño de muestra.
: es la probabilidad en la i-ésima categoría de la variable según la distribución teórica de la
hipótesis nula
3.1.1.2. Criterio de decisión
.𝜆 ∑ /
.𝜆 ∑ /
Ejemplo 25:
63
Se supone que una máquina mezcla cacahuates, avellanas, castañas y pacanas a razón de
. Se observa que una lata que contiene 500 de tales nueces mezcladas tiene 269
cacahuates, 112 avellanas, 74 castañas y 45 pacanas. A nivel de significancia de 0,05 pruebe la
hipótesis de que la máquina mezcla las nueces a la razón especificada.
Solución:
Datos
.
.
.
.
.
El problema pide ajustar los datos a las proporciones especificadas, de esta manera estamos ante
una prueba de bondad de ajuste, las son las proporciones de mezcla para cada nuez.
Primeramente ordenaremos los datos en una tabla.
Nueces Cacahuates Avellanas Castañas Pacanas Total
Mezcla 269 112 74 45 500
El estadístico para probar si un conjunto de datos se ajusta a una distribución teórica especificada
en la hipótesis nula es el siguiente:
.𝜆 ∑ /
La fórmula indica que no tenemos la frecuencia esperada (E), pero tenemos la fórmula para hallar
a partir de los datos y la distribución especificada.
Pi son las proporciones especificadas, las esperadas se calcularon con la fórmula de la siguiente
manera: =B4*F3F4 Enter. Luego se arrastra a la derecha. El F4 que sigue a F3 significa que el dato
que se encuentra en la columna F y fila 3 se mantendrá constante para todos, en este caso es 500.
64
Para pruebas de bondad de ajuste no es necesario el cálculo de chi-cuadrado, ya que Excel
proporciona directo la prueba para estos casos, y es la siguiente: =prueba.chicuad (seleccionar la
fila de (O) mezcla; seleccionar la fila E), Enter. La selección se realiza sin el total.
El p-valor asociado con chi-cuadrado es igual a 0,017, es menor que , entonces se rechaza
H0, es decir la máquina no mezcla a la razón especificada.
3.2. La estadística de Kolmogorov-Smirnov

Recuérdese que para aplicar la prueba de bondad de ajuste chi-cuadrada cuando el modelo
propuesto bajo es continuo, es necesario aproximar mediante el agrupamiento de los
datos observados en un número finito de intervalos de clase. Este requisito de agru par los datos
implica tener una muestra de tamaño más o menos grande. De esta manera la prueba de bondad
de ajuste chi-cuadrada se encuentra limitada cuando es continua y la muestra aleatoria
disponible tiene un tamaño pequeño. Una prueba de bondad de ajuste más apropiada que la chi-
cuadrada cuando es continua, es la basada en la estadística de Kolmogorov-Smirnov.
La estadística de Kolmogorov-Smirnov no necesita que los datos se encuentren agrupados y es
aplicable a muestras de tamaño pequeño.
3.2.1. Formulación de las hipótesis
3.2.1.1. Estadística de prueba

| |

( )
√
( )
√
3.3. La prueba chi-cuadrada para el análisis de tablas de contingencia con dos

criterios de clasificación
Muchas veces surge la necesidad de determinar si existe alguna relación entre dos rasgos
diferentes en los que una población ha sido clasificada y en donde cada rasgo se encuentra
subdividido en cierto número de categorías.
Cuando una muestra aleatoria que se obtiene de una población se clasifica de esta manera, el
resultado recibe el nombre de tabla de contingencia con dos criterios de clasificación.
El análisis de una tabla de este tipo supone que las dos clasificaciones son independientes, esto
es, analizar si la diferencia entre la frecuencia observada y la esperada es suficientemente grande
para rechazar la hipótesis nula de independencia entre las dos variables de clasificación.
3.3.1. Planteamiento de la hipótesis
Donde son los dos criterios de clasificación de la tabla de contingencia
65
Total
Total
3.3.1.1. Estadística de prueba
𝜆 ∑
Tiene una distribución chi-cuadrada con grados de libertad
.𝜆 ∑ /
.𝜆 ∑ /
Ejemplo 26:
La enfermería de una universidad realizó un experimento para determinar el grado de alivio que
brindan tres jarabes para la tos. Cada jarabe se probó en 50 estudiantes y se registraron los
siguientes datos:
Grado de alivio Jarabe para la tos
NyQuil Robitussin Triaminic

Sin alivio 11 13 9
Cierto Alivio 32 28 27
Alivio Completo 7 9 14
Pruebe la hipótesis de que los tres remedios para la tos son igualmente efectivos para un nivel de
confianza de 1%
Solución
Datos
.
Estamos ante un problema que plantea una tabla de dos entradas con dos variables categóricas,
entonces esto se trata de una tabla de contingencia. O prueba de independencia entre dos
variables categóricas. La fórmula a utilizar es:
.𝜆 ∑ /
66
Como la prueba de bondad de ajuste también se calcula el p-valor. Lo que difiere es el cálculo de
la frecuencia esperada, en Excel es como sigue: preparar una matriz de igual dimensión que la
observada, luego la primera columna de la esperada se calcula así: =(total fila*total columna
F4)/nF4 Enter, luego arrastrar hacia abajo, no llegar hasta el total, para cada columna hacer en
forma similar.
Se obtuvo un p-valor igual 0,4323 superior a , entonces no se puede rechazar la hipótesis
nula, los tres remedios tienen igual efectividad estadísticamente.
3.4. Ejercicios
1. Con base en los registros de una tienda de modas, el 50% de los vestidos adquiridos por ésta para
la temporada se venderán a precio de menudeo, el 25% a un 20% menos del precio de menudeo,
15% se venderán después de una reducción en su precio de 40% y los restantes con una
disminución en su precio del 60%. Para esta temporada, se adquirieron 300 vestidos y su venta
fue en la siguiente forma:
Precio de venta 20% de 40% de 60% de
140 90 30 40
¿Existe alguna razón para creer que la disminución en ventas fue diferente en esta temporada con
respecto a las anteriores? Úsese .
2. En un hospital, el número de nacimientos observados para cada mes de cierto año, fueron los
siguientes:
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
95 105 95 105 90 95 105 110 105 100 95 100
Si , ¿existe alguna razón para creer que el número de nacimiento no se encuentran

distribuido en forma uniforme durante todos los meses del año?
67
3. Un fabricante asegura que produce solo el 5% de unidades defectuosas, un comprador de grandes
cantidades de estas unidades selecciona 100 y encuentra 10 defectuosas.
Mediante el empleo de la prueba de bondad de ajuste Chi -cuadrado, determinar si existe una
razón para dudar de la afirmación del fabricante. Úsese .
4. Una organización de seguridad vial desea determinar si el número de accidentes fatales se
encuentra distribuido de igual forma para el color de los automóviles involucrados en los
accidentes. La organización obtuvo una muestra aleatoria de 600 accidentes automovilísticos en
los cuales ocurrió por los menos una muerte y anotó el color del automóvil. Se obtuvo la siguiente
información:
Rojo Café Amarillo Blanco Gris Azul
75 125 70 80 135 115
¿Existe alguna razón para creer que las proporciones de color no son idénticas? Úsese .
5. Durante un periodo de 30 años se llevó a cabo un estudio médico para determinar, entre otras
cosas, si los hábitos de fumar pueden influenciar en el desarrollo de la enfermedad cardiaca.
Durante este periodo, 160 hombres desarrollaron alguna enfermedad cardiaca. Estos hombres
fueron clasificados como fumadores agudos (más de dos cajetillas de cigarros al día), fumadores
moderados (una a dos cajetillas al día), fumadores ocasionales (menos de una cajetilla al día) o no
fumadores. El número de hombres en cada categoría que desarrolló alguna enfermedad cardiaca
es el siguiente:
Fumador agudo Fumador moderado Fumador ocasional No fumador
58 54 36 12
a) Si se supone que al comienzo del estudio había una cantidad igual de hombres en cada una de
las cuatro categorías, ¿existe alguna razón para creer que las proporciones en estas categorías
son las mismas en un nivel de significancia del 1%?
b) ¿Cómo se podría prevenir al investigador médico del uso de la prueba de bondad de ajuste chi-
cuadrada en esta situación?
6. En un proceso de producción se toma una muestra aleatoria diaria de 100 artículos y se
inspecciona para encontrar artículos defectuosos. Para una semana dada y para los cinco días de
operación, se obtuvo el siguiente número de unidades defectuosas:
Lunes Martes Miércoles Jueves Viernes
12 7 6 5 10
Si el porcentaje total de artículos defectuosos es del 8%, ¿puede concluirse que a un nivel de
significancia de 5% existe una diferencia discernible en el porcentaje diario de artículos
defectuosos?
7. Los totales de los renglones y columnas de una tabla de contingencia de dos características son
los siguientes:
10
12
15
8 14 10 5 37
68
Bajo la hipótesis nula de independencia, determinar la tabla de frecuencias esperadas.
8. Un proceso de producción emplea cinco máquinas en sus tres operaciones de desplazamiento. Se
clasificó una muestra aleatoria de 164 fallas de acuerdo con la máquina y la operación de
desplazamiento en la que ocurrió la falla y los resultados se muestran en la tabla de abajo. Con
base a esta información, ¿existe alguna razón para dudar acerca de la independencia entre la
operación de desplazamiento y la falla de la máquina? Úsese .
Fallas por máquinas y desplazamiento
Desplazamiento Máquinas
A B C D E
1 10 12 8 14 8
2 15 8 13 8 11
3 12 9 14 12 10
9. Se condujo una encuesta aleatoria entre los ciudadanos en edad de votar para determinar si
existía alguna relación entre la afiliación partidista y la opinión con respecto al control de armas.
Se obtuvo la información proporcionada en la tabla:
Filiación partidaria y opiniones sobre el control de armas
Filiación Opinión
A favor En contra Sin decisión
Demócratas 110 64 26
Republicanos 90 116 14
Independientes 55 35 10
Para , ¿existe razón para creer que existe una dependencia entre la opinión y la afiliación
partidista?
10.En una muestra aleatoria de recién egresados de la preparatoria se registraron dos características
(la clasificación promedio y el número de respuestas correctas para la prueba SAT). Esta
información se clasificó como se muestra a continuación:
Calificación Número de respuestas correctas para la prueba SAT
Promedio GPA
900-1100 1100-1300 1300-1500
>3,5 50 65 38
3,0-3,5 78 72 42
2,5-3,0 97 80 25
2,0-2,5 105 25 18
¿Existe una dependencia entre el número de respuestas correctas en la prueba SAT y el promedio
de calificaciones discernible estadísticamente a un nivel
69
11.En un estudio reciente que involucró una muestra aleatoria de 300 accidentes automovilísticos, se
clasificó la información de acuerdo con el tamaño del automóvil.
Cantidad de Muertos Tamaño del automóvil
Pequeño Mediano Grande

Por los menos un muerto 42 35 30
Ningún muerto 78 65 60
Con estos datos, ¿depende la frecuencia de accidentes del tamaño del automóvil? Úsese
.
12.Se llevó a cabo una encuesta con respecto a la preferencia del consumidor para determinar si
existía alguna predilección para tres marcas competitivas (A, B y C) dependiendo de la región
geográfica en la que habita el consumidor. Con base en una muestra aleatoria de consumidores,
se obtuvo la siguiente información para tres distintas regiones.
Región 1 Región 2 Región 3
Marca A 40 52 25
Marca B 52 70 35
Marca C 68 78 60
Con base en esta información, ¿la preferencia por una determinada marca depende de la
región geográfica a un nivel del 5%?
70
Capítulo 3: Prueba de bondad de ajuste y análisis de tablas de contingencia
Alumno:……………………………………………………………………………………………………………………………..
Logrado
Lee y parafrasea el texto del problema.
- Capacidad para construir y Identifica los datos y la incógnita de un problema

desarrollar argumentaciones Comprensión del
lógicas con una Plantea claramente las hipótesis a probar
problema o
identificación clara de
ejercicio
hipótesis y conclusiones. Identifica las características de los datos de un problema
Las conclusiones responden a lo planteado en las

hipótesis
Aplica las estrategias trabajadas
- Capacidad para formular

Explica todos los pasos seguidos
problemas en lenguaje
matemático, de forma tal
Cálculo mental Relaciona conceptos para solucionar los problemas
que se faciliten su análisis y
su solución
Genera problemas según diferentes estrategias
Detecta errores que generan los compañeros
71
CAPITULO 4: MÉTODOS PARA EL CONTROL DE CALIDAD Y
MUESTREO PARA ACEPTACIÓN
COMPETENCIAS
Genéricas

 Capacidad de aplicar los conocimientos en la práctica.
Específicas

 Capacidad para formular problemas en lenguaje matemático, de forma tal que se
faciliten su análisis y su solución.
72
4. Métodos para el control de calidad y muestreo para aceptación
En los últimos años ha aumentado el interés que se tiene, por parte de los productores así como
de los consumidores, en la calidad de los productos manufacturados. Un fabricante que desea
mantener cierto nivel de calidad en su producto terminado debe implantar un procedimien to para
detectar cualquier desviación seria del estándar de calidad deseado. En el logro de este fin, las
tablas estadísticas de control de calidad y el muestreo periódico han demostrado ser medios muy
efectivos para controlar la calidad de los productos manufacturados.
Por otro lado, el consumidor desea asegurarse de que el producto que adquiere reúne ciertos
estándares de calidad. Lo anterior es especialmente cierto si el consumidor, como muchas veces
ocurre en la práctica, compra lotes muy grandes de cierto producto. En estos casos es necesario
establecer un procedimiento para inspeccionar una muestra relativamente pequeña del producto
proveniente del lote para decidir si reúne los estándares de calidad deseados. Un procedimiento
de esta naturaleza incluye la noción del muestreo para aceptación.
4.1. Tablas de control estadístico

Una tabla de control estadístico es un procedimiento inferencial basado en un muestreo
repetitivo para estudiar un proceso.
4.1.1. Tablas ̅ (media conocida de la población)

Se puede construir una tabla de control con base en la media muestral cuando la medición de
interés se encuentra normalmente distribuida con media µ y desviación estándar conocidas. El
conocimiento que se tiene sobre la media y la desviación estándar poblacional puede deber a la
naturaleza particular del proceso de interés, el cual puede proporcionar la suficiente información
con respecto a la media y a la deviación estándar. Para este caso, una tabla ̅ proporciona el
procedimiento inferencial por medio del cual se puede decidir si la media del proceso es la se
afirma.
Sea una muestra aleatoria de tamaño n del proceso de interés. Dado que por
hipótesis X tiene una distribución normal con media y desviación típica conocida, la media muestral
tiene una distribución normal con media µ y desviación típica ⁄ , la probabilidad de que | ̅ |
√
sea menor que ⁄ es:
√
(| ̅ | ⁄√ )
De esta forma, los límites de control tres-sigma son ⁄√ , es decir, cuando se toma una
muestra de tamaño n se calcula y se gráfica un valor de la media muestral. Si este se encuentra
dentro de los límites de control, se supone que el proceso se encuentra bajo control, de otra forma
está fuera de control. Por loa tanto, cada vez que se toma una muestra se está probando la
hipótesis nula de que la media del proceso es igual a µ contra la alternativa de que ha ocurrido un
corrimiento en la media del proceso. El rechazo de la hipótesis nula implica que el proceso se
encuentra fuera de control. En síntesis la decisión queda de la forma:
̅ ( ⁄√ ⁄√ )
Ejemplo 27:
En un proceso de llenado se tiene una máquina que vacía una cantidad promedio de 500 g e n
cada recipiente, con una desviación estándar de 2 g. Se toman 10 muestras diarias, cada una de
73
cinco de recipientes, y se mide el peso de cada recipiente. Los pesos promedios para las diez
muestras en una semana dada son los siguientes:
N° de 1 2 3 4 5 6 7 8 9 10
mues tra
Promedios 498,37 499,49 501,25 498,63 502,97 500,56 499,23 498,76 501,05 500,27
Para los límites de control , ¿se encontró el proceso bajo control durante esta semana? Con
estos límites, ¿cuál es la probabilidad de no detectar un corrimiento de 500 a 503 g en la media?
Solución
Como hallar en Excel los límites y probabilidad

Li =B6-3*B5/RCUAD(B4)
Ls =B6+3*B5/RCUAD(B4)
Calculo de probabilidad:=DISTR.NORM.N(E6;503;B5/RCUAD(B4);1)-DISTR.NORM.N(D6;503;B5/RCUAD(B4);1)
Para responder a la primera pregunta es mejor realizar un gráfico teniendo en cuenta el promedio
y los límites del intervalo calculado. Para graficar proceder como indica en captura de pantalla a
continuación:
74
Como graficar en Excel:
Construir la tabla como se ve arriba en la captura de pantalla, luego seleccionar toda la tabla, ir en
insertar, gráficos, dispersión y seleccionar la tercera opción.
Análisis de los resultados
Observando la gráfica vemos que el quinto promedio está fuera del intervalo establecido, este
promedio corresponde a la quinta semana, por lo que podemos decir que, en la quinta semana el
proceso se encontraba fuera de control
La probabilidad de observar un corrimiento en el promedio de 500 a 503 gramos en el proceso es
de 0,362.
4.1.2. Tablas S (desviación estándar conocida de la población)

En muchas ocasiones la variabilidad de un proceso es, por lo menos, tan importante como la
media de éste; por ejemplo, en la fabricación de instrumentos de precisión, mantener la variación
en las mediciones a un nivel aceptables, probablemente es tan importante como el promedio.
Los límites de control son:
√ ( )
[ ]
; √
√
Ejemplo 28:
El consejo estatal formado para controlar la calidad del agua selecciona cada semana cinco
muestras de agua de una fuente de abastecimiento y determina la variación en la concentración de
una sustancia tóxica. Los siguientes datos son las desviaciones estándares en partes por millón
durante 12 semanas.
Semana 1 2 3 4 5 6 7 8 9 10 11 12
Desv. Est 5,2 4,9 5,5 5,4 4,8 4,6 5,5 4,7 5,1 4,5 5,8 5,6
Si el valor de la desviación estándar poblacional es 5, obténgase los límites para la desviación
estándar de la concentración.
Solución
75
Calculo en Excel: solo explicaremos como se calculó la tabla S, el cuadro para graficar e s igual al
de la media.
LI =0 al cargar la formula indicada para este límite, el resultado obtenido resultó ser negativo, y
como la desviación estándar no puede ser negativo se optó por el mínimo valor que es cero.
LS=B7*B6+3*B8*B6
C4 =(RCUAD(2)*EXP(GAMMA.LN(5/2)))/(RCUAD(4)*EXP(GAMMA.LN(4/2)))
C5 =RCUAD(1-B7^2)
En la gráfica se ve que todas las desviaciones estándares de las muestras se encuentran dentro del
intervalo calculado, evidencia de que la variación en la concentración de la sustancia tóxica está
bajo control durante las doce semanas.
76
4.1.3. Tablas ̅ (media y varianza desconocida de la población)
Se considerarán las tablas de control para aquellos casos en lo que la distribución de la población
es normal, pero no se conocen los valores de la media y la desviación estándar. Para esta situación,
los límites de control se basan en los valores estimados para µ y .
Los límites para la media y para la desviación estándar son:
̅ ̅ ̅ ̅
̅ ( ̿ ̿ ) ( ̅ ̅ )
√ √
√ ( )
[ ]
; √
√
Ejemplo 29:
Los datos son 20 muestreos, cada una con cinco observaciones tomadas en intervalos de dos
horas, de la resistencia a la tensión en libras de un hilo. Para cada muestra se proporcionan los
valores de la media y la desviación estándar. Constrúyase la tabla o tablas adecuadas con base a
estos datos para determinar si el proceso está bajo control.
N° de ̅
Muestra
1 47,8 3,03
2 46,0 2,12
3 46,0 2,45
4 47,4 2,30
5 46,2 3,90
6 47,0 1,87
7 47,6 1,52
8 48,0 2,12
9 45,4 2,41
10 48,0 2,55
11 47,4 2,30
12 48,8 2,77
13 46,0 2,00
14 45,8 1,92
15 49,2 2,39
16 46,8 3,11
17 48,0 1,58
18 48,8 2,59
19 48,6 2,07
20 43,6 1,52
Solución
77
Al analizar el problema, encontramos que no se conocen ni la media ni la desviación estándar
poblacional, entonces las tablas adecuadas serían la ̅
Para graficar se procede como se muestra a continuación
Grafica para la media
78
Grafica para la desviación estandar
Análisis de resultados
Según la variabilidad, el proceso parece estar bajo control, pero mirando la gráfica de la media,
observamos que la media muestral del muestreo numero 20 está fuera del i ntervalo calculado.
Debido a esto se pueden obtener nuevos valores para los límites al omitir esta muestra. Queda a
cargo del estudiante el nuevo cálculo.
4.1.4. Tabla p (no se conoce el valor de P poblacional)

La tabla p se puede construir cuando se supone que el muestreo se llevó a cabo sobre una
distribución binomial con parámetro de proporción P. Los límites de control se obtienen para las
proporciones de muestra de unidades que caen en una de dos categorías posibles. Para esta
situación, lo que generalmente es de interés, es vigilar la proporción de unidades defectuosas que
produce un proceso de manufactura. Los límites tentativos para las proporciones muestrales
son:
̅ ̅ ̅ ̅
. ̅ √ ̅ √ /
Ejemplo 30:
En un proceso de manufactura, cada día se seleccionan al azar 100 unidades y se envían para su
inspección. Los siguientes datos son el número de unidades defectuosas en la muestra durante 13
días.
Día 1 2 3 4 5 6 7 8 9 10 11 12 13
N° de 0 1 2 0 2 1 5 3 4 2 8 0 2
defectuosos
a) Con base a esa información, obténgase una tabla p.

b) Revísense los límites de control si algún día el proceso se juzgó como fuera de control.
c) Si se supone que el proceso se encuentra bajo control con un porcentaje de unidades
defectuosas, igual al obtenido en la parte b, ¿Cuál es la probabilidad de que, en un día
determinado el proceso se considere como fuera de control?
Solución:
79
La variable de estudio es dicotómica, trata de defectuosas y no defectuosas, entonces debemos
calcular la tabla p.
b) El grafico muestra que el muestreo del undécimo día está fuera de control. Es decir el proceso
en ese día estuvo fuera de control
c) El límite tentativo para el control del proceso dio como resultado un intervalo de [ ],
entonces el proceso estará fuera de control a partir de . De aquí la probabilidad de
que en un día determinado el proceso quede fuera de control es:
En Excel se calculó de la siguiente manera: =1-DISTR.NORM.N(I14;D14;RCUAD((D14*(1-

D14)/D13));1)
4.2. Procedimiento de muestreo para aceptación

Un consumidor puede escoger uno de los tres caminos siguientes para verificar la calidad de los
artículos de un embarque que ha recibido: inspeccionar todos los artículos en el lote;
inspeccionarlos una muestra aleatoria proveniente del lote, o aceptar el lote sin llevar a cabo
ninguna inspección. La primera opción tienen generalmente un precio prohibitivo y la ultima es
80
poco probable que sea aceptada por un consumidor serio, con respecto a la cal idad de los artículos
que adquiere. Por lo tanto, la opción que tienen un balance adecuado entre el costo de la
inspección y el que implica aceptar un lote y usar artículos defectuosos, es la de inspeccionar los
artículos en una muestra aleatoria proveniente del lote que se acaba de adquirir. Con base en el
proceso de inspección, la decisión usual es aceptar el lote, rechazarlo o tomar otra muestra
aleatoria. Si la decisión de aceptar o rechazar se toma con base en los valores medidos de los
artículos, con respecto a una medición física contínua, entonces se dice que la inspección se lleva a
cabo por variables. Si los artículos que se inspeccionan se clasifican como defectuosos o no
defectuosos, y el lote se acepta o se rechaza con base en el número de artículos defectuosos, se
dice que la inspección se lleva a cabo por características.
El desarrollo de buenos planes de muestreo incluye tanto al productor como al comprador del
lote. De manera normal el productor es el vendedor y el consumidor es el comprador. Un
productor ciertamente desearía que el consumidor rechazara un porcentaje muy pequeño de los
lotes vendidos y que sean, en general, buenos; el consumidor desearía aceptar un porcentaje muy
pequeño de los lotes que son malos. De esta forma los dos experimentan cierto riesgo. Supóngase
que ambos están de acuerdo en que un lote es aceptable si la proporción de artículos defectuosos
es y no aceptable si . Se dan las siguientes definiciones que implican riesgos.
Definición 9: El riesgo del productor es la probabilidad de que el consumidor rechace un lote
cuya proporción de artículos defectuosos no es mayor que .
Definición 10: El riesgo del consumidor es la probabilidad de aceptar un lote cuya proporción
de artículos defectuosos es mayor o igual a .
Con base a estas definiciones, el riesgo del productor es la probabilidad del error tipo I, dado que
este representa la probabilidad de rechazar un lote aceptable. De manera similar, el riesgo del
consumidor es la probabilidad del error tipo II, ya que éste representa la probabilidad de
equivocarse al no rechazar un lote inaceptable. En otras palabras, la situación anterior es análoga a
probar la hipótesis nula contra la alternativa . En este contexto, recibe el
nombre de nivel aceptable de calidad (NAC), y el de tolerancia de la proporción de defectuosos
en el lote (TPDL). La práctica usual ha sido la de escoger la probabilidad de aceptación
en NAC cercano al punto 0,95 de la curva característica, y la probabilidad de aceptación
en TPDL cercano al punto 0,10 sobre la misma curva. Entonces, el 95% de los lotes que
provienen de un proceso cuya proporción de artículos defectuosos se encuentran en NAC, o por
encima de éste, se aceptará, mientras que solo el 10% de los que provienen de un proceso cuya
proporción de artículos defectuosos se encuentra en TPDL o más, será aceptado.
4.2.1. El desarrollo de planes de muestreo sencillos para riesgos estipulados del productor
y del consumidor
Se examinará un procedimiento para obtener planes de muestreos sencillos para valores
especificados de los riesgos del productor y del consumidor. La esencia del procedimiento está en
determinar el tamaño de la muestra y el número de aceptación , dadas las probabilidades de
aceptación en el NAC y el TPDL.
Supóngase que las condiciones son tales que la distribución de Poisson proporcionará una
aproximación adecuada. Sea X la variable aleatoria que representa el número de artículos
defectuosos en una muestra de tamaño . Entonces para el riesgo del productor, se desea obtener
, tales que
81
∑
De manera similar, para el riesgo del consumidor, se desea obtener , tales que
Dados , el procedimiento es el siguiente: fórmese el cociente entre . En forma

ideal, lo que se busca es obtener el valor de para el valor obtenido en el cociente. Dado que no es
probable tener este valor de manera precisa, lo que se desea es determinar los dos valores de
que se encuentren relacionados con el resultado del cociente. Lo anterior puede lograrse si se inicia
con y se interpola, para encontrar valores , tales que , y para , tales que
, mediante el empleo de la distribución acumulativa de Poisson. Entonces se aumenta el
valor de c, y se continúa el proceso hasta que se encuentren los valores de c que estén relacionados
con el cociente deseado. Los tamaños correspondientes de las muestras se obtienen, primero, al
fijar la probabilidad de aceptación del riesgo del productor dado, y después al hacer lo mismo para
el riesgo del consumidor, este procedimiento dará como resultado cuatro planes de muestreo
diferentes.
4.2.2. Muestreo para aceptación por variables

La mayoría de los planes de muestreo para aceptación se llevan a cabo por características, debido
a dos razones fundamentales: la inspección por característica es más económica y muchas de las
características de calidad solo son observables como atributos. Sin embargo, en algunos casos
puede hacerse una medición física de la calidad de un producto dado. Cuando la aceptación se hace
con base en mediciones físicas se dice que el muestreo se lleva a cabo por variables. Cuando este es
posible, se convierte en el tipo de muestreo más popular, ya que una medición física es probable
que proporcione mucho más información útil con respecto a la calidad de un producto que la dada
por característica. Además pueden obtenerse curvas características más pronunciadas para el
mismo tamaño de la muestra. La inspección por variables en general es más costosa que la
inspección por característica, debido a que, principalmente, tiene que aplicarse el criterio de
aceptación por separado para cada medición de calidad cuando se muestrea por variables.
En el caso sencillo en el que la aceptación de un lote se hace con base en las medidas de la
muestra, se supone que la medición de la calidad es una variable aleatoria normalmente distribuida
y con varianza conocida. Sean el riesgo del productor y el promedio del lote para el que la
probabilidad de aceptación es . En forma similar, sea el riesgo del consumidor y el
promedio del lote para el cual la probabilidad de aceptación es . Dados , el plan de
muestreo por variables es una muestra de tamaño y un valor de aceptación ̅ , tales que, cuando
el valor observado de la media de la muestra ̅ es mayor que ̅ , el lote será aceptado.
A continuación se detallan los cálculos de los valores de ̅
̅
√
̅
√
Luego
82
* +
4.3. Ejercicios
1. El consejo estatal formado para controlar la calidad del agua selecciona cada semana cinco
muestras de agua de una fuente de abastecimiento y determina la concentración promedio de
una sustancia tóxica. Los siguientes son las cantidades promedio en partes por millón durante 12
semanas.
Semana 1 2 3 4 5 6 7 8 9 10 11 12
Media 5,2 4,9 5,5 5,4 4,8 4,6 5,5 4,7 5,1 4,5 5,8 5,6
a) Si los valores de la concentración promedio y de la desviación estándar son 5 y 0,5 ppm,
respectivamente, obténgase los límites de control para la concentración promedio. Para
este periodo, ¿existió alguna razón para alarmarse?
b) Si se considera como peligrosa una concentración de 6 ppm, ¿Qué tan probable es tener un
resultado como el anterior, con base en cinco muestras de agua, si la concentración real
promedio es de 5 ppm?
c) Mediante el uso de los límites de control de la parte a, ¿Cuál es la probabilidad de detectar un
desplazamiento en el valor de la concentración media de 5 ppm a 5,25 ppm?
2. Mediante el empleo de la información proporcionada en el ejercicio 1, obténgase los límites de
control para la desviación estándar de la muestra.
3. Los siguientes datos son las tensiones de ruptura promedio de seis muestras de metal tomadas en
forma periódica:
Muestra 1 2 3 4 5 6 7 8 9 10
Media 498,6 508,3 484,5 505,7 491,7 495,4 482,6 515,2 510,8 503,7
Se sabe que los valores de la tensión de ruptura promedio y de la desviación estándar son 500 y
20 libras, respectivamente.
a) Obténgase los límites de control para la tensión de ruptura media de la muestra y hágase
una gráfica de la tabla de control. ¿existe alguna media muestral que se encuentre fuera de los
límites de control?
b) Obténgase la probabilidad de no detectar un corrimiento en el valor real de la tensión de
ruptura promedio de 500 a 494 libras.
c) Obténgase los límites de control para la desviación estándar muestral
4. Los datos que se encuentran en la tabla consiste en 20 muestras, cada una con cuatro
observaciones, de los diámetros de cojinetes produci dos por un proceso de manufactura.
a) Constrúyase los limites tentativos para las tablas ̅ .
b) Si se detecta que el proceso no se encuentra bajo control, con base en alguna muestra,
recalcúlense los limites tentativos.
Número de la Valores de la muestra (en centímetros)
muestra
1 4.01 4.03 3.98 4.04
2 3.97 3.99 3.99 4.02
83
3 4.06 4.05 3.97 4.02
4 3.96 3.98 4.07 4.03

5 3.98 3.99 3.99 4.00
6 4.01 4.02 3.96 3.99
7 3.95 3.98 4.02 4.03

8 4.03 4.00 3.96 4.04
9 4.07 3.96 3.98 4.05

10 3.98 3.97 4.02 4.04
11 3.92 4.03 4.05 3.99
12 3.97 4.05 4.04 4.01

13 4.04 4.04 3.96 3.99
14 4.03 4.00 4.02 4.05
15 3.95 3.96 3.95 4.02

16 4.05 4.09 4.07 4.02
17 3.98 4.06 4.04 4.03

18 4.01 4.02 4.06 3.97
19 4.02 4.01 4.05 3.99
20 3.99 3.99 4.01 4.00
5. Las tablas de control ̅ de un proceso de llenado de recipientes se conservan por algún

tiempo. Con base en 25 muestras periódicas, cada una con 5 recipientes, se obtiene que
̅̅ ̅ .
a) Si se supone que el proceso de llenado se encuentra bajo control, ¿Cuáles son los límites de
control de la media y la desviación estándar muestral?
b) Obténgase un estimado de la desviación estándar del proceso
6. En el ejercicio 5, supóngase que cada muestra contenía seis recipientes, ¿Cómo puede afectar
este cambio a las respuestas de las partes a y b?
7. En un proceso de manufactura, cada día se seleccionan al azar 100 unidades y se envían para su
inspección. Los siguientes datos son el número de unidades defectuosas en la muestra durante 25
días.
Día 1 2 3 4 5 6 7 8 9 10 11 12 13
N° de 2 1 4 3 2 2 5 3 4 2 1 5 2
defectuosos
Día 14 15 16 17 18 19 20 21 22 23 24 25
N° de 3 2 1 0 6 4 5 2 1 8 3 2
84
defectuosos
a) Con base a esa información, obténgase una tabla p.
b) Revísense los límites de control si algún día el proceso se juzgó como fuera de control.
c) Si se supone que el proceso se encuentra bajo control con un porcentaje de unidades
defectuosas, igual al obtenido en la parte b, ¿Cuál es la probabilidad de que, en un día
determinado el proceso se considere como fuera de control?
8. Se supone que el porcentaje de unidades defectuosas para un proceso de manufactura es de 4%.
El proceso se vigila diariamente mediante la toma de muestra de unidades. Este se
detiene cada vez que se encuentra cinco o más unidades defe ctuosas en la muestra. Si el
verdadero porcentaje de unidades defectuosas es de 5,5%, ¿Cuál es la probabilidad de detener el
proceso?
9. Supóngase que la calidad de un lote muy grande es de solo 5% de unidades defectuosas. Un plan
de muestreo para aceptación requiere una muestra de 40 unidades y un número de aceptación
igual a 2 unidades.
a) ¿Cuál es la probabilidad de que el lote sea aceptado?
b) Si la calidad real del lote es de 6,25% de unidades defectuosas, ¿Cuál es la probabilidad de que
el lote sea aceptado?
10.La calidad de un lote de unidades es del 10% de defectuosas. Si se toma una muestra
aleatoria de cinco unidades y no se encuentra ninguna defectuosa se aceptará el lote. ¿Cuál es la
probabilidad de aceptar el lote?
11.Obténgase los cuatro planes de muestreo que relacionaran los riesgos del productor y del
consumidor de para NAC=0,02 y para TPDL=0,08 respectivamente.
12.Obténgase los cuatro planes de muestreo que relacionaran los riesgos del productor y del
consumidor de para NAC=0,01 y para TPDL=0,05 respectivamente.
13.En muchas ocasiones se emplea un plan de muestreo doble para el muestreo de aceptación; este
plan requiere una muestra aleatoria de unidades de un lote de N unidades. Si el número de
unidades defectuosas no es mayor que , el lote se acepta; si se encuentra una cantidad de
unidades defectuosas el lote se rechaza. Si el número de unidades defectuosas en la
primera muestra es mayor que , pero menor que , se toma otra muestra aleatoria de tamaño
. El lote se acepta si el número de unidades defectuosas en ambas muestras no es mayor que
; de otra forma el lote se rechaza. Mediante el empleo de este procedimiento determínense las
siguientes probabilidades para el doble plan de muestreo si la
calidad del lote es de 2% de unidades defectuosas.
a) La probabilidad de aceptar el lote con base en la primera muestra.
b) La probabilidad de rechazar el lote con base en la primera muestra.
c) La probabilidad de aceptar el lote después de tomar la segunda muestra.
d) La probabilidad de rechazar el lote después de tomar la segunda muestra.
14.Una agencia estatal se encarga de vigilar el nivel de concentración de cierto contaminante
químico, el cual ha sido derramado en grandes cantidades en uno de los ríos más grandes del
estado. La agencia debe decidir en forma periódica cuando el nivel de concentración se encuentra
entre límites seguros para permitir la pesca con fines comerciales. La agencia desea obtener un
plan de muestreo por variables de tal manera que cuando el nivel de concentración promedio real
sea de 5,6 ppm decidirá el 95% de las veces que la pesca continúe. Pero desea prohibir la pesca el
99% de las veces que se observe una concentración hasta de 6,0 ppm. Si la desviación estándar
85
no es mayor de una parte por millón, determínese el plan de muestreo. Supóngase que la
concentración de este contaminante se encuentra normalmente distribuida.
15.Un comprador de grandes cantidades de hilo desea desarrollar un plan de muestreo por variables
para la tensión de ruptura del hilo. El hilo será aceptado por el comprador si su tensión de ruptura
es mayor de 60 libras. Si se sabe que la desviación estándar del hilo es 8 libras y dados
, obténgase el plan de muestreo. Supóngase que la
tensión del hilo se encuentra normalmente distribuida.
86
Capítulo 4: Métodos para el control de calidad y muestreo para aceptación
Alumno:……………………………………………………………………………………………………………………………..
Logrado
- Capacidad para construir y
desarrollar argumentaciones Comprensión del
lógicas con una problema o Identifica claramente las características de los datos de
identificación clara de un problema
ejercicio
hipótesis y conclusiones. Representa gráficamente la situación del problema
Las conclusiones responden al problema planteado
- Capacidad para formular Aplica las estrategias trabajadas

problemas en lenguaje
matemático, de forma tal Cálculo mental Son claros los pasos seguidos
que se faciliten su análisis y
su solución
87
CAPITULO 5: DISEÑO Y ANÁLISIS DE EXPERIMENTOS
ESTADÍSTICOS
COMPETENCIAS
Genéricas

 Capacidad de aplicar los conocimientos en la práctica.
Específicas
 Capacidad para contribuir en la construcción de modelos matemáticos a partir de

situaciones reales.
88
5. Diseño y análisis de experimentos estadísticos
5.1. Experimentos estadísticos
Un experimento es un cambio en las condiciones de operación de un sistema o proceso, que se
hace con el objetivo de medir el efecto del cambio sobre una o varias propiedades del estado de
una persona, animal, producto etc.
5.2. Diseños Estadísticos

El diseño de experimentos consiste en planear un conjunto de pruebas experimentales, de tal
manera que los datos generados puedan analizarse estadísticamente para obtener conclusiones
válidas y objetivas a cerca del sistema o proceso.
5.2.1. Elementos en un diseño estadístico

Unidad experimental
Es el objeto que es capaz de producir una medición de la variable de respuesta después de aplicar
un tratamiento dado.
Niveles y tratamientos
Los diferentes valores que se asignan a cada factor estudiado en un diseño experimental se
llaman niveles. Una combinación de niveles de todos los factores se llama tratamiento o punto de
diseño.
Aleatorización
Consiste en hacer corridas experimentales en orden aleatorio; este principio aumenta la
posibilidad de que el supuesto de independencia de los errores se cumpla.
Repetición
Es correr más de una vez un tratamiento o combinación de factores
Bloqueo
Es nulificar o tomar en cuenta en forma adecuada todos los factores que puedan afectar la
respuesta observada.
5.2.2. Etapas en el diseño de experimentos

Planeación
1. Encontrar un problema de calidad que causa pérdidas importantes a la compañía o que es de
interés para un investigador.
2. Determinar cuáles factores deben estudiarse o investigarse, de acuerdo a la supuesta
influencia que tienen sobre la respuesta.
3. Elegir las variables de respuestas que serán medidas en cada punto del diseño y verificar que
se mide de manera razonable.
4. Seleccionar el diseño experimental adecuado a los factores que se tienen y al objetivo del
experimento.
5. Planear y organizar el trabajo experimental
6. Realizar el experimento.
89
Análisis
Se debe determinar el modelo de análisis de varianza Anova o la técnica estadística que mejor
describa el comportamiento de los datos. En algunos experimentos el análisis de varianza que
arrojan directamente los sistemas computacionales no es el más adecuado y el experimentador
debe refinarlo, para lo cual se recomienda técnicas gráficas de apoyo.
Interpretación
Aquí se debe ir más allá del análisis estadístico formal, y se debe analizar con detalle lo que ha
pasado en el experimento, desde contrastar las conjeturas iniciales con los resultados del
experimento, hasta observar los nuevos aprendizajes que sobre el proceso se lograron, verificar
supuestos y elegir el tratamiento ganador.
Conclusiones finales
Para concluir el proyecto se recomienda decidir qué medidas implementar para generalizar el
resultado del estudio y para garantizar que las mejoras se mantengan. Además organizar una
presentación para difundir los logros.
5.3. Diseños para comparar más de dos tratamientos en un factor de interés
5.3.1. Análisis de experimentos unifactoriales en un diseño completamente aleatorio

El diseño completamente al azar es el más simple de todos los diseños que se utilizan para
comparar dos o más tratamientos, dado que solo considera dos fuentes de variabilidad: los
tratamientos y el error aleatorio. Se llama completamente al azar porque todas las corridas
experimentales se realizan en orden aleatorio completo.
5.3.1.1. Notación de puntos

Sirve para representar de manera abreviada cantidades numéricas que se pueden calcular a partir
de los datos.
= Suma de las observaciones del tratamiento i
̅ = Media de las observaciones del i-ésimo tratamiento
= Suma o total de todas las mediciones
̅ = Media global de todas las observaciones
5.3.1.2. Arreglo para los datos del diseño completamente al azar

Tratamientos
T1 T2 T3 …… Tk
…
…
…. …. …. … ….
…
Es recomendable utilizar el mismo número de repeticiones en cada tratamiento, a menos que
hubiera alguna razón para no hacerlo. Cuando se dice que el diseño es balanceado.
En caso de que los tratamientos tengan efecto, las observaciones se podrían describir con el
modelo lineal dado por:
90
5.3.1.3. Modelo estadístico
Donde µ es el parámetro de escala común a todos los tratamientos, llamado media global, es la
media del tratamiento i, es un parámetro que mide el efecto del tratamiento y es el error
aleatorio atribuible a la medición .
5.3.1.4. Anova para el diseño completamente al azar

El nombre de análisis de varianza (ANOVA) viene del hecho de que se utilizan cocientes de
varianzas para probar la hipótesis de igualdad de medias. La idea general de la técnica es separar la
variación total en las partes con las que contribuye cada fuente de variación en el experimento. En
el caso de diseño completamente al azar se separan variabilidad debida a los tratamientos y la
debida al error. Cuando la primera predomina claramente sobre la segunda es cuando se concluye
que los tratamientos tienen efecto, o lo que es lo mismo, las medias son diferentes.
El objetivo del análisis de varianza (ANOVA) es probar hipótesis de igualdad de las respuestas
medias dadas por:
FV SC GL CM Fcal P-valor
Tratamientos ⁄
Error ⁄
Total
Si p-valor es menor que , entonces se rechaza hipótesis nula de igualdad de todas las medias,
caso contrario no se rechaza.
∑∑ ̅ ∑∑
es la suma de todos los datos del arreglo
∑ ̅ ̅ ∑∑ ̅
∑ ̅ ̅ ∑
Donde el primer componente es la suma de cuadrados de tratamiento y el segundo es la suma de

cuadrado del error. Es decir:
91
Donde Fcal sigue una distribución F con grados de libertad en el numerador y en el
denominador.
Para realizar los cálculos con Excel usaremos las siguientes fórmulas:
Donde es la varianza de todo el conjunto de datos y las varianzas en cada tratamiento o

grupo.
5.3.1.5. Comparaciones o pruebas de rangos múltiples. Método LSD (Diferencia mínima

significativa)
Después que se rechazó la hipótesis nula en un análisis de varianza, es necesario ir a detalle y ver
cuales tratamientos son diferentes. Para ello es necesario plantear las hipótesis nuevamente, pero
esta vez comparando parejas de medias como se define a continuación
Para toda . Para probar estas hipótesis se han propuesto muchos métodos diferentes,
conocidos métodos de comparaciones múltiples o pruebas de rangos múltiples. La diferencia
primordial entre los métodos radica en la potencia que tienen para detectar las diferencias entre
las medias. Se dice que una prueba es más potente si es capaz de detectar dif erencias más
pequeñas como significativas, siempre y cuando estas diferencias sean reales. En nuestro caso
solamente veremos el método LSD o diferencia mínima significativa
Método LSD
Una vez que se haya rechazado la hipótesis nula en el ANOVA, el problema es probar igualdad de
todos los posibles pares de medias con la hipótesis
Para . Para k tratamientos se tiene en total pares de medias. El estadístico de

prueba para cada una de las hipótesis dadas es la correspondiente diferencia en valor absoluto
entre sus medias muestrales | ̅ ̅ |. Se rechaza la hipótesis nula si ocurre que
|̅ ̅| ⁄ √ ( )
Donde ⁄ se lee en las tablas de la distribución T de Students con N-k grados de libertad
que corresponde al error.
Ejemplo 31:
Se pide a un laboratorio de prueba independiente que compare la durabilidad de cuatro
diferentes marcas de pelotas de golf. El laboratorio propone un experimento en el que se
seleccionan, en forma aleatoria ocho pelotas de cada fabricante y se ponen en una máquina que
golpea cada pelota con una fuerza constante. La medición de interés es el número de veces que la
máquina golpea la pelota antes de que su recubrimiento externo se rompa. La información que se
obtuvo al llevar a cabo el experimento se ve en la siguiente tabla:
92
Marcas
A B C D
205 242 237 212
229 253 259 244
238 226 265 229
214 219 229 272
242 251 218 255
225 212 262 233
209 224 242 224
204 247 234 245
a) ¿Existe alguna razón para creer que la durabilidad promedio es diferente para cada una de las
cuatro marcas? Use 5% de significancia.
b) De existir diferencias significativas, encuentre la marca o marcas que difieren.
Solución
Como factor de interés tenemos solamente marca de las pelotas, y no se menciona otro factor
que pueda afectar al respuesta, entonces estamos ante un diseño de un factor completamente
aleatorizado.
La variable de respuesta es el número de veces que la máquina golpea a la pelota antes de que se
rompa el encubrimiento externo.
a) Para responder a la pregunta del problema, debemos de calcular el ANOVA utilizando Excel.
Primeramente plantearemos las hipótesis
A continuación tenemos la captura de pantalla del Excel, el cual contiene los cálculos de los
estadísticos de medias y varianzas, ya sean en forma general o especifica por grupos, además el
ANOVA necesario para la toma de decisiones con su p-valor correspondiente.
93
El Anova nos muestra un p-valor igual a 0,062, mayor que el nivel de significancia 0,05, entonces
la hipótesis nula no se puede rechazar. Es decir, los promedios de veces que la máquina golpea las
pelotas antes de romperse su recubrimiento externo no son diferentes para cada marca.
b) El Anova no encontró diferencias significativas entre las cuatro marcas, entonces las
comparaciones múltiples no son necesarias.
5.3.2. Análisis de experimentos con solo un factor en un diseño en bloque completamente

aleatorizado
En un diseño en bloques completos al azar se consideran tres fuentes de variabilidad: el factor
tratamiento, el factor de bloques y el error aleatorio, es decir, se tienen tres posibles culpables de
la variabilidad presente en los datos. La palabra completo en el nombre del diseño se debe a que en
cada bloque se prueban todos los tratamientos, es decir, que los bloques están completos. La
aleatorización se hace dentro de cada bloque; no se realiza de manera total como en el diseño
completamente aleatorizado.
5.3.2.1. Notación de puntos

= Suma de las observaciones del tratamiento i
̅ = Media de las observaciones del i-ésimo tratamiento
= Suma o total de todas las mediciones
̅ = Media global de todas las observaciones
5.3.2.2. Arreglo para los datos en un diseño de un factor en bloques completos al azar
Tratamientos
N° T1 T2 T3 …… Tk
1 …
2 …
3 …
Bloques
…. …. …. …. … ….
b …
5.3.2.3. El modelo estadístico

{ }
En este caso se le agrega al modelo el efecto del factor bloque que es
5.3.2.4. Anova para el diseño de un factor en bloques completos al azar

Hipótesis a probar:
La hipótesis dada se prueba con un análisis de varianza con dos criterios de clasificación; se
utilizan los dos criterios porque se controlan dos fuentes de variación: el factor tratamientos y el
factor bloques. A continuación se muestra el aspecto del ANOVA
94
Tratamientos ⁄
Bloques ⁄
Error ⁄
Total
∑∑ ̅ ∑∑
Para realizar los cálculos con Excel usaremos las siguientes fórmulas:
Donde es la varianza de todo el conjunto de datos y las varianzas en cada tratamiento
Ejemplo 32:
Desde el incremento en los precios de la gasolina se han desarrollado varios dispositivos, los
cuales se colocan en los carburadores de los automóviles, con el propósi to de aumentar el
rendimiento de éstos. Una empresa selecciona tres de los dispositivos más populares para
someterlos a prueba. La empresa desea compararlos con los carburadores estándar, con el
propósito de determinar si existe incremento apreciable de mi llas por galón de gasolina con el uso
de estos dispositivos. La compañía selecciona cinco tipos de automóviles para el experimento. Para
controlar la variación, se planea utilizar el mismo conductor para todo el experimento. A
continuación se muestra los resultados del experimento en millas recorridas por galón:
Automóvil Carburador Dispositivo A Dispositivo B Dispositivo C
Estándar
1 18.2 18.9 19.1 20.4
2 27.4 27.9 28.1 29.9
3 35.2 34.9 35.8 38.2

4 14.8 15.2 14.9 17.3
5 25.4 24.8 25.6 26.9
a) Escríbase el modelo y establézcase la hipótesis nula por probar. ¿puede rechazarse la hipótesis
nula a un nivel del 5%?
95
b) Si se rechaza la hipótesis nula de la parte a, constrúyanse los contrastes relevantes y pruebe su
significancia.
Solución:
Al leer el planteamiento del problema encontramos que el factor de interés el dispositivo que se
coloca en los carburadores, además para el experimento se seleccionó cinco tipos de automóviles ,
los cuales sirvieron para bloquear las corridas ya que podría tener efecto sobre la variable de
respuesta. Con lo explicado podemos decir que estamos ante un diseño de un factor en bloques
completos al azar.
a) Modelo matemático
{ }
Hipótesis
; No hay diferencia en las millas recorridas por galón entre los
carburadores estándar y los carburadores con diferentes dispositivos.
; Algún carburador con dispositivo tiene millas recorridas por galón
diferente del carburador estándar.
Como se calculó en Excel:

=SUMA.CUADRADOS(C3:F7)-(SUMA(C3:F7))^2/20
=1/5*(SUMA(C3:C7)^2+SUMA(D3:D7)^2+SUMA(E3:E7)^2+SUMA(F3:F7)^2)-SUMA(C3:F7)^2/20
=1/4*(SUMA(C3:F3)^2+SUMA(C4:F4)^2+SUMA(C5:F5)^2+SUMA(C6:F6)^2+SUMA(C7:F7)^2) -SUMA(C3:F7)^2/20
= se halla por diferencia como indica la fórmula.
A un nivel del 5% de significancia, según el Anova calculado, se debería rechazar la hipótesis nula
de igualdad de todas las medias, ya que el p-valor asociado es mucho menor que 0,05, es decir, al
menos uno de los carburadores con dispositivo es diferente del carburador estándar en cuanto al
promedio de millas recorridos por galón de gasolina
b) En el pedido a se rechazó la hipótesis nula, pero no sabemos cuál de los promedios es
diferente del estándar, entonces para saber debemos de realizar los contrastes en parejas,
96
cada carburador con dispositivo contra el carburador estándar, para ello utilizaremos el
método LSD o Diferencia Mínima Significativa.
Hipótesis a probar
|̅ ̅| ⁄ √ ( )
Al calcular las diferencias de medias en valor absoluto y comparando con el valor LSD calculado,
vemos que la tercera diferencia es significativa, es decir se rechaza la hipótesis nula de igualdad de
medias entre el carburador estándar y el carburador con dispositivo C. Esto es, utilizando el
dispositivo C en los carburadores de los vehículos, el promedio de millas recorridos por galón de
gasolina es diferente al del carburador estándar.
El valor absoluto se calcula en Excel de la siguiente manera: =abs (minuendo-sustraendo) Enter.
5.4. Diseños para comparar y analizar efectos de dos o más factores de interés
5.4.1. Diseños factoriales
El objetivo de un experimento factorial es estudiar el efecto de dos o más factores sobre una o
varias respuestas, es decir lo que se busca es estudiar la relación entre los factores y la respuesta,
con la finalidad de conocer mejor como es esta relación y generar conocimiento que permita tomar
acciones y decisiones que mejoren el desempeño del proceso.
97
Este tipo de experimentos permiten estudiar el efecto individual y de interacción de varios
factores sobre una o varias respuestas.
Los diseños factoriales son más eficientes que el tradicional experimento de mover un factor a la
vez, que utilizan las personas cuando no tienen conocimiento del diseño de experimentos.
Efecto de un factor: es el cambio observado en la variable de respuesta debido a un cambio de
nivel en el factor.
Efecto principal: es igual a la respuesta promedio observada en el nivel alto de un factor menos la
respuesta promedio en el nivel bajo.
Efecto de interacción: ocurre cuando el efecto de un factor depende del nivel en que se
encuentra el otro factor. En un gráfico las líneas se cruzan.
Arreglo factorial: conjunto de puntos experimentales o tratamientos que pueden formarse al
considerar todas las posibilidades de combinación de los niveles de los factores.
Réplica: Es la repetición o corrida de todo el arreglo factorial.
5.4.1.1. Diseños factoriales con dos factores y dos o más niveles

Con ellos se pude construir el arreglo o diseño factorial , que consiste en a x b tratamientos.
Algunos casos particulares de uso frecuente son: el factorial , el factorial y el factorial 3 x 2.
Los diseños factoriales que involucran menos de cuatro factores se corren replicados para poder
tener la potencia necesaria en las pruebas estadísticas sobre los efectos de interés, de tal forma
que si se hacen n replicas, el número total de corridas experimentales es n(a x b).
5.4.1.1.1. Modelo Estadístico

Con un diseño factorial a x b se pueden estudiar los dos efectos individuales y el efecto de
interacción
Para que la estimación de los parámetros en este modelo sea única, se introducen las
restricciones:
∑ ∑
∑ ∑
5.4.1.1.2. Hipótesis a evaluar y análisis de varianza

En un diseño factorial a x b interesa estudiar los tres efectos A, B y AB. Así, en primera instancia se
pueden plantear los tres pares de hipótesis siguientes:
98
Estas hipótesis se prueban mediante la técnica del análisis de varianza. El ANOVA para un diseño
factorial a x b con n replicas resulta de descomponer la variación total como:
Dónde los respectivos grados de libertad de cada una de ellas son:
El factor en los grados de libertad de la suma de cuadrados del error señala que se
necesita al menos dos corridas o réplicas del experimento para poder calcular este componente y
por ende poder calcular el ANOVA.
Efecto A ⁄
Efecto B ⁄
Efecto AB ⁄
Error
Total
Si el p-valor es menor que prefijado, se concluye que la correspondiente hipótesis es
significativa.
5.4.1.1.3. Notación de puntos

= Suma de todas las observaciones
̅ = Es la media global
= Es el total en el nivel i del factor A
̅ = Es la media en el nivel i del factor A
= Es el total en el nivel j del factor B
̅ = Es la media en el nivel j del factor B
= Es la suma de las réplicas en la combinación de niveles ij
̅ = Es la media de las réplicas en la combinación de niveles ij
= es cada una de las observaciones en el experimento
Con esta notación las sumas de cuadrados son
∑∑∑
Donde
99
∑∑
Con tres o más niveles se pueden separar los componentes lineales y cuadráticos de cada efecto,
logrando de esta manera un mejor entendimiento de los mismos. En ese caso también cambia la
cantidad de hipótesis que se pueden probar en el ANOV A.
La interpretación de la gráfica de interacción es de vital importancia para entender cómo actúan
los factores sobre la variable de respuesta, y de esta manera acumular conocimiento para lograr un
mejor desempeño del proceso correspondiente. Cuando se concluye que un interacción doble o de
dos factores tiene efecto estadísticamente significativo sobre la respuesta, su interpretación tiene
prioridad sobre los correspondientes efectos principales, aunque estos también sean significativos,
esto es debido a que cuando la interacción es significativa, ésta gobierna el comportamiento de la
respuesta en función de tales factores. Sin embargo, no se debe confundir la prioridad al momento
de interpretar efectos, con la prioridad al momento de planear el experimento y decidir cuales
efectos se podrían estudiar, etapa esta última en la que tienen prioridad los efectos principales
sobre los efectos de interacción.
Una de las utilidades inmediatas de una gráfica de interacción es que ayuda a seleccionar la
condición en la que debe operarse el proceso para mejorar su desempeño.
Ejemplo 33:
Un fabricante de partes electrónicas emplea dos hornos y dos temperaturas con el propósito de
probar la duración de cierto componente. Se seleccionan en forma aleatoria 12 componentes del
mismo lote y en grupos de tres se asignan a las cuatro combinaciones de hornos y temperaturas.
Los tiempos de duración de los componentes son como sigue:
H1 H2
T1 6,29 5,95
6,38 6,05
6,25 5,89
T2 5,80 6,32
5,92 6,44
5,78 6,29
a) Escríbase el modelo apropiado para este problema.

b) Establézcase la hipótesis a probar.
c) Determínese la tabla ANOVA y obténgase conclusiones apropiadas al 5% de significancia.
Solución
a) El problema nos plantea estudiar efectos de dos factores, en este caso temperatura y tipo de
horno, ambos efectos es de interés para el investigador, entonces estamos ante un diseño
factorial con dos factores y dos niveles.
Modelo matemático
100
b) Hipótesis
c) Análisis de varianza
Forma de calcular las sumas de cuadrados en Excel:

=SUMA.CUADRADOS (C3:D8)-SUMA (C3:D8)^2/12
=1/6*SUMA.CUADRADOS(E3:E8)-SUMA(C3:D8)^2/12
=1/6*SUMA.CUADRADOS(C9:D9)-SUMA(C3:D8)^2/12
=1/3*(SUMA(C3:C5)^2+SUMA(D3:D5)^2+SUMA(C6:C8)^2+SUMA(D6:D8)^2)-
SUMA(C3:D8)^2/12-I14-I16
.
Análisis de los resultados:
El Anova muestra en la columna p-valor en la tercera fila un valor 0,00001 menor a 0,05, entonces
se rechaza la hipótesis nula de interacción cero entre los factores temperatura y horno, es decir, el
efecto del factor temperatura depende del nivel en que se encuentre el factor horno. Los efectos
principales de los dos factores resultaron no significativos al orden del 5%.
A continuación la gráfica de la interacción muestra como las rectas se cruzan, señal de la
interacción significativa entre los dos factores, por ejemplo, en T1, el horno H1 tiene mayor
duración, en cambio, en T2, el mismo horno tiene una duración menor, es por ello que se dice que
101
cuando hay interacción entre dos factores, el efecto de uno de l os factores depende del nivel en
que esté el otro factor. Este efecto significativo dominará la interpretación de los resultados y la
elección del mejor tratamiento para la fabricación de los artículos. En este caso, se recomendaría
operar con el horno H2 con temperatura T2 para producir artículos electrónicos con mayor
duración. Con el modelo estadístico se puede estimar la duración esperada en el mejor
tratamiento.
Luego de seleccionar el tratamiento ganador y antes de cantar victoria, se debe llevar a cabo
corridas en este tratamiento para asegurar que efectivamente las condiciones i ndicadas
reproducen lo esperado o indicado por el modelo.
Para graficar se calculan las medias en los cuatro tratamientos, luego seleccionar todo el cuadro,
luego insertar, seleccionar dispersión y elegir la tercera opción.
5.5. Ejercicios
1. Explique en que consiste y cuándo se deben aplicar cada uno de los siguientes diseños de
experimentos: Diseño completamente al azar, diseños en bloques completos al azar y diseño
factorial.
2. A continuación se muestra parte del ANOVA para comparar cinco tratamientos con cuatro réplicas
cada uno
FV SC GL CM Fcal p-valor
Tratamiento 800
Error 400
Total
a) Agregar a esta tabla los grados de libertad, el cuadrado medio y la razón F para cada una de las
fuentes de variación.
102
b) Explique de manera esquemática como calcularía el p-valor o significancia observada para ver
si hay diferencias significativas entre tratamientos.
c) ¿Con la información disponible se pueden hacer conjeturas sobre si hay diferencias
significativas entre los tratamientos? Argumente.
d) Anote el modelo estadístico y formule la hipótesis pertinente.
3. Se desea investigar el efecto del PH en el crecimiento del de cierto microorganismo en un medio
específico. Para ello se realiza un experimento, teniendo como punto de partida la misma
cantidad de microorganismos. Se hacen cuatro repeticiones y se obtienen los siguientes
resultados. ¿Estos datos son evidencia suficiente para afirmar que los niveles de PH donde se
logra menor y mayor crecimiento son el tres y el dos, respectivamente? Explique.
Nivel PH Crecimiento
promedio (en %)
1 80
2 105
3 75
4. Se desea investigar la influencia de la temperatura en el rendimiento de un proceso químico, en

particular interesa investigar un rango de temperaturas entre 60° y 120°. Se tiene recursos para
realizar 20 corridas experimentales.
Los niveles de temperatura con los que experimentan son 60°, 65°, 70° y 120°; haciendo cinco
repeticiones con cada nivel.
a) El orden en que decidieron hacer las corridas experimentales para facilitar el trabajo
experimental fue primero las cinco del nivel bajo de temperatura, luego las cinco del siguiente
y así hasta finalizar. ¿Es correcto lo que hicieron? Argumente.
b) Para hacer el análisis estadístico, comparan mediante una prueba T de Students de dos en dos
niveles de temperatura y con base en esto obtuvieron conclusiones. ¿Es adecuado el análisis?,
argumente, y en su caso proponga alternativas.
5. En una industria química se prueban diferentes mezclas para ver si difieren en cuanto al peso
molecular final. Se prueban cuatro diferentes mezclas, con cinco repeticiones cada una. A
continuación se muestra una parte da la tabla de análisis de varianza y los promedios obtenidos
para cada mezcla.
FV p-valor Mezcla A B C D
Mezcla 0,01 Peso 10000 7000 8000 7500

medio
Error
a) ¿Las mezclas difieren de manera significativa en cuanto a su peso molecular?

b) Con el análisis de varianza y de acuerdo al promedio, ¿se puede garantizar que la mezcla B es
con la que se logra un menor peso molecular? Argumente.
6. Se hace un estudio sobre la efectividad de tres marcas de spray para matar moscas. Para ello,
cada spray se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas,
expresado en porcentajes. Se hacen seis réplicas y los resultados obtenidos se muestran en
seguida.
103
Spray Número de réplicas
1 2 3 4 5 6
1 72 65 67 75 62 73
2 55 59 68 70 53 50
3 64 74 61 58 51 69
a)Formule la hipótesis adecuada y el modelo estadístico.
b)¿Existe diferencia entre la efectividad promedio de los spray?
c)¿Hay algún spray mejor? Argumente.
7. En un centro de investigación se realiza un estudio para comparar varios tratamientos que al
aplicarse previamente a los frijoles crudos reduzcan su tiempo de cocción. Estos tratamientos son
a base de bicarbonato de sodio (NaHCO 3) y cloruro de sodio o sal común (NaCI). El primer
tratamiento es el tratamiento control, que consiste en no aplicar ningún tratamiento. El
tratamiento T2 es el remojo en agua con bicarbonato de sodio, el T3 es en agua con sal común y el
T4 es en agua con una combinación de ambos ingredientes en proporciones iguales. La variable de
respuesta es el tiempo de cocción en minutos. Los datos se muestran en la siguiente tabla:
Control T2 T3 T4
213 76 57 84
214 85 67 82
204 74 55 85
208 78 64 92
212 82 61 87
200 75 63 79
207 82 63 90
a) ¿De qué manera el experimentador debe aleatorizar los experimentos y el material

experimental?
b) Dé ejemplos de factores que deben estar fijos durante las pruebas experimentales, para que
estos no afecten los resultados y las conclusiones.
c) Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales.
d) ¿Hay algún tratamiento ganador? ¿Cuál es el tiempo de cocción esperado para el mejor
tratamiento?
e) Algo importante a cuidar en un experimento es que no haya efectos colaterales no deseados
que son causados por el tratamiento ganador, piense en este caso qué posibles efectos
colaterales podría causar el mejor tratamiento.
8. Para estudiar la confiabilidad de ciertos tableros electrónicos para carros, se someten a un
envejecimiento acelerado durante 100 horas a determinada temperatura, midiéndose como
variable de interés la intensidad de corriente que circula entre dos puntos, cuy os valores
aumentan con el deterioro. Se probaron 20 módulos repartidos equitativamente en cinco
temperaturas y los resultados obtenidos son:
104
20° 40° 60° 80° 100°
15 17 23 28 45
18 21 19 32 51
13 11 25 34 57
12 16 22 31 48
a) Realice el análisis de varianza para estos datos, para estudiar sí la temperatura afecta la
intensidad de corriente promedio.
b) ¿La temperatura tiene efecto sobre la variabilidad de las intensidades? Es decir, verifique si las
varianzas son iguales en los diferentes tratamientos.
9. Una compañía farmacéutica realizó un experimento para comprobar los tiempos promedio (en
días) necesarios para que una persona se recupere de los efectos y complicaciones que siguen a
un resfriado común. En este experimento se compararon las personas que tomaron distintas dosis
diarias de vitamina C. Para hacer el experimento se contactó a un número determinado de
personas, que en cuanto les daba el resfriado empezaban a recibir algún tipo de dosis (las cuales
iban rotando). Si la edad de éstas es una posible fuente de variabilidad, explique con detalle como
aplicaría la idea de bloqueo para controlar tal fuente de variabilidad.
10.Se hace un estudio sobre la efectividad de tres marcas de atomizadores para matar moscas. Para
ello, cada atomizador se aplica a un grupo de 100 moscas, y se cuenta el número de moscas
muertas expresadas en porcentajes. Se hicieron 6 réplicas, pero éstas se hicieron en diferentes
días, por ello se sospecha que puede haber algún efecto importante debido a esta fuente de
variación. Los datos obtenidos se muestran a continuación.
Número de Número de réplicas
Atomizador
1 2 3 4 5 6
1 72 65 67 75 62 73
2 55 59 68 70 53 50
3 64 74 61 58 51 69
a) Identifique el diseño aplicado, formule el modelo matemático y las hipótesis

adecuadas.
b) ¿Existe diferencia entre la efectividad promedio de los atomizadores?
c) ¿Hay algún atomizador mejor? Argumente.
d) ¿Hay diferencias significativas en los resultados de diferentes días en que se realizó el
experimento? Argumente.
e) Verifique los supuestos de normalidad y de igualdad de varianzas entre las marcas.
11.En una empresa lechera se tienen varios silos para almacenar leche (cisternas de 60.000 litros.)
Un aspecto crítico para que se conserve la leche es la temperatura de almacenamiento. Se
sospecha que en algunos silos hay problemas, por ello durante cinco días se decide registrar la
temperatura a cierta hora crítica. Obviamente la temperatura de un día a otro es una fuente de
variabilidad que podría impactar la variabilidad total.
105
Silo Días
Lunes Martes Miércoles Jueves Viernes
A 4,0 4,0 5,0 0,5 3,0
B 5,0 6,0 2,0 4,0 4,0
C 4,5 4,0 3,5 2,0 3,0
D 2,5 4,0 6,5 4,5 4,0
E 4,0 4,0 3,5 2,0 4,0
a) En este problema, ¿Cuál es el factor de tratamiento y cuál es el factor de bloque?

b) Suponga un diseño en bloques completo al azar, formule las hipótesis adecuadas y el modelo
estadístico.
c) ¿Hay diferencia entre los silos?
d) ¿La temperatura en un día a otro es diferente?
12.Se diseñó un experimento para estudiar el rendimiento de cuatro detergentes. Las siguientes
lecturas de blancura se obtuvieron con un equipo especial diseñado para doce cargas de lavado
distribuidas en tres modelos de lavadoras:
Detergente Lavadora 1 Lavadora 2 Lavadora 3
A 45 43 51
B 47 44 52
C 50 49 57
D 42 37 49
a) Señale el nombre del diseño experimental utilizado.

b) Formule las hipótesis que se quiere probar, de acuerdo al problema.
c) Realice el análisis estadístico apropiado a estos datos y obtenga conclusiones.
13.Mencione al menos tres ventajas de la experimentación factorial sobre la estrategia de mover un
factor a la vez.
14.¿Cuál es la implicación práctica de utilizar tres niveles de prueba en lugar de dos en un factor
dado?
15.A continuación se muestra parte del ANOVA para un diseño factorial con dos réplicas, el
factor A con tres niveles y el B con cinco.
FV SC GL CM Fcal
A 800
B 900
AB 300
Error 400
Total
a) Anote el modelo estadístico apropiado y formule las hipótesis a probar para este experimento.
106
b) Agregue en esta tabla los grados de libertad, cuadrado medio y la razón F para cada una de las
fuentes de variación.
c) Explique de manera esquemática como calcularía el p-valor para A, por ejemplo.
d) ¿Con la información disponible se puede hacer conjeturas sobre cuáles de las fuentes de
variación son significativas estadísticamente?
16.Se corre un diseño factorial 3x2 con 10 réplicas para investigar el hinchamiento del catalizador
después de la extrusión en la fabricación de botellas de polietileno de alta densidad. El catalizador
se utiliza en la obtención de dicho polietileno. Los factores investigados son: A: Catalizador (con
tres niveles) y B: molde (con dos niveles). Los datos obtenidos se muestran en la tabla siguiente:
Molde Catalizador
A1 A2 A3
B1 93 92 93 92 90 92 95 94 94
92 91 90 94 91 91 94 97 96
90 90 91 92 94 95
91 91 91 92 94 96
B2 88 88 87 90 89 88 91 91 91
88 87 88 88 90 89 90 89 91
87 87 88 89 92 90
87 87 88 88 90 91
a) Plantee las hipótesis de interés en este problema, y el modelo estadístico correspondiente.

b) Construya la tabla de análisis de varianza y determine cuáles efectos están activos.
c) Determine el mejor tratamiento. ¿cuál es el hinchamiento predicho en el mejor tratamiento?
17.Para mejorar la resistencia a la torsión de las adhesiones de componentes electrónicos sobre
placas, se estudiaron dos tipos de pegamentos (A y B) y tres temperaturas de curado (60, 80 y
100°C). En cada combinación se analizaron dos componentes y los resultados obtenidos son los
siguientes:
Pegamento Curado
60 80 100
A 2,5 3,8 4,0
2,8 3,4 4,2
B 1,6 3,2 4,3
1,2 2,8 4,7
a) Formule el modelo estadístico y plantee las hipótesis de interés.

b) Construya el ANOVA y decida cuáles efectos están activos.
c) Estime la resistencia a la torsión en el mejor tratamiento.
107
18.Se cree que la adhesividad de un pegamento depende de la presión y de la temperatura al ser
aplicado. Se realiza un experimento factorial con ambos factores.
Presión Temperatura (°F)

(lb/pulg2)
250 260 270
120 9,60 11,28 9,00
130 9,69 10,10 9,57
140 8,43 11,01 9,03

150 9,98 10,44 9,80
a) Escriba el modelo estadístico correspondiente, y formule las hipótesis que se desea probar.
b) Analice los datos y obtenga las conclusiones apropiadas.
c) ¿Se puede analizar si hay interacciones entre los dos factores controlados?
108
Capítulo 5: Diseño y análisis de experimentos estadísticos
Actividad N°:……….
Alumno:……………………………………………………………………………………………………………………………..
Logrado
- Capacidad para trabajar con Comprensión del
datos experimentales y problema o
contribuir su análisis ejercicio Identifica las características de los datos de un problema
- Capacidad para construir y
Son claras las hipótesis planteadas
desarrollar argumentaciones
lógicas con una Representa gráficamente la situación del problema
identificación clara de Las conclusiones responden a las hipótesis planteadas
hipótesis y conclusiones. Realiza estimaciones sobre el resultado

- Capacidad para contribuir Activa sus conocimientos previos y establece relaciones
en la construcción de con problemas anteriores
modelos matemáticos a
partir de situaciones reales. Relaciona de forma sistematizada los datos y la incógnita
Concepción de un
- Capacidad para trabajar con con sus conocimientos matemáticos
plan
Planifica de forma clara y ordenada el proceso de
resolución
- Capacidad para contribuir

en la construcción de Pone en práctica los pasos diseñados
partir de situaciones reales. Ejecución del plan
- Capacidad para trabajar con Realiza las operaciones de forma correcta
Expresa en el resultado el concepto adecuado

en la construcción de Verificación y Verifica siempre el resultado obtenido
modelos matemáticos a visión
partir de situaciones reales retrospectiva del
proceso de
resolución Plantea otras formas de solución
109
en la construcción de Todo el pensamiento matemático es correcto
partir de situaciones reales
Utiliza lenguaje matemático o connotaciones detalladas
Retos
Ha encontrado conexión en el problema o en los

ejercicios
Las representaciones gráficas son claras y fáciles de

entender
Aplica las estrategias trabajadas

datos experimentales y Cálculo mental Explica todos los pasos seguidos
110
CAPITULO 6: ANÁLISIS DE REGRESIÓN-EL MODELO LINEAL
SIMPLE
COMPETENCIAS
Genéricas

Específicas

situaciones reales.
111
6. Análisis de regresión: el modelo lineal simple
El propósito de este capítulo radica en proporcionar los conceptos y metodología básicos para
extraer de grandes cantidades de datos las características principales de una relación que no es
evidente.
6.1. El significado de la regresión y suposiciones básicas

Si los métodos de regresión son tan útiles en la práctica, debe comprenderse su significado y las
suposiciones bajo las cuales se han desarrollado. Las técnicas de regresión proporcionan medios
legítimos a través de los cuales pueden establecerse asociaciones entre las variables de interés en
las cuales la relación usual no es causal.
De manera básica, la regresión tiene dos significados: uno surge de la distribución conjunta de
probabilidad de dos variables aleatorias; el otro es empírico y nace de la necesidad de ajustar
alguna función a un conjunto de datos.
El modelo matemático es como sigue:
Donde es la i-ésima observación de la variable de respuesta, la cual corresponde al i-ésimo

valor de de la variable de predicción, es el error aleatorio no observable asociado con , y
son los parámetros desconocidos que representan la intersección y la pendiente,
respectivamente.
Una vez que se ha seleccionado el modelo, la siguiente tarea es la de obtener estimaciones para
los parámetros que intervienen en el mismo. Una técnica muy aceptada para este propósito es el
método de mínimos cuadrados (MC). Este método encuentra las estimaciones para los parámetros
en la ecuación seleccionada mediante la minimización de la suma de los cuadrados de las
diferencias entre los valores observados de la variable de respuesta y de aquellos proporcionados
por la ecuación de predicción. Estos valores se conocen como los estimadores por mínimos
cuadrados (EMC) de los parámetros. Los estimadores mínimos cuadrados poseen ciertas
propiedades deseables, pero para determinarlas es necesario formular las siguientes suposiciones:
1. Se ha seleccionado la forma correcta de la ecuación de regresión. Esto implica que cualquier
variabilidad en la variable de respuesta que no pueda explicarse mediante el empleo de la
ecuación de regresión, se debe a un error aleatorio.
2. Los datos que se observan son comunes en el sentido en que constituyen una muestra
representativa de un medio acerca del cual el investigador desea generalizar. Si el investigador
sabe que los datos no son representativos, el comportamiento general del mecanismo puede
encontrarse más allá del alcance de los datos.
3. Los valores observados de la variable de respuesta no se encuentran estadísticamente
correlacionados. Se supone que cada valor observado está constituido por un valor real y una
componente aleatoria.
4. Para toda , la media de es cero y la varianza de es . Esta última recibe el
nombre de varianza del error y, generalmente no es conocida. Dado que las variables de
predicción no son variables aleatorias, la varianza de también es para toda i y de esta
forma es independiente del punto de observación. Si no es posible formular la suposición de
que la varianza es constante para las observaciones de la variable de respuesta, generalmente
se emplea el método de mínimos cuadrados con factores de peso.
112
5. Los puntos de observación o los valores de las variable s de predicción son fijos o se
seleccionan con anticipación y se miden sin error. Para muchas situaciones prácticas, ambas
condiciones no se cumplen. Afortunadamente, el método de mínimos cuadrados sigue siendo
válido siempre y cuando los errores en los valores de las x sean pequeños al compararse con
los errores aleatorios y dado que estos no dependen de los parámetros del modelo.
6.2. Estimación por mínimos cuadrados para el modelo lineal simple

Cada observación , es una variable aleatoria que es la suma de dos componentes; el término no
aleatorio , y la componente aleatoria . Si fuera un valor igual a cero, la observación
se encontraría precisamente sobre la línea de regresión . Por tanto, es la distancia
vertical de la observación a la línea de regresión. Dado que supone
( )
Entonces
( )
Para obtener los estimadores de mínimos cuadrados de , se generalizará un conjunto de

datos consistente en n pares , donde los valores de y son las
observaciones de la variable aleatoria de respuesta. El método de mínimos cuadrados considera la
desviación de la observación de su valor medio y determina los valores de que minimizan
la suma de los cuadrados de estas desviaciones. La i-ésima desviación o error es:
Y la suma de los cuadrados de los errores es:
∑ ∑
Los estimadores de mínimos cuadrados de se obtienen mediante la diferenciación de la

suma de cuadrado de los errores con respecto a y después al igualar cada derivada parcial
con cero, es decir:
Al simplificar y distribuir las sumas en estas ecuaciones, se tiene
∑ ∑
∑ ∑ ∑
Estas dos ecuaciones se conocen como ecuaciones normales.

Despejando de la primera ecuación se tiene
̅ ̅
113
∑ ̅ ̅
∑ ̅
Con esto se consigue la estimación de la recta de regresión
̂
Y el residuo o error
̂
6.3. Estimación por máxima verosimilitud para el modelo lineal simple

Puede emplearse el principio de máxima verosimilitud para estimar los parámetros desconocidos
del modelo lineal simple. Recuérdese que los estimadores de mínimos cuadrados se obtuvieron sin
tener que especificar la distribución de probabilidad de los errores aleatorios . Si se supone que
los son variables aleatorias independientes, normalmente distribuidas, con media cero y varianza
para toda , es posible obtener los estimadores de máxima verosimilitud de
, es decir, si además de las suposiciones previas se especifica que para toda
, entonces cada también se encuentra normalmente distribuida con media
y varianza , dado que ésta es una función lineal de una variable aleatoria con
distribución normal. Los estimadores de máxima verosimilitud se obtienen mediante la
maximización de la función de verosimilitud dada por:
[ ] [ ]
√ √
( ) [ ∑ ]
√
Aplicando Ln a ambos miembros se tiene:
[( )] ∑
Al tomar las derivadas parciales respecto a y después de igualar a cero, puede

demostrarse que los estimadores de máxima verosimilitud de son idénticos a los dados por
el método de mínimos cuadrados y el correspondiente a está dado por:
∑ ̂
El estimador de máxima verosimilitud de es sesgado pero, para valores grandes de n, la

diferencia entre éste y el estimador de mínimos cuadrados no es importante.
6.4. Inferencia estadística para el modelo lineal simple

El parámetro clave del modelo lineal simple tiene que ser . Si la respuesta Y se encuentra
relacionada en forma lineal con la variable de predicción x, la pendiente tiene que ser diferente
de cero. De otra forma, no existe ninguna relación lineal entre Y y X. Un procedimiento inferencial
natural para es construir un intervalo de confianza del 100(1-α)% para . Si este intervalo no
contiene el valor cero, entonces es razonable concluir que el parámetro es diferente de cero y que
Y y X están, en algún grado, relacionados en forma lineal.
6.4.1. Intervalo de confianza para
114
√∑ ̅
Donde S es la desviación estándar del error o residual.
6.4.2. Intervalo de confianza para
∑
√
∑ ̅
6.4.3. Prueba de hipótesis para
Contra cualquiera de las alternativas
Estadístico de prueba y reglas de decisión
( | |)
( | |)
( )
( )
( )
( )
√∑ ̅
Donde T tiene una distribución t de Student con n-2 grados de libertad
Donde S es la desviación estándar del error o residual.
115
6.4.4. El uso de análisis de varianza
El análisis de regresión para el modelo lineal simple también abarca la aplicación de la técnica del
análisis de varianza. En síntesis, la técnica del análisis de varianza proporciona solo un medio
alternativo a la prueba T para probar la hipótesis nula de que la pendiente es cero. Sin embargo,
permite una comprensión natural del problema y por lo tanto es muy útil para el análisis de
modelos más complicados.
Para calcular las sumas de cuadrados que aparecen en la tabla ANOVA se procede de la siguiente
manera:
∑
∑ ̅ ∑
∑ ̂ ∑
∑ ̂ ̅ ∑ ̅
6.4.4.1. Tabla ANOVA para el modelo lineal simple

Regresión SCR 1 SCR/1 CMR/CME P(F>CMR/CME)
Error SCE SCE/n-2

Total SCT
6.5. Correlación lineal

Durante toda la presentación del análisis de regresión se ha asumido la disponibilidad de una
muestra aleatoria de la variable de respuesta Y, correspondientes a n valores fijos X de una variable
de predicción. Para definir el coeficiente de correlación de la muestra, se supondrá que tanto X
como Y son variables aleatorias. Sea la distribución conjunta de X y Y la normal bivariada, y sean
una muestra aleatoria de tamaño n de esta distribución. Entonces
puede demostrarse que el estimador de máxima verosimili tud de (denominado coeficiente de
correlación) está dado por:
∑ ̅ ̅
√∑ ̅ √∑ ̅
∑ ∑
∑
∑ ∑
√∑ √∑
A partir del coeficiente de correlación lineal se puede hallar el valor de
∑ ̅
√
∑ ̅
116
Al igual que el parámetro , r se encuentra en el intervalo y mide la relación lineal
entre X e Y. Con base en una muestra aleatoria, un valor de indica una relación lineal
negativa perfecta entre X e Y, mientras que un valor de señalará una asociación lineal
positiva perfecta de X e Y. Si , entonces no existe ninguna relación lineal entre X y Y.
El coeficiente de correlación muestral r por sí mismo no puede ni probar ni desestimar una
relación causal entre X e Y. La manifestación de una relación causa-efecto es posible sólo atraves de
la comprensión de la relación natural que existe entre X y Y.
Coeficiente de determinación: es un indicador que trata de medir el porcentaje de variabilidad de
Y explicado por el modelo que contiene a X como predictora. Se define como:
Ejemplo 34:
En una fábrica se desea investigar cómo influye la temperatura en °C en la presión del vapor de B-
trimetilboro, los datos obtenidos con tal propósito se muestra a continuación:
Temperatura Presión
13 2,9
19,5 5,1
45,7 30,5
56,1 51,4
64,4 74,5
71,4 100,2
80,5 143,7
85,7 176,9
22,5 8,5
27,2 10,3
31,8 14,6
a) Construya un diagrama de dispersión

b) Ajuste una línea recta y observe calidad de ajuste
c) Señale el valor de la pendiente de la recta e interprételo en términos prácticos.
Solución
Antes de proceder a responder a cada planteamiento, primero debemos identificar la variable de
respuesta, en este caso dice que se quiere investigar la influencia de la temperatura sobre la
presión, entonces la variable de respuesta es la presión.
a) Diagrama de dispersión: en el eje X se ubica la temperatura y en el eje Y la presión
117
b) Ajuste de la línea recta: para ajustar una línea recta debemos calcular los valores de la
pendiente y la intersección, sus intervalos de confianza y probar su significancia, así las
hipótesis son las siguientes:
Cálculos en Excel:
=INTERSECCION.EJE(C3:C13;B3:B13)
=PENDIENTE(C3:C13;B3:B13)
=E14*RCUAD(SUMA.CUADRADOS(B3:B13)/(11*DESVIA2(B3:B13)))
=E14/RCUAD(DESVIA2(B3:B13))
=H3-INV.T(0,975;9)*I3
=H3+INV.T(0,975;9)*I3
=H3/I3
= se calcula para el valor negativo con =DISTR.T.N(L3;9;1), y para el positivo =1-
DISTR.T.N(L4;9;1)
=COEF.DE.CORREL(B3:B13;C3:C13)
=COEFICIENTE.R2(C3:C13;B3:B13)
Al ajustar la recta se ve que los estimadores de los parámetros ambos resultaron
significativamente diferente de cero, también el coeficiente de correlación indica una fuerte
asociación lineal entre ambos, además el coeficiente de determinación indica que un 89% de la
variabilidad total de la presión queda explicada por el modelo que contiene a la temperatura como
predictora. Según los resultados, el ajuste es bueno, pero la gráfica sugiere otro tipo de ajuste que
no sea la línea recta, esto se verificaría al analizar los gráficos residuales.
c) , este valor de la pendiente de la recta ajustada significa que cuando aumentamos
en una unidad en promedio la temperatura, la presión aumentará en 2,213 unidades en
promedio. Indica una relación directa.
118
6.6. Series de tiempo y autocorrelación
En muchas situaciones, por ejemplo en economía y finanzas, la variable de respuesta se mide en
forma periódica con respecto al tiempo formando así lo que se conoce como una serie de tiempo.
Aunque los métodos de regresión pueden ser útiles analizar datos de series de tiempo, las
observaciones Y en una serie de tiempo no pueden considerarse como representativas de una
muestra aleatoria. De hecho pueden estar correlacionadas entre sí. De esta forma, algunas de las
suposiciones que son necesarias para el desarrollo de procedimientos inferenciales posiblemente
no se verifiquen para los datos de una serie de tiempo.
En este contexto se desea considerar un procedimiento inferencia útil, conocido como estadística
de Durbin-Watson, para determinar si los errores en un modelo lineal sencillo se encuentran
correlacionados en el tiempo. Los errores del mismo modelo de regresión que se encuentran
correlacionados como funciones del tiempo reciben el nombre de correlaciones serialmente o
autocorrelacionados.
6.6.1. Componentes de una serie de tiempo

Las fluctuaciones de la variable de respuesta en una serie de tiempo de tipo económico se
asignan, por lo general, a cuatro causas diferentes (componentes): la variación en la tendencia T, la
variación por temporada S, la variación cíclica C y la variación aleatoria R.
La variación en tendencia es el movimiento a largo plazo en Y, la tendencia refleja el movimiento
general de Y a lo largo de un periodo que es superior a un año.
La variación por temporada representa el movimiento de Y que ocurre durante periodos
específicos a lo largo de un año.
La variación cíclica muestra el movimiento de Y que se repite durante periodos que, en general,
son mayores de un año, los movimientos cíclicos se encuentran muchas veces relacionados con las
condiciones económicas prevalecientes.
La variación aleatoria en una serie de tiempo es la fluctuación de Y que no es posible asignar a una
causa identificable. Por lo tanto la fluctuación total de Y con respecto al tiempo se asigna a una
variación sistemática (Tendencia, temporada y cíclica) y a una variación aleatoria.
6.6.2. Modelos estadísticos
En el modelo aditivo se supone que las cuatro componentes son independientes entre sí,
mientras para el multiplicativo se encuentran relacionados entre sí.
6.6.3. Estadística de Durbin-Watson

En esta sección el interés radicará, en forma exclusiva, en la detección de errores
autocorrelacionados y en un análisis con respecto a medidas correctivas. Una de las razones de la
existencia de la autocorrelación es que podrían no haberse tomado en cuenta en el modelo
variables importantes de predicción. Este tipo de autocorrelación es solo aparente y puede
eliminarse mediante la inclusión de las variables omitidas en el modelo de regresión.
En las series de tiempo económicas, la autocorrelación también puede presentarse debido a que
los residuos sucesivos tienden a estar positivamente correlacionados, es decir los grandes residuos
negativos siguen a grandes residuos negativos y los grandes residuos positivos siguen a grandes
residuos positivos. Este tipo de autocorrelación es, en general, la clase que necesita algún ajuste. El
119
interés recaerá en este tipo y se estudiarán las medidas correctivas tales como la transformación
de los datos.
Cuando se encuentra presente la autocorrelación, al análisis de regresión es afectado en tres
formas:
1. Los estimadores MC, aunque no son sesgados ya no tienen varianza mínima.
2. Los estimadores pueden subestimar, en forma seria, las varianzas de los estimadores MC
de .
3. Los intervalos de confianza y las pruebas de hipótesis que incluyen ya sea la distribución t de
Student o la distribución F, no son teóricamente válidos.
La estadística de Durbin-Watson constituye un enfoque más formal que el graficar los residuos
para detectar los errores autocorrelacionados; se basa en la suposición de que los errores en el
modelo de regresión:
Forman una serie autorregresiva de primer orden dado por:
Donde | | es la pendiente de la recta que pasa por el origen y ɳ, es el error aleatorio puro
que no se encuentra correlacionado con cualquier otra componente. El término se denomina de
manera común como ruido blanco. Debe notarse que el modelo anterior es un modelo
autorregresivo, ya que la variable de predicción es un término retardado en el tiempo de la
variable de respuesta .
6.6.3.1. Hipótesis planteada para Durbin-Watson
Nótese que es una hipótesis unilateral positiva, ya que las series de tiempo económicas exhiben
muchas veces una autocorrelación positiva. Se calcula un valor de la estadística a partir de la
expresión:
∑
∑
̂
Durbin y Watson tabularon los límites inferior y superior , respectivamente, para probar
. La tabla proporciona los límites para como funciones del tamaño de la
muestra y el número k de variables de predicción en el modelo de regresión. Dados los límites, la
decisión para se toma de la siguiente forma:
Sí , rechazar
Sí , no rechazar
Sí , la prueba no es concluyente
Debe señalarse que la prueba para autocorrelación negativa , también es posible con la
estadística de Durbin-Watson. En este caso, el valor de la estadística es , donde se calcula
de acuerdo con la fórmula. El procedimiento de decisión es el mismo al ya dado, comparando
. En cualquier caso, si la prueba es no concluyente, la alternativa que se sugiere
es tomar más observaciones.
6.6.4. Eliminación de la autocorrelación mediante la transformación de datos

Para el modelo considere la transformación
120
En esta transformación se sustituye el primero y se tiene que:
Pero de , se tiene que

Entonces:
Donde . De acuerdo con lo anterior, los errores en

el modelo lineal simple transformado no están correlacionados entre sí, y de esta forma este
modelo satisface las suposiciones estándar.
Nótese que las observaciones transformadas son funciones de la autocorrelación desconocida .
Lo anterior puede hacerse mediante el empleo de los residuos obtenidos de la ecuación de
regresión estimada originalmente para calcular un estimador MC de la pendiente en el modelo
autorregresivo de primer orden. Ya que este modelo tiene una intersección igual a cero, el
estimador MC, r de la pendiente basado en el análisis es:
∑
∑
Y los valores transformados son:
Este se ajusta por el mismo método de regresión lineal simple para los datos transformados,
luego se hallan las estimaciones de los parámetros para la variable original como sigue:
Dados los valores transformados para las variables de respuesta y predicción, el procedimiento
iterativo consiste en determinar la ecuación de regresión estimada para el modelo transformado y
entonces volver a calcular la estadística de Durbin-Watson. Si no es posible rechazar la hipótesis de
autocorrelación cero, el procedimiento llega a su fin. De otra forma, se repite hasta que no
pueda rechazarse. Si se requiere más de una iteración, entonces se sugiere buscar otros
procedimientos alternativos.
Ejemplo 35:
Supóngase que los datos que figuran en la tabla representan las ventas Y de alguna compañía (en
millones de dólares) y las ventas X (también en millones de dólares) para toda la industria en los
pasados 16 trimestres, donde los datos ya se han ajustados de acuerdo con la inflación.
T
1 270,36 44,84
2 258,38 42,97
3 254,96 41,98
4 259,70 42,75
121
5 265,40 43,95
6 274,98 45,65
7 281,86 46,87
8 285,78 47,35
9 290,58 48,13
10 290,18 47,95
11 296,72 49,10
12 292,32 48,52
13 301,72 50,22
14 305,42 51,15
15 314,96 52,78
16 321,10 53,91
a) Ajústese un modelo lineal e interprétense los coeficientes de regresión estimados.

b) Hágase una gráfica de los residuos estandarizados contra el tiempo. ¿se puede detectar algún
patrón?
c) Calcúlese la estadística de Durbin-Watson y determínese si los errores se encuentran
positivamente autocorrelacionados. Úsese .
d) Si la autocorrelación positiva es estadísticamente significativa, ajústese la ecuación de
regresión estimada mediante la transformación de los datos.
Solución
Evidentemente estamos ante una serie de tiempo, ya que los datos corresponden a trimestres
122
a) , en promedio las ventas de algunas compañías es de -2,97 millones de dólares
cuando las ventas para toda la industria es cero o permanece constante en el tiempo.
, en promedio las ventas de algunas compañías aumentan 0,18 millones de dólares
cuando las ventas para toda la industria aumentan en un millón de dólares en el tiempo.
La ecuación estimada es:
̂
b)Grafica de residuos estandarizados contra el tiempo
El patrón de la gráfica de los residuos estandarizados y el tiempo no siguen un patrón aleatorio, es

más, los residuos positivos grandes siguen a residuos positivos grandes y los pequeños siguen a los
pequeños
c) La estadística de Durbin Watson
∑
∑
Como es menor que , entonces se rechaza la hipótesis nula de errores

independientes o autocorrelación cero, debiendo aplicar una transformación a los datos para
mejorar el análisis inferencial.
d) Ajuste de la regresión con datos transformados
̂
6.7. Ejercicios
1. Se realizó un estudio en Virginia Tech para determinar si ciertas medidas de la fuerza es tática del
brazo influyen en las características de levantamiento dinámico de un individuo. Veinticinco
individuos se sometieron a pruebas de fuerza y luego se les pidió que hicieran una prueba de
123
levantamiento de peso, en el que el peso se levantaba en forma dinámica por encima de la
cabeza. A continuación se presentan los datos:
Individuos Fuerza del Levantamiento
Brazo dinámico
1 17,3 71,7
2 19,3 48,3
3 19,5 88,3
4 19,7 75,0
5 22,9 91,7
6 23,1 100
7 26,4 73,3
8 26,8 65,0
9 27,6 75,0
10 28,1 88,3
11 28,2 68,3
12 28,7 96,7
13 29,0 76,7
14 29,6 78,3
15 29,9 60,0
16 29,9 71,7
17 30,3 85,0
18 31,3 85,0
19 36,0 88,3
20 39,5 100
21 40,4 100
22 44,3 100
23 44,6 91,7
24 50,4 100
25 55,9 71,7
a) Estime los valores de para la curva de regresión lineal. Interprete
b) Estime los intervalos de confianza para los dos parámetros
c) Formular las correspondientes hipótesis y probar
d) Calcular los coeficientes de correlación y de determinación. Interprete
2. En cierto tipo de espécimen de prueba metálico se sabe que la tensión normal sobre un
espécimen se relaciona funcionalmente con la resistencia del corte. El siguiente es un conjunto de
datos experimentales codificados para las dos variables:
Tensión Resistencia al
normal corte
26,8 26,5
25,4 27,3
28,9 24,2
23,6 27,1
27,7 23,6
124
23,9 25,9
24,7 26,3
28,1 22,5
26,9 21,7
27,4 21,4
22,6 25,8
25,6 24,9
a) Identifique la variable de respuesta y estime la recta de regresión
b) Estime la resistencia al corte para una tensión normal de 24,5.
3. Las siguientes son las calificaciones de un grupo de 9 estudiantes en un informe de medio
semestre (X) y en el examen final (Y):
X 77 50 71 72 81 94 96 99 67
Y 82 66 78 34 47 85 99 99 68
a) Estime la recta de regresión lineal, hallar los intervalos de confianza para los parámetros y
probar las hipótesis correspondientes.
b) Interpretar los resultados obtenidos en a
c) Calcule la calificación final de un estudiante que obtuvo 85 de calificación en el informe de
medio semestre.
4. Los siguientes datos representan el producto nacional bruto x y los gastos de consumo Y en miles
de millones de dólares, para los años 1960-1980.
Año X Y
1960 737,2 452,0

1961 756,6 461,4
1962 800,3 482,0
1963 832,5 500,5
1964 876,4 528,0
1965 929,3 557,5
1966 984,8 585,7
1967 1011,4 602,7
1968 1058,1 634,4
1969 1087,6 657,9
1970 1085,6 672,1
1971 1122,4 696,8
1972 1185,9 737,1
1973 1255,0 768,5
1974 1248,0 763,6
1975 1233,9 780,2
1976 1300,4 823,7
1977 1371,7 863,9
1978 1436,9 904,8
1979 1483,0 930,9
1980 1480,7 935,1
125
b) Hágase un grafica de los residuos estandarizados contra el tiempo. ¿se puede detectar algún
patrón?
positivamente autocorrelacionados. Úsese 5% de significancia.
d) Si la autocorrelación positiva es estadísticamente discernible, ajuste la ecuación de regresión
estimada mediante la transformación de los datos.
5. Los siguientes datos representan las ganancias de las empresas por inventario y ajustes de cap ital
X y los impuestos sobre estas ganancias Y en miles de millones de dólares para los años 1960-
1980.
Año X Y
1960 47,6 22,7
1961 48,6 22,8
1962 56,6 24,0
1963 62,1 26,2
1964 69,2 28,0
1965 80,0 30,9
1966 85,1 33,7
1967 82,4 32,5
1968 89,1 39,2
1969 85,1 39,5
1970 71,4 34,2
1971 83,2 37,5
1972 96,6 41,6
1973 108,3 49,0
1974 94,9 51,6
1975 110,5 50,6
1976 138,1 63,8
1977 164,7 72,6
1978 185,5 83,0
1979 196,8 87,6
1980 182,7 82,3

b) Hágase un grafica de los residuos estandarizados contra el tiempo. ¿se puede detectar algún
patrón?
positivamente autocorrelacionados. Úsese 5% de significancia.
d) Si la autocorrelación positiva es estadísticamente discernible, ajuste la ecuación de regresión
estimada mediante la transformación de los datos.
126
Capítulo 6: Análisis de regresión: el modelo lineal simple
Alumno:……………………………………………………………………………………………………………………………..
Logrado
- Capacidad para construir y Comprensión del
desarrollar argumentaciones problema o ejercicio
lógicas con una identificación Identifica claramente las características de los datos
clara de hipótesis y conclusiones. de un problema
Representa gráficamente la situación del problema
Las conclusiones responden a las hipótesis planteadas
- Capacidad para contribuir en la Relaciona de forma sistematizada los datos y la

construcción de modelos Concepción de un incógnita con sus conocimientos matemáticos
matemáticos a partir de plan Planifica de forma clara y ordenada el proceso de
situaciones reales.
resolución
- Capacidad para contribuir en la Pone en práctica los pasos diseñados
construcción de modelos
matemáticos a partir de Ejecución del plan Realiza las operaciones de forma correcta
situaciones reales.
Verificación y visión Verifica siempre el resultado obtenido

- Capacidad para contribuir en la retrospectiva del
construcción de modelos proceso de
matemáticos a partir de resolución Generaliza a otras situaciones problemáticas
situaciones reales
- Capacidad para contribuir en la Todo el pensamiento matemático es correcto
matemáticos a partir de
detalladas
situaciones reales Retos Ha encontrado conexión en el problema o en los
ejercicios
entender
127
CAPITULO 7: ANÁLISIS DE REGRESIÓN-MODELO LINEAL
GENERAL
COMPETENCIAS
Genéricas

Específicas

situaciones reales.
128
7. Análisis de regresión: el modelo lineal general
En este capítulo se extenderán los conceptos ya presentados al modelo lineal general para el cual
una respuesta dada se considera como una función de varias variables de predicción. Al examinar
este modelo se estudiaran algunas formas para determinar el mejor conjunto de variables de
predicción por incluir en la ecuación de regresión. También se proporcionará un estudio detallado
del análisis de los residuos, mínimos cuadrados con factores de peso y variables indicadoras.
7.1. El modelo lineal general

Sean k variables de predicción, las cuales pueden tener alguna influencia sobre una
respuesta Y, y supóngase que el modelo tiene la forma donde es i-ésima observación de la
respuesta para un conjunto de valores fijos de las variables de predicción, es el
error aleatorio no observable asociado con , y son parámetros lineales
desconocidos. La ecuación recibe el nombre de modelo lineal general y da origen a lo que se
conoce como una regresión lineal múltiple.
Para obtener los estimadores de mínimos cuadrados de los parámetros y para desarrollar técnicas
de regresión para este modelo, se empleará el álgebra de matrices, ya que ésta simplifica en gran
medida la presentación.
Dada una muestra aleatoria de observaciones en los puntos de observación
, respectivamente, con base en el modelo
lineal general, se tienen las n ecuaciones siguientes:
Como resultado, el modelo lineal general también puede expresarse en forma matricial como:
Dónde:
[ ] [ ] [ ] [ ]
La ecuación estimada de regresión es:

̂
̂
Un estimador no sesgado de la varianza del error es:
Una estimación de es:
Donde es el elemento de la diagonal de

De los resultados anteriores puede deducirse que la cantidad.
129
Es una variable aleatoria t de Student con grados de libertad, entonces, un intervalo de
confianza del para el parámetro es:
⁄ ( )
130
Capítulo 7: Análisis de regresión: el modelo lineal general
Alumno:……………………………………………………………………………………………………………………………..
Logrado
- Capacidad para construir y Comprensión del
desarrollar argumentaciones problema o ejercicio
lógicas con una identificación Identifica claramente las características de los datos
clara de hipótesis y conclusiones. de un problema
Representa gráficamente la situación del problema
Las conclusiones responden a las hipótesis planteadas
- Capacidad para contribuir en la Relaciona de forma sistematizada los datos y la

construcción de modelos Concepción de un incógnita con sus conocimientos matemáticos
matemáticos a partir de plan Planifica de forma clara y ordenada el proceso de
situaciones reales.
resolución
- Capacidad para contribuir en la Pone en práctica los pasos diseñados
matemáticos a partir de Ejecución del plan Realiza las operaciones de forma correcta
situaciones reales.
Verificación y visión Verifica siempre el resultado obtenido

- Capacidad para contribuir en la retrospectiva del
construcción de modelos proceso de
matemáticos a partir de resolución Generaliza a otras situaciones problemáticas
situaciones reales
- Capacidad para contribuir en la Todo el pensamiento matemático es correcto
matemáticos a partir de
detalladas
situaciones reales Retos Ha encontrado conexión en el problema o en los
ejercicios
entender
131
8. Bibliografía
Canavos, G. C. (1988). PROBABILIDAD Y ESTADÍSTICA Aplicaciones y métodos. México: McGRAW-
HILL/INTERAMERICANA DE MEXICO, S.A. DE C.V.
GUTIÉRREZ PULIDO, H., & DE LA VARA SALAZAR, R. (2003). Análisis y diseño de experimentos. México:
McGraw-Hill Interamericana.
Walpole, R. E., Myers, R. H., & Myers, S. L. (2012). Probabilidad y estadística para ingeniería y
ciencias. México: PEARSONEDUCACIÓN, México, 2012.
132

Probabilidad y Estadistica II

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidad y Estadistica II

Cargado por

Copyright:

Formatos disponibles

PROBABILIDAD Y

CAPITULO 1: ESTIMACIÓN PUNTUAL Y POR INTERVALO ......................................................... 1

1. Estimación puntual y por in tervalo ............................................................................................................................... 2

CAPITULO 2: PRUEBA DE HIPÓTESIS ESTADÍSTICA ................................................................. 29

2. Prueba de hipótesis estadísticas ................................................................................................................................. 30

CAPITULO 3: PRUEBAS DE BONDAD DE AJUSTE Y ANÁLISIS DE TABLA DE CONTINGENCIA . 62

3. Pruebas de bondad de ajuste y análisis de tabla de contingencia ........................................................................ 63

CAPITULO 4: MÉTODOS PARA EL CONTROL DE CALIDAD Y MUESTREO PARA ACEPTACIÓN72

4. Métodos para el control de calidad y muestreo para aceptación ......................................................................... 73

CAPITULO 5: DISEÑO Y ANÁLISIS DE EXPERIMENTOS ESTADÍSTICOS.................................... 88

5. Diseño y análisis de experimentos estadístico s ........................................................................................................ 89

CAPITULO 6: ANÁLISIS DE REGRESIÓN-EL MODELO LINEAL SIMPLE ................................... 111

6. Análisis de regresión: el modelo lineal simple ........................................................................................................112

CAPITULO 7: ANÁLISIS DE REGRESIÓN-MODELO LINEAL GENERAL..................................... 128

 Capacidad de abstracción, análisis y síntesis.

 Capacidad para identificar, plantear y resolver problemas.

 Capacidad para trabajar con datos experimentales y contribuir su análisis.

 Capacidad para expresarse correctamente utilizando el lenguaje de la matemática.

 Capacidad para iniciar investigaciones matemáticas bajo orientación de expertos.

1.2. Propiedades deseables de los estimadores puntuales

1.2.1. Estimadores insesgados

El operador E es distributiva respecto a la sumatoria, entonces

Por tanto: ̅ , es decir ̅ es un estimador insesgado de µ sin importar la distribución de la

Demostrar que T es un estimador insesgado de µ

1.2.3. Estimadores insesgados de varianza mínima

Entonces se dice que T es un estimador eficiente de .

1.2.4. Estadísticas suficientes

Para cualquier de T y en donde no contiene al parámetro

1.3. Métodos de estimación puntual

1.3.1. Método de máxima verosimilitud

Primeramente debemos escribir la función de probabilidad de Bernoulli

Resumiendo algebraicamente queda:

Para facilitar el procedimiento aplicaremos Ln a la función verosimilitud

Ahora derivamos respecto a

Definición: Sea una muestra aleatoria de una distribución con función de

Sabemos que la esperanza de x en la distribución exponencial (Cálculo de probabilidades) es ⁄

Ahora reemplazaremos por su estimador ̂ , y tenemos:

Ya que la esperanza de la distribución uniforme es

No conocemos el segundo momento poblacional de la distribución uniforme, pero conocemos la

En este caso es:

Ahora reemplazamos por su estimador ̂ tenemos:

1.4. Estimación por intervalo

Como se calculó en Excel:

1.4.3. Intervalos de confianza para la diferencia de medias cuando se muestrean dos

1.4.4. Intervalos de confianza para la diferencia de medias cuando se muestrean dos

En donde el estimado de la varianza común es

1.4.7. Intervalos de confianza para el parámetro de proporción “p” cuando se muestrea

1.4.7.1. Tamaño de muestra para una distribución binomial

1.5. Estimación Bayesiana

1.5.1. Estimación puntual bayesiana

1.5.2. Estimación bayesiana por intervalo

1.6. Límites estadísticos de tolerancia

1.6.1. Límites de tolerancia independientes de la distribución

Entonces , reciben el nombre de límites de tolerancia.

Tiene un significado que se interpreta como la probabilidad de que la proporción de valores en

La que puede simplificarse para obtener

1.6.2. Límites de tolerancia cuando se muestrea una distribución normal

3. Sea un amuestra aleatoria de una población cuya distribución es normal con

Si se supone que el muestreo se hizo sobre dos poblaciones independientes distribuidas

- Capacidad para iniciar Activa sus conocimientos previos y establece relaciones

- Capacidad para trabajar con Todo el pensamiento matemático es correcto

- Capacidad para trabajar con

Cálculo mental Son claros todos los pasos seguidos

Relaciona conceptos para solucionar los problemas