Calest: Un Enfoque Visual en La Enseñanza Y Aprendizaje de La Estadística

CalEst:
Un enfoque visual en la enseñanza y aprendizaje de la

Estadística
Jorge Axel Domínguez López Jorge Domínguez Domínguez
2009
ii
Contenido
Prefacio vii
1 Instalación de CalEst 1
1.1 Instalación del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 El ambiente de CalEst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Organización y descripción de datos 9

2.1 Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Elaboración de la tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . 10
2.1.2 El Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3 Polígono de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.4 Frecuencia relativa acumulada . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.5 Diagrama de tallo y hoja . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.6 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Estadísticas 23
3.0.7 Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.0.8 Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.0.9 Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.0.10 Diagrama de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Probabilidad 37
4.1 Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Probabilidad de un evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.1 Eventos compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Independencia y probabilidad condicional . . . . . . . . . . . . . . . . . . . 46
4.2.3 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Principios básicos de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Distribuciones de probabilidad discretas 69

5.1 Distribuciones de probabilidad Discretas . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.1 Distribución Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.2 Denición de una distribución de probabilidad discreta . . . . . . . . . . . 71
iii
iv CONTENIDO
5.1.3 Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.1.4 La distribución binomial y CalEst . . . . . . . . . . . . . . . . . . . . . . . 73
5.1.5 Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6 Distribuciones de probabilidad continua 81

6.1 Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.1 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.2 Normal Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.1.3 Temas selectos: aplicación de la normal . . . . . . . . . . . . . . . . . . . . 89
7 Galería de distribuciones* 97
7.1 Ideas Generales: distribución de probabilidad . . . . . . . . . . . . . . . . . . . . 97
7.1.1 Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.1.2 Distribución Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.3 Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.4 Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.1.5 Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.1.6 Distribución Lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.1.7 Distribución Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.1.8 Distribución Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8 Distribuciones 2 , t, F +
107
8.1 Distribución 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2 La distribución t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.3 La distribución F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9 Estimación estadística 119

9.1 Parámetro y estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.1.1 Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
9.1.2 Muestreo con reemplazo y sin reemplazo . . . . . . . . . . . . . . . . . . . 124
9.2 Distribución muestral de la media muestral . . . . . . . . . . . . . . . . . . . . . . 125
9.3 Teorema de límite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.4 Intervalos de conanza para la media . . . . . . . . . . . . . . . . . . . . . . . . . 138
9.4.1 Muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
9.4.2 Ideas preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
9.4.3 Intervalo de conanza para cuando la población es normalmente distribuida
y la desviación estándar es conocida . . . . . . . . . . . . . . . . . . . . . . 139
10 Inferencia estadística 143

10.1 Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.2 Prueba de hipótesis: utilizando el CalEst . . . . . . . . . . . . . . . . . . . . . . . 143
CONTENIDO v
10.2.1 Utilidad de la opción didáctica H0 . . . . . . . . . . . . . . . . . . . . . . 145

10.2.2 Observaciones que surgen de las bondades de utilizar el CalEst: . . . . . . 146
10.3 Prueba de hipótesis para una media . . . . . . . . . . . . . . . . . . . . . . . . . . 147
10.3.1 Caso muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
10.4 Prueba de hipótesis para una proporción . . . . . . . . . . . . . . . . . . . . . . . 155
10.5 Prueba de hipótesis para una media: . . . . . . . . . . . . . . . . . . . . . . . . . 161
10.5.1 Caso muestras pequeñas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
10.5.2 Valores críticos en una distribución t-student . . . . . . . . . . . . . . . . . 161
10.5.3 Prueba de hipótesis de un lado . . . . . . . . . . . . . . . . . . . . . . . . 161
10.5.4 Prueba de hipótesis de un lado . . . . . . . . . . . . . . . . . . . . . . . . 162
10.5.5 Prueba de hipótesis de dos lados . . . . . . . . . . . . . . . . . . . . . . . . 163
10.6 Inferencia sobre la varianza 2 y . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
10.6.1 Intervalos de conanza y prueba de hipótesis para 2 . . . . . . . . . . . . 171
10.7 Aplicación en CalEst: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
10.7.1 Lógica de la prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 178
11 Inferencia para dos poblaciones 181

11.1 Inferencia para dos medias: muestras dependientes . . . . . . . . . . . . . . . . . 182
11.1.1 La prueba z para la diferencia de medias: Muestras grandes . . . . . . . . 182
11.1.2 La prueba t Student para la diferencia de medias: Muestras pequeñas . . 185
11.2 Inferencia para dos medias: muestras pareadas . . . . . . . . . . . . . . . . . . . . 188
11.3 Inferencia para dos proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
11.3.1 Prueba F, comparación de Varianzas . . . . . . . . . . . . . . . . . . . . . 193
12 Análisis de Varianza 199

12.1 Ideas generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
12.1.1 Componentes de la variación total . . . . . . . . . . . . . . . . . . . . . . . 201
13 Modelo de regresión lineal simple 207

13.1 Planteamiento del problema de regresión . . . . . . . . . . . . . . . . . . . . . . . 207
13.2 Modelo de regresión lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
13.2.1 El método de mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . 211
13.2.2 Residuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
13.3 Estimadores de mínimos cuadrados. . . . . . . . . . . . . . . . . . . . . . . . . . . 214
13.3.1 Inferencia con respecto a la pendiente. . . . . . . . . . . . . . . . . . . . . 215
13.3.2 Intervalo de conanza para los parámetros del modelo. . . . . . . . . . . . 217
13.3.3 Predicción de la respuesta media para un valor dado de X . . . . . . . . . 217
13.3.4 Reporte estadístico del modelo de regresión en CalEst . . . . . . . . . . . . 218
13.3.5 Evaluación de la relación lineal . . . . . . . . . . . . . . . . . . . . . . . . 219
vi CONTENIDO
13.3.6 Regresión lineal simple: notación matricial . . . . . . . . . . . . . . . . . . 222
14 Regresión Múltiple 225

14.1 Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
14.2 Ajuste del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
14.2.1 Supuestos estadísticos sobre el modelo. . . . . . . . . . . . . . . . . . . . . 226
14.2.2 Proceso de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
14.2.3 Estimación por mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . . 226
14.2.4 Estimación de los parámetros del modelo. . . . . . . . . . . . . . . . . . . 227
14.2.5 CalEst en el análisis estadístico del modelo . . . . . . . . . . . . . . . . . . 227
14.2.6 Prueba de hipótesis: parámetros del modelo . . . . . . . . . . . . . . . . . 230
14.2.7 Análisis e Interpretación del Modelo. . . . . . . . . . . . . . . . . . . . . . 230
15 Pruebas de bondad de ajuste 239

15.1 Análisis de datos categóricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
15.1.1 Pruebas de independencia y homogeneidad en tabla de contingencia . . . . 242
15.2 Pruebas de Bondad de Ajuste sobre distribuciones de probabilidad . . . . . . . . . 245
15.2.1 Prueba de bondad de ajuste para una Distribución Binomial . . . . . . . . 245
15.2.2 Prueba de bondad de ajuste para una Distribución Poisson. . . . . . . . . 247
15.3 Prueba de bondad de ajuste cuando la variable aleatoria es continua . . . . . . . . 249
15.4 La prueba Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
16 Pruebas no paramétricas 257

16.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
16.2 Prueba del signo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
17 Diseño de Experimentos 261

17.1 Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
17.2 Material experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
17.2.1 Diseños de experimentos en CalEst . . . . . . . . . . . . . . . . . . . . . . 262
17.2.2 Glosario de términos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 271
18 Proyectos de estudios estadísticos 277

18.0.3 Ejemplo 1: Consumo de energía . . . . . . . . . . . . . . . . . . . . . . . . 278
18.0.4 Ejemplo 2 : Rompecabezas del mapa de México . . . . . . . . . . . . . . . 279
18.0.5 Problema: Hombre en granos de café* . . . . . . . . . . . . . . . . . . . . 281
18.0.6 Problema: memoria a corto plazo . . . . . . . . . . . . . . . . . . . . . . . 283
18.0.7 Simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
Referencias 286
Prefacio
De la experiencia se conoce que existen varias dicultades para transmitir diferentes conceptos
en estadística y probabilidad, así como asimilarlos por parte del educando. Con el n de contribuir
en la solución de esta problemática se ha realizado un proyecto de desarrollo tecnológico que
denominaremos CalEst. La investigación en este trabajo se plantea en dos direcciones, la primera
se da en la elaboración de este proyecto en el cual se han desarrollado ideas y propuestas didácticas
con el propósito de facilitar la comprensión de conceptos en las dos áreas citadas. La segunda
tiene la nalidad de evaluar el impacto en la comprensión de nociones estadísticas usando el
material de este proyecto.
El CalEst se aboca a cubrir dos áreas principales, una de ellas tiene por objeto presentar un
conjunto de herramientas con un enfoque didáctico para cubrir el proceso enseñanza apren-
dizaje. La otra consiste en abarcar de manera sencilla la descripción y el análisis de datos
generados en un estudio. Esto permitirá al usuario trabajar con los diferentes temas propuestos
en los planes y programas de estadística y probabilidad para los cursos a nivel bachillerato y
superior. La aplicación en estas dos líneas del CalEst permite estudiar los ejemplos y encontrar
las soluciones de los ejercicios planteados en diferentes textos de estadística.
Finalmente se ha desarrollado el material temático tal que la metodología del tratamiento de
la información surja de problemas reales o que los estudiantes generen su propia información.
La integración de éste desarrollo tecnológico asistido de manera visual y las estrategias para
producir la información crean una dinámica que proporcionan una mayor facilidad para la com-
prensión de conceptos y motivan el aprendizaje de estas dos disciplinas.
Una parte fundamental del desarrollo de este trabajo se da en el conocimiento y habilidad de
cómputo aplicada para explicar y desarrollar conceptos y resultados en la enseñanza de la estadís-
tica y probabilidad. Este proyecto se ha elaborado con alto desarrollo en programación avanzada
y cómputo especializado dedicado como apoyo integral a la educación con la presentación de imá-
genes animadas y visuales para comprender los conceptos básicos en estadística y probabilidad.
CalEst corre en los sistemas operativos Windows XP y Vista.
Esta propuesta usa como recurso tecnológico la animación asistida por computadora y se
presenta como un paquete. Así este desarrollo resulta novedoso, visualmente atractivo y es
una herramienta complementaria que benecia en el aprendizaje, enseñanza y aplicación de los
conceptos de estadística y probabilidad. Por un lado, da elementos a los profesores para explicar
diferentes temáticas de una manera mas amena y fácil de entender. Asimismo, le da al profesor
la opción de profundizar ampliamente en los temas. Su entorno visual y animaciones no solo
permite, sino además alienta, que el estudiante explore y aprenda por si mismo utilizando el
material de prácticas auxiliar al paquete. El material contribuye a que los estudiantes entiendan
claramente los conceptos, se motiven a conocer más y a explorar por si mismos.
viii Prefacio
CalEst sirve como material de apoyo para comprender mejor algunos conceptos en estadística
y probabilidad, así como resolver problemas de diferentes libros de estadística cuya temática
se enfoca a los planes de estudio en los bachilleratos, tecnológicos regionales, licenciaturas e
ingenierías. Inclusive, por sus animaciones y grácas, también puede ser utilizado en primaria o
secundaria para adentrar a los estudiantes en el tratamiento de la información.
Presentación. Partimos del hecho de que la disciplina de estadística es el proceso de descubrir
más sobre el mundo real mediante la colección, análisis e interpretación de datos. En esa dirección
los estudios en estadística se plantean como un procedimiento de búsqueda, en el que se plantea
un problema y a partir de ahí se derivan una serie de cuestiones, las cuales se responderán y
explicarán con una apropiada recolección y análisis de datos. Sin embargo en la práctica es común
dar datos para que los estudiantes hagan cálculos, por lo general no se hacen interpretaciones
de los resultados. Por otro lado, el estudio de la estadística se fundamenta en conceptos de la
teoría de probabilidad, por lo general, en la práctica existe una cierta dicultad para enseñar
y aprender nociones sobre estos temas. Por ejemplo, en un estudio sobre el cerebro, se desea
conocer el tiempo de respuesta de una persona ante un estímulo visual. En este caso se desea
conocer el porcentaje de personas que tardan menos de 30 segundos en responder, o estimar el
porcentaje de individuos en responder entre 70 y 180 segundos. Ambas situaciones se plantean
en términos de probabilidad. A partir de este planteamiento se generan una serie de cuestiones
tales como la de comprender, el concepto de probabilidad, el de variable aleatoria, función de
densidad, distribución de probabilidad. Para abordar este tipo de problemas en cursos básicos
de estadística y probabilidad se supone la distribución normal. Lo primero que se le explica al
estudiante, antes de hacer el cálculo de estas probabilidades dados los parámetros para la media
y desviación estándar de esta distribución, es el proceso de estandarización. Situación que distrae
de la nalidad principal, toma tiempo y de alguna manera complica al estudiante. Además de
las dicultades que genera al estudiante comprender estas funciones de probabilidad y distinguir
la diferencia entre ellas.
El desarrollo tecnológico propuesto mediante el CalEst, ayuda de manera animada a calcular
directamente esas probabilidades, además de ilustrar los conceptos de función densidad y dis-
tribución de probabilidad. Esta técnica se extiende a una gama de distribuciones tales como:
Bernulli, Binomial, Poisson, t-Student, Ji cuadrada, la F, Weibull, Gama Exponencial, Uniforme
para variables continuas-, Beta, Lognormal, Logística y Valores Extremos.
En el ejemplo descrito, también se tiene el interés en vericar la hipótesis de que las personas
no reaccionan de manera lenta, en términos estadísticos la media debe ser menor a 130 segundos.
El planteamiento estadístico formal es:
H0 = = 130
H1 = 6= 130
Prefacio ix
La vericación de esta prueba estadística se fundamenta en conceptos de la teoría de pro-

babilidad. Así es necesario comprender lo que signica la probabilidad de rechazar la hipótesis
cuando esta es verdadera, o la probabilidad de no rechazarla cuando esta es falsa, así como la
potencia de la prueba. Estos conceptos se muestran de manera animada mediante una gráca y
se pueden simular diferentes escenarios del problema aplicando el CalEst. Esta temática cae en
la parte de inferencia estadística, algunos conceptos en los que se sustenta esta teoría tal como
el teorema de límite central, también se ilustran de manera visual con el n de entender como al
variar el tamaño de muestra la distribución de probabilidad del estadístico tiende a ser simétrica.
De igual forma se ilustra el concepto de prueba de hipótesis por medio de la animación de un
sistema de seguridad mediante la identicación del iris.
Como se indicó, las nociones de probabilidad desempeñan un papel esencial en el análisis e
interpretación de los datos estadísticos, con esa nalidad en este proyecto se presentan varias
animaciones con el propósito de motivar algunos conceptos de probabilidad, tal como juegos
clásicos con monedas, dados, se presenta una animación de un robot con inteligencia articial
que realiza un tarea usando técnicas de probabilidad y se ha agregado un generador de números
aleatorios.
Finalmente, una vez que se han obtenido los datos, el CalEst cuenta con una variedad de he-
rramientas para el cálculo, análisis, manipulación de datos, grácas y está ilustrado con una guía
didáctica. El trabajo que se realiza en esta parte cubren los temas de cursos a nivel bachillerato
y licenciatura en varias carreras, tales como: medidas de tendencia central, dispersión y posi-
ción, histograma, polígono de frecuencia, distribución empírica, diagrama de pastel, diagrama de
puntos, diagrama de tallo y hoja, diagrama de caja, gráca de dispersión, papeles de probabi-
lidad, pruebas de hipótesis para 1 o 2 medias, proporciones, para la varianza, no paramétricas,
intervalos de conanza, análisis de varianza, regresiones, pruebas de bondad de ajuste.
Desarrollo. Una parte fundamental del desarrollo de este trabajo se da en el conocimiento
y habilidad de cómputo aplicada para explicar y desarrollar conceptos y resultados en la en-
señanza de la estadística y probabilidad. Este proyecto se ha elaborado con alto desarrollo en
programación avanzada y cómputo especializado dedicado como apoyo integral a la educación
con la presentación de imágenes animadas y visuales para comprender los conceptos básicos en
estadística y probabilidad. CalEst corre en los sistemas operativos Windows XP y Vista.
Puesto que el objetivo principal es mostrar un efecto visual de conceptos, en este resumen será
difícil ilustrar el potencial del proyecto, así que sólo se describirán mediante guras los resultados
del ejemplo descrito anteriormente. En la Figura 1 se ilustra el cálculo de probabilidad descritos
por grácas de la densidad y distribución de probabilidad normal.
Se pueden calcular diferentes probabilidades mediante el movimiento de los umbrales, cam-
biando los valores o usando el ratón. Es importante resaltar que aquí se calculan las proba-
bilidades de la normal declarando el valor de la media y desviación estándar, sin necesidad de
x Prefacio
estandarizar. Esta última queda implícita al escribir : = 0; = 1 . En la parte superior de la

pantalla se tiene un calculador de la normal, el cual permite obtener diferentes probabilidades
dados los valores de la variable aleatoria, la media y la desviación estándar. También aplica la
inversa, es decir dada una probabilidad se obtienen los valores de la variable aleatoria.
El segundo caso que se presenta corresponde a la prueba de hipótesis, como se muestra en
la Figura 2. En referencia a la expresión indicada en el ejemplo inicial, la gráca muestra el
caso para una posible hipótesis alterna. Aquí se pueden usar diferentes escenarios para ver las
probabilidades del error tipo I y el error tipo II en el contexto de esta temática. Se observa que a
partir de esta se consigue motivar los conceptos de prueba de hipótesis ante distintos problemas.
En este caso también se anexa el calculador para la distribución normal.
Prefacio xi
xii Prefacio
Capítulo 1
Instalación de CalEst
CalEst es un paquete estadístico que le permitirá al usuario, realizar los cálculos y análisis
estadísticos de un conjunto de datos en la solución de problemas.
CalEst cuenta además con una serie de animaciones visuales que facilitará al usuario la
comprensión de diferentes conceptos estadísticos.
1.1 Instalación del programa

Para realizar la instalación sigue los siguientes pasos:
1.a Introduzca el CD en su computadora. De forma automática se ejecutará el programa
asistente del instalador. La ventana del asistente es ilustrada por la Figura 1.1. Si no ejecuta de
forma automática vaya al paso 1.c.
Figura 1.1: Asistente del instalador

2 1. Instalación de CalEst
Figura 1.2: Se inicia la instalación del programa
1.b Apriete sobre la opción instalar. El instalador se ejecutará y una ventana como la
mostrada por la Figura 1.2 aparecerá.
1.c Si no se ejecuta automáticamente el programa es posible que no esté habilitada la ca-
racterística de autoejecución. Si la autoejecución está deshabilitada. Desde Mi PC, seleccione la
unidad del CD, ejecuta el programa Instalame.exe y una ventana como la ilustrada en la Figura
1.2 aparecerá.
2 Seleccione el idioma de la instalación y aprieta el botón Aceptar. Una pantalla como la
mostrada en la parte inferior de la Figura 1.2 aparecerá.
3 A continuación apriete el botón Siguiente. Se mostrará la licencia del software.
4 Lea dicha licencia y si está de acuerdo con los puntos allí expuesto seleccione Acepto el
acuerdo y aprieta Siguiente.
1.1. Instalación del programa 3
Figura 1.3: Paso 4
5 Se presentará la opción de escoger la carpeta donde quiere o desea instalar el programa.

Por defecto, la carpeta es C:nArchivos de programanCalEst Una vez que haya seleccionado la
carpeta que quiere o dejado la sugerida, apriete Siguiente para continuar, Figura 1.4
6 En este paso puede escoger la carpeta del menú de inicio Figura 1.5. Por defecto la carpeta
es CalEst Studio. Puede escoger otra carpeta. Cuando esté de acuerdo con el nombre de la
carpeta apriete el botón Siguiente.
7 En este paso se le pregunta si quiere crear un icono de acceso directo en su escritorio Figura
1.6. Si así lo desea, seleccione la casilla. Para continuar apriete Siguiente.
8 Estamos listos para instalar el programa. Aparece un resumen de la conguración Figura

1.7. Si desea cambiar algo, apriete Atrás. Para empezar el proceso de instalación apriete Instalar.
9 El programa se instala Figura 1.8. El proceso puede tomar unos cuantos minutos. Al
terminar la instalación puede ejecutar el programa. No es necesario reiniciar la computadora.
Apriete el botón Finalizar para concluir el proceso.
Las siguientes grácas muestran la secuencia de instalación:

Figura 1.4: Paso 5, escoger carpeta
Figura 1.5: Paso 6, seleccionar menú desde el inicio

1.1. Instalación del programa 5
Figura 1.6: Paso 7, ¿se desea crear un icono?
Figura 1.7: Paso 8, instalación del programa

Figura 1.8: Paso 9, proceso de instalación
1.2 El ambiente de CalEst

Cuando se ejecuta CalEst aparece el escenario que se muestra en la Figura 1.9, es lo que cono-
ceremos como ambiente CalEst . En esta se muestra el menú de opciones y tareas que realiza
este calculador.
Para iniciar la aplicación del CalEst, primero, hay que tener una hoja de trabajo, la cual se
genera creando un nuevo archivo o abriendo uno ya existente, para ello hay que ir a la opción
"Archivo" el cual cuenta con varias funciones para operar con archivos, Figura 1.10, dos opciones
operativas son las relativas a Edición y la de Herramientas. Esta última contiene la referente
a un enfoque didáctica con la nalidad de apoyar en la comprensión de algunos conceptos en
estadística y probabilidad.
La opción Estadística cuenta con los cálculos de medidas de tendencia central y dispersión.
También se tiene un elección temporal que contiene temas de control estadístico del proceso, ahí
se puede realizar el cálculo de seis sigma y el de la capacidad del proceso. Así como algunos la
posibilidad de escoger algún experimento y realizar el respectivo análisis. La siguiente opción
corresponde a temas de inferencia estadística, en la que se puede realizar pruebas de hipótesis
para la media, varianza y proporción de una población. En otra elección está la inferencia para la
comparación de los parámetros de dos poblaciones: medias, proporciones y razón de varianzas, se
tratan los casos de muestras independientes y pareadas, se contemplan pruebas no paramétricas.
En ésta parte de inferencia se presenta la construcción de un intervalo y se ilustran conceptos
1.2. El ambiente de CalEst 7
Figura 1.9: Presentación general del CalEst
Figura 1.10: Tres opciones operativas.

relevantes sobre éstos. Dos elecciones más a esta opción conciernen al análisis de la varianza y
pruebas de bondad de ajuste.
Las Grácas que tiene CalEst son las típicas en estadística descriptivas tales como el his-
tograma y su correspondiente tabla de frecuencia, polígono de frecuencia, polígono de frecuencia
acumulada, diagrama de pastel, diagrama de puntos, diagrama de tallo y hoja, diagrama de caja
y diagrama de dispersión y la gráca de la distribución empírica que permite visualizar que tan
cercana es la distribución de los datos a una distribución normal.
El análisis de Regresión simple y múltiple es una parte que complementa la parte cálculos
estadísticos para estimar los parámetros de un modelo y su análisis, así como las representaciones
grácas de los conceptos relacionados.
La parte correspondiente a las Distribuciones tiene una conguración relevante para que
el usuario tenga la posibilidad de realizar cálculos de probabilidad. En cada caso aparece la
distribución caracterizada por sus parámetros, así aparece la función densidad con uno o dos
umbrales, moviendo éstos generan valores de la probabilidad a la derecha, izquierda de un valor
de referencia o entre dos valores dados. Esta opción tiene la versatilidad de trabajar de manera
animada con la función distribución de probabilidad para hacer cálculos, y comprender la relación
matemática con la función densidad. Se ha anexado un calculador de probabilidad en cada
distribución lo que equivale al manejo de las tablas, esta permite tener el valor de la variable
aleatoria que dena a la distribución o el valor de una distribución probabilidad acumulada.
Opciones didácticas:
1. Con la nalidad de ilustrar conceptos de probabilidad, el lanzamiento de monedas, tirar

un dado, la misión a Marte, arrogar dos dados, el lanzamiento de una moneda y un dado,
monedas considerando la distribución binomial (éxito - fracaso), ramicaciones, ruletas y
extraer canicas de una bolsa.
2. Para explicar el Teorema de límite central, los conceptos de prueba de hipótesis, prueba de
hipótesis de un sistema de seguridad.
3. Dos simuladores que corresponden a un cañón y un helicóptero respectivamente para

generar datos, hacer pruebas de hipótesis, estudios de relación entre variables y plantear
estrategias de diseño de experimentos.
Capítulo 2
Organización y descripción de datos
2.1 Presentación
Una vez que se han aplicado las encuestas o algún procedimiento formal para obtener la informa-
ción, es necesario contar con una estrategia para hacer más comprensible la información generada
por los datos. La estadística descriptiva es el procedimiento que permite organizar y describir los
datos. Esto se alcanza mediante la representación de los datos de manera gráca. Es importante
tener presente y caracterizada la población objeto de estudio para poder hacer inferencia sobre
ella a través de una muestra representativa.
Objetivo:
Presentar diferentes procedimientos grácos para
describir y analizar los datos de una muestra
A continuación se mostrará la opción de Grácas, en la Figura 2.1 se ilustra la colección

técnicas para presentar la organización y descripción de los datos. Mediante un ejemplo se
expondrán las grácas de esta opción. El primer diagrama que se explica es el histograma.
Ejemplo 1.
Un sicólogo tiene interés en estudiar la memoria a corto plazo, su experimento consiste en mostrar
una tarjeta que contiene 16 palabras a un grupo de 100 personas seleccionadas al azar entre 15
y 25 años. El procedimiento consiste en mostrar la tarjeta a cada persona por un espacio de
20 segundos, luego platica con la persona por espacio de un minuto, a continuación, les da
otro minuto para que le digan las palabras que recuerdan. Los datos aparecen en el bloque
Herramientas del archivo DataEjemplo1.Tab en la columna palabras.
El procedimiento para organizar y describir los datos es construir una tabla, conocida como
Tabla de frecuencias .
9
10 2. Organización y descripción de datos
Figura 2.1: Diagramas disponibles en la opción Grácas
Tabla de frecuencias:
Una tabla de frecuencias o distribución de frecuencia es una tabla que
registra categorías, valores o clases de valores que una variable debe
tener y el número de veces que cada una ocurre.
La tabla de frecuencias contiene un determinado número de clases de igual tamaño. Al

número de datos que cae dentro del intervalo de clase se le denomina frecuencia. Para elaborar
una tabla de este tipo se deben responder las siguientes preguntas: ¿Cómo denimos el número
de clases? ¿Cómo determinamos el ancho o tamaño del intervalo de clase? El ancho del intervalo
de clase que buscamos cuenta con dos límites (extremos). Una vez denido lo anterior, ¿Cómo
se determinan esos límites del intervalo de clase?
El resumen de los datos se presenta en una tabla de frecuencias Figura 2.2, este se generó
usando el CalEst, primero se traza el histograma primera opción.
2.1.1 Elaboración de la tabla de frecuencias

La exposición técnica del procedimiento para la construcción de los intervalos es como sigue:
Se determina la lectura mayor máxima y la menor mínima en los datos, y se calcula la

distancia entre estos valores. Así la distancia es:
distancia = m
aximo m{nimo
2.1. Presentación 11
Figura 2.2: Un ejemplo de la Tabla de frecuencias para los datos del ejemplo 1.
1. Se divide la distancia entre el número k de clases que se deseen, todas de igual ancho.
distancia
ancho (aproximado del intervalo de clase) =
k
El ancho del intervalo de clase se determina en función del número de clases que desee.
Aunque esto resulta arbitrario, casi siempre se propone entre 5 y 15 intervalos, pero
ello depende del número de datos. Las observaciones agrupadas sacrican información
dependiendo de cómo las observaciones se distribuyan dentro de cada clase. Por un lado,
un número limitado de intervalos (menos de 5) nos daría muy poca información
2. Se establecen los intervalos de clase, para lo cual se requiere obtener el primero de ellos.
Se elige el menor de los datos y se suma el valor del ancho. Al valor resultante se le vuelve
a sumar el ancho, y así sucesivamente hasta obtener el número de clases establecidos.
Cada intervalo de clase, como podemos observar, presenta dos valores que se pueden su-
perponer. Para evitar que ello ocurra, deben contarse las observaciones iguales o mayores
al valor de la izquierda del intervalo y las menores al valor de la derecha. Se denota con X
el valor de la observación, por lo que la representación formal en términos matemáticos de
un intervalo de clase es:
valor izquierdo X < valor derecho
Esta última expresión se simplica mediante la siguiente notación:
valor izquierdo valor derecho
3. Se cuenta el número de observaciones que caen dentro del intervalo de clase. A este número
se le conoce como frecuencia.
La tabla frecuencias es una clasicación de datos y permite tener una mejor idea acerca
de los datos iniciales. Además, los valores de las frecuencias individuales se ven inuidos por el
tamaño de la muestra, pues cuando las muestras son grandes, las frecuencias individuales serán
mayores que cuando son pequeñas. La comparación entre diferentes muestras se vuelve compli-
cada; también se convierte en difícil de interpretar y comprender la problemática planteada, por
ello, se recurre al concepto de frecuencia relativa.
La frecuencia relativa de una clasicación de datos es el número de veces que una ob-
servación cae sobre una clase, y representa una proporción del número total de datos. Por esta
razón, la frecuencia relativa se expresa en fracciones, decimales o porcentajes.
El cálculo de la frecuencia relativa se obtiene empleando la expresión:
f recuencia
f recuencia relativa =
total
2.1.2 El Histograma
Una vez capturados los datos en la hoja de datos, se pulsa la opción Grácas y aparece el
histograma Figura 2.3. Aparece una hoja que contiene la o las variables que se desean estudiar,
en este caso el número de palabras recordadas por 100 personas. Se completan los espacios, en
datos se escribe el nombre de la variable, los nombres de las clases es opcional y deben estar en
una columna. Se escoge el número de intervalos que se deseen obtener.
El histograma es una gráca de barras que consiste básicamente de un conjunto de rectángulos.
Su forma está determinada por tres elementos: el número de rectángulos, el ancho y la altura
de éstos. En esencia, el histograma es una representación visual de la tabla de frecuencias. En
ese sentido, el número de barras (rectángulos) corresponde al número de clases. El ancho del
rectángulo corresponde al intervalo de clase y la altura es la frecuencia. El histograma y la tabla
de frecuencias del conjunto de datos son una estrategia conjunta para organizar y describir los
datos de una muestra.
La frecuencia relativa en un intervalo de clase es la proporción del número total de

observaciones que caen dentro de ese intervalo de clase, y es proporcional al área
de la barra correspondiente a ese intervalo.
Si en el eje vertical del histograma se cambia la marca de frecuencia por el de la frecuencia

relativa, se tiene el que se conoce como histograma de fecuencia relativa y éste se presenta en la
gráca que aparece a la derecha en la Figura 2.4.
Dado que todas las barras de un histograma tienen el mismo ancho, el área de una barra es
proporcional a la frecuencia relativa de la clase correspondiente. Por ejemplo, si 25% del área
Figura 2.3: Histograma para el número de palabras recordadas en un minuto
bajo la distribución queda sobre cierto intervalo, entonces 25% (0.25) de las observaciones caen
en ese intervalo. En ese sentido, el área total de las barras es igual al 100% (1).
Interpretación: aproximadamente el 10% de personas recuerda entre 9 y 10 palabras, lo que
resulta una cantidad pequeña de la población. El 21% de los entrevistados recuerda muy pocas
palabras 5 o menos. ¿Qué cantidad de palabras recuerda el 50% de personas? El histograma de
frecuencias relativas reeja esta situación en la Figura 2.4 se presentan de manera conjunta los
dos histogramas:
2.1.3 Polígono de frecuencias

En las opciones grácas aparece el polígono de frecuencias, ésta es también una herramienta
disponible para describir la distribución de los datos y su construcción depende del histograma.
El histograma se convierte fácilmente en un polígono de frecuencias uniendo mediante líneas
rectas las alturas de las barras del histograma que corresponden al punto medio del intervalo de
clase. Este punto es conocido como marca de clase.
Polígono de frecuencias relativas
El polígono de frecuencias relativas es una gráca eciente que también permite representar
la tabla de frecuencias en función de la frecuencia entre el total; esta condición facilita la inter-
pretación de los resultados, ya que estos se pueden expresar en porcentajes. Éste se construye
Figura 2.4: Histogramas de frecuencias relativas y el de frecuencias.
tomando como referencia el histograma de frecuencias relativas. Su procedimiento de construc-

ción es similar al de polígono de frecuencias. Para el ejemplo de las palabras la Figura 2.5 muestra
ambos polígonos.
Interpretación: Aproximadamente el 25% recuerda 7 palabras, es decir un cuarto de la mues-
tra. Se observa que la forma del polígono tiene una ligera asimetría. Esta situación se puede
visualizar en grácas descritas tanto por el histograma como por los polígonos de frecuencias.
En la elección 5 de la opción de grácas aparece la alternativa para describir conjuntamente
el histograma y el polígono de frecuencias. Como se percibe de la Figura 2.6, el polígono de
frecuencias relativas tiene en común con el histograma que las áreas de las grácas sobre un
intervalo son idénticas. A estas gráca también se le conoce como densidad empírica de la
distribución de datos. Para aclarar la relación de ambas representaciones, se sobreponen las
grácas de la Figura 2.6.
Recapitulación: el polígono de frecuencias es una descripción pictórica que permite captar la
forma del histograma. Esta descripción gráca es una herramienta muy útil para delinear varias
características de la distribución de los datos, como son la simetría, el sesgo y la variabilidad de
los datos.
2.1.4 Frecuencia relativa acumulada

En los datos presentados en la Figura 2.2 se puede observar que están ordenados de menor a
mayor. En ese contexto se pueden sumar las frecuencias relativas y, ante esa situación, pueden
Figura 2.5: Polígonos de frecuencias y frecuencias relativas.
Figura 2.6: Representación conjunta del histograma con el polígono de frecuencias

Figura 2.7: Grácas que ilustran los polígonos de frecuencia, también conocidos como ojivas.
plantearse algunas preguntas que resultan interesantes para realizar una interpretación de una
muestra de datos. Por ejemplo, podríamos preguntarnos ¿a qué valor de los datos le corresponde
75%?
La frecuencia relativa acumulada de una clase C, es la suma de las frecuencias relativas

de todas las clases anteriores a C. Esta se expresa como fracción, decimal o porcentaje.
Con la información que se proporciona en la Figura 2.2 se facilita la construcción del his-
tograma de frecuencias acumulado y del polígono de frecuencias relativas en forma acumulada.
Véase la última columna de esa gura, donde se observa cómo se han utilizado estos datos para
elaborar la gráca poligonal de la izquierda en la Figura 2.7, ahí se muestra el polígono que des-
cribe las frecuencias relativas acumuladas; éste es el más utilizado en la práctica. En esa gráca
se han trazado los porcentajes correspondientes a las personas que recordaron 5 o 7 palabras.
El polígono de frecuencias relativas acumuladas también recibe el nombre de ojiva . Así cuando
se requiera construir la ojiva de un conjunto de datos, lo que se desea es trazar el polígono de
frecuencias relativas acumuladas. En la gráca a la derecha de la Figura 2.7 se compara ese polí-
gono de frecuencias relativas con la distribución acumulada de la normal estándar: distribución
teórica. Nota: El polígono de frecuencias relativas que proceden de los datos de una muestra se
llama también distribución empírica.
2.1.5 Diagrama de tallo y hoja

Ejemplo 2.
Varias de estas opciones se ilustrarán utilizando 125 datos que corresponden al tiempo en que
una muestra de estudiantes completaron un rompecabezas electrónico de la República Mexicana
. Los datos están en el cuadro de abajo, en CalEst se abre un archivo y en una columna se
capturan estos.
El objetivo es ilustrar la elaboración de la gráca de tallo y hoja. Esta es una gráca que
permite complementar el estudio descriptivo de los datos. Es una gráca alternativa al his-
tograma. Con estos datos a continuación se elabora un diagrama de tallo y hoja, la nalidad de
este diagrama es describir a la vez una tabla de frecuencias y un histograma, éste se presenta en
la Figura 2.8.
Construcción del diagrama de tallo y hoja
Se ilustrará la construcción del diagrama de tallo y hoja considerando los nueve datos corre-
spondientes a la muestra de la producción de maíz en un área de 100m2 . El peso del maíz para
cada muestra es: 312, 324, 310, 314, 322, 328, 316, 314, 324 toneladas. Antes de elaborar este
diagrama, se dará una idea general de cómo se forman el tallo y la hoja.
La idea principal es partir cada número para formar primero el tallo y luego la hoja. En
general, donde se hace la partición depende del rango de los datos. Para jar ideas considere el
número 310, el cual se parte en dos cifras, 31 y 0. 31 representará al tallo y el 0 a la hoja. En la
representación se escribe el 31 a la derecha separándolo con un espacio, que aquí se resalta con
una línea vertical, y el 0 del lado izquierdo. Esto es:
31 j 0
El procedimiento para formar el diagrama de tallo y hoja es como sigue:

Figura 2.8: Diagrama de tallo y hoja
Paso 1. Se ordenan los datos de menor a mayor:
310; 312; 314; 314; 316; 322; 324; 324; 328:
Paso 2. Se consideran todos los datos de manera integral. Los números candidatos para el
tallo en estos datos son el 31 (para los números 310, 312, 314, 316) y 32 (para los números 322,
324, 328); así:
Paso 3. Se incorpora la otra parte del número partido; así, se anexan 0, 2, 4, 4 y 6, que son
la parte correspondiente del 31, o sea:
Paso 4. Se agrega la parte dividida correspondiente al número 32; así la gráca queda como
sigue:
Cabe observar que en este ejemplo, el ancho de los intervalos de clase es de 10 unidades
(de 310 a 320). Además se puede resaltar que la realización del paso 1 facilita la construcción
del diagrama.
Supongase que el ancho de intervalos sea de tan sólo 5 unidades (310 a 315, 315 a 320, y
así sucesivamente). Para construir el diagrama de tallo y hoja con 5 unidades, se pone el 31 dos
veces en el tallo. Así, en la hoja del primer 31 del tallo, se consideran los números menores que
5, que en este caso serán 310, 312, 314 y 314. En el segundo tallo los números mayores o iguales
que 5 y menores o iguales que 9, esto es, el 316 del ejemplo. De manera análoga se procede para
el otro número del tallo. En este caso el diagrama es:
Con el auxilio de esta gráca se tendrá una idea general de la distribución de los datos.
Unidad en un diagrama de tallo y hoja
Establecer una unidad ayuda en la construcción de un diagrama de tallo y hoja. Por lo general,
ésta debe aparecer en la parte superior del diagrama. Por ejemplo:
En este caso la unidad que se lee indica que la partición se da entre diez de miles y los miles.
De este modo si el número con tallo fuera 9 y el de la hoja 6 se leería como 96000.
En contraste si dice:
Esto signica que el número con tallo 9 y hoja 6 se leería como 0.096.
Distribución empírica
En la Figura 2.8 se muestra una aparente simetría en la distribución de los datos. Con el propósito
de ilustrar la utilidad del polígono de frecuencias acumulado en la descripción de los datos se
describe este en la gráca izquierda de la Figura 2.9. La gráca a la derecha muestra el mismo
polígono comparado con distribución de probabilidad normal. Esta situación permite evaluar de
manera descriptiva si los datos se ajustan a una distribución de probabilidad normal.
Figura 2.9: Polígono de frecuencias acumulado izquierda, este mismo comparado con la normal.
2.1.6 Ejercicios.
1. Para el conjuntos de datos del ejemplo 2:
(a) Trace e interprete el histograma, use inicialmente 13 clases.

(b) Una vez construido el histograma use la opción tabla de frecuencia y elabore dicha
tabla.
(c) Encuentre el porcentaje de los alumnos que resolvieron el rompecabezas en 480, 560
segundos, los que lo resolvieron en más de 560 segundos, los que lo resolvieron entre
490 y 550 segundos, los que lo resolvieron en menos de 480 segundos. Use el polígono
de frecuencias acumulado.
2. En otro estudio para resolver el rompecabezas de la República Mexicana 119 estudiantes

tardaron el tiempo que se muestra en la columna: tiempo en el archivo DataEjemplo1.Tab
en el bloque Herramientas en CalEst.
(a) Trace el histograma y elabore la tabla de frecuencias, interprete sus resultados.

(b) Encuentre el porcentaje de los alumnos que resolvieron el rompecabezas en 490, 510
segundos, los que lo resolvieron en más de 505 segundos, los que lo resolvieron entre
490 y 500 segundos, los que lo resolvieron en menos de 490 segundos. Use el polígono
de frecuencias acumulado.
(c) Verique que tan simétrica es la distribución comparándola con una distribución nor-
mal
(d) Elabore un diagrama de tallo y hojas.
(e) En qué conjunto de datos hay mayor variabilidad en los del ejercicio 1 o los del ejercicio
2.
(f) Si se aplica este mismo rompecabezas a 1000 personas con las mismas características
de esta muestra, ¿cuántas tardarán en resolverlo en menos de 500 segundos?
3. Un médico esta interesado en conocer el tiempo, en segundos, de respuesta de un individuo

para encontrar una cara en una cuadro lleno de granos de café. Esta información le per-
mitirá saber más sobre el cerebro. La respuesta ante este estímulo visual se muestra en el
archivo DatosEjemplo1.TAB, bloque Herramientas, en la columna resp.
(a) Trace el histograma y elabore la tabla de frecuencias, interprete sus resultados.
(b) Encuentre el porcentaje de los individuos que tardaron en encontrar la cara en 90

segundos, en 150 segundos, los que tardaron más de 100 segundos, los que tardaron
entre 30 y 180 segundos, los que lo resolvieron en menos de 30 segundos. Use el
polígono de frecuencias acumulado.
(c) Verique que tan simétrica es la distribución comparándola con una distribución nor-
mal
(d) Elabore un diagrama de tallo y hojas.
(e) Si se muestra este mismo cuadro a 1500 personas con las mismas características de
esta muestra, ¿cuántas tardarán en encontrar la cara en menos de 30 segundos?
4. Con el n de evaluar la habilidad de sus alumnos, al nalizar el semestre el profesor del

taller de mecanografía aplicó una prueba, que consistía en escribir el mayor número de
palabras en dos minutos. Después de realizar la prueba, seleccionó una muestra de 20
alumnos. Los datos reportados fueron:
En este caso, hay que construir el diagrama de tallo y hoja para este conjunto de datos e
interpretarlo.
Capítulo 3
Estadísticas
Las estadísticas son medidas descriptivas que complementan la información e interpretación de

los datos descritos en una gráca. Se agrupan en tres clases: las medidas de tendencia central,
las medidas de dispersión y las medidas de posición.
Ejemplo 1
Un sociólogo ha realizado un estudio para conocer la edad en la cual contraen matrimonio las
mujeres que radican en una ciudad determinada. Del registro civil obtuvo una muestra aleatoria
de 120 parejas. Es de interés conocer ¿Cuál es la media o la mediana en la que una mujer se
casa? ¿Qué porcentaje de mujeres se casa cuando tiene 20 años o menos? ¿Qué tanta variación
de edad existe entre las mujeres que se casan? ¿Qué diferencia existe entre la edad máxima y
mínima para casarse? ¿A qué edad se casan al menos el 25% de las mujeres?
Datos: Los datos relacionados con esta investigación aparecen en el archivo DatosEjem-
plo1.TAB en la columna edad. Para poder responder a estas preguntas aplicamos la opción
Estadística y luego Numérica en CalEst, a continuación aparecen las tres clases de mediciones
como se ilustra en la Figura 3.1.
A continuación se explica el procedimiento para obtener esta información y sobre todo es
relevante interpretar estos resultados.
3.0.7 Medidas de tendencia central

La media
Denición. Dado una colección de n valores de una variable, la media aritmética es una medida
de tendencia central que se obtiene sumando cada uno de estos valores y el total de esta suma
se divide por n. En general a esta medida se le conoce como la media. La fórmula para calcular
la media de la población y de la muestra son:
23
24 3. Estadísticas
Figura 3.1: Resultados de las estadísticas de tendencia central, dispersión y posición
P
N P
n
xi xi
i=1 i=1
población = ; muestra x =
N n
Ejemplo 2
Se tomó una muestra de siete farmacias para conocer el precio en pesos de una medicina, los
datos son: 510, 850, 480, 420, 445, 495 y 500.
Solución
La suma del precio de las siete farmacias es:
n
X
xi = 510 + 850 + 480 + 420 + 445 + 495 + 500 = 3700
i=1
Se divide la cantidad anterior por 7, así la media de la muestra es:
P
n
xi
i=1 3700
x= = = 528:6
n 7
25
La mediana
Denición. Dado una colección de n valores de una variable, la mediana es una medida de
tendencia central cuyo valor está en la mitad de los n datos ordenados de menor a mayor.
Si el número de datos es impar, la mediana es el dato que está situado a la mitad. Si el
número de datos es par, la mediana es la media de los dos datos que están situados a la mitad.
Ejemplo 3
Encontrar la mediana del precio en pesos de una medicina de las farmacias en el ejemplo 1.
Solución
Para encontrar la mediana se ordenan los datos 510, 850, 480, 420, 445, 495 y 500 de menor a
mayor.
Sitio 1 2 3 4 5 6 7
Orden 420 445 480 495 500 510 850:
Son siete datos, por lo que se tiene un número impar, la mediana es el dato situado a la mitad,
esto es: m
e = 495. Con el símbolo m
e se representa la mediana. En la mitad de las farmacias la
medicina cuesta menos de 495 pesos.
Ejemplo 4
Una compañía que manufactura un pesticida estudia el número de insectos que aniquila una dosis
especíca del insecticida. Se realizan 10 pruebas. En cada una de ellas, el número de insectos
muertos de 40 son:
19; 22; 34; 28; 18; 16; 25; 27; 31; 30
Calcular la mediana. Con base en esos datos, ¿qué tan efectivo es el insecticida?
Solución
A partir de la denición se ordenan los datos de menor a mayor y se identica el lugar que
ocupan.
Sitio 1 2 3 4 5 6 7 8 9 10
Orden 16 18 19 22 25 27 28 30 31 34
Puesto que el número de datos es par la mediana es la media de los datos situados en los
lugares 5 y 6, es decir 25+27
2
= 26:
26 3. Estadísticas
La moda
Denición. Dado una colección de n valores de una variable, la moda es una medida de
tendencia central, y es el valor que ocurre con mayor frecuencia.
Cuando dos valores aparecen con la misma frecuencia, cada uno es una moda y el conjunto
de datos es bimodal.
Cuando más de dos valores se tienen con la misma frecuencia, cada unos es una moda y el
conjunto de datos es multimodal.
Cuando no hay valores repetidos, se dice que los datos no tienen moda.
La media armónica y la media geométrica
La media armónica y la media geométrica completan el panorama de medidas de tendencia

central. En la práctica, éstas son usadas con menos frecuencia y en general para aplicaciones
especícas, por ejemplo en comercio y economía.
Con el n de facilitar su denición de la media armónica se describen los siguientes
términos.
1
El recíproco de un número X es
X
1 1 1
El recíproco de n números X1 ; X2 ; :::; Xn es ; ; :::;
X1 X2 Xn
n
1X 1
La media de estos recíprocos es
n i=1 Xi
1
El recíproco de la media es P
n
1 1
n Xi
i=1
La media armónica
La media armónica (denotada por la letra H) de un conjunto de datos X1 ,X2 ,...,Xn es el recíproco
de la media aritmética del recíproco de esos datos.
1 n
H Pn = P
n
1 1 1
n Xi Xi
i=1 i=1
27
La media armónica se emplea cuando se desea promediar velocidades, tiempos, rendimiento,

etc., es decir, cuando inuyen los valores pequeños. Pero es necesario ser cuidadoso en estos
casos, ya que cuando algún dato es cero o muy cercano a cero, no se puede calcular.
La media geométrica
Si algunos valores son muy grandes en magnitud y otros son pequeños, entonces la media geo-
métrica es una medida que representa los datos mejor que la media.
Si hay n observaciones X1 ; X2 ; :::; Xn la media geométrica G de un conjunto de datos es la
raíz enésima del producto de esos datos.
p
n
G= X1 X2 :::Xn
Por lo general, la media geométrica se utiliza cuando los valores de la variable siguen una
progresión geométrica, o cuando se necesitan promediar porcentajes, tasas, índices, etc., siempre
que vengan dados en porcentajes.
3.0.8 Medidas de dispersión

En esta sección se mostrarán diferentes maneras de denir la variación de un conjunto de datos.
Una medida que es sencilla y práctica es el rango.
Rango
El rango es una de las medidas más sencillas para expresar la dispersión de los datos. Tan sólo
se requiere considerar los valores máximo y mínimo de las observaciones.
El rango muestral ( R) es la diferencia entre el máximo y el mínimo

de las observaciones de la muestra:
R=máximo-mínimo.
Ejemplo 5
El consumo de energía eléctrica en KWh registrada en los recibos de 10 hogares son:
Consumo 416 378 390 454 472 413 440 441 379 421
Solución
Se ordenan de menor a mayor ese conjunto de datos:
Consumo 378 379 390 413 416 421 440 441 454 472
28 3. Estadísticas
Así el valor deseado para el rango es: R= máximo-mínimo = 472 -378 =94 .
La varianza y la desviación estándar
Como se ha visto el rango sólo requiere de dos datos para obtener su valor. La varianza y
la desviación estándar son dos medidas para la variación que utilizan todos los datos de la
información. Primero se necesita comprender la desviación de cada una de las entradas de los
datos.
Desviación
La desviación de la entrada x en una muestra aleatoria de un conjunto de datos es la
diferencia entre cada entrada y la media X del conjunto de datos.
Para el ejemplo 5, la media es X = 420:4; la desviación con respecto al primer dato es X X =

416 420:4 = 4:4: La desviación para cada uno de los datos se muestra a continuación en
la Tabla 1. Con esta información se podrá calcular la varianza y la desviación estándar. La
expresión general para la varianza es:
P
n 2
Xi X
i=1
S2 =
n 1
Al numerador se le conoce como la suma de cuadrados, es decir la suma de los cuadrados

de la desviación. El número de observaciones es n, y recuerde que i recorre todos los datos.
Tabla 1. Desarrollo del cálculo de la varianza

Dato Xi X (Xi X)2 Xi X
416 416 420:4 4:4 19.36 4:4
378 378 420:4 42:4 1797.76 42:4
390 390 420:4 30:4 924.16 30:4
454 454 420:4 33:6 1128.96 33:6
472 472 420:4 51:6 2662.56 51:6
413 413 420:4 7:4 54.76 7:4
440 440 420:4 19:6 384.16 19:6
441 441 420:4 20:6 424.36 20:6
379 379 420:4 41:4 1713.96 41:4
421 421 420:4 0:6 0.36 0:6
Suma 0 9110.40 252.0
29
Ejemplo 6
Calcular la varianza para los datos del ejemplo 5. En la Tabla 1 se han calculado los cuadrados
de las desviaciones y luego se sumaron, así la varianza es:
P
n 2
Xi X
i=1 9110:40
S2 = = = 1012:267
n 1 10 1
La varianza muestral ( S2 ) es la media del cuadrado de las desviaciones de cada

observación con respecto a la media muestral.
Una expresión alternativa para calcular la varianza es:
P
n 2 P
n 2
Xi X Xi2 X
i=1 i=1
S2 = =
n 1 n 1
Observaciones
Para encontrar el promedio de la suma de cuadrados, se ha dividido entre n 1 y no exactamente
entre n. Esto se debe a dos razones. La primera es que, como se ve en la segunda columna de
la Tabla 1, la suma de las desviaciones es cero. Esto quiere decir que cualquier desviación se
puede encontrar a partir de las nueve desviaciones restantes. De modo que el valor de la suma
de cuadrados depende sólo de nueve desviaciones que son la libertad de variar de una muestra
a la siguiente. En general, se dice que la suma de cuadrados tiene n 1 grados de libertad.
La segunda razón es tema de la inferencia estadística, y se puede decir que dividir la suma
de cuadrados entre n 1 hace que la varianza muestral (estadístico) sea un mejor estimador
de la varianza poblacional (parámetro). Ésta última se expresa mediante la letra griega sigma
minúscula elevada al cuadrado, 2 .
La varianza 2 de la población se dene por:
P
N
(Xi )2
i=1
2 =
N
Donde es la media de la población y N es el tamaño de la población.
Cálculo de la desviación estándar

A partir de la varianza de manera directa. Se calcula la desviación estándar sacando la raíz
cuadrada de la varianza. La fórmula para la desviación estándar es:
30 3. Estadísticas
v v
uP 2 uP
u n u n 2 2
u Xi X u Xi X
t t
S = i=1 ; o S = i=1
n 1 n 1
Para los datos del ejemplo 6 se saca la raíz cuadrada y se obtiene el valor de S; así:
v
uP 2
u n r
u Xi X
t i=1 9110:40 p
S= = = 1012:267 = 31:816
n 1 10 1
En la práctica, se usa más la desviación estándar porque tiene las mismas unidades de
los datos originales.
La desviación estándar:
La desviación estándar muestral (S) es la raíz cuadrada positiva de la varianza.
La desviación estándar de la población se denota por :
La desviación estándar ; de la población se dene por:
v
uN
uP
u (Xi
t i=1 )2
=
N
La desviación media
Una medida que se menciona y aparece en muchos estudios es la desviación media (DM ), la cual
consiste en sumar el valor absoluto de la desviación. Por el momento sólo se dirá aquí que, debido
a propiedades matemáticas se usan la varianza y desviación estándar con mayor frecuencia.
n
P
Xi X
i=1
DM =
n
Para los datos del ejemplo 5, el cálculo de DM es:
n
P
Xi X
i=1 252
DM = = = 25:2
n 10
31
Comparación de la variación en diferentes poblaciones
Una medida que permite comparar la variación en diferentes poblaciones se conoce como el
coeciente de variación. Esta medida no tiene unidades.
Coeciente de variación
El coeciente de variación muestral (CV) describe la desviación estándar S
relativa a la media X y se expresa en porcentaje (%).
muestra población
S
CV = X
100% CV = 100%
Considerando los datos del ejemplo 6, el CV es:
S 31:816
CV = 100% = = 7:57%
X 420:4
3.0.9 Medidas de posición

Anteriormente se presentó la mediana de un conjunto de datos, esta es una medida que co-
rresponde exactamente al punto medio de los datos ordenados de menor a mayor, es decir que
corresponde al 50% de los datos que son menores o iguales a la mediana y el 50% de los datos
son mayores o iguales a la mediana. De esa manera la mediana divide a los datos en dos partes
iguales, en ese mismo sentido los tres cuartiles, denotados por C1 ; C2 y C3 ; dividen a los datos
en cuatro partes iguales.
Primer cuartil C1
El primer cuartil es el valor de los datos ordenados que representa al 25%, es decir:
al menos el 25% de los valores de datos ordenados son menores o igual a C1 y al
menos 75% de los valores son mayores o iguales a C1 :
Segundo cuartil C2
El segundo cuartil es el valor de los datos ordenados que corresponde a la mediana.
Tercer cuartil C3
El tercer cuartil es el valor de los datos ordenados que representa al 75%, es decir:
al menos el 75% de los valores de datos ordenados son menores o igual a C3 y al
menos 25% de los valores son mayores o iguales a C3 :
Nota. El procedimiento para la obtención de los cuartiles no es un resultado universalmente

uniforme, puesto que diferentes programas estadísticos dan distintos valores para los cuartiles.
Aquí se ha considerado el siguiente: El primer cuartil es la mediana de los datos ordenados
menores o iguales a la mediana, el segundo cuartil es la mediana y el tercer cuartil es la mediana
de los datos mayores e iguales a la mediana.
32 3. Estadísticas
Ejemplo 7
Un profesor de historia aplica un cuestionario a sus alumnos sobre temas de historia universal y
nacional, el cuestionario es 20 preguntas de opción múltiple. Los resultados de una muestra de
esos 15 alumnos son: 16, 9, 13, 15, 16, 19, 8, 11, 12, 6, 20, 17, 10, 18, 5.
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Orden 5 6 8 9 10 12 12 13 15 16 16 17 18 19 20
C1 C2 C3
Así, menos un cuarto de alumnos tiene 9 o menos aciertos. La mitad tiene 13 aciertos y 75%
tiene 17 o más aciertos.
3.0.10 Diagrama de caja

Estas medidas de localización tienen una aplicación que resulta relevante en el análisis descriptivo
de los datos. El llamado diagrama de caja recoge la información de las medidas de posición,
observa la Figura 3.2. La opción 8 de grácas en el paquete, contiene el mecanismo para elaborar
los diagramas de caja.
Figura 3.2: Diagrama de caja para los datos del rompecabezas

33
Ejemplo 8
La variable de respuesta es el tiempo en que tardan en resolver el rompecabezas de la República

Mexicana una muestra de 119 estudiantes de secundaria. Los datos aparecen en la columna
tiempo del archivo DatosEjemplo1.TAB, bloque Herramientas, en CalEst. Del reporte estadístico
generado por CalEst se consideran 5 valores, estos son los tres cuartiles, el máximo y el mínimo,
estos se muestran en la siguiente tabla:
Variable M in M ax C1 C2 C3
Tiempo 474 524 491 499 509
Con este reporte se elabora el diagrama de caja, Figura 3.2
Guía para la construcción del diagrama de caja

Paso 1. Trazar una línea horizontal que incluya los valores mínimos y máximo.
Paso 2. Dibujar un rectángulo (caja), cuyos lados queden en
los puntos C1 y C3 :
Paso 3. Dentro de la caja, trazar una línea en el punto que corresponde a la mediana.
Paso 4. Se traza una línea de cada lado de la caja cuya extensión es: 1.5 (RIC).
Es decir para la izquierda:
L1 = C1 1:5(RIC)
y para la derecha
L2 = C3 + 1:5(RIC)
Paso 5. Si hay puntos mas allá de estas líneas, éstas se marcan con un asterisco (*).
Estas observaciones corresponden a datos anómalos
Paso 6. Si no existen datos anómalos, al nal de las líneas hay unas líneas pequeñas.
A tales líneas se les conoce como "bigotes".
Ejercicios
1. El gasto (pesos) de transporte que realizan en una semana una muestra de 40 familias se
muestra a continuación:
43; 52; 63; 55; 66; 78; 79; 87; 42; 43; 44; 49; 52; 53; 53; 53; 64; 58; 76; 78
70; 78; 86; 87; 90; 81; 84; 85; 97; 79; 88; 96; 91; 92; 89; 94; 60; 85; 85; 97:
(a) Traza un polígono de frecuencia acumulado y estima los cuartiles.

(b) Calcule las medidas de tendencia central e interpreta los resultados en el contexto del
problema.
(c) Estime la varianza, la desviación estándar.
(d) Trace el diagrama de caja.
34 3. Estadísticas
2. La pérdida de calcio es un problema que se presenta principalmente en las mujeres mayores.

Un médico investiga, en una muestra de 40 mujeres, la pérdida de calcio a lo largo de un
año. A cada mujer le hace una medición inicial de calcio y luego al año siguiente una nueva
medición. Los datos de pérdida de calcio al año son:
4; 4; 5; 10; 11; 8; 2; 5; 85; 17; 2; 15; 10; 8; 7; 13; 7; 1; 16;

3; 2; 0; 1; 11; 7; 1; 9; 6; 9; 11; 7; 16; 12; 3; 3; 11; 8; 7; 11:
(a) Encuentra la media y mediana muestral.
(b) ¿Cuál de las dos medidas dan mejor indicación de la pérdida de calcio?
(c) Estime la varianza, la desviación estándar.
(d) Trace el diagrama de caja.
3. Para estimar el número de árboles de café en una granja, el agrónomo divide la granja en
1000 pequeñas parcelas. Él selecciona de manera aleatoria 20 de estas parcelas y cuenta el
número de árboles. Los resultados son: Calcula el rango y el rango intercuartil para este
conjunto de datos. ¿Qué información adicional le proporciona este nuevo cálculo, unido al
de la media, la mediana y al primer y tercer cuartil?
41 56 47 59 24 37 23 53 44 43
62 28 54 41 30 44 52 69 34 46
4. Al inicio del semestre un profesor realiza una prueba para evaluar la lectura de comprensión
a una muestra de 20 alumnos. Se calica sobre 100, y los resultados de la prueba se
describen a continuación:
24 31 54 62 36 28 37 55 18 27
58 32 37 41 55 39 56 42 29 35
Durante el semestre el profesor aplicó un método para mejorar la lectura de comprensión.

Al nalizar el semestre se utilizó una prueba similar a una muestra de 25 alumnos. Los
resultados son:
64 71 81 43 69 75 86 58 63 66 82 62 79
91 83 55 68 74 48 66 84 77 73 59 55
(a) Calcule el rango, el rango intercuartil y elabora un diagrama de dispersión, y traza la

media para el primer conjunto de datos.
35
(b) Calcule el rango, el rango intercuartil y elabora un diagrama de dispersión, y traza la

media para el segundo conjunto de datos.
(c) ¿Resultó efectivo el método del profesor para la lectura de comprensión?
5. A un grupo de estudiantes se les aplicó un examen de opción múltiple en geografía. Las

calicaciones que obtuvieron se dividieron en dos grupos: en el primero están los que
sacaron entre 6 y 8; en el otro, los que obtuvieron una calicación mayor que 8.
(a) El tiempo que emplearon los 22 estudiantes del primer grupo en contestar las preguntas
se muestra a continuación:
95; 85; 87; 82; 98; 92; 92; 97; 103; 92; 94; 94; 94; 75; 98; 90; 100; 92
91; 92; 100; 87:
Calcula la desviación media, la varianza y la desviación estándar del tiempo. Luego,

completa el resumen estadístico. Elabora el diagrama de tallo y hoja para estos datos.
(b) El tiempo que emplearon los 23 estudiantes del segundo grupo en contestar las pre-
guntas se muestra a continuación:
122; 116; 120; 121; 120; 115; 118; 115; 113; 112; 117; 115; 122; 119
119; 126; 117; 118; 120; 123; 120; 125; 112:
Calcula la desviación media, la varianza y la desviación estándar del tiempo. Luego

completa el resumen estadístico. Elabora el diagrama de tallo y hoja para estos datos.
(c) Compara los resultados de los incisos a y b. ¿Qué puedes concluir?
(d) Trace los diagramas de caja para cada caso y haga un análisis comparativo.
6. Una empresa que elabora alimentos procesados realiza pruebas para determinar la vida de
anaquel de un nuevo producto. En el estudio se consideran 21 productos. El número de
días que duraron los productos sin descomponerse se presenta en el siguiente cuadro.
152; 152; 115; 109; 137; 88; 94; 77; 160; 165; 125; 40; 128; 136; 101;
62; 153; 83; 69; 132; 120:
(a) Calcule desviación media, la varianza y la desviación estándar.
(b) Complete el resumen estadístico para este conjunto de datos.
(c) En cada caso interprete su valor.

36 3. Estadísticas
(d) Trace el diagrama de caja e interprete.
7. Los médicos de una clínica probaron dos tratamientos para reducir los niveles de colesterol.
El tratamiento 1 se aplicó a 13 pacientes. El nivel de colesterol se midió antes de la
aplicación y después de ella. Los datos que indican la reducción son:
54; 39; 44; 53; 56; 66; 34; 61; 36; 67; 32; 22; 40:
El segundo tratamiento se empleó en 11 personas y los resultados fueron:
40; 31; 50; 40; 52; 44; 74; 38; 81; 64; 66:
Con base en los datos responda lo siguiente:
(a) Calcule desviación media, la varianza y la desviación estándar para el primer tratamiento.
(b) Calcule desviación media, la varianza y la desviación estándar para el segundo tratamiento.
(c) En qué tratamiento hay mayor variación.
(d) Complete un resumen estadístico para cada tratamiento.
(e) Intuitivamente menciona cuál tratamiento es mejor. Interprete tus resultados.
(f) Diagramas de caja.

Capítulo 4
Probabilidad
En esta parte se presentarán los conceptos básicos de probabilidad para conocer sus deniciones
y las propiedades. En la parte de herramientas en el CalEst en la opción didáctica se describen
una serie de elementos para motivar el aprendizaje y comprensión de la probabilidad. En la
Figura 4.1 se describen estas alternativas.
Con la nalidad de comprender cómo funciona esta opción didáctica, a continuación se des-
cribirán, denirán e ilustrarán algunos de los conceptos básicos en probabilidad.
Objetivo:
Comprender los conceptos de espacio muestral, evento y el cálculos de probabilidad
4.1 Espacio muestral y eventos

Espacio muestral
Para entender lo que es un espacio muestral es necesario denir el concepto experimento. Un

experimento es cualquier proceso que genera una observación (por ejemplo, al nacer un bebé se
registra el sexo). Sin embargo, cabe aclarar que el concepto de experimento que mencionamos es
más amplio que el empleado en las ciencias físicas, donde se usan diferentes equipos como tubos
de ensayo, etc. Otros ejemplos de experimentos son: 1. Anotar la preferencia de un cliente por
la marca de un teléfono. 2. Registrar la opinión de una persona respecto a la píldora del día
después. 3. Medir la concentración de oxígeno en un río contaminado. 4. Lanzar un dado y
anotar el número de la cara que queda arriba.
Un experimento aleatorio es el resultado de un proceso que genera una

observación que no puede predecirse.
Se llamarán sucesos aleatorios a los resultados posibles de un experimento aleatorio.
37
38 4. Probabilidad
Figura 4.1: Elementos de probabilidad en el proceso de enseñanza y aprendizaje.
Ejemplo 1
Una experiencia aleatoria consiste en preguntar a una persona, elegida al azar de un grupo de
10 clientes, si es partidaria o no de consumir un determinado producto. Los sucesos aleatorios
en este caso son dos: es partidaria, no es partidaria.
Entre los resultados, se distingue a los sucesos elementales o simples,

pues éstos no pueden descomponerse en otros más simples, y los
compuestos son los que se componen de dos o más sucesos elementales.
Se puede considerar cada suceso elemental asociado a un experimento como un elemento

del conjunto formado por todos los sucesos elementales posibles asociados a ese experimento.
Denición
A la colección, o al conjunto de todos los resultados posibles distintos que pueden ocurrir
cuando un experimento es efectuado se le llama espacio muestral para el experimento.
Esta colección de resultados tiene la propiedad de que cuando el experimento es
efectuado, uno y solo uno de estos resultados puede ocurrir.
4.1. Espacio muestral y eventos 39
Ejemplo 2
Considere el experimento de lanzar una moneda. Existen dos resultados posibles: cara, sello.
Identicar los sucesos elementales y escribir el espacio muestral. Usar la opción de volados en
CalEst.
Solución
Los sucesos elementales son: e1 = cara; e2 = sello:
M = fe1 ; e2 g
Nota. En el tradicional juego de volados, los resultados posibles se consideraban el águila y

sol. En la mayoría de libros de estadística y probabilidad contemplan como resultados la cara y
sello. Ambas situaciones son similares, en este trabajo se consideran indistintamente estas dos
opciones.
Ejemplo 3
Las calicaciones de 50 estudiantes para la materia de literatura se dividen en 5 categorías A, B,

C, D y E. El experimento aleatorio consiste en seleccionar de manera aleatoria a un estudiante
y observar en qué categoría está su calicación. Identicar los sucesos elementales y escribir el
espacio muestral. Proponer un suceso compuesto.
Solución
Los sucesos elementales son 5 resultados posibles: e1 = A; e2 = B; e3 = C; e4 = D; e5 = E: Todos
los resultados posibles para los 50 estudiantes se representan en el conjunto:
M = fe1 ; e2 ; e3 ; e4 ; e5 g
Un suceso compuesto es fe4 ; e5 g , que consta de dos sucesos elementales. En el contexto del
ejemplo se puede referir a que los alumnos que obtengan una calicación en las categorías D y
E tienen que entregar un trabajo extra para aprobar el curso. Como analogía a este ejemplo se
pueden usar las ruletas (F), luego seleccionar una ruleta con 5 opciones. En este caso cada una
de las categorías tiene la misma probabilidad de ocurrir. En otro caso usar una de las ruletas
aleatorias (A).
En resumen:
Se dice que un experimento es aleatorio si se cumplen los siguientes puntos:
Se repite bajo condiciones idénticas.

40 4. Probabilidad
El resultado observado no se puede predecir.
El resultado que se obtiene, pertenece a un conjunto conocido previamente de resultados

posibles. A este conjunto, de resultados posibles, se denomina espacio muestral:
Ejemplo 4
Se describen varios casos de experimentos aleatorios, señalando todos sus posibles resultados.
Experimentos aleatorios M: Muestral

Conocer el estado de salud de una persona. {Sano, enfermo}
Observar el tiempo de vida de una lámpara. [0; +1]
Observar el tiempo de vida de un virus. [0; +1]
Contar el número de vehículos que pasan por una caseta
durante un intervalo de 15 minutos. {0; 1; 2:::}
Observar el número de viajeros que usarán el autobús. {0; 1; 2:::}
Contestar al azar un examen. {Verdadero, falso}
Cobrar una póliza de seguro. {Si, no}
Pesar a una persona. (0; 200)*
En un juego de azar tirar un dado de seis caras. {1; 2; 3; 4; 5; 6}
(*) Suponiendo que el peso no es mayor que 200 kg.
Ejemplo 5
En un estudio sobre el hábito de lectura de jóvenes entre los 15 y 20 años se estimó que 50% no
lee un libro (ciencia cción, divulgación, novela, literario, otros géneros atractivos) durante las
vacaciones de verano. Al regreso a clases se seleccionó de manera aleatoria a tres estudiantes y
se les preguntó si habían leído en las vacaciones. En la raya responde Sí o No a la siguiente
pregunta: ¿Leíste un libro en estas vacaciones?
Escriba una lista del espacio muestral Figura 4.2.
Escriba una lista de los siguientes eventos:
Evento A: Exactamente dos de tres leyeron.

Evento B: Sólo uno leyó.
Evento C: Los tres leyeron.
Evento D: Al menos uno de los tres leyó.
4.1. Espacio muestral y eventos 41
Figura 4.2: Descripción de los posibles resultados en el hábito por la lectura.
Solución
Una de las metas en el estudio de la probabilidad es alcanzar el dominio y la habilidad en la

elaboración de la lista de los resultados del experimento. El diagrama de árbol es un gráca que
resulta útil para alcanzar ese n.
Para comprender el ejemplo se construye un diagrama de árbol. Cada uno de los alumnos
responderá que sí leyó con una (s) y que no leyó por medio de una (n). En la Figura 4.2 se
describen las posibilidades sobre la práctica de lectura de los tres estudiantes.
A partir del diagrama de árbol, tendremos denido el espacio muestra, y éste queda
descrito por:
M = f(sss); (ssn); (sns); (snn); (nss); (nsn); (nns); (nnn)g
La segunda parte del ejemplo consiste en obtener los diferentes eventos. Éstos se obtienen
a partir del espacio muestral . De los resultados se construye cada uno de los eventos. Así:
A = f(ssn); (sns); (nss)g
B = f(snn); (nsn); (nns)g
C = f(sss)g
D = f(sss); (ssn); (sns); (snn); (nss); (nsn); (nns)g
Nota 1: En la construcción del espacio muestra de este ejemplo, se puede tener como analogía
el lanzamiento de monedas, ir a la opción de volados para generar el espacio muestra: tres
monedas en este caso. Si cambia el valor de p = 0:5 ir a la opción volados (binomial) y en el caso
de n > 20 ir a la distribución binomial.
Nota 2: Para ver otras ramicaciones ver la opción de árboles.
42 4. Probabilidad
Figura 4.3: Espacio muestral al lanzar un dado y la probabilidad.
Denición
Un evento es una colección, o el conjunto de alguno de los resultados posibles
de un espacio muestral. Dicho de otra manera, un evento es un subconjunto del
espacio muestra. Se dice que un evento ocurre si, al realizar un experimento, uno
y solo uno de los resultados que lo componen ocurre.
4.2 Probabilidad de un evento

Entre la opción didáctica está el lanzamiento del dado, al seleccionarla se genera una pantalla
como la que se muestra en la Figura 4.3. En ésta se han realizado 250 lanzamientos, la frecuencia
con la que apareció la cara del dado se muestra en el diagrama de barras. Este resultado
permitirá plantear y comprender cómo calcular la probabilidad de un evento. Por ejemplo, se
puede observar que la cara del dado con el número apareció 50 veces de los 250 lanzamientos.
Notación para las probabilidades

P denota la probabilidad
Las letras A, B y C denotan eventos especícos
P(A) indica la probabilidad de que el evento A ocurra
4.2. Probabilidad de un evento 43
Probabilidad Empírica
Se realiza un experimento, y se cuenta el número de veces que el evento A ocurre.
La probabilidad empírica del evento A es la frecuencia relativa de A, así P(A) es:
Número de veces que A ocurrió f

P (A) = =
Número de veces que se repitió la prueba N
Lanzamiento dado De la Figura 4.3, considere, por ejemplo, el evento A = fel dado muestre
el número uno}. Se observa que la probabilidad empírica de A es P (A) = 50
250
= 0:2: Si el
experimento de lanzar el dado es repetido una y otra vez, la probabilidad empírica de un evento
se aproxima a la probabilidad teórica del evento.
Lanzamiento moneda Al lanzar una moneda muchas veces, n es grande, se puede observar
una estabilización de la frecuencia relativa, eso da lugar a lo que se conoce como frecuencia
relativa, o la ley de los grandes números. A nivel de práctica puede realizar el lanzamiento de la
moneda en el bloque didáctica del CalEst. Observe que el espacio muestral es M = f
aguila; solg,
se pueden lanzar un número de monedas que va desde una hasta cien, repetir el procedimiento las
veces que se desee. En la Figura 4.4 se ilustra el lanzamiento de 200 monedas. La probabilidad
de obtener un águila P (
aguila) se aproxima a 0.5.
Probabilidad Clásica o Teórica

Se supone que un experimento tiene n diferentes eventos simples y cada uno de estos
tiene la misma posibilidad de ocurrir. Si un evento A ocurre en s de esas n, entonces:
Número de resultados de A s
P (A) = =
Número de resultados en el espacio muestral n
El espacio muestra en lanzamiento del dado es M = f1; 2; 3; 4; 5; 6g el evento A de que la cara
del dado caiga en el número 1: A = f1g; se sigue que P (A) = 1
6
= 0:1666:
En resumen:
La probabilidad satisface las siguientes propiedades:
La probabilidad de un evento imposible es 0.
La probabilidad de un evento que tiene una certeza de ocurrir es 1.
Para cualquier evento A, la probabilidad de A está entre 0 y 1 inclusive, esto es: 0

P (A) 1:
44 4. Probabilidad
Figura 4.4: Descripción de los resultados del lanzamiento de la moneda.
4.2.1 Eventos compuestos

Un evento compuesto es aquel que se puede expresar como una combinación de otros even-
tos. A continuación se presentan algunos resultados para encontrar la probabilidad de eventos
compuestos.
Regla aditiva
La regla de la adición como un procedimiento para encontrar la probabilidad que se expresa

como P(A o B), la probabilidad que ocurra el evento A o el evento B, o que ocurran ambos,
como el resultado de una sola prueba de un experimento.
Nota. Cuando se calcula la probabilidad de que el evento A ocurre o que el evento B ocurre,
consiste en calcular el total de formas que ocurre A y el de formas que ocurre B, pero de tal
manera que los resultados no se cuenten más de una vez. Regla de la adición:
Regla aditiva
Consideremos dos eventos A y B. Entonces
P (A [ B) = P (A) + P (B) P (A \ B)
donde P (A \ B) denota la probabilidad que A y B ocurren a la vez como un resultado
en la prueba experimental
Ejemplo 6
En el lanzamiento de un dado de seis caras considere los siguientes eventos:

A: el dado marque un número impar= {1,3,5}
B: el dado marque un número mayor que 4 = {5,6}
C: el dado marque un número primo = {2,3,5}
Nota. Vea la opción lanzamiento de un dado, Figura 4.3.
¿Cuál es la probabilidad de A [ B; A [ C y B [ C? aplicando la regla aditiva:
3 2 1 4
P (A [ B) = P (A) + P (B) P (A \ B) = + = :
6 6 6 6
Estime los otros dos casos.
Denición:
Dos eventos A y B son ajenos o mutuamente excluyentes
si entre ellos no hay un resultado común y
P (A \ B) = 0
Regla del complemento
El complemento del evento A se denota por Ac , consiste de todos los resultados en los que el
evento A no ocurre. Así P (A) + P (Ac ) es la suma de las probabilidades, los sucesos elementales
que están en A más la suma de las probabilidades de los sucesos elementales que no est
an en
A. Juntando estos dos eventos se forma el espacio muestral M y P (M ) = 1. En consecuencia,
P (A) + P (Ac ) = 1 .
Regla del complemento

Consideremos a A un evento con probabilidad P (A): Entonces, P (Ac ) = 1 P (A):
Los diagramas de Venn son un auxiliar gráco para representar un evento. En la Figura 4.5 se
utilizan los diagramas de Venn para representar la relación de eventos.
En el bloque didáctica en CalEst está la opción de lanzar dos dados, en la Figura 4.6
aparece la descripción del espacio muestral, la estimación de probabilidad empírica, el cálculo
de probabilidad clásica para los eventos simples y el casino donde se puede generar varios cál-
culos de probabilidades aplicando las reglas. Por ejemplo, ¿cuál es la probabilidad de que al
lanzar dos dados ambos sean iguales o que la suma sea 7? El evento A ambos dados mar-
que el mismo número, A = f(1; 1); (2; 2); (3; 3); (4; 4); (5; 5); (6; 6)g -observe el espacio muestra
46 4. Probabilidad
Figura 4.5: Representación gráca de las relaciones básicas entre dos eventos.
Figura 4.6. El evento B los datos suman 7: B = f(1; 6); (2; 5); (3; 4); (4; 3); (5; 2); (6; 1): Así
P (A [ B) = P (A) + P (B) = 6
36
+ 6
36
= 13 : Los eventos A y B son mutuamente excluyentes.
Se formula la regla para la suma de eventos excluyentes:
Regla aditiva para eventos mutuamente excluyentes

Si los eventos A y B son mutuamente excluyentes, entonces
P (A [ B) = P (A) + P (B)
4.2.2 Independencia y probabilidad condicional

Ahora considere el caso en que dos eventos pueden ocurrir de manera simultánea, y si uno sucede
pero que no afecta la probabilidad de ocurrencia del otro. Es decir, la probabilidad de que ocurra
el evento A no afecta la probabilidad de que suceda B. En este caso, se dice que los eventos A
y B son independientes.
Por ejemplo, si se lanzan dos monedas, el hecho de que la primera caiga cara no afecta
a lo que sucede al lanzar la segunda moneda. Sus resultados son independientes.
La probabilidad de A como la de B es 1
2
de que caiga cara. En ese sentido la probabilidad
de B permanece como 1
2
sin importar lo que pase al lanzar la otra moneda. El espacio muestral
M = fcc; cs; sc; ssg y 1
4
es la probabilidad de que ambas monedas caigan cara A \ B: fccg. Si se
multiplica la probabilidad A por la de B, es decir P (A)P (B), se tiene que es 1
4
. En resumen:
Eventos independientes
La probabilidad de que ocurra el evento A no afecta la probabilidad de que
suceda B. En este caso, se dice que los eventos A y B son independientes:
Si los eventos A y B son independientes, entonces P (A \ B) = P (A)P (B):
Nótese que
Figura 4.6: Descripción de elementos de probabilídad al lanzar dos dados.
Diferencia entre eventos mutuamente excluyentes e independientes

Si los eventos A y B son mutuamente excluyentes, entonces P (A \ B) = 0:
Si los eventos A y B son independientes, entonces P (A \ B) = P (A)P (B):
4.2.3 Probabilidad condicional

Si los eventos A y B se relacionan, la información que nos proporciona A cuando B ha ocurrido
es importante para mejorar la evaluación de la probabilidad de A. La probabilidad corregida de
A, esto es, cuando se sabe que B ha ocurrido, se llama probabilidad condicional de A dado B y
se denota por P (AjB).
La probabilidad condicional de un evento A dado que un evento B ha ocurrido se establece

dividiendo la probabilidad de que A y B ocurren entre la probabilidad de que B ocurrió,
esto es, se debe vericar que es, P (B) es diferente de cero.
P (A \ B) P (B \ A)
P (AjB) = ; o P (BjA) = :
P (B) P (A)
48 4. Probabilidad
Figura 4.7: Espacio muestra y cálculo de probabilidades para una moneda y un dado
Si los eventos son independientes se tiene:
P (AjB) = P (A), o si P (BjA) = P (B):
Una moneda (cara, sello) y un dado de seis caras son lanzados, Figura 4.7. Encontrar la
probabilidad de obtener una cara al lanzar la moneda y que el dado caiga en seis. El espacio
muestra es:
M = fc1; c2; c3; c4; c5; c6; s1; s2; s3; s4; s5; s6)
Los eventos son A: salga cara y B : caiga un 6. La probabilidad de A es P (A) = 1

2
; y
P (B) = 16 : Los eventos son independientes, entonces
1 1 1
P (A y B) = P (A)P (B) = = ' 0:083
2 6 12
Así la probabilidad de que al lanzar la moneda salga cara y al tirar el dado marque 6 es aproxi-
madamente 0.083.
Cálculo de probabilidades lanzando dado con diferentes número caras
En la Figura 4.8 se muestra una opción para el cálculo de probabilidades, en esta se tienen tres
dados. Con el signo más se considera los dados que se lanzan, así por ejemplo en esa gura se
describe el lanzamiento de dos dados, uno de cuatro lados y otro de 12, existen 48 posibilidades
Figura 4.8: Lanzamiento de tres tipos de dados
diferentes al lanzar estos dos dados, como se ve en la Tabla 4.1.
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12 13
2 3 4 5 6 7 8 9 10 11 12 13 14
3 4 5 6 7 8 9 10 11 12 13 14 15
4 5 6 7 8 9 10 11 12 13 14 15 16
Tabla 4.1 Suma al lanzar los dados de 4 y 12 caras.
En la hoja se presenta el espacio muestra que indica la suma de los números que marcan los
dados. En este caso se puede preguntar por la probabilidad de que la suma de los dados sea un
número primo, es decir P (la suma sea un número primo) = 19
48
:
Usando estos dados se pueden organizar varias prácticas para el cálculo de probabilidades.
Nota. Apretando el signo más con el botón del ratón, se activa un dado, con el signo menos
se quita el dado.
Ejemplo 7.
Se lanza de manera independiente dos dados, el primero de 4 caras y el segundo de doce caras,
en ambos casos se observa el número que cayó.
50 4. Probabilidad
¿Cuál es la probabilidad de que el primer dado muestre un número par? P (n

umero
2 1
par) = 4
= 2
¿Cuál es la probabilidad de que el segundo muestre un número impar? P (n

umero par) =
6 1
12
= 2
¿Cuál es la probabilidad de que la suma sea impar? P (n

umero impar) = 24
48
= 12 :
Ejercicio 1
a.- Se lanza un dado de seis caras. encuentre la probabilidad en cada uno de los siguientes
eventos
b.- Evento A: Caiga un 3,
c.- Evento B: Caiga un número menor que 5
d.- Evento C: Caiga un número impar.
e.- Evento D: Caiga un número primo.
f.- Use el simulador de lanzamientos de dados en CalEst, sólo se pueden lanzar de 100 en 100.
Si se lanza un dado, cien veces, mil veces, cinco mil veces escriba las frecuencias registradas
y complete la tabla, ¿qué puede concluir?
X 1 2 3 4 5 6
F recuencia(100)
F recuencia(1000)
F recuencia(5000)
Ejercicio 2
Considere el experimento de lanzar un par de dados, suponga que X es la suma de los valores que
marcan al caer. En la siguiente tabla se resumen los resultados y las probabilidades relacionadas.
X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
P (X = x) 36 36 36 36 36 36 36 36 36 36 36
a.- Use la opción de grácas en el programa y trace el diagrama de barras para estos valores.
Estime las probabilidades P (X 11) y P (X 2):
b.- Considere los eventos E obtener una suma que sea un número par y F obtener una suma que
sea un número primo. Hallar la probabilidad P (E [ F ) y P (E [ F ):
c.- Use el simulador de lanzamientos de dados en CalEst, sólo se pueden lanzar de 100 en 100.
Si se lanza el par de dado, cien veces, mil veces, cinco mil veces escriba las frecuencias
registradas y complete la tabla, ¿qué puede concluir?
X 2 3 4 5 6 7 8 9 10 11 12
F recuencia(100)
F recuencia(1000)
F recuencia(5000)
Ejercicio 3
El juego craps consiste en lanzar dos dados, referencia ejercicio anterior, este considera las reglas
que a continuación se describen.
a.- Si se obtiene una suma de 7 u 11 en la primera tirada, gana. ¿Cuál es la probabilidad de

ganar en la primera tirada?
b.- Si se obtiene una suma de 2, 3 o 12 en la primera tirada se pierde el juego. ¿Cuál es la

probabilidad de perder en la primera tirada?
c.- Si se obtiene una suma de 4, 5, 6, 7, 8, 9, o 10 en la primera tirada ni se pierde ni se gana el

juego. ¿Cuál es la probabilidad de que no se pierde ni se gana en la primera tirada?
d.- ¿Cuál es la probabilidad de obtener una suma de 1 en cualquier tirada?
e.- ¿Cuál es la probabilidad de obtener una suma menor que 13 en cualquier tirada?
f.- Si los dados se tiran 60 veces, estime cuántas veces se obtendrá una suma de 7?
Ejercicio 4.
Se lanzan dos dados y se calcula la diferencia entre los valores de mayor a menor situación que
se describe en la siguiente tabla:
X 0 1 2 3 4 5
6 10 8 6 4 2
P (X = x) 36 36 36 36 36 36
a.- Use la opción de grácas en el programa y trace el diagrama de barras para estos valores.
Estime las probabilidades P (X 5) y P (X 1):
b.- Pedro y Pablo juegan a los dados y calculan la diferencia tal como se ha descrito. Pedro gana
si la diferencia es 0, 1, o 2. Pablo gana si la diferencia es 3, 4 o 5. ¿Cuál es la probabilidad
de que Pedro gane? ¿Cuál es la probabilidad de que Pablo gane?
52 4. Probabilidad
Ejercicio 5.
Se lanza de manera independiente dos dados, el primero de 4 caras y el segundo de 6 caras, en

ambos casos se observa el número que cayó. Complete la siguiente tabla tal que en el segundo
renglón se calcule la probabilidad de la suma de los valores que muestra cada dado.
X 2 3 4 5 6 7 8 9 10
P (X = x)
¿Cuál es la probabilidad de que el primer dado muestre un número par? P (n

umero par) =
¿Cuál es la probabilidad de que el segundo muestre un número impar? P (n

umero impar) =
¿Cuál es la probabilidad de que la suma esté entre 4 y 8?
Ejercicio 6.
Se lanza de manera independiente dos dados, el primero de 6 caras y el segundo de 12 caras, en

ambos casos se observa el número que cayó. Complete la siguiente tabla tal que en el segundo
renglón se calcule la probabilidad de la suma de los valores que muestra cada dado.
X 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
P (X = x)
Sea E el evento que el primer dado sea mayor que 3, calcule P (E).
Sea F el evento que el segundo dado sea múltiplo de 3, calcule P (F ).
¿Cuál es la probabilidad de que la suma esté entre 4 y 12?
¿Cuál es la probabilidad de que la suma sea menor a 4 o mayor a 16?
Cálculo de probabilidad con ruletas
A continuación se presenta la posibilidad de el cálculo de probabilidades usando ruletas. En la

Figura 4.9 se muestra la oportunidad de dividir dos ruletas con diferentes opciones esto permite
crear varias prácticas para obtener probabilidades con colores, números y letras. En la Figura
4.10 se crean situaciones similares, pero además la división de los círculos se puede generar de
manera aleatoria. En este caso se genera la frecuencia al girar las ruletas lo que permite estudiar
la regularidad estadística y así estimar probabilidades en términos de la frecuencia.
Figura 4.9: El caso de dos ruletas con cuatro colores, también se puede considerar el caso de la
combinación de números y letras.
Ejemplo 8
¿Cuál es la probabilidad de que ambas ruletas tengan el mismo color? Se tienen que se
repiten 4 colores de 16 resultados posibles entonces P (E : mismo color) = 4
16
= 0:25
¿Cuál es la probabilidad de que al menos una de las ruletas sea azul? En el espacio muestra
se cuenta en el número renglones que tienen al menos un azul, de estos hay 7, así P (F : al
menos una es azul) = 7
16
= 0:4375
Considere los números y las letras en la primer y segunda ruleta respectivamente, ahora
se denen los evento E como los números: E = f1; 2; 3; 4g; y el F como las letras: F =
fA; B; C; Dg. ¿Cuál es la probabilidad de que al girar ambas ruletas la echa marque un
número par y una consonante? R: rojo y A: amarillo corresponden a los números pares
y R: rojo, V: verde y A: amarillo se asocian a las consonantes, de esa manera se tiene
H = f(R; V ); (A; A); (R; A); (A; R); (R; R); (A; V )g de manera equivalente el evento H se
escribe por H = f(2; C); (4; D); (2; D); (4; B); (2; B); (4; C)g. Entonces la probabilidad es
0.375, o sea P (H) = 0:375
54 4. Probabilidad
Ejercicio 7
Use la opción de ruletas, considere sólo una de ellas y divídela en nueve partes iguales. Tome
en cuenta los números en cada color y sean los eventos E: obtener un número par y G: obtener
un número divisible entre 3, es decir: E = f2; 4; 6; 8g; G = f3; 6; 9g: Calcule las siguientes
probabilidades: a.- P (E [ G); b.- P (E); c.- P (E \ G); d.- P (Factor de 35); e.- P (6 o 2):
Ejercicio 8
Utilizar las ruletas de la opción 1, con cuatro grupos cada una de ellas. Supóngase que se asignan
los valores 3 al azul, 4 al rojo, 5 al verde, 6 al amarillo. Se plantea construir una fracción, para
ello realice el siguiente experimento, el valor que marque la echa en la ruleta superior póngalo
en numerador y el valor que marque la otra ruleta póngalo en el denominador. ¿Cuál es la
probabilidad de que la fracción sea mayor que 32 ?
Ejercicio 9
Con las ruletas: Un experimento consiste en girar la ruleta superior dividida en cuatro considere
los números 1, 2, 3 y 4, después gire la ruleta de abajo donde el azul o letra A vale 1 y el rojo o
letra B vale 2. ¿Cuál es la probabilidad de que a.- el número en la ruleta superior sea mayor que
en la ruleta inferior, b.- en ambas ruletas sea un número par, c.- el resultado sean dos enteros
consecutivos en cualquier orden?
Ejercicio 10
En referencia a las dos ruletas se divide cada una de ellas en 3 grupos, a los colores se les asignan
valores como se indica a continuación: en la ruleta de arriba los colores azul, verde y rojo valen
4, 8 y 6 respectivamente, de manera equivalente en la ruleta de abajo los colores azul, verde y
rojo valen 10, 3 y 5. Se plantea realizar un juego, este consiste en que la ruleta que tenga el
número mayor gana, si se desea ganar ¿Qué ruleta escogería? ¿Por qué?
Ruleta 2
Ejercicio 11
Relacionada con la Figura 4.10 a.- ¿Cuál es la probabilidad que al girar ambas ruletas la echa
marque el color negro en la primera y color verde en la segunda? b.-¿Cuál es la probabilidad de
que la primer ruleta no se detenga en el negro? c.- ¿Cuál es la probabilidad de que en la segunda
ruleta no pare en el verde? d.- ¿Cuál es la probabilidad de que ambas ruletas la echa marque
Figura 4.10: Ruletas con varias opciones para el cálculo de probabilidades.
azul? e.- ¿Cuál es la probabilidad de que en la primera ruleta se pare en amarillo o la segunda
se detenga en verde?
Ejercicio 12
Use esta segunda opción de ruletas en el programa, seleccione en la primera ruleta 2 grupos y en
la segunda 3 grupos en ambos casos idénticos.
1. Halle el espacio muestra para este experimento.
2. Calcule las siguientes probabilidades de que a.- La primera sea roja y la segunda amarilla.
b.- La segunda no sea amarilla. c.- La primera sea azul y la segunda no sea amarilla. d.-
Ambas rojas.
3. 2.- Luego en el número de tiradas vaya haciendo de cien en cien hasta completar quinientos,
en cada caso observe la tabla de frecuencias utilice la última para estimar las probabilidades.
Estime la probabilidad, frecuencia de que a.- La primera sea roja y la segunda amarilla.
b.- La segunda no sea amarilla. c.- La primera sea azul y la segunda no sea amarilla. d.-
Ambas rojas.
4. Compare sus resultados 2 y 3.

56 4. Probabilidad
Ejercicio 13
Con la segunda opción de ruletas, dibuje las siguientes ruletas la superior con tres grupos el azul
con 59 ; el rojo con 2
9
y el verde con 29 : La segunda ruleta con dos grupos el azul con 6
11
y el rojo
con 5
11
:
1. ¿Cuál es la probabilidad de que al girar ambas ruletas la echa se detenga en azul?
2. ¿En cuál de ellas tiene mayor posibilidad de que la echa marque azul?
3. Gire varias veces la ruleta, digamos unas 600 veces y vea la tabla de frecuencia, ¿qué ruleta
tiene mayor posibilidad de ganar con el azul?
Ejercicio 14
Utilizando la segunda opción de las ruletas simule la situación de lanzar dos dados, es decir,
divida las ruletas en 6 partes iguales cada una. Luego gire varias veces de cien en cien y vea
las frecuencias generadas compare estos resultados con el lanzamiento de los datos. En este
caso se pueden buscar varias situaciones para generar cálculo de probabilidades, por ejemplo la
probabilidad de que una de las ruletas sea roja y la otra azul, o una azul y la otra roja, equivale
a la probabilidad de que la suma de los dados sea tres.
Probabilidades usando ramicaciones

Se presenta una serie de ramicaciones para el cálculo de probabilidades, en cada caso se aplica
la estimación de probabilidades aplicando las deniciones tanto clásica como frecuentista, Figura
4.11. En esta gura se muestra una entrada con tres salidas, en la primera división la canica
tiene una probabilidad de continuar de 12 , este valor prevalece si va por la rama de la derecha,
por la izquierda se encuentra con otra ramicación; de nuevo la probabilidad es 12 ; entonces la
probabilidad de salida por algunas de esas ramas 1 o 2, es 1
2
1
2
= 14 : En la ilustración de la
Figura 4.11 se lanzaron 300 canicas, 79 salieron por la rama 1, 77 por la rama 2 y 144 por la rama
3, así 79
300
73
= 0:2633(26:33%); 300 = 0:2567(25:67%) y 144
300
= 0:48(48%): Estos resultados tienden
al valor de la probabilidad cuando n es cada vez más grande.
Ejercicio 15
1. Simule salidas por las 5 árboles diferentes y estime el porcentaje de salidas al lanzar la
canica, 300, 1000, 2500, 5000 veces. ¿Qué observa?
2. Calcule la probabilidad de salida en cada unos de los árboles.

Figura 4.11: Opciones de cálculo usando árboles o ramas
Probabilidades mediante extracción de canicas
El cálculo de probabilidades mediante la extracción de canicas, o bolas, es un problema clásico,

bajo este sistema se generan una buena cantidad de ejemplos para ilustrar las reglas de probabi-
lidad y situaciones diferentes. Se ha simulado un mecanismo mediante el cual se pueden extraer
canicas con cuatro colores distintos, se consideran los casos de reemplazo y sin reemplazo. Un
número de canicas se pueden seleccionar en cuatro selecciones posibles, se puede ir de lo más
sencillo a lo más complejo. Una vez planteado un problema, se realiza la extracción de un número
establecido de canicas con reemplazo o sin reemplazo; de esa manera el usuario puede indicar
de qué color serán las canicas que extraerá. Según el planteamiento, el usuario puede dar su
resultado y luego conrmarlo con la solución que se proporciona en el programa de opciones
didácticas: bolsa de canicas. Antes de dar el resultado se puede consultar el espacio muestra
que se proporciona, de manera compacta, como una alternativa. En los siguientes ejemplo se
describen algunos casos posibles para usar las bolsas de canicas. Con canicas de dos colores se
puede simular el espacio muestra para los casos en que la variable aleatoria de respuesta tiene
dos valores: éxito y fracaso, defecto y no defecto. Así por ejemplo al lanzar dos monedas tres
veces, se pueden tener tres canicas amarillas y tres rojas, con el amarillo representar la cara en
la moneda y el rojo el sello. El número de extracción son tres canicas y calcular la probabilidad
de que caigan al menos una cara es equivalente a observar al menos una canica amarilla. Estas
ideas se pueden llevar al plano de problemas reales.
58 4. Probabilidad
Figura 4.12: Bolsa de canicas y cálculo de probabilidades izquierda, número de posibilidades

derecha.
Ejemplo 9
Javier invitó a tres amigos a jugar Wii, cada uno de ellos llevaba una gorra al entrar se la quitaron
y la pusieron en una silla. Cuando terminaron de jugar, Javier les dió una gorra, al azar, a cada
uno de sus amigos. ¿Cuál es la probabilidad de que los tres recibieron su gorra? Para resolver
este ejemplo se usará la bolsa de canicas que viene en el grupo Didáctica del programa. Ahí
escogemos tres como se muestra en la Figura 4.12 a la izquierda para representar cada una de
las gorras.
Sugerencia para usar esta opción, aparecen el número de canicas a extraer sin reemplazo o con
reemplazo. Por ejemplo, si selecciona extraer 3 canicas, aparecerán tres signos de interrogación,
este le permite seleccionar una de las posibles alternativas. Aparece la elección para que usted dé
su respuesta o para ver la probabilidad que se describe en el cuadro del resultado. La opción de
espacio muestra, en este caso, indica todas las posibilidades de seleccionar el número de canicas
que se pueden sacar. Para el ejemplo de las 3 canicas éste se describe a la derecha de la Figura
4.12, la extracción se hizo sin remplazo. Primero usted puede dar su respuesta de probabilidad
y luego compararla al aplicar la opción ver probabilidades, estas se presentan en el cuadro de
resultados.
La probabilidad de que los tres amigos recibieron su gorra es 1
6
= 0:167: Razonamiento:
suponga que A: canica azul (gorra amigo 1), R: canica roja (gorra amigo 2) y V: canica verde
(gorra amigo 3). En la primera extracción cada una de las tres canicas tienen la misma posibilidad
de salir, una vez seleccionada una de estas en la segunda sólo hay dos canicas, nalmente en la
Figura 4.13: ARV todos reciben su gorra ( 16 ), al menos uno tiene su gorra ( 36 ), o nadie tiene la
gorra que traía ( 26 ).
tercera sólo una se puede escoger, situación que se describe en la Figura 4.13
Ejercicio 16
Se tiene una bolsa con tres canicas de color A: azul. R: rojo, V: verde, considere un experimento
en dos etapas como sigue: se extrae una canica de la bolsa y se registra el color. Después se
repone la canica en la bolsa, se hace una segunda extracción y se registra su color. Haga un
diagrama de árbol para representar esta situación, verique sus resultados con los presentados
en el espacio muestra descrito en CalEst.
Determinar la probabilidad de que a.- ambas canicas sean rojas, b.- ninguna canica sea roja,
c.- al menos una canica sea roja, d.- a lo sumo una canica sea roja, e.- ambas canicas sean del
mismo color.
Ejercicio 17
Una bolsa contiene 5 canicas amarillas, 10 canicas rojas. Se extraen dos canicas al azar, una
después de otra sin reemplazo. ¿Cuáles son los posibles resultados de este experimento? ¿Cuál
es la probabilidad de que se extraigan dos canicas amarillas? Puesto que las canicas se extraen
al azar, todas las canicas de la bolsa tienen la misma probabilidad de que salgan en cualquier
extracción. Hay 15 canicas P (1er: canica amarilla) = 5
15
; P (2da: canica amarillaj 1era: canica
amarilla) = 4
14
60 4. Probabilidad
Solución
Usando la opción canicas en el programa, se tiene:
f(A; A); (A; R); (R; A); (R; R)g
P (A; A) = P (1er: canica amarilla) P (2da: canica amarilla j 1er:canica amarilla) =

5 4 1 2 2
= =
15 14 3 7 21
¿Cuáles son las probabilidades P (A; R); P (R; A); P (R; A) y P (R; R)?
¿Cuáles son las probabilidades P (A; A); P (A; R); P (R; A) y P (R; R)?
Si la extracción es con remplazo.
¿Cuáles son las probabilidades P (A; R); P (R; A); P (R; A) y P (R; R)?
¿Cuáles son las probabilidades P (A; A); P (A; R); P (R; A) y P (R; R)?
Ejercicio 18
Suponga que tiene dos bolsas, la primera contiene 3 canicas azules, 2 canicas rojas y 1 canica
verde. La segunda bolsa contiene 4 canicas rojas, 2 canicas verdes y ninguna azul. Además se
tiene un dado de seis caras.
Haga el siguiente experimento, lance el dado, si este cae 1 o 6 saque una canica de la bolsa
1. En caso contrario saque una canica de la bolsa 2.
Complete las probabilidades en la siguiente Tabla:
Color canica
Azul Roja Verde Suma
Bolsa 1 ? ? 1
18
1
3
Bolsa 2 0 4
9
? ?
Suma 1
6
? ? 1
¿Cuál es la probabilidad de que venga de la bolsa 1, si la canica es roja, es decir: P (bolsa

1j R)?
Encuentre las siguientes probabilidades condicionales a: P (bolsa 2 j R); b: P (bolsa 1j A);
c. P (bolsa 2 jAzul), d: P (bolsa 2 j V ):
Ejercicio 19
Una bolsa contiene 3 canicas rojas, 4 canicas azules y 5 canicas verdes.
1. (a) ¿Cuál es la probabilidad de sacar al azar una canica roja?

4.3. Principios básicos de conteo 61
(b) ¿Cuál es la probabilidad de sacar al azar una canica que no sea roja?
(c) ¿Cuál es la probabilidad de que la canica sacada al azar sea azul o verde?
Ejercicio 20
1. Considere el problema de extraer dos canicas al azar, sin reemplazo, de una bolsa que
contiene dos canicas rojas y tres amarillas. Liste el espacio muestra y los resultados de los
siguientes tres eventos: A = fAmbas canicas son rojasg, B = fla primer canica es roja y la
segunda canica es amarillag y C = funa de la canicas es rojag: Encuentre las probabilidad
de cada uno de los eventos A; B y C:
2. Suponga, una bolsa contiene 3 canicas rojas y 2 verdes. Se toman 3 canicas sacando una
a una sin reemplazo. ¿Cuál es la probabilidad de que las 3 sean rojas? Idea: Dena los
eventos A1 : la primer canica es roja. A2 : la segunda canica es roja y A3 : la tercer canica
es roja. Entonces calcule: P (A1 \ A2 \ A3 ):
Ejercicio 21
De una urna que contiene 6 pelotas blancas y 5 negras, se toman dos pelotas de forma aleatoria.
¿Cuál es la probabilidad de que una de las pelotas tomadas sea blanca y la otra negra?
65
110
+ 56
110
= 0:2727 + 0:2727 = 0:5454 o 65
11:10
= 30+30
110
= 6
11
Solución
Hay 11 pelotas, si se saca una quedan 10; así el número de posibilidades diferentes de extraer
una, dos bolas es 11 10 = 110
Se puede generar una serie de problemas previos para que los estudiantes puedan deducir
estos resultados.
4.3 Principios básicos de conteo

Existen varias técnicas para contar el número de las diferentes maneras en las que un evento
puede ocurrir. Una de ellas es el principio básico de conteo. Se puede usar este principio para
encontrar el número de las diferentes maneras que dos o más eventos pueden ocurrir. En el grupo
de herramientas en CalEst se presenta la opción para realizar los cálculos de estos principios,
como se muestra en la Figura 4.14
62 4. Probabilidad
Figura 4.14: Opciones para usar los principios básicos de conteo.
Principio básico de conteo:

Si se van a realizar 2 experimentos, tales que el primero puede tener cualquiera de
n1 resultados posibles, y si para cada uno de estos n1 resultados posibles hay para el
segundo experimento n2 resultados posibles, entonces hay un total n1 n2 resultados
posibles en los 2 experimentos. Esta regla se puede extender para m experimentos,
así hay un total de n1 n2 ::: nm resultados posibles.
Ejemplo 10.
1. Un restaurante de comida rápida, vende helados de tres marcas comerciales diferentes

(mc1 ; mc2 ; mc3 ) en dos tamaños de cono (pequeño y grande) y cuatro sabores diferentes
(chocolate, vainilla, fresa y limón) ¿De cuántas maneras diferentes se puede comprar un
helado?
n1 n2 n3 = 3 2 4 = 24
2. Las placas para que un automóvil pueda circular en un estado, está compuesta por tres
letras y cuatro números, estas están ordenadas de la siguiente forma, la primera letra es ja,
la segunda posición se tienen seis letras y veintidós en la tercer letra, si el primer número
no puede ir el cero ¿Cuántas placas se tienen?
1 6 22 9 10 10 10 = 1188000
Nota: Esta es la presentación que aparece en CalEst para aplicar las técnicas de conteo.
Cuando se llenan las casillas calcula todas las técnicas, se selecciona sólo la que se tiene in-
terés.
la Figura 4.14 se describe el cálculo, usando principio básico de conteo (principio de multi-
plicación). En la Figura 4.15 se ilustra el caso de las placas, a la vez aparece el cálculo del
factorial en este caso el de 7!
3. ¿De cuántas maneras distintas se pueden ordenar las letras A,B,C? se puede aplicar el
principio básico de conteo para determinar el número de las diferentes maneras en las que
n objetos se pueden acomodar en orden. Así:
ABC; ACB; BAC; BCA; CAB y CBA
En este caso se dice que hay 6 posibles permutaciones para un conjunto de 3 objetos,
aplicando el principio básico: El primer objeto de la permutación puede ser cualquiera de
los 3, después el segundo objeto puede ser cualquiera de los 2 restantes y el tercer objeto
es el que falta. De esa manera existen 3 2 1 = permutaciones posibles. En general para
n objetos se tiene:
n (n 1) (n 2) ::: 2 1
Esta opción se conoce como n factorial y se denota por n!:
Permutación
Una importante aplicación del principio de conteo es la determinación del número de maneras
diferentes en que m objetos se pueden arreglar en orden o en permutaciones.
Una permutación es un arreglo ordenado de objetos.

El número de diferentes permutaciones de n objetos distintos es n!
Si se desea escoger algunos de los objetos en un grupo y ordenarlos, a ese ordenamiento se

llama una permutación de n objetos tomados k veces.
Permutación de n objetos tomando k a la vez.

El número de permutaciones de n objetos distintos tomando n a la vez es:
n!
n Pk = (n k)! ;donde k n
64 4. Probabilidad
Figura 4.15: Principio de multiplicación para el ejemplo del número de placas
Ejemplo 11
1. Encontrar el número de maneras diferentes de formar un código de tres dígitos, en el que

ningún dígito se repite.
Solución
Para formar un código de tres dígitos sin que ninguno de ellos se repita, se necesita seleccionar
3 dígitos de un grupo de 10, así r = 10 y k = 3:
10! 10!
n Pr =10 P3 = = = 720
(10 3)! 7!
2. De los 20 coches que compiten en una carrera de Fórmula 1. ¿De cuántas maneras distintas
pueden los carros nalizar primero, segundo y tercero?
Solución
En este caso n = 20 y r = 3; ilustrado en la parte superior de la Figura 4.16.
20!
20 P3 = = 6840
(20 3)!
Figura 4.16: Cálculos para la permutación y combinación
Combinaciones.
A continuación se presenta otra técnica en el conteo, la característica de ésta, es que no considera
el orden de selección.
Combinación de n objetos tomando k a la vez.

Una combinación es una selección de k objetos de un grupo de
n objetos sin considerar el orden y se denota por n Cr : El número
de combinaciones de k objetos
seleccionados de un grupo de n
n
n Cr = (n k)!k! o n Cr = r
n!
Ejemplo 12
1. Se desean comprar 3 CDs de una selección de 5 CDs. Para jar ideas denote los CDs, por
A, B, C, D, y E.
Solución.
ABC, ABD, ABE
ACD, ACE
ADE
66 4. Probabilidad
BCD, BCE
BDE
CDE
Observe que es lo mismo seleccionar ABC que BAC, así en los demás casos. El cálculo se
muestra en la parte de la Figura 4.16.
5!
5 C3 = = 10
(5 3)!3!
Principio Descripción Fórmula

Principio básico Si un evento puede ocurrir de n1 maneras distintas n1 n2
de conteo y un segundo evento ocurre de n2 maneras distintas,
el número de resultados posibles es n1 n2
Permutaciones En número de arreglos ordenados de n objetos n!

distintos.
El número de permutaciones de n objetos distintos n Pk = n!
(n k)!
tomados k a la vez, donde k n
Combinaciones El número de combinaciones de k objetos selecciona- n Ck = n!

(n k)!k!
dos de un grupo de n objetos sin considerar el orden
Aplicaciones del principio de Conteos
Ejemplo 13
1. Encontrar la probabilidad de que sea n seleccionado 5 diamantes en un juego de cartas en

una partida de póker. El espacio muestra es 52 C5 y el evento es 13 C5 entonces la probabilidad
de un diamante es:
13 C5 1285
P (diamante) = =
52 C5 2 598 960
Ejemplo 14
Un subdirector de una escuela ha recibido una lista de 12 alumnos distinguidos por su buen rendi-
miento escolar, tiene que seleccionar 4 estudiantes para formar un comité de representación. La
lista está compuesta por 5 mujeres y 7 hombres.
1. ¿De cuántas maneras se pueden seleccionar 4 estudiantes de la lista de 12?

2. ¿Cuántos posibles selecciones se incluyen 1 hombre y 3 mujeres?
3. Si el proceso de selección es aleatoria. ¿Cuál es la probabilidad de que 1 hombre y 3 mujeres

sean seleccionados?
Solución
1. El número de maneras en los que 4 estudiantes se pueden seleccionar de 12 es:

12 12!
= = 495
4 4!8!
7
5

2. Un hombre se puede escoger en 1
= 7 maneras y 3 mujeres se pueden escoger en 3
= 10:
Cada uno de los 7 hombres puede acompañar a cada una de las 10 seleccionadas de 3
mujeres. Razonando por la regla de conteo m n; se concluye que el número posible de
muestras es:

7 5
= 7 10 = 70
1 3
3. Suponga que las 495 posibles son igualmente probables. De estos 70 son casos favorables
para el evento A = f1 estudiante es hombre y 3 son mujeresg; así:
5

70 2 10
P (A) = = 5 = = 0:3125
495 2 32
68 4. Probabilidad
Capítulo 5
Distribuciones de probabilidad discretas
Galería de distribuciones
En general, resulta poco práctico estudiar un proceso o investigar sobre un tema especíco
en toda una población sobre todo cuando los componentes de ésta son muy numerosos. Por
ejemplo, supongamos que se desea saber en una ciudad el estado civil (soltero, casado, divorciado,
unión libre) de las personas que trabajan de meseros en restaurantes de una ciudad, por lo que
recurrimos a examinar una muestra e inferir de la población entera a partir de la muestra.
Debido a que las predicciones o decisiones que formulamos sobre una población, con apoyo de
la información muestral, genera un grado de incertidumbre, ésta se expresa en probabilidades.
Para el caso de los meseros puede ser de interés estudiar si la probabilidad de divorcio es alta.
Una población consiste en una colección de individuos u objetos a lo que se les observa una
característica particular que será objeto de estudio.
El principio de la distribución de probabilidad resulta al considerar un experimento aleatorio,
y al preguntarnos acerca de los eventos posibles y sus respectivas probabilidades. Hay dos tipos
de distribución de probabilidad y son de importancia en muchas áreas del conocimiento; éstas
son las distribuciones discretas y continuas. Las primeras se derivan de las variables aleatorias
discretas, tales como el número de llamadas telefónicas que se reciben por quejas, el número de
respuestas contestadas de manera correcta en un examen, el número de artículos defectuosos,
etcétera. Las distribuciones continuas se generan a partir de variables aleatorias continuas;
ejemplos de este tipo de variables son el periodo de vida de una batería, el promedio de las
calicaciones al nalizar un ciclo escolar o el coeciente intelectual de una persona.
Se ha presentado el concepto de espacio muestral en el capítulo anterior, y tanto los problemas
como ejemplos que se explican en esta unidad toman en cuenta esa idea para indicar cómo surgen
la variable aleatoria y su distribución de probabilidad.
Con el n de conocer y estudiar las distribuciones CalEst muestra varias distribuciones que
son muy importantes en el estudio cuantitativo de las investigaciones. En la Figura 5.1 se
describen esta serie de distribuciones. En todas se cuenta con un calculador estadístico que
69
70 5. Distribuciones de probabilidad discretas
Figura 5.1: Distribuciones de probabilidad disponibles en CalEst
resulta relevante puesto que le permite el cálculo de probabilidades y de modo inverso dada una
probabilidad se establece el valor de la variable..
5.1 Distribuciones de probabilidad Discretas

En muchos estudios, un evento experimental -también llamado ensayo o prueba- es frecuente que
se restringe a dos posibles resultados, usualmente denominados éxito e y falla f .
Por ejemplo, un selección aleatoria de un producto se clasica en defectuoso o no defectuoso.

En un tratamiento médico, a una persona se le suministra una medicina y el resultado se alivió
o no se alivió.
Los resultados de un experimento en probabilidad es a menudo un conteo o una medición.

Cuando esto se realiza, al resultado se le conoce como variable aleatoria.
Variable aleatoria.
Una variable aleatoria x representa un valor numérico asociado con cada resultado
de un experimento de probabilidad
Existen dos tipos de variable aleatoria: discreta y continua en este apartado se verán las dis-
tribuciones relacionadas con la variable discreta.
5.1. Distribuciones de probabilidad Discretas 71
Variable discreta.
Una variable aleatoria x es discreta si este tiene un número nito o contable de posibles
resultados, los que presentan en una tabla.
5.1.1 Distribución Bernoulli

Una distribución Bernoulli se dene como una acción que produce uno de dos resultados posibles.
Suponga que esos resultados, llamados éxito y falla, tiene probabilidad p y (1 p) respectivamente.
Entonces la variable número de éxitos en un ensayo Bernoulli tiene una distribución Bernoulli
con parámetro p. Esta distribución se resume como:
Número de éxitos 0 1
Probabilidades 1 p p
La distribución de Bernoulli se expresa como una función de probabilidad, P (x) como sigue:
P (x) = px (1 p)1 x
para x = 0; 1 (5.1a)
La expresión (5.1a), P (x) es la probabilidad de tener x éxitos en una prueba Bernoulli. Clara-
mente x puede ser 0 o 1, así:

p para x = 1
P (x) =
1 p para x = 0
La media y la varianza para la distribución Bernoulli son:
media = p varianza 2 = p(1 p)
5.1.2 Denición de una distribución de probabilidad discreta

A cada valor de una variable aleatoria discreta se le asigna una probabilidad. Se elabora una
tabla de cada valor de la variable aleatoria con su probabilidad correspondiente, así se tiene una
distribución de probabilidad.
Distribución de probabilidad discreta.
Una distribución de probabilidad discreta se presenta una tabla con cada valor que
la variable aleatoria puede tomar, conjuntamente con su probabilidad.
Una distribución de probabilidad satisface las siguientes condiciones:

1. La probabilidad de cada valor de la variable aleatoria 0 P (x) 1

discreta está entre 0 y 1, incluyéndolos P
2. La suma de todas las probabilidades es igual a 1 P (x) = 1
5.1.3 Distribución Binomial

Si se realizan una serie de n ensayos Bernoulli independientes, entonces la variable aleatoria
número de éxitos en n ensayos tiene una distribución Binomial con parámetros n y p, una
descripción de esta distribución es B(n; p).
A la serie de realizaciones se le conoce como experimento binomial y se debe vericar las
siguientes condiciones:
Existe un número n jo de ensayos.
Cada ensayo produce uno de dos posibles resultados, referidos como éxito y falla.
La probabilidad de un éxito de un ensayo, p; es constante.
Los ensayos son independientes, es decir la probabilidad de éxito en cualquier ensayo no es

afectado por el resultado de un ensayo previo.
La distribución de probabilidad esta dada por:

n x
f (x) = P (X = x) = p (1 p)n x
para x = 0; 1; 2; :::; n (5.2a)
x
Interpretación de la expresión (5.2a):

P (x) es la probabilidad de x éxitos en n ensayos.
n

x
es la fórmula resumida de x!(nn! x)! :
x = 0; 1; 2; :::; n signica que se puede utilizar la fórmula para cada valor de x; que es el
número de los éxitos posibles en n ensayos.
P
c Pc
n x
Distribución de probabilidad acumulada P (X c) = f (x) = x
p (1 p)n x
x=0 x=0
La media y la varianza para la distribución binomial son:
media = np varianza 2 = np(1 p)

5.1.4 La distribución binomial y CalEst

En el bloque didáctico aparece una opción denominada la distribución binomial y volados, este
enfoque tiene varios objetivos:
1. Conocer la distribución binomial considerando como caso inicial el valor de p = 0:5, ese
valor se puede mover para tener otros valores de p y así ver cómo cambia la distribución.
Además proponiendo diferentes valores de n hasta el valor de n = 20.
2. Comprender los conceptos probabilidad y regularidad estadística, al lanzar las monedas

varias veces aparecen los valores de la probabilidad denida en la expresión (5.2a) y el de
la frecuencia relativa cuando el número de repeticiones es muy grande los valores de cada
celda se van aproximando.
3. Calcular probabilidad de la binomial para diferentes valores de los parámetros.
4. Aplicar este esquema en diferentes problemas donde el éxito y la falla corresponderían a la

cara y cruz en la moneda respectivamente.
5. Se tiene el valor de la probabilidad acumulada P (X x).
6. 6. Plantear las soluciones a ejemplos y ejercicios expuestos en diferentes libros de estadística

en cada caso tiene que identicar el valor de los parámetros n y p.
Ejemplo 1: Cálculo de probabilidades usando el CalEst.
En la Figura 5.2 se muestra el caso en el que se lanzaron 9 monedas con 100 repeticiones en
el renglón donde aparecen las monedas corresponden a la última repetición. El valor de los
parámetros de la distribución son p = 0:5 y n = 9; los puntos en la gráca corresponden a la
probabilidad de la binomial para cada valor de la variable x, es de 0 hasta 9, por ejemplo: la
probabilidad de tener cuatro caras a lanzar las nueve monedas es: 0.2461, es decir: P (x = 4) =
0:2461: La frecuencia relativa tiene un valor de 0.2300, si se van incrementando las repeticiones
este valor se aproximará más al de la probabilidad.
Otras situaciones que se pueden considerar son:
1. Calcular la probabilidad de obtener al menos 3 caras.
2. Calcular la probabilidad de obtener 5 o más monedas con una cruz.

Figura 5.2: Ilustración de la distribución de la binomial considerando diferentes valores de p y n:
Solución
Con los dos primeros renglones de la tabla que aparece en la gráca se tiene la distribución de
probabilidad.
En la primera situación se calcula P (X 3) corresponde a sumar los primeros cuatro valores
del renglón Px, Figura 5.2, así
P (X 3) ' 0:2440
Para el inciso 2, se calcula la P (X 5) en este caso se deben sumar los últimos cinco valores
del renglón Px, esto es:
P (X 5) ' 0:5001
Nota el símbolo ' indica que por redondeo pueden existir diferencias en milésimas con el valor
real.
En el CalEst en el apartado de distribuciones se tiene la alternativa de hacer los cálculos

directos de la probabilidad binomial usando la expresión (5.2a), hasta n = 170. Se ilustra la
aplicación de esta opción mediante un ejemplo.
Figura 5.3: Distribución binomial con parámetros p = 0:25 y n = 5
Ejemplo 2
Considerando la teoría de la herencia estudiada por Mendel, en la fertilización del cruce de

dos especies de plantas con ores rojas y blancas produce una generación cuya descendencia
tendrá 25% de plantas con ores rojas. Si un horticultor cruza 5 pares de estas especies, de la
descendencia resultante de estos 5, ¿Cuál es la probabilidad de que: i. ¿Exista una planta con
or de color rojo? ii. ¿Existan 2 o más plantas con ores rojas?
Solución
Usando CalEst, en el apartado de distribuciones se elige la distribución de probabilidad binomial
Figura 5.3.
Se muestra la distribución de probabilidad en la tabla de abajo, esta se ha construido aplicando
la calculadora binomial para cada valor de x:
Número de ores rojas x 0 1 2 3 4 5

Probabilidad P (x) 0.237 0.396 0.264 0.0088 0.014 0.001
Probabilidad acumulada P (X x) 0.237 0.633 0.897 0.985 0.999 1
Así para el primer inciso: P (X = 1) = 0:396; para el otro: P (X 2) = 0:367:

Ejemplo 3
Un médico asegura que tiene un tratamiento que cura un malestar muscular con una probabilidad
p = 0:45: En la atención de 12 pacientes ¿Cuál es la probabilidad de que se curen entre 7 y 10
pacientes, es decir P (7 X 10). ¿Cuál es la media y la varianza en este ejemplo? Usando la
gráca y los umbrales o la tabla se calculan las probabilidades P (X < 8) y P (X < 11); así:
P (7 X 10) = P (X < 11) P (X < 8) = 0:99892 0:88826 = 0:11066:
La media y la varianza son:
media = np = 12(0:45) = 5:4 varianza 2 = np(1 p) = 2:97
5.1.5 Distribución Poisson

En diferentes estudios es frecuente encontrarse con problemas donde una información se deriva
de la ocurrencia aleatoria de eventos durante un periodo de tiempo establecido o en la longitud
determinada en un segmento.
Por ejemplo, el número de ocurrencias de fenómenos naturales tales como terremotos,

huracanes, en algún intervalo de tiempo en un año, se considera como una
variable aleatoria con una distribución de Poisson.
La distribución de probabilidad esta dada por:
exp( )x
P (x) = para x = 0; 1; 2; :::; > 0; (5.3a)
x!
Donde P (x) es la probabilidad de que x eventos aleatorios ocurrirán por unidad de tiempo o
espacio; es la razón de ocurrencias (la media del número de eventos aleatorios) por unidad de
tiempo o espacio.
La media y la varianza para la distribución Poisson son:
media = varianza 2 =
Ejemplo 4. Cálculo de probabilidades usando el CalEst
La probabilidad de que un artículo, producido por una máquina durante cada periodo de revisión,
sea defectuoso es: 0.1. Determine la probabilidad de que en una muestra de 30 artículos no haya
más de dos defectuosos.
Figura 5.4: Distribución de Poisson con parámetros 7=3 en una muestra n = 30
Solución
Se desea estimar P (X 2) = P (X = 0) + P (X = 1) + P (X = 2); se sustituyen en la expresión

(5.3a) los valores de x y = 30(0:1) = 3. Usando la distribución Poisson en el grupo de
distribuciones en CalEst se obtiene el valor deseado Figura 5.4, observe que en la gráca se
indican tres valores con respecto a donde se puso el cursor, en el caso de la Figura 5.4 el cursor
está en 2, entonces se indican las probabilidad de: X menor a 2, X igual a 2 y X mayor a 2:
Para el cálculo deseado se tienen dos posibilidades:
Primero si se pone el cursor en 2 la probabilidad P (X 2) se obtiene sumando los valores
de 0.19915 y 0.22404, es decir
P (X 2) = 0:19915 + 0:22404 = 0:42319
La otra es poner el cursor en 3 y el valor es el anterior porque se ha calculado la probabilidad

de que x sea menor que 3 lo que resulta equivalente a que x sea menor e igual a 2 (x 2):
Empleando la calculadora Poisson también se obtienen los valores de las probabilidades, en la
Figura 5.4, se ha ilustrado la segunda situación explicada anteriormente.
Ejercicios
1. En el apartado didáctica de CalEst vaya a la opción distribución binomial y monedas,

realice la siguiente práctica escribiendo en un papel la solución de los siguientes incisos:
(a) Ponga el valor de p = 0:5 y el número n = 10 monedas, use el renglón Px para calcular
las probabilidades para x = 4; 6 y 9.
(b) Ponga el valor de p = 0:5 y el número n = 10 monedas, use el renglón Px para calcular
las probabilidades: i.-P (X = 5); ii.- P (X 2); iii.- P (X 8); iv.- P (2 X 8):
(c) Haga repeticiones de 50 hasta completar 1500 volados, en cada una de ellas observe
los renglones Px y el de Frec. rel. ¿Qué observa? ¿Qué se podría esperar si el número
de volados al nal fuera 5000?
2. Repita el ejercicio anterior para un valor de p = 0:25: ¿Qué diferencias puede observar con
respecto a los resultados del ejercicio 1? Puede realizar este ejercicio para diferentes valores
de p. Esto le ayudará a familiarizarse con la distribución binomial.
3. El 65% de las personas en un fraccionamiento residencial tiene contratado TV por cable.

Si selecciona al azar 7 familias de ese conjunto habitacional y pregunta si están suscritas al
cable. Construya la distribución de probabilidad para cada valor de x para ello complete
la tabla, use la opción distribución binomial y monedas en CalEst.
Número de familias x 0 1 2 3 4 5 6 7
Probabilidad P (x)
Probabilidad acumulada P (X x)
4. Para resolver los siguientes ejemplos use la distribución binomial en el apartado de dis-
tribuciones en CalEst:
(a) El número de nacimientos en un hospital sigue una distribución binomial B(6; 0:5):
¿Cuál es la probabilidad de que nazcan 0, 1, 2, 3, 4, 6 bebés que sean del sexo
femenino? Complete la siguiente tabla.
Número de niñas nacidas. x 0 1 2 3 4 5 6

Probabilidad P (x)
(b) Para una distribución B(10; 0:3) ¿Cuál es la probabilidad de 5 o más éxitos? ¿Cuál es
la probabilidad de exactamente 7 éxitos? ¿Cuál es la probabilidad entre 4 y 8 éxitos?
(c) En una examen de opción múltiple, hay 5 posibles respuestas en cada una de las 20
preguntas. Si un candidato contesta adivinando la respuesta a cada pregunta :
i. ¿Cuál es la probabilidad de que el candidato pase el examen obteniendo 8 o más
respuestas correctas?
ii. ¿Cuál es la probabilidad de que el candidato tenga al menos una respuesta co-
rrecta?
iii. ¿Cual es la media de respuesta correctas a las que el aspirante puede acceder?
(d) En un lote de producción de cubetas, el 5% son defectuosas. Si se toma una muestra

aleatoria de 50 cubetas de ese lote, ¿Cuál es la probabilidad que?
i. ¿Al menos una sea defectuosa?
ii. ¿Exactamente dos sean defectuosas?
iii. ¿Diez o más sean defectuosas?
(e) Una encuesta reporta que el 75% de las mujeres adultas van a consulta con su médico
para un análisis físico al menos una vez cada dos años. Si 17 mujeres se seleccionan
de manera aleatoria, encontrar la probabilidad de que:
i. ¿Menos de 12 de ellas asistieron a consulta en esos dos años?
ii. ¿Al menos 15 de ellas asistieron a consulta en esos dos años?
(f) Un profesor de letras plantea una estrategia de enseñanza que considera exitoso en la
lectura de comprensión en el 60% de los casos. Esta la verica con 15 estudiantes de
nuevo ingreso, encontrar la probabilidad de que:
i. ¿Al menos 6 comprendan la lectura?
ii. ¿El número de estudiantes que comprenden la lectura no sea menor que 6 y no
mayor a 10?
iii. ¿Doce o más comprenden la lectura?
(g) Un estudio revela que 43% de las mujeres en una región urbana la lectura es uno se su
pasatiempo favorito. Se toma una muestra aleatoria de 12 mujeres y se les pregunta
si la lectura es una de su pasatiempo favorito. ¿Cuál es la probabilidad de que?
i. ¿7 mujeres respondan si?
ii. ¿Al menos 7 respondan si?
iii. ¿Menos de 3 respondan si?
(h) La producción de un proceso genera artículos defectuosos a razón del 6%. ¿Cuál es la
probabilidad de que en el embarque de 150 artículos no haya más de 8 defectuosos?
5. En los siguientes ejercicios use el CalEst para ilustrar la distribución Poisson.
(a) Una empresa recibe llamadas por teléfono de manera aleatoria a su conmutador en
un promedio de una llamada por minuto. ¿Cuál es la probabilidad de que 0, 1, 2,...,5
llamadas sean recibidas en un periodo de 2 minutos? Complete la siguiente tabla:
# de llamadas recibidas en 2 min. x 0 1 2 3 4 5

Probabilidad P (x)
(b) Considere que el número de llamadas en 5 minutos, es decir = 5; y n = 10: Poner

el umbral en diferentes valores, indique en un papel las probabilidades que está cal-
culando. Estime e interprete las probabilidades i.- P (X = 5); ii.- P (X > 7); iii.-
P (X 4); iv.- P (3 X 8); v. P (X < n) para n; 0 n 10:
(c) El número de accidentes por mes en un crucero es 3. ¿Cuál es la probabilidad de que

ocurran 4 accidentes en ese crucero para un mes determinado?
(d) Resuelva el inciso h del ejercicio 3 usando la distribución de Poisson.
Capítulo 6
Distribuciones de probabilidad continua
6.1 Variables aleatorias continuas

Una característica de una variable aleatoria discreta es que sólo toma valores separados, distintos
o contables. No todas las mediciones son de este tipo; por ejemplo, medir el tiempo de llegada
a la escuela, los valores pueden ser 40 o 41 minutos, o cualquier número entre 40 y 41 minutos,
tal como 40.36 minutos. No existe separación ni valores distintos en este caso. Además, en
este intervalo son posibles un número innito de números. De modo que los resultados no son
contables como en el caso de la variable aleatoria discreta.
A la variable aleatoria como la del tiempo de llegada a la escuela se le llama variable aleatoria
continua. Sus valores posibles forman un intervalo continuo y las probabilidades de las variables
aleatorias continuas se asocian sólo con intervalos de observaciones, no con valores individuales,
como ocurre en el caso de las variables aleatorias discretas. Las típicas variables continuas miden
alguna cantidad, como pueden ser el tiempo, el peso, la altura, el volumen, la presión de la
sangre, la concentración de los químicos en la sangre. Ejemplo de variables aleatorias continuas
serían:
El tiempo en llegar a la escuela.
El tiempo entre llamadas en un celular.
El peso de la carne en una torta.
La resistencia eléctrica de un diodo en una tarjeta impresa.
El volumen de contenido de un refresco.
La temperatura de un horno.
6.1.1 Distribución normal

Objetivos:
81
82 6. Distribuciones de probabilidad continua
Conocer y caracterizar el modelo de probabilidad normal.
Comprender que muchas variables que explican el comportamiento de fenómenos o procesos

se pueden modelar mediante la distribución normal.
Aprender a calcular probabilidades con este modelo usando las diferentes opciones del
CalEst.
La distribución de probabilidad normal se aplica de manera frecuente para estudiar procesos

cuya variable aleatoria es continua.
La distribución normal
La densidad de probabilidad de esta distribución se caracteriza por los parámetros ( y 2 ),
es decir, su media ( ) y su varianza ( 2 ); y es la desviación estándar.
La densidad de probabilidad de esta distribución se caracteriza por los parámetros ( y 2 ),

es decir, su media ( ) y su varianza ( 2 ); y es la desviación estándar. Esta distribución
es simétrica con respecto a la y tiene forma de campana la amplitud depende de la desviación
estándar. La expresión matemática que caracteriza la función de densidad de la normal está
dada por:
1 2 2
f (x) = p e (X ) =(2 ) :
2
Donde = 3:1416 y e = 2:7183: A continuación se describirá la forma de esta función, Figura
6.1, como a partir de esta se obtienen las probabilidades de la normal. Las opciones descritas
por el CalEst permitirán resolver diferentes problemas de otros libros .
Descripción del CalEst para la distribución normal
En el bloque de distribuciones en CalEst aparece las opciones para la normal entre ellas la función
densidad y la acumulada. Con estas se pueden calcular probabilidades o los valores de la variable
X correspondientes a diferentes percentiles. Con el n de conocer su aplicación en la estimación
de probabilidades se ha jado una media = 12; (para ver la gráca de el valor a de 12 y
apriete la tecla enter) y una desviación estándar = 2, la variable X describe el tiempo de un
servicio bancario: Nota aquí se pueden obtener los valores de las probabilidades para cualquier
pareja de (; ):
1. Sin umbrales, en el cuadro sin la paloma, aparece la función densidad, para conocer el valor
de la función para diferentes valores de la variable use el signo más en azul, éste aparece
en la parte superior izquierda.
6.1. Variables aleatorias continuas 83
Figura 6.1: Características del CalEst para la distribución normal
2. Con umbrales, éstos se emplean para calcular probabilidades. Un umbral permite estimar
el área a la derecha o a la izquierda, su valor aparece en un recuadro superior a la derecha.
Ahí también se indica la diferencia de 1 el a rea, abajo aparece el valor de la variable Z
que corresponde a la normal estándar que se indica más adelante.
3. Dos umbrales, colocados abajo, arriba o uno arriba y otro abajo, permite estimar la pro-
babilidad entre dos valores da la variable. Muestra el valor de la diferencia de 1 el a
rea;
y los valores de la normal estándar respectivos a los valores de la variable X:
4. Para obtener percentiles, se mueven los umbrales considerando el valor de las áreas.
5. Una mayor precisión en el cómputo de las probabilidades se obtiene usando un calculador

que viene integrado, este se activa accediendo al último cuadro que aparece en el segundo
renglón a la derecha. Ahí se pide dar el valor de la media y desviación estándar, luego para
obtener probabilidades se deben dar valores de la variable X: La otra opción es dar una
probabilidad y saber a qué valores de la variable corresponden para una pareja (; ): La
precisión en los umbrales se da hasta milésimas.
6. Siempre que de el valor de oprima enter para cambiar la media en la distribución, luego
el valor de , y nuevamente, oprima enter.
7. Aparecen dos guras en azul que corresponden a la función densidad y acumulada de la

normal, con estas se puede obtener una u otra de manera alternativa.
8. Con las lupas, le permiten agrandar (+), empequeñecer (-) y actualizar (A) la gura.
9. Active el símbolo + para encontrar el valor de la función densidad para un valor de X,

para descativarlo use la echa ubicada en la parte superior izquierda.
Ejemplo1. Cálculo de probabilidades usando el CalEst
El tiempo que dura un embarazo tiene una distribución normal con media = 266 días y una
desviación estándar de 16 días. Esta situación se describe en la Figura 6.2 generada por CalEst
en el bloque de distribuciones con la opción normal.
1. Usando esta gráca encuentre la proporción de embarazos entre 285 y 305 días.
2. Una compañia de seguros tiene un plan familiar de salud, en una de sus cláusulas indica que
no se cubre los costos de hospitalización si el nacimiento es en menos de 217 días después
de la fecha de casamiento. Encuentre la probabilidad de que el nacimiento se da en menos
de 217 días.
3. Encontrar el 90 percentil.
4. Encontrar el 30 percentil.
5. Encontrar el rango percentil del valor de 275 días.
6. ¿Cuál es la probabilidad del que el embarazo termine en 280 días o más?
Solución
En la Figura 6.2 en la gráca se muestra la primera solución, la segunda se muestra en la tabla.
Ésta muestra las alternativas del calculador para obtener los valores de probabilidad en una
distribución normal.
1. En el primer inciso se está calculando la probabilidad P (285 X 305) = 0:110.
2. En el segundo P (X 217) = 0:0011; es una probabilidad muy baja de que esto ocurra.
3. En el tercer caso se desea encontrar el número que satisface P (266 X ?) = 0:40; se
puede notar que P (X 266) = 0:5, verique esta situación usando el cursor. En la Figura
6.3 se describe esta situación.
Figura 6.2: La función densidad de la normal y cálculo de probabilidades de esta distribución.
4. De manera análoga se resuelve el caso cuarto, ver Figura 6.3 en la gráca derecha. P (?
X) = 0:3
5. En este caso P (X 275) = 0:713; solución se tiene colocando un solo cursor en 275. En
los resultados del calculador mostrados en la Figura 6.4
6. La solución es P (X 280) = 0:191; los resultados se describen en la Figura 6.4.
Un resultado que se usa frecuentemente como referencia para la distribución normal es la

desviación estándar alrededor de la media y se conoce como la regla empírica. Así se consideran
Figura 6.3: Distribución normal con = 266; = 16; soluciones 3 y 4.

Figura 6.4: Resultados mostrados por el calculador para los incisos 4 y 5.
la media a una, dos y tres desviaciones estándar, esto es:
P ( X + ) = 0:6826
P ( 2 X + 2) = 0:9544
P ( 3 X + 3) = 0:9974
Verique estos resultados en el CalEst usando los datos del ejemplo 1. En la Figura 6.5 se
presenta la función acumulada, distribución de probabilidad normal, con ésta se obtiene el área
bajo la curva de la función densidad para valores especícos de la variable aleatoria X. En
particular el caso que se ilustra es el área desde menos innito hasta el valor de X = 275, para
(; ) = (266; 16):
6.1.2 Normal Estándar

En la Figura 6.6, izquierda, se dibuja la normal con media cero y varianza 1, ésta se conoce como
la normal estándar. En el calculador se tiene la opción de uno o dos umbrales, éstos le permiten
obtener diferentes probabilidades y cada una de ellas aparece señalada con el área bajo la curva.
En la Figura 6.6 en la gráca a la derecha se muestra la distribución de probabilidad acumulada
de la normal, usando el cursor también puede estimar la probabilidad que requiera. Finalmente
en la Figura 6.7 se muestra cómo se usa el calculador de probabilidad, se debe oprimir la caja
señalada, ésta aparece en el ambiente de la distribución.
Esta variable normal caracterizada por la pareja (; ) = (0; 1) tiene su importancia porque
se usa para encontrar probabilidad asociadas con cualquier otra distribución normal con (; ):
Figura 6.5: Distribución normal acumulada con la probabilidad P (X 275)
Figura 6.6: Función densidad y la acumulada de la distribución normal. El uso del símbolo +,
el efecto se quita con la echa.
Figura 6.7: Distribución y el calculador de la normal
Por ello en los libros de estadística se trabaja con la variable normal estándar y en cada uno
de ellos viene una tabla de esta distribución para el cálculo de probabilidades. En el desarrollo
de este paquete ésta queda como un caso particular, aquí se describe con la nalidad de que los
usuarios tengan una visión completa de la normal estándar y la aprovechen en la solución de sus
problemas y en otras aplicaciones.
Denición
La variable aleatoria normal estándar es una variable normal con media 0 y

desviación estándar 1. Usualmente se representa por el símbolo Z.
La expresión que relaciona la variable aleatoria X de una normal con (; ) y la normal
estándar Z es:
X
Z= , o X = + Z

X
Así para los datos de la Figura 6.1: Z =
= 9 12
2
= 1:5: El cálculo de la probabilidad
del primer inciso del ejemplo 1,
285 266 X 305 266

P (285 X 305) = P ( ) = P (1:188 Z 2:438) = 0:101
16 16
Figura 6.8: Opciones del módulo de Control de calidad
6.1.3 Temas selectos: aplicación de la normal

En este apartado se presentan algunas aplicaciones de la distribución normal desarrolladas en
CalEst y que tienen importancia en la actividad industrial. Aquí sólo se darán a conocer las
referencias donde el usuario puede profundizar en el conocimiento de estos temas. En la Figura
6.8 se describe las opciones del módulo Control de calidad.
Métrica de Seis Sigma
La métrica seis sigma evalúa un proceso, ésta se basa en el nivel de : Existen varios libros
donde se puede profundizar en el concepto. Entre ellos puede consultar el de Escalante (2004)
página 239, y el de Breyfogle I I I (2003) Capítulo 9 página 188. La distribución normal como se
ha desarrollado aquí será de mucha utilidad para resolver los ejemplos y problemas planteados
en esos libros. En esos mismos libros se puede encontrar los conceptos de capacidad del proceso,
la eciencia del cálculo de este índice depende de la distribución normal.
En la opción estadística, métodos avanzados, control de calidad en CalEst aparece el cálculo
del valor de X y Z para estimar la métrica
Papel de probabilidad normal
Este método gráco es de mucha utilidad para evaluar si unos datos siguen una distribución
normal. El principio es tener un conjunto de datos, ordenarlos de menor a mayor. La idea es
construir en un plano de coordenadas (x; y), donde x es el eje horizontal: los datos ordenados,
y es el eje vertical y representa los porcentajes correspondientes a la distribución normal, por lo
general y es:
i 0:5
yi = %, donde i = 1; :::; n:
n
El valor de i representa la iésima observación de los n datos estudiados.
Cartas de control X RoX S
Las cartas (X R) son apropiadas para estudiar el promedio de la variable y la dispersión de

los datos obtenidos del proceso cuando la característica de calidad que medimos en un producto
se expresa en números. Por ejemplo podemos medir en un artículo la longitud, masa, peso,
temperatura, viscosidad, velocidad, densidad, alcalinidad, entre otras. Con el n de obtener más
detalle en la construcción de estas cartas consultar Escalante (2004) página 194.
Para construir una carta de control (X R) se sigue el siguiente procedimiento:
1. Determinamos la característica de calidad. En la manufactura o en un servicio es impor-

tante identicar la variable que describirá la calidad del producto o bien.
2. Escoger el subgrupo muestra. El subgrupo es una pequeña parte de la producción que

la representa, la idea fundamental es detectar los cambios que se producen en el sistema.
Existen dos procedimientos para seleccionar este subgrupo una vez denido el tamaño de
la muestra.
En el primer procedimiento la meta es minimizar la variabilidad dentro de las unidades en la

muestra, y maximizar la variabilidad entre las muestras. Esto se logra seleccionando los artículos
en la muestra en un rango de tiempo lo más pequeño posible.
Debemos tener presente que las cartas X RoX S nos ayudan a determinar si un proceso
está fuera de control. Con la carta X observamos la característica de calidad y con las cartas R
o S la variabilidad del proceso, para ello primero tomamos en cuenta la carta R o S, es decir,
conocer la variabilidad del proceso. Aunque es importante mantener en control la característica
de calidad y la dispersión, no se puede interpretar la carta X cuando las cartas R o S nos
muestran condiciones que implican un proceso fuera de control.
Capacidad del proceso
Con objeto de medir la capacidad de un proceso, se establece un sistema de 5 índices que son de
utilidad para cuanticar la capacidad de un proceso estable, éstos permitirán evaluar un proceso
con respecto a los límites de especicación. Los índices son:
Cp = índice potencial del proceso.
CP U = índice superior del desempeño del proceso.
CP L = índice inferior del desempeño del proceso.

k = índice de centrado del proceso.
Cpk = índice del desempeño del proceso.
Conceptos generales
Con objeto de estimar los índices indicados anteriormente, primero se determina la caracterís-
tica de calidad que se desea medir, se toma una muestra aleatoria del proceso, se obtiene el
histograma tal que contenga los límites de especicación inferior (LEI) y superior (LES). A
simple vista del histograma se puede analizar la forma de la distribución, si ésta tiene una forma
acampanada puede representar a un proceso capaz si este está cerca del centro. También, se
puede emplear el papel de probabilidad de una distribución normal para observar la tendencia
de los datos. La mayor amplitud es 6 b; es decir la longitud comprendida entre los límites de
tolerancia del proceso. Se puede establecer que un proceso no es capaz si:
1. El proceso no es estable.
2. El proceso está centrado cerca de los límites de especicación
3. El proceso es excesivamente variable.
Las cartas de control permiten conocer la estabilidad de un proceso. Por otro lado, es más
fácil obtener un proceso capaz, si la variabilidad del proceso no es tan grande.¿Por qué?
Indice potencial del proceso Cp
Este índice depende sólo de la variabilidad en condiciones denidas del proceso a corto plazo y
que éste se encuentre bajo control estadístico. Un método simple para estimar el Cp , es relacionar
la amplitud del proceso, con la amplitud permitida, esta última se establece de antemano.
amplitud permitida LES LEI

Cp = =
amplitud actual del proceso 6
se dice que el índice Cp estima la habilidad del proceso. Otra manera de evaluar al proceso
en términos de porcentaje, es mediante el índice de razón de capacidad, este se obtiene por el
recíproco del índice Cp multiplicado por 100, es decir:
1
CR = 100%
Cp
La interpretación de éste índice se mostrará en el siguiente ejemplo, durante el curso éste se

denoto por Por .
El índice potencial del proceso presenta tres situaciones que permiten establecer la habilidad
del proceso, éstas se denen como sigue:
8
< < 1 es no capaz
Cp = 1 es deseable
:
> 1 es capaz
Indice del desempeño del proceso Cpk
Cuando un proceso está bajo control estadístico, se espera que la característica de calidad que
se le mide a los artículos tenga una distribución con promedio y varianza 2 . Generalmente
un industrial requiere que la característica de calidad de su proceso tenga un compotamiento
en promedio a un cierto valor establecido, este frecuentemente se identica como valor nominal
del proceso denotado por T . Si el promedio y el valor nominal coinciden, es decir, que = T:
Entonces dice que el proceso está centrado. Cuando esto no es así, se requiere de un índice
que indique qué tan lejos está el proceso del valor objetivo. Un objetivo es plantear cómo el
desempeño del proceso se puede relacionar con el potencial del proceso Cp y con la medida de
_
localización X:
Considere la situación en la que el proceso únicamente se relaciona con el límite de especi-
_
cación superior, en esta situación intervienen tanto la media X; como la desviación estandar
b
para denir el índice CPS denominado índice de capacidad superior, es decir:
_
LES X
CP S(CP U ) =
3b

Análogamente, se puede considerar de un proceso el límite de especicación inferior, esto da
lugar a denir el índice de capacidad inferior como sigue:
_
X LES
CP I = (CP L ) =
3b

El índice Cpk mide el desempeño del proceso y su cálculo es
Cpk = min( CP I; CP S )
Ejercicios
1. El tiempo de respuesta para un estimulo tiene una distribución normal con media = 46,
= 4. ¿Qué porcentaje de valores están?
(a) i. ¿Mayores de 46? ii. ¿Mayores de 50?
(b) i. ¿Mayores de 40? ii. ¿Menor que 38?
(c) i. ¿Menor que 49? ii. ¿Entre 45 y 49?
(d) i. ¿Entre 50 y 54? ii. ¿Mayor que 56 y menor 46?
(e) ¿Dentro 1.5 desviaciones estándar de la media?
(f) ¿Fuera de 2.3 desviaciones estándar de la media?
2. En un proceso de producción un producto tiene un encogimiento con una media 80 mm y

una desviación estándar de 12. Si un producto se selecciona al azar, encontrar cada una de
las siguientes probabilidades.
(a) i. P (80 X 92), ii. P (71 X 80), iii. P (X 92), iv. P (X 56), iv.
1 P (65 X 98),
(b) i. 1 P (66 X), ii. 1 P (X 104), iii. P (53 X 59), iv. P (X = 80).
3. Para un grupo de estudiantes de secundaria y preparatoria, el tiempo de solución del

rompecabezas de la República Mexicana tiene una distribución normal con media 150
segundos y una desviación estándar de 10. Encuentre:
(a) El primer, segundo y tercer cuartil.
(b) El 65 percentil y el 35 percentil.
(c) El rango del percentil del valor 165, es decir P (X 165):
(d) El rango del percentil del valor 145.
4. Supongamos que X es una variable aleatoria con una distribución normal con media y
desviación estándar . Calcula:
(a) P (40 X 56)
(b) P (X 64)
(c) w tal que P (X w) = 0:32
(d) w tal que P (X < w) = 0:063
5. El tiempo en que el cajero bancario tarda en atender a los clientes tiene una distribución
normal con media = 10 minutos y desviación estándar = 2 minutos.
(a) ¿Qué porcentaje de clientes espera menos de 8 minutos?
(b) ¿Cuál es la probabilidad de que el cajero tarde en atender a un cliente en un tiempo

mayor que 16 minutos?
6. En estudios realizados por una rma para medir el coeciente intelectual de las personas
que solicitan un empleo, hay una distribución normal con media y desviación estándar .
(a) ¿Cuál es la probabilidad de un coeciente intelectual mayor a dos desviaciones están-

dar de la media?
(b) ¿Qué porcentaje de las personas presenta un coeciente intelectual superior a 120?
(c) ¿Qué porcentaje de las personas muestra un coeciente intelectual entre 80 y 120?
7. El número de calorías de una sopa en un menú se distribuye como una normal con media
200 y desviación estándar de 5. Encuentra la probabilidad de que la sopa contenga:
(a) Más de 210 calorías.
(b) Entre 190 y 200 calorías.
(c) Encuentra el 14 percentil de las calorías.
8. En un restaurante sirven manzanas como postre. El peso de ellas muestra una distribución
normal con media 60 gramos y una desviación estándar de 0.8 gramos. ¿Cuál es la pro-
babilidad de que a la siguiente persona que se le sirva una manzana, el peso de ésta sea de
50 gramos?
9. Las calicaciones de admisión presentan una distribución normal con media 500 y desviación
estándar de 100. Encuentra la probabilidad de que un estudiante:
(a) Obtenga una calicación mayor que 650.
(b) Obtenga una calicación menor que 375.
(c) Obtenga una calicación entre 350 y 575.
(d) Si la escuela admite a los que sólo tienen una calicación mayor a 670, ¿cuál es la
proporción de los estudiantes que pueden ser admitidos?
(e) ¿En qué límite se debe jar la calicación si el 50% de los estudiantes deben ser
admitidos?
(f) ¿Cuál debe ser la calicación límite si el tope de admisión es del 15% de estudiantes?
10. Supongamos que Z es una distribución normal estándar. Encuentra el percentil de la

distribución en cada caso.
(a) Debajo de z = 2:0
(b) Debajo de z = 2:6
(c) Debajo de z = 1:36
(d) Debajo de z = 1:36
(e) Entre z = 1:42 y z = 1:25
(f) Entre z = 2:82 y z = 0:58
11. Supongamos que Z es una distribución normal estándar. Encuentra:
(a) P (Z < 1:64)
(b) P (Z 1:96)
(c) P ( 1:35 Z 1:35)
(d) P (1:22 Z 2:47)
(e) El valor de z tal que 5% del área está debajo de éste.
12. Encuentra los percentiles 0.05, 0.01, 0.10, 0.025, 0.90, 0.95 y 0.68 en una distribución
normal estándar.
Capítulo 7
Galería de distribuciones*
(*) Opcional
7.1 Ideas Generales: distribución de probabilidad

Cuando no se pueden conocer los valores de medidas repetidas en una cantidad de interés, es
práctico caracterizar esa cantidad como una variable aleatoria y se denota por X. Esta variable se
reere a la población. La colección de todos los valores posibles en la población se llama espacio
muestra S. Los valores X de los resultados de los ensayos realizados, esto es, las mediciones en
X son denotados por x. Un conjunto de estos ensayos, es la muestra. Así una muestra es un
subconjunto de valores del espacio muestra S:
Así muchas cantidades medibles en diferentes áreas del conocimiento, incluyen un rango
continuo de puntos en el espacio muestra S:
La condición de incertidumbre de la variable aleatoria X se modela por una distribución de
probabilidad F (x; ): Donde F es una función matemática de los valores x que la variable X
puede tomar en el espacio muestra S; y son parámetros que caracterizan a la distribución.
A continuación se describen varias distribuciones de probabilidad que son importantes, debido
a su utilidad para modelar diferentes situaciones y su aplicación en ingeniería.
7.1.1 Distribución Weibull

La función densidad para una distribución Weibull, Wei (; ) de una variable aleatoria X está
dada por:
x 1
( ) e (x=)

x0
f (x : ; ) =
0 x<0
> 0 es el parámetro de escala, > 0 es el parámetro de forma
W e(; )
97
98 7. Galería de distribuciones*
Figura 7.1: Distribución Weibull W ei(2; 1) y cálculo de probabilidad ilustrada por la gráca y
la tabla.
Observaciones: Esta función de densidad puede tener gran variedad de formas con una o dos
colas.
Si = 1, se tiene como caso particular la distribución exponencial exp(): Notación

exp() = e :
Si = 2, da lugar a la distribución de Rayleigh.
La función de distribución es la distribución acumulada y se expresa por.

F (x; ; ) = 1 exp(

La media y la varianza de distribución son:
2
1 1 2 1 2 1
= 1+ = 2 1+ 1+

p
donde es la distribución gama, (1) = 1; 1
2
= ; (n) = (n 1) (n 1) y si n es entero
(n) = (n 1)1 :
En la Figura 7.1 se observa la distribución Weibull W ei(2; 1); a la derecha de la gráca se ha
puesto la tabla para el cálculo de probabilidades de esta distribución. En ésta se ilustra, en la
gráca, el cálculo de la probabilidad para X mayor a 1.731 es decir P (X 1:731) = 0:0499: Con
7.1. Ideas Generales: distribución de probabilidad 99
Figura 7.2: Cálculos de la probabilidad para más de 1000 horas -izquierda, y del valor de X para
una probabilidad de 0.1 -derecha.
la tabla se obtiene la probabilidad entre los valores de 0.85 y 1.74, P (0:85 X 1:74) = 0:437:
Usando esta distribución, observe para los siguientes valores del parámetro de forma = 0:5; 1;
1:5; 3; 4 con = 1: Esto indica la variedad de formas de la función densidad Weibull y con ello
la exibilidad del modelo para caracterizar datos de algún proceso.
Ejemplo 1
La falla de un calentador se debe a la reducción o pérdida total de la potencia de empuje en un

grupo de empaques. Se midieron estos durante un periodo de dos años y los valores se ajustan
bien con un modelo de la distribución Weibull, W ei(0:8941; 1609:8) use la tabla para calcular la
probabilidad para 1000 horas o más de operación.
Solución
En la Figura 7.2 se presenta el cálculo de la probabilidad cuyo resultado es P (X 1000) =

0:5203:
Esta probabilidad se le conoce como la conabilidad del calentador. Dada la probabilidad de
P (X x) = 0:1 con los parámetros k = 0:8941 y = 1609:8, ¿cuál es el valor de x? x = 129:9375
7.1.2 Distribución Gama

La función densidad de la distribución gama se expresa por
1
x e x
()

1 e x
g(x : ; ) = x para x > 0:
()
> 0 es el parámetro de forma > 0 es el parámetro de escala. Del cálculo diferencial e

integral se tiene que la función
Z 1
() = x 1 e x dx:
0
Nota 2
Si = n=2; n es un entero positivo y = 1=2 es la función densidad de la gama, entonces se
tiene una distribución Ji (Chi) cuadrada, distribución que se ilustra en el siguiente capítulo.
La media y la varianza se expresan respectivamente por
Ejemplo 2

= y 2 = 2

Encontrar P (3:28 < X 25:2) si X tiene una distribución gama con = 3 y = 0:25: Ver
en la Figura 7.3 la solución.
7.1.3 Distribución exponencial

La importancia de esta distribución sigue de su relación a procesos Poisson, el tiempo X : T entre
las posibles ocurrencias de eventos, tiene una distribución exponencial con la siguiente función
densidad:

e x
, si x 0
f (x; ) =
0, si x < 0
> 0 es el parámetro de taza.

La función de distribución está dada por:
F (x; ) = 1 exp( x)

Figura 7.3: Cálculo de la probabilidad para una distribución gama
La media y la varianza son dados, respectivamente por:
1 1
= y 2 = 2

Vea el grupo de distribuciones en CalEst y seleccione la exponencial, observe las diferentes
formas para distintos valores de ; por ejemplo = 0:5; = 1; = 1:5; = 2:
Ejemplo 3
La razón de falla de un gracador electrónico es = 0:00055 fallas/hora. Determine la proba-

bilidad de qué gracador dure en operación unas 450 horas, P (X 450): Como se observa en la
Figura 7.4. La conabilidad de este equipo es 0:78075:
Solución
P (X 450) = 1 F (x; ) = exp( x) = exp( 0:0005 450) = 0:78075:
7.1.4 Distribución beta

Distintos valores de y para la distribución beta e(; ) proporcionan diferentes formas de
la función densidad, la cual se expresa por:
Figura 7.4: Aplicación de la distribución exponencial en problemas de conabilidad.
( + ) 1
f (x; ; ) = x (1 x) 1
() ()
> 0 es el parámetro de forma. > 0 es el parámetro de forma.

La media y la varianza para la distribución, se expresan por:

= , 2 = 2
+ ( + ) ( + + 1)
Nota
Cuando = se tiene una distribución simétrica. Un caso particular se presenta cuando
= = 1; en este caso se obtiene una distribución uniforme U(0; 1):
Ejemplo 4
Usando la distribución Beta del grupo de distribuciones en CalEst. Haga las grácas para la
función densidad de esta distribución para observar los siguientes casos:
1. Distribución unimodal y simétrica = = 1; 2; 3; 4; 6

Figura 7.5: Distribución beta con = = 2:
2. Distribución unimodal y sesgada ( = 1:5; = 2); ( = 1:5; = 3); ( = 3; = 5) y

( = 2; = 5):
3. Distribución en forma U y simétrica = = 0:15; = = 0:3; = = 0:5; = = 0:8:
4. Distribución en forma U y sesgada ( = 0:2; = 0:8); (+0:3; = 0:6); ( = 0:4; = 0:8);

( = 0:5; = 0:9):
5. Distribución en forma J ( = 1; = 2); ( = 0:8; = 2); ( = 0:6; = 2); ( = 0:4;

= 2); ( = 0:2; = 2):
En la Figura 7.5 se ilustra un caso en 1, .
7.1.5 Distribución uniforme

La función densidad uniforme U(a; b) de una variable aleatoria se describe por:
1

para x ;
f (x) =
0 para x < o x > ;
Parámetros y : límites. ; 2 ( 1; 1): La media y la varianza para la distribución son:

Figura 7.6: Descripción del cálculo para el inciso b.
b+a (b a)2
= , 2 =
2 12
la probabilidad de que X esté en cualquier subintervalo de [; ] es igual a la longitud del

intervalo dividido entre la longitud del intervalo [; ]:
Esto es:
b a
P (a < X < b) =

Ejemplo 5
Si X se distribuye de manera uniforme en el intervalo [0; 10]; calcule la probabilidad de que:

a) P (2 < X < 9); b) P (1 < X < 4) c) P (X < 5) d) P (X > 6)
Solución
Observe la Figura 7.6, las soluciones son: a) 0:7; b) 0:3; c) 0:5; d) 0:4:
7.1.6 Distribución Lognormal

Una variable aleatoria X tiene una distribución lognormal si Y = loge (X) tiene una distribución
de probabilidad normal, donde loge es el logaritmo natural de base e. La función densidad de la
distribución lognormal está dada por:

1 (log(x)
f (x; ; ) = p exp
x 2 2 2
= media, 2 = desviación estándar
Ejercicio
Observe la distribución lognormal para = 1: Observe los casos para = 0:2; = 0:3 y = 0:5
7.1.7 Distribución Logística

Una variable aleatoria continua X tiene una distribución logística, si su función densidad tiene
la forma:
e (x )=
f (x; ; ) = (x )= )2
(1 + e
= posición, = escala.
Ejercicio
En la Figura 7.8 se describe la función de esta distribución para = 3 y = 2:
7.1.8 Distribución Gumbel

Una variable aleatoria X tiene una distribución Gumbel si su función densidad tiene la forma:

1 x x
f (x; ; ) = exp exp ; > 0; 1 < x; < 1:

= posición, = escala. La distribución de probabilidad se expresa por:

x
F (x; ; ) = 1 exp exp

Capítulo 8
Distribuciones 2, t, F +
Estas distribuciones desempeñan un papel importante en la inferencia estadística. Son distribu-

ciones derivadas de la Normal.
8.1 Distribución 2
Si Z1 ; Z2 ; :::Zn son variables normales estándar independientes, entonces se dice que la variable
denida por
= Z 2 + Z22 + ::: + Zn2
tiene una distribución Ji (Chi) cuadrada con n grados de libertad. Se denota s 2n para indicar
que tiene una distribución Ji cuadrada con n grados de libertad.
Por ejemplo, una compañía produce bolsas de cacahuate, el proceso genera miles de bolsas
cada una debe tener el mismo peso. Sin embargo existe una variación en el peso de cada bolsa, la
cual debe ser baja. Si la población de pesos tiene una distribución normal, en este caso se desea
hacer inferencia estadística sobre la varianza o desviación estándar, como se verá mas adelante.
Para llevar a cabo esta inferencia, es necesario determinar los valores críticos en la distribución
con n
2
1 grados de libertad.
En esta dirección se especica un valor tal que (0 < < 1) y se calcula alguna de las
siguientes tres probabilidades: P (2 > 2 (; n 1)) = ; P (2 (1 ; n 1) < 2 ) = o
P (2 (1 =2; n 1) < 2 ) = =2; P (2 (=2; n 1) > 2 ) = =2: Estos se calculan usando el
CalEst.
Guía para encontrar los valores críticos de la 2
1. Especique el nivel de signicancia (probabilidad ).
2. Determine los grados de libertad gl = n:
107
108 8. Distribuciones 2 , t, F +
Figura 8.1: Descripción del ejemplo 1.
3. Los valores de la distribución 2 se encuentran en la gráca de la distribución Chi cuadrada

en CalEst o con la opción de la tabla que muestra el ambiente de la pantalla.
(a) Use el umbral para moverse a la derecha o izquierda según el valor de :
(b) Use dos umbrales que correspondan a 12 y 1- 2 :
La distribución 2 se utiliza para hacer inferencia sobre la varianza (prueba de hipótesis e

intervalos de conanza). Ver Capítulo de Prueba de Hipótesis para una población. La 2 también
se aplica en las pruebas de bondad de ajuste, ver ese Capítulo.
Ejemplo 1
Encontrar el valor crítico 2D a la derecha cuando n = 24 y = 0:10
Solución
Los grados de libertad son n 1 = 24 1 = 23: La gráca de la Figura 8.1, CalEst, muestra
una 2 con 23 grados de libertad y un área sombreada (probabilidad) de = 0:10 en la parte
derecha. 2 = 32
8.1. Distribución 2 109
Figura 8.2: Cálculo de la probabilidad de Ji cuadrada a la izquierda
Ejemplo 2
Encontrar el valor crítico 2L a la izquierda cuando n = 12 y = 0:05:
Solución
Los grados de libertad son n = 12 1 = 11:La gráca de la Figura 8.2, CalEst, muestra una 2
con 11 grados de libertad y el área sombreada a la izquierda de = 0:05: Así el área a la derecha
es 1 =1 0:05 = 0:95: 2 = 4:571
Ejemplo 3
Encontrar los valores críticos 2 a la derecha e izquierda de la distribución cuando n = 13 y

= 0:05
Solución
Los grados de libertad de la distribución son gl = n 1 = 13 1 = 12: La gráca de la Figura

8.3, describe la distribución de 2 con 12 grados de libertad y el área sombreada (probabilidad)
de 12 = 0:025 en cada cola de la distribución. El área central es 1 = 0:95: Así 2I = 4:403
2D = 23:336
Figura 8.3: Valores críticos de la distribución Ji cuadrada con un área del 95%.
Ejercicios
1. En cada uno de los siguientes casos 2 (0:01; n 1); 2 (0:025; n 1); 2 (0:95; n 1) y
2 (0:99; n 1):Encontrar estos valores de 2 con los siguientes grados de libertad (gl): a.-
gl = 9; b.- gl = 15; c:- gl = 25:
2. Si los grados de libertad de la distribución son gl = 2, encuentre los valores de x en los

siguientes casos: a: P (2 x) = 0:01; b: P (2 x) = 0:05; c: P (2 x) = 0:99; d:
P (2 x) = 0:01; e: P (2 x) = 0:9; f: P (2 x) = 0:5
3. Considerando gl = 18; calcule las siguientes probabilidades: a: P (2 > 25:989) b: P (2
7:015) c: P (7:015 < 2 < 9:390) d: P (10:865 < 2 < 28:869)
4. Encuentre el valor crítico de 2 para la cola izquierda cuando n = 18 y = 0:01
5. Encuentre el valor crítico de 2 para la cola derecha cuando n = 30 y = 0:05
6. Encuentre el valor crítico de 2 para dos colas cuando n = 19 y = 0:05: Es decir encuentre
el valor 2D con 12 y el valor 2I con 1
2
:
7. Si X tiene una distribución 2 con gl = 10; encuentre la probabilidad P (3:25 X 20:5)

8.2. La distribución t 111
Figura 8.4: Descripción de la distribución t, 6 grados de libertad y con su valor critico a la

izquierda.
8. Si X tiene una distribución 2 con gl = 5; determine las constantes c y d tal que P (c <
X < d) = 0:95 y P (X < c) = 0:025:
8.2 La distribución t
En la vida real para realizar estudios usando la distribución normal, se requieren muestras su-
cientemente grandes (n 30): Esta situación no es práctica, una alternativa para hacer inferencia
sobre la media es usar la distribución t: Si Z y 2n 1 son variables aleatoria independientes,
donde Z tiene una distribución normal estándar y 2 sigue una distribución Ji cuadrada con
n 1 grados de libertad entonces se dice que la variable aleatoria denida por:
Z
Tn 1 =p 2
n 1 =(n 1)
tiene una distribución t con n 1 grados de libertad. La representación de esta distribución

aparece en el grupo de distribuciones presentadas por el CalEst.
Ejemplo 4
La forma de la distribución con 6 grados de libertad se muestra en la Figura 8.5, en esta se

muestra el cálculo de un valor crítico a la izquierda: esto es P (Tn 1 2:467) = 0:024: Se
muestra la probabilidad complementaria P (Tn 1 > 2:467) = 1 0:0243 ' 0:976. Nota: se usa
el símbolo ' por errores de redondeo al considerar el umbral en milésimas.
En muchas situaciones prácticas la desviación estándar de la población es desconocida. Si

la distribución de una variable aleatoria X es aproximadamente normal, entonces
X
t= p
S= n
tiene una distribución t de Student.

Los valores críticos de t se denotan por tc ; y se tiene P (Tn 1 > tc ) = ; donde está entre 0
y 1: La distribución t tiene las siguientes propiedades.
1. La distribución t es de forma acampanada y simétrica alrededor de la media.
2. La distribución t es una familia de curva cada una es determinada por un parámetro llamado
grados de libertad. Los grados de libertad son igual al tamaño de la muestra menos uno,
gl = n 1:
3. El área total bajo la curva es 1 o 100%:
4. La media, la mediana y la moda de la distribución son igual a cero.
5. Conforme el número de grados de libertad, crece la distribución se aproxima a una normal.

(Aunque es un resultado asintótico), después de los 30 gl, la distribución t es muy cercana
a la normal estándar. En CalEst la distribución t se tiene hasta un valor de n = 300.
Nota: Observe que debido a la simetría:
= P ( Tn 1 tc ) = P (Tn 1 tc ) = 1 P (Tn 1 tc )
Por lo que
P (Tn 1 tc ) = 1
Se llega a la conclusión de que
tc ( 1; n 1) = t( 1; n 1)
Ver Figura 8.6.
Ejemplo 5
Encontrar el valor crítico tc en la cola derecha de la distribución t Student con = 0:01 y

n = 17:
8.2. La distribución t 113
Figura 8.5: Descripción de la distribución t para = 0:01 y gl = 16.
Solución
Los grados de libertad son gl = n 1 = 17 1 = 16: Usando el bloque de distribución en el

CalEst: la distribución t de Student en la Figura 8.5. El área sombreada corresponde al valor
de = 0:01 y t0 = 2:583 es el valor crítico. En símbolos:
P (Tn 1 > 2:583) = 0:01
en la tabla de la derecha, es la alternativa para encontrar los valores t de la distribución para un

valor de dado. En este caso usar la inversa. También se pueden encontrar probabilidades para
diferentes valores de t.
Ejemplo 6
Usar la tabla de probabilidades de la distribución t con 13 gl, para encontrar la probabilidad:

a: P (T 0:45); b: P (T 2:56); c:P ( 1:9 T 1:9)
Solución
a: P (T 0:45) = 0:330; b: P (T 2:56) = 0:0118; c:P ( 1:9 T 1:9) = 0:920

Figura 8.6: Cálculo de los valores críticos de la distribución t para = :05 y gl = 25
Ejemplo 7
Encontrar los valores críticos t0 y t0 para las colas derecha e izquierda respectivamente de la
distribución t, con = 0:05 y n = 26:
Solución
Los grados de libertad son n 1 = 26 1 = 25: En este caso se toma 1

2
para indicar la
probabilidad de cada cola, es decir 12 = 0:025: {Los valores de t0 = 2:059 y t0 = 2:059; ver
Figura 8.6.
Ejercicios
1. Encontrar los valores críticos para la cola izquierda en cada inciso.
(a) t(0:0 5; 7); t(0:0 1; 7); t(0:005; 7); t(0:10; 7)
(b) t(0:05; 12); t(0:01; 12); t(0:005; 12); t(0:10; 12)
(c) t(0:05; 25); t(0:01; 25); t(0:005; 25); t(0:10; 25)

8.3. La distribución F 115
2. Encontrar las siguientes probabilidades
(a) P (T 2:7); P (T 1:56) P ( 2 T 2) con n = 18
(b) P (T 3:5); P (T 0:58); P ( 2:5 T 2:5) con n = 35
(c) P (T 1:35); P (T 3:5); P ( 3 T 3) con n = 6
8.3 La distribución F
Si 2(n) y 2(m) son variables aleatorias Ji cuadrados con n y m grados de libertad respectivamente,
entonces se dice que la variable aleatoria F (n; m) se dene por:
2(n) =n
F (n; m) =
2(m) =m
Como una distribución F con n y m grados de libertad. La notación grados libertad en el

numerador glN = n; y en el denominador glD = m:
Ejemplo 8
En la Figura 8.7 se presenta la distribución F con 4 y 7 grados de libertad, con un valor de

= 0:05, es decir: F (0:05; 4; 7) = 4:121: También se ilustra el uso de la tabla que funciona
como calculadora de ésta distribución. Es conveniente realizar varios ejercicios con base en
esta distribución para obtener un mayor dominio sobre el cálculo de los valores de F dada una
probabilidad, o calcular probabilidades a partir de un valor de F .
El valor de se le conoce como nivel de signicancia y es la probabilidad de que F (n; m) sea
mayor que FD ; a este valor de FD se le conoce como punto crítico a la derecha de la distribución
F: Es decir:
P (F (n; m) > FD (; 4; 7)) =
El valor de está entre 0 y 1 (0 < < 1); la distribución F cumple con la propiedad
1
F (1 ; n; m) =
F (; m; n)
Otra propiedad de la distribución F en su relación con la distribución t-student, ésta es:

F (; 1; m) = t2 (=2; m):
Figura 8.7: Probabilidad a la derecha de 4.12 en una distribución F .
Guía para encontrar los valores críticos para la distribución F
1. Especicar el nivel de signicancia :
2. Determinar los grados de libertad para el numerador glN:
3. Determinar los grados de libertad para el denominador glD :
4. Use la distribución F en CalEst
(a) Valor de cola derecha, describe la probabilidad a la derecha del punto FD (n; m), es
decir: P (F (n; m) > FD (n; m)) =
(b) Valor de cola izquierda; se obtiene la probabilidad a la izquierda del punto FI (n; m)
1
FI (n; m) =
FD (m; n)
Ejemplo 9
Ilustración de propiedad FI (n; m) = 1

FD (m;n)
8.3. La distribución F 117
Figura 8.8: Valores de F para una probabilidad 1 :
Caso 1 glN = 3 y glD = 6; FD ( = 0:05; 3; 6) = 4:757; P (F > 4:757) = 0:05:

Cálculos
1 1
FI (1 0:05 = 0:95; 6; 3) = = = 0:210
F ( = 0:05; 3; 6) 4:757
Nota. Dada esta propiedad en los libros de estadística, generalmente aparecen los valores de
la distribución F a la derecha.
Una ventaja usando el CalEst es que usando los cursores, puede obtener rápidamente los
valores críticos de F a la izquierda de y a la derecha de :
Caso 2. glN = 6 glD = 3 FD ( = 0:05; 6; 3) = 8:940
1 1
FI (1 0:05 = 0:95; 3; 6) = = = 0:11183
F ( = 0:05; 6; 3) 8:940
En la Figura 8.8 se ilustra el caso bilateral de la distribución F .
Ejercicios
1. Calcular los valores de F en la distribución F para los siguientes casos:

F (0:025; 7; 5); F (0:1; 3; 8); F (0:05; 5; 7); F (0:9; 5; 7); F (0:01; 10; 12): Use las
grácas y tablas de la distribución F del CalEst.
2. Calcular el valor de F en la distribución F con glN = glD = 24 y = 0:001: Dadas estas

condiciones encontrar la probabilidad a la derecha si F = 3:83.
3. Encontrar el valor crítico derecho de FD cuando los valores de son: = 0:05; = 0:025;
= 0:01 y = 0:005 respectivamente, donde los grados de libertad son: glN = 6 y
glD = 29: Para estas condiciones encontrar el valor crítico a la siguiente FI :
4. Encontrar las probabilidades a la derecha de F = 5:40 para los tres siguientes pares de
grados de libertad i. glN = 4 y glD = 40; ii. glN = 6 y glD = 29; iii. glN = 10 y glD = 12:
5. Si F0 = 4:83 con glN = 4 glD = 8 encontrar las probabilidades P (F (4; 8) > 4:83);
1
P ( F (8;4) < 0:97):
Capítulo 9
Estimación estadística
9.1 Parámetro y estimación

Objetivo: Comprender la importancia de la inferencia estadística
La inferencia estadística es una herramienta muy útil para resolver una gran cantidad de cues-
tiones que se presentan en la vida cotidiana, en el desarrollo tecnológico y en la investigación
cientíca. Los problemas citados en la entrada de esta unidad son ejemplos típicos de inferencia
estadística.
En el primer caso, las personas forman un conjunto grande de individuos. A éste se le
denomina población. Para tomar decisiones adecuadas en la dieta alimenticia, es necesario
conocer si un producto alimenticio ayuda en promedio a reducir el IMC -índice de masa corporal-.
Se toma una muestra de personas obesas con la idea de que el promedio de la reducción del IMC
en esa muestra sea una buena estimación del promedio de reducción en toda la población. De
esta manera, se podría decir que el tratamiento para adelgazar fue en promedio efectivo.
En la Figura 9.1, se ilustra una población de personas y en el círculo se describe la muestra.
La esencia de la inferencia estadística es adquirir conocimiento sobre una población a través de
la información proporcionada por la muestra, y así extraer conclusiones generales sobre el objeto
de estudio.
Para hacer inferencia estadística acerca de la media de la población, debemos comprender
el comportamiento de la media muestral X. El enfoque de esta unidad es comprender cómo
funciona la X para obtener un conocimiento aproximado de la media poblacional.
En la Figura 9.2, el círculo grande representa la población objeto de estudio y el pequeño
se reere a la muestra que se toma de la población. En realidad, el círculo de la muestra debe
estar dentro de la población como se indica en la Figura 9.1, pero mediante esta gráca puede
visualizarse la relación entre probabilidad e inferencia estadística.
En resumen, necesitamos aprender a calcular la verosimilitud de una muestra particular
seleccionada de una población. En ese sentido, lo que estamos haciendo es recorrer el camino de
119
120 9. Estimación estadística
la población a la muestra, como la echa de arriba en la Figura 9.2. Sin embargo, nuestra meta
nal es ir de la muestra a la población, esto es, hacer lo que representa la echa de abajo de la
Figura 9.2. Con ello, decimos que se usa la información de la muestra para elaborar armaciones
en términos de probabilidad sobre el comportamiento de la población. Esta temática es un fuerte
componente con temas relacionados con la investigación, se hace un breve resumen de elementos
relacionados con esta área.
Investigación
Tanto las ciencias sociales como las ciencias naturales inician la investigación de una forma
controlada, sistematizada, crítica, con el n primordial de aprobar o desechar hipótesis como
explicativas de los fenómenos del comportamiento del ser humano. Su punto de partida está
también en la observación de los hechos, en la formulación del problema, en la estructuración de
la hipótesis y en la búsqueda de pruebas para confrontar esas hipótesis, con el n de establecer
una ley o norma explicativa de la conducta social de los individuos (Tamayo, 2002).
Tipos de investigación cuantitativa
Investigación descriptiva. Se reere a la etapa preparatoria del trabajo cientíco que permita
ordenar el resultado de las observaciones de las conductas, las características, los factores, los
procedimientos y otras variables de fenómenos y hechos. Este tipo de investigación no tiene
hipótesis explicada.
Investigación analítica. Es un procedimiento más complejo con respecto a la investigación
descriptiva, que consiste fundamentalmente en establecer la comparación de variables entre gru-
pos de estudio y de control sin aplicar o manipular las variables, estudiando éstas según se dan
naturalmente en los grupos. Además, se reere a la proposición de hipótesis que el investigador
trata de probar o negar.
Investigación experimental. Es un procedimiento metodológico en el cual un grupo de
individuos o conglomerado, son divididos en forma aleatoria en grupos de estudio y control y
son analizados con respecto a un factor o medida que el investigador introduce para estudiar y
evaluar.
Problema 1 Salario profesional
Una cuestión de suma importancia para los profesionistas que acaban de egresar de la universidad
y están en busca de empleo es el salario.
Una universidad le encargó a una empresa que realiza estudios de mercado una encuesta para
saber, entre otros factores, el salario percibido por las personas que terminaron hace tres años o
menos la carrera de ingeniero industrial en diferentes universidades. En este caso la población de
9.1. Parámetro y estimación 121
Figura 9.1: Idea general entre población y una muestra de ella.
Figura 9.2: Descripción del procedimiento de inferencia estadística

Figura 9.3: Tabla de salarios
interés la forman todos los ingenieros industriales que egresaron de las universidades en México
y tienen tres años o menos de haber egresado y están trabajando.
Preguntas sobre la naturaleza del problema
El salario establece el centro de las relaciones de intercambio entre las personas y las organiza-
ciones. Todas las personas dentro de las organizaciones ofrecen su tiempo y su fuerza de trabajo
a cambio de dinero. Esto representa el intercambio de una equivalencia entre derechos y obliga-
ciones recíprocas entre el empleado y el empleador. Varias preguntas surgen para conocer los
niveles de salarios: ¿Qué tan competitivo es el salario de un ingeniero industrial recién egresado?
¿Cómo es este salario con respecto a otras profesiones? ¿Existen empresas que pagan mejor que
otras?
Recopilación de datos
Con el n de plantear la idea establecida entre los datos de una población y el procedimiento
para obtener una muestra y a partir de ella, realizar la inferencia estadística sobre la población.
Consideremos una población de 50 ingenieros industriales y su salario. En la Figura 9.3 se
identica con ID a los 50 ingenieros para facilitar el procedimiento de extracción de la muestra.
Recordemos que a partir de la información de la muestra pueden conocerse las características
de la población. En este caso, se considera una población pequeña donde se puede calcular su
media y desviación estándar (puedes ejecutar este cálculo en el paquete estadístico que viene en
el CD). La media y la desviación estándar para esta población pequeña N = 50 son:
= 6170 y
= 972
(En este caso se expresa la desviación estándar de manera aproximada:

=)
9.1. Parámetro y estimación 123
El objetivo es observar que cuando se toma una muestra, ésta nos aproxima al valor real de
la media poblacional; en la pr
actica este valor es desconocido:
La media y la desviación estándar para la muestra son X y S , respectivamente. Así,
para estimar la media de la población con la media de la muestra se realiza lo siguiente:
=X un error o = X + un error
Las preguntas centrales en este caso son: ¿Qué tan pequeño es el error? ¿Con qué con-
anza obtenemos el resultado? Con el propósito de motivar estas ideas se plantea una estrategia
para seleccionar la muestra.
Procedimiento
Metemos en un caja 50 papeles numerados del 1 al 50 y seleccionamos varias muestras de tamaño
n = 5. Los cinco papeles que salieron para la muestra son: 18, 41, 40, 45, 22 y los salarios
correspondientes son: 4940, 6040, 6350, 5760, 5490. Por lo tanto, la media muestral es:
4940 + 6040 + 6350 + 5760 + 5490

X= = 5696
5
Este valor es una estimación puntual del valor de la media poblacional . Como se puede
observar existe una discrepancia con el valor real de la media de 474 (valor del error).
= X + error = 5696 + 474
9.1.1 Estimación puntual

La estimacion es el proceso que permite inferir sobre los posibles valores de los parámetros que
describen la población.
Proceso: Como es muy probable que se desconozcan los valores de los parámetros que
representan a una población, se recurre a la información proporcionada en la muestra para
contar con una idea de los valores de los parámetros. Lo que puede resultar lógico es identicar
un descriptor numérico para la muestra. Este estadístico, llamado estimaci
on puntual , se puede
usar para estimar la medida correspondiente a la población.
Recordemos que un estadístico es la medida numérica que se calcula a partir de los datos
observados en una muestra
Una estimación puntual es un número calculado a partir de la muestra.

Éste se usa para estimar un parámetro de la población.
Un estimador puntual es una fórmula que se emplea para

calcular la estimación puntual en un conjunto de datos.
Recuerda que un parámetro es una medida numérica de la población. Los parámetros en

realidad son desconocidos.
9.1.2 Muestreo con reemplazo y sin reemplazo

Como se habrá observado, al extraer el papel que identique a una persona para conocer su
salario, éste puede regresarse a la caja (con reemplazo) o no regresarlo (sin reemplazo). Reem-
plazar el papel en un millón de casos realmente no importa. De hecho, al reemplazar el primer
papel antes de sacar el segundo, las observaciones en la primera y la segunda extracciones son
totalmente independientes. No obstante, si no se reemplaza el papel, el segundo resultado de la
extracción afectará ligeramente la segunda extracción. En poblaciones pequeñas el efecto sí es
importante.
Muestreo aleatorio simple
El desarrollo matemático es más sencillo si las observaciones son independientes. En esta unidad
se va a suponer el muestreo aleatorio con reemplazo, al cual también suele llamarse muestreo
aleatorio simple.
Ejemplo 1
Siguiendo los datos de salario del Problema 1.

a) Obtener 4 muestras aleatorias simples adicionales de tamaño n = 5, estimar la media en
cada caso y la discrepancia con respecto a la media poblacional .
b) Seleccionar de manera aleatoria 5 muestras de tamaño n = 10, siguiendo el mismo pro-
cedimiento del inciso anterior, y calcular X y X .
c) ¿Qué diferencias observas en X para cada uno de los incisos anteriores?
d) Seleccionar la muestra usando el paquete estadístico (módulo Extras, opción Generador
de números) o la tabla de números aleatorios.
Solución
a) En la columna 1 de la Tabla 9.1 se ha reproducido la muestra que se obtuvo en el problema. Las
siguientes muestras fueron seleccionadas mediante el muestreo aleatorio simple. En los últimos
dos renglones se han calculado X y X .
9.2. Distribución muestral de la media muestral 125
b) Ahora extraemos de la caja con reemplazo 10 papeles y anotamos el número que corres-
ponde al salario. Las muestras y los valores seleccionados de 5 muestras de tamaño n = 10 y el
cálculo de X y X , se presentan en la Tabla 9.1.
c) Observemos que la discrepancia entre la media muestral X y la media poblacional es
menor cuando la muestra es de mayor tama~
no: ¿Qué piensas que ocurriría si se aumentara el
tamaño de la muestra? ¿Por qué?
d) Usa el generador de números aleatorios que se presenta en el CalEst.
Tabla 9.1 Selección de 5 muestras de tamaño n = 5 y el cálculo de X y X :
9.2 Distribución muestral de la media muestral

Objetivo: Conocer cómo se construye la distribución de la media muestral.
Problema 2 Evaluación continua del aprendizaje
La dirección de una escuela desea dar seguimiento durante el año al aprendizaje global de sus
alumnos. Para ello, cada semana aplica una evaluación a una muestra de 10 estudiantes. Dicha
evaluación consiste en un examen de conocimientos generales y se evalúa en una escala de 0 a
100. Por experiencia, se sabe que la media es = 60:5 y la desviación estándar es = 10:5 .
Preguntas sobre la naturaleza del problema
¿Cómo puede haber un conocimiento continúo del desempeño de los alumnos sin la necesidad
de aplicar una evaluación a todos los estudiantes? ¿Cuál es la precisión de la información si
aumenta el número de estudiantes evaluados? ¿Qué información proporciona la media en cada
muestra para contar con una idea clara del aprovechamiento de los alumnos?
Recopilación de datos
Se siguió el siguiente procedimiento.

Figura 9.4: Gráca que describe la muestra de calicaciones para 10 alumnos durante 12 semanas.
1. Para la primera semana seleccionar una muestra de 10 alumnos y calcular la media de las
calicaciones.
2. Seleccionar una muestra de tamaño n = 10 durante 12 semanas y calcular la media de las

calicaciones para cada una de las semanas.
3. Bosquejar un diagrama de puntos para las 12 medias del inciso anterior.
Análisis de la información
1. La muestra de n = 10 fue: 71, 62, 66, 51, 65, 67, 47, 60, 50 y 58. La media muestral para
este conjunto de datos es:
71 + 62 + 66 + 51 + 65 + 67 + 47 + 60 + 50 + 58
X= = 59:7
10
Este valor es una estimación puntual de la media para la población.
2. En la Figura 9.4 se describe la muestra para cada una de las 12 semanas. Los signos +
indican el valor de la media muestral en cada semana. En la Figura 9.4 se puede observar
que en la semana 1 las calicaciones fueron bajas y el promedio, en este caso, lo reeja.
En la semana 2, por el contrario, las calicaciones fueron altas. Con el n de observar la
discrepancia de la estimación con respecto al parámetro, se traza la media como se ve
en la Figura 9.5. Ahí se puede observar que, salvo en las muestras 1 y 2, las medias de las
muestras están muy próximas a .
3. En la Tabla 9.2 se presentaron los valores de las medias en cada muestra. En la Figura 9.6
se describe el diagrama de puntos para estas medias.
Figura 9.5: Gráca que ilustra las medias de las muestras de calicaciones para 10 alumnos y su
referencia con la media poblacional.
Tabla 9.2 Medias de cada muesta
Ejemplo 2
Con referencia al Problema 2 describamos la distribución de X para muestras de tamaño n =

6; n = 24 y n = 100.
Solución
Para examinar la distribución de X con diferentes tamaños de muestra se usa la información del
ejemplo anterior. En el primer caso, se obtienen 120 muestras de tamaño n = 6 y se calculan las
medias. La distribución de esas 120 medias se ilustra en el primer histograma de la Figura 9.7,
donde se puede observar la variación de esta distribución.
En el segundo histograma se describe la distribución de X para 120 muestras de tamaño
n = 24. Como se advierte en esta situación, existe menor variación con respecto a la distribución
anterior. Finalmente, se aumentó el tamaño de la muestra a 100, y la distribución de X se
presenta en el tercer histograma. Ahí se observa que los valores de la media muestral están más
próximos al valor de la media .
Figura 9.6: Diagrama de puntos que ilustra la distribución de las medias muestrales.
Figura 9.7: Histogramas de medias muestrales para una población de estudiantes.
Es claro que la dirección de la escuela adquiere mayor conocimiento de lo que ocurre con sus
alumnos en la medida en que el tamaño de la muestra crezca, pero desde luego tendría que gastar
más recursos y tiempo para obtener esa información.
Resultado teórico
El valor de la media muestral X varía de una muestra a otra. Llamamos a X un estimador

puntual, pero éste también es una variable aleatoria. En unidades anteriores aprendimos que una
variable aleatoria tiene una media, una desviación estándar y una distribución de probabilidad.
De modo que la variable aleatoria X cuenta con una media, una desviación estándar y una
distribución de probabilidad.
Notemos que la media es ahora la media de todos los posibles valores de X y se denota por:
x
Ésta corresponde al parámetro de la distribución de X . La desviación estándar es la

desviación estándar de los valores de X y se indica por:
x
De manera análoga, ésta es el parámetro para la desviación estándar de la distribución X .

Mediante métodos matemáticos se puede demostrar que dichos parámetros se relacionaban con
los parámetros de la variable aleatoria X . Esta asociación se establece mediante las expresiones:
x =
y

x = p
n
En esta última expresión revela que la desviación estándar disminuye en la medida que el
tamaño de la muestra crece.
Ejemplo 3
Si hemos seleccionado una muestra de tamaño n = 10 con x = 9 , ¿cuántas observaciones más

necesitamos tomar para reducir x a 4.5, a 3 o a 1?
Solución
La expresión x = p
n
relaciona la desviación estándar de la media muestral X , la desviación
estándar de la variable X y el tamaño de muestra n. Con la información proporcionada por
los datos se necesita conocer el valor de . Así, la expresión x = pn se puede escribir como
p
= n x ; o 2 = n 2x . Sustituyendo los valores se tiene que 2 = 10 92 = 810 .
Para encontrar un valor del tamaño de muestra se requiere tener los valores de las desviaciones
2
estándar y x , esto es, n = 2.
x
Entonces, el tamaño de muestra si se desea reducir x a 4.5,
es:
2 810
n= 2
= = 40
x (4:5)2
Con las 10 observaciones que se tienen, entonces se necesitarán 30 observaciones más.

Observa que habrá un mejor conocimiento sobre los parámetros de la población si hay más
observaciones en la muestra. Esta situación se ve reejada si la desviación estándar x disminuye;
en tal caso, se dice que aumenta la precisión de la estimación.
Figura 9.8: Descripción de la relación entre la distribución de las variables aleatorias X y X.
Práctica
La nalidad es ilustrar cómo emplear la distribución normal en el CalEst para mostrar la relación
entre la varianza 2 de la distribución de la variable X y la varianza 2X distribución de la variable
X: Información: se tiene que 2 = 729 ( = 27); n = 9, por lo tanto 2X = 81 ( x = 9): La
Figura 9.8 extiende la idea de la Figura 9.7. La gráca de la derecha en la Figura 9.8 muestra
la normal con ( = 60; = 27) y la de la izquierda es una normal con (x = 60; x = 9)
distribución muestral. A partir de esta descripción se pueden realizar varios ejercicios para
estudiar y comprender esta relación. Esta práctica será de mucha utilidad para comprender los
conceptos que exponen diferentes libros sobre inferencia estadística, y reproducir la descripción
gráca que presentan sobre la distribución normal, la normal estándar y la t-Student.
Resultado técnico
Si las mediciones de X vienen de una distribución normal, se sigue que la distribución muestral
de X también es normal, Figura 9.8.
En el proceso de estandarizar, ésta se puede escribir como una normal estándar. Como se
indica por la siguiente expresión:
X x X
z= =
x p
n
9.3. Teorema de límite central 131
Ejemplo 4
El pH mide la alcalinidad o acidez de una sustancia química. En un proceso de elaboración de

harinas, X es la variable aleatoria que mide el pH y se considera que ésta tiene una distribución
normal con parámetros = 5:30 y = 0:4 . Se toman 25 mediciones aleatorias en un nuevo
proceso con una media de pH de 5.10. Una media más pequeña a este valor resulta crítica para el
proceso. ¿Cuál es la probabilidad de obtener una media por abajo de 5.10? Ilustrar este ejemplo
usando la distribución normal en el CalEst.
Solución
Como la distribución normal de X con parámetros = 5:30 y = 0:4 , entonces X, tendrá

una distribución normal con media = 5:30 y desviación estándar x = p
n
= 0:4
p
25
= 0:08 . La
probabilidad es:
!
X x X 5:10 5:30
P (X 5:10) = P = = = P (z 2:5)
x p 0:08
n
Puesto que z es una variable normal estándar, su probabilidad la podemos obtener usando
el paquete estadístico o las tablas de probabilidad. En este caso se encuentra que un valor
P (z 2:5) = 0:006 , lo que indica que hay pocas posibilidades de obtener una media muestral
por debajo de 5.10; por lo tanto, el nuevo proceso no afecta el pH.
9.3 Teorema de límite central

Objetivo: Comprender lo que se conoce como teorema de límite central y la importancia del
resultado en la inferencia estadística.
En función de los resultados observados en el Ejemplo 3, se ve que cuando se aumenta el
tamaño de muestra la distribución de X se aproxima a una distribución normal. Esta situación
es importante y se enuncia en lo que se conoce como teorema de l{mite central.
Teorema de límite central

Si se seleccionan muestras aleatorias de tamaño n de una población,
sin importar la forma de su distribución, con media y desviación
estándar ; cuando n es sucientemente grande, la distribución de
la variable X se aproxima a la distribución normal con
Media X ; tal que X = ; y

Desviación estándar X igual a p
n
Figura 9.9: Ilustración de la distribución muestral para diferentes tamaños de muestra cuando
la población original no tiene una distribución normal.
Este resultado es muy apropiado, dado que especica la distribución X para muestras grandes.
Por lo general, desde un punto de vista práctico es suciente con que el tamaño de n sea de 20 o 30
para considerar la distribución de X como normal. Recurriendo a la simulación por computadora,
en la Figura 9.9 se muestran algunos casos.
En referencia a la Figura 9.9, se observa la forma de la distribución de la población examinando
un histograma de las observaciones en la muestra. En el primer caso se presenta una distribución
triangular. Si se selecciona una muestra de tamaño n = 1, la forma de la distribución muestral
dada por el histograma es similar a la de la población. Si el tamaño de muestra n crece, la
distribución de X se aproxima a una normal.
Una situación similar ocurre cuando la distribución de la población es uniforme. Si la muestra
es de tamaño n = 1, el histograma reproduce la distribución original. Si n crece, la distribución
de X se aproxima a una normal.
Ejemplo 5
Una empresa que manufactura aparatos eléctricos efectúa pruebas de habilidad y destreza durante
el proceso de contratación de personal. La calicación de esas pruebas conforman una población
con una media = 100 y desviación estándar = 32 . ¿Cuál es la media x y la desviación
estándar x de una distribución muestral X cuya muestra es de tamaño n = x ? ¿Cuál es la

probabildad de la calicación de la media muestral este entre 90 y 120?
Solución
En este caso se desea conocer los parámetros x y x de la distribución muestral X ; entonces,

se recurre a los resultados del teorema del límite central. Para ello se utilizan las expresiones:

x = y x = p
n
Se tiene que x = = 100 y x = p

n
= p32
16
=8.
Utilizando la distribución normal del CalEst con parámetros ( = 100; x = 8) se tiene que
P (90 X 120) = 0:888: El resultado mediante la normal estándar es: P ( 1:25 Z 2:5) =
0:888
Ejercicio 1
Una población normal tiene media 200 y desviación estándar 100. Suponga que la distribución
de la media muestral es generada por muestras de tamaño n = 100. a. Encuentre el valor de x .
b. Encuentre x . c. Encontrar P (195 X 205): d. Encontrar P (X > 210): e. Si un valor de
X es seleccionado, encontrar P (195 X 205): Compare con el inciso c. f. Si un valor de X
es seleccionado, encontrar P (X > 210): Compare con el inciso d.
Ejercicio 2
Repita el ejercicio si n = 400: ¿Qué observa con respecto a las probabilidades en los incisos c y
d en los ejercicios 1 y 2?
Ejercicio 3
Una población normal tiene media 200 y varianza 144. Suponga que la distribución de la media
muestral es generada por muestras de tamaño n = 36. a. Encuentre los valores de x . y x . b.
Obtener P (320 X 322): c. Obtener P (X > 323): d. Obtener P (321 < X < 327):
Resumen del teorema del límite central

Se pueden combinar los tres puntos del teorema del límite central, y se obtiene la Figura 9.10,
en la cual se describe la distribución muestral X cuando n es sucientemente grande. De la pre-
sentación de la distribución normal se sabe que 68% de los valores caen dentro de una desviación
Figura 9.10: P (42 X 78) ' 0:95, el caso de dos desviaciones alrededor de la media, esta
varia para diferentes valores de n:
estándar de la media. Mientras que 95% cae dentro de dos desviaciones estándar de la media y
99.7% cae dentro de tres desviaciones estándar de la media.
Con respecto a la variable aleatoria X, se puede advertir que 68% de las veces observaremos
una media muestral que cae dentro de una desviación estándar de una media poblacional
desconocida. De manera similar, 95% de las veces observaremos una media muestral que cae
dentro de dos desviaciones estándar de , y 99.7% de las veces observaremos una media muestral
que cae dentro de tres desviaciones estándar de . Esta idea da lugar al concepto conocido como
intervalo de conanza o una estimación por intervalo, que se verá más adelante.
Relación con la Binomial
Una de las aplicaciones más importantes del teorema del límite control, es su relación con las
variables aleatorias normales. Considere la variable aleatoria binomial X con parámetros (n; p);
donde X representa el número de éxitos que n ensayos independientes con probabilidad de éxito
p cada uno de ellos. La variable X se expresa como:
X = X1 + X2 + ::: + Xn
Figura 9.11: Distribución binomial para p = 0:3, para diferentes valores crecientes de n:
donde

1 si el ensayo i-ésimo es un éxito
Xi =
0 si el ensayo i-ésimo es un fracaso
Puesto que la media de Xi = E(Xi ) = p y la varianza de Xi es V ar(Xi ) = p(1 p) entonces

por el teorema de límite central, la variable
X np
p ;
np(1 p)
para n grande, será aproximadamente una variable normal estándar. Esta situación se puede
ilustrar de manera visual, utilizando el CalEst.
Ejemplo 6
Ilustre en la opción de distribuciones en CalEst, la distribución binomial con (n; p) = (10; 0:3);
varíe esta distribución haciendo crecer n; por ejemplo (20; 0:3); (30; 0:3); (60; 0:3):Esta situación
se ilustra en la Figura 9.11.
Nota. Se pueden ilustrar varios casos combinados p y poniendo diferentes valores n; tal que
n vaya creciendo.
Figura 9.12: Ilustra el teorema de límite central, distribución uniforme n = 1, luego con n = 9:
Ejercicio 4
En una escuela el 60% de los estudiantes no recibe atención médica, se selecciona una muestra
de 150 estudiantes. Si la variable aleatoria X -no recibe atención médica- tiene una distribución
binomial. Estime la probabilidad de que a. X está entre 82 y 101. b. X mayor que 97.
Ejercicio 5
Una encuesta realizada en una ciudad, a gran escala, revela que el 30% de la población adulta
consume regularmente bebidas alcohólicas durante la comida. Considerando esta proporción,
¿cuál es la probabilidad de que de 1000 entrevistados el número de consumidores de bebidas
alcohólicas sea a. menor a 280, b. 316 o más?
Ejemplo 7 (Teorema de límite central lanzando dados)
Se muestra el teorema con el lanzamiento de dados. Así se lanza un dado n = 1, el modelo

para este experimento es una distribución uniforme. Vea esta situación visualmente usando la
opción TLC en el programa, lance 1000 veces el dado de 100 en 100 ¿Qué observa? El número
de lanzamientos del dado puede seguir creciendo. Ahora lance 5000 veces el dado de 100 en 100
vaya observando los cambios en la distribución.
Repita el mismo procedimiento lanzando los dados 1000, 2000, 3000, 4000 y 5000, variando
el números de dados lanzados, por ejemplo para n = 2; n = 3; n = 4; n = 5 y n = 10: Realice
esta actividad varias veces. En cada caso la distribución tiende a hacerse simétrica.
En la Figura 9.12 se ilustra el caso con un dado, distribución aproximadamente uniforme,
nueve dados distribución cercana a una normal.
Práctica
1. Lanzar un dado 10 veces, registrar el número x que muestra el dado al caer. Calcule la
media.
Lanzamiento Tamaño de muestra n = 10 x
1 6 3 2 2 5 1 4 4 1 3 3.1
2. Repita este procedimiento 24 veces. Haga el histograma para las 25 medias. Calcule la
media y la varianza de estos 25, medias, datos.
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Nota. El modelo probabilístico al lanzar un dado, tiene una distribución uniforme P (X) = 16 ;
X = 1; 2; 3; 4; 5; 6 con media
6
X
1 1 1 1 1 1
= Xi P (Xi ) = 1 +2 +3 +4 +5 +6 = 3:5
i=1
6 6 6 6 6 6
6
X 6
X
2 = (Xi )2 P (Xi ) = Xi2 P (Xi ) 2 =
i=1 i=1

1 1 1 1 1 1
1 +4 +9 + 16 + 25 + 36 (3:5)2 = 2:92
6 6 6 6 6 6
así
p
= 2:92 = 1:71
Por el teorema de límite central
1:71
x = = 3:5; x = p = p = 0:54
n 10
¿Qué tan aproximados son estos valores con los estimados en la práctica?
Ejemplo 8
Suponga que el peso X de un adulto hombre se distribuye como una normal con media = 77
kg., y = 9 kg. Es decir X N (77; 92 ): Si tomamos una muestra de 16 adultos. ¿Cuál es la
probabilidad de que la media caiga entre 73 y 82 kgs? Observe esta situación y haga los cálculos
usando el CalEst.
Usando el programa con la distribución normal con media 77 y desviación estándar p916 = 2:25
se obtiene que P (73 X 82) ' 0:949; para normal estándar: P ( 1:778 Z 2:222) ' 0:949:
Si se calcula la probabilidad que un adulto seleccionado al azar tenga un peso entre 73 y 82
kg.
P (73 X 82) ' 0:382
9.4 Intervalos de conanza para la media

9.4.1 Muestras grandes
Objetivo: Conocer el procedimiento para obtener la estimación por intervalo de conanza de la
media poblacional .
9.4. Intervalos de conanza para la media 139
9.4.2 Ideas preliminares

Para saber cuánto gana en el mercado laboral un ingeniero industrial recién egresado, se toma
una muestra de tamaño n = 30 (se les pregunta su salario). Con la información proporcionada
por la encuesta se obtiene una media de X = 6200 del salario. La media muestral X es una
estimación puntual conable de , pero probablemente no esté exactamente sobre la . En
lugar de esta idea, se puede especicar con una alta probabilidad digamos de 0.90 o 0.95 que un
rango en particular cubre la verdadera media. Por ejemplo, a partir de los datos de la muestra,
se puede decir que el intervalo de 6100 a 6300 cubre la media con una probabilidad de 0.95.
Esto es un ejemplo de un intervalo de conf ianza. Veamos ahora cuáles son los componentes
de un intervalo de conanza. Dicho intervalo comprende dos límites: uno inferior IN y otro
superior SU . En el ejemplo citado IN = 6100 y SU = 6300. Por otro lado, el intervalo de
conanza tiene un valor de probabilidad, el cual suele conocerse como nivel de conf ianza y se
denota por 1 . Para el ejemplo será: = 0:05 y 1 = 0:95 . Expresado en términos de
porcentaje se dice que hay un intervalo de 95% de conanza.
En general, un intervalo de conanza para la media poblacional presenta la forma:
P (IN SU ) = 1
9.4.3 Intervalo de conanza para cuando la población es normalmente

distribuida y la desviación estándar es conocida
Con el n de ilustrar el procedimiento para la estimación por intervalo de media , se propone
que la muestra sea seleccionada de una población cuya distribución es normal y en el supuesto
de conocer la desviación estándar. No obstante, en la práctica el valor de no se conoce, aunque
más adelante veremos cómo obtener un intervalo de conanza sin estos supuestos.
Detalles técnicos
Para hallar el intervalo de conanza necesitamos calcular los valores de los límites inferior IN
y superior SU . Como sabemos, la X calculada de la muestra no será exactamente igual a la
media; por tanto, lo primero que debe hacerse es establecer el tamaño de un cierto margen de
error (e), conocido como error muestral, así:
=X e
De esta manera, los límites inferior y superior del intervalo de conanza son:
IN = X e
SU = X + e
Recordemos que para cubrir 95% de los valores de una distribución normal se tiene que:
P ( 1:96 z 1:96) = 0:95
Considerando la distribución muestral de X se tiene que ésta en forma de una normal estándar
se escribe como:
X
z= p
= n
Se sustituye ésta en la expresión anterior y se simplica; entonces:

P (X 1:96 p X + 1:96 p ) = 0:95
n n
Reuniendo esta información tenemos que el error (e) es:

e = 1:96 p
n
Por consiguiente, los límites inferior y superior son:

IN = X 1:96 p SU = X + 1:96 p
n n
Resumen de los intervalos de conanza para
Desviación Tamaño de Intervalo de

Población
estándar muestra conanza para
IN =X z=2 pn
Normal Conocida n1
SU =X + z=2 pn
IN =X z=2 pSn
Normal Desconocida n > 30
SU =X + z=2 pSn
IN =X t=2 pSn
Normal Desconocida n 30
SU =X + t=2 pSn
IN =X z=2 pn
No normal Conocida n > 30
SU =X + z=2 pn
Tabla 7.4 Intervalos de conanza para .

9.4. Intervalos de conanza para la media 141
Figura 9.13: Intervalo de conanza para la media.
Una expresión general para el error (e), también conocido como precisión, éste se expresa
por:

e = z=2 p o e = t=2 p (9.1)
n n
Ejemplo 9
En el estudio del tiempo de respuesta para resolver un rompecabezas sobre la República Mexi-
cana, aparece en la columna tiempo del archivo: est.tab contenido en la opción de herramientas
del programa. Se desea estimar un intervalo del 95% conanza, en este caso como el tamaño
de muestra es mayor que 30, se puede usar la distribución normal estándar z. En el grupo de
inferencia aparece la alternativa de intervalos de conanza, al seleccionarla aparece una tabla
como la que se muestra a la izquierda en la Figura 9.13 se completan los cuadros en blanco, se
da aceptar a continuación se proporciona el resultado.
Note que las elecciones Múltiple niveles permite observar el tamaño del intervalo según los
niveles de conanza que se utilicen y Múltiple desviaciones permite considerar otros intervalos
en términos a la desviación estándar. Estas observaciones están relacionadas con la expresión
(9.1). Compruebe que la longitud de los intervalos también dependen del tamaño de muestra
n, a medida que n crece, se cuenta con mayor información la precisión de los intervalos es
mejor.Verique estas diferentes situaciones usando el programa.
Capítulo 10
Inferencia estadística
10.1 Presentación
La inferencia estadística es un procedimiento cuyo objetivo es generar una conclusión sobre
una población, mediante la información que proporciona una muestra seleccionada de datos. Una
rama importante de la inferencia es la prueba de hipótesis. Éste consiste en un procedimiento
para seleccionar entre dos hipótesis, conocidas como hipótesis nula e hipótesis alternativa. Una
hipótesis es una armación que expresa el valor del parámetro de una población, por ejemplo
la media poblacional : En la prueba de hipótesis, la idea es dar el benecio de la duda a la
hipótesis nula, si el valor del parámetro es razonable. La hipótesis nula se rechaza solo si los
datos de la muestra indican que el valor del parámetro es no razonable, esto se verá con mas
detalle en el análisis de datos. Formalmente:
Hipótesis nula, es una proposición que indica que no hay diferencia (no hay efecto, no hay
cambio). Ésta se plantea usualmente en términos del parámetro (medida de la población) y
contiene el signo igual, ésta se denota por H0 .
Hipótesis Alternativa, es una armación que indica la verdad del parámetro en lugar de
la hipótesis nula. Usualmente se expresa con los símbolos <; > o 6=. Éste se denota por H1 :
10.2 Prueba de hipótesis: utilizando el CalEst

En esta parte, se considera una serie de ejemplos para ilustrar cómo funciona CalEst para realizar
pruebas de hipótesis.
Considere la siguiente situación: Un neurólogo y un sicólogo quieren tener estrategias para
estudiar el desarrollo del cerebro en diferentes personas. Evaluar esta estrategia y conocer el
desarrollo del cerebro, utilizan una fotografía de granos de café y en la que hay que identicar la
cara de un hombre escondida entre los granos. El tiempo de respuesta de los individuos sometidos
al estudio les indicará que tan desarrollado tienen el cerebro. Ellos contemplan que por lo general
143
144 10. Inferencia estadística
las persona reaccionan de manera lenta ante este tipo de situaciones, en este caso suponen que
el tiempo de respuesta es menor a 130 segundos. En este estudio las hipótesis son:
H0 : = 130
H1 : < 130
Los investigadores aplicaron la foto a 120 personas los resultados obtenidos: X = 124:8 y
una desviación estándar S = 38:6, lo que genera un error estándar pS
n
= 3:52: La idea del
procedimiento para realizar la prueba de hipótesis se describe en la Figura 10.1. A la derecha
se ha descrito la normal con media 130 y desviación estándar 3.52 que caracteriza a la hipótesis
nula. A la izquierda, con el n de jar ideas, se ha considerado una normal con media 120
y desviación estándar 3.52 que representa a una de las alternativas posibles. Se determinó un
umbral, X = 124:21; punto de referencia, en lo sucesivo se llamará punto crítico, que permitirá
establecer una estructura probabilística para no rechazar o rechazar la hipótesis nula y, en lo
sucesivo, tomar una decisión. Por ejemplo, decir que el valor de x está tan lejos de 130 que
es improbable, se dice que ese valor tiene una probabilidad baja. Esta probabilidad se conoce
como nivel de signicancia de la prueba. Este se denota por ; probabilidad de rechazar una
hipótesis nula verdadera: observe el área a la izquierda de la distribución normal derecha (color
rojo), y cambia de una prueba de hipótesis a otra. Note que:
= P (X xc ) = P (X 124:21) = 0:0499 ' 0:05:
= P (X > xc ) = P (X 124:21) = 0:116; probabilidad considerando la distribución

normal izquierda (curva verde).
La información recabada por los datos permiten calcular la media xm , información de la

muestra, si esta cae a la izquierda del punto crítico se dice que los datos no apoyan a la hipótesis
nula y por lo tanto se rechaza. En el otro caso, si cae a la derecha no se rechaza la hipótesis
nula. Una alternativa para la prueba de hipótesis es usar el nivel de signicancia descriptivo
o valor p. En este caso la probabilidad es:
p = P (X xm ) = P (X 124:8) = 0:0698; en esta situación se compara éste valor con

el nivel de signicancia : Así como p = 0:0698 > 0:05 = , se concluye no rechazar la
hipótesis nula.
Observe cómo las grácas de la Figura 6.1 describen las situaciones posibles y las decisiones
potenciales relacionadas en la prueba de hipótesis. La gráca sugiere dos tipos de errores al
realizar la prueba, el área a la izquierda del punto crítico bajo la hipótesis nula indica que se
10.2. Prueba de hipótesis: utilizando el CalEst 145
Figura 10.1: Grácas de la función normal para la hipótesis nula y una alternativa jada con
anterioridad.
rechaza H0 cuando en realidad H0 es verdadera. El otro, el área a la derecha del punto crítico
considerando la hipótesis alternativa indica que no se rechaza H0 ; en realidad, H0 es falsa. En
resumen:
Hipótesis nula
Decisión H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta : Error tipo II
Rechazar H0 : Error tipo I Decisión correcta
10.2.1 Utilidad de la opción didáctica H0

Las ideas mostradas en la Figura 10.1 se pueden extender para ilustrar otras pruebas de hipótesis
bajo la distribución normal. Para ello primero tiene que identicar el estadístico x, éste es la
variable aleatoria que va en el eje horizontal. A continuación debe calcular el error estándar
de x; que aquí se ha escrito simplemente por la letra griega : Varios de estos valores x y
su respectivo se explicarán más adelante. Estos comprenden pruebas tales como la de una
proporción, diferencia de proporciones, diferencia de medias, pendiente de una recta. Estas ideas
son similares cuando se realiza la prueba de hipótesis usando la distribución t-Student.
Primero se recordará el procedimiento para realizar una prueba de hipótesis, éste es el que
plantean la mayoría de libros de estadística, y se resume en siete pasos:
1. Plantear una hipótesis nula, H0 .
2. Establecer la hipótesis alternativa, H1 .
3. Proponer un nivel de signicancia.
4. Encontrar un valor de referencia (punto crítico) a partir de una distribución de probabilidad

(por ejemplo t-student, ji-cuadrada, normal,...)
5. Calcular el estadístico de prueba correspondiente utilizando los datos de la muestra.
6. Comparar el valor del estadístico calculado con el punto crítico.
7. Dar una conclusión.
El planteamiento general de las hipótesis es:

La hipótesis nula
H 0 : = 0
La hipótesis alternativa es alguna de las siguientes opciones:
1. H1 : < 0
2. H1 : > 0
3. H1 : 6= 0
Las dos primeras se les conoce como pruebas de un lado y la tercera como prueba bilateral.
En un apéndice al nal de este apartado se muestra un ejemplo de la lógica de la prueba de
hipótesis.
10.2.2 Observaciones que surgen de las bondades de utilizar el CalEst:

1. Todos estos conceptos e ideas se plantean en la Figura 10.1.
2. Para realizar una prueba de hipótesis en el caso de la distribución normal, aplique esta
distribución en el CalEst:
(a) Primero escriba el valor de la media y de enter -teclado de la computadora-, luego

escriba el valor del error estándar . Con el valor del nivel de signicancia encuentre
el valor crítico xc éste servirá de referencia para evaluar si los datos apoyan a la
hipótesis nula, una vez calculado el valor del estadístico x, x si se reere a la media
10.3. Prueba de hipótesis para una media 147
muestral. Este punto resume todos los siete pasos del procedimiento de la prueba de
hipótesis. Ver ejemplo 1 para captar la idea y luego se puede aplicar a otros ejemplos
y ejercicios.
(b) El procedimiento que trae la mayoría de libros comprende a la distribución normal

estándar. En ese caso habrá que calcular el valor zc en un normal estándar y éste
corresponde al valor de signicancia :
(c) Una alternativa para realizar una prueba de hipótesis es calcular la probabilidad, nivel
de signicancia descriptivo, p = P (X < x) o p = P (X > x): El procedimiento consiste
en comparar éste valor con el nivel de signicancia ; si p < se rechaza la hipótesis
nula, no se rechaza en caso contrario, es decir, p > :
3. Use la distribución normal y elabore dos grácas de la normal con los parámetros (; )
correspondientes al problema. En la primera use el umbral para referirse al punto crítico,
en la otra ponga el umbral en el valor del estadístico de prueba, analice esta información
gráca. Compare los niveles de signicancia y p -descriptivo. Nota. Reduzca el tamaño
de las grácas para que pueda realizar el estudio.
4. Estas ideas se aplican a pruebas de hipótesis para estadísticos que siguen una distribución
t-Student, F , o 2 .
Ejercicio 1
Del bloque didáctica en CalEst use la opción hipótesis para ilustrar las situaciones : H1 : < 0 ;
y H1 : > 0 para diferentes valores del nivel de signicancia y de :
10.3 Prueba de hipótesis para una media

10.3.1 Caso muestras grandes
Ejemplo 1. Caso prueba bilateral o de dos colas
En un proceso de llenado, el peso de bolsas de uvas pasas no debe pesar ni más ni menos de 336
gramos. Para vericar que el proceso cumple con esta especicación el responsable del proceso
toma una muestra de 40 bolsas de un lote de producción. La media del peso de estas bolsas
fue de xm = 329:91 -valor en la muestra-, con una desviación estándar de s = 11 Nota: No se
proporciona el valor de , pero dado que el valor de la muestra es grande, se usará el valor de s
como un estimado, así = 11:
Figura 10.2: Prueba de hipótesis aplicando la opción de la distribución normal en CalEst.
Solución.
Las hipótesis que se plantean para describir esta situación son:
H0 : = 336
H1 : 6= 336
Para vericar si los datos apoyan la hipótesis nula con un nivel de signicancia de =
0:05(5%):
En la Figura 10.2 se resume el procedimiento de los siete pasos para realizar una prueba
de hipótesis. En ésta, se describen los dos umbrales tanto en la gráca cómo en la calculadora
-tabla-, éstos corresponden a una prueba bilateral -dos colas-. En la gráca por cuestiones de
compilación se han redondeado los valores. El procedimiento indica que se debe comparar el valor
del estadístico xm = 329:91 con el valor crítico xc = 332:6: En este caso resulta que xm < xc , por
lo que se rechaza la hipótesis nula.
Observación. En la mayoría de los libros de estadística realizan la prueba de hipótesis usando
la distribución normal estándar Z, así construyen el valor del estadístico Zm en función de la
información generada por la muestra y este se compara con el valor de Z considerando el nivel
de signicancia . Se comparan estos dos valores para evaluar si los datos apoyan la hipótesis
nula. Siguiendo esa línea a continuación se describe el procedimiento.
Prueba aplicando la distribución normal estándar.
Bajo el supuesto de que la hipótesis nula es verdadera, se realiza el cálculo del estadístico de
prueba.
Xm 329:91 336
Zm = p = p = 3:5
= n 11= 40
El valor de Z en la distribución normal correspondiente al valor de = 0:05 es zc = 1:96:

Recuerde que en la distribución normal en el CalEst se reportan los valores estandarizados de
Z; vea la gráca en la Figura 10.2. A partir de esos valores se puede obtener la conclusión de la
prueba de hipótesis.
El detalle del procedimiento de la prueba de hipótesis con la normal estándar sigue a con-
tinuación. Observe la gráca en la Figura 10.3 generada por CalEst, entre los valores de los
umbrales (puntos críticos) se tiene la región de no rechazo, a la izquierda del umbral 1 y a la
derecha del umbral 2 se tiene la región de rechazo. El área sombreada corresponde al nivel de
signicancia, =2 = 0:025 a la izquierda y =2 = 0:025 a la derecha. Una alternativa es usar las
tablas de la distribución normal, el equivalente en CalEst es usar la calculadora de la normal
tal y como se ilustra a la derecha de la gráca en la Figura 10.3.
Dado que zm < zc , se rechaza H0 : Conclusión: esta situación indica que las bolsas de uvas
pasas dan menos del peso que se espera. Por lo tanto habrá que estudiar el proceso para lograr
que las bolsas den el peso.
Prueba usando la información de la muestra

Alternativamente se complementa la información calculando el intervalo de conanza de (1 )%:
En este ejemplo se establece el del 95%
(X Z=2 pn ; X + Z=2 pn )
(329:91 1:96(1:74); 329:91 + 1:96(1:74))
Reporte: Intervalo de conanza del 95% es:
(326:4996; 333:3204)
Nota: Este intervalo no contiene a = 336, lo que conrma lo dicho por la prueba de
hipótesis.
Figura 10.3: Descripción de los valores críticos en una prueba de hipótesis bilateral
El proceso operativo de la prueba de hipótesis se puede realizar utilizando CalEst, para ello
hay que ir a la opción: Inferencia, Prueba de hipótesis 1 una media y aparece el cuadro como se
muestra en la Figura 10.4, este se completa con la información generada por los datos muestrales,
enseguida se oprime el botón Aceptar y se despliega la información desarrollada en el ejemplo 1.
La salida de los resultados mediante el CalEst se muestran en la Figura 10.5, en este reporte
se obtiene el estadístico calculado y los valores críticos; de esta manera obtiene la información
para poder concluir si rechazar o no rechazar la hipótesis nula. En esta Figura se destaca la parte
visual del software, a la derecha se ilustra la gráca de la distribución normal, sin necesidad de
pasar por el proceso de estandarizar la normal, se ven los valores críticos. Así se tiene que la
media X m = 329:91 es menor que el valor crítico X c = 332:6 y sigue la conclusión ya anotada.
Esta situación esta descrita con más detalle en la Figura 10.2
Prueba mediante la comparación de probabilidades
Se puede observar que en el cuarto renglón de resultados aparece un valor de p, Figura 10.5, éste
corresponde a la probabilidad que deja a la izquierda el estadístico calculado, también denomi-
nado nivel de signicancia descriptivo. En símbolos P (Z 3:5) = 0:00046, esta probabilidad
se compara con el nivel de signicancia ; esta es otra alternativa para decidir sobre la hipótesis
nula. Por lo tanto si p < , se rechaza H0 , haga las grácas en el software para ilustrar los valores
Figura 10.4: Descripción del procedimiento para realizar la prueba de hipótesis para una media
usando el CalEst.
de y p use también las tablas para estimar los valores. Note que en el caso de las pruebas
bilaterales se tiene 2 ; en ese sentido se tiene el valor correspondiente de p para los dos lados.
Comentario: así la presentación visual y operativa del procedimiento de la prueba de hipóte-
sis le generará benecios en la comprensión de los conceptos y desarrollo de esta metodología
estadística. Este mismo mecanismo se aplica en otras pruebas de hipótesis aplicando estadís-
ticos con base en otras distribuciones de probabilidad; lo que le permitirá evaluar los ejemplos
planteados por otros libros y resolver los ejercicios que éstos proponen.
Ejemplo 2.
Un ingeniero de un proceso de curtiduría plantea que el índice de elongación de una piel, debe
estar arriba de 64 unidades. En una muestra de n = 45 pieles, la media del índice de elongación
es de x = 65:5 y desviación estándar de = 3:5, ésta se escribe en función del parámetro dado
que la muestra es sucientemente grande.
Solución.
Las hipótesis correspondientes en este ejemplo son:
H0 : = 64
H1 : > 64
El nivel de signicancia es = 0:05 ver Figura 10.6, de esta manera la región de rechazo se
establece por:
= P (Z 1:644) = 0:05
Figura 10.5: Resultados que se obtiene al efectuar una prueba de hipótesis utilizando el CalEst
Por lo tanto el valor crítico es zc = 1:644: El valor estadístico de prueba se obtiene por:
65:6 64 1:6
zm = p = = 3:07
3:5= 45 0:5217
Al comparar zm con zc se observa que zm > zc ; por lo tanto se rechaza la hipótesis nula y
efectivamente el índice de elongación está por arriba de 64 unidades.
Considerando el nivel de signicancia descriptivo p se tiene que:
p = P (Z 3:07) = 0:00107
Lo que conrma la decisión planteada, se rechaza H0 porque p < = 0:05. La información

proporcionada por esta muestra permite concluir que las pieles tienen una elongación mayor a
64:
Intervalo de conanza del 95%: Alternativamente se puede estimar el intervalo de conanza
(1 )%, la expresión es:

x Z=2 p :
n
Si = 0:05; entonces el intervalo de conanza del 95% de conanza es:

Figura 10.6: Descripción del punto crítico
(65:6 1:96(:5217); 65:6 + 1:96(:527))

(64:577; 66:623)
Realice este procedimiento empleando CalEst.
Ejemplo 3.
Una escuela aplica una prueba de 100 preguntas para conocer el conocimiento general de sus
estudiantes. Para ello se tomó una muestra de 45 estudiantes al nalizar el ciclo escolar de
primaria. El director de la escuela considera que se tiene un nivel bajo si la prueba arroja una
media menor a 70 puntos.
Solución.
Los valores alcanzados en la prueba se resumen por la siguiente información:
La media X = 68:14; la desviación estándar = 10:34 y el tamaño de muestra n = 42:
Las hipótesis planteada por el director se establecen por:
H0 : = 70
H1 : < 71
El director quiere ser conservador ante la posibilidad de cometer el error tipo I y propone
el nivel de conanza = 0:02. Previo al análisis, construya la distribución normal en CalEst
empleando la información proporcionada, con ayuda de la gráca y los datos obtenga sus con-
clusiones. Luego compare éstas con los resultados que se dan a continuación.
Figura 10.7: Resultados de la prueba de hipótesis utilizando CalEst.
El reporte proporcionado utilizando CalEst se muestra en la Figura 10.7

El desarrollo más detallado se describe a continuación, estadístico de prueba:
68:14 70
zm = p = 1:17
10:34= 42
El valor del punto crítico: = P (Z 2:05) = 0:02: Puesto zm > zc = 2:05; no se rechaza
la hipótesis nula y por lo tanto la escuela no tiene un nivel bajo considerando el criterio del
director. Alternativamente con el nivel de signicancia descriptivo:
p = P (Z 1:17)
= 0:12
Se conrma que no se rechaza H0 puesto que p >

Finalmente el intervalo de conanza del 98% es:

10:34 10:34
(68:14 2:05 p ; (68:14 + 2:05
42
p
42
(64:429; 71:852)
10.4. Prueba de hipótesis para una proporción 155
10.4 Prueba de hipótesis para una proporción

Las pruebas de hipótesis sobre proporciones se emplean en muchas actividades de investigación.
Por ejemplo conocer la proporción de personas que están a favor de una propuesta después de
una campaña publicitaria, los elementos que intervienen en un ejemplo como estos son:
Prueba: consiste en seleccionar de manera aleatoria una persona

Exito = E, la persona seleccionada está a favor de la propuesta
F alla = F , la persona seleccionada no está a favor de la propuesta
P (E) = p, la proporción de los participantes a favor de la propuesta
P (F ) = q = 1 p, la proporción de los participantes en contra de la propuesta
n, número de pruebas, es decir, número de participantes en la muestra
x, número de éxitos,
p es estimado por pb = x
n
Si np 5 y n(1 p) 5 para una distribución binomial, entonces la distribución muestral

para pb es normal con
p
p) = p y pb = (b
pb = (b p) = p(1 p)=n
Use la distribución binomial en CalEst para observar esta situación, para ello je un valor de
p e incremente el valor de n. El estadístico de prueba es la proporción muestral pb y el estadístico
de prueba estandarizado es z:
pb pb pb p
z= =p
pb p(1 p)=n
Los intervalos de conanza (1 )% se calculan de acuerdo al valor de z:
p p
pb z=2 ( pb(1 pb)=n); pb + z=2 ( pb(1 pb=n)
Ejemplo 4.
En un estudio se indica que al menos el 20% de los adultos en una población son alérgicos a un
medicamento. En una muestra aleatoria de 100 adultos de esa población, el 15% indicaron que
son alérgicos. Con = 0:01, hay evidencia para apoyar lo que señaló el estudio.
Figura 10.8: Ambiente en CalEst para realizar una prueba de hipótesis sobre una proporción.
Solución
La información generada por la muestra es: pb = 0:15; n = 100. Las hipótesis se plantean como
sigue:
H0 : p = 0:2
H1 : p < 0:2
Se cumplen las restricciones 100(0:2) = 20 5 y 100(0:8) = 80 5: Antes de realizar

la prueba de hipótesis haga la gráca de la distribución normal con media pb = (b
p) = p
p
y desviación estándar pb = (bp) = p(1 p)=n: A partir de la información dada en el
planteamiento del ejemplo, use esta gráca y obtenga sus conclusiones.
En la Figura 10.8 se describe el procedimiento que se debe generar en CalEst para realizar
la prueba de hipótesis de una proporción. En este caso se muestra la información señalada en el
ejemplo.
El nivel de signicancia se estableció por = 0:01, el valor de z para el alfa establecido es
zc = 2:33: Ahora se calcula el estadístico
pb p 0:15 0:20
zm = p =p = 1:25
p(1 p)=n (0:2)(0:8)=100
dado que zm = 1:25 < zc = 2:33; se concluye que no se rechaza la hipótesis nula.
Figura 10.9: Resumen de resultados para la prueba de hipótesis de una proporción.
Se complementa la información calculando el valor de signicancia descriptivo, es decir la

probabilidad de que z sea menor que 1:25; este es p = 0:1056; y representa el área que deja a
la izquierda el valor del estadístico, es decir p = P (z < 1:25):
Finalmente el intervalo de conanza del (1 )% para una proporción p se calcula de acuerdo
al valor de z: La expresión para el intervalos es:
p p
pb z=2 ( pb(1 pb)=n); pb + z=2 ( pb(1 pb)=n)
(0:058; 0:242)
Lo que indica que con un 99% de conanza la población que es alérgicos a los medicamentos está
entre el 6% y 24%. A continuación, en la Figura 10.9, los resultados generados por CalEst
Ejemplo 5.
Con el n de conocer la memoria a corto plazo un sicólogo realiza una prueba con 200 personas,
para ello le ayudan varios de sus asistentes. La prueba consiste en mostrar una tarjeta con 16
palabras a cada una de las personas por 30 segundos, a continuación se les distrae por un minuto
platicando con los entrevistados. Finalmente se le pide a la persona que diga las palabras que
Figura 10.10: Descripción de la región rechazo y no rechazo identicando los puntos críticos
recuerda, para ello se da un minuto. El investigador plantea que el 23% de las personas recuerdan
8 o más palabras. La información que recogieron de las n = 200 entrevistas es que pb = 0:27
recuerdan 8 o más palabras.
Solución
Las hipótesis para este estudio se plantean por:
H0 : p = 0:23
H1 = p 6= 0:23
El nivel de signicancia que se propone para realizar ésta prueba es de = 0:05; para este
valor de alfa se puede vericar en CalEst los valores de z; ver Figura 10.10, estos son: z = 1:96
y z = 1:96:
En la Figura 10.10 se observa la región de no rechazo establecida por los puntos críticos
(umbrales), además de manera clásica se obtienen estos mediante una tabla de la distribución
normal estándar = 0 y = 1. El equivalente aquí es usar la calculadora señalada por un aro
en la Figura, al aplicar ésta se generan los valores de los puntos críticos para este caso.
La parte operativa inicia vericando las condiciones que garanticen usar una distribución
normal, es decir: 200(0:23) = 46 5 y 200(0:77) = 154 5: Nuevamente puede recurrir a la
gráca de la distribución normal para llevar a cabo el procedimiento de prueba de hipótesis.
El cálculo del estadístico de prueba mediante la normal estándar es como sigue:
pb p 0:27 0:23
zm = p =p = 1:34
p(1 p)=n (0:23)(0:77)=200
Como este valor está entre 1:96 y 1:96 no se rechaza la hipótesis nula. También se concluye
así porque el valor de la probabilidad correspondiente al zm calculado es (p = P (Z zm ) =
0:177), así p > :
El intervalo de conanza del 95% para este ejemplo se calculan de acuerdo al valor de Z:
p p
pb z=2 ( pb(1 pb=n); pb + z=2 ( pb(1 pb)=n)
p p
0:27 1:96( 0:27(0:73)=200); 0:27 + 1:96( 0:27(0:73=200)
(0:208; 0:332)
Lo que indica que entre el 21% y 33% recuerdan 8 o más palabras.
Ejemplo 6.
Un médico supone que más del 55% de las personas que viven en una zona cercana a una renería
tienen algún problema de salud relacionado con en el aparato respiratorio. Para conrmar su
supuesto realiza con un equipo de médicos y varios laboratorios 425 pruebas en una localidad y
encontró que 255 padecían un mal respiratorio.
Solución
El médico se plantea las siguientes hipótesis:
H0 : p = 0:55
H1 : p > 0:55
Se desea probar esa hipótesis con un nivel de signicancia del 0:05. Se desea calcular el valor
de zc que cumpla P (Z > zc ) = 0:05: Como se ilustra en la siguiente Figura 10.11
Figura 10.11: Cálculo del punto crítico, dato el nivel de signicancia.
Los datos son pb = 0:60 y n = 425: Se verica que se cumplan las restricciones para satisfacer
la condiciones de normalidad: 425(0:55) = 234 5 y 425(0:45) = 191 5: Nuevamente se
recomienda usar la gráca de la distribución normal.
El valor del estadístico es:
pb p 0:6 0:55
zm = p =p = 2:07;
p(1 p)=n (0:55)(0:45)=425
puesto que este valor es mayor que el valor de Z correspondiente a = 0:05; es decir zm =
2:07 > zc = 1:645: Por lo tanto se rechaza la hipótesis nula.
Los intervalos de conanza (1 )% se calculan de acuerdo al valor de z=2 :
p p
pb z=2 ( pb(1 pb=n); pb + z=2 ( pb(1 pb)=n)
(0:553; 0:647)
Con el 95% conanza se observa que entre el 55% y el 65% de la población tienen algún problema
en el aparato respiratorio.
10.5. Prueba de hipótesis para una media: 161
10.5 Prueba de hipótesis para una media:

10.5.1 Caso muestras pequeñas.
Cuando el tamaño de muestra no es muy grande es necesario recurrir a la distribución conocida
como t de Student, estudiada por W.R. Gosset quién la publicó bajo el seudónimo Student.
10.5.2 Valores críticos en una distribución t-student

En esta parte, se presenta un resumen del procedimiento para realizar la prueba de hipótesis de
la media de una población, cuando el tamaño muestra es al menos de 30. En este caso se utiliza
la distribución t de Student.
Guía para encontrar los valores críticos en una distribución t Student: En la opción dis-
tribuciones del CalEst seleccione la distribución t Student a continuación se indica cómo usar
esta distribución para encontrar el valor crítico y calcular probabilidades. Se recomienda repasar
la sección 8.2.
1. Identicar el nivel de signicancia
2. Identicar los grados de libertad, gl : n 1
3. Usar la opción del umbral con una barra o dos barras de abajo según sea el caso, para
identicar el valor correspondiente a la distribución t de Student. Si la prueba de hipótesis
es:
Al lado izquierdo
Al lado derecho
Bilateral (en este caso se ve señalado el lado derecho o izquierdo, use =2).
10.5.3 Prueba de hipótesis de un lado

En este apartado se estudiará la prueba de hipótesis para un lado, también conocida como la
prueba de una cola. Primero se considera el caso de la izquierda H1 : < 0 . Planteamiento
general:
H 0 : = 0
H1 : < 0
La t que equivale a la que tradicionalmente se dice t de tablas, tc = t( = 0:05; gl = 9) =

1:83426, ver Figura 10.12. Si en el procedimiento que se sigue para realizar la prueba de
Figura 10.12: Prueba de hipótesis t cuando la alternativa es menor.
hipótesis, resulta que tm < tc entonces se rechaza la hipótesis H0 donde
x 0
tm =
pS
n
De manera equivalente se puede realizar la prueba empleando el nivel de signicancia descriptivo

p: Si p < = 0:05 se rechaza la hipótesis H0 : Donde p probabilidad: valor del área que deja tm
a la izquierda, p = P (t tm ):
Por ejemplo tm = 2:28 este valor es menor que tc , por lo tanto se rechaza la hipótesis H0 .
En este caso p = 0:024 menos que .
10.5.4 Prueba de hipótesis de un lado

Similar al caso anterior, ahora la prueba es a la derecha H1 : > 0 : El planteamiento general
es:
H 0 : = 0
H1 : > 0
La t de tablas, tc = t(1 ; gl = 9) = t(1 0:05; gl = 9) = t(0:95; gl = 9) = 1:83426, Figura

Figura 10.13: Prueba de hipótesis t para el lado derecho
10.13: Se calcula el valor de t a partir de la información de la muestra.
x 0
tm =
pS
n
Si tm > tc se rechaza la hipótesis H0 .

De manera equivalente Si p probabilidad: valor del área que deja tm a la derecha. Por ejemplo
tm = 1:68 este valor es menor que tc por lo tanto no se rechaza la hipótesis H0 . En este caso
p = 0:0656 mayor que
10.5.5 Prueba de hipótesis de dos lados

En este caso se estudiará la prueba de dos colas H1 : 6= 0 , donde H1 : > 0 o H1 : < 0 :
Planteamiento general
H 0 : = 0
H1 : 6= 0
Considere que = 0:10: La t de tablas, tc = t(=2 = 0:05; gl = 9) = 1:83426 o tc =

t(1 =2 = 0:95; gl = 9) = 1:83426; Figura 10.14
Figura 10.14: Prueba de hipótesis t cuando la alternativa es diferente
Si tm < tc o tm > tc se rechaza la hipótesis H0 , donde
x 0
tm =
pS
n
De manera equivalente, si p < = 0:10 se rechaza la hipótesis H0 . Donde p probabilidad:

valor del área que deja tm a la izquierda o derecha.
Por redondeo el valor de es 0.10
Regla de decisión
La idea principal de la prueba de hipótesis es comparar dos números, el valor del estadístico de
prueba con el valor de una distribución de probabilidad (éste se obtiene a partir de un valor de
signicancia -probabilidad- establecido por ).
Por ejemplo en una distribución t de Student el valor del estadístico de prueba:
x
tm =
pS
n
Se compara con un valor de la distribución tc de Student t(; n 1), donde es una proba-

bilidad y n 1 son los grados de libertad.
Si la hipótesis alternativa es H1 : < o se rechaza la hipótesis si tm es menor que

tc = t(; n 1).
Si la hipótesis alternativa es H1 : > o se rechaza la hipótesis si tm es mayor que

tc = t(1 ; n 1).
Si la hipótesis alternativa es H1 : 6= o , se rechaza la hipótesis si tm es menor que

tc = t(=2; n 1) o mayor que tc = t(1 =2; n 1).
Una alternativa es comparar la probabilidad p que deja el estadístico de prueba (a la derecha

o izquierda) con el valor de signicancia -probabilidad- . Análogamente:
Si la hipótesis alternativa es H1 : < o se rechaza la hipótesis si p es menor que .
Si la hipótesis alternativa es H1 : > o se rechaza la hipótesis si (1 p) es menor que

(1 ).
Si la hipótesis alternativa es H1 : 6= o se rechaza la hipótesis si p=2 es menor que =2 o

(1 p=2) es menor que (1 =2).
Este procedimiento de prueba de hipótesis se puede realizar con CalEst. Se debe tener en
cuenta que el planteamiento de la hipótesis alternativa surge del contexto del problema que se
desea estudiar. Una vez abierto un archivo o creado un nuevo archivo, vaya a la opción inferencia,
enseguida a prueba de hipótesis y seleccione la opción: una media en seguida la t, ver Figura
10.15.
A continuación, en tres ejemplos se ilustra cada caso, para ello se debe crear un archivo por
el lector con los datos que se muestran en los ejemplos. Un archivo se crea en el CalEst en la
opción: Archivo, al abrir ésta aparece una hoja de cálculo en la que puede capturar los datos. A
partir de ahí se pueden realizar las pruebas planeadas.
Ejemplo 7.
La Secretaría de Salud, recomienda que el nivel de colesterol de una persona debe estar por abajo
de 200 miligramos por 100 mililitros. Los datos que se dan a continuación representan la lectura
del nivel de colesterol en una muestra tomada a 16 personas con edad menor a 40 años:
197 192 179 174 217 186 221 188

209 196 167 238 179 196 191 233
Figura 10.15: Esquema para realizar una prueba de hipótesis t de Student con CalEst
Solución
El planteamiento de las hipótesis son:
H0 : = 200
H1 : < 200
El nivel de signicancia propuesto para realizar esta prueba es = 0:05; en la Figura 10.16
se ilustra el valor del estadístico de prueba que corresponde al área sombreada en la gráca de
la t de Student con 15 grados de libertad, t(; n 1) = t(0:05; 15) = 1:752; Así tc = 1:753:
Cuanticando los datos se tiene que el valor del estadístico de prueba es:.
xm 197:687 200
tm = = 20:706 = 0:447:
pS p
n 16
Se comparan los valores de tc y tm ; tm = 0:447 > tc ; los datos no dan evidencia para rechazar
la hipótesis nula.
Alternativamente, como el valor de p = P (tm 0:44671) = 0:3307; es mayor que = 0:05
(nivel de signicancia) no se rechaza H0 : Lo que indica que esa población de personas no tiene
un colesterol por debajo de 200.
Figura 10.16: Valor de la distribución t-Student para el nivel de signicancia = 0:05
Intervalo de conanza
Con el n de completar la inferencia de los datos se construye un intervalo del (1 )% de
conanza para una media con respecto al caso de muestras pequeñas.

S S
x t(1 =2; n 1) p ; x + t(1 =2; n 1) p
n n
Para construir un intervalo del 95% de conanza 95%, se recurre al calculador de la distribu-
ción en CalEst y se tiene que el valor de t(1 =2; n 1) = t(0:975; 15) = 2:1335:
(197:687 2:1335(5:1775); 197:687 + 2:1335(5:1775))
(186:654; 208:721)
Una vez descrito el procedimiento de la prueba de hipótesis, en la Figura 10.17 se muestran los
resultados que genera el CalEst:
Ejemplo 8.
Un sicólogo elaboró una prueba de memoria en el que, el tiempo de respuesta en minutos es de

3 minutos. Se aplica esta prueba a 10 pacientes y el tiempo adicional de respuesta a los 3, los
resultados: 1.9, 0.8, 1.1, 0.1, -0.1, 4.4, 5.5, 1.6, 4.6, 3.4.
Figura 10.17: Reporte de una prueba de hipótesis para una media con la t de Student.
Solución
El planteamiento de las hipótesis es:
H0 : = 0
H1 : > 0
Se propuso un nivel de signicancia = 0:05(5%), el valor correspondiente tc = t(1 ; n

1) = t(0:95; 9) = 1:833, este valor se verica en el calculador, Figura 10.18. Nota. En los libros de
estadística aparece la tabla de la distribución t-Student para algunos valores de ; y el cálculo de
probabilidades es limitado. En las opciones mostradas en la Figura 10.18 se tienen las opciones
para que usted pueda estimar cualquier probabilidad de esta distribución.
A partir de los datos se calcula el estadístico de prueba y su valor es:
xm 2:33 0
tm = = = 3:679:
pS 0:633
n
Puesto que tm = 3:681 es mayor que tc = t(; n 1) = t(0:95; 9) = 1:833, se rechaza la

hipótesis nula.
Alternativamente se realiza la prueba de hipótesis comparando las probabilidades correspon-
dientes al nivel de signicancia. Con el valor de signicancia descriptivo también se conrma la
Figura 10.18: Valor crítico de la t de Student para el ejemplo.
conclusión, se sigue que p = P (t > 3:681) = 0:0025, este valor es menor que = 0:05 por lo
tanto se rechaza H0 : Efectivamente el tiempo de reacción es mayor como lo establecido por el
sicólogo, esto indica que los pacientes rebasaron el tiempo de respuesta esperado y se les someterá
a nuevos ejercicios de memoria.
Ejemplo 9.
Una empresa que genera un producto químico requiere que la media del nivel de pH en el agua
debe estar en 6:8: El técnico responsable de este proceso toma 19 muestras de agua y mide el
pH de cada una de ellas. Los datos son:
6.7, 7.1, 6.8, 6.9, 6.5, 6.7, 6.6, 6.5, 6.5, 6.2
6.3, 6.6, 7.0, 6.7, 6.9, 6.5, 6.6, 6.9, 6.9
Solución
El planteamiento hipotético para el pH es:
H0 : = 6:8
H1 : 6= 6:8
El nivel de signicancia propuesto es el valor clásico = 0:05: En el caso de la prueba hipótesis

para la diferencia, el valor de se divide entre 2 y los puntos críticos correspondientes a la
distribución tiene los siguientes valores tc = t(0:025; 18) = 2:1004 o tc = t(0:975; 18) = 2:1004:
Se recomienda ver estos valores en la distribución t.
El valor del estadístico:
x 6:679 6:8 0:121

tm = = p = = 2:2258
pS 0:237 19 0:054
n
Como t = 2:2258 es menor a 2:1004, se rechaza la hipótesis nula. De manera análoga se

obtiene el mismo resultado usando el valor de signicancia descriptivo. El valor de p = 0:0195
comparado con el valor de alfa 0:025, se rechaza la hipótesis nula. Este resultado indica que el
nivel del pH está por abajo de lo deseado.
Intervalo de conanza: Se completa el análisis estadístico estimando el intervalo del 95% de

conanza para la media.

S S
x t(1 =2; n 1) p ; x + t(1 =2; n 1) p
n n
(6:679 2:1004(0:0544); 6:679 + 2:1004(0:0544)
(6:564; 6:793)
En este caso el intervalo de conanza no contiene al 6.8, que como alternativa también prueba
la hipótesis. Ya que al no estar 6.8 en el intervalo, se rechaza la hipótesis nula.
10.6 Inferencia sobre la varianza 2 y

La varianza desempeña un papel importante para explicar el desempeño de los procesos o fenó-
menos, ya que una dispersión grande de los datos entorno a la media genera una gran variabilidad
de las características de estudio. Por ejemplo una excesiva variación en las dimensiones de un
producto contribuye a tener una calidad pobre. La expectativa del cliente es tener un producto
uniforme, por ello es importante minimizar la variabilidad. Un aspecto relevante en muchas
situaciones es conocer la varianza o la desviación estándar de un proceso, con la nalidad de
poder reducir ésta. Un resultado importante de la teoría estadística es el siguiente:
El estimador puntual para 2 es S 2 y el estimador puntual para es S,

además S 2 es un estimador insesgado para 2 :
10.6. Inferencia sobre la varianza 2 y 171
10.6.1 Intervalos de conanza y prueba de hipótesis para 2

Es necesario usar la distribución conocida como Ji Cuadrada (Chi cuadrada) 2 en la construc-
ción de intervalos de conanza para la varianza y la desviación estándar. Análogamente ésta
distribución se utiliza para hacer pruebas de hipótesis sobre estos parámetros. Así:
Si una variable aleatoria X tiene una distribución normal, entonces la distribución

2
2 = (n 1)S
2
es una distribución Ji cuadrada para muestras de tamaño n > 1. Esta distribución

tiene cuatro propiedades:
1. Todo los valores 2 son mayores o iguales a cero.
2. La distribución Ji cuadrada es una familia de curvas, cada una determinada por los grados
de libertad.
3. El área bajo la curva de una distribución Ji cuadrada es igual a 1.
4. La distribución Ji cuadrada es sesgada positivamente.
Nota. En el ambiente de CalEst, en la opción Distribuciones aparece la Ji cuadrada, vea

estas propiedades para diferentes grados de libertad.
El intervalo de conanza de (1 )% para 2
Un intervalo de conanza del (1 )% para 2 :

(n 1)S 2 (n 1)S 2
;
2 (1 ; n 1) 2 (; n 1
y un intervalo de conanza del (1 )% para :

s s !
(n 1)S 2 (n 1)S 2
;
2 (1 ; n 1) 2 (; n 1
Formulación de la prueba de hipótesis para 2
Para investigar la posible diferencia signicativa que existe entre la varianza de una población 2
(o desviación estándar ) y un valor de una varianza 20 preseleccionada ( 0 ), el procedimiento
se plantea como sigue:
No existe diferencia signicativa entre la varianza de una población 2 y un valor

preseleccionado para la varianza 20 :
Figura 10.19: En inferencia: Pruebas de hipótesis: Una media 2 : Luego llene la hoja.
En símbolos:
H0 : 2 = 20
Las hipótesis alternativas:
H1 : 2 < 20 H1 : 2 > 20 H1 : 2 6= 20
Ejemplo 10
En los proyectos de mejora, una empresa que opera cines decidió aplicar un programa de capa-
citación para reducir la desviación estándar del tiempo de servicio en sus dulcerías a 2.9 minutos.
Una muestra aleatoria de 23 atenciones a clientes, tiene una desviación estándar 2.1 minutos.
Con = 0:01 (10%). ¿Existe evidencia para sostener que el programa de mejora es exitoso?
Resumen de la información muestral: n = 23 y s = 2:1 minutos. Las hipótesis son:
H0 : 2 = (2:9)2 y H1 : 2 < (2:9)2
= 0:1 es el nivel de signicancia propuesto. El estadístico de prueba:
(n 1)S 2
2 =
2
El procedimiento que realiza el programa para llevar a cabo la inferencia estadística sobre la
varianza, Figura 10.19.
Cálculo del estadístico -el reporte generado por el software se describe en la Figura 10.20-
(23 1)(2:1)2
2m = = 11:54
(2:9)2
Determinación del valor crítico 2c (gl; ) = 2tablas (41 1; 0:10) = 14:042, vea este resultado
usando la distribución en CalEst. Comparando el valor calculado con el valor crítico se tiene:
2
11:54 = 2m < 2c = 14:042
Por lo tanto se rechaza H0 . En efecto el programa de capacitación logra reducir la variabilidad

en la atención a clientes. La prueba alternativa usando el valor de p = P (2m < 11:54) = 0:0338,
observe que p < por lo tanto se rechaza H0 :
Intervalo del (1-)% conanza para 2

!
(n 1)S 2 (n 1)S 2
;
2(22;1 =2) 2(22;=2)
El resultado al sustituir los valores en la expresión anterior proporcional al intervalo del 90% de
conanza para 2
97:02 97:02
( ; ) = (2:8599; 7:8635)
33:924 12:338
Intervalo del 90% conanza para : es (1:6927; 2:804): La desviación estándar en la atención
a clientes estará, con un 90% de conanza, entre 1.7 minutos y 2.8 minutos.
Ejemplo 11
Un sistema de riego, no da uniformidad a la distribución del agua si la varianza es mayor 0.25

unidades (cm/hr)2 . Para probar la uniformidad de la aplicación del agua para un nuevo sistema,
se midió la cantidad de agua después de 1 hora, en 41 lugares seleccionados aleatoriamente. La
media y varianza registrados fueron, 0.85 y 0.27 respectivamente.
H0 : la distribución del agua no es mayor a 0:25:
Resumen de la información muestral: n = 41 y S 2 = 0:27. Las hipótesis
H0 : 2 = 0:25 H1 : 2 > 0:25
Realice la prueba considerando un nivel de signicancia = 0:05: Estadístico de prueba 2

Figura 10.20: Reporte estadístico sobre la inferencia de la varianza 2
(n 1)S 2
2 =
2
Sigue una distribución 2 con gl = n 1 grados de libertad. Cálculo del estadístico
(41 1)(0:27)
2m = = 43:2
0:25
El valor crítico usando la distribución Ji-cuadrada es: 2 = 2tablas (gl; ) = 2tablas (41 1; 0:05) =
55:758: Observe que:
43:2 = 2m < 2c = 55:758
así que no hay suciente evidencia para rechaza H0 : En efecto, este sistema de riego es uniforme
en la distribución de agua. La prueba mediante la comparación de los niveles de signicancia
sigue: el valor de p = P (2m > 43:2) = 0:336, así p > = 0:05 no se rechaza H0
Intervalo del (1-)% conanza para 2

!
(n 1)S 2 (n 1)S 2
2 ;
2(40;1 =2) 2(40;=2)
Sustituyendo los valores de la información proporcionada por la muestra en la expresión anterior,

se tiene el intervalo del 95% de conanza para 2 :

(40)0:27 (40)0:27
; = (0:182; 0:442)
59:342 24:433
Intervalo de conanza para

s s !
(n 1)S 2 (n 1)S 2
2
; 2
X(40;1 =2) X(40;=2)
El intervalo de conanza del 95% de conanza para es (0:427; 0:665), entre estos valores
está la desviación estándar del sistema de riego.
Ejemplo 12
La varianza del peso de engorda en una población de borregos se supone 20 = 225 unidades.
Con el n de conocer si este supuesto es adecuado, se toma una muestra de 16 borregos, a estos
se les pesa y la varianza muestral es S 2 = 428:74.
Solución
Resumen de los datos y de los valores de la distribución Ji cuadrada.para construir el intervalo
del 95% conanza para la varianza: n 1 = 16 1 = 15; S = 20:706
(0:95; 15) = 27:48; 2 (0:025; 15)

= 6:26
2 2

15(20:706) 15(20:706)
25
; 7:26
Finalmente, el intervalo de 95% de conanza para la varianza 2 es:
(233:957; 1027:045)
el intervalo de 95% de conanza para la desviación estándar
(15:29; 32:05)
Planteamiento de la prueba de hipótesis:
H0 : 2 = 20
H1 : 2 6= 20
Figura 10.21: Resultados de la estimación sobre la varianza
En la Figura 10.21 se presentan los resultados generados por CalEst incluyendo los intervalos
de conanza para la varianza y desviación estándar:
Dado que 2m > 2c ; se rechaza la hipótesis nula, equivalentemente lo conrma el valor de
p > : Por lo tanto la varianza del peso de los borregos es diferente a lo establecido. Esta
varianza da lugar a que exista una variabilidad en el peso de los borregos y por lo tanto no
deseada.
Ejemplo 13
Un fabricante de hilo industrial señala que la tensión de su producto al nal de la línea de

producción tiene una varianza diferente a 15.9 unidades. Un auditor selecciona una muestra
aleatoria de 15 carretes al nal de la línea, estos muestran una varianza de 21.8 unidades. Bajo
el supuesto de que la población tiene una muestra normal, verique que estos datos muestran
suciente evidencia para rechazar la hipótesis nula, considere un = 0:05 para el nivel de
signicancia.
Información de la muestra: n = 15 y S 2 = 21:8: Las hipótesis son:
H0 : 2 = 15:9
H1 : 21 6= 15:9
Figura 10.22: Valores críticos con un nivel de signicancia de = 0:05 en la distribución Ji-
cuadrada con gl = 14:
El estadístico de prueba es
(n 1)S 2
2 =
2
Cálculo del estadístico de prueba,
(15 1)(21:8)
2 = = 19:19
15:9
Vea en la Figura 10.22 cómo se obtienen los valores de 2 en =2 y en 1 =2 son respectivamente:
2c = 2tablas (15 1; =2) = 5:629 y 2c = 2tablas (15 1; 1 =2) = 26:119
Observación. La notación anterior es la que regularmente emplean los libros de estadística

para calcular los puntos críticos en la distribución 2 , en el calculador del CalEst es suciente
que señale izquierda o derecha para obtener el valor del punto crítico. No se rechaza H0 ya que
2m < 26:13: Por lo tanto no hay evidencia suciente para decir que la varianza de la tensión del
hilo es diferente a 15.9. La prueba alternativa usando el valor de p; 2p = P (2 (n 1) 19:19) =
2(0:1578) = 0:315: No se rechaza H0 puesto que p >
Intervalo del (1-)% de conanza para 2

(n 1)S 2 (n 1)S 2
;
X 2 (gl; 1 =2) X 2 (gl; =2)
Sustituyendo los valores de la muestra:

14(21:8) 14(21:8)
; = (11:680; 54:210)
26:13 5:63
El intervalo del 95% conanza para es (3:418; 7:363):
10.7 Aplicación en CalEst:

10.7.1 Lógica de la prueba de hipótesis
Con la nalidad de que un usuario tenga una mayor claridad en las ideas de cómo opera una
prueba de hipótesis se ha descrito en el CalEst, un sistema de seguridad. Este se relaciona con
el tema del reconocimiento del iris. El sistema de seguridad consiste en identicar a una persona
mediante la lectura del iris. Si el beneciario pertenece al lugar, el sistema lo identica como
auténtico leyendo el iris. De otra manera es un impostor si el individuo no pertenece al lugar.
Existen otras dos situaciones, la persona es un auténtico pero se rechaza; tal como se ilustra en
la Figura 10.23. La otra situación consiste en que el individuo es un impostor pero la acción
tomada es no rechazar, el sistema se equivoca. Los valores de las probabilidades de rechazar un
auténtico o de aceptar un impostor signica que si se lee el iris 100 veces, aproximadamente el
5% se rechaza un auténtico y 6.7% se acepta un impostor. Como actividad se puede simular
varias veces esta opción para visualizar el procedimiento de prueba de hipótesis, que se explica
más adelante. También se puede simular otros escenarios cambiando la media y la desviación
estándar y de esa manera generar otros sistemas de seguridad.
Planteamiento general del procedimiento de una prueba de hipótesis
Se plantean las hipótesis:
H0 : El sistema identica un auténtico

H1 : El sistema identica un impostor
La Figura 10.23 es un auxiliar para ilustrar la esencia del procedimiento de prueba de hipótesis.
Se tienen cuatro opciones:
1. El sistema acierte en su decisión e identique al usuario como un auténtico cuando éste es

un auténtico.
10.7. Aplicación en CalEst: 179
Figura 10.23: Procedimiento de la prueba de hipótesis ilustrado mediante la lectura del iris.
2. El sistema acierte en su decisión rechazando al individuo cuando éste es un impostor.
3. El sistema se equivoque cuando el individuo es un auténtico y la acción tomada es rechazar,

esto equivale a cometer el error tipo I.
4. Cometer el error tipo II, es decir, el individuo es impostor y la acción tomada es aceptar
en este caso el sistema se equivocó.
Capítulo 11
Inferencia para dos poblaciones
En el trabajo observacional o experimental es frecuente que surja la necesidad de comparar dos

poblaciones. Se pueden citar muchos ejemplos en torno a la comparación, por ejemplo comparar
métodos de enseñanza, de rendimiento, de habilidades, impacto de dos estrategias publicitarias.
Sin embargo, la ejecución de la estrategia experimental juega un papel relevante para generar
la información. Se da el caso de muestras independientes y muestras pareadas, alrededor de
estas estrategias se plantea la necesidad de hacer inferencia estadística. Nuevamente mediante
prueba de hipótesis o la construcción de intervalos de conanza se hace la comparación de dos
poblaciones. En este Capítulo se expondrán diferentes estrategias metodológicas para realizar
prueba de hipótesis y obtener intervalos de conanza, estos se ilustrarán con ejemplos con objeto
de comprender los conceptos y madurar las ideas. Una vez comprendidos los conceptos se puede
usar el CalEst para abreviar el trabajo de cálculo, se inicia la presentación de los temas que se
abordarán en este Capítulo con la opción del calculador estadístico.
Se realizarán pruebas de hipótesis para muestras independientes, Figura 11.1, ésta puede
ocurrir cuando las muestras seleccionadas de dos poblaciones son grandes y en este caso se usa la
distribución normal z o pequeñas y en tal caso se usa la distribución t Student: Para realizar
las prueba de hipótesis sobre dos poblaciones se parte del supuesto de que las varianzas de la
población son iguales, para vericarlo se realiza una prueba de hipótesis sobre las varianzas y en
Figura 11.1: Opción para realizar los cálculos para hacer inferencias sobre dos poblaciones
181
182 11. Inferencia para dos poblaciones
ese caso se usa la prueba F .

Para realizar una hipótesis de muestras independientes:
Las muestras deben ser seleccionadas de manera aleatoria.

Las muestras deben ser independientes. Dos muestras son independientes si la muestra
seleccionada de una población no está relacionada con la muestra de la otra población.
Cada población debe tener una distribución normal.
11.1 Inferencia para dos medias: muestras dependientes

Para probar una hipótesis de dos poblaciones:
1. La hipótesis nula H0 es la hipótesis estadística que usualmente indica que no hay diferencia
entre los parámetros de dos poblaciones.
2. La hipótesis alternativa, es la hipótesis estadística que indica la relación entre las dos
poblaciones y se plantea como menor, mayor o diferente.
Los tres casos son:
H 0 : 1 = 2 H 0 : 1 = 2 H 0 : 1 = 2
(11.1)
H1 : 1 6= 2 H 1 : 1 > 2 H 1 : 1 < 2
11.1.1 La prueba z para la diferencia de medias: Muestras grandes

Con el n de vericar las pruebas planteadas en (11.1), se debe tener en cuenta las siguientes
condiciones:
Las muestras deben ser seleccionadas de manera aleatoria.
Las muestras deben ser independientes. Dos muestras son independientes si la muestra
seleccionada de una población no está relacionada con la muestra de la otra población.
El tamaño de muestra obtenida de cada población debe ser mayor de 30, o si no, cada
población debe tener una distribución normal con varianzas conocidas.
Si se cumplen éstas condiciones entonces la distribución muestral de la diferencia de medias

x1 x2 es una distribución normal con:
media = media(x1 x 2 ) = x 1 x 2 = 1 2
q q 2
2
y error estándar = (x1 2 2
x2 ) = x1 + x2 = n11 + n22
11.1. Inferencia para dos medias: muestras dependientes 183
Aplicación del CalEst en la prueba de hipótesis para diferencia de medias
Para motivar el concepto de esta prueba use la opción didáctica H0 cuya descripción gráca
aparece en la Figura 10.1. En este caso el estadístico x es la diferencia de medias x1 x2
y el error estándar = (x1 x2 ):
Use la distribución normal con los parámetros = media(x1 x2 ) y = (x1 x2 ) para

construir el valor crítico, así como el nivel de signicancia descriptivo p:
En otras pruebas de hipótesis, puede usar las distribuciones como la t de Student, la F

y la Ji-cuadrada entre otras para hacer pruebas de hipótesis en la comparación de dos
poblaciones.
Pruebas de hipótesis utilizando la normal estándar
Este es el procedimiento que usan la mayoría de los libros de estadística, use la distribución
normal estándar en CalEst para realizar estas pruebas.
Dada estas características de la distribución muestral x1 x2 ; el estadístico de prueba es-
tandarizado toma la forma:
(dif erencia observada) (dif erencia hip

otesis)
z=
Error est
andar
La expresión del estadístico de prueba para comparar dos medias es: x1 x2 y en forma es-
tandarizado se indica por:
(x1 x ) (1 2 )
zm = q2 2 (11.2)
1 2
n1
+ n22
En resumen el patrón que se sigue para realizar la prueba de hipótesis en la comparación de dos
medias usando la distribución Z (muestras grandes).
Guía para la diferencia de medias usando el estadístico de prueba z

En palabras En símbolos
1. Identicar las hipótesis nula y alternativa Plantear H0 y H1
2. Especicar el nivel de signicancia Dar el valor de
3. Identicar la distribución muestral
4. Determinar el punto crítico Usar el calculador estadístico: zc
5. Determinar la región de rechazo
6. Calcular el estadístico de prueba Aplicar la expresión 11.2: zm
7. Tomar la decisión estadística: rechazar o no rechazar Comparar zc con zm
8. Interpretar los resultados
Intervalo (1 )% de conanza para 1 2
Con la información generada por los datos se puede construir el intervalo (1 )% de conanza
para la diferencia de medias 1 2 , cuya interpretación indicará explicaciones importantes del
objeto de estudio. Éste se escribe como:
s s
21 22 21 22
(x1 x2 ) zc + < (1 2 ) < (x1 x2 ) + zc +
n1 n2 n1 n2
donde zc = z(1 =2):
Ejemplo 1
Se desea comparar el rendimiento de los estudiantes de preparatoria abierta y el sistema escolar

en los exámenes de matemáticas. En el primer sistema se usa para preparar a los estudiantes un
tipo de material que se denominará A. En el escolar usan un material tipo B. Si 1 es la media
de la calicación que obtendrán los estudiantes en el sistema abierto, y 2 la media para los
estudiantes del sistema escolar. ¿Serán las medias diferentes?. En la tabla siguiente se reportan
los resultados que se obtuvieron al evaluar a una muestra aleatoria de cada sistema.
Número de Media Desviación estándar

Material estudiantes muestral muestral
A n1 = 35 x1 = 78 S1 = 8
B n2 = 40 x2 = 75 S2 = 6
Resultados al evaluar los dos sistemas

Figura 11.2: Resultados del procedimiento para probar la diferencia de dos medias.
Solución
Para vericar esta prueba se siguen los pasos señalados en la Tabla 1 de esta sección, las varianzas
son desconocidas. Por otro lado, dado que los tamaños de muestra son sucientemente grandes
se utilizan las varianzas de la muestra. Considerando la experiencia acumulada en las pruebas de
hipótesis aquí se recurre al calculador estadístico para realizar la prueba. Se toma la información
proporcionada en la Figura 11.2, en ésta se presenta también, el resumen de resultados y los
valores relacionados con el intervalo de conanza para la diferencia de medias.
Conclusión: No se puede reportar una diferencia en los dos sistemas.
11.1.2 La prueba t Student para la diferencia de medias: Muestras

pequeñas
Se usa la prueba t para probar la diferencia de las medias 1 y 2 entre dos poblaciones cuando
una muestra es seleccionada aleatoriamente de cada población. La aplicación de esta prueba
requiere que cada población se distribuya normalmente, y que las muestras sean independientes.
En este caso use la distribución t de Student en el CalEst para identicar los valores críticos y
los niveles de signicancia. El estadístico de prueba estandarizado es:
s
(x1 x2 ) (1 2 ) (n1 1)S12 + (n2 1)S22
tm = q , donde Sp = (11.3)
Sp 1
+ 1 n1 + n2 2
n1 n2
La desviación estándar Sp se le conoce como ponderada y se obtiene bajo el supuesto de que

21 = 22 : Este último supuesto se verica mediante una prueba de hipótesis que se verá más
adelante.
Prueba de hipótesis estadística para comparar dos poblaciones usando la prueba t:

Cuando la alternativa es:
1. Diferente Menor Mayor
H 0 : 1 = 2 H 0 : 1 = 2 H 0 : 1 = 2
H1 : 1 6= 2 H 1 : 1 < 2 H 1 : 1 > 2
2. Seleccionar el nivel de signicancia
3. Usar la distribución t de Student con gl = n1 + n2 2 grados de libertad,
4. Determinar el punto crítico calculando tc = t(=2; gl); tc = t(1 =2; gl) para
la diferencia; tc = t(; gl) para el caso menor y; tc = t(1 ; gl) para el caso mayor.
6. Hacer los cálculos para construir el estadístico de prueba, expresión 11.3
7. Tomar la decisión comparando tc con tm
8. Interpretar la decisión en el contexto del problema
Intervalo (1 )% de conanza para 1 2
Con la información generada por los datos se puede construir el intervalo (1 )% de conanza
para la diferencia de medias 1 2 , cuya interpretación indicará interpretaciones importantes
del estudio. Éste se escribe como:
r r
1 1 1 1
(x1 x2 ) tc Sp + < (1 2 ) < (x1 x2 ) + tc Sp +
n1 n2 n1 n2
donde tc = t(1 =2; n1 + n2 2):

Figura 11.3: Captura de datos y la opción para realizar la prueba de hipótesis.
Ejemplo 2
En una investigación se desea comparar el rendimiento atlético de dos grupos de jóvenes. El

primero es grupo control y el otro es un grupo entrenado. La evaluación física después de
completar un programa para ambos grupos se muestra en la tabla:
Control 83, 91, 97, 97, 108, 111, 111, 117, 117, 125, 125, 140
Entrenado 64, 83, 83, 85, 91, 97, 97, 97, 103, 108, 111, 111, 117, 117, 125, 125
Se capturan estos datos en CalEst, en la opción archivo y aparece una hoja de cálculo y se
capturan los datos. El nombre de las columnas se escribe sobre la columna o usando el ratón al
marcar el extremo izquierdo del rectángulo. La descripción de este procedimiento se muestra en
la Figura 11.3.
Se realiza la prueba t los resultados se muestran en la Figura 11.4. Use la distribución t de
Student, en el paquete estadístico., para conrmar la información que se indica en el reporte.
Sugerencia: puede hacer unas grácas de la t para los niveles de signicancia p y .
La conclusión es que no hay diferencia en el rendimiento físico en ambos grupos.
Figura 11.4: Resultados al realizar la prueba de hipótesis.
11.2 Inferencia para dos medias: muestras pareadas

Ejemplo 3: Situación real
En la resolución del rompecabezas de la República Mexicana se llevaron a cabo la comparación de

dos poblaciones, la característica es la siguiente se seleccionó de una universidad 12 personas y se
les pidió que resolvieran el rompecabezas y se anotó el tiempo en segundos en que lo completaron.
Se les recomendó que repasaran el mapa y estas mismas doce personas se les pidió que volvieran
a resolver el rompecabezas. Los resultados de antes y después se anotan en la siguiente tabla:
Antes 185 194 213 198 244 162 211 273 178 192 181 209
Después 168 177 196 180 229 144 197 252 161 178 161 193
¿Mejoraron el tiempo en la resolución del rompecabezas estos alumnos?
Planteamiento del problema muestras pareadas
La forma en la que se realizó este experimento da lugar a muestras dependientes, generalmente

denominadas muestras pareadas. La estrategia consiste en experimentar sobre la misma unidad
experimental un tiempo después. En caso de que las unidades no puedan ser las mismas se
buscará que los pares sean lo más homogéneo posible. De esta manera la estrategia es encontrar
11.2. Inferencia para dos medias: muestras pareadas 189
la diferencia d para cada par mediante:
di = x1 x2
En este caso el estadístico de prueba para vericar la hipótesis nula H0 : 1 = 2 contra alguna
de las alternativas será la media d de estas diferencias di ;
P
n
di
i=1
d= (11.4)
n
Para realizar un experimento para comparar dos poblaciones mediante muestras pareadas es:
1. Seleccionar las muestras de manera aleatoria.
2. Las muestras son pareadas (dependientes), la unidad en la primera muestra debe ser la
misma en la segunda muestra (par) o lo más homogéneo posible.
3. Ambas poblaciones tiene una distribución normal.
Dadas estas condiciones se sigue que la distribución de la diferencia de medias d, tiene una
distribución t de Student con n 1 grados de libertad. Así el estadístico estandarizado es:
d d
tm = Sd
gl = n 1 (11.5)
p
n
Solución al ejemplo 3
Se hará la solución de este problema mediante CalEst, se abre un archivo para capturar los
datos del problema, como se indica en la Figura 11.5, luego en la opción inferencia en prueba de
hipótesis para dos medias y pareadas se genera la solución.
Figura 11.5: Procedimiento para realizar una prueba hipótesis, en muestras pareadas en CalEst
Prueba de hipótesis estadística para comparar dos poblaciones en muestras pareadas

usando la prueba t:
Cuando la alternativa es:
1. Diferente Menor Mayor
H 0 : d = 0 H 0 : d = 0 H 0 : d = 0
H1 : d 6= 0 H 1 : d < 0 H 1 : d > 0
2. Seleccionar el nivel de signicancia
3. Usar la distribución t de Student con gl = n 1 grados de libertad,
4. Determinar el punto crítico calculando tc = t(=2; gl); tc = t(1 =2; gl) para
la diferencia; tc = t(; gl) para el caso menor y; tc = t(1 ; gl) para el caso mayor.
6. Hacer los cálculos para construir el estadístico de prueba, expresión 11.5
7. Tomar la decisión comparando tc con tm
8. Interpretar la decisión en el contexto del problema
La Figura 11.6 muestra los resultados.

11.3. Inferencia para dos proporciones 191
Figura 11.6: Resultados de la prueba de comparaciones pareadas
Se observa de manera clara que los estudiantes mejoraron de manera signicativa la resolución
del rompecabezas.
11.3 Inferencia para dos proporciones

Se realizó una prueba para conocer la memoria a corto plazo a una muestra aleatoria de personas
entre 30 y 40 años. Esta consistía en mostrar una tarjeta con 16 palabras por un espacio de 30
segundos, después se dejaba pasar un minuto platicando con el entrevistado. A continuación se le
pedía que dijera las palabras que recordaba, para esta acción se dejaba un minuto. Se consideró
la proporción, p1 , de personas que recordaban 8 o más palabras. El investigador supone que si
enseña la tarjeta por un espacio de 60 segundos en lugar de 30, la proporción, p2 , de personas
que recuerden 8 o más palabras aumentará. Para vericar esta situación se realiza una prueba
de diferencia entre dos proporciones.
Prueba de hipótesis para dos proporciones
Las condiciones que se deben seguir para realizar la comparación entre proporciones es:
1. Seleccionar las muestras de manera aleatoria.

2. Las muestras deben ser independientes.
3. Las muestras deben ser sucientemente grandes para usar la distribución normal, así se
debe cumplir:
n1 p1 5; n1 (1 p1 ) 5; n2 p2 5 y n2 (1 p2 ) 5:
Dadas estas condiciones, se tiene que la distribución muestral de pb1 pb2 ; diferencia entre
proporciones, es una normal con media
(b
p1 pb2 ) = p1 p2
y un error estándar:
s
1 1
(b
p1 pb2 ) = p(1 p) + ;
n1 n2
x1 +x2
donde p = n1 +n2
; x1 = n1 pb1 ; x2 = n2 pb2 :
Entonces para probar la hipótesis de diferencia entre dos proporciones p1 y p2 cuando las
muestras se extraen de manera aleatoria de dos poblaciones el estadístico de prueba es:
pb1 pb2 (11.6)
y en forma estandarizado
p1 pb2 ) (p1 p2 )
(b
zm = r (11.7)
1 1
p(1 p) n1 + n2
Nota. Recuerde que puede usar la opción didáctica Ho para estudiar esta prueba de hipótesis,
donde ahora el estadístico es (11.6). Asimismo puede recurrir a la distribución normal para
determinar los valores correspondientes a los estadísticos y niveles de signicancia.
Con el estadístico (11.6) o (11.7) se prueba una de las siguientes hipótesis alternativas:
H0 : p 1 = p 2
H1 : p1 6= p2 , H1 : p1 > p2 , o H1 : p1 < p2
Guía para la diferencia de medias usando el estadístico de prueba z

1. Identicar las hipótesis nula y alternativa Plantear H0 y H1
2. Especicar el nivel de signicancia Dar el valor de
3. Identicar la distribución muestral
4. Determinar el punto crítico Usar el calculador estadístico: zc
6. Calcular el estadístico de prueba Aplicar la expresión 11.7: zm
7. Tomar la decisión estadística: rechazar o no rechazar Comparar zc con zm
8. Interpretar los resultados
Solución al ejemplo 4
Los datos generados en este estudio son:
Muestra Proporciones Tamaño

1 pb1 = 0:20 n1 = 100 x1 = 20
2 pb2 = 0:42 n2 = 100 x2 = 42
Se cumplen las condiciones:
n1 p1 = 100(0:2) 5; n1 (1 p1 ) = 100(0:8) 5;
n2 p2 = 100(0:42) 5 y n2 (1 p2 ) = 100(0:42) 5:
El reporte estadístico de este ejemplo generado por el software se muestra en la Figura 11.7.
Al rechazar la hipótesis nula se verica el supuesto del investigador, es decir si hay un efecto en
la memoria de corto plazo al mostrar la tarjeta un mayor tiempo.
11.3.1 Prueba F, comparación de Varianzas

La comparación de varianzas mediante una prueba de hipótesis es un procedimiento importante
en estadística para vericar la homogeneidad entre dos poblaciones o tratamientos.
Ejemplo 5
En dos tiendas de autoconsumo el precio de la canasta básica varía día con día y una persona
tiene que decidir en cuál de las dos tiendas comprar para no desequilibrar su presupuesto. El
precio en el riesgo de compra, está asociado con la desviación estándar del precio diario de la
canasta. Se tienen seleccionados muestras aleatorias de ambas tiendas; la tienda A; 31 días con
Figura 11.7: Descripción del procedimiento para hacer la comparación de proporciones
Figura 11.8: Opción en CalEst para realizar la comparación entre varianzas.

Figura 11.9: Opción en CalEst para realizar la comparación entre varianzas.
una desviación estándar de 5.7; la tienda B; 30 días con una desviación estándar de 3.5. Con
un nivel de signicancia = 0:05 ¿ Se puede concluir que en alguna tienda hay mayor riesgo de
comprar y desequilibrar el presupuesto?
Resumen de la información que proporciona la muestra:
Muestra 1 n1 = 31 S12 = (5:7)2 = 32:49

Muestra 2 n2 = 30 S22 = (3:5)2 = 12:25
Planteamiento de las hipótesis:
H0 : 21 = 22 H1 : 21 6= 22
En la Figura 11.8 se describe la opción del programa estadístico para llevar a cabo la prueba de
hipótesis entre la razón de varianzas. Estadístico de prueba
S12
F =
S22
Cálculo del estadístico en CalEst

La descripción operativa que genera el CalEst sobre la prueba de hipótesis sobre la razón de
varianzas se describe en la Figura 11.9.
Figura 11.10: Pantalla que muestra la parte operativa de la prueba de hipótesis sobre la razón
de varianzas.
32:49
Fm = = 2:652
12:25
Cálculo del valor crítico en función del nivel de signicancia Fc = Ftablas ; Fc = F (=2; 31 1; 30
1) = 2:1, puesto que 2:652 = Fcalculada > Fc = 2:1 se rechaza H0 :
Alternativamente se prueba la hipótesis utilizando el nivel de signicancia descriptivo p,
2p = P (Fm > 2:652) = 2(0:00514) = 0:01028; puede observar que p < = 0:025; por lo tanto se
concluye rechazar H0 :
21
Intervalo del (1-)% conanza para la razón de varianzas : 22

S12 S2
F1 (1 =2; glN ; glD ); 12 F0 (=2; glN ; glD )
S2 S2
Determinación de los valores para la distribución F : FI = F (1 =2; 31 1; 30 1) = 0:48,

FD = F (=2; 31 1; 30 1) = 2:1; donde glN ; glD son los grados de libertad para el númerador
y denominador respectivamente. Así el intervalo del 95% de conanza para la razón de varianza
es:
((2:652)(0:48); (2:652)(2:1)) = (1:232; 5:523)

Figura 11.11: Valores de la distribución F para construir el intervalo de 95% de conanza.
La descripción gráca de los resultados de la prueba se muestra en la Figura 11.10, la facilidad

gráca de la distribución de probabilidad F es relevante para comprender con mayor claridad
de un intervalo de conanza. Análogamente puede usar la descripción de esta distribución para
explicar la prueba de hipótesis, para ello conviene que haga dos grácas una de ellas que señale
el nivel de signicancia y así ver el valor del punto crítico. Luego la otra que indique el valor del
estadístico calculado.
Note que la distribución del estadístico que genera la distribución F es la razón de varianzas.
Un profesor ha diseñado una estrategia para mejorar la velocidad de lectura, en esa dirección
él intenta reducir la varianza en el tiempo de lectura. Primero hace una prueba para conocer
la varianza del tiempo de lectura que actualmente tienen sus alumnos. Selecciona una muestra
aleatoria de 10 alumnos, la prueba de velocidad de lectura arrojó una varianza de 144 minutos2 .
Bajo su planteamiento consideró una muestra de 21 alumnos, la varianza del tiempo de lectura
fue de 100 minutos2 . Proponiendo un nivel de signicancia = 0:10. ¿Existe suciente evidencia
para respaldar la estrategia del profesor?
Resumen de la información que proporciona la muestra:
Muestra 1 n1 = 10 S12 = 144

Muestra 2 n2 = 21 S22 = 100
La hipótesis de trabajo se expresa por
Ht : La varianza del tiempo de lectura actual es mayor a la varianza del tiempo bajo su esquema.
Las hipótesis estadísticas son:
H0 : 21 = 22 H1 : 21 > 22
Estadístico de Prueba
S12
F =
S22
Cálculo del estadístico:
144
Fm = = 1:44
100
El valor de referencia Fc = Ftablas ( = 0:10; 10 1; 21 1) = 1:96, verique este valor usando
la distribución F . Puesto que Fm < Fc se concluye que no se rechaza H0 :
Alternativamente usando el nivel de signicancia descriptivo p; el valor de p = P (F (10
1; 21 1) > 1:44) = 0:237: Observe que 0:237 = p > = 0:1, vea este valor en la distribución F .
Se conrma que no se rechaza H0 :
Capítulo 12
Análisis de Varianza
12.1 Ideas generales
En capítulos anteriores se plantearon pruebas de hipótesis para una población y dos poblaciones.
En esta parte se desarrolla un procedimiento para comparar dos o más poblaciones a la vez. Este
se conoce como análisis de varianza, abreviada ANDEVA.
La estrategia experimental, desempeña un papel relevante para hacer la comparación entre
más de dos poblaciones y se llama diseño completamente al azar. Con el n de jar ideas considere
el siguiente ejemplo, un ingeniero que trabaja en biotecnología de alimentos, quiere conocer la
preferencia que tienen las personas por cuatro tipos de helados elaborados bajo condiciones
diferentes. En este caso las hipótesis son:
Hipótesis nula:
H0 : Las personas preeren por igual los cuatro helados.
Hipótesis alternativas:
H1 : Existe preferencia por alguno de los helados.
La estrategia experimental para este caso es como sigue; suponga que hay 12 personas y que
cada una de tres personas prueban cada helado. Las doce personas se seleccionan aleatoriamente
y se les da a probar el helado correspondiente, es decir:
h1 h1 h1 h2 h2 h2 h3 h3 h3 h4 h4 h4
8 3 10 12 5 6 11 9 4 7 2 1
La medición se realiza en una escala hedónica con valores que van de 1 a 10, donde 1 es el
disgusto de las personas por el helado y 10 es la aceptación total.
La estructura de esta estrategia experimental se presenta en la Tabla 12.1, con los resultados
reportados por las personas.
199
200 12. Análisis de Varianza
Helados
1 2 3 4
74 46 80 85
78 56 70 82
73 49 77 89
nj 4 4 4 4
xj 75 50.33 75.67 85.33
Sj2 7 26.33 26.33 12.33
Tabla 12.1 Resultados experimentales
La idea principal en este caso, es probar si la variación entre grupos (entre helados) es similar
a la variación dentro de grupos (cada helado).
En resumen, el planteamiento general de este esquema es:
Supóngase que hay k poblaciones de interés, el procedimiento del análisis de varianza

se plantea probar la hipótesis:
H0 : 1 = 2 = ::: = k
H1 : No todas las medias son iguales.
Este esquema se conoce como diseño completamente al azar. La meta de este procedimiento
es construir el estadístico de prueba para vericar esta hipótesis.
Términos básicos en el diseño.

Primero se describe lo que se entiende por factor.
Un factor, es una variable que se usa para diferenciar un grupo de una población a otra.
Esta es una variable que puede estar relacionada con la variable de interés. Un nivel es
uno de los posibles valores que el factor puede tomar.
En el ejemplo, el factor es el tipo de helado y el nivel es cada uno de los helados. A continuación
se formaliza lo que se llama variable de respuesta, en este caso la evaluación de la preferencia del
helado.
La variable de respuesta es una variable cuantitativa, que son las mediciones u

observaciones del experimento.
La descripción del experimento:
Un diseño completamente al azar es un experimento si se estudian diferentes niveles

de un factor, y los objetos que se observan o miden son asignados aleatoriamente
a uno de los niveles del factor.
12.1. Ideas generales 201
El procedimiento para analizar los datos del experimento, se llama análisis de la varianza
(ANDEVA).
Análisis de la Varianza es una técnica que se utiliza para analizar la varianza en los
datos para determinar cuando mas de dos poblaciones tienen medios iguales.
En la terminología de experimentos, se dene lo que se conoce como tratamiento. En el

ejemplo, el tratamiento es el tipo de helado que probarán las personas.
Un tratamiento es una característica particular o una combinación

de características del factor o factores que se estudian.
En el ejemplo, en cada uno de los tratamientos hay tres observaciones, es decir n1 = n2 =

n3 = n4 = 3 en este caso el diseño es balanceado, porque el tamaño de muestra es igual en cada
caso.
Estadístico en el ANDEVA
La media de todos los datos se conoce como la gran media.
La gran media es el promedio de todas las observaciones en el experimento y se denota por x
Así se puede escribir la variación total o suma de cuadros total, es decir:
La varianza total o la suma de cuadrados total (SCT), es la medida de la variación

en el conjunto de datos del experimento.
Este se escribe por:

ni
t X
X
SCT = (xij x )2
i=1 j=1
donde t es el número de tratamientos y ni el tamaño de muestra en cada tratamiento.
12.1.1 Componentes de la variación total

En este diseño se tienen dos componentes de variación, el que se reere a la variabilidad que
se atribuye entre los promedios de las k poblaciones que se están comparando y la variabili-
dad interna dentro de cada una de las k poblaciones, a esta última se le conoce como error
experimental.
La nalidad de la prueba de hipótesis, es comparar estos dos componentes de variabilidad, si

estos resultan ser iguales, se concluye que la variabilidad entre promedios de la población no se
considera signicativa, es decir no se rechaza la hipótesis nula; H0 : 1 = 2 = ::: = k
La variación entre poblaciones mide qué tan diferente son los tratamientos de la gran media.
Esta se llama el cuadrado medio de tratamientos y se denota por CMtrat
El cuadrado medio de tratamientos CMtrat se obtiene dividiendo la suma de cuadrados

entre tratamientos, entre el número de tratamientos menos 1, esto es:
SCtrat
CMtrat = k 1
La fórmula para la suma de cuadrados entre tratamientos es:
k
X
SCtrat = nj (xj x )2 ;
j=1
donde xj es el promedio de los k tratamientos.

La variación dentro de tratamientos toma en cuenta la varianza y el tamaño de muestra en
cada tratamiento, a este se le conoce como el cuadrado medio dentro de tratamientos y se denota
por:
(n1 1)S12 + (n2 1)S22 + ::: + (nk 1)Sk2

CMdentro = (12.1)
(n1 1) + (n2 1) + ::: + (nk 1)
Observación
El numerador de la expresión (12.1) se le conoce como la suma de cuadrados dentro de tratamien-
tos. El denominador son los grados de libertad asociados a esta fuente de variación son:
(n1 1) + (n2 1) + (nk 1) = n1 + n2 + ::: + nk k=N k:
La variable que resulta de dividir el cuadrado medio entre y el cuadrado medio dentro de
tratamientos tiene una distribución F con k 1 grados de libertad en el numerador y N k
grados de libertad en el denominador; esto es F (k 1; N k):
Los resultados de este procedimiento se recogen en una Tabla que se conoce como análisis de
varianza. En la Tabla 12.2 se describen las expresiones para realizar los cálculos realizados.
Procedimiento de la prueba de hipótesis
1. Plantear las hipótesis H0 : 1 = 2 = ::: = k , H1 : al menos una media de una población

es diferente de otra.
2. Seleccionar el nivel de signicancia, se calculan los grados de libertad para el numerador

gln y denominador gld se calcula el valor crítico referencia Fc = F (gln ; gld )
3. Calcular el valor Fm = CMtrat

CMdentro
:
4. Comparar Fm con Fc si Fm > Fc se rechaza H0 y se concluye a favor de la hipótesis alterna.
5. Interpretar en el contexto del problema.
Fuente de Grados de Suma de Cuadrado Fm

Variación libertad cuadrados medio
Entre tratamientos k 1 SCtrat CMtrat = SC trat
k 1
CMtrat
CMdentro
SCdentro
Dentro tratamientos N k SCdentro CMdentro = N k
Total N 1 SCtotal
Tabla 12.2 Análisis de la Varianza
Ejemplo 1
Un nutriólogo está probando cuatro tratamientos (A,B,C y D) para reducir el peso. Él cuenta con
18 personas para realizar el experimento, aplica de manera aleatoria uno de los tratamientos a
cada persona. Después de un periodo de prueba anota el número de kilogramos que redujeron las
personas, en la Tabla 12.3 se anota el registro, (6.5 indica que una persona redujo 6 kilogramos
con 500 gramos) ¿Cuál es la hipótesis que se plantea vericar el nutriólogo? ¿Cuáles son los
resultados principales para construir el estadístico de prueba F?
Resultados
Tratamiento
A B C D
6.5 6.0 5.5 4.6
6.5 5.8 5.2 4.5
5.8 5.8 4.9 4.5
5.7 5.5 4.8 4.8
5.6 5.1
nj 5 5 4 4
xj 6.02 5.64 5.10 4.60
S2 0.197 0.123 0.100 0.020
Tabla 12.3 Resumen estadístico de los

datos del estudio.
Hipótesis
El planteamiento de las hipótesis es:

H1 : A = B = C = D (Los cuatro tratamientos producen en promedio, la misma
reducción de peso).
H2 : Al menos un par de tratamientos es diferente.
En la Figura 12.1 se muestra el análisis de varianza que se obtiene del paquete estadístico. A
continuación se resume el procedimiento para realizar ésta prueba de hipótesis.
Considere un nivel de signicancia = 0:05; los grados de libertad correspondientes para
el numerador y denominador son en este caso gln = 4 1 = 3; gld = 18 4 = 14: Así Fc =
F (0:05; 3; 14) = 3:344:
Procedimiento operativo para calcular el estadístico Fm
Con la información reportada en la Tabla 13.3 se pueden construir los cuadrados medios entre y
dentro de tratamientos, es decir:
5(6:02 5:394)2 + 5(5:64 5:394)2 + 4(5:10 5:394)2 + 4(4:60 5:394)2

CMtrat = = 1:709
4 1
(5 1)(0:197) + (5 1)(0:123) + (4 1)(0:100) + (4 1)(0:020)

CMdentro = = 0:117
(5 1) + (5 1) + (4 1) + (4 1)
Figura 12.1: Archivo de datos que registra los valores experimentales y el análisis estadístico.
Figura 12.2: Valor crítico de la distribución F para el ejemplo.

Así Fm = 1:709
0:117
= 14:596: Puesto que Fm = 14:596 > Fc = 3:344 se rechaza la hipótesis nula,
lo que indica que alguno de los tratamientos es efectiva para reducir de peso.
Capítulo 13
Modelo de regresión lineal simple
13.1 Planteamiento del problema de regresión

Muchos de los fenómenos sociales y naturales requieren de una explicación, los modelos de re-
gresión son una herramienta útil para tal n. En este apartado se presentarán y desarrollarán
los conceptos estadísticos que comprenden los temas de regresión lineal simple.
Objetivos: Proporcionar una guía para conocer y comprender los elementos estadísticos más
importantes en la elaboración de un modelo de regresión. Generalmente este tipo de mode-
los permiten explicar y estudiar diferentes situaciones que se presentan en distintas áreas del
conocimiento. La idea principal es seleccionar una muestra de individuos u objetos a los cuales
se les medirán dos o más características. De esta manera el interés que se tiene es evaluar:
Cuando las variables se relacionan.
Qué tan estrecha es esa relación.
Cuando una variable de respuesta se puede predecir de la otra.
La nalidad del análisis de regresión consiste en estudiar la relación que existe entre las
variables, describir modelos grácos para explicar esta relación, y construir modelos sobre un
fenómeno para predecir otros valores de la respuesta dado un valor jo de la covariable y hacer
inferencia sobre los parámetros del modelo, sobre la media estimada y la predicción. La forma
general del modelo es:
Y = Componente determinista + una variable aleatoria.
Donde la variable del componente determinista se denota por X, X = variable independiente

o variable predictora, o variable de entrada. Y se conoce como variable dependiente o respuesta.
207
208 13. Modelo de regresión lineal simple
Figura 13.1: Hoja de trabajo y la forma para la regresión simple
Ejemplo 1
En los reportes de quién es quién en los precios que proporciona la Secretaría del Consumidor,
seleccionamos el precio de dos medicinas en 10 farmacias, el precio está dado en pesos y el precio
real se debe multiplicar por 50. Los resultados se muestran en la siguiente tabla. Es de interés
saber si existe alguna relación entre los precios de las distintas medicinas: es decir si las farmacias
conservan la misma relación en sus precios con respecto a las dos medicinas:
Farmacia 1 2 3 4 5 6 7 8 9 10
Xi 3 3 4 5 6 6 7 8 8 9
Yi 9 5 12 9 14 16 22 18 24 22
En forma general, se usa la letra n para denotar el tamaño de la muestra, para cada uno de
los n individuos se observa la pareja de valores (X; Y ). Es decir
variable independiente X X1 X2 ::: Xn

variable de respuesta Y Y1 Y2 ::: Yn
En la investigación de la relación entre dos variables, el diagrama de dispersión es una técnica

de gráca para entender un análisis estadístico formal. Este análisis se realiza en CalEst en
módulo de regresión, en éste aparecen tres opciones la regresión simple, la regresión múltiple y
13.2. Modelo de regresión lineal simple 209
Figura 13.2: Diagrama de dispersión y modelo de regresión para el precio de las farmacias.
la regresión avanzada. En este Capítulo se abordará la primera, como paso inicial se anotan los
datos en una hoja de trabajo, creando o abriendo un archivo en CalEst o en otra hoja electrónica.
Una vez capturado los datos y se llama la opción regresión simple como aparece en la Figura
13.1.
Una vez llenados los cuadros para la variable dependiente, far2 en este caso, y la variable
independiente far1, se aprieta el botón aceptar. Enseguida aparece una serie de grácas que
forman parte del análisis, atrás aparece una hoja que completa el análisis estadístico. En la
Figura 13.2 se muestra una línea y los puntos que representan el precio de las 10 farmacias.
El objetivo principal es estimar los parámetros que caracterizan al modelo, línea recta, descrito
en la Figura 13.2. En la Figura 13.3 se muestra el reporte que contiene los valores estimados y
los resultados estadísticos generados por el método de mínimos cuadrado. Este se explicará en
este Capítulo. La información que se presenta en esta gura se obtiene del paquete estadístico.
13.2 Modelo de regresión lineal simple

Suponemos que la respuesta (Y ) es una variable aleatoria que se relaciona con la variable (X)
por
Yi = 0 + 1 Xi + "i ; i = 1; :::; n donde (13.1)
1. Y denota la i-ésima respuesta correspondiente a un valor de X.
2. " (epsilon) "1;:::; "n son variables aleatorias no observables y suponemos que se distribuyen
como una distribución de probabilidad normal con media cero y varianza 2 .
Figura 13.3: Resultados estadísticos del análisis que genera el método de mínimos cuadrados
3. Los parámetros 0 (Beta cero), es el punto en el cual la recta (13.1) intercepta a Y . 1 (Beta
uno), pendiente de la recta (13.1), indica la cantidad que crece (decrece) Y por cada unidad
que aumenta X:
Ejemplos:
1. Identique los valores de los parámetros 0 ; 1 ; 2 ; en el siguiente modelo estadístico
Y =8 6X + "
" es una variable normal con media cero y desviación estándar 4.
2. Del modelo de regresión lineal, determine la media y la desviación estándar de Y , para

X = 1, cuando 0 =2, 1 =4 y =3
3. Haga la gráca de la línea de regresión para la media de la línea de regresión lineal
Y = 0 + 1 X + "; con 0 = 7 y 1 = 2:
13.2.1 El método de mínimos cuadrados

Supóngase, tentativamente que el modelo (13.1) es correcto. El problema de la estimación de los
parámetros 0 y 1 se ve como la línea recta que mejor se ajuste al diagrama de dispersión. El
procedimiento estadístico que nos permite determinar la recta que mejor se ajuste se conoce por
el método de mínimos cuadrados. Los estimadores de los parámetros 0 ; 1 ; se denotan por la
letra latina b0 ; bi respectivamente
Supóngase que una línea arbitraria Yb =b0 + b1 X es dibujada en un diagrama de dispersión.
En el valor Xi de la variable independiente, vemos el valor observado Yi y el correspondiente a
la recta Ybi = b0 + b1 Xi .(este valor Ybi : se le denomina valor predicho) la discrepancia entre los
valores observados y predichos es:
Yi Ybi = Yi (b0 + b1 Xi ) = ei
y representa la distancia vertical del punto Yi a la línea. La discrepancia de todos los puntos está
representada por la siguiente expresión.
n
X n
X
D= e2i = (Yi (b0 + b1 Xi ))2 ; (13.2)
i=1 i=1
Así, D es una medida de la discrepancia de los puntos observados Yi de la línea Ybi = b0 +b1 Xi .
La magnitud de D depende de la línea que se dibuje, es decir dependen de b0 y b1 . Un buen ajuste
hace la D tan pequeña como sea posible. El método de mínimos cuadrados permite estimar los
valores estimados de los parámetros, y su objetivo es minimizar la siguiente discrepancia:
n
X n
X
D= (respuesta observada-modelo)2 = (Yi ( 0 + 1 Xi ))2 :
i=1 i=1
Los valores que se obtienen de optimizar la expresión anterior se denominan estimadores de mí-
nimos cuadrados de los parámetros del modelo, estos se representan por las cantidades b0 y b1
Mediante este procedimiento obtenemos el modelo que mejor se ajusta a los datos, este se re-
presenta por Ybi = b0 + b1 Xi .
Notación.
Con la nalidad de facilitar los cálculos en la estimación de los parámetros, en el análisis y
evaluación del modelo, se plantean las siguientes expresiones.
P
n P
n
_ _ _ _
( X )( Y )
1P n 1P n Pn Pn
i=1 i=1
X= Xi ; Y = Yi ; Sxy = (X i X)(Y i Y ) = Xi Yi i i
(13.3)
n i=1 n i=1 i=1 i=1 n
P
n P
n
_
( Xi2 )2 _
( Yi ) 2
P
n
2 P
n
i=1 P
n
2 P
n
i=1
Sxx = (Xi X) = Xi2 ; Syy = (Yi Y ) = Yi2 (13.4)
i=1 i=1 n i=1 i=1 n
Estas fórmulas son de utilidad porque permiten calcular los estimadores de mínimos cuadrados,
y a continuación se mostrarán las expresiones :
_
El estimador de mínimos cuadrados de 0 es b0 : b0 = Y b1X
Sxy
El estimador de mínimos cuadrados de 1 es b1 : b1 =
Sxx
La recta de regresión (estimada) o ajustada es : Ybi = b0 + b1 Xi
Las desviaciones individuales entre las observaciones Yi y los valores ajustados Ybi = b0 + b1 Xi
se llaman residuales, y los denotamos por ei .
13.2.2 Residuales
Los residuales se expresan por
ei = Ybi (b0 + b1 Xi ):
Los residuales permiten vericar los supuestos estadísticos en los que se basa el método de
mínimos cuadrados, ellos son de utilidad para evaluar otras características del modelo, estos
Pn
aspectos se verán posteriormente. Una propiedad de los residuales es i=1 ei = 0: La suma de
cuadrados de los residuales es:
n
X 2
Sxy
SCerror = e2i = Syy (13.5)
i=1
Sxx
Esta expresión es útil para estimar la varianza, así la varianza 2 se estima por
SCerror
b2 =

n 2
Ejemplo 2
Considerando los datos de los precios de las medicinas en las diez farmacias, descritos anterior-
mente, a continuación se efectúan los cálculos para obtener la línea de mínimos cuadrados, los
residuales, la estimación de la varianza, los resultados previos se describen en la siguiente tabla.
Xi Yi Xi2 Yi2 Xi Yi Yb ei
3 9 9 81 27 7.15 1.85
3 5 9 25 15 7.15 -2.15
4 12 16 144 48 9.89 2.11
5 9 25 81 45 12.63 -3.63
6 14 36 196 84 15.37 -1.37
6 16 36 256 96 15.37 .63
7 22 49 484 154 18.11 3.89
8 18 64 324 144 20.85 -2.85
8 24 64 576 192 20.85 3.15
9 22 81 484 198 23.59 -1.59
59 151 389 2651 1003 0
El último renglón de la tabla anterior representa la suma de los renglones, estos valores se
sustituyen en las fórmulas descritas anteriormente para obtener la estimación del modelo. Los
cálculos son:
_ 59 151
X = 5:9; Y = 15:1; Sxy = 1003 = 112:1;
10
(59)2 (151)2
Sxx = 389 = 40:9; Syy = 2651 = 370:9:
10 10
Los estimadores de mínimos cuadrados para el modelo son:
112:1
b0 = 15:1 2:74 5:9 = 1:07; b1 = = 2:74:
40:9
Así la recta que mejor se ajusta a los datos de precios es:
Yi = 1:07 + 2:74Xi
La varianza se estima por:
SCerror 63:6528
b2 =
= = 7:96;
n 2 8
(112:1)2
donde SCerror = 370:9 40:9
= 63:6528. En la Figura 13.3 se muestra el reporte de los cálculos
que genera el CalEst, compare esta con el procedimiento ilustrado. La construcción de la segunda
tabla que aparece en reporte se presenta en el apartado 13.3.4 y en la Tabla 13.1.
Interpretacion: Un vez que se han obtenido los estimadores de los parámetros, es impor-
tante su interpretación. En el modelo lineal que se esta estudiando el coeciente de la variable
independiente X es en particular el más importante. Así el valor de b1 = 2:74 indica que cuando
una farmacia vende la medicina X en un peso más cara, en esa misma farmacia la medicina Y
cuesta casi tres pesos más cara (por la consideración inicial 27 pesos más).
13.3 Estimadores de mínimos cuadrados.

Recuerde que se tiene una muestra, si se selecciona otra muestra puede plantearse la pre-
gunta, ¿cuál es el valor de b1 ; si este proceso se repite varias veces?
Si una farmacia vende la medicina X en 3.5 pesos, ¿cuánto costará la medicina Y en esa
farmacia?
Para responder a estas preguntas se necesita indicar que los estimadores de mínimos cuadra-
dos, se distribuyen como una distribución de probabilidad normal con media = ; y varianza
2 (bi ):
1. El estimador de la varianza de los estimadores de mínimos cuadrados se representan por

las siguientes expresiones:
b2
1 X2
b2 (b1 ) =
y b2 (b0 ) =
b2 ( + )
Sxx n Sxx
b2 =
donde el estimador de la varianza 2 es SCE
n 2
o el estimador de la desviación estándar
b es la raíz cuadrada de
SCerror
n 2
:
b2 , por ello la
2. En la práctica la varianza 2 no se conoce, así que se usa el estimador
inferencia en los parámetros del modelo se basan en la distribución de probabilidad t,
entonces para la pendiente 1 ;
(b1 1 )
t=

b(b1 )
se distribuye como una t Student con n 2 gl. Análogamente la inferencia del intercepto
0 se basan en la distribución t.
(b0 0 )
t=

b(b0 )
se distribuye como una t Student, con n 2 gl.
3. Cuando se propone un valor especíco de la variable independiente X, es de interés estimar

el valor de la respuesta para ese valor, suponga que el valor propuesto es X = X ; con ello
la respuesta esperada es Y = 0 + 1 X , y se estima por Yb = b0 + b1 X con el objeto de
hacer inferencia sobre esta respuesta esperada es importante obtener la varianza de Yb y la
varianza estimada de ésta es:
13.3. Estimadores de mínimos cuadrados. 215

1 (X X)2
b (Yb ) =
2
b 2
+ (13.6)
n Sxx
La inferencia sobre 0 + 1 X se basa en la distribución t Student, esta es:
(b0 b1 X 0 + 1X )
t= con gl = n 2
b(Yb )

13.3.1 Inferencia con respecto a la pendiente.

En un problema de análisis de regresión es de interés determinar cuando la respuesta varía o no
con la magnitud de la variable de entrada X. Considere el modelo de regresión lineal. Respuesta
esperada
E(Y ) = 0 + 1 X
En esta no hay cambio en X si y solo si 1 = 0. Con objeto de vericar si los datos apoyan
o no este hecho, en términos estadísticos se plantea la siguiente hipótesis:
H0 : 1 = 0 y H1 : 1 > 0;
(b1 1 )
con base en el estadístico de prueba, tc =
b( 1 )
, gl = n 2. Permitirá rechazar o no la hipótesis
nula.
En particular, la hipótesis alternativa H1 como está planteada permite preguntarse, ¿existe
evidencia de que la medicina Y es más cara cuando la medicina X es cara? La respuesta será
armativa si al realizar la prueba se rechaza la hipótesis nula, para ello primero se tiene que
obtener el valor del estadístico t.
De los cálculos se tiene que b1 = 2:74;
SCE 63:65
b2 =
= = 7:956
n 2 8
de aquí se obtiene
b = 2:8207, nalmente:
s r

b 2:8207

b(b1 ) = = = 0:441
Sxx 40:9
estadístico de prueba es tc = 2:74

0:441
= 6:213. Este valor de t se compara con el valor de t obtenido
de las tablas de la distribución de probabilidad de la t de Student con 8 grados de libertad y
= 0:05, este valor es t = 1:860. Se puede observar que t es mayor que t : Esto permite
concluir que se rechaza la hipótesis nula.
Figura 13.4: Análisis gráco de residuales.
Nota. Use la distribución y el calculador de probabilidad de la t de Student del paquete

estadístico para vericar estos resultados estadísticos y conclusiones.
En la Figura 13.4 se describe el análisis gráco del modelo proporcionado por el CalEst. En la
gráca superior izquierda aparece el modelo con su límite de conanza del 95%. El cuadro que se
indica con las letras ab, brinda la posibilidad de cambiar el nivel de conanza, además se puede
ver el límite de conanza para la predicción. La gráca de la derecha superior muestra la relación
entre los valores reales y los predichos e indica qué tanto explica el modelo. Las siguientes dos
grácas completan el análisis del modelo mediante la evaluación de los residuales, en ellas se
puede interpretar: si existe homogeneidad en la varianza, dispersión de los residuales y puntos
aberrantes. Abajo hay una quinta gráca sobre los residuales que interpreta la dependencia con
respecto al tiempo.
13.3.2 Intervalo de conanza para los parámetros del modelo.

Intervalo de conanza para 1 :
Se puede encontrar un intervalo de conanza para el parámetro 1 usando la distribución t. Un

intervalo de conanza para 1 , con un nivel de 100(1 )% se obtiene mediante la expresión
r
1
b1 t=2
b(b1 ) = b1 t=2
b
Sxx
donde t=2 es el punto correspondiente a la distribución t para gl = n 2 y /2.

Con esta expresión se construye un intervalo del 95% de conanza para la pendiente de la
línea de regresión. De los cálculos realizados se tiene que b1 = 2:74 y
b(b1 ) = 0:441 El intervalo
requerido es:
2:74 2:306(0:441) = 2:74 1:02 es decir (1:72; 3:76)
Intervalo de conanza para 0
Con un nivel de signicancia del 100(1 )% :

s
2
1 X
b0 t=2
b + (13.7)
n Sxx
De los resultados descritos del ejemplo 2, se tiene que b0 = 1:07, X = 5:9 y Sxx = 40:9. Se
b = 2:8207, por lo tanto el intervalo de conanza 0 con = 0:05 es:
tiene que
r
7 (5:9)2
1:07 2:306(2:8207) + = ( 7:41; 5:27):
10 40:9
13.3.3 Predicción de la respuesta media para un valor dado de X

En esta situación, se realiza inferencia sobre la estimación de la predicción de la respuesta para
un valor dado de la variable independiente, primero se plantea la estimación por intervalo de
conanza y luego se describe la prueba de hipótesis.
Intervalo de conanza para la respuesta esperada 0 + 1 X con un nivel de 100(1- ) %
conanza es :
s
1 (X X)2
b0 + b1 X t=2
b + (13.8)
n Sxx
Las hipótesis estadísticas para la predicción se muestran por:

H 0 : 0 + 1 X = 0 ; H1 : 0 + 1 X 6= 0 ;
el estadístico de prueba que permite contrastar esta hipótesis es:
b 0 + b 1 X 0
tc = q ; gl = n 2;
1 (X X)2

b n + Sxx
con la nalidad de ilustrar la inferencia sobre la predicción de la respuesta, se utilizarán los datos
del ejemplo 1.
13.3.4 Reporte estadístico del modelo de regresión en CalEst

Las Figuras de la 13.1 a la 13.5 muestran cómo entran los datos en una hoja de trabajo para
la regresión hasta el reporte global. El procedimiento se ha ilustrado utilizando los datos del
Ejemplo 1 de este capítulo.
La línea de regresión que se ajustó a los datos descritos en el ejemplo 1 es Yb = 1:07+2:74X,
el precio de la medicina correspondiente a la farmacia cuyo precio en la medicina es X = 6:5 se
estima por b0 + b1 X = 1:07 + (2:74) 6:5 = 16:745. La desviación estándar se estima mediante
la siguiente expresión:
r
1 (6:5 5:9)2
2:8207 + = 0:893
10 40:9
El intervalo de conanza del 95% para la media de la medicina Y con el precio de la medicina
X = 6:5 es
16:745 + t0:25 (0:893) = 16:745 2:306 (0:893) = (14:600; 16:889):
Interpretación, con un 95% de conanza la medicina Y se vende entre (13.31 y 17.43) con-
siderando que X = 6:5, para un valor no observado de X, se desea proponer un valor de X
no observado, pero aún, entre el rango de valores de X, el error estándar estimado cuando se
predice una respuesta es:
r
1 (X X)2

b 1+ +
n Sxx
Nuevamente se recurre a los datos de los precios de las farmacias, ahora X = 6:5. El valor
predicho es: b0 + b1 X = 1:07 + 2:74(6:5) = 16:74. La Figura 13.5 complementa el análisis
estadístico de este ejemplo. Para reproducirlo oprima el botón tercero en la segunda franja. La
predicción se obtiene usando el botón yb. Un intervalo de conanza del 95% de conanza es
Figura 13.5: Información complementaria para el análisis estadístico del modelo de regresión.
r
1 (6:5 5:9)2
16:74 2:306(2:8207) 1+ + = 16:74 6:85 = (9:89; 23:59):
10 40:9
13.3.5 Evaluación de la relación lineal

Como una medida de la adecuación del modelo lineal se examina que tanto de la variación en la
respuesta es explicada por el modelo ajustado
Yi = (b0 + b1 Xi ) + (Yi b0 b1 Xi )
donde Yi es el valor observado, ( b0 + b1 Xi ) explica la relación lineal (Yi b0 b1 Xi ) explica el

residual
En una situación ideal donde todos los puntos están en la línea los residuales son cero, de
ésta manera los valores de Y son explicados por la dependencia lineal en X. Se puede considerar
la suma de cuadrados de los residuales:
X 2
Sxy
2
SCerror = (Yi b0 b1 Xi ) = Syy (13.9)
Sxx
para medir la discrepancia de la linealidad. La variabilidad total de los Yi se expresa por
X
Syy = (Yi Y )2 (13.10)
se denomina la suma de cuadrados total y se denota por SCtotal , la SCerror es parte de la

variabilidad de esta última expresión, la diferencia :
2 2
Sxy Sxy
Syy SCerror = Syy Syy = : (13.11)
Sxx Sxx
representa la variabilidad de los datos al modelo y se denomina suma de cuadrados se denota

por SCregresion .Así la variación total o SCtotal queda expresada por dos componentes: SCregresion
(explicada por el modelo) y SCerror (residual). A continuación se describe la variabilidad de las
diferentes componentes del modelo.
SCtotal = Syy (total de Y )
explicada por la relación lineal

2
Sxy
SCregresion =
Sxx
no explicada por el modelo residual
SCerror = SCtotal SCregresion
Para evaluar qué tanto los datos se ajustan al modelo debemos considerar la SCregresion ,
de tal manera que si existe un buen ajuste, la SCregresion contribuye fuertemente a la SCtotal .
Nuevamente la situación ideal: todos los puntos sobre la línea recta nos indica que SCerror es
cero, así SCtotal queda totalmente explicada por los valores de X. Para resumir esta situación
generalmente se presenta una tabla que se llama análisis de la varianza (ANDEVA).
Fuentes de Suma de GL Cuadrado Medio Razón de varianza

Variación Cuadrados
SCregresi SCR=1
Modelo (R) SCregresion 1 1
on
F = SCE=(n 2)
Residual (E) SCerror n 2 SCerror

n 2
Total (T) SCtotal n 1
Tabla 13.1. Análisis de la Varianza

La Tabla 13.1 resume el procedimiento para probar la hipótesis :
H0 : No existe relación lineal entre X y Y : 1 = 0
H1 : Sí existe relación lineal entre X y Y : 1 6= 0
F es una variable aleatoria que tiene una distribución F con 1 y n 2 grados de libertad
respectivamente, para decidir si los datos conrman la hipótesis nula se compara F con el valor
F ; donde es el nivel de signicancia.
Nota. Use la distribución de probabilidad F y el calculador de ésta en el paquete estadístico
para vericar estos resultados estadísticos y conclusiones. Observe que en el caso del análisis de
la regresión simple la prueba de hipótesis mediante las pruebas t y F son equivalentes. Vea la
propiedad de la distribución F con respecto a la t, que se mostró en el capítulo 8.
Un índice para evaluar el porcentaje de los datos que son explicados por el modelo, se llama
el coeciente de determinación y se denota por R2 ; este se construye considerando la proporción
de la variabilidad total y la explicada por el modelo, es decir :
2 2
SCregresion Sxy =Sxx Sxy
= = (13.12)
SCtotal Syy Sxx Syy
Realizando un poco de álgebra el coeciente de determinación se escribe como
SCtotal SCerror SCerror

R2 = =1
SCtotal SCtotal
La raíz cuadrada de esa cantidad, se le conoce como coeciente de correlación y se denota

por r:
s
2
Sxy Sxy
r= =p (13.13)
Sxy Syy Sxx Syy
Considerando nuevamente los datos sobre el precio de las farmacias, y por los cálculos que
se han realizado en los precios para las medicinas X y Y , se tiene: Sxx = 40:9, Syy = 370:9,
Sxy = 112:1 la recta que se ajustó : Yb = 1:07 + 2:74X. ¿Qué tanto de la variabilidad es
explicada por el modelo de regresión? La respuesta a esta pregunta calculando el coeciente de
determinación :
2
Sxy (112:1)2
R2 = = = 0:83
Sxx Syy (40:9)(370:9)
Este valor se interpreta diciendo que el 83% de la variabilidad en Y es explicada por la

regresión lineal, y se concluye que el modelo es satisfactorio. ¿Qué se puede concluir si R2 es
pequeño? ¿Qué procedimientos se deben conrmar para tal caso?
13.3.6 Regresión lineal simple: notación matricial

La nalidad de este apartado es mostrar mediante un ejemplo, el procedimiento de mínimos
cuadrados empleando la notación matricial. Esta es importante por la facilidad de generalizar la
estimación de los parámetros en un modelo de regresión con más de una variable independiente
X.
Ejemplo 3
Se ha probado que el tiempo de vida de un acumulador se puede predecir (por ejemplo) midiendo
la carga que se le proporciona a la batería (en voltios). Se realiza un prueba de vida acelerada, en
este caso los acumuladores se sometieron a ciertas condiciones ambientales de calor (entre otras
posibles pruebas). Los datos para seis acumuladores son:
corriente X tiempo de vida y

17.9 245
23.6 220
30.9 215
56.1 211
61 161
77 135
El objetivo es encontrar la mejor relación lineal entre las variables X y Y: El estimador de

mínimos cuadrados es:
b0 = (X 0 X) 1 X 0 Y

donde

0 1 1 1 1 1 1
X =
17:9 23:6 30:9 56:1 61 77
Aplicando el procedimiento de mínimos cuadrados se obtienen los siguientes resultados:

0 6 266:5 0 1187
XX= Xy=
266:5 14629:39 48274:1
la inversa

0 1 0:873 0:016
(X X) =
0:016 0:00036
nalmente se tiene
b = (268:593; 1:593)

el modelo estimado es
Yb = 268:593 1:593x
Análisis estadístico:
Hipótesis
Ho : 1 = 0
H1 : 1 6= 0
El estadístico
b
1
1
tc = t(n p; )
b1 )
ES(
Cálculos
b ) = (S 2 (X 0 X) 1 )1=2 = 0:3543
ES( 1
donde S 2 es un estimador de la varianza 2
(Y Yb )0 (Y Yb )
S2 = = 350:4384
n p
1:593 0
tc = = 4:5
0:3543
el valor de t(n p; ) = t(4; 0:025) = 2:78:
El coeciente de determinación:
(Y Yb )0 (Y Yb ) 1401:9653
R2 = 1 =1 = 83:5
(Y Y )0 (Y Y) 8488:83
El coeciente de correlación

(X X)0 (Y Y)
r= = 0:913
(X X) (X
0 X)(Y Y )0 (Y Y)
Resumen
parámetro estimación error estd. tc p
o 268.593 17.494 15.353 0.0001
1 -1.593 0.354 -4.496 0.0108
Tabla 13.2. Resumen estadístico

tabla del análisis de la varianza: ANDEVA

fuente de suma de cuadrado medio razón p
variación cuadrados gl
modelo 7086.868 1 7086.868 20.220 0.0108
residual 1401.965 4 350.497
total 8488.833 5
Tabla 13.3. Resumen del análisis
fuente de suma de cuadrado

variación cuadrados gl medio razón p
(Yb Y )0 (Yb Y) CMregresion
modelo (Yb Y )0 (Yb Y) p 1
p 1 CMresidual
(Y Yb )0 (Y Yb )
residual (Y Yb )0 (Y Yb ) N p
N p
total (Y 0
Y ) (Y Y) N 1
Tabla 13.4 Análisis de la varianza en general
Inferencia por intervalo de conanza:
Intervalo de conanza para la pendiente 1

s
b1 = t(N 1
p; )S
(X X)0 (X X)
Intervalo de conanza para una media de la variable de respuesta

s
1 (X X)2
yb t(N p; )S +
N (X X)0 (X X)
donde
b +
Yb = b X
o 1
Intervalo de conanza para predecir un valor de la variable de respuesta

s
1 (X X)2
Yb t(N p; )S 1+ +
N (X X)0 (X X)
Ejercicio
Reproduzca este ejercicio en el programa, complete la evaluación estadística e interprete.

Capítulo 14
Regresión Múltiple
14.1 Modelo
Si con la nalidad de explicar un fenómeno o proceso se incorporan nuevas variables al modelo
lineal simple, entonces se tiene el modelo de regresión múltiple, el cual se representa mediante la
siguiente expresión :
yi = 0 + 1 X1i + 2 X2i + ::: + k Xki + " (14.1)
donde 0 es una contante, los, i ; i = 1; 2; :::; k, son los parámetros del modelo, las Xji j =
1; 2; :::n; i = 1; :::; k son las variables independientes que describen las k características de los n
individuos u objetos, Yi es la variable de respuesta, se tienen n observaciones sobre los individuos,
" es una variable aleatoria.
La ecuación (14.1) es un modelo hipotético con el cual se tratará de explicar los resultados de
una situación real, en general, la idea es bosquejar o construir un modelo que nos va a describir
e interpretar un fenómeno, para ello planteamos el siguiente procedimiento :
1.- Proponer un modelo esto incluye la selección de las variables que aparecen en el modelo.
2.- Estimar los parámetros 0 ; 1 ; 2 ;..., k del modelo.
3.- Especicar la distribución de probabilidad de la variable aleatoria ", estimar la varianza
2 de la distribución.
4.- Vericar la utilidad del modelo
5.- Usar el modelo para predecir valores particular de Y , dentro del rango de valores de la
variable independiente.
NOTA.- El modelo (14.1) es lineal en los parámetros y en las variables independientes, en este
caso el modelo recibe el nombre de modelo lineal de primer orden. Más adelante se estudiarán
otros modelos.
225
226 14. Regresión Múltiple
14.2 Ajuste del modelo.

14.2.1 Supuestos estadísticos sobre el modelo.
Con el objeto de estimar los parámetros del modelo es necesario hacer algunas suposiciones sobre
la variable aleatoria ".
1.- Para cualquier conjunto de valores de X1 ; X2 ; X3 ; :::; Xk , la variable " se distribuye como
una distribución de probabilidad normal con media cero y varianza 2 . En símbolos " N (0; 2 ),
2 es constante.
2.- Los errores aleatorios son independientes en el sentido probabilístico.
14.2.2 Proceso de estimación

El objetivo es nuevamente estimar los parámetros del modelo con k variables independientes que
inuirán en la respuesta Y . Con la idea de jar ideas sobre el procedimiento de estimación por
mínimos cuadrados, se considerarán la situación de que únicamente existen dos variables que
explican la respuesta. Este modelo es de la forma siguiente
Yi = 0 + 1 X1i + 2 X2i + "i ; (14.2)
el procedimiento es análogo al presentado para una variable, puesto que la nalidad es optimizar
la siguiente expresión:
n
X n
X
"i "i = (Yi ( 0 + 1 X1i + 2 X2i ))2 (14.3)
i=1 i=1
Así, los estimadores de mínimos cuadrados obtenidos por este planteamiento es la solución que
se obtiene al resolver simultáneamente las ecuaciones que resultan de la optimización, para el
caso de dos variables la solución se tiene a partir de las expresiones indicadas a continuación, que
son una extensión a las anotadas cuando solo hay una variable independiente. A continuación
se muestran los resultados y la notación matemática de los estimadores.
14.2.3 Estimación por mínimos cuadrados

Si el número de variables independientes aumentan, las ecuaciones simultáneas que se obtienen al
optimizar la expresión ( 14.1 ) también aumentan, así la solución para estimar los parámetros se va
complicando algebráicamente. Una alternativa matemática que facilita el proceso de estimación
por mínimos cuadrados es la utilización de la representación matricial, esto da lugar a realizar
operaciones con matrices, como el producto, inversión y la transposición. A continuación se
presenta este planteamiento.
14.2. Ajuste del modelo. 227
Planteamiento empleando la notación matricial
Es de mayor utilidad operativa y de comprensión la representación del modelo de regresión en

términos de matrices, así las respuestas se expresan mediante un vector Y de dimensión nx1, n
es el número de observaciones que se realizan a un sujeto u objeto. Las variables independientes
se representan por la matriz X de dimensión nxk donde el número de columnas k describe al
término constante y las k variables ( las k características de interés para explicar un fenómeno).
El vector de parámetros se indica por de dimensión kx1. Por " el vector aleatorio nx1.
2 3 2 3 2 3 2 3
Y1 1 X11 X12 : : : X1k 0 "1
6 Y2 7 6 1 X21 X22 : : : X2k 7 6 1 7 6 "2 7
6 7 6 7 6 7 6 7
6 : 7 6 : : : : : : : 7 6 : 7 6 : 7
Y =6
6
7X = 6
7 6
7 = 6
7 6
7" = 6
7 6
7
7
6 : 7 6 : : : : : : : 7 6 : 7 6 : 7
4 : 5 4 : : : : : : : 5 4 : 5 4 : 5
Yn 1 Xn1 Xn2 : : : Xnk k "n
de esta manera el modelo se puede escribir en forma matricial como
y = 0 + 1 X1i + 2 X2i + ::: + k Xki + " = X + " (14.4)
14.2.4 Estimación de los parámetros del modelo.

En la parte inicial describimos que el método de mínimos cuadrados nos permite estimar los
parámetros del modelo. Por medio del procedimiento de mínimos cuadrados estimamos los
parámetros del modelo, el planteamiento estadístico es como sigue
0
minimizar "0 " = (y X) (y X) (14.5)
La solución de esta minimización queda representada por la siguiente expresión :
b = (X 0 X) 1 0
XY (14.6)
b contiene los estimadores de los parámetros del vector , y con

Los elementos del vector
ello se puede construir el modelo de regresión estimado.
14.2.5 CalEst en el análisis estadístico del modelo

Ejemplo 1
Un economista agrícola tiene interés en evaluar el rendimiento (Y ) de un grano en unas parcelas,

debido al promedio de precipitación anual de lluvia X1 y a la temperatura promedio anual X2
para ello considera ocho años. Estime el modelo de regresión, evalúe la importancia estadística
de cada variable para explicar la respuesta. Se puede notar que el modelo que se propone es un
plano, así se busca el plano de regresión que mejor se ajuste a los datos descritos por el estudio.
Los datos observados se presentan en la siguiente Tabla 14.1
X1 : nivel X2 : temperatura y
a~
no de lluvia promedio prod:
1981 39 20 55
1982 37 26 65
1983 47 19 80
1984 37 27 75
1985 39 24 70
1986 38 21 50
1987 40 23 60
1988 41 22 65
Tabla 14.1. Reporte de la información
Solución
La nalidad es presentar la solución usando el módulo de regresión múltiple en el software. La

descripción del análisis estadístico y la justicación del procedimiento de estimación se plantea
en el siguiente apartado.
En la Figura 14.1 se muestra la estimación de los parámetros y la inferencia estadística
de estos, para realizar esta última se estima el error estándar de los estimadores y se calcula
el estadístico de prueba t de Student y nalmente se indica el valor del nivel de signicancia
descriptivo p: El valor de p es la probabilidad de la distribución t con los grados de libertad
correspondientes, a la izquierda si el estadístico es negativo o a la derecha si el estadístico es
positivo. Si p < se rechaza la hipótesis correspondiente al parámetro i ; i = 1; 2, en caso
contrario no se rechaza la hipótesis.
Estimación de los parámetros del modelo
El valor de los parámetros estimados aparece en la columna 1 y son
b = (
b ;b1 ;
b2 ) = ( 177:439; 3:863; 3:908)
0
por lo tanto el modelo es:
y= 177:439 + 3:863X1 + 3:908X2

Figura 14.1: Cuadro de la izquierda reporta la estimación de los parámetros y el análisis de la

varianza. A la derecha se presenta información descriptiva e intervalos de conanza.
14.2.6 Prueba de hipótesis: parámetros del modelo

Con esta información se puede hacer inferencia sobre los parámetros, de esa manera averiguar si
tanto el nivel de lluvia como la temperatura de manera individual tienen efecto estadísticamente
signicativo sobre el rendimiento por hectárea. Para ello se plantean las siguientes hipótesis:
H0 : 1 = 0 contra H1 : 1 6= 0 y
H0 : 2 = 0 contra H1 : 2 6= 0
Ver los resultados reportados en la Figura 14.1. Cada una de estas hipótesis se prueban con
el estadístico t de Student, el planteamiento y el cálculo de estas es como sigue:
b
1 3:863 0
1
t1 = = = 5:331
b )
b ( 0:725
1
y
b2
2 3:908 0
t2 = = = 4:687
b )
b ( 0:834
2
Como ambos estadísticos son mayores que el valor t(=2; gl = 5) = 2:571 y con un = 0:05;
se tiene que ambas variables contribuyen de manera signicativa en el efecto de rendimiento de
producción del grano. La Figura 14.2 indica el valor del estimador su error estándar y el intervalo
de conanza del 95%, en este caso, para los parámetros. Finalmente se indica el coeciente de
correlación entre la respuesta y cada una de las variables de entrada. Se indica los coecientes
de determinación y el error estándar.
Análisis de residuales
Las grácas de la Figura 14.3 describe el análisis de residuales.
14.2.7 Análisis e Interpretación del Modelo.

Se ha construido el modelo de regresión del ejemplo, una inferencia importante en el análisis de
regresión es evaluar la signicancia del modelo, tal situación se plantea mediante la hipótesis:
H0 : 1 = 2 = ::: = p = 0
H1 : i 6= 0 para alguna i ; i =1; :::; k

Figura 14.2: Completa el análisis de regresión múltiple, las correlaciones son entre ( y y X1 ) y
( y y X2 )
Figura 14.3: Análisis gráco de los residuales

Si se rechaza la hipótesis H0 , se concluye que el modelo es estadísticamente signicativo, así el

modelo es de utilidad para predecir valores de y dentro del rango de las variables independientes.
El procedimiento para probar ésta hipótesis se resume en una tabla conocida como análisis de
la varianza y se abrevia ANDEVA. Ésta consiste en dividir la suma de cuadrados total en dos
componentes una debida al modelo y la otra la que no explica el modelo. Ésta última corresponde
a la suma de cuadrados de la discrepancia que existe en el valor observado y el ajustado por el
modelo. En general a la discrepancia se le reconoce como residual. Finalmente se tiene que:
Suma de cuadrados total = Suma de cuadrados del modelo + Suma de cuadrados de residuales;
en símbolos:
n
X n
X 2 n
X 2
2
Yi Y = Ybi Y + Yi Yb (14.7)
i=1 i=1 i=1
Notación: Los términos de la ecuación (14.7 ), se conocen como la suma de cuadrados, el

P
n 2
término del primer miembro se denomina el total y se denota por SCT, éste es: Yi Y ,
i=1
el primer término del segundo miembro se conoce como la suma de cuadrados debida al modelo
Pn 2
y se denota por SCM y es: Ybi Y , nalmente el otro término del segundo miembro se
i=1
denomina como la suma de cuadrados no explicada por el modelo o suma de cuadrados del error,
n
P 2
ésta se denota por SCE, es decir Yi Yb . Con esta información y los grados de libertad
i=1
se construye la Tabla 14.2:
Fuente de Suma de gl Cuadrados Razón Prob.

variación cuadrados medios
Pn 2 Pn 2
Modelo Ybi Y k 1 Ybi Y =(n k) F = CMmodelo
CMerror
p
i=1 i=1
Pn 2 Pn 2
Error Yi Yb n k Yi Yb =(n k)
i=1 i=1
P
n 2
Total Yi Y n 1
i=1
Tabla 14.2. Descripción general de la tabla del ANDEVA
Los cuadrados medios que aparecen en la cuarta columna de la Tabla 14.2 se obtienen divi-
diendo la suma de cuadrados por los grados de libertad. Luego se divide el cuadrado medio del
modelo entre el cuadrado medio del error, el valor resultante viene de una distribución de pro-
babilidad F con 1 y 2 grados de libertad. Éste permite probar la hipótesis nula sobre igualdad
de parámetros, es decir:
CMmodelo
Fc =
CMerror
Si Fc es mayor que un valor de la distribución F para un = 0:05 con los grados de libertad
apropiados, entonces se dice que los datos no apoyan la hipótesis nula H0 y se rechaza. También
se compara el valor de con el valor de la probabilidad p; es decir si > p se rechaza H0 .
Análisis de la Varianza con respecto a la representación matricial
En forma esquemática, el procedimiento para contrastar la hipótesis global se muestra en la

Tabla 14.3. En la columna 5 se presenta el valor calculado del estadístico.
Fuente de Grados de Suma de Cuadrados Fc valor p

variación libertad cuadrados medios
Regresión g 1 b
SCreg = (y0 X y 2 =n) SCreg CMreg
g 1 CMerror
Error n g SCerror = y0 y b
y 0 X SCerror
n g
Total n 1 SCtotal = (y0 y y 2 =n)
Tabla 14.3 Descripción del análisis de la varianza
ANDEVA para el ejemplo 1
La hipótesis que se probará para este ejemplo es :
H0 : 1 = 2 = 0 contra la alternativa H1 : i 6= 0; para alguna i = 1; 2.
En el segundo cuadro de la izquierda en la Figura 14.1 muestra el análisis de la varianza, de ahí

se puede concluir que se rechaza la hipótesis nula ya que el valor de p es menor que = 0:05:
Estimación de la varianza
La varianza 2 se estima por

P 2
SCE Yi Yb
b2 =
=
n k n k
b2 es
La varianza 2 se estima así
P
2 SCE (Y Yb )2 99:268

b = = = = 19:854
n k n k 7 2
p 2 p
y el error estándar es
b= b = 19:854 = 4:4578
Coeciente de determinación
Otros resultados estadísticos para evaluar el modelo de regresión se siguen a partir del coeciente
de determinación, el cual se obtiene por:
SCM SCE 99:268

R2 = =1 =1 = 0:858;
SCT SCT 700:0
P b 2
donde la SCT = Yi Y = 700:0; entonces este coeciente indica que aproximadamente el
86% de los datos son explicados por el modelo. Por otro lado el de determinación ajustado por
los grados de libertad es:
2 (n 1)SCE (7 1)99:268
Rajs =1 =1 = 0:802
(n k)SCT (7 2)700:0
Considerando esta información proporcionada por los datos, se tiene que el modelo explica el
80%. Se puede notar que estos coecientes son aproximadamente iguales, si el número de datos
observados aumenta de manera considerable.
Coeciente de determinación R2 : notación matricial

El reporte sobre la bondad del modelo se completa mediante el cálculo del coeciente de deter-
minación, el cual indica qué porcentaje de los datos son explicados por el modelo, éste se estima
por la siguiente expresión:
SCreg SCerror y0 y y 0 Xb
R2 = =1 =1
SCtotal SCtotal y0 y y 2 =n
con la información presentada en la tabla del ANDEVA, se obtiene el valor estimado de R2 .
Evaluación del modelo.

La construcción del modelo y la estimación de los parámetros se basan en el supuesto de que la
variable aleatoria " tiene una distribución de probabilidad normal, entonces es importante veri-
car este supuesto, también se debe observar si se cumple la homogeneidad de la varianza. Estos
aspectos relevantes se analizan descriptivamente mediante técnicas grácas como se muestran a

continuación.
Intervalos de conanza para el modelo y la predicción
En el análisis del modelo de regresión es importante estimar mediante intervalos de conanza

a los parámetros del modelo y a la respuesta media en un valor especíco de x, y mediante un
intervalo de predicción para la respuesta individual para un valor especíco de la variable x.
Intervalo de conanza para 1
b1 t(n b1 ) t(n p
g; =2)ES( g; =2)S m11
donde m11 es el segundo elemento de la diagonal en la matriz (X0 X) 1 :

Intervalo de conanza para la media de la variable de respuesta en x0
q
Yb t(n g; =2)S (1; x0 ) (X0 X) 1 (1; x0 )0
=
b el vector de parámetros
donde Yb = x0 ; b0 ;
b = ( b1 ) y el vector (1; x0 ); donde x0 representa
a los niveles de los factores donde se requiere estimar la media de Y .
Intervalo de conanza para un valor de la variable de respuesta (predicho)
p
Yb t(n g; =2)S 1 + (1; x0 )(X0 X) 1 (1; x0 )0
Del ejemplo tratado se puede estimar el intervalo de conanza correspondiente al modelo y al

de la predicción para un valor da las variables de entrada, por ejemplo si X1 = 48 y X2 = 20; se
tienen los resultados que muestra la Figura 14.4. Estos intervalos se obtiene usando el software.
Ejercicio 1
Existe interés en conocer si hay alguna relación en el rendimiento de los estudiantes en el examen
de selección para ingresar a la preparatoria, con el promedio en la materia de matemáticas X1 y
la de español X2 que obtuvieron en los tres años de secundaria, el rendimiento se evaluó por el
número de respuestas correctas en el examen. Los resultados de nueve estudiantes seleccionados
al azar son los mostrados en la siguientes tabla, aciertos en el examen de selección X1 y el
promedio en secundaria X2 .
Y = aciertos 89 78 66 62 52 49 47 44 38
X1 = mat:promedio 78 89 70 74 72 68 70 65 62
X2 = esp:promedio 89 81 80 72 70 67 68 69 68
Figura 14.4: Intervalos de conanza para el modelo y la predicción
Ejercicio 2
En un proceso se quiere conocer la relación que existe entre el tiempo de mezclado y la velocidad
del equipo con la densidad. Un ingeniero realiza varias pruebas sus resultados se muestran en la
siguiente tabla
prueba tm vel den prueba tm vel den
1 5 100 3.1 11 8 200 3.2
2 5 100 3.3 12 8 200 3.5
3 5 200 2.6 13 9 100 2.8
4 5 200 2.4 14 9 100 2.6
5 7 100 2.5 15 9 200 3.1
6 7 100 2.6 16 9 200 3.0
7 7 200 3.0 17 10 100 3.2
8 7 200 3.3 18 10 100 3.4
9 8 100 2.4 19 10 200 2.5
10 8 100 2.3 20 10 200 2.4
Proponga un modelo de regresión múltiple y realice un análisis estadístico completo para

evaluar el modelo.
Ejecicio 3
Un investigador estudia el efecto de la razón de carga (X1 ) y temperatura (X2 ) en la vida de un

nuevo tipo de celda de poder. Un experimento se realiza donde tres niveles de X1 (6, 1.0 y 1.4
ampers) y de X2 (10, 20, 30 o C). Los factores que se reeren a la descarga de la celda Y, se midió
en términos del número de ciclos de carga-descarga en que la celda se mantiene antes de fallar.
Los datos se muestran en la siguiente tabla:
razón de tem número

carga de ciclos
X1 X2 x1 x2 Y
0.6 10 -1 -1 150
1.0 10 0 -1 86
1.4 10 1 -1 49
0.6 20 -1 0 288
1.0 20 0 0 157
1.0 20 0 0 131
1.0 20 0 0 184
1.4 20 1 0 109
0.6 30 -1 1 279
1.0 30 0 1 235
1.4 30 1 1 224
X1 = 1 X 2 = 20
Se propone el modelo: Y = 0 + 1 x1 + 2 x2 + 11 x21 + 22 x22 + 12 x1 x2 : Obtenga:
1. La tabla de coecientes.
2. La tabla del ANDEVA, la tabla de suma de cuadrados condicionales.
3. Obtenga el valor de la varianza y de los coecientes de determinación.
Ejercicio 4
Se somete un material a cierta temperatura, se desea conocer las impurezas generadas en un

proceso químico. A continuación se muestran los datos.
X Temeperatura (oC) y Impurezas (%)

90 18.4, 17.6, 18
100 11.7, 10.3
110 7.7, 8.3
120 6.5, 6.7
130 6.6, 7.2, 6.7
Preguntas:
1. Escriba el modelo lineal.
2. Haga la prueba de hipótesis sobre los parámetros del modelo.
3. Plantee y pruebe la hipótesis sobre el modelo, ¿qué puede concluir?

4. Interprete el coeciente de determinación.
5. Interprete el valor de la estimación del parámetro de la temperatura.
6. Estime el error estándar del parámetro de la variable temperatura.
7. Observe la gráca de residuales, ¿qué puede concluir?
8. Agregando al modelo el término cuadrático: Use el módulo de regresión avanzada, modelo

polinomial de orden 2. ¿qué puede concluir?
Parámetro Coeciente error std estadístico t p

coeciente 176.834 11.850 14.923 0.000
X -2.802 0.219 -12.811 0.000
X2 0.012 0.0009 11.588 0.000
Capítulo 15
Pruebas de bondad de ajuste
15.1 Análisis de datos categóricos

Los datos categóricos surgen cuando se observa una característica de una muestra de individuos
y ésta se registra en diferentes categorías cualitativas. Así, se toma una muestra de personas que
asisten al cine y se les pregunta su preferencia por el género de las películas. El tipo de película
se clasica por: Terror, Comedia, Ficción y Drama. Los datos relevantes en este estudio son el
número de asistentes que escogen cada categoría. La frecuencia de este tipo de datos se llaman:
datos categóricos. En este caso existe interés en estudiar la proporción que existe en cada una
de las categorías seleccionadas por los cinélos. La técnica que permite estudiar estas cuestiones
se conoce como pruebas Ji (Chi) Cuadrada de Bondad de ajuste.
Ejemplo 1.
Un vendedor en una tienda, considera que las ventas de un determinado juguete se debe al color,
hay tres tipos de colores A: azul, R: rojo, V: verde. La relación planteada por el vendedor entre
A, R y V se da en razón 1:2:1 .
Para vericar ésta situación se observa una muestra aleatoria de 150 juguetes de las ventas
realizadas el último trimestre. Los datos reportados se describen en la Tabla 15.1a:
Color juguete A:azul R:rojo V:verde N

Frecuencia Observada 27 82 41 150
Proporción 0.25 0.50 0.25
Tabla 15.1a Datos del ejemplo 1
Solución: Prueba de hipótesis 1. Las hipótesis que se plantea para este estudio:
H0 : p1 = 0:25: p2 = 0:50: p3 = 0:25
239
240 15. Pruebas de bondad de ajuste
H1 : El esquema de colores no satisface esta proporción.
Nota. La prueba se verica bajo el supuesto de que la hipótesis nula es verdadera. El valor
que se espera ante este supuesto, es multiplicar el tamaño de la muestra , N por la proporción
pi , es decir: N pi y se denota por Ei : Entonces la frecuencia esperada se escribe por:
Ei = N pi
La idea de la prueba es comparar las frecuencias esperadas Ei con los observados Oi . mediante
el estadístico de prueba:
n
X (0i Ei )2
2 = (15.1)
i=1
Ei
Tal como se muestra en la Tabla 15.1b
(0i Ei )2
Oi pi Ei Ei
Categoría Observado Proporción Esperado Contribución a la Ji

1 18 0.25 25 1.96
2 55 0.50 50 0.50
3 27 0.25 25 0.16
100 1 2.62
Tabla 15.1b Cálculo del estadístico
2. Se especica un valor de ; suponga = 0:05: Se identican los grados de libertad, en

este caso gl = n 1 = 2; donde n es el número de celdas. Se obtiene el valor de referencia 2c
usando las características de la distribución 2 : Ver Tabla 15.1c. Es decir 2c = 5:991
3. Se calcula el valor del estadístico que se genera para esta muestra, ver la última columna
de la Tabla 15.1b, así 2m = 2:62
4. Puesto que 2m = 2:62 < 2c = 5:991 no se rechaza H0
5. Se concluye que el vendedor conrma su armación sobre la proporción de venta de juguetes
con respecto al color.
15.1. Análisis de datos categóricos 241
Guía: Para realizar la prueba

1. Establecer las hipótesis Nula y Alternativa Indicar H0 y H1
2.a. Especicar el nivel de signicancia
2.b. Identicar los grados de libertad gl = (r 1)(c 1)
2.c. Usar la distribución 2 CalEst 2 (; gl) = 2c
para determinar la región de rechazo
P (0 E)2
3. Calcular el estadístico de prueba 2m = E
4. Decidir si se rechaza o no se rechaza H0 Si 2m > 2c se rechaza H0 No, en caso contrario
5. Interpretar la decisión en el contexto de H.
Tabla 15.1c
Prueba de hipótesis: Para ver este valor ir a CalEst tabla.

Resumen: A continuación se describe el procedimiento operativo, para construir el estadístico
de prueba 2 ; cálculo que realiza el CalEst.
n = número de celdas. (El número celdas en el ejemplo es 3, este debe ser variable)
P
n
Sumar el número de observaciones N = 0i
i=1
Obtener el valor esperado Ei = N pi donde p es la proporción i-esima.
(0i Ei )2
Calcular los i sumandos 2i = Ei
(Contribución a la Ji).
P
n
(0i Ei )2
Sumar los 2i ; 2 = Ei
i=1
Grados de libertad (gl) = número de celdas - 1.
Observaciones
1. La fórmula para calcular 2 es válida si todos los valores E son mayores o iguales a 5. Si
el valor de E es mayor que 5, el valor de 2 es sensible, al combinar las otras categorías de
E mayores a 5:
2. Si alguna de las categorías son combinadas para evitar valores bajos de E; el número de
categorías después de la combinación se usan en el cálculo de los grados de libertad.
15.1.1 Pruebas de independencia y homogeneidad en tabla de con-

tingencia
En este apartado, se discutirá el análisis de dos variables. Estas variables tendrán la característica
de ser categóricas, porque nos permiten clasicar los valores de las variables por categorías. Las
variables se reportan en tablas, llamadas de contingencia, las columnas consisten de los valores
en categorías de una variable, en los renglones se tienen los valores de la otra variable.
Suponga que se tienen varias poblaciones y de cada una de ella se extrae una muestra de
tamaño jo y cada respuesta se clasica en categorías. Estos datos se resumen como conteos en
una tabla de doble entrada, Tabla 15.2. Las columnas se reeren a las categorías y los renglones
a las diferentes poblaciones. El objetivo es probar cuando las poblaciones son semejantes u ho-
mogéneas con respecto a las probabilidades de las categorías. Es decir, se requiere determinar
cuando la proporción para cada categoría es aproximadamente la misma para todas las propor-
ciones. La prueba se conoce como prueba de homogeneidad y se aplica a tablas de contingencia
que tienen un marginal jado, el total del renglón corresponde al tamaño de muestras jado para
cada población.
Grupos de Edad
Tamaño de la compañía 1 2 3 4 5
Pequeña pa1 pa2 pa3 pa4 pa5 1
Grande pb1 pb2 pb3 pb4 pb5 1
Tabla 15.2 Caracterización de una población
La hipótesis nula de no diferencia u homogeneidad, especica que las probabilidades para una
categoría es la misma para todos los renglones o poblaciones.
H0 : pa1 = pb1 ; pa2 = pb2 ; pa3 = pb3 ; pa4 = pb4 ; pa5 = pb5 :
Bajo la hipótesis nula, se denotan estas probabilidades por p1 ; p2 ; p3 respectivamente.
El estadístico para vericar esta hipótesis se compara con el valor de una distribución 2 con
gl un número de grados de libertad y un nivel de signicancia : El procedimiento para construir
el estadístico de prueba se describe en el siguiente algoritmo.
15.1. Análisis de datos categóricos 243
Resumen de la Prueba de Homogeneidad en una Tabla de Contingencia.
Prueba 2
Hipótesis Nula:
En cada categoría, las probabilidades son iguales para todas las poblaciones.
Estadístico de Prueba

2
P (O E)2 O = frecuencia observada
= ; total columnas
Celdas
E E = total renglonestotal
gl = (No. de renglones-1)(No. de columnas -1)
Región de rechazo 2 2
Ejemplo 2
Se llevó a cabo un estudio para determinar la característica de la edad en dos tipos de compañías
(pequeñas y grandes). Se toma una muestra de 550 empleados, 300 de la pequeña y 250 de la
grande. La frecuencia esperada se muestra en la siguiente Tabla 15.3.
Grupos de Edad
Tamaño de la compañia 1 2 3 4 5 N
Pequeña 42 69 108 60 21 300
Grande 5 18 85 120 22 250
Total 47 87 193 180 43 500
Tabla 15.3 Descripción de los datos del ejemplo.

Columnas grupos de Edad en años, las categorías son: 1:mayores de 39, 2: 40-49, 3: 50-59, 4:
60-69, 5: más de 70.
Resultado del ejemplo:
Referencia Observado Esperado Contribución 2

1 42 25.636 10.445
2 69 47.455 9.782
3 108 105.273 0.071
4 60 98.182 14.848
5 21 23.455 0.257
6 5 21.364 12.534
7 18 39.545 11.739
8 85 87.727 0.085
9 120 81.818 17.818
10 22 19.545 0.308
Total 550 77.887
V de Cramer : 0.37631379. Para ver el valor de p ir a CalEst tabla de la Chi cuadrada.
Solución de Ejemplo: Hipótesis:

H0 : Las dos poblaciones (pequeña y grande) son homogéneas con respecto a la proporción
de los grupos de edad. H0 : p1 = p2
H1 : Las dos poblaciones no son homogéneas con respecto a la proporción de los grupos de
edad.
2. El nivel de signicación: = 0:05; ver en el CalEst la distribución 2 (0:05; 4) = 2c = 9:487
3. Estadístico de prueba:
P (O E)2
2m = E
= 77:886
Cell
4. Decisión: Se rechaza H0 ya que 2m > 2c

5. Conclusión: No existe homogeneidad en las poblaciones con respecto a las proporciones
del grupo de edad. Solución usando CalEst.
Procedimiento de cálculo del estadístico 2 :
Tener en cuenta las frecuencias observadas
Considerar las categorías para renglones y columnas (puede ser 1,2,3,... o las que el usuario
escoja)
Determinar el valor n = número de celdas. (El número de celdas por renglón y por columna)
P
r P
c
Sumar el número de observaciones total N = Oij , determinar el total renglón i-ésimo
i=1 j=1
P
c P
c
tri = Oij , y total columna j-ésimo tcj = Oij
j=1 i=1
tri tcj
Obtener el valor esperado Eij = N
.
(0i Ei )2
Calcular los i sumandos 2i = Ei
(Contribución a la Ji)
P
n P
n
(0i Ei )2
Sumar los 2i , 2 = 2i = Ei
i=1 i=1
Grados de libertad (gl) = (n

umero de renglones 1)(n
umero de columnas 1)
q
X2
Obtener Valor de Cramer V = N (k 1)
donde k = min(I; J), I renglones J
15.2. Pruebas de Bondad de Ajuste sobre distribuciones de probabilidad 245
15.2 Pruebas de Bondad de Ajuste sobre distribuciones

de probabilidad
Estas pruebas permiten decidir cuando una muestra de datos proviene de una distribución par-
ticular de probabilidad. Aquí solo se plantean tres distribuciones de probabilidad: Binomial,
Poisson y Normal, discretas las dos primeras y continua la segunda.
Para la binomial y Poisson se aplicará una prueba 2 , para ver que tan aproximadas son las
frecuencias observadas de la muestra obtenida con las frecuencias que se esperan bajo la hipótesis
nula, tal que ésta supone alguna de las distribuciones.
Para la distribución, se usará la prueba de Kondgorov-Smirnov.
15.2.1 Prueba de bondad de ajuste para una Distribución Binomial

Supóngase que se realizan n ensayos Bernoulli, y en cada ensayo hay dos resultados posibles,
denominados como éxito y falla. Los ensayos son independientes y la probabilidad p de éxito,
es constante. Considere que se repite ese conjunto de n ensayos varias veces y se observa la
frecuencia del número de éxitos. En este caso se puede plantear una prueba de hipótesis, para
vericar si es razonable concluir si el número de éxitos en los n ensayos tienen una distribución
binomial, en este caso se utiliza el estadístico de prueba 2 :
Nota: Para calcular la frecuencia esperada E, el valor p se estima de las frecuencias observadas
o se especica de manera hipotética.
Ejemplo 3
Se realiza un experimento en una prueba de concurso, donde el participante, "se supone ",
adivina la respuesta. Se plantean cinco preguntas con cuatro opciones. Esta prueba se aplicó a
una muestra de 60 individuos. El registro de los datos se reportan en la Tabla 15.4.
¿Hay evidencia de que los individuos respondieron simplemente adivinando?
Solución
Si los individuos adivinan cada respuesta, entonces la probabilidad de una respuesta correcta es
0.25. Así que la pregunta planteada, es equivalente a vericar si los datos de la muestra descritos
en la Tabla 15.4, siguen una distribución binomial con n = 5 y p = 0:25: La frecuencia esperada,
E; para los diferentes casos, se obtiene bajo el supuesto de que la distribución es una binomial
B(5; 0:25): Para ello se calcula la probabilidad en cada uno de los casos, ésta se multiplica por
el tamaño de la muestra. Con los valores de las frecuencias observadas y esperadas, se calcula el
estadístico 2 :
Observaciones
1. La fórmula para calcular 2 es válida si todos los valores E son mayores o iguales a 5. Si
el valor de E es mayor que 5, el valor de 2 es sensible, al combinar las otras categorías de
E mayores a 5:
2. Si alguna de las categorías son combinadas para evitar valores bajos de E; el número de
categorías, después de la combinación, se usan en el cálculo de los grados de libertad.
Casos Respuestas correctas P (x) E = P (x) 60 0 2m

1 0 0.2373 14:238 18 0:994
2 1 0.3955 23:730 22 0:126
3 2 0.2637 15:822 10 2:142
4 3 0.0879 5:274 6:21 6 10
5 4 0.0146 0:876 6:21 3 10
6 5 0.0010 0:060 6:21 1 10 2:313
Total 1.0000 60 60 5:575
Tabla 15.4 Resultados para el cálculo de la prueba 2
* Estos valores se obtienen del CalEst en el grupo de distribuciones en la opción Binomial,

en propiedades se escribe p = 0:25; n = 5 y se mueve el umbral.
Procedimiento de la prueba de hipótesis.
1. Plantear las hipótesis:
H0 : La muestra de los datos viene de una distribución binomial B(5; 0:25); suponiendo que
los individuos responden adivinando.
H1 : La muestra de los datos no tiene una distribución binomial B(5; 0:25); los individuos
muestran algunos conocimientos sobre las preguntas.
2. El nivel de signicancia = 0:05, los grados de libertad gl = número de categorías 1=3

(En este caso se redujeron) 2c 2
= (0:05; 3) = 7:82
3. En la última columna de la Tabla 15.4 se muestra el cálculo de 2 ; es decir 2m = 5:576:
4. Puesto que 2m = 5:576 < 2c = 7:82; no se rechaza H0 :
5. Es razonable concluir que los individuos contestaron adivinando la respuesta.

15.2. Pruebas de Bondad de Ajuste sobre distribuciones de probabilidad 247
15.2.2 Prueba de bondad de ajuste para una Distribución Poisson.
En muchas ocasiones existe el interés por determinar sin un modelo probabilísticos es adecuado
para expresar un fenómeno aleatorio. En esa dirección, lo que se requiere es probar si la muestra
aleatoria seleccionada proviene de una distribución de probabilidad especíca. En este apartado
se ilustrará si la muestra de los datos sigue una distribución Poisson. Recuerde que una variable
aleatoria Y de esta distribución, consiste en contar el número y de veces que ocurre un evento
en particular, durante una unidad de tiempo dado, un área o volumen.
Ejemplo 4
Una empresa revisa una muestra aleatoria que contiene 100 artículos de la producción generada
en un día y cuenta el número de defectos en cada artículo. Los datos se resumen en la Tabla 15.5
Número de defectos 0 1 2 3 4
Número de artículos 61 29 6 3 1
Tabla 15.5 Número de defectos en 100 artículos.
¿Se puede concluir que esta muestra de datos viene de una distribución Poisson?
Para responder a esta pregunta se debe realizar la prueba de hipótesis:
H0 : La muestra de datos proviene de una distribución Poisson.

(15.2)
H1 : La muestra de datos no vienen de una distribución Poisson.
El estadístico de prueba en este caso es 2 indicada en la expresión (15.1).

El procedimiento operativo para vericar esta hipótesis consiste en calcular el estadístico 2 .
Con el n de obtener los valores esperados, primero se estima el parámetro de la distribución.
Número total de artículos defectuosos 61 0 + 29 1 + 6 2 + 3 3 + 1 4

= = = 0:54
Número total de artículos 100
x e
Recuerde que la función de probabilidad de Poisson se expresa por P (X) = x!
para
x = 0; 1; 2; ::: En la Tabla 15.6 en la columna 2 se muestra el cálculo de probabilidades.
(0i Ei )2
Defectos P (x) E = P (x) 100 0i Ei
0 0.583 58:3 61 0:125
1 0.315 31:5 29 0:194
2 0.085 8:5 10:2 6 10 0:004
3 0.015 1:5 10:2 3 10
4 o mas 0.002 0:2 10:2 1 10
Tabla 15.6 Cálculo de la 2 para la distribución Poisson.
En resumen
La hipótesis se plantea en (15.2)
Con un nivel de signicancia = 0:05 el valor de 2 con gl = número de categorías

1 1=3 1 1
P (10 E1 05)2
En este caso se usa la corrección de Yates E
Puesto que 2m = 0:323 < 2c no se rechaza H0
Conclusión: La muestra de datos que caracteriza el número de defectos de la producción de

artículos por día sigue una distribución Poisson.
Ejercicio 1
El número de defectos menores detectado por un inspector en 90 carros de la producción de una

línea de ensamble es como sigue:
Número de defectos 0 1 2 3 4 5 6
Número de carros 35 13 6 5 18 10 3
1. Encuentre la media y varianza. ¿Estos valores son aproximadamente iguales? ¿Esto justi-
ca que los datos tengan una distribución Poisson?
2. Use la prueba 2 para conocer si el número de defectos sigue una distribución Poisson.
Ejercicio 2
El número de accidentes semanales en una ciudad durante un periodo de 30 semanas se resume

en la tabla:
15.3. Prueba de bondad de ajuste cuando la variable aleatoria es continua 249
Número de accidentes 0 1 2 3 4 5 6 7 8 9 10 11 12
Semanas 6 5 4 4 4 2 0 1 2 1 0 0 1
¿Cuál es el número de accidentes?

Organizando estos datos por sectores de la siguiente manera, en el sector 1 si hay 0 accidentes
X6 = 6, en el sector 2 si hay 1 accidente X1 = 5; en el sector 3, si hay 2 o 3 accidentes X2 = 8;
en el sector 4, si hay 4 o 5 accidentes X3 = 6; y en el sector 5, si hay mas de 5 accidentes X4 = 5;
en resumen:
Número de accidentes 0 1 2 3 4
Semanas 6 5 8 6 5
Verique que el número de accidentes semanales tiene una distribución de Poisson.
15.3 Prueba de bondad de ajuste cuando la variable aleato-

ria es continua
Si X1 ; :::; Xn es una muestra de datos en una distribución continua F especíca, se tiene interés
en probar la hipótesis nula H0 :
H0 : Se arma que F es la distribución poblacional.
Usando la prueba 2 cuadrada.
Se prueba esta hipótesis H0 considerando un conjunto de valores que pueden tomar las Xj ; estas
se organizan en k intervalos distintos, es decir:
(x0 ; x1 ); (x1 ; x2 ); :::; (xn 1 ; xn ) donde x0 = 1; xn = +1
A continuación la variable aleatoria Xj se plantea como una variable numérica discreta mediante
Yj ; j = 1; :::; n donde Yj se dene como sigue:
Yj = i si Xj se encuentra en el intervalo (Xi 1 ; Xi )
Para esta hipótesis se tiene que:
P (Yj = i) = F (Xi ) F (Xi 1 ); i = 1; :::; k
Esta se puede realizar mediante la prueba de 2 cuadrada.

Figura 15.1: Histograma con 7 clases, se anota la frecuencia en cada una de ellas. Se ajusta una
distribución normal.
Ejemplo 4
El tiempo en que una muestra de 120 estudiantes seleccionados al azar, tarda en responder el
rompecabezas sobre la República Mexicana se describen en el histograma de Figura 15.1-módulo
Grácas-. La hipótesis que se quiere probar, es que los tiempos de respuesta X siguen una
distribución de probabilidad normal con media = 500 y desviación estándar = 12. Es decir:
H0 : La variable X tiene una distribución normal (15.3)

H1 : La variable X no tiene una distribución normal
En la Figura 15.2, se muestran estrategias alternativas para evaluar si unos datos siguen una
distribución normal. En la gráca de la derecha se han aproximado la distribución empírica de
los datos, el polígono de frecuencias relativas acumulado, y el diagrama que representa la función
de distribución acumulada de una normal. Como se observa se ven muy aproximados. En la
gráca de la derecha se ha descrito el papel de probabilidad de una normal. En ambos casos se
observa de manera descriptiva que los datos se aproximan a una distribución normal.
En la Tabla 15.7 se presenta el resumen del cálculo del estadístico de prueba 2 :
15.3. Prueba de bondad de ajuste cuando la variable aleatoria es continua 251
Figura 15.2: Análisis gráco para evaluar si los datos se aproximan a una distribución normal.
(0i Ei )2
Tiempo de respuesta P (Y = i) Ei = P (Y = i) 120 0i Ei
1 [ 1; 471] 0:008 0:96 0 0:96
2 [471; 479] 0:032 3:84 5 0:350
3 [479; 487] 0:099 11:88 15 0:819
4 [487; 495] 0:199 23:88 24 0:001
5 [495; 503] 0:260 31:2 31 0:001
6 [503; 511] 0:222 26:64 22 0:808
7 [511; 519] 0:123 14:76 17 0:340
8 [519; 527] 0:044 5:28 6 0:136
9 [527; +1] 0:012 1:44 0 1:440
4:756
Tabla 15.7. Cálculo de 2 para una distribución normal.
El cálculo de las probabilidades las puede realizar usando la distribución normal o la calcu-
ladora normal en CalEst. Por ejemplo:
P (Y = 3) = P (479 < X 487) = 0:099 y P (Y = 9) = P (X 527) = 0:012
La suma de los valores en la última columna de la Tabla 15.7, genera el valor estadístico 2 ,
es decir 2m = 4:756: El área que deja a la derecha esta valor en la Calculadora Chi-Cuadrada es
igual a p = 0:783, con gl = 8: Si se compara p con el nivel de signicancia = 0:05 (5%) resulta
Figura 15.3: Resultado de la prueba de bondad de ajuste para una normal, usando la prueba 2 :
que p es mayor y por lo tanto no se rechaza H0 . Se concluye que los valores de la variable, X;
tiempo de solución del rompecabezas, sigue una distribución normal. La reproducción de este
análisis usando la prueba de 2 cuadrada en el programa se describe en la Figura 15.3:
15.4 La prueba Kolmogorov-Smirnov

La prueba de Kolmogorov-Smirnov (KS) es apropiada para decidir cuando una muestra viene de
una distribución de probabilidad normal con parámetros conocidos y 2 . Esta prueba es mas
eciente que el procedimiento elaborado para usar la prueba 2 :
En esencia la prueba KS compara la función distribución acumulada, F (x) de una población
con una función distribución acumulada empírica S(x); con base en los valores de la muestra.
Para una muestra X1 ; :::; Xn de n observaciones.
Número de valores de la muestra menores o iguales a x

S(x) =
n
La comparación se hace para todos los valores de x desde 1 hasta +1. La cantidad D
que obtiene el máximo absoluto de la diferencia, comparación, entre F (x) y S(x) se le llama
estadístico de prueba Kolmogorov-Smirnov, es decir:
15.4. La prueba Kolmogorov-Smirnov 253

i i 1
D = Máximo jF (x) S(x)j = Máximo Máximo F (Xi ; (F (Xi ) ;
x 1in n n
(in)
D = Máximo (D+ ; D ); (15.4)

i = 1; :::; n; y D+ =Máximo ( n1 F (Xi )); D =Máximo F (Xi ) i 1
n
:
El valor D se compara con los valores críticos del estadístico D ; donde es el nivel de
signicancia.
Nota. En el procedimiento operativo se ordenan los datos Xi ; es decir X(1) X(2) ::: X(n)
y F (Xi ) se estima bajo el supuesto de la hipótesis nula.
Se toma una muestra de 13 valores que miden un parámetro de calidad del agua en ppm :
48; 54; 47; 53; 49; 63; 57; 60; 51; 52; 58; 61; 56
Considere un nivel de signicancia de 5%, ¿Se puede concluir que estos datos vienen de una
distribución normal con media ( = 55 = 5)? Los valores estimados de estos parámetros
son
b = 54:54 y
b = 5:13:
Tabla 15.8. Descripción de los resultados de la prueba de Kolmogorov-Smirnov.
Los valores máximos para D+ y D son 0:091 y 0:087 respectivamente, así el máximo
(D ; D ) = (0:091; 0:087) = 0:091, ver Tabla 15.8. El valor p > 0:15, en referencia al nivel
+
de signicancia se tiene que p > ; de esa manera la muestra no da evidencias para rechazar
H0 : Por lo tanto una distribución normal con media 54:54 y desviación estándar 5:13 se puede
utilizar como modelo para medir el parámetro de calidad del agua.
Ejercicio 3
En relación a estudios médicos con el objeto de conocer qué tan desarrollado tienen el cerebro,
los médicos experimentan mostrando diferentes tipos de diseños y miden el tiempo de respuesta.
En particular en el caso del diseño, o la cara de un hombre entre semillas de café. Se toma el
tiempo en segundos a una muestra aleatoria de 30 personas.
11 13 14 22 29 30 41 41 51 55 56 59 65 65 66
74 74 75 77 81 82 82 82 82 83 85 85 87 87 88
¿Es razonable suponer que los tiempos de respuesta se distribuyen como una normal?
Ejercicio 4
Se realiza un experimento donde se tiene un grupo control y un tratamiento, las respuestas son
indicadas en:
Control 0.22, -0.87, -2.39, -1.79, 0.37, -1.54, 1.28, -0.31, -0.74, 0.38
-0.17, 0.62, -1.10, 0.30, 0.15, 2.30, 0.19, 0.50, -0.09.
Tratamiento -5.15, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43
7.11, 4.87, -3.10, -5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.5
El responsable de este estudio quiere vericar si existe diferencia entre el control y el tratamiento.
Verique si esto es así realizando:
Una prueba de hipótesis para diferencia de medios, usando una t student:
Realice esta comparación, empleando el estadístico KS.
En ambos casos use el programa. Según los resultados qué puede concluir.
Ejercicio 5
El profesor Sprent tiene en un librero de su biblioteca 114 libros de estadística, de esos tomó una
muestra aleatoria de 12 libros y anotó el número de páginas que tienen cada uno, estas son:
126 142 156 228 245 246 370 419 433 454 478 503
En otro librero dice que tiene sus libros favoritos de cción y no cción, (libros en general)
son un total de 143. Anotó el número de páginas de una muestra de 16 libros, ellos tienen:
29 39 60 78 82 112 125 170 192 224 263 275 276 286 369 756
15.4. La prueba Kolmogorov-Smirnov 255
Use la prueba de Kolmogorov-Smirnov para determinar si es adecuado suponer que las dos
muestras vienen de distribuciones poblacionales idénticas.
D = Máximo jF (x) F (y)j ; donde x es la variable número de hojas de los libros

en general y la variable y número de hojas de los libros en estadística.
Capítulo 16
Pruebas no paramétricas
16.1 Introducción
Las pruebas estadísticas no paramétricas se reeren a los procedimientos de inferencia que no
requieren que la distribución de la población sea normal o alguna otra distribución especíca en
términos de parámetros. Estas pruebas utilizan aspectos simples de una muestra aleatoria de
datos, tales como el signo de las medidas, el orden de la relación o frecuencias de categorías.
Por el momento, en el paquete estadístico sólo se a desarrollado la prueba del signo. En futuras
versiones y en función de la necesidad de los usuarios se ampliará la elaboración de estas pruebas.
16.2 Prueba del signo.

En una población la mediana de lo que gasta un estudiante a la semana es menor a 75 pesos. Para
vericar este hecho se realiza la prueba de la Mediana. La hipótesis nula plantea que la Mediana
es 75. Se entrevista a n estudiantes para vericar esta hipótesis, el procedimiento consiste en
contar los datos que están por arriba o abajo de la mediana. Según la hipótesis alternativa si
quedan por abajo o arriba se considera un éxito o un fracaso.
Por ejemplo si:
H0 : m0 = 75
H1 : m0 < 75
Si m0 < 75 son casos de éxito x = x0 es la referencia para evaluar si los datos apoyan a la
hipótesis nula. Se usa la distribución binomial para estimar el nivel de signicancia descriptiva
p: Así:
0
X
p= b(n; x0 ) si p < se rechaza H0
i=0
257
258 16. Pruebas no paramétricas
De manera análoga se tiene que si:
H1 : m0 > 75;
0
X
p = 1 b(n; i)
i 0
para el caso en que la alternativa sea:
H1 ; m0 6= 75
El nivel de signicancia descriptivo es 2p:
Cuando n > 25 se considera un tamaño de muestra grande y el valor de p se calcula por
p = P (Z z0 ):
Si H1 : m0 < 75: La referencia del procedimiento completo se da en la tabla. Donde Z es una
distribución Normal:
x + 0:5
Z= p
0:5 n
Procedimiento general para realizar la prueba del signo.
Planteamiento
H0 : mediana = 0,
H1 : mediana 6= k; H1 : mediana < k, H1 : mediana >k
Procedimiento:
Si el tamaño de muestra es menor o igual a 25.
1. Determinar el número del tamaño de muestra asignando signos positivos y negativos a los
datos de muestra.n = i + j, donde i el número de signos negativos y j número de signos
positivos.
2. Determinar el valor crítico mediante la distribución binomial. El valor de p (para rechazar

no rechazar la hipótesis) es en el caso de la alternativa H1 : mediana < k : p = P (X
Px
x) = binomial(n; i), donde la probabilidad de éxito es 0.5
i=0
Si el tamaño de muestra es mayor a 25 usar el siguiente estadístico:

16.2. Prueba del signo. 259
1. z= (x+0:5)
p
n
0:5n
, este se distribuye como una normal y el caso es igual al caso de la z para
2
(x+0:5) 0:5n
una población. Es decir si zm es mayor o igual al valor crítico zc donde zm = p
n
2
correspondiente a la información muestral.
Ejemplo 1
Se cree que las mujeres de las zonas rurales que trabajan en una empresa tienen un salario a la
semana, superior a la mediana de 750. Se entrevista a una muestra aleatoria de 16 mujeres. Los
datos reportados son:
775 754 745 756

765 753 750 760
801 739 777 782
742 751 769 789
Hipótesis:
H0 : mediana = 750;
H1 : mediana > 750
El mecanismo para vericar esta hipóteis se basa en comparar los 16 datos con 750. Hay
i = 3 con signo negativo, y j = 12 con signo positivo, entonces n = 15. Hay un empate. Se
calcula la binomial para determinar el valor de p.
15
X
p = P (X 12) = binomial(15; i) = 0:0176
i=12
Salida:
Prueba de Signo para la mediana = 750.0 contra > 750.0
N Abajo Igual Arriba valor de p Mediana

Dem 16 3 1 12 0.0176 758.0
Abajo son los negativos, arriba son los positivos. Puesto que p < = 0:05, se rechaza la
hipótesis nula.
Este procedimiento se puede aplicar a la comparación no paramétrica de dos poblaciones, es
decir la prueba del signo extendida para comparar dos poblaciones.
260 16. Pruebas no paramétricas
Capítulo 17
Diseño de Experimentos
17.1 Presentación
La nalidad principal de este módulo en el software es generar de manera visual diseños facto-
riales 2k y sus fracciones, una vez seleccionado el diseño, el siguiente paso es realizar el análisis
estadístico básico capturando la información de los resultados experimentales.
También se tiene desarrollada la hoja para generar el diseño de Plackett-Burman. Se com-
plementa con la estructura para obtener la forma y análisis de los diseños factoriales completos.
Finalmente se completa el módulo con diseños básicos de la metodología de supercie de
respuesta, como son el diseño central compuesto y el Box-Behnken.
Una parte relevante en el paquete, es llevar a cabo prácticas en diseño experimental, con
ese n se han agregado dos ayudas didácticas denominadas el cañón y el helicóptero. Estos
describen dos artefactos que mediante la simulación se pueden plantear diferentes estrategias
experimentales y aplicar los diseños elaborados en el módulo de diseño de experimentos.
La metodología y el fundamento técnico del diseño y análisis estadístico de un experimento
que forma parte de este módulo, se puede consultar en el libro de Experimentos: Estrategia y
Análisis en Ciencia y Tecnología.
Referencia: Castaño, T. E. y Domínguez, D. J. (2003). Experimentos: Estrategia y Análisis en
Ciencia y Tecnología. CIMAT, México. Por aparecer una nueva edición. Diseño de Experimentos
Estrategias y Análisis Estadísticos en Ciencia y Tecnología.
17.2 Material experimental

En esta parte se presentan dos prototipos que permiten realizar experimentos de manera simu-
lada. Éstos se han denominado cañón y helicóptero, en el software se tienen en el conjunto de
herramientas didácticas. En la Figura 17.1 se describen estos dos artefactos. En ambos casos se
plantea una serie de factores de control y de ruido con un rango de valores para cada factor. En
el helicóptero se tiene una variable de respuesta que es el tiempo de caida, en este caso se espera
261
262 17. Diseño de Experimentos
Figura 17.1: Prototipos para realizar experimentos considerando diferentes diseños.
maximizar la respuesta. El cañón tiene tres variables de respuesta estas son altura, distancia y
tiempo. El uso de estos simuladores se planteará como ejercicios más adelante.
17.2.1 Diseños de experimentos en CalEst

Los diseños que se pueden emplear aparecen en una hoja de trabajo generada por el software,
para obterner ésta hay que ir a la opción estadística y de ahí a métodos avanzados. Luego
seleccionar diseño de experimentos y aparece una hoja como la que se muestra en la Figura 17.2.
Esta hoja es dinámica porque a partir de esa se pueden generar diferentes diseños y al nal de
las selecciones que considere el usuario se tendrá una hoja para capturar la respuesta. Al nal se
presenta un apartado que corresponde al glosario de términos básicos en diseño de experimentos
La primera opción en la Figura 17.2 son los diseños 2k y sus fracciones, el ejemplo 1 ilustra el
caso de un diseño completo 23 . La hoja de trabajo de diseño, en esa gura, tiene la posibilidad
de varias selecciones el procedimiento es como sigue:
1. Completar el número de réplicas, bloques y puntos centrados y se oprime continuar.
2. En la siguiente hoja aparece un resumen de lo seleccionado en el paso 1, luego tiene la

opción de regresar o continuar.
3. La tercer hoja le permite denir el nombre de los factores, los valores y el orden del diseño,
en este caso se ha limitado a dos. Nuevamente tiene las opciones de regresar o continuar.
17.2. Material experimental 263
Figura 17.2: Esquema para plantear un diseño experimental.

4. Finalmente aparece la tabla para capturar la información, ver Figura 17.3, en esa existe la
posibilidad de aleatorizar el experimento, seleccionar factores para el análisis estadístico,
pasar la información a una hoja de cálculo.
5. A continuación aprieta la tecla calcular y se despliega el análisis estadístico con una serie
de opciones grácas.
Ejemplo 1
En un proceso industrial se tiene interés en extraer aceite de cacahuate, la técnica usada es

mediante el dióxido de carbono a presión muy alta, se consideraron los siguientes factores, A:
temperatura, B: mezcla de cacahuate y C: razón de ujo. La nalidad del proyecto consiste en
mejorar la producción total de aceite (y). Los dos niveles de cada factor se describen en la Tabla
17.1a.
FactoresnNiveles 1 1
o
A:temperatura 50 C 90o C
B:mezcla 10g 20g
C:ujo 35g=min 50g=min
Tabla 17.1a Producción de aceite de cacahuate del Ejemplo 1

Los datos que se obtuvieron al realizar este experimento se muestran en la Tabla 17.1b (en el
orden estándar ahora para tres factores). Las estimaciones de los promedios se muestran en las
siguientes tablas. En la Figura 17.3 se reproduce la captura de datos.
Factores Respuesta
A B C
1 1 1 y111 = 65
1 1 1 y211 = 62
1 1 1 y121 = 58
1 1 1 y221 = 68
1 1 1 y112 = 64
1 1 1 y212 = 79
1 1 1 y122 = 62
1 1 1 y222 = 94
y 1 = 62:25 y 1 = 67:50 y 1 = 63:25 y = 69
y 2 = 75:75 y 2 = 70:50 y 2 = 74:75
^ A = 13:50 ^ B = 3:00 ^ C = 11:5
Tabla 17.1b. Datos de producción de aceite de cacahuate
Observe que se han asignando los números -1 y 1 a los dos niveles de los tres factores con el
mismo criterio establecido en el ejemplo anterior, es decir los niveles en el factor A se alternan
Figura 17.3: Captura de datos en un diseño factorial 23 .
uno a uno, en el factor B dos a dos y en el factor C cuatro a cuatro. Se realiza el experimento
llevando a cabo los tratamientos, éstos se obtienen de hacer todas las combinaciones posibles de
los tres niveles de los factores, en este caso resultan 8 tratamientos; por supuesto en la práctica
estos se corren en un orden aleatorio.
^ A = (
y2 y1 ) (17.1)
^ B = (
y2 y1 )
^ C = (
y2 y3 )
^ AB = [(
y22 y12 ) (
y21 y11 )]=2
^ AC = [(
y22 y12 ) (
y21 y11 )]=2
^ BC = [(
y22 y12 ) (
y21 y11 )]=2 (17.2)
Los efectos correspondientes al experimento se obtienen mediante el método de mínimos

cuadrados, las expresiones correspondientes se plantean en las expresiones (17.1) y (17.2), con-
sultar el Capítulo 4 del libro Castaño-Domínguez.
Solución
En resumen, los efectos de los factores e interacciones se muestran en las Figuras 17.4, primera
parte, y 17.5 segunda parte, éstas se obtiene a partir del reporte que genera el CalEst
Figura 17.4: Parte 1 del reporte generado por el CalEst para un diseño factorial 2k .
La Figura 17.4 muestra la estimación de los efectos, así como los coecientes del modelo de
regresión y el correspondiente error estándar de cada factor; a continuación el valor del estadístico.
Éste último se obtiene mediante la siguiente expresión:
b = 2 (X0 X) 1 :
V ar()
El error estándar ES de cada parámetro del modelo se obtiene por:
b ) = pmii ;
ES( (17.3)
i
donde mii es i esimo elemento de la diagonal en la matriz (X0 X) 1

y 2 es la varianza del
error. La estimación de este valor corresponde al cuadrado medio del error, reportado en la tabla
del análisis de la varianza Figura 17.3, su valor para el ejemplo es CMerror = 2:00 y su error
estándar S = 1:4142, Figura 17.4 segunda parte del reporte.
Nota. La matriz (X0 X) 1
se ha descrito en el Capítulo 14, en el diseño 23 la matriz X es la
matriz diseño mostrada en la Tabla 17.1b y en la Figura 17.3, con una columna de unos. Luego
sigue la columna que corresponde al estadístico cuyo valor es:
bij
E(bij )
tc =
bij )
ES(
donde tc ; suponiendo que se cumple la hipótesis nula respectiva, tiene una distribución de pro-
babilidad t de Student, con n g grados de libertad t(n g). Donde la hipótesis nula se plantea
para la parte lineal por:
Hlo : i = 0; i = 0; :::; p
Hl1 : i 6= 0
y en el caso de interacciones, segundo orden, mediante:
Hco : ij = 0; i; j = 1; :::; p; i 6= j:
Hc1 : ij 6= 0
Finalmente, el valor arrojado por tc es el valor de la probabilidad a la derecha o izquierda de la

distribución t si la hipótesis alternativa es mayor o menor a cero. Ese valor de p corresponde
al nivel de signicancia descriptivo y se compara con el nivel de signicancia : Si p > no se
rechaza la hipótesis nula, se rechaza en caso contrario.
A continuación, Figura 17.3, se decribe el modelo de regresión y la tabla del análisis de la
varianza para el modelo.
La Figura 17.4 indica, la parte complementaria del reporte. Nuevamente se presenta el valor
estimado del parámetro de regresión, el error estándar como se escribió en la expresión (17.3).
El intervalo del 95% de conanza para estos parámetros. El último bloque señala el coeciente
de correlación de la respuesta con respecto a cada variable de entrada -factor-. Los coecientes
de determinación, ver su denición Capítulo 14, y el valor del error estándar.
La Figura 17.6 describe el análisis estadístico, mediante grácas, del diseño experimental.
Estas grácas son el soporte e interpretación visual del reporte estadístico generado en las Figuras
17.4 y 17.5. Las primeras cinco grácas tienen que ver con la signicancia de los factores e
interacciones. Las siguientes tres evalúan las características del modelo. La última tiene que ver
con las curvas de nivel del modelo de regresión, esta se describe en la Figura 17.6 para el ejemplo
2 en un diseño central compuesto. Estas curvas tienen que ver con el proceso de optimización
descriptivo del modelo de regresión.
Ejemplo 2
La nalidad en este ejemplo es ilustrar el uso de las curvas de nivel, en las opciones grácas
en el diseño de experimentos aparece en el último renglón de nivel. Ésta es apropiada para los
Figura 17.5: Segunda parte del reporte generado por el CalEst.
Figura 17.6: Análisis gráco del diseño de experimentos y modelo.

primeros cuatro tipos de diseño experimental descritos en la hoja de trabajo. A continuación se

describe el esquema de un diseño central compuesto.
En el proceso de nixtamalización, se consideran los factores tiempo, temperatura y la con-
centración de cal en 0.8% este factor quedó jo, se desea encontrar una región de operación de
tal manera que el índice de absorción de agua (iia) se incremente. Después de una investigación
inicial se propusieron los niveles de dos factores de tal manera que diera lugar a un diseño central
compuesto, así para el tiempo y la temperatura se tiene que:
FactornNiveles 1:41 1 0 1 1:41

t: tiempo min 25 27 32 37 39
T : temperatura o C 88 95 100 105 112
El diseño y los resultados se muestran en la Tabla 17.2, estos datos se captura en la hoja del
diseño central compuesto, se realiza el análisis estadístico y se construye el modelo de regresión.
Éste modelo permite llevar a cabo el proceso de optimización de manera descriptiva tal y como
se muestra en la Figura 17.8. Para generar estas curvas se debe ir a la última opción de grácas
en diseño de experimentos y seguir el siguiente procedimiento:
x1 x2 tpo temp iia

1 1 27 95 6:3
1 1 37 95 5:4
1 1 27 105 5:8
1 1 37 105 6:5
1:41 0 25 100 4:9
1:41 0 39 100 5:6
0 1:41 32 88 5:9
0 1:41 32 112 6:8
0 0 32 100 7:5
0 0 32 100 7:3
0 0 32 100 7:8
Tabla 17.2. Resultados experimentales del Ejemplo 2
1. Aparece un plano de coordenadas, éste contendrá a la curva o las curvas de nivel, para
trazar ésta (s) oprima la opción factores en la parte central superior, ver Figura 17.7
2. En la hoja aparecen indicados los factores que van en el eje horizontal y eje vertical.
También aparecen los factores que han sido parte del experimento, así para que en el caso
de más de dos factores se pueda jar el tercer factor en los valores que más le convenga al
usuario. Del lado derecho aparecen los valores mínimo y máximo según los niveles de los
factores en el cuadro de la derecha, estos se sustituyeron en el modelo.
Figura 17.7: Procedimiento para generar curvas de nivel.

Figura 17.8: Curvas de nivel para el diseño central compuesto del ejemplo 2.
3. Luego se selecciona el valor o los valores de las curvas de nivel que desea que aparezcan en
el plano, para cada valor hay que oprimir la echa verde.
4. Se oprime la tecla aceptar y aparece un plano con las curvas de nivel, estas se pueden
mover con el ratón. No aparecerán las que no estén en la región descrita por el plano de
coordenadas.
17.2.2 Glosario de términos básicos

Bloque: Un grupo de puebas con base en un factor común, tales que son efectuadas a la vez. El
bloque homogeniza las unidades experimentales. No es de interés estudiar su efecto. El bloque
reduce el ruido experimental y mejora la sensitividad de los efectos.
Curvas de nivel: Es una descripción gráca del modelo de regresión, se usa en los diseños
experimentales de supercie de respuesta.
Diseño Box-Behnken: Es un diseño experimental con tres niveles usado en los métodos de
supercie de respuesta.
Diseño Central Compuesto: Es un diseño de múltiples niveles usado en métodos de supercie
de respuesta, éste está conformado por el diseño factorial 2k , puntos centrales y aumentado con
puntos axiales.
Diseño factorial: Una serie de pruebas que consiste en la combinación de los niveles de los
factores incluidos en el experimento.
Diseño factorial completo: Es un diseño completo, todas las posibles combinaciones de los
niveles de los factores, que involucra a factores categóricos con dos o más niveles.
Diseño factorial fraccionado: Es un diseño que corresponde a un subconjunto del diseño fac-
torial, estos se generan a partir de las interacciones de los factores que se confunden, usualmente
conocido como generador.
Diseño Plackett-Burman: Es una clase de diseño factorial ortogonal saturado con dos niveles
por cada factor, el número de pruebas o corridas es múltiplo de 4, pueden coincidir con algún
diseño factorial fraccionado 2k-p. Estos diseños son de resolución III.
Efecto: Cambio en el promedio de una respuesta cuando el factor cambia de su nivel bajo
al nivel alto.
Efectos confundidos: Los efectos no se pueden estimar de manera independiente uno de otro,
estos están completamente o parcialmente confundidos.
El término error: Representa la parte aleatoria en el modelo téorico. Los residuales se
usan para estimar su naturaleza. Usualmente se supone que estos tienen una distribución de
probabilidad normal con media cero y varianza constante.
Error experimental: La variación en la respuesta debida a variables extrañas, también con-
siderada por los factores, bloques aunada a la incertidumbre de medición en la respuesta.
Estructura Alias: Es una lista de los factores principales o interacciones que están confundidos
con otras interacciones. Esto es básico en diseño factorial fraccionado, y señala cuando los efectos
principales o interacciones se pueden estimar.
Experimento: Una serie de pruebas que se realizan con el objeto de descubrir el resultado en
un proceso.
Factor: Variable independiente que se manipula en el experimento.
Nivel: Valor de un factor.
Papel de probabilidad semi normal: Es el papel de probabilidad normal considerado a la
derecha del punto cero, corresponde al valor absoluto del efecto de los factores.
Puntos Axiales: Son puntos del diseño que están en los ejes de coordenadas de los factores
equidistantes del punto central, se usan frecuentemente en el diseño central compuesto y se
conocen como puntos estrella.
Puntos centrales: Son pruebas experimentales en las que los factores cuantitativos están en
el punto intermedio de su valor alto y bajo.
Términos aliados: Cuando existen pocos puntos en el diseño experimental, entonces algunos
parámetros del modelo no pueden ser estimados independientemente.
Valores codicados: Es una manera de simplicar los cálculos, en los diseños factoriales de
dos niveles se convierten los niveles alto y bajo en 1 y 1 respectivamente. La codicación
permite realizar los cálculos independientemente de las unidades de cada factor.
Ejercicio 1
Considere el prototipo del helicóptero descrito en el módulo de opciones en didáctica en el CalEst.

La Tabla 17.3 muestra los factores y los valores de sus niveles mínimo y máximo.
Niveles
Factores Mínimo Máximo
A: Long. ala 5 15
B: Ancho ala 3 7
C: Altura 1 6
D: Peso 0 20
E: Ángulo 0 90
F: Tipo papel 1 2 3
Tabla 17.3 Factores de control en el helicóptero
Realice el experimento con un diseño 26 3 con los valores que se indican en la Tabla 17.4, use
la hoja de captura en el software para aleatorizar los tratamientos, lleve a cabo los siguientes dos
casos:
1. Haga una sola vez el experimento, anote la respuesta y realice el análisis estadístico.
2. Haga dos réplicas del experimento anterior.

Con la nalidad de tener tres respuestas, calcule la media desviación estándar de cada
tratamiento, como respuesta haga los análisis estadísticos respectivos para ambas respuestas.
Valores reales Valores codicados

Factores A B C D E F A B C D E F
7 4 3 15 90 2 -1 -1 -1 1 1 1
12 4 3 5 0 2 1 -1 -1 -1 -1 1
7 6 3 5 90 1 -1 1 -1 -1 1 -1
12 6 3 15 0 1 1 1 -1 1 -1 -1
7 4 5 15 0 1 -1 -1 1 1 -1 -1
12 4 5 5 90 1 1 -1 1 -1 1 -1
7 6 5 5 0 2 -1 1 1 -1 -1 1
12 6 5 15 90 2 1 1 1 1 1 1
Tabla 17.4 Diseño Factorial Fraccionado: 26 3
¿En qué valores de los factores tiene la mayor respuesta?
¿Qué estrategia plantearía para mejorar el valor de la respuesta, tener un mayor valor del
tiempo de caida?
Ejercicio 2
En el caso del helicóptero existen dos factores de ruido, como se muestra en la Tabla 17.5, donde
( 1) y (1) son los valores codicados.
Niveles
Factores Mínimo Máximo
P: Temperatura 15( 1) 25(1)
Q: Humedad 30( 1) 50(1)
Tabla 17.5 Factores de ruido
Desarrolle un diseño factorial 22 para estos factores de ruido. Junto con el diseño experimental
presentado en la Tabla 17.4, se plantea un diseño en un doble arreglo ortogonal como se muestra
en la Tabla 17.6.
P: -1 1 -1 1
TratnFactores A B C D E F Q: -1 -1 1 1 y s
1 1 1 1 1 1 1
2 1 1 1 1 1 1
3 1 1 1 1 1 1
4 1 1 1 1 1 1
5 1 1 1 1 1 1
6 1 1 1 1 1 1
7 1 1 1 1 1 1
8 1 1 1 1 1 1
Tabla 17.6 Doble arreglo ortogonal respuestas media y y desviación estándar
1. Haga el experimento soltando los 32 helicópteros.
2. Con los resultados en 1, calcule la media y desviación estándar.
3. Realice el análisis de varianza completo para ambas respuestas, la media y desviación

estándar.
Ejercicio 3
Use los resultados del experimento en un arreglo factorial 28 3 , 32 tratamientos donde los 8
factores son: los 6 de control y los 2 de ruido. Haga el análisis estadístico de este diseño.
¿Resultan signicativos los factores de ruido? ¿Existe alguna interacción entre los factores de
ruido y control?
Ejercicio 4
Plantee otros diseños experimentales con otros factores.
Ejercicio 5
En la Tabla 17.7, se plantea los niveles de tres factores para el helicóptero con la nalidad de
realizar un diseño central compuesto.
1. Plantee el esquema de este experimento.
2. Realice el experimento.
3. Haga el análisis estadístico e interprete los resultados.
4. Use las curvas de nivel para encontrar la solución con mayor respuesta.
Niveles
Factores ( 2) 1 0 1 (2)
A: Área 15 30 50 75.6 105
B: Razón 1.63 1.875 2 2.08 2.14
C: Ángulo 15 30 45 60 75
Tabla 17.7 Valores de los niveles en un diseño central compuesto:
Donde los valores de la longitud y ancho del ala para determinar el área y la razón entre esos
valores son:
Longitud ala 5 7:5 10 12:5 15

Ancho ala 3 4 5 6 7
Ejercicio 6
Tomando como base el cañón, plantee esquemas experimentales similares a los ejercicios ante-
riores con el n de que al disparar el cañón, éste de en el blanco. Tome como variable de respuesta
la diferencia entre la distancia del blanco y la distancia alcanzada al disparar el cañón.
Capítulo 18
Proyectos de estudios estadísticos
En el mundo real existe una gran variedad de problemas y necesidades de conocimiento, la solu-
ción a diferentes cuestiones y demandas a estas necesidades se dan en base a la información
generada por los datos. La estadística desempeña un papel relevante en la captura e inter-
pretación de esa información. Su nalidad es generar modelos o esquemas signicativos de la
variación que está en todas partes.
La nalidad de la estadística está en el proceso de encontrar un mayor conocimiento

sobre el mundo real mediante la colección e interpretación adecuada de los datos.
Los estadísticos que hace la teoría han desarrollado métodos para solucionar los problemas
relacionados al proceso. Para ello existe un esquema de investigación que se describe en seis
etapas y en resumen se describen a continuación.
1. El problema, curiosidades. En diferentes profesiones y actividades académicas y no académi-

cas las personas tratan de resolver una enorme variedad de problemas usando el pen-
samiento estadístico.
2. Las preguntas sobre el tema a estudiar. Los procesos de investigación, o procesos para
generar conocimiento inician haciéndose preguntas.
3. Diseño del método para la colección de datos. La colección de los datos usualmente se
obtienen mediante la realización de un experimento, una encuesta o estudios de observación.
Todos estos requieren de una metodología estadística para obtener la información.
4. Colección de los datos. Este involucra la fase de diseño tanto experimental como en en-
cuestas.
5. Resumen y análisis. Uno de los objetivos de este libro está en los métodos para resumir y
analizar los datos, éstos últimos en el marco de estructuras simples.
277
278 18. Proyectos de estudios estadísticos
6. Respuestas. Una vez realizados los análisis se llega a la etapa de interpretar los datos, así
responder a las preguntas planteadas.
A continuación se planean una serie de problemas con el objetivo de generar sus datos propios.
Estos se pueden realizar con los alumnos en diferentes cursos, conviene tomar estos ejemplos como
referencias, planear estrategias y objetivos en función de la clase. Además que estos les permitan
proporcionar ideas para complementar la problemática planteada y elaborar otros proyectos
relacionados a sus intereses.
18.0.3 Ejemplo 1: Consumo de energía

El consumo de energía es un servicio por el cual se debe pagar cada bimestre. A partir de este
se crean una serie de cuestiones que resultan de interés para las familias porque representa un
gasto. Por otro lado, es importante para el gobierno ya que se requiere de una estrategia para
generar energía. Considerando los recibos de facturación se pueden generar datos que permiten
contestar varias preguntas, la primera de ellas que es la más relevante es el consumo de energía
en cada uno de los hogares. Indagar si en los seis pagos bimestrales existe un consumo regular de
energía o existen grandes cambios. Precisar si el consumo de energía en el periodo de verano es
mayor que en el otro. En este problema se puede plantear una encuesta para saber si hay mayor
consumo de energía en las casas que tienen horno de microondas de las que no, en esa misma
dirección se puede preguntar sobre la calefacción, el número de personas que habitan la casa, el
área construida, zonas residenciales entre otras preguntas.
El ahorro de energía eléctrica, es una nalidad importante para mejorar el bienestar del ser
humano. También en los hogares, empresas e industria en general, existe interés en disminuir
el consumo de energía eléctrica con nes económicos. Para llevar a cabo las actividades que se
citan abajo y realizar un estudio para conocer el consumo, medido en kWh, utilice los recibos
que genera la Comisión Federal de Electricidad.
Actividades
Que una persona -alumno/estudiante- seleccione a 10 personas y pregunte sobre el consumo
de energía del último recibo, haga un diagrama de caja e interprete el resultado. Estime
las medidas de tendencia central, dispersión y posición e interprétalas.
Junte este resultado con 10 personas y realice un histograma, tabla de frecuencias, un

diagrama de puntos, un diagrama de tallo y hoja, y un diagrama de caja e interprete
sus resultados. El polígono de frecuencia acumulado, ¿Se aproxima a una distribución
acumulada?. De este último diagrama indique ¿Cuál es el consumo del 10%, 20%, 40%,
60% y 80%, de las personas entrevistadas?
279
Aplique la siguiente encuesta
Pregunte a una persona por:
1. Número de personas que vive en su casa.
2. Área de construcción de la casa en la que habita.
3. Si tienen y usan horno de microondas.
Responda a:
Existe una relación entre X1 y el consumo de energía.
Existe una relación entre X2 y el área de construcción.
¿Son diferentes los diagramas de caja entre las personas que tienen horno de microondas y
las que no lo tienen?
Construya un intervalo de conanza del 95% para el promedio y varianza del consumo de
energía.
Pruebe la hipótesis; ¿el promedio de consumo de energía entre los que tienen horno de
microondas es diferente de los que no lo tienen?
18.0.4 Ejemplo 2 : Rompecabezas del mapa de México

Se desea conocer qué tanto conocen los estudiantes o mexicanos la República Mexicana, para ello
se plantea la solución de un rompecabezas sobre el mapa de la división geopolítica de México.
Éste se presenta de un modo animado por computadora. El objetivo es arrastrar con el ratón
el estado que aparece de manera aleatoria a la izquierda y colocarlo en el lugar que corresponde.
Las respuestas que se generan al completar el mapa son el tiempo de solución y el porcentaje de
fallas. El mapa se encuentra en el siguiente sitio http://www.calest.org/mx/desc.html
Actividades
1. Seleccione de manera aleatoria a 50 estudiantes y propóngale que resuelva el rompecabezas.
Alternativas: pueden juntarse por equipos de cinco, cada persona del equipo entreviste a
10 compañeros. Junte los datos con otros equipos.
2. Con estos datos realice un estudio descriptivo tal que contenga los siguientes puntos.
(a) Hacer los cálculos estadísticos en el tiempo de solución y porcentaje de fallas. Realizar
las interpretaciones correspondientes.
(b) Elaborar la tabla de frecuencia e histograma para la respuesta tiempo de solución e
interpretar la gráca.
(c) Completar el estudio con el polígono de frecuencias, diagrama de caja, el diagrama
de tallo y hoja. Relacionarla con la información de los incisos previos y hacer inter-
pretaciones.
(d) Realizar la comparación del polígono de frecuencias, distribución empírica con la dis-
tribución normal.
(e) Hacer un estudio similar para el porcentaje de fallas.
3. Nuevas preguntas sobre la naturaleza del problema, por ejemplo proponga que los partici-
pantes vean ahora el mapa de la República y que vuelvan a resolver el rompecabezas.
(a) Hacer una análisis similar al anterior.
(b) Es interesante en este caso comparar los diagramas de tallo y hoja, así como los
diagramas de caja, con referencia al antes y después.
(c) Se pueden plantear pruebas de hipótesis sobre el antes y después además interpretar
los intervalos de conanza.
4. Será de interés conocer la relación entre el promedio de calicaciones en un año escolar

anterior y el tiempo de respuesta.
5. Abordar otros estudios: presentar un mapa de la República señalada con los meridianos y
paralelos. Enseguida volver a tomar el tiempo de solución del rompecabezas.
(a) Ahora se tienen tres situaciones diferentes se pueden plantear diferentes preguntas. En
primera instancia se pueden comparar diagramas de tallo y hoja, así como diagramas
de caja.
(b) Se pueden hacer pruebas de hipótesis sobre las tres poblaciones, así plantear el esquema
de un diseño completamente al azar.
(c) Se pueden hacer comparaciones entre grupos de edad, conocimientos, género entre
otros. Así realizar pruebas de hipótesis de homogeneidad e independencia. Pruebas
no paramétricas.
6. También se pueden plantear preguntas sobre la distribución de la variable de respuesta.

281
18.0.5 Problema: Hombre en granos de café*

En la transparencia que se describe en la gura de este ejercicio, muestra granos de café, en ellos
aparece la cara de un hombre. El problema que se plantea a partir de esta foto, es conocer el
desarrollo cerebral de las personas. Los neurólogos y sicólogos utilizan este tipo de representación
para realizar diversos estudios, sobre la habilidad de percepción en diferentes individuos. Algunas
de estas preguntas se plantean los ejercicios de este problema. La actividad consiste en mostrar
a una persona de manera individual la transparencia, a partir de ese momento tomar el tiempo
que se lleva en encontrar al hombre en los granos de café. Variable de respuesta: tiempo en que
se tarda una persona en responder. Tome el tiempo usando un cronómetro.
*Esta la puede bajar o encontrar en el siguiente sitio de Internet:
http://www.calest.org/mx/desc.html.
Actividades:
1. Una persona alumno/estudiante- seleccione 15 personas, le muestra la transparencia y

registe el tiempo de respuesta. (En este caso sin considerar la edad).
1.1 Hacer un diagrama de caja e interpretar. Calcule los estadísticos básicos e interprete.
1.2 Juntar la información con 10 personas y elaborar un histograma, tabla de frecuencias,
un polígono de frecuencias, un diagrama de tallo y hoja, una gráca de puntos, un diagrama de
caja. En cada caso interprete sus resultados.
1.3 Calcule los estadísticos: medidas de tendencia central, dispersión y posición e interprete.
1.4 Compare la distribución de frecuencias acumulada con la normal e interprete.
2. Muestre la transparencia a 10 mujeres y 10 hombres y registe el tiempo de respuesta. (En
este caso no considere la edad).
2.1 Haga un diagrama de caja para describir el tiempo empleado por las mujeres y otra para
el tiempo realizado por los hombres, interprete sus resultados.
2.2 Calcule medidas de tendencia central, dispersión y posición e interprete.
2.3 Junte esta información con 10 personas y realice las actividades similares a los indicados
en 1.2 y 1.3, tanto para mujeres como para los hombres e interprete.
3. Muestre la transparencia a 10 personas de los siguientes dos grupos de edad; grupo 1,
menores de 30 años y grupo 2, mayores de 30 años. En cada caso registe el tiempo.
3.1 Realice actividades similares a la de los puntos 2.1 y 2.2.
4. Plantee otras estrategias considerando el género (mujer, hombre) y grupos de edad. Pro-
ponga algunos criterios para denir grupos de edad. Muestre la transparencia a los grupos
denidos y plantee el análisis de estadística descriptiva similar a las actividades anteriores.
5. Considere que el tiempo promedio de respuesta es de 110 segundos. Plantee la siguiente
prueba de hipótesis:
H0 : = 110
H1 : < 110
Tome una muestra de 30 personas para vericar esta armación. Por el momento suponga
que ésta variable se distribuye como una distribución normal.
5.1 Calcule la media, la desviación estándar y la desviación estándar de la muestra.
5.2 En el grupo de opciones didácticas del paquete, use el de prueba de hipótesis H0 , plantee
varios escenarios para realizar esta prueba; por ejemplo diferentes valores en cada caso identique
el valor del umbral: estadístico de prueba. Diferentes valores para la hipótesis alternativa.
5.3 En cada escenario en el punto 5.2 ubique el valor de la media x calculado en 5.1. Obtenga
sus conclusiones.
5.4 Realice la prueba de hipótesis usando la opción que corresponde en módulo de inferencia
en el paquete. Compare con lo visto en las actividades 5.2 y 5.3. Interprete sus resultados. Use
la distribución normal para visualizar su información.
6. Tome una muestra de 15 personas para vericar la hipótesis:
6.1 Abra un archivo en el paquete para capturar la información.
6.2 Graque la distribución t-Student con gl = 14 y = 0:05; señale el área a la izquierda
que deja el valor de y compare el valor del umbral con el valor de la media de la muestra. ¿Qué
observa? Interprete.
283
6.3 Use la opción correspondiente en el módulo de inferencia y realice la prueba de hipótesis.

Obtenga sus conclusiones.
6.4 Haga una nueva gráca de la distribución t Student con gl = 14 y señale el área a la
izquierda que deja el valor de p, este valor aparece en el reporte de los resultados de la prueba
de hipótesis. Compare las áreas de y p ¿Qué observa?
7. Use los resultados de la actividad 2 para justicar si existe diferencia en el tiempo promedio
de respuesta entre mujeres y hombres.
Con el n de vericar esta situación se plantea la hipótesis:
H 0 : 1 2 = 0
H 1 : 1 2 6= 0
1 = promedio mujeres, 2 = promedio hombres.

7.1 En un archivo de datos capture la información, en una columna ponga los tiempos de
respuesta para una mujer y en otra los correspondientes a un hombre.
7.2 Usando el módulo referente a inferencia lleve a cabo la prueba de hipótesis. Obtenga sus
conclusiones.
18.0.6 Problema: memoria a corto plazo

Un problema que es de interés para muchos médicos consiste en conocer la capacidad de memoria
a corto plazo. Con ese n tienen desarrolladas varias actividades que les aplican a los participantes
y así detectar esa capacidad.
Ejemplo 3
Realice la siguiente práctica ponga en una tarjeta blanca las 16 palabras que se indican en la
Tabla de abajo. Luego muestre en un lapso de 20 segundos esa tarjeta a una persona. Deje pasar
un minuto y pídale que le diga las palabras que recuerda; pero no puede tardarse más de un
minutos. Anota el número de palabras que recuerda, repite la actividad con otras 25 personas.
Roca Tapete Llave Ventana

Botella Lápiz Cuchillo Pulsera
Mesa Frasco Manzana Perro
Cuaderno Rojo Avión Flor
Con los 25 datos obtenidos de la práctica
1. Elabore un diagrama de puntos.

2. ¿Qué porcentaje de personas recuerda más de 12 palabras?
3. ¿Qué porcentaje de personas recuerda menos de 8 palabras?
4. Pruebe la hipótesis de que la proporción de personas que recuerdan más de ocho palabras
es de 0.20, es decir:
H0 : p = 0:20
H1 : p < 0:20
5. Si se deja la tarjeta por un lapso de 40 segundos ¿Las personas recordarán más palabras?
¿Cómo vericaría su respuesta?
6. Plantee otras actividades relacionadas con esta práctica, por ejemplo considerar factores
cpmo la edad, el género, el color de la tarjeta, el tamaño de la letra.
18.0.7 Simulación
Existen algunas estrategias para generar datos, el análisis e interpretación de estos permiten sim-
ular situaciones aproximadas a la realidad. Por ejemplo, en la actividad industrial se desarrollan
procesos con la nalidad de manufacturar un producto. Tanto la calidad del producto como
la eciencia del proceso son evaluados por una o varias respuestas. Es común en cada proceso
que existan diversos factores que afecten esa salida. En el capítulo anterior se han mostrado los
prototipos tales como el helicóptero y el cañón para generar información, ahí se usaron como
una estrategia experimental. Aquí se ilustrarán con dos ejemplos algunas ideas para realizar
actividades y de esa manera generar datos con el n de realizar análisis estadísticos. Con estos
usted puede planear muchas prácticas para realizar análisis estadísticos.
Ejemplo 4
Considere el prototipo del helicóptero realice las siguientes actividades.
1. Suelte el helicóptero 15 veces en la opción análisis con una humedad de 30 y registre el

tiempo de caída. Con esos valores obtenga los valores de los estadísticos y haga el diagrama
de caja.
2. Junte esta información con 10 personas para obtener 150 datos, realice un estudio descrip-
tivo de esta información.
3. Suelte el helicóptero 15 veces en la opción mejora con una humedad de 50 y registre el
tiempo de caída. Con esos valores obtenga los valores de los estadísticos y haga el diagrama
de caja. Compare el análisis estadístico de este punto con el del 1.
285
4. Realice la prueba de hipótesis de que los helicópteros tienen un tiempo de caida en promedio
diferente. Es decir:
H0 : 1 2 = 0
H1 : 1 2 6= 0
5. Realice otras prácticas, por ejemplo puede ir variando la longitud del ala, únicamente del
helicóptero, desde 5 hasta 15 de uno en uno registre en cada caso dos veces el tiempo de
caída. Haga un análisis de regresión de la longitud del ala con el tiempo de caída.
Ejemplo 5
Tome como referencia el prototipo del cañón realice las siguientes actividades.
1. Ponga el blanco a una distancia de 7 metros, realice 18 disparos registre el valor de la

distancia, altura y tiempo en cada caso calcule los estadísticos y haga un diagrama de caja.
Interprete los resultados. ¿Cuántas veces acertó el disparo en el blanco?
2. Ponga el blanco a una distancia de 5 metros, realice 10 disparos. ¿Cuántas veces dió en
el blanco? ¿Qué estrategia puede seguir para dar en el blanco? Realice un planteamiento
estadístico para alcanzar tal n.
3. Elabore una serie de prácticas para llevar a cabo diferentes métodos estadísticos.
Referencias
1. Breyfogle I I I, F.W. (2003). Implementing Six Sigma. 2nd Ed. Wiley, United States of
America
2. Domínguez Domínguez J. y Domínguez López J. A. (2006). Estadística y Probabilidad: El

mundo de los datos y el azar. Oxford, México.
3. Escalante, V.E. (2004). Seis Sigma Metodología y Técnicas. Limusa Noriega Editores,
México.
4. Mendenhall. W. y Sincich T. (1997). Probabilidad y Estadística para Ingeniería y Ciencias,

4a. Ed. Printice-Hall. Hispanoamericana, México.
5. Press, W., Teukolsky, S., Vetterling, W., Flannery B. (2002) Numerical Recipes in C++
2nd Ed. Cambridge University Press. New York.
6. Tamato, T. M. El Proceso de la Investigación Cientíca. Limusa, México 2002.
7. Triola M. (2008). Essentials of Statistics, 3rd ed. Pearson Education, Inc. Boston, MA
8. Triola M. F. (2004). Probabilidad y Estadística 10ma ed. Pearson, México
9. Wall, K. (2000). Programación en Linux: con ejemplos. Pearson Education, Inc. Buenoss
Aires, Arg.
10. Yamane T. (1999). Estadística. Oxford University Press-Harla, México.

´ndice
ambiente CalEst, 6 distribución Poisson y CalEst, 76
análisis de la varianza, 232
espacio muestral, 37, 38
análisis de residuales, 230
estimacin, 123
cálculo de probabilidades usando el CalEst puntual, 123
distribución binomial, 73 Eventos independientes, 47
distribución normal, 84 experimento, 37
distribución Poisson , 76 aleatorio, 37
calculador estadístico, 70
frecuencia relativa, 12
capacidad del proceso, 90
coeciente histograma, 12
correlación, 221
determinación, 234 inferencia
varianza, 170
coeciente
determinación, 221 inferencia parámetros
combinaciones, 64 regresión simple, 217
Instalación, 1
densidad empírica, 14
La desviación estándar, 30
Desviación, 28
La media, 23
Diagrama de caja, 32
La media armónica, 26
diagrama de tallo y hoja, 17
La media geométrica, 27
diseño completamente al azar
La mediana, 25
análisis de la varianza, 201
La moda, 26
diseño de experimentos
la probabilidad condicional, 47
completamente al azar, 200
Distribución Bernoulli, 71 mínimos cuadrados, 226, 227
Distribución de probabilidad discreta, 71 método de mínimos cuadrados, 211
distribución empírica, 16 métrica
distribución normal seis sigma, 89
muestral, 130 modelo de regresión
papel de probabilidad, 89 lineal simple, 209
distribución normal y el CalEst, 82 razón de varianzas, 220
287
288 ´NDICE
modelo de regresión múltiple, 225

muestreo
aleatorio simple, 124
con reemplazo, 124
sin reemplazo, 124
mutuamente excluyentes, 46
nivel de signicancia, 144

descriptivo, 144
ojiva, 16
permutación, 63
Probabilidad Clásica o Teórica, 43
probabilidad con ruletas, 52
Probabilidad Empírica, 42
Probabilidades mediante extracción de canicas,
56
Probabilidades usando ramicaciones, 56
prueba de hipótesis, 143
error tipo I, 145, 179
error tipo II, 145, 179
modelo de regresión, 215
modelo regresión múltiple, 230
muestras independientes, 182
procedimiento, 145
razón de varianzas, 195
rango muestral, 27
Regla aditiva, 44
regla empírica, 85
residuales, 212
tabla de frecuencias, 9
teorema de límite central
ilustración, 136
variable aleatoria, 70
variable discreta, 71
varianza muestral, 29

Calest: Un Enfoque Visual en La Enseñanza Y Aprendizaje de La Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Calest: Un Enfoque Visual en La Enseñanza Y Aprendizaje de La Estadística

Cargado por

Copyright:

Formatos disponibles

CalEst:

Un enfoque visual en la enseñanza y aprendizaje de la

Jorge Axel Domínguez López Jorge Domínguez Domínguez

2 Organización y descripción de datos 9

5 Distribuciones de probabilidad discretas 69

5.1.3 Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6 Distribuciones de probabilidad continua 81

9 Estimación estadística 119

10 Inferencia estadística 143

10.2.1 Utilidad de la opción didáctica H0 . . . . . . . . . . . . . . . . . . . . . . 145

11 Inferencia para dos poblaciones 181

12 Análisis de Varianza 199

13 Modelo de regresión lineal simple 207

13.3.6 Regresión lineal simple: notación matricial . . . . . . . . . . . . . . . . . . 222

14 Regresión Múltiple 225

15 Pruebas de bondad de ajuste 239

16 Pruebas no paramétricas 257

17 Diseño de Experimentos 261

18 Proyectos de estudios estadísticos 277

La veri cación de esta prueba estadística se fundamenta en conceptos de la teoría de pro-

estandarizar. Esta última queda implícita al escribir :  = 0;  = 1 . En la parte superior de la

1.1 Instalación del programa

Figura 1.1: Asistente del instalador

Figura 1.2: Se inicia la instalación del programa

Figura 1.3: Paso 4

5 Se presentará la opción de escoger la carpeta donde quiere o desea instalar el programa.

8 Estamos listos para instalar el programa. Aparece un resumen de la con guración Figura

Las siguientes grá cas muestran la secuencia de instalación:

Figura 1.4: Paso 5, escoger carpeta

Figura 1.5: Paso 6, seleccionar menú desde el inicio

Figura 1.6: Paso 7, ¿se desea crear un icono?

Figura 1.7: Paso 8, instalación del programa

Figura 1.8: Paso 9, proceso de instalación

1.2 El ambiente de CalEst

Figura 1.9: Presentación general del CalEst

Figura 1.10: Tres opciones operativas.

1. Con la nalidad de ilustrar conceptos de probabilidad, el lanzamiento de monedas, tirar

3. Dos simuladores que corresponden a un cañón y un helicóptero respectivamente para

Organización y descripción de datos

A continuación se mostrará la opción de Grá cas, en la Figura 2.1 se ilustra la colección

Figura 2.1: Diagramas disponibles en la opción Grá cas

La tabla de frecuencias contiene un determinado número de clases de igual tamaño. Al

2.1.1 Elaboración de la tabla de frecuencias

Se determina la lectura mayor máxima y la menor mínima en los datos, y se calcula la

Esta última expresión se simpli ca mediante la siguiente notación:

valor izquierdo valor derecho

La frecuencia relativa en un intervalo de clase es la proporción del número total de

Si en el eje vertical del histograma se cambia la marca de frecuencia por el de la frecuencia

Figura 2.3: Histograma para el número de palabras recordadas en un minuto

2.1.3 Polígono de frecuencias

Figura 2.4: Histogramas de frecuencias relativas y el de frecuencias.

tomando como referencia el histograma de frecuencias relativas. Su procedimiento de construc-

2.1.4 Frecuencia relativa acumulada

Figura 2.5: Polígonos de frecuencias y frecuencias relativas.

Figura 2.6: Representación conjunta del histograma con el polígono de frecuencias

La frecuencia relativa acumulada de una clase C, es la suma de las frecuencias relativas

2.1.5 Diagrama de tallo y hoja

Construcción del diagrama de tallo y hoja

El procedimiento para formar el diagrama de tallo y hoja es como sigue:

Figura 2.8: Diagrama de tallo y hoja

Paso 1. Se ordenan los datos de menor a mayor:

310; 312; 314; 314; 316; 322; 324; 324; 328:

Unidad en un diagrama de tallo y hoja

La vericación de esta prueba estadística se fundamenta en conceptos de la teoría de pro-

estandarizar. Esta última queda implícita al escribir : = 0; = 1 . En la parte superior de la

8 Estamos listos para instalar el programa. Aparece un resumen de la conguración Figura

Las siguientes grácas muestran la secuencia de instalación:

A continuación se mostrará la opción de Grácas, en la Figura 2.1 se ilustra la colección

Figura 2.1: Diagramas disponibles en la opción Grácas

Esta última expresión se simplica mediante la siguiente notación:

La desviación estándar ; de la población se dene por:

Para entender lo que es un espacio muestral es necesario denir el concepto experimento. Un

Las calicaciones de 50 estudiantes para la materia de literatura se dividen en 5 categorías A, B,

Se repite bajo condiciones idénticas.

El resultado observado no se puede predecir.

El resultado que se obtiene, pertenece a un conjunto conocido previamente de resultados