Está en la página 1de 300

CalEst:

Un enfoque visual en la enseñanza y aprendizaje de la


Estadística

Jorge Axel Domínguez López Jorge Domínguez Domínguez

2009
ii
Contenido

Prefacio vii

1 Instalación de CalEst 1
1.1 Instalación del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 El ambiente de CalEst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Organización y descripción de datos 9


2.1 Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Elaboración de la tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . 10
2.1.2 El Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3 Polígono de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.4 Frecuencia relativa acumulada . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.5 Diagrama de tallo y hoja . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.6 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Estadísticas 23
3.0.7 Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.0.8 Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.0.9 Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.0.10 Diagrama de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4 Probabilidad 37
4.1 Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Probabilidad de un evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.1 Eventos compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Independencia y probabilidad condicional . . . . . . . . . . . . . . . . . . . 46
4.2.3 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Principios básicos de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5 Distribuciones de probabilidad discretas 69


5.1 Distribuciones de probabilidad Discretas . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.1 Distribución Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.2 De…nición de una distribución de probabilidad discreta . . . . . . . . . . . 71

iii
iv CONTENIDO

5.1.3 Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72


5.1.4 La distribución binomial y CalEst . . . . . . . . . . . . . . . . . . . . . . . 73
5.1.5 Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

6 Distribuciones de probabilidad continua 81


6.1 Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.1 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.2 Normal Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.1.3 Temas selectos: aplicación de la normal . . . . . . . . . . . . . . . . . . . . 89

7 Galería de distribuciones* 97
7.1 Ideas Generales: distribución de probabilidad . . . . . . . . . . . . . . . . . . . . 97
7.1.1 Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.1.2 Distribución Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.3 Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.4 Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.1.5 Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.1.6 Distribución Lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.1.7 Distribución Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.1.8 Distribución Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

8 Distribuciones 2 , t, F +
107
8.1 Distribución 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2 La distribución t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.3 La distribución F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

9 Estimación estadística 119


9.1 Parámetro y estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.1.1 Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
9.1.2 Muestreo con reemplazo y sin reemplazo . . . . . . . . . . . . . . . . . . . 124
9.2 Distribución muestral de la media muestral . . . . . . . . . . . . . . . . . . . . . . 125
9.3 Teorema de límite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.4 Intervalos de con…anza para la media . . . . . . . . . . . . . . . . . . . . . . . . . 138
9.4.1 Muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
9.4.2 Ideas preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
9.4.3 Intervalo de con…anza para cuando la población es normalmente distribuida
y la desviación estándar es conocida . . . . . . . . . . . . . . . . . . . . . . 139

10 Inferencia estadística 143


10.1 Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.2 Prueba de hipótesis: utilizando el CalEst . . . . . . . . . . . . . . . . . . . . . . . 143
CONTENIDO v

10.2.1 Utilidad de la opción didáctica H0 . . . . . . . . . . . . . . . . . . . . . . 145


10.2.2 Observaciones que surgen de las bondades de utilizar el CalEst: . . . . . . 146
10.3 Prueba de hipótesis para una media . . . . . . . . . . . . . . . . . . . . . . . . . . 147
10.3.1 Caso muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
10.4 Prueba de hipótesis para una proporción . . . . . . . . . . . . . . . . . . . . . . . 155
10.5 Prueba de hipótesis para una media: . . . . . . . . . . . . . . . . . . . . . . . . . 161
10.5.1 Caso muestras pequeñas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
10.5.2 Valores críticos en una distribución t-student . . . . . . . . . . . . . . . . . 161
10.5.3 Prueba de hipótesis de un lado . . . . . . . . . . . . . . . . . . . . . . . . 161
10.5.4 Prueba de hipótesis de un lado . . . . . . . . . . . . . . . . . . . . . . . . 162
10.5.5 Prueba de hipótesis de dos lados . . . . . . . . . . . . . . . . . . . . . . . . 163
10.6 Inferencia sobre la varianza  2 y  . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
10.6.1 Intervalos de con…anza y prueba de hipótesis para  2 . . . . . . . . . . . . 171
10.7 Aplicación en CalEst: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
10.7.1 Lógica de la prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 178

11 Inferencia para dos poblaciones 181


11.1 Inferencia para dos medias: muestras dependientes . . . . . . . . . . . . . . . . . 182
11.1.1 La prueba z para la diferencia de medias: Muestras grandes . . . . . . . . 182
11.1.2 La prueba t Student para la diferencia de medias: Muestras pequeñas . . 185
11.2 Inferencia para dos medias: muestras pareadas . . . . . . . . . . . . . . . . . . . . 188
11.3 Inferencia para dos proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
11.3.1 Prueba F, comparación de Varianzas . . . . . . . . . . . . . . . . . . . . . 193

12 Análisis de Varianza 199


12.1 Ideas generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
12.1.1 Componentes de la variación total . . . . . . . . . . . . . . . . . . . . . . . 201

13 Modelo de regresión lineal simple 207


13.1 Planteamiento del problema de regresión . . . . . . . . . . . . . . . . . . . . . . . 207
13.2 Modelo de regresión lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
13.2.1 El método de mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . 211
13.2.2 Residuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
13.3 Estimadores de mínimos cuadrados. . . . . . . . . . . . . . . . . . . . . . . . . . . 214
13.3.1 Inferencia con respecto a la pendiente. . . . . . . . . . . . . . . . . . . . . 215
13.3.2 Intervalo de con…anza para los parámetros del modelo. . . . . . . . . . . . 217
13.3.3 Predicción de la respuesta media para un valor dado de X . . . . . . . . . 217
13.3.4 Reporte estadístico del modelo de regresión en CalEst . . . . . . . . . . . . 218
13.3.5 Evaluación de la relación lineal . . . . . . . . . . . . . . . . . . . . . . . . 219
vi CONTENIDO

13.3.6 Regresión lineal simple: notación matricial . . . . . . . . . . . . . . . . . . 222

14 Regresión Múltiple 225


14.1 Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
14.2 Ajuste del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
14.2.1 Supuestos estadísticos sobre el modelo. . . . . . . . . . . . . . . . . . . . . 226
14.2.2 Proceso de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
14.2.3 Estimación por mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . . 226
14.2.4 Estimación de los parámetros del modelo. . . . . . . . . . . . . . . . . . . 227
14.2.5 CalEst en el análisis estadístico del modelo . . . . . . . . . . . . . . . . . . 227
14.2.6 Prueba de hipótesis: parámetros del modelo . . . . . . . . . . . . . . . . . 230
14.2.7 Análisis e Interpretación del Modelo. . . . . . . . . . . . . . . . . . . . . . 230

15 Pruebas de bondad de ajuste 239


15.1 Análisis de datos categóricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
15.1.1 Pruebas de independencia y homogeneidad en tabla de contingencia . . . . 242
15.2 Pruebas de Bondad de Ajuste sobre distribuciones de probabilidad . . . . . . . . . 245
15.2.1 Prueba de bondad de ajuste para una Distribución Binomial . . . . . . . . 245
15.2.2 Prueba de bondad de ajuste para una Distribución Poisson. . . . . . . . . 247
15.3 Prueba de bondad de ajuste cuando la variable aleatoria es continua . . . . . . . . 249
15.4 La prueba Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252

16 Pruebas no paramétricas 257


16.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
16.2 Prueba del signo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

17 Diseño de Experimentos 261


17.1 Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
17.2 Material experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
17.2.1 Diseños de experimentos en CalEst . . . . . . . . . . . . . . . . . . . . . . 262
17.2.2 Glosario de términos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 271

18 Proyectos de estudios estadísticos 277


18.0.3 Ejemplo 1: Consumo de energía . . . . . . . . . . . . . . . . . . . . . . . . 278
18.0.4 Ejemplo 2 : Rompecabezas del mapa de México . . . . . . . . . . . . . . . 279
18.0.5 Problema: Hombre en granos de café* . . . . . . . . . . . . . . . . . . . . 281
18.0.6 Problema: memoria a corto plazo . . . . . . . . . . . . . . . . . . . . . . . 283
18.0.7 Simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284

Referencias 286
Prefacio
De la experiencia se conoce que existen varias di…cultades para transmitir diferentes conceptos
en estadística y probabilidad, así como asimilarlos por parte del educando. Con el …n de contribuir
en la solución de esta problemática se ha realizado un proyecto de desarrollo tecnológico que
denominaremos CalEst. La investigación en este trabajo se plantea en dos direcciones, la primera
se da en la elaboración de este proyecto en el cual se han desarrollado ideas y propuestas didácticas
con el propósito de facilitar la comprensión de conceptos en las dos áreas citadas. La segunda
tiene la …nalidad de evaluar el impacto en la comprensión de nociones estadísticas usando el
material de este proyecto.
El CalEst se aboca a cubrir dos áreas principales, una de ellas tiene por objeto presentar un
conjunto de herramientas con un enfoque didáctico para cubrir el proceso enseñanza – apren-
dizaje. La otra consiste en abarcar de manera sencilla la descripción y el análisis de datos
generados en un estudio. Esto permitirá al usuario trabajar con los diferentes temas propuestos
en los planes y programas de estadística y probabilidad para los cursos a nivel bachillerato y
superior. La aplicación en estas dos líneas del CalEst permite estudiar los ejemplos y encontrar
las soluciones de los ejercicios planteados en diferentes textos de estadística.
Finalmente se ha desarrollado el material temático tal que la metodología del tratamiento de
la información surja de problemas reales o que los estudiantes generen su propia información.
La integración de éste desarrollo tecnológico asistido de manera visual y las estrategias para
producir la información crean una dinámica que proporcionan una mayor facilidad para la com-
prensión de conceptos y motivan el aprendizaje de estas dos disciplinas.
Una parte fundamental del desarrollo de este trabajo se da en el conocimiento y habilidad de
cómputo aplicada para explicar y desarrollar conceptos y resultados en la enseñanza de la estadís-
tica y probabilidad. Este proyecto se ha elaborado con alto desarrollo en programación avanzada
y cómputo especializado dedicado como apoyo integral a la educación con la presentación de imá-
genes animadas y visuales para comprender los conceptos básicos en estadística y probabilidad.
CalEst corre en los sistemas operativos Windows XP y Vista.
Esta propuesta usa como recurso tecnológico la animación asistida por computadora y se
presenta como un paquete. Así este desarrollo resulta novedoso, visualmente atractivo y es
una herramienta complementaria que bene…cia en el aprendizaje, enseñanza y aplicación de los
conceptos de estadística y probabilidad. Por un lado, da elementos a los profesores para explicar
diferentes temáticas de una manera mas amena y fácil de entender. Asimismo, le da al profesor
la opción de profundizar ampliamente en los temas. Su entorno visual y animaciones no solo
permite, sino además alienta, que el estudiante explore y aprenda por si mismo utilizando el
material de prácticas auxiliar al paquete. El material contribuye a que los estudiantes entiendan
claramente los conceptos, se motiven a conocer más y a explorar por si mismos.
viii Prefacio

CalEst sirve como material de apoyo para comprender mejor algunos conceptos en estadística
y probabilidad, así como resolver problemas de diferentes libros de estadística cuya temática
se enfoca a los planes de estudio en los bachilleratos, tecnológicos regionales, licenciaturas e
ingenierías. Inclusive, por sus animaciones y grá…cas, también puede ser utilizado en primaria o
secundaria para adentrar a los estudiantes en el tratamiento de la información.
Presentación. Partimos del hecho de que la disciplina de estadística es el proceso de descubrir
más sobre el mundo real mediante la colección, análisis e interpretación de datos. En esa dirección
los estudios en estadística se plantean como un procedimiento de búsqueda, en el que se plantea
un problema y a partir de ahí se derivan una serie de cuestiones, las cuales se responderán y
explicarán con una apropiada recolección y análisis de datos. Sin embargo en la práctica es común
dar datos para que los estudiantes hagan cálculos, por lo general no se hacen interpretaciones
de los resultados. Por otro lado, el estudio de la estadística se fundamenta en conceptos de la
teoría de probabilidad, por lo general, en la práctica existe una cierta di…cultad para enseñar
y aprender nociones sobre estos temas. Por ejemplo, en un estudio sobre el cerebro, se desea
conocer el tiempo de respuesta de una persona ante un estímulo visual. En este caso se desea
conocer el porcentaje de personas que tardan menos de 30 segundos en responder, o estimar el
porcentaje de individuos en responder entre 70 y 180 segundos. Ambas situaciones se plantean
en términos de probabilidad. A partir de este planteamiento se generan una serie de cuestiones
tales como la de comprender, el concepto de probabilidad, el de variable aleatoria, función de
densidad, distribución de probabilidad. Para abordar este tipo de problemas en cursos básicos
de estadística y probabilidad se supone la distribución normal. Lo primero que se le explica al
estudiante, antes de hacer el cálculo de estas probabilidades dados los parámetros para la media
y desviación estándar de esta distribución, es el proceso de estandarización. Situación que distrae
de la …nalidad principal, toma tiempo y de alguna manera complica al estudiante. Además de
las di…cultades que genera al estudiante comprender estas funciones de probabilidad y distinguir
la diferencia entre ellas.
El desarrollo tecnológico propuesto mediante el CalEst, ayuda de manera animada a calcular
directamente esas probabilidades, además de ilustrar los conceptos de función densidad y dis-
tribución de probabilidad. Esta técnica se extiende a una gama de distribuciones tales como:
Bernulli, Binomial, Poisson, t-Student, Ji cuadrada, la F, Weibull, Gama Exponencial, Uniforme
–para variables continuas-, Beta, Lognormal, Logística y Valores Extremos.
En el ejemplo descrito, también se tiene el interés en veri…car la hipótesis de que las personas
no reaccionan de manera lenta, en términos estadísticos la media debe ser menor a 130 segundos.
El planteamiento estadístico formal es:

H0 =  = 130
H1 =  6= 130
Prefacio ix

La veri…cación de esta prueba estadística se fundamenta en conceptos de la teoría de pro-


babilidad. Así es necesario comprender lo que signi…ca la probabilidad de rechazar la hipótesis
cuando esta es verdadera, o la probabilidad de no rechazarla cuando esta es falsa, así como la
potencia de la prueba. Estos conceptos se muestran de manera animada mediante una grá…ca y
se pueden simular diferentes escenarios del problema aplicando el CalEst. Esta temática cae en
la parte de inferencia estadística, algunos conceptos en los que se sustenta esta teoría tal como
el teorema de límite central, también se ilustran de manera visual con el …n de entender como al
variar el tamaño de muestra la distribución de probabilidad del estadístico tiende a ser simétrica.
De igual forma se ilustra el concepto de prueba de hipótesis por medio de la animación de un
sistema de seguridad mediante la identi…cación del iris.
Como se indicó, las nociones de probabilidad desempeñan un papel esencial en el análisis e
interpretación de los datos estadísticos, con esa …nalidad en este proyecto se presentan varias
animaciones con el propósito de motivar algunos conceptos de probabilidad, tal como juegos
clásicos con monedas, dados, se presenta una animación de un robot con inteligencia arti…cial
que realiza un tarea usando técnicas de probabilidad y se ha agregado un generador de números
aleatorios.
Finalmente, una vez que se han obtenido los datos, el CalEst cuenta con una variedad de he-
rramientas para el cálculo, análisis, manipulación de datos, grá…cas y está ilustrado con una guía
didáctica. El trabajo que se realiza en esta parte cubren los temas de cursos a nivel bachillerato
y licenciatura en varias carreras, tales como: medidas de tendencia central, dispersión y posi-
ción, histograma, polígono de frecuencia, distribución empírica, diagrama de pastel, diagrama de
puntos, diagrama de tallo y hoja, diagrama de caja, grá…ca de dispersión, papeles de probabi-
lidad, pruebas de hipótesis para 1 o 2 medias, proporciones, para la varianza, no paramétricas,
intervalos de con…anza, análisis de varianza, regresiones, pruebas de bondad de ajuste.
Desarrollo. Una parte fundamental del desarrollo de este trabajo se da en el conocimiento
y habilidad de cómputo aplicada para explicar y desarrollar conceptos y resultados en la en-
señanza de la estadística y probabilidad. Este proyecto se ha elaborado con alto desarrollo en
programación avanzada y cómputo especializado dedicado como apoyo integral a la educación
con la presentación de imágenes animadas y visuales para comprender los conceptos básicos en
estadística y probabilidad. CalEst corre en los sistemas operativos Windows XP y Vista.
Puesto que el objetivo principal es mostrar un efecto visual de conceptos, en este resumen será
difícil ilustrar el potencial del proyecto, así que sólo se describirán mediante …guras los resultados
del ejemplo descrito anteriormente. En la Figura 1 se ilustra el cálculo de probabilidad descritos
por grá…cas de la densidad y distribución de probabilidad normal.
Se pueden calcular diferentes probabilidades mediante el movimiento de los umbrales, cam-
biando los valores o usando el ratón. Es importante resaltar que aquí se calculan las proba-
bilidades de la normal declarando el valor de la media y desviación estándar, sin necesidad de
x Prefacio

estandarizar. Esta última queda implícita al escribir :  = 0;  = 1 . En la parte superior de la


pantalla se tiene un calculador de la normal, el cual permite obtener diferentes probabilidades
dados los valores de la variable aleatoria, la media y la desviación estándar. También aplica la
inversa, es decir dada una probabilidad se obtienen los valores de la variable aleatoria.
El segundo caso que se presenta corresponde a la prueba de hipótesis, como se muestra en
la Figura 2. En referencia a la expresión indicada en el ejemplo inicial, la grá…ca muestra el
caso para una posible hipótesis alterna. Aquí se pueden usar diferentes escenarios para ver las
probabilidades del error tipo I y el error tipo II en el contexto de esta temática. Se observa que a
partir de esta se consigue motivar los conceptos de prueba de hipótesis ante distintos problemas.
En este caso también se anexa el calculador para la distribución normal.
Prefacio xi
xii Prefacio
Capítulo 1

Instalación de CalEst

CalEst es un paquete estadístico que le permitirá al usuario, realizar los cálculos y análisis
estadísticos de un conjunto de datos en la solución de problemas.
CalEst cuenta además con una serie de animaciones visuales que facilitará al usuario la
comprensión de diferentes conceptos estadísticos.

1.1 Instalación del programa


Para realizar la instalación sigue los siguientes pasos:
1.a Introduzca el CD en su computadora. De forma automática se ejecutará el programa
asistente del instalador. La ventana del asistente es ilustrada por la Figura 1.1. Si no ejecuta de
forma automática vaya al paso 1.c.

Figura 1.1: Asistente del instalador


2 1. Instalación de CalEst

Figura 1.2: Se inicia la instalación del programa

1.b Apriete sobre la opción instalar. El instalador se ejecutará y una ventana como la
mostrada por la Figura 1.2 aparecerá.
1.c Si no se ejecuta automáticamente el programa es posible que no esté habilitada la ca-
racterística de autoejecución. Si la autoejecución está deshabilitada. Desde Mi PC, seleccione la
unidad del CD, ejecuta el programa Instalame.exe y una ventana como la ilustrada en la Figura
1.2 aparecerá.
2 Seleccione el idioma de la instalación y aprieta el botón Aceptar. Una pantalla como la
mostrada en la parte inferior de la Figura 1.2 aparecerá.
3 A continuación apriete el botón Siguiente. Se mostrará la licencia del software.
4 Lea dicha licencia y si está de acuerdo con los puntos allí expuesto seleccione Acepto el
acuerdo y aprieta Siguiente.
1.1. Instalación del programa 3

Figura 1.3: Paso 4

5 Se presentará la opción de escoger la carpeta donde quiere o desea instalar el programa.


Por defecto, la carpeta es C:nArchivos de programanCalEst Una vez que haya seleccionado la
carpeta que quiere o dejado la sugerida, apriete Siguiente para continuar, Figura 1.4

6 En este paso puede escoger la carpeta del menú de inicio Figura 1.5. Por defecto la carpeta
es CalEst Studio. Puede escoger otra carpeta. Cuando esté de acuerdo con el nombre de la
carpeta apriete el botón Siguiente.

7 En este paso se le pregunta si quiere crear un icono de acceso directo en su escritorio Figura
1.6. Si así lo desea, seleccione la casilla. Para continuar apriete Siguiente.

8 Estamos listos para instalar el programa. Aparece un resumen de la con…guración Figura


1.7. Si desea cambiar algo, apriete Atrás. Para empezar el proceso de instalación apriete Instalar.

9 El programa se instala Figura 1.8. El proceso puede tomar unos cuantos minutos. Al
terminar la instalación puede ejecutar el programa. No es necesario reiniciar la computadora.
Apriete el botón Finalizar para concluir el proceso.

Las siguientes grá…cas muestran la secuencia de instalación:


4 1. Instalación de CalEst

Figura 1.4: Paso 5, escoger carpeta

Figura 1.5: Paso 6, seleccionar menú desde el inicio


1.1. Instalación del programa 5

Figura 1.6: Paso 7, ¿se desea crear un icono?

Figura 1.7: Paso 8, instalación del programa


6 1. Instalación de CalEst

Figura 1.8: Paso 9, proceso de instalación

1.2 El ambiente de CalEst


Cuando se ejecuta CalEst aparece el escenario que se muestra en la Figura 1.9, es lo que cono-
ceremos como ambiente CalEst . En esta se muestra el menú de opciones y tareas que realiza
este calculador.
Para iniciar la aplicación del CalEst, primero, hay que tener una hoja de trabajo, la cual se
genera creando un nuevo archivo o abriendo uno ya existente, para ello hay que ir a la opción
"Archivo" el cual cuenta con varias funciones para operar con archivos, Figura 1.10, dos opciones
operativas son las relativas a Edición y la de Herramientas. Esta última contiene la referente
a un enfoque didáctica con la …nalidad de apoyar en la comprensión de algunos conceptos en
estadística y probabilidad.
La opción Estadística cuenta con los cálculos de medidas de tendencia central y dispersión.
También se tiene un elección temporal que contiene temas de control estadístico del proceso, ahí
se puede realizar el cálculo de seis sigma y el de la capacidad del proceso. Así como algunos la
posibilidad de escoger algún experimento y realizar el respectivo análisis. La siguiente opción
corresponde a temas de inferencia estadística, en la que se puede realizar pruebas de hipótesis
para la media, varianza y proporción de una población. En otra elección está la inferencia para la
comparación de los parámetros de dos poblaciones: medias, proporciones y razón de varianzas, se
tratan los casos de muestras independientes y pareadas, se contemplan pruebas no paramétricas.
En ésta parte de inferencia se presenta la construcción de un intervalo y se ilustran conceptos
1.2. El ambiente de CalEst 7

Figura 1.9: Presentación general del CalEst

Figura 1.10: Tres opciones operativas.


8 1. Instalación de CalEst

relevantes sobre éstos. Dos elecciones más a esta opción conciernen al análisis de la varianza y
pruebas de bondad de ajuste.
Las Grá…cas que tiene CalEst son las típicas en estadística descriptivas tales como el his-
tograma y su correspondiente tabla de frecuencia, polígono de frecuencia, polígono de frecuencia
acumulada, diagrama de pastel, diagrama de puntos, diagrama de tallo y hoja, diagrama de caja
y diagrama de dispersión y la grá…ca de la distribución empírica que permite visualizar que tan
cercana es la distribución de los datos a una distribución normal.
El análisis de Regresión simple y múltiple es una parte que complementa la parte cálculos
estadísticos para estimar los parámetros de un modelo y su análisis, así como las representaciones
grá…cas de los conceptos relacionados.
La parte correspondiente a las Distribuciones tiene una con…guración relevante para que
el usuario tenga la posibilidad de realizar cálculos de probabilidad. En cada caso aparece la
distribución caracterizada por sus parámetros, así aparece la función densidad con uno o dos
umbrales, moviendo éstos generan valores de la probabilidad a la derecha, izquierda de un valor
de referencia o entre dos valores dados. Esta opción tiene la versatilidad de trabajar de manera
animada con la función distribución de probabilidad para hacer cálculos, y comprender la relación
matemática con la función densidad. Se ha anexado un calculador de probabilidad en cada
distribución lo que equivale al manejo de las tablas, esta permite tener el valor de la variable
aleatoria que de…na a la distribución o el valor de una distribución probabilidad acumulada.
Opciones didácticas:

1. Con la …nalidad de ilustrar conceptos de probabilidad, el lanzamiento de monedas, tirar


un dado, la misión a Marte, arrogar dos dados, el lanzamiento de una moneda y un dado,
monedas considerando la distribución binomial (éxito - fracaso), rami…caciones, ruletas y
extraer canicas de una bolsa.

2. Para explicar el Teorema de límite central, los conceptos de prueba de hipótesis, prueba de
hipótesis de un sistema de seguridad.

3. Dos simuladores que corresponden a un cañón y un helicóptero respectivamente para


generar datos, hacer pruebas de hipótesis, estudios de relación entre variables y plantear
estrategias de diseño de experimentos.
Capítulo 2

Organización y descripción de datos

2.1 Presentación
Una vez que se han aplicado las encuestas o algún procedimiento formal para obtener la informa-
ción, es necesario contar con una estrategia para hacer más comprensible la información generada
por los datos. La estadística descriptiva es el procedimiento que permite organizar y describir los
datos. Esto se alcanza mediante la representación de los datos de manera grá…ca. Es importante
tener presente y caracterizada la población objeto de estudio para poder hacer inferencia sobre
ella a través de una muestra representativa.

Objetivo:
Presentar diferentes procedimientos grá…cos para
describir y analizar los datos de una muestra

A continuación se mostrará la opción de Grá…cas, en la Figura 2.1 se ilustra la colección


técnicas para presentar la organización y descripción de los datos. Mediante un ejemplo se
expondrán las grá…cas de esta opción. El primer diagrama que se explica es el histograma.

Ejemplo 1.

Un sicólogo tiene interés en estudiar la memoria a corto plazo, su experimento consiste en mostrar
una tarjeta que contiene 16 palabras a un grupo de 100 personas seleccionadas al azar entre 15
y 25 años. El procedimiento consiste en mostrar la tarjeta a cada persona por un espacio de
20 segundos, luego platica con la persona por espacio de un minuto, a continuación, les da
otro minuto para que le digan las palabras que recuerdan. Los datos aparecen en el bloque
Herramientas del archivo DataEjemplo1.Tab en la columna palabras.
El procedimiento para organizar y describir los datos es construir una tabla, conocida como
Tabla de frecuencias .

9
10 2. Organización y descripción de datos

Figura 2.1: Diagramas disponibles en la opción Grá…cas

Tabla de frecuencias:
Una tabla de frecuencias o distribución de frecuencia es una tabla que
registra categorías, valores o clases de valores que una variable debe
tener y el número de veces que cada una ocurre.

La tabla de frecuencias contiene un determinado número de clases de igual tamaño. Al


número de datos que cae dentro del intervalo de clase se le denomina frecuencia. Para elaborar
una tabla de este tipo se deben responder las siguientes preguntas: ¿Cómo de…nimos el número
de clases? ¿Cómo determinamos el ancho o tamaño del intervalo de clase? El ancho del intervalo
de clase que buscamos cuenta con dos límites (extremos). Una vez de…nido lo anterior, ¿Cómo
se determinan esos límites del intervalo de clase?
El resumen de los datos se presenta en una tabla de frecuencias Figura 2.2, este se generó
usando el CalEst, primero se traza el histograma primera opción.

2.1.1 Elaboración de la tabla de frecuencias


La exposición técnica del procedimiento para la construcción de los intervalos es como sigue:

Se determina la lectura mayor máxima y la menor mínima en los datos, y se calcula la


distancia entre estos valores. Así la distancia es:
distancia = m
aximo m{nimo
2.1. Presentación 11

Figura 2.2: Un ejemplo de la Tabla de frecuencias para los datos del ejemplo 1.

1. Se divide la distancia entre el número k de clases que se deseen, todas de igual ancho.

distancia
ancho (aproximado del intervalo de clase) =
k

El ancho del intervalo de clase se determina en función del número de clases que desee.
Aunque esto resulta arbitrario, casi siempre se propone entre 5 y 15 intervalos, pero
ello depende del número de datos. Las observaciones agrupadas sacri…can información
dependiendo de cómo las observaciones se distribuyan dentro de cada clase. Por un lado,
un número limitado de intervalos (menos de 5) nos daría muy poca información

2. Se establecen los intervalos de clase, para lo cual se requiere obtener el primero de ellos.
Se elige el menor de los datos y se suma el valor del ancho. Al valor resultante se le vuelve
a sumar el ancho, y así sucesivamente hasta obtener el número de clases establecidos.
Cada intervalo de clase, como podemos observar, presenta dos valores que se pueden su-
perponer. Para evitar que ello ocurra, deben contarse las observaciones iguales o mayores
al valor de la izquierda del intervalo y las menores al valor de la derecha. Se denota con X
el valor de la observación, por lo que la representación formal en términos matemáticos de
un intervalo de clase es:
valor izquierdo  X < valor derecho

Esta última expresión se simpli…ca mediante la siguiente notación:

valor izquierdo valor derecho

3. Se cuenta el número de observaciones que caen dentro del intervalo de clase. A este número
se le conoce como frecuencia.
12 2. Organización y descripción de datos

La tabla frecuencias es una clasi…cación de datos y permite tener una mejor idea acerca
de los datos iniciales. Además, los valores de las frecuencias individuales se ven in‡uidos por el
tamaño de la muestra, pues cuando las muestras son grandes, las frecuencias individuales serán
mayores que cuando son pequeñas. La comparación entre diferentes muestras se vuelve compli-
cada; también se convierte en difícil de interpretar y comprender la problemática planteada, por
ello, se recurre al concepto de frecuencia relativa.
La frecuencia relativa de una clasi…cación de datos es el número de veces que una ob-
servación cae sobre una clase, y representa una proporción del número total de datos. Por esta
razón, la frecuencia relativa se expresa en fracciones, decimales o porcentajes.
El cálculo de la frecuencia relativa se obtiene empleando la expresión:

f recuencia
f recuencia relativa =
total

2.1.2 El Histograma
Una vez capturados los datos en la hoja de datos, se pulsa la opción Grá…cas y aparece el
histograma Figura 2.3. Aparece una hoja que contiene la o las variables que se desean estudiar,
en este caso el número de palabras recordadas por 100 personas. Se completan los espacios, en
datos se escribe el nombre de la variable, los nombres de las clases es opcional y deben estar en
una columna. Se escoge el número de intervalos que se deseen obtener.
El histograma es una grá…ca de barras que consiste básicamente de un conjunto de rectángulos.
Su forma está determinada por tres elementos: el número de rectángulos, el ancho y la altura
de éstos. En esencia, el histograma es una representación visual de la tabla de frecuencias. En
ese sentido, el número de barras (rectángulos) corresponde al número de clases. El ancho del
rectángulo corresponde al intervalo de clase y la altura es la frecuencia. El histograma y la tabla
de frecuencias del conjunto de datos son una estrategia conjunta para organizar y describir los
datos de una muestra.

La frecuencia relativa en un intervalo de clase es la proporción del número total de


observaciones que caen dentro de ese intervalo de clase, y es proporcional al área
de la barra correspondiente a ese intervalo.

Si en el eje vertical del histograma se cambia la marca de frecuencia por el de la frecuencia


relativa, se tiene el que se conoce como histograma de fecuencia relativa y éste se presenta en la
grá…ca que aparece a la derecha en la Figura 2.4.
Dado que todas las barras de un histograma tienen el mismo ancho, el área de una barra es
proporcional a la frecuencia relativa de la clase correspondiente. Por ejemplo, si 25% del área
2.1. Presentación 13

Figura 2.3: Histograma para el número de palabras recordadas en un minuto

bajo la distribución queda sobre cierto intervalo, entonces 25% (0.25) de las observaciones caen
en ese intervalo. En ese sentido, el área total de las barras es igual al 100% (1).
Interpretación: aproximadamente el 10% de personas recuerda entre 9 y 10 palabras, lo que
resulta una cantidad pequeña de la población. El 21% de los entrevistados recuerda muy pocas
palabras 5 o menos. ¿Qué cantidad de palabras recuerda el 50% de personas? El histograma de
frecuencias relativas re‡eja esta situación en la Figura 2.4 se presentan de manera conjunta los
dos histogramas:

2.1.3 Polígono de frecuencias


En las opciones grá…cas aparece el polígono de frecuencias, ésta es también una herramienta
disponible para describir la distribución de los datos y su construcción depende del histograma.
El histograma se convierte fácilmente en un polígono de frecuencias uniendo mediante líneas
rectas las alturas de las barras del histograma que corresponden al punto medio del intervalo de
clase. Este punto es conocido como marca de clase.
Polígono de frecuencias relativas
El polígono de frecuencias relativas es una grá…ca e…ciente que también permite representar
la tabla de frecuencias en función de la frecuencia entre el total; esta condición facilita la inter-
pretación de los resultados, ya que estos se pueden expresar en porcentajes. Éste se construye
14 2. Organización y descripción de datos

Figura 2.4: Histogramas de frecuencias relativas y el de frecuencias.

tomando como referencia el histograma de frecuencias relativas. Su procedimiento de construc-


ción es similar al de polígono de frecuencias. Para el ejemplo de las palabras la Figura 2.5 muestra
ambos polígonos.
Interpretación: Aproximadamente el 25% recuerda 7 palabras, es decir un cuarto de la mues-
tra. Se observa que la forma del polígono tiene una ligera asimetría. Esta situación se puede
visualizar en grá…cas descritas tanto por el histograma como por los polígonos de frecuencias.
En la elección 5 de la opción de grá…cas aparece la alternativa para describir conjuntamente
el histograma y el polígono de frecuencias. Como se percibe de la Figura 2.6, el polígono de
frecuencias relativas tiene en común con el histograma que las áreas de las grá…cas sobre un
intervalo son idénticas. A estas grá…ca también se le conoce como densidad empírica de la
distribución de datos. Para aclarar la relación de ambas representaciones, se sobreponen las
grá…cas de la Figura 2.6.
Recapitulación: el polígono de frecuencias es una descripción pictórica que permite captar la
forma del histograma. Esta descripción grá…ca es una herramienta muy útil para delinear varias
características de la distribución de los datos, como son la simetría, el sesgo y la variabilidad de
los datos.

2.1.4 Frecuencia relativa acumulada


En los datos presentados en la Figura 2.2 se puede observar que están ordenados de menor a
mayor. En ese contexto se pueden sumar las frecuencias relativas y, ante esa situación, pueden
2.1. Presentación 15

Figura 2.5: Polígonos de frecuencias y frecuencias relativas.

Figura 2.6: Representación conjunta del histograma con el polígono de frecuencias


16 2. Organización y descripción de datos

Figura 2.7: Grá…cas que ilustran los polígonos de frecuencia, también conocidos como ojivas.

plantearse algunas preguntas que resultan interesantes para realizar una interpretación de una
muestra de datos. Por ejemplo, podríamos preguntarnos ¿a qué valor de los datos le corresponde
75%?

La frecuencia relativa acumulada de una clase C, es la suma de las frecuencias relativas


de todas las clases anteriores a C. Esta se expresa como fracción, decimal o porcentaje.

Con la información que se proporciona en la Figura 2.2 se facilita la construcción del his-
tograma de frecuencias acumulado y del polígono de frecuencias relativas en forma acumulada.
Véase la última columna de esa …gura, donde se observa cómo se han utilizado estos datos para
elaborar la grá…ca poligonal de la izquierda en la Figura 2.7, ahí se muestra el polígono que des-
cribe las frecuencias relativas acumuladas; éste es el más utilizado en la práctica. En esa grá…ca
se han trazado los porcentajes correspondientes a las personas que recordaron 5 o 7 palabras.
El polígono de frecuencias relativas acumuladas también recibe el nombre de ojiva . Así cuando
se requiera construir la ojiva de un conjunto de datos, lo que se desea es trazar el polígono de
frecuencias relativas acumuladas. En la grá…ca a la derecha de la Figura 2.7 se compara ese polí-
gono de frecuencias relativas con la distribución acumulada de la normal estándar: distribución
teórica. Nota: El polígono de frecuencias relativas que proceden de los datos de una muestra se
llama también distribución empírica.
2.1. Presentación 17

2.1.5 Diagrama de tallo y hoja


Ejemplo 2.

Varias de estas opciones se ilustrarán utilizando 125 datos que corresponden al tiempo en que
una muestra de estudiantes completaron un rompecabezas electrónico de la República Mexicana
. Los datos están en el cuadro de abajo, en CalEst se abre un archivo y en una columna se
capturan estos.

El objetivo es ilustrar la elaboración de la grá…ca de tallo y hoja. Esta es una grá…ca que
permite complementar el estudio descriptivo de los datos. Es una grá…ca alternativa al his-
tograma. Con estos datos a continuación se elabora un diagrama de tallo y hoja, la …nalidad de
este diagrama es describir a la vez una tabla de frecuencias y un histograma, éste se presenta en
la Figura 2.8.

Construcción del diagrama de tallo y hoja

Se ilustrará la construcción del diagrama de tallo y hoja considerando los nueve datos corre-
spondientes a la muestra de la producción de maíz en un área de 100m2 . El peso del maíz para
cada muestra es: 312, 324, 310, 314, 322, 328, 316, 314, 324 toneladas. Antes de elaborar este
diagrama, se dará una idea general de cómo se forman el tallo y la hoja.
La idea principal es partir cada número para formar primero el tallo y luego la hoja. En
general, donde se hace la partición depende del rango de los datos. Para …jar ideas considere el
número 310, el cual se parte en dos cifras, 31 y 0. 31 representará al tallo y el 0 a la hoja. En la
representación se escribe el 31 a la derecha separándolo con un espacio, que aquí se resalta con
una línea vertical, y el 0 del lado izquierdo. Esto es:

31 j 0

El procedimiento para formar el diagrama de tallo y hoja es como sigue:


18 2. Organización y descripción de datos

Figura 2.8: Diagrama de tallo y hoja

Paso 1. Se ordenan los datos de menor a mayor:

310; 312; 314; 314; 316; 322; 324; 324; 328:

Paso 2. Se consideran todos los datos de manera integral. Los números candidatos para el
tallo en estos datos son el 31 (para los números 310, 312, 314, 316) y 32 (para los números 322,
324, 328); así:

Paso 3. Se incorpora la otra parte del número partido; así, se anexan 0, 2, 4, 4 y 6, que son
la parte correspondiente del 31, o sea:

Paso 4. Se agrega la parte dividida correspondiente al número 32; así la grá…ca queda como
sigue:
2.1. Presentación 19

Cabe observar que en este ejemplo, el ancho de los intervalos de clase es de 10 unidades
(de 310 a 320). Además se puede resaltar que la realización del paso 1 facilita la construcción
del diagrama.
Supongase que el ancho de intervalos sea de tan sólo 5 unidades (310 a 315, 315 a 320, y
así sucesivamente). Para construir el diagrama de tallo y hoja con 5 unidades, se pone el 31 dos
veces en el tallo. Así, en la hoja del primer 31 del tallo, se consideran los números menores que
5, que en este caso serán 310, 312, 314 y 314. En el segundo tallo los números mayores o iguales
que 5 y menores o iguales que 9, esto es, el 316 del ejemplo. De manera análoga se procede para
el otro número del tallo. En este caso el diagrama es:

Con el auxilio de esta grá…ca se tendrá una idea general de la distribución de los datos.

Unidad en un diagrama de tallo y hoja

Establecer una unidad ayuda en la construcción de un diagrama de tallo y hoja. Por lo general,
ésta debe aparecer en la parte superior del diagrama. Por ejemplo:

En este caso la unidad que se lee indica que la partición se da entre diez de miles y los miles.
De este modo si el número con tallo fuera 9 y el de la hoja 6 se leería como 96000.
En contraste si dice:

Esto signi…ca que el número con tallo 9 y hoja 6 se leería como 0.096.

Distribución empírica

En la Figura 2.8 se muestra una aparente simetría en la distribución de los datos. Con el propósito
de ilustrar la utilidad del polígono de frecuencias acumulado en la descripción de los datos se
describe este en la grá…ca izquierda de la Figura 2.9. La grá…ca a la derecha muestra el mismo
polígono comparado con distribución de probabilidad normal. Esta situación permite evaluar de
manera descriptiva si los datos se ajustan a una distribución de probabilidad normal.
20 2. Organización y descripción de datos

Figura 2.9: Polígono de frecuencias acumulado izquierda, este mismo comparado con la normal.

2.1.6 Ejercicios.
1. Para el conjuntos de datos del ejemplo 2:

(a) Trace e interprete el histograma, use inicialmente 13 clases.


(b) Una vez construido el histograma use la opción tabla de frecuencia y elabore dicha
tabla.
(c) Encuentre el porcentaje de los alumnos que resolvieron el rompecabezas en 480, 560
segundos, los que lo resolvieron en más de 560 segundos, los que lo resolvieron entre
490 y 550 segundos, los que lo resolvieron en menos de 480 segundos. Use el polígono
de frecuencias acumulado.

2. En otro estudio para resolver el rompecabezas de la República Mexicana 119 estudiantes


tardaron el tiempo que se muestra en la columna: tiempo en el archivo DataEjemplo1.Tab
en el bloque Herramientas en CalEst.

(a) Trace el histograma y elabore la tabla de frecuencias, interprete sus resultados.


(b) Encuentre el porcentaje de los alumnos que resolvieron el rompecabezas en 490, 510
segundos, los que lo resolvieron en más de 505 segundos, los que lo resolvieron entre
490 y 500 segundos, los que lo resolvieron en menos de 490 segundos. Use el polígono
de frecuencias acumulado.
2.1. Presentación 21

(c) Veri…que que tan simétrica es la distribución comparándola con una distribución nor-
mal
(d) Elabore un diagrama de tallo y hojas.

(e) En qué conjunto de datos hay mayor variabilidad en los del ejercicio 1 o los del ejercicio
2.
(f) Si se aplica este mismo rompecabezas a 1000 personas con las mismas características
de esta muestra, ¿cuántas tardarán en resolverlo en menos de 500 segundos?

3. Un médico esta interesado en conocer el tiempo, en segundos, de respuesta de un individuo


para encontrar una cara en una cuadro lleno de granos de café. Esta información le per-
mitirá saber más sobre el cerebro. La respuesta ante este estímulo visual se muestra en el
archivo DatosEjemplo1.TAB, bloque Herramientas, en la columna resp.

(a) Trace el histograma y elabore la tabla de frecuencias, interprete sus resultados.

(b) Encuentre el porcentaje de los individuos que tardaron en encontrar la cara en 90


segundos, en 150 segundos, los que tardaron más de 100 segundos, los que tardaron
entre 30 y 180 segundos, los que lo resolvieron en menos de 30 segundos. Use el
polígono de frecuencias acumulado.
(c) Veri…que que tan simétrica es la distribución comparándola con una distribución nor-
mal
(d) Elabore un diagrama de tallo y hojas.

(e) Si se muestra este mismo cuadro a 1500 personas con las mismas características de
esta muestra, ¿cuántas tardarán en encontrar la cara en menos de 30 segundos?

4. Con el …n de evaluar la habilidad de sus alumnos, al …nalizar el semestre el profesor del


taller de mecanografía aplicó una prueba, que consistía en escribir el mayor número de
palabras en dos minutos. Después de realizar la prueba, seleccionó una muestra de 20
alumnos. Los datos reportados fueron:

En este caso, hay que construir el diagrama de tallo y hoja para este conjunto de datos e
interpretarlo.
22 2. Organización y descripción de datos
Capítulo 3

Estadísticas

Las estadísticas son medidas descriptivas que complementan la información e interpretación de


los datos descritos en una grá…ca. Se agrupan en tres clases: las medidas de tendencia central,
las medidas de dispersión y las medidas de posición.

Ejemplo 1

Un sociólogo ha realizado un estudio para conocer la edad en la cual contraen matrimonio las
mujeres que radican en una ciudad determinada. Del registro civil obtuvo una muestra aleatoria
de 120 parejas. Es de interés conocer ¿Cuál es la media o la mediana en la que una mujer se
casa? ¿Qué porcentaje de mujeres se casa cuando tiene 20 años o menos? ¿Qué tanta variación
de edad existe entre las mujeres que se casan? ¿Qué diferencia existe entre la edad máxima y
mínima para casarse? ¿A qué edad se casan al menos el 25% de las mujeres?
Datos: Los datos relacionados con esta investigación aparecen en el archivo DatosEjem-
plo1.TAB en la columna edad. Para poder responder a estas preguntas aplicamos la opción
Estadística y luego Numérica en CalEst, a continuación aparecen las tres clases de mediciones
como se ilustra en la Figura 3.1.
A continuación se explica el procedimiento para obtener esta información y sobre todo es
relevante interpretar estos resultados.

3.0.7 Medidas de tendencia central


La media

De…nición. Dado una colección de n valores de una variable, la media aritmética es una medida
de tendencia central que se obtiene sumando cada uno de estos valores y el total de esta suma
se divide por n. En general a esta medida se le conoce como la media. La fórmula para calcular
la media de la población y de la muestra son:

23
24 3. Estadísticas

Figura 3.1: Resultados de las estadísticas de tendencia central, dispersión y posición

P
N P
n
xi xi
i=1 i=1
población  = ; muestra x =
N n

Ejemplo 2

Se tomó una muestra de siete farmacias para conocer el precio en pesos de una medicina, los
datos son: 510, 850, 480, 420, 445, 495 y 500.

Solución
La suma del precio de las siete farmacias es:

n
X
xi = 510 + 850 + 480 + 420 + 445 + 495 + 500 = 3700
i=1

Se divide la cantidad anterior por 7, así la media de la muestra es:

P
n
xi
i=1 3700
x= = = 528:6
n 7
25

La mediana

De…nición. Dado una colección de n valores de una variable, la mediana es una medida de
tendencia central cuyo valor está en la mitad de los n datos ordenados de menor a mayor.
Si el número de datos es impar, la mediana es el dato que está situado a la mitad. Si el
número de datos es par, la mediana es la media de los dos datos que están situados a la mitad.

Ejemplo 3

Encontrar la mediana del precio en pesos de una medicina de las farmacias en el ejemplo 1.

Solución
Para encontrar la mediana se ordenan los datos 510, 850, 480, 420, 445, 495 y 500 de menor a
mayor.

Sitio 1 2 3 4 5 6 7
Orden 420 445 480 495 500 510 850:

Son siete datos, por lo que se tiene un número impar, la mediana es el dato situado a la mitad,
esto es: m
e = 495. Con el símbolo m
e se representa la mediana. En la mitad de las farmacias la
medicina cuesta menos de 495 pesos.

Ejemplo 4

Una compañía que manufactura un pesticida estudia el número de insectos que aniquila una dosis
especí…ca del insecticida. Se realizan 10 pruebas. En cada una de ellas, el número de insectos
muertos de 40 son:
19; 22; 34; 28; 18; 16; 25; 27; 31; 30

Calcular la mediana. Con base en esos datos, ¿qué tan efectivo es el insecticida?

Solución
A partir de la de…nición se ordenan los datos de menor a mayor y se identi…ca el lugar que
ocupan.
Sitio 1 2 3 4 5 6 7 8 9 10
Orden 16 18 19 22 25 27 28 30 31 34

Puesto que el número de datos es par la mediana es la media de los datos situados en los
lugares 5 y 6, es decir 25+27
2
= 26:
26 3. Estadísticas

La moda

De…nición. Dado una colección de n valores de una variable, la moda es una medida de
tendencia central, y es el valor que ocurre con mayor frecuencia.

 Cuando dos valores aparecen con la misma frecuencia, cada uno es una moda y el conjunto
de datos es bimodal.

 Cuando más de dos valores se tienen con la misma frecuencia, cada unos es una moda y el
conjunto de datos es multimodal.

 Cuando no hay valores repetidos, se dice que los datos no tienen moda.

La media armónica y la media geométrica

La media armónica y la media geométrica completan el panorama de medidas de tendencia


central. En la práctica, éstas son usadas con menos frecuencia y en general para aplicaciones
especí…cas, por ejemplo en comercio y economía.
Con el …n de facilitar su de…nición de la media armónica se describen los siguientes
términos.

1
El recíproco de un número X es
X
1 1 1
El recíproco de n números X1 ; X2 ; :::; Xn es ; ; :::;
X1 X2 Xn
n
1X 1
La media de estos recíprocos es
n i=1 Xi

1
El recíproco de la media es P
n
1 1
n Xi
i=1

La media armónica

La media armónica (denotada por la letra H) de un conjunto de datos X1 ,X2 ,...,Xn es el recíproco
de la media aritmética del recíproco de esos datos.

1 n
H Pn = P
n
1 1 1
n Xi Xi
i=1 i=1
27

La media armónica se emplea cuando se desea promediar velocidades, tiempos, rendimiento,


etc., es decir, cuando in‡uyen los valores pequeños. Pero es necesario ser cuidadoso en estos
casos, ya que cuando algún dato es cero o muy cercano a cero, no se puede calcular.

La media geométrica

Si algunos valores son muy grandes en magnitud y otros son pequeños, entonces la media geo-
métrica es una medida que representa los datos mejor que la media.
Si hay n observaciones X1 ; X2 ; :::; Xn la media geométrica G de un conjunto de datos es la
raíz enésima del producto de esos datos.
p
n
G= X1 X2 :::Xn

Por lo general, la media geométrica se utiliza cuando los valores de la variable siguen una
progresión geométrica, o cuando se necesitan promediar porcentajes, tasas, índices, etc., siempre
que vengan dados en porcentajes.

3.0.8 Medidas de dispersión


En esta sección se mostrarán diferentes maneras de de…nir la variación de un conjunto de datos.
Una medida que es sencilla y práctica es el rango.

Rango

El rango es una de las medidas más sencillas para expresar la dispersión de los datos. Tan sólo
se requiere considerar los valores máximo y mínimo de las observaciones.

El rango muestral ( R) es la diferencia entre el máximo y el mínimo


de las observaciones de la muestra:
R=máximo-mínimo.

Ejemplo 5

El consumo de energía eléctrica en KWh registrada en los recibos de 10 hogares son:

Consumo 416 378 390 454 472 413 440 441 379 421

Solución
Se ordenan de menor a mayor ese conjunto de datos:

Consumo 378 379 390 413 416 421 440 441 454 472
28 3. Estadísticas

Así el valor deseado para el rango es: R= máximo-mínimo = 472 -378 =94 .

La varianza y la desviación estándar

Como se ha visto el rango sólo requiere de dos datos para obtener su valor. La varianza y
la desviación estándar son dos medidas para la variación que utilizan todos los datos de la
información. Primero se necesita comprender la desviación de cada una de las entradas de los
datos.

Desviación
La desviación de la entrada x en una muestra aleatoria de un conjunto de datos es la
diferencia entre cada entrada y la media X del conjunto de datos.

Para el ejemplo 5, la media es X = 420:4; la desviación con respecto al primer dato es X X =


416 420:4 = 4:4: La desviación para cada uno de los datos se muestra a continuación en
la Tabla 1. Con esta información se podrá calcular la varianza y la desviación estándar. La
expresión general para la varianza es:

P
n 2
Xi X
i=1
S2 =
n 1

Al numerador se le conoce como la suma de cuadrados, es decir la suma de los cuadrados


de la desviación. El número de observaciones es n, y recuerde que i recorre todos los datos.

Tabla 1. Desarrollo del cálculo de la varianza



Dato Xi X (Xi X)2 Xi X
416 416 420:4 4:4 19.36 4:4
378 378 420:4 42:4 1797.76 42:4
390 390 420:4 30:4 924.16 30:4
454 454 420:4 33:6 1128.96 33:6
472 472 420:4 51:6 2662.56 51:6
413 413 420:4 7:4 54.76 7:4
440 440 420:4 19:6 384.16 19:6
441 441 420:4 20:6 424.36 20:6
379 379 420:4 41:4 1713.96 41:4
421 421 420:4 0:6 0.36 0:6
Suma 0 9110.40 252.0
29

Ejemplo 6

Calcular la varianza para los datos del ejemplo 5. En la Tabla 1 se han calculado los cuadrados
de las desviaciones y luego se sumaron, así la varianza es:

P
n 2
Xi X
i=1 9110:40
S2 = = = 1012:267
n 1 10 1

La varianza muestral ( S2 ) es la media del cuadrado de las desviaciones de cada


observación con respecto a la media muestral.

Una expresión alternativa para calcular la varianza es:

P
n 2 P
n 2
Xi X Xi2 X
i=1 i=1
S2 = =
n 1 n 1

Observaciones
Para encontrar el promedio de la suma de cuadrados, se ha dividido entre n 1 y no exactamente
entre n. Esto se debe a dos razones. La primera es que, como se ve en la segunda columna de
la Tabla 1, la suma de las desviaciones es cero. Esto quiere decir que cualquier desviación se
puede encontrar a partir de las nueve desviaciones restantes. De modo que el valor de la suma
de cuadrados depende sólo de nueve desviaciones que son la libertad de variar de una muestra
a la siguiente. En general, se dice que la suma de cuadrados tiene n 1 grados de libertad.
La segunda razón es tema de la inferencia estadística, y se puede decir que dividir la suma
de cuadrados entre n 1 hace que la varianza muestral (estadístico) sea un mejor estimador
de la varianza poblacional (parámetro). Ésta última se expresa mediante la letra griega sigma
minúscula elevada al cuadrado,  2 .
La varianza  2 de la población se de…ne por:

P
N
(Xi )2
i=1
2 =
N
Donde  es la media de la población y N es el tamaño de la población.

Cálculo de la desviación estándar


A partir de la varianza de manera directa. Se calcula la desviación estándar sacando la raíz
cuadrada de la varianza. La fórmula para la desviación estándar es:
30 3. Estadísticas

v v
uP 2 uP
u n u n 2 2
u Xi X u Xi X
t t
S = i=1 ; o S = i=1
n 1 n 1

Para los datos del ejemplo 6 se saca la raíz cuadrada y se obtiene el valor de S; así:

v
uP 2
u n r
u Xi X
t i=1 9110:40 p
S= = = 1012:267 = 31:816
n 1 10 1

En la práctica, se usa más la desviación estándar porque tiene las mismas unidades de
los datos originales.

La desviación estándar:
La desviación estándar muestral (S) es la raíz cuadrada positiva de la varianza.
La desviación estándar de la población se denota por :

La desviación estándar ; de la población se de…ne por:

v
uN
uP
u (Xi
t i=1 )2
=
N

La desviación media

Una medida que se menciona y aparece en muchos estudios es la desviación media (DM ), la cual
consiste en sumar el valor absoluto de la desviación. Por el momento sólo se dirá aquí que, debido
a propiedades matemáticas se usan la varianza y desviación estándar con mayor frecuencia.

n
P
Xi X
i=1
DM =
n

Para los datos del ejemplo 5, el cálculo de DM es:

n
P
Xi X
i=1 252
DM = = = 25:2
n 10
31

Comparación de la variación en diferentes poblaciones

Una medida que permite comparar la variación en diferentes poblaciones se conoce como el
coe…ciente de variación. Esta medida no tiene unidades.

Coe…ciente de variación
El coe…ciente de variación muestral (CV) describe la desviación estándar S
relativa a la media X y se expresa en porcentaje (%).

muestra población

S
CV = X
100% CV =  100%

Considerando los datos del ejemplo 6, el CV es:

S 31:816
CV = 100% = = 7:57%
X 420:4

3.0.9 Medidas de posición


Anteriormente se presentó la mediana de un conjunto de datos, esta es una medida que co-
rresponde exactamente al punto medio de los datos ordenados de menor a mayor, es decir que
corresponde al 50% de los datos que son menores o iguales a la mediana y el 50% de los datos
son mayores o iguales a la mediana. De esa manera la mediana divide a los datos en dos partes
iguales, en ese mismo sentido los tres cuartiles, denotados por C1 ; C2 y C3 ; dividen a los datos
en cuatro partes iguales.

Primer cuartil C1
El primer cuartil es el valor de los datos ordenados que representa al 25%, es decir:
al menos el 25% de los valores de datos ordenados son menores o igual a C1 y al
menos 75% de los valores son mayores o iguales a C1 :
Segundo cuartil C2
El segundo cuartil es el valor de los datos ordenados que corresponde a la mediana.
Tercer cuartil C3
El tercer cuartil es el valor de los datos ordenados que representa al 75%, es decir:
al menos el 75% de los valores de datos ordenados son menores o igual a C3 y al
menos 25% de los valores son mayores o iguales a C3 :

Nota. El procedimiento para la obtención de los cuartiles no es un resultado universalmente


uniforme, puesto que diferentes programas estadísticos dan distintos valores para los cuartiles.
Aquí se ha considerado el siguiente: El primer cuartil es la mediana de los datos ordenados
menores o iguales a la mediana, el segundo cuartil es la mediana y el tercer cuartil es la mediana
de los datos mayores e iguales a la mediana.
32 3. Estadísticas

Ejemplo 7

Un profesor de historia aplica un cuestionario a sus alumnos sobre temas de historia universal y
nacional, el cuestionario es 20 preguntas de opción múltiple. Los resultados de una muestra de
esos 15 alumnos son: 16, 9, 13, 15, 16, 19, 8, 11, 12, 6, 20, 17, 10, 18, 5.

Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Orden 5 6 8 9 10 12 12 13 15 16 16 17 18 19 20
C1 C2 C3

Así, menos un cuarto de alumnos tiene 9 o menos aciertos. La mitad tiene 13 aciertos y 75%
tiene 17 o más aciertos.

3.0.10 Diagrama de caja


Estas medidas de localización tienen una aplicación que resulta relevante en el análisis descriptivo
de los datos. El llamado diagrama de caja recoge la información de las medidas de posición,
observa la Figura 3.2. La opción 8 de grá…cas en el paquete, contiene el mecanismo para elaborar
los diagramas de caja.

Figura 3.2: Diagrama de caja para los datos del rompecabezas


33

Ejemplo 8

La variable de respuesta es el tiempo en que tardan en resolver el rompecabezas de la República


Mexicana una muestra de 119 estudiantes de secundaria. Los datos aparecen en la columna
tiempo del archivo DatosEjemplo1.TAB, bloque Herramientas, en CalEst. Del reporte estadístico
generado por CalEst se consideran 5 valores, estos son los tres cuartiles, el máximo y el mínimo,
estos se muestran en la siguiente tabla:

Variable M in M ax C1 C2 C3
Tiempo 474 524 491 499 509

Con este reporte se elabora el diagrama de caja, Figura 3.2

Guía para la construcción del diagrama de caja


Paso 1. Trazar una línea horizontal que incluya los valores mínimos y máximo.
Paso 2. Dibujar un rectángulo (caja), cuyos lados queden en
los puntos C1 y C3 :
Paso 3. Dentro de la caja, trazar una línea en el punto que corresponde a la mediana.
Paso 4. Se traza una línea de cada lado de la caja cuya extensión es: 1.5 (RIC).
Es decir para la izquierda:
L1 = C1 1:5(RIC)
y para la derecha
L2 = C3 + 1:5(RIC)
Paso 5. Si hay puntos mas allá de estas líneas, éstas se marcan con un asterisco (*).
Estas observaciones corresponden a datos anómalos
Paso 6. Si no existen datos anómalos, al …nal de las líneas hay unas líneas pequeñas.
A tales líneas se les conoce como "bigotes".

Ejercicios

1. El gasto (pesos) de transporte que realizan en una semana una muestra de 40 familias se
muestra a continuación:

43; 52; 63; 55; 66; 78; 79; 87; 42; 43; 44; 49; 52; 53; 53; 53; 64; 58; 76; 78
70; 78; 86; 87; 90; 81; 84; 85; 97; 79; 88; 96; 91; 92; 89; 94; 60; 85; 85; 97:

(a) Traza un polígono de frecuencia acumulado y estima los cuartiles.


(b) Calcule las medidas de tendencia central e interpreta los resultados en el contexto del
problema.
(c) Estime la varianza, la desviación estándar.
(d) Trace el diagrama de caja.
34 3. Estadísticas

2. La pérdida de calcio es un problema que se presenta principalmente en las mujeres mayores.


Un médico investiga, en una muestra de 40 mujeres, la pérdida de calcio a lo largo de un
año. A cada mujer le hace una medición inicial de calcio y luego al año siguiente una nueva
medición. Los datos de pérdida de calcio al año son:

4; 4; 5; 10; 11; 8; 2; 5; 85; 17; 2; 15; 10; 8; 7; 13; 7; 1; 16;


3; 2; 0; 1; 11; 7; 1; 9; 6; 9; 11; 7; 16; 12; 3; 3; 11; 8; 7; 11:

(a) Encuentra la media y mediana muestral.

(b) ¿Cuál de las dos medidas dan mejor indicación de la pérdida de calcio?

(c) Estime la varianza, la desviación estándar.

(d) Trace el diagrama de caja.

3. Para estimar el número de árboles de café en una granja, el agrónomo divide la granja en
1000 pequeñas parcelas. Él selecciona de manera aleatoria 20 de estas parcelas y cuenta el
número de árboles. Los resultados son: Calcula el rango y el rango intercuartil para este
conjunto de datos. ¿Qué información adicional le proporciona este nuevo cálculo, unido al
de la media, la mediana y al primer y tercer cuartil?

41 56 47 59 24 37 23 53 44 43
62 28 54 41 30 44 52 69 34 46

4. Al inicio del semestre un profesor realiza una prueba para evaluar la lectura de comprensión
a una muestra de 20 alumnos. Se cali…ca sobre 100, y los resultados de la prueba se
describen a continuación:

24 31 54 62 36 28 37 55 18 27
58 32 37 41 55 39 56 42 29 35

Durante el semestre el profesor aplicó un método para mejorar la lectura de comprensión.


Al …nalizar el semestre se utilizó una prueba similar a una muestra de 25 alumnos. Los
resultados son:

64 71 81 43 69 75 86 58 63 66 82 62 79
91 83 55 68 74 48 66 84 77 73 59 55

(a) Calcule el rango, el rango intercuartil y elabora un diagrama de dispersión, y traza la


media para el primer conjunto de datos.
35

(b) Calcule el rango, el rango intercuartil y elabora un diagrama de dispersión, y traza la


media para el segundo conjunto de datos.
(c) ¿Resultó efectivo el método del profesor para la lectura de comprensión?

5. A un grupo de estudiantes se les aplicó un examen de opción múltiple en geografía. Las


cali…caciones que obtuvieron se dividieron en dos grupos: en el primero están los que
sacaron entre 6 y 8; en el otro, los que obtuvieron una cali…cación mayor que 8.

(a) El tiempo que emplearon los 22 estudiantes del primer grupo en contestar las preguntas
se muestra a continuación:

95; 85; 87; 82; 98; 92; 92; 97; 103; 92; 94; 94; 94; 75; 98; 90; 100; 92
91; 92; 100; 87:

Calcula la desviación media, la varianza y la desviación estándar del tiempo. Luego,


completa el resumen estadístico. Elabora el diagrama de tallo y hoja para estos datos.
(b) El tiempo que emplearon los 23 estudiantes del segundo grupo en contestar las pre-
guntas se muestra a continuación:

122; 116; 120; 121; 120; 115; 118; 115; 113; 112; 117; 115; 122; 119
119; 126; 117; 118; 120; 123; 120; 125; 112:

Calcula la desviación media, la varianza y la desviación estándar del tiempo. Luego


completa el resumen estadístico. Elabora el diagrama de tallo y hoja para estos datos.
(c) Compara los resultados de los incisos a y b. ¿Qué puedes concluir?

(d) Trace los diagramas de caja para cada caso y haga un análisis comparativo.

6. Una empresa que elabora alimentos procesados realiza pruebas para determinar la vida de
anaquel de un nuevo producto. En el estudio se consideran 21 productos. El número de
días que duraron los productos sin descomponerse se presenta en el siguiente cuadro.

152; 152; 115; 109; 137; 88; 94; 77; 160; 165; 125; 40; 128; 136; 101;
62; 153; 83; 69; 132; 120:

(a) Calcule desviación media, la varianza y la desviación estándar.

(b) Complete el resumen estadístico para este conjunto de datos.

(c) En cada caso interprete su valor.


36 3. Estadísticas

(d) Trace el diagrama de caja e interprete.

7. Los médicos de una clínica probaron dos tratamientos para reducir los niveles de colesterol.
El tratamiento 1 se aplicó a 13 pacientes. El nivel de colesterol se midió antes de la
aplicación y después de ella. Los datos que indican la reducción son:

54; 39; 44; 53; 56; 66; 34; 61; 36; 67; 32; 22; 40:

El segundo tratamiento se empleó en 11 personas y los resultados fueron:

40; 31; 50; 40; 52; 44; 74; 38; 81; 64; 66:

Con base en los datos responda lo siguiente:

(a) Calcule desviación media, la varianza y la desviación estándar para el primer tratamiento.

(b) Calcule desviación media, la varianza y la desviación estándar para el segundo tratamiento.

(c) En qué tratamiento hay mayor variación.

(d) Complete un resumen estadístico para cada tratamiento.

(e) Intuitivamente menciona cuál tratamiento es mejor. Interprete tus resultados.

(f) Diagramas de caja.


Capítulo 4

Probabilidad

En esta parte se presentarán los conceptos básicos de probabilidad para conocer sus de…niciones
y las propiedades. En la parte de herramientas en el CalEst en la opción didáctica se describen
una serie de elementos para motivar el aprendizaje y comprensión de la probabilidad. En la
Figura 4.1 se describen estas alternativas.
Con la …nalidad de comprender cómo funciona esta opción didáctica, a continuación se des-
cribirán, de…nirán e ilustrarán algunos de los conceptos básicos en probabilidad.

Objetivo:

Comprender los conceptos de espacio muestral, evento y el cálculos de probabilidad

4.1 Espacio muestral y eventos


Espacio muestral

Para entender lo que es un espacio muestral es necesario de…nir el concepto experimento. Un


experimento es cualquier proceso que genera una observación (por ejemplo, al nacer un bebé se
registra el sexo). Sin embargo, cabe aclarar que el concepto de experimento que mencionamos es
más amplio que el empleado en las ciencias físicas, donde se usan diferentes equipos como tubos
de ensayo, etc. Otros ejemplos de experimentos son: 1. Anotar la preferencia de un cliente por
la marca de un teléfono. 2. Registrar la opinión de una persona respecto a la píldora del día
después. 3. Medir la concentración de oxígeno en un río contaminado. 4. Lanzar un dado y
anotar el número de la cara que queda arriba.

Un experimento aleatorio es el resultado de un proceso que genera una


observación que no puede predecirse.

Se llamarán sucesos aleatorios a los resultados posibles de un experimento aleatorio.

37
38 4. Probabilidad

Figura 4.1: Elementos de probabilidad en el proceso de enseñanza y aprendizaje.

Ejemplo 1

Una experiencia aleatoria consiste en preguntar a una persona, elegida al azar de un grupo de
10 clientes, si es partidaria o no de consumir un determinado producto. Los sucesos aleatorios
en este caso son dos: es partidaria, no es partidaria.

Entre los resultados, se distingue a los sucesos elementales o simples,


pues éstos no pueden descomponerse en otros más simples, y los
compuestos son los que se componen de dos o más sucesos elementales.

Se puede considerar cada suceso elemental asociado a un experimento como un elemento


del conjunto formado por todos los sucesos elementales posibles asociados a ese experimento.

De…nición

A la colección, o al conjunto de todos los resultados posibles distintos que pueden ocurrir
cuando un experimento es efectuado se le llama espacio muestral para el experimento.
Esta colección de resultados tiene la propiedad de que cuando el experimento es
efectuado, uno y solo uno de estos resultados puede ocurrir.
4.1. Espacio muestral y eventos 39

Ejemplo 2

Considere el experimento de lanzar una moneda. Existen dos resultados posibles: cara, sello.
Identi…car los sucesos elementales y escribir el espacio muestral. Usar la opción de volados en
CalEst.

Solución
Los sucesos elementales son: e1 = cara; e2 = sello:

M = fe1 ; e2 g

Nota. En el tradicional juego de volados, los resultados posibles se consideraban el águila y


sol. En la mayoría de libros de estadística y probabilidad contemplan como resultados la cara y
sello. Ambas situaciones son similares, en este trabajo se consideran indistintamente estas dos
opciones.

Ejemplo 3

Las cali…caciones de 50 estudiantes para la materia de literatura se dividen en 5 categorías A, B,


C, D y E. El experimento aleatorio consiste en seleccionar de manera aleatoria a un estudiante
y observar en qué categoría está su cali…cación. Identi…car los sucesos elementales y escribir el
espacio muestral. Proponer un suceso compuesto.

Solución
Los sucesos elementales son 5 resultados posibles: e1 = A; e2 = B; e3 = C; e4 = D; e5 = E: Todos
los resultados posibles para los 50 estudiantes se representan en el conjunto:

M = fe1 ; e2 ; e3 ; e4 ; e5 g

Un suceso compuesto es fe4 ; e5 g , que consta de dos sucesos elementales. En el contexto del
ejemplo se puede referir a que los alumnos que obtengan una cali…cación en las categorías D y
E tienen que entregar un trabajo extra para aprobar el curso. Como analogía a este ejemplo se
pueden usar las ruletas (F), luego seleccionar una ruleta con 5 opciones. En este caso cada una
de las categorías tiene la misma probabilidad de ocurrir. En otro caso usar una de las ruletas
aleatorias (A).
En resumen:
Se dice que un experimento es aleatorio si se cumplen los siguientes puntos:

 Se repite bajo condiciones idénticas.


40 4. Probabilidad

 El resultado observado no se puede predecir.

 El resultado que se obtiene, pertenece a un conjunto conocido previamente de resultados


posibles. A este conjunto, de resultados posibles, se denomina espacio muestral:

Ejemplo 4

Se describen varios casos de experimentos aleatorios, señalando todos sus posibles resultados.

Experimentos aleatorios M: Muestral


Conocer el estado de salud de una persona. {Sano, enfermo}
Observar el tiempo de vida de una lámpara. [0; +1]
Observar el tiempo de vida de un virus. [0; +1]
Contar el número de vehículos que pasan por una caseta
durante un intervalo de 15 minutos. {0; 1; 2:::}
Observar el número de viajeros que usarán el autobús. {0; 1; 2:::}
Contestar al azar un examen. {Verdadero, falso}
Cobrar una póliza de seguro. {Si, no}
Pesar a una persona. (0; 200)*
En un juego de azar tirar un dado de seis caras. {1; 2; 3; 4; 5; 6}

(*) Suponiendo que el peso no es mayor que 200 kg.

Ejemplo 5

En un estudio sobre el hábito de lectura de jóvenes entre los 15 y 20 años se estimó que 50% no
lee un libro (ciencia …cción, divulgación, novela, literario, otros géneros atractivos) durante las
vacaciones de verano. Al regreso a clases se seleccionó de manera aleatoria a tres estudiantes y
se les preguntó si habían leído en las vacaciones. En la raya responde “Sí” o “No” a la siguiente
pregunta: ¿Leíste un libro en estas vacaciones?

 Escriba una lista del espacio muestral Figura 4.2.

 Escriba una lista de los siguientes eventos:

Evento A: Exactamente dos de tres leyeron.


Evento B: Sólo uno leyó.
Evento C: Los tres leyeron.
Evento D: Al menos uno de los tres leyó.
4.1. Espacio muestral y eventos 41

Figura 4.2: Descripción de los posibles resultados en el hábito por la lectura.

Solución

Una de las metas en el estudio de la probabilidad es alcanzar el dominio y la habilidad en la


elaboración de la lista de los resultados del experimento. El diagrama de árbol es un grá…ca que
resulta útil para alcanzar ese …n.
Para comprender el ejemplo se construye un diagrama de árbol. Cada uno de los alumnos
responderá que sí leyó con una (s) y que no leyó por medio de una (n). En la Figura 4.2 se
describen las posibilidades sobre la práctica de lectura de los tres estudiantes.
A partir del diagrama de árbol, tendremos de…nido el espacio muestra, y éste queda
descrito por:

M = f(sss); (ssn); (sns); (snn); (nss); (nsn); (nns); (nnn)g

La segunda parte del ejemplo consiste en obtener los diferentes eventos. Éstos se obtienen
a partir del espacio muestral . De los resultados se construye cada uno de los eventos. Así:
A = f(ssn); (sns); (nss)g
B = f(snn); (nsn); (nns)g
C = f(sss)g
D = f(sss); (ssn); (sns); (snn); (nss); (nsn); (nns)g
Nota 1: En la construcción del espacio muestra de este ejemplo, se puede tener como analogía
el lanzamiento de monedas, ir a la opción de volados para generar el espacio muestra: tres
monedas en este caso. Si cambia el valor de p = 0:5 ir a la opción volados (binomial) y en el caso
de n > 20 ir a la distribución binomial.
Nota 2: Para ver otras rami…caciones ver la opción de árboles.
42 4. Probabilidad

Figura 4.3: Espacio muestral al lanzar un dado y la probabilidad.

De…nición
Un evento es una colección, o el conjunto de alguno de los resultados posibles
de un espacio muestral. Dicho de otra manera, un evento es un subconjunto del
espacio muestra. Se dice que un evento ocurre si, al realizar un experimento, uno
y solo uno de los resultados que lo componen ocurre.

4.2 Probabilidad de un evento


Entre la opción didáctica está el lanzamiento del dado, al seleccionarla se genera una pantalla
como la que se muestra en la Figura 4.3. En ésta se han realizado 250 lanzamientos, la frecuencia
con la que apareció la cara del dado se muestra en el diagrama de barras. Este resultado
permitirá plantear y comprender cómo calcular la probabilidad de un evento. Por ejemplo, se
puede observar que la cara del dado con el número apareció 50 veces de los 250 lanzamientos.

Notación para las probabilidades


P denota la probabilidad
Las letras A, B y C denotan eventos especí…cos
P(A) indica la probabilidad de que el evento A ocurra
4.2. Probabilidad de un evento 43

Probabilidad Empírica
Se realiza un experimento, y se cuenta el número de veces que el evento A ocurre.
La probabilidad empírica del evento A es la frecuencia relativa de A, así P(A) es:

Número de veces que A ocurrió f


P (A) = =
Número de veces que se repitió la prueba N

Lanzamiento dado De la Figura 4.3, considere, por ejemplo, el evento A = fel dado muestre
el número uno}. Se observa que la probabilidad empírica de A es P (A) = 50
250
= 0:2: Si el
experimento de lanzar el dado es repetido una y otra vez, la probabilidad empírica de un evento
se aproxima a la probabilidad teórica del evento.

Lanzamiento moneda Al lanzar una moneda muchas veces, n es grande, se puede observar
una estabilización de la frecuencia relativa, eso da lugar a lo que se conoce como frecuencia
relativa, o la ley de los grandes números. A nivel de práctica puede realizar el lanzamiento de la
moneda en el bloque didáctica del CalEst. Observe que el espacio muestral es M = f
aguila; solg,
se pueden lanzar un número de monedas que va desde una hasta cien, repetir el procedimiento las
veces que se desee. En la Figura 4.4 se ilustra el lanzamiento de 200 monedas. La probabilidad
de obtener un águila P (
aguila) se aproxima a 0.5.

Probabilidad Clásica o Teórica


Se supone que un experimento tiene n diferentes eventos simples y cada uno de estos
tiene la misma posibilidad de ocurrir. Si un evento A ocurre en s de esas n, entonces:

Número de resultados de A s
P (A) = =
Número de resultados en el espacio muestral n
El espacio muestra en lanzamiento del dado es M = f1; 2; 3; 4; 5; 6g el evento A de que la cara
del dado caiga en el número 1: A = f1g; se sigue que P (A) = 1
6
= 0:1666:
En resumen:
La probabilidad satisface las siguientes propiedades:

 La probabilidad de un evento imposible es 0.

 La probabilidad de un evento que tiene una certeza de ocurrir es 1.

 Para cualquier evento A, la probabilidad de A está entre 0 y 1 inclusive, esto es: 0 


P (A)  1:
44 4. Probabilidad

Figura 4.4: Descripción de los resultados del lanzamiento de la moneda.

4.2.1 Eventos compuestos


Un evento compuesto es aquel que se puede expresar como una combinación de otros even-
tos. A continuación se presentan algunos resultados para encontrar la probabilidad de eventos
compuestos.

Regla aditiva

La regla de la adición como un procedimiento para encontrar la probabilidad que se expresa


como P(A o B), la probabilidad que ocurra el evento A o el evento B, o que ocurran ambos,
como el resultado de una sola prueba de un experimento.
Nota. Cuando se calcula la probabilidad de que el evento A ocurre o que el evento B ocurre,
consiste en calcular el total de formas que ocurre A y el de formas que ocurre B, pero de tal
manera que los resultados no se cuenten más de una vez. Regla de la adición:

Regla aditiva
Consideremos dos eventos A y B. Entonces
P (A [ B) = P (A) + P (B) P (A \ B)
donde P (A \ B) denota la probabilidad que A y B ocurren a la vez como un resultado
en la prueba experimental
4.2. Probabilidad de un evento 45

Ejemplo 6

En el lanzamiento de un dado de seis caras considere los siguientes eventos:


A: el dado marque un número impar= {1,3,5}
B: el dado marque un número mayor que 4 = {5,6}
C: el dado marque un número primo = {2,3,5}
Nota. Vea la opción lanzamiento de un dado, Figura 4.3.
¿Cuál es la probabilidad de A [ B; A [ C y B [ C? aplicando la regla aditiva:

3 2 1 4
P (A [ B) = P (A) + P (B) P (A \ B) = + = :
6 6 6 6

Estime los otros dos casos.

De…nición:
Dos eventos A y B son ajenos o mutuamente excluyentes
si entre ellos no hay un resultado común y

P (A \ B) = 0

Regla del complemento

El complemento del evento A se denota por Ac , consiste de todos los resultados en los que el
evento A no ocurre. Así P (A) + P (Ac ) es la suma de las probabilidades, los sucesos elementales
que están en A más la suma de las probabilidades de los sucesos elementales que no est
an en
A. Juntando estos dos eventos se forma el espacio muestral M y P (M ) = 1. En consecuencia,
P (A) + P (Ac ) = 1 .

Regla del complemento


Consideremos a A un evento con probabilidad P (A): Entonces, P (Ac ) = 1 P (A):

Los diagramas de Venn son un auxiliar grá…co para representar un evento. En la Figura 4.5 se
utilizan los diagramas de Venn para representar la relación de eventos.
En el bloque didáctica en CalEst está la opción de lanzar dos dados, en la Figura 4.6
aparece la descripción del espacio muestral, la estimación de probabilidad empírica, el cálculo
de probabilidad clásica para los eventos simples y el casino donde se puede generar varios cál-
culos de probabilidades aplicando las reglas. Por ejemplo, ¿cuál es la probabilidad de que al
lanzar dos dados ambos sean iguales o que la suma sea 7? El evento A ambos dados mar-
que el mismo número, A = f(1; 1); (2; 2); (3; 3); (4; 4); (5; 5); (6; 6)g -observe el espacio muestra
46 4. Probabilidad

Figura 4.5: Representación grá…ca de las relaciones básicas entre dos eventos.

Figura 4.6. El evento B los datos suman 7: B = f(1; 6); (2; 5); (3; 4); (4; 3); (5; 2); (6; 1): Así
P (A [ B) = P (A) + P (B) = 6
36
+ 6
36
= 13 : Los eventos A y B son mutuamente excluyentes.
Se formula la regla para la suma de eventos excluyentes:

Regla aditiva para eventos mutuamente excluyentes


Si los eventos A y B son mutuamente excluyentes, entonces
P (A [ B) = P (A) + P (B)

4.2.2 Independencia y probabilidad condicional


Ahora considere el caso en que dos eventos pueden ocurrir de manera simultánea, y si uno sucede
pero que no afecta la probabilidad de ocurrencia del otro. Es decir, la probabilidad de que ocurra
el evento A no afecta la probabilidad de que suceda B. En este caso, se dice que los eventos A
y B son independientes.
Por ejemplo, si se lanzan dos monedas, el hecho de que la primera caiga cara no afecta
a lo que sucede al lanzar la segunda moneda. Sus resultados son independientes.
La probabilidad de A como la de B es 1
2
de que caiga cara. En ese sentido la probabilidad
de B permanece como 1
2
sin importar lo que pase al lanzar la otra moneda. El espacio muestral
M = fcc; cs; sc; ssg y 1
4
es la probabilidad de que ambas monedas caigan cara A \ B: fccg. Si se
multiplica la probabilidad A por la de B, es decir P (A)P (B), se tiene que es 1
4
. En resumen:

Eventos independientes
La probabilidad de que ocurra el evento A no afecta la probabilidad de que
suceda B. En este caso, se dice que los eventos A y B son independientes:
Si los eventos A y B son independientes, entonces P (A \ B) = P (A)P (B):

Nótese que
4.2. Probabilidad de un evento 47

Figura 4.6: Descripción de elementos de probabilídad al lanzar dos dados.

Diferencia entre eventos mutuamente excluyentes e independientes


 Si los eventos A y B son mutuamente excluyentes, entonces P (A \ B) = 0:
 Si los eventos A y B son independientes, entonces P (A \ B) = P (A)P (B):

4.2.3 Probabilidad condicional


Si los eventos A y B se relacionan, la información que nos proporciona A cuando B ha ocurrido
es importante para mejorar la evaluación de la probabilidad de A. La probabilidad corregida de
A, esto es, cuando se sabe que B ha ocurrido, se llama probabilidad condicional de A dado B y
se denota por P (AjB).

La probabilidad condicional de un evento A dado que un evento B ha ocurrido se establece


dividiendo la probabilidad de que A y B ocurren entre la probabilidad de que B ocurrió,
esto es, se debe veri…car que es, P (B) es diferente de cero.

P (A \ B) P (B \ A)
P (AjB) = ; o P (BjA) = :
P (B) P (A)
48 4. Probabilidad

Figura 4.7: Espacio muestra y cálculo de probabilidades para una moneda y un dado

Si los eventos son independientes se tiene:

P (AjB) = P (A), o si P (BjA) = P (B):

Una moneda (cara, sello) y un dado de seis caras son lanzados, Figura 4.7. Encontrar la
probabilidad de obtener una cara al lanzar la moneda y que el dado caiga en seis. El espacio
muestra es:
M = fc1; c2; c3; c4; c5; c6; s1; s2; s3; s4; s5; s6)

Los eventos son A: salga cara y B : caiga un 6. La probabilidad de A es P (A) = 1


2
; y
P (B) = 16 : Los eventos son independientes, entonces

1 1 1
P (A y B) = P (A)P (B) =  = ' 0:083
2 6 12

Así la probabilidad de que al lanzar la moneda salga cara y al tirar el dado marque 6 es aproxi-
madamente 0.083.

Cálculo de probabilidades lanzando dado con diferentes número caras

En la Figura 4.8 se muestra una opción para el cálculo de probabilidades, en esta se tienen tres
dados. Con el signo más se considera los dados que se lanzan, así por ejemplo en esa …gura se
describe el lanzamiento de dos dados, uno de cuatro lados y otro de 12, existen 48 posibilidades
4.2. Probabilidad de un evento 49

Figura 4.8: Lanzamiento de tres tipos de dados

diferentes al lanzar estos dos dados, como se ve en la Tabla 4.1.

1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12 13
2 3 4 5 6 7 8 9 10 11 12 13 14
3 4 5 6 7 8 9 10 11 12 13 14 15
4 5 6 7 8 9 10 11 12 13 14 15 16

Tabla 4.1 Suma al lanzar los dados de 4 y 12 caras.

En la hoja se presenta el espacio muestra que indica la suma de los números que marcan los
dados. En este caso se puede preguntar por la probabilidad de que la suma de los dados sea un
número primo, es decir P (la suma sea un número primo) = 19
48
:
Usando estos dados se pueden organizar varias prácticas para el cálculo de probabilidades.
Nota. Apretando el signo más con el botón del ratón, se activa un dado, con el signo menos
se quita el dado.

Ejemplo 7.

Se lanza de manera independiente dos dados, el primero de 4 caras y el segundo de doce caras,
en ambos casos se observa el número que cayó.
50 4. Probabilidad

 ¿Cuál es la probabilidad de que el primer dado muestre un número par? P (n


umero
2 1
par) = 4
= 2

 ¿Cuál es la probabilidad de que el segundo muestre un número impar? P (n


umero par) =
6 1
12
= 2

 ¿Cuál es la probabilidad de que la suma sea impar? P (n


umero impar) = 24
48
= 12 :

Ejercicio 1

a.- Se lanza un dado de seis caras. encuentre la probabilidad en cada uno de los siguientes
eventos
b.- Evento A: Caiga un 3,

c.- Evento B: Caiga un número menor que 5

d.- Evento C: Caiga un número impar.

e.- Evento D: Caiga un número primo.

f.- Use el simulador de lanzamientos de dados en CalEst, sólo se pueden lanzar de 100 en 100.
Si se lanza un dado, cien veces, mil veces, cinco mil veces escriba las frecuencias registradas
y complete la tabla, ¿qué puede concluir?

X 1 2 3 4 5 6
F recuencia(100)
F recuencia(1000)
F recuencia(5000)

Ejercicio 2

Considere el experimento de lanzar un par de dados, suponga que X es la suma de los valores que
marcan al caer. En la siguiente tabla se resumen los resultados y las probabilidades relacionadas.

X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
P (X = x) 36 36 36 36 36 36 36 36 36 36 36

a.- Use la opción de grá…cas en el programa y trace el diagrama de barras para estos valores.
Estime las probabilidades P (X  11) y P (X  2):

b.- Considere los eventos E obtener una suma que sea un número par y F obtener una suma que
sea un número primo. Hallar la probabilidad P (E [ F ) y P (E [ F ):
4.2. Probabilidad de un evento 51

c.- Use el simulador de lanzamientos de dados en CalEst, sólo se pueden lanzar de 100 en 100.
Si se lanza el par de dado, cien veces, mil veces, cinco mil veces escriba las frecuencias
registradas y complete la tabla, ¿qué puede concluir?

X 2 3 4 5 6 7 8 9 10 11 12
F recuencia(100)
F recuencia(1000)
F recuencia(5000)

Ejercicio 3

El juego craps consiste en lanzar dos dados, referencia ejercicio anterior, este considera las reglas
que a continuación se describen.

a.- Si se obtiene una suma de 7 u 11 en la primera tirada, gana. ¿Cuál es la probabilidad de


ganar en la primera tirada?

b.- Si se obtiene una suma de 2, 3 o 12 en la primera tirada se pierde el juego. ¿Cuál es la


probabilidad de perder en la primera tirada?

c.- Si se obtiene una suma de 4, 5, 6, 7, 8, 9, o 10 en la primera tirada ni se pierde ni se gana el


juego. ¿Cuál es la probabilidad de que no se pierde ni se gana en la primera tirada?

d.- ¿Cuál es la probabilidad de obtener una suma de 1 en cualquier tirada?

e.- ¿Cuál es la probabilidad de obtener una suma menor que 13 en cualquier tirada?

f.- Si los dados se tiran 60 veces, estime cuántas veces se obtendrá una suma de 7?

Ejercicio 4.

Se lanzan dos dados y se calcula la diferencia entre los valores de mayor a menor situación que
se describe en la siguiente tabla:

X 0 1 2 3 4 5
6 10 8 6 4 2
P (X = x) 36 36 36 36 36 36

a.- Use la opción de grá…cas en el programa y trace el diagrama de barras para estos valores.
Estime las probabilidades P (X  5) y P (X  1):

b.- Pedro y Pablo juegan a los dados y calculan la diferencia tal como se ha descrito. Pedro gana
si la diferencia es 0, 1, o 2. Pablo gana si la diferencia es 3, 4 o 5. ¿Cuál es la probabilidad
de que Pedro gane? ¿Cuál es la probabilidad de que Pablo gane?
52 4. Probabilidad

Ejercicio 5.

Se lanza de manera independiente dos dados, el primero de 4 caras y el segundo de 6 caras, en


ambos casos se observa el número que cayó. Complete la siguiente tabla tal que en el segundo
renglón se calcule la probabilidad de la suma de los valores que muestra cada dado.

X 2 3 4 5 6 7 8 9 10
P (X = x)

 ¿Cuál es la probabilidad de que el primer dado muestre un número par? P (n


umero par) =

 ¿Cuál es la probabilidad de que el segundo muestre un número impar? P (n


umero impar) =

 ¿Cuál es la probabilidad de que la suma esté entre 4 y 8?

Ejercicio 6.

Se lanza de manera independiente dos dados, el primero de 6 caras y el segundo de 12 caras, en


ambos casos se observa el número que cayó. Complete la siguiente tabla tal que en el segundo
renglón se calcule la probabilidad de la suma de los valores que muestra cada dado.

X 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
P (X = x)

 Sea E el evento que el primer dado sea mayor que 3, calcule P (E).

 Sea F el evento que el segundo dado sea múltiplo de 3, calcule P (F ).

 ¿Cuál es la probabilidad de que la suma esté entre 4 y 12?

 ¿Cuál es la probabilidad de que la suma sea menor a 4 o mayor a 16?

Cálculo de probabilidad con ruletas

A continuación se presenta la posibilidad de el cálculo de probabilidades usando ruletas. En la


Figura 4.9 se muestra la oportunidad de dividir dos ruletas con diferentes opciones esto permite
crear varias prácticas para obtener probabilidades con colores, números y letras. En la Figura
4.10 se crean situaciones similares, pero además la división de los círculos se puede generar de
manera aleatoria. En este caso se genera la frecuencia al girar las ruletas lo que permite estudiar
la regularidad estadística y así estimar probabilidades en términos de la frecuencia.
4.2. Probabilidad de un evento 53

Figura 4.9: El caso de dos ruletas con cuatro colores, también se puede considerar el caso de la
combinación de números y letras.

Ejemplo 8

 ¿Cuál es la probabilidad de que ambas ruletas tengan el mismo color? Se tienen que se
repiten 4 colores de 16 resultados posibles entonces P (E : mismo color) = 4
16
= 0:25

 ¿Cuál es la probabilidad de que al menos una de las ruletas sea azul? En el espacio muestra
se cuenta en el número renglones que tienen al menos un azul, de estos hay 7, así P (F : al
menos una es azul) = 7
16
= 0:4375

 Considere los números y las letras en la primer y segunda ruleta respectivamente, ahora
se de…nen los evento E como los números: E = f1; 2; 3; 4g; y el F como las letras: F =
fA; B; C; Dg. ¿Cuál es la probabilidad de que al girar ambas ruletas la ‡echa marque un
número par y una consonante? R: rojo y A: amarillo corresponden a los números pares
y R: rojo, V: verde y A: amarillo se asocian a las consonantes, de esa manera se tiene
H = f(R; V ); (A; A); (R; A); (A; R); (R; R); (A; V )g de manera equivalente el evento H se
escribe por H = f(2; C); (4; D); (2; D); (4; B); (2; B); (4; C)g. Entonces la probabilidad es
0.375, o sea P (H) = 0:375
54 4. Probabilidad

Ejercicio 7

Use la opción de ruletas, considere sólo una de ellas y divídela en nueve partes iguales. Tome
en cuenta los números en cada color y sean los eventos E: obtener un número par y G: obtener
un número divisible entre 3, es decir: E = f2; 4; 6; 8g; G = f3; 6; 9g: Calcule las siguientes
probabilidades: a.- P (E [ G); b.- P (E); c.- P (E \ G); d.- P (Factor de 35); e.- P (6 o 2):

Ejercicio 8

Utilizar las ruletas de la opción 1, con cuatro grupos cada una de ellas. Supóngase que se asignan
los valores 3 al azul, 4 al rojo, 5 al verde, 6 al amarillo. Se plantea construir una fracción, para
ello realice el siguiente experimento, el valor que marque la ‡echa en la ruleta superior póngalo
en numerador y el valor que marque la otra ruleta póngalo en el denominador. ¿Cuál es la
probabilidad de que la fracción sea mayor que 32 ?

Ejercicio 9

Con las ruletas: Un experimento consiste en girar la ruleta superior dividida en cuatro considere
los números 1, 2, 3 y 4, después gire la ruleta de abajo donde el azul o letra A vale 1 y el rojo o
letra B vale 2. ¿Cuál es la probabilidad de que a.- el número en la ruleta superior sea mayor que
en la ruleta inferior, b.- en ambas ruletas sea un número par, c.- el resultado sean dos enteros
consecutivos en cualquier orden?

Ejercicio 10

En referencia a las dos ruletas se divide cada una de ellas en 3 grupos, a los colores se les asignan
valores como se indica a continuación: en la ruleta de arriba los colores azul, verde y rojo valen
4, 8 y 6 respectivamente, de manera equivalente en la ruleta de abajo los colores azul, verde y
rojo valen 10, 3 y 5. Se plantea realizar un juego, este consiste en que la ruleta que tenga el
número mayor gana, si se desea ganar ¿Qué ruleta escogería? ¿Por qué?

Ruleta 2
Ejercicio 11

Relacionada con la Figura 4.10 a.- ¿Cuál es la probabilidad que al girar ambas ruletas la ‡echa
marque el color negro en la primera y color verde en la segunda? b.-¿Cuál es la probabilidad de
que la primer ruleta no se detenga en el negro? c.- ¿Cuál es la probabilidad de que en la segunda
ruleta no pare en el verde? d.- ¿Cuál es la probabilidad de que ambas ruletas la ‡echa marque
4.2. Probabilidad de un evento 55

Figura 4.10: Ruletas con varias opciones para el cálculo de probabilidades.

azul? e.- ¿Cuál es la probabilidad de que en la primera ruleta se pare en amarillo o la segunda
se detenga en verde?

Ejercicio 12

Use esta segunda opción de ruletas en el programa, seleccione en la primera ruleta 2 grupos y en
la segunda 3 grupos en ambos casos idénticos.

1. Halle el espacio muestra para este experimento.

2. Calcule las siguientes probabilidades de que a.- La primera sea roja y la segunda amarilla.
b.- La segunda no sea amarilla. c.- La primera sea azul y la segunda no sea amarilla. d.-
Ambas rojas.

3. 2.- Luego en el número de tiradas vaya haciendo de cien en cien hasta completar quinientos,
en cada caso observe la tabla de frecuencias utilice la última para estimar las probabilidades.
Estime la probabilidad, frecuencia de que a.- La primera sea roja y la segunda amarilla.
b.- La segunda no sea amarilla. c.- La primera sea azul y la segunda no sea amarilla. d.-
Ambas rojas.

4. Compare sus resultados 2 y 3.


56 4. Probabilidad

Ejercicio 13

Con la segunda opción de ruletas, dibuje las siguientes ruletas la superior con tres grupos el azul
con 59 ; el rojo con 2
9
y el verde con 29 : La segunda ruleta con dos grupos el azul con 6
11
y el rojo
con 5
11
:

1. ¿Cuál es la probabilidad de que al girar ambas ruletas la ‡echa se detenga en azul?

2. ¿En cuál de ellas tiene mayor posibilidad de que la ‡echa marque azul?

3. Gire varias veces la ruleta, digamos unas 600 veces y vea la tabla de frecuencia, ¿qué ruleta
tiene mayor posibilidad de ganar con el azul?

Ejercicio 14

Utilizando la segunda opción de las ruletas simule la situación de lanzar dos dados, es decir,
divida las ruletas en 6 partes iguales cada una. Luego gire varias veces de cien en cien y vea
las frecuencias generadas compare estos resultados con el lanzamiento de los datos. En este
caso se pueden buscar varias situaciones para generar cálculo de probabilidades, por ejemplo la
probabilidad de que una de las ruletas sea roja y la otra azul, o una azul y la otra roja, equivale
a la probabilidad de que la suma de los dados sea tres.

Probabilidades usando rami…caciones


Se presenta una serie de rami…caciones para el cálculo de probabilidades, en cada caso se aplica
la estimación de probabilidades aplicando las de…niciones tanto clásica como frecuentista, Figura
4.11. En esta …gura se muestra una entrada con tres salidas, en la primera división la canica
tiene una probabilidad de continuar de 12 , este valor prevalece si va por la rama de la derecha,
por la izquierda se encuentra con otra rami…cación; de nuevo la probabilidad es 12 ; entonces la
probabilidad de salida por algunas de esas ramas 1 o 2, es 1
2
 1
2
= 14 : En la ilustración de la
Figura 4.11 se lanzaron 300 canicas, 79 salieron por la rama 1, 77 por la rama 2 y 144 por la rama
3, así 79
300
73
= 0:2633(26:33%); 300 = 0:2567(25:67%) y 144
300
= 0:48(48%): Estos resultados tienden
al valor de la probabilidad cuando n es cada vez más grande.

Ejercicio 15

1. Simule salidas por las 5 árboles diferentes y estime el porcentaje de salidas al lanzar la
canica, 300, 1000, 2500, 5000 veces. ¿Qué observa?

2. Calcule la probabilidad de salida en cada unos de los árboles.


4.2. Probabilidad de un evento 57

Figura 4.11: Opciones de cálculo usando árboles o ramas

Probabilidades mediante extracción de canicas

El cálculo de probabilidades mediante la extracción de canicas, o bolas, es un problema clásico,


bajo este sistema se generan una buena cantidad de ejemplos para ilustrar las reglas de probabi-
lidad y situaciones diferentes. Se ha simulado un mecanismo mediante el cual se pueden extraer
canicas con cuatro colores distintos, se consideran los casos de reemplazo y sin reemplazo. Un
número de canicas se pueden seleccionar en cuatro selecciones posibles, se puede ir de lo más
sencillo a lo más complejo. Una vez planteado un problema, se realiza la extracción de un número
establecido de canicas con reemplazo o sin reemplazo; de esa manera el usuario puede indicar
de qué color serán las canicas que extraerá. Según el planteamiento, el usuario puede dar su
resultado y luego con…rmarlo con la solución que se proporciona en el programa de opciones
didácticas: bolsa de canicas. Antes de dar el resultado se puede consultar el espacio muestra
que se proporciona, de manera compacta, como una alternativa. En los siguientes ejemplo se
describen algunos casos posibles para usar las bolsas de canicas. Con canicas de dos colores se
puede simular el espacio muestra para los casos en que la variable aleatoria de respuesta tiene
dos valores: éxito y fracaso, defecto y no defecto. Así por ejemplo al lanzar dos monedas tres
veces, se pueden tener tres canicas amarillas y tres rojas, con el amarillo representar la cara en
la moneda y el rojo el sello. El número de extracción son tres canicas y calcular la probabilidad
de que caigan al menos una cara es equivalente a observar al menos una canica amarilla. Estas
ideas se pueden llevar al plano de problemas reales.
58 4. Probabilidad

Figura 4.12: Bolsa de canicas y cálculo de probabilidades izquierda, número de posibilidades


derecha.

Ejemplo 9

Javier invitó a tres amigos a jugar Wii, cada uno de ellos llevaba una gorra al entrar se la quitaron
y la pusieron en una silla. Cuando terminaron de jugar, Javier les dió una gorra, al azar, a cada
uno de sus amigos. ¿Cuál es la probabilidad de que los tres recibieron su gorra? Para resolver
este ejemplo se usará la bolsa de canicas que viene en el grupo Didáctica del programa. Ahí
escogemos tres como se muestra en la Figura 4.12 a la izquierda para representar cada una de
las gorras.
Sugerencia para usar esta opción, aparecen el número de canicas a extraer sin reemplazo o con
reemplazo. Por ejemplo, si selecciona extraer 3 canicas, aparecerán tres signos de interrogación,
este le permite seleccionar una de las posibles alternativas. Aparece la elección para que usted dé
su respuesta o para ver la probabilidad que se describe en el cuadro del resultado. La opción de
espacio muestra, en este caso, indica todas las posibilidades de seleccionar el número de canicas
que se pueden sacar. Para el ejemplo de las 3 canicas éste se describe a la derecha de la Figura
4.12, la extracción se hizo sin remplazo. Primero usted puede dar su respuesta de probabilidad
y luego compararla al aplicar la opción ver probabilidades, estas se presentan en el cuadro de
resultados.
La probabilidad de que los tres amigos recibieron su gorra es 1
6
= 0:167: Razonamiento:
suponga que A: canica azul (gorra amigo 1), R: canica roja (gorra amigo 2) y V: canica verde
(gorra amigo 3). En la primera extracción cada una de las tres canicas tienen la misma posibilidad
de salir, una vez seleccionada una de estas en la segunda sólo hay dos canicas, …nalmente en la
4.2. Probabilidad de un evento 59

Figura 4.13: ARV todos reciben su gorra ( 16 ), al menos uno tiene su gorra ( 36 ), o nadie tiene la
gorra que traía ( 26 ).

tercera sólo una se puede escoger, situación que se describe en la Figura 4.13

Ejercicio 16

Se tiene una bolsa con tres canicas de color A: azul. R: rojo, V: verde, considere un experimento
en dos etapas como sigue: se extrae una canica de la bolsa y se registra el color. Después se
repone la canica en la bolsa, se hace una segunda extracción y se registra su color. Haga un
diagrama de árbol para representar esta situación, veri…que sus resultados con los presentados
en el espacio muestra descrito en CalEst.
Determinar la probabilidad de que a.- ambas canicas sean rojas, b.- ninguna canica sea roja,
c.- al menos una canica sea roja, d.- a lo sumo una canica sea roja, e.- ambas canicas sean del
mismo color.

Ejercicio 17

Una bolsa contiene 5 canicas amarillas, 10 canicas rojas. Se extraen dos canicas al azar, una
después de otra sin reemplazo. ¿Cuáles son los posibles resultados de este experimento? ¿Cuál
es la probabilidad de que se extraigan dos canicas amarillas? Puesto que las canicas se extraen
al azar, todas las canicas de la bolsa tienen la misma probabilidad de que salgan en cualquier
extracción. Hay 15 canicas P (1er: canica amarilla) = 5
15
; P (2da: canica amarillaj 1era: canica
amarilla) = 4
14
60 4. Probabilidad

Solución
Usando la opción canicas en el programa, se tiene:

f(A; A); (A; R); (R; A); (R; R)g

P (A; A) = P (1er: canica amarilla)  P (2da: canica amarilla j 1er:canica amarilla) =


5 4 1 2 2
 =  =
15 14 3 7 21

¿Cuáles son las probabilidades P (A; R); P (R; A); P (R; A) y P (R; R)?
¿Cuáles son las probabilidades P (A; A); P (A; R); P (R; A) y P (R; R)?
Si la extracción es con remplazo.
¿Cuáles son las probabilidades P (A; R); P (R; A); P (R; A) y P (R; R)?
¿Cuáles son las probabilidades P (A; A); P (A; R); P (R; A) y P (R; R)?

Ejercicio 18

Suponga que tiene dos bolsas, la primera contiene 3 canicas azules, 2 canicas rojas y 1 canica
verde. La segunda bolsa contiene 4 canicas rojas, 2 canicas verdes y ninguna azul. Además se
tiene un dado de seis caras.
Haga el siguiente experimento, lance el dado, si este cae 1 o 6 saque una canica de la bolsa
1. En caso contrario saque una canica de la bolsa 2.
Complete las probabilidades en la siguiente Tabla:

Color canica
Azul Roja Verde Suma
Bolsa 1 ? ? 1
18
1
3
Bolsa 2 0 4
9
? ?
Suma 1
6
? ? 1

¿Cuál es la probabilidad de que venga de la bolsa 1, si la canica es roja, es decir: P (bolsa


1j R)?
Encuentre las siguientes probabilidades condicionales a: P (bolsa 2 j R); b: P (bolsa 1j A);
c. P (bolsa 2 jAzul), d: P (bolsa 2 j V ):

Ejercicio 19

Una bolsa contiene 3 canicas rojas, 4 canicas azules y 5 canicas verdes.

1. (a) ¿Cuál es la probabilidad de sacar al azar una canica roja?


4.3. Principios básicos de conteo 61

(b) ¿Cuál es la probabilidad de sacar al azar una canica que no sea roja?

(c) ¿Cuál es la probabilidad de que la canica sacada al azar sea azul o verde?

Ejercicio 20

1. Considere el problema de extraer dos canicas al azar, sin reemplazo, de una bolsa que
contiene dos canicas rojas y tres amarillas. Liste el espacio muestra y los resultados de los
siguientes tres eventos: A = fAmbas canicas son rojasg, B = fla primer canica es roja y la
segunda canica es amarillag y C = funa de la canicas es rojag: Encuentre las probabilidad
de cada uno de los eventos A; B y C:

2. Suponga, una bolsa contiene 3 canicas rojas y 2 verdes. Se toman 3 canicas sacando una
a una sin reemplazo. ¿Cuál es la probabilidad de que las 3 sean rojas? Idea: De…na los
eventos A1 : la primer canica es roja. A2 : la segunda canica es roja y A3 : la tercer canica
es roja. Entonces calcule: P (A1 \ A2 \ A3 ):

Ejercicio 21

De una urna que contiene 6 pelotas blancas y 5 negras, se toman dos pelotas de forma aleatoria.
¿Cuál es la probabilidad de que una de las pelotas tomadas sea blanca y la otra negra?
65
110
+ 56
110
= 0:2727 + 0:2727 = 0:5454 o 65
11:10
= 30+30
110
= 6
11

Solución

Hay 11 pelotas, si se saca una quedan 10; así el número de posibilidades diferentes de extraer
una, dos bolas es 11  10 = 110
Se puede generar una serie de problemas previos para que los estudiantes puedan deducir
estos resultados.

4.3 Principios básicos de conteo


Existen varias técnicas para contar el número de las diferentes maneras en las que un evento
puede ocurrir. Una de ellas es el principio básico de conteo. Se puede usar este principio para
encontrar el número de las diferentes maneras que dos o más eventos pueden ocurrir. En el grupo
de herramientas en CalEst se presenta la opción para realizar los cálculos de estos principios,
como se muestra en la Figura 4.14
62 4. Probabilidad

Figura 4.14: Opciones para usar los principios básicos de conteo.

Principio básico de conteo:


Si se van a realizar 2 experimentos, tales que el primero puede tener cualquiera de
n1 resultados posibles, y si para cada uno de estos n1 resultados posibles hay para el
segundo experimento n2 resultados posibles, entonces hay un total n1  n2 resultados
posibles en los 2 experimentos. Esta regla se puede extender para m experimentos,
así hay un total de n1  n2  :::  nm resultados posibles.

Ejemplo 10.

1. Un restaurante de comida rápida, vende helados de tres marcas comerciales diferentes


(mc1 ; mc2 ; mc3 ) en dos tamaños de cono (pequeño y grande) y cuatro sabores diferentes
(chocolate, vainilla, fresa y limón) ¿De cuántas maneras diferentes se puede comprar un
helado?
n1  n2  n3 = 3  2  4 = 24

2. Las placas para que un automóvil pueda circular en un estado, está compuesta por tres
letras y cuatro números, estas están ordenadas de la siguiente forma, la primera letra es …ja,
la segunda posición se tienen seis letras y veintidós en la tercer letra, si el primer número
4.3. Principios básicos de conteo 63

no puede ir el cero ¿Cuántas placas se tienen?

1  6  22  9  10  10  10 = 1188000

Nota: Esta es la presentación que aparece en CalEst para aplicar las técnicas de conteo.
Cuando se llenan las casillas calcula todas las técnicas, se selecciona sólo la que se tiene in-
terés.
la Figura 4.14 se describe el cálculo, usando principio básico de conteo (principio de multi-
plicación). En la Figura 4.15 se ilustra el caso de las placas, a la vez aparece el cálculo del
factorial en este caso el de 7!

3. ¿De cuántas maneras distintas se pueden ordenar las letras A,B,C? se puede aplicar el
principio básico de conteo para determinar el número de las diferentes maneras en las que
n objetos se pueden acomodar en orden. Así:

ABC; ACB; BAC; BCA; CAB y CBA

En este caso se dice que hay 6 posibles permutaciones para un conjunto de 3 objetos,
aplicando el principio básico: El primer objeto de la permutación puede ser cualquiera de
los 3, después el segundo objeto puede ser cualquiera de los 2 restantes y el tercer objeto
es el que falta. De esa manera existen 3  2  1 = permutaciones posibles. En general para
n objetos se tiene:
n  (n 1)  (n 2)  :::  2  1

Esta opción se conoce como n factorial y se denota por n!:

Permutación
Una importante aplicación del principio de conteo es la determinación del número de maneras
diferentes en que m objetos se pueden arreglar en orden o en permutaciones.

Una permutación es un arreglo ordenado de objetos.


El número de diferentes permutaciones de n objetos distintos es n!

Si se desea escoger algunos de los objetos en un grupo y ordenarlos, a ese ordenamiento se


llama una permutación de n objetos tomados k veces.

Permutación de n objetos tomando k a la vez.


El número de permutaciones de n objetos distintos tomando n a la vez es:
n!
n Pk = (n k)! ;donde k  n
64 4. Probabilidad

Figura 4.15: Principio de multiplicación para el ejemplo del número de placas

Ejemplo 11

1. Encontrar el número de maneras diferentes de formar un código de tres dígitos, en el que


ningún dígito se repite.

Solución
Para formar un código de tres dígitos sin que ninguno de ellos se repita, se necesita seleccionar
3 dígitos de un grupo de 10, así r = 10 y k = 3:

10! 10!
n Pr =10 P3 = = = 720
(10 3)! 7!

2. De los 20 coches que compiten en una carrera de Fórmula 1. ¿De cuántas maneras distintas
pueden los carros …nalizar primero, segundo y tercero?

Solución
En este caso n = 20 y r = 3; ilustrado en la parte superior de la Figura 4.16.

20!
20 P3 = = 6840
(20 3)!
4.3. Principios básicos de conteo 65

Figura 4.16: Cálculos para la permutación y combinación

Combinaciones.
A continuación se presenta otra técnica en el conteo, la característica de ésta, es que no considera
el orden de selección.

Combinación de n objetos tomando k a la vez.


Una combinación es una selección de k objetos de un grupo de
n objetos sin considerar el orden y se denota por n Cr : El número
de combinaciones de k objetos
 seleccionados de un grupo de n
n
n Cr = (n k)!k! o n Cr = r
n!

Ejemplo 12

1. Se desean comprar 3 CDs de una selección de 5 CDs. Para …jar ideas denote los CDs, por
A, B, C, D, y E.

Solución.
ABC, ABD, ABE
ACD, ACE
ADE
66 4. Probabilidad

BCD, BCE
BDE
CDE
Observe que es lo mismo seleccionar ABC que BAC, así en los demás casos. El cálculo se
muestra en la parte de la Figura 4.16.

5!
5 C3 = = 10
(5 3)!3!

Principio Descripción Fórmula


Principio básico Si un evento puede ocurrir de n1 maneras distintas n1  n2
de conteo y un segundo evento ocurre de n2 maneras distintas,
el número de resultados posibles es n1  n2

Permutaciones En número de arreglos ordenados de n objetos n!


distintos.
El número de permutaciones de n objetos distintos n Pk = n!
(n k)!
tomados k a la vez, donde k  n

Combinaciones El número de combinaciones de k objetos selecciona- n Ck = n!


(n k)!k!
dos de un grupo de n objetos sin considerar el orden

Aplicaciones del principio de Conteos

Ejemplo 13

1. Encontrar la probabilidad de que sea n seleccionado 5 diamantes en un juego de cartas en


una partida de póker. El espacio muestra es 52 C5 y el evento es 13 C5 entonces la probabilidad
de un diamante es:

13 C5 1285
P (diamante) = =
52 C5 2 598 960

Ejemplo 14

Un subdirector de una escuela ha recibido una lista de 12 alumnos distinguidos por su buen rendi-
miento escolar, tiene que seleccionar 4 estudiantes para formar un comité de representación. La
lista está compuesta por 5 mujeres y 7 hombres.

1. ¿De cuántas maneras se pueden seleccionar 4 estudiantes de la lista de 12?


4.3. Principios básicos de conteo 67

2. ¿Cuántos posibles selecciones se incluyen 1 hombre y 3 mujeres?

3. Si el proceso de selección es aleatoria. ¿Cuál es la probabilidad de que 1 hombre y 3 mujeres


sean seleccionados?

Solución
1. El número de maneras en los que 4 estudiantes se pueden seleccionar de 12 es:
 
12 12!
= = 495
4 4!8!

7
 5

2. Un hombre se puede escoger en 1
= 7 maneras y 3 mujeres se pueden escoger en 3
= 10:
Cada uno de los 7 hombres puede acompañar a cada una de las 10 seleccionadas de 3
mujeres. Razonando por la regla de conteo m  n; se concluye que el número posible de
muestras es:
   
7 5
 = 7  10 = 70
1 3

3. Suponga que las 495 posibles son igualmente probables. De estos 70 son casos favorables
para el evento A = f1 estudiante es hombre y 3 son mujeresg; así:

5

70 2 10
P (A) = = 5 = = 0:3125
495 2 32
68 4. Probabilidad
Capítulo 5

Distribuciones de probabilidad discretas

Galería de distribuciones
En general, resulta poco práctico estudiar un proceso o investigar sobre un tema especí…co
en toda una población sobre todo cuando los componentes de ésta son muy numerosos. Por
ejemplo, supongamos que se desea saber en una ciudad el estado civil (soltero, casado, divorciado,
unión libre) de las personas que trabajan de meseros en restaurantes de una ciudad, por lo que
recurrimos a examinar una muestra e inferir de la población entera a partir de la muestra.
Debido a que las predicciones o decisiones que formulamos sobre una población, con apoyo de
la información muestral, genera un grado de incertidumbre, ésta se expresa en probabilidades.
Para el caso de los meseros puede ser de interés estudiar si la probabilidad de divorcio es alta.
Una población consiste en una colección de individuos u objetos a lo que se les observa una
característica particular que será objeto de estudio.
El principio de la distribución de probabilidad resulta al considerar un experimento aleatorio,
y al preguntarnos acerca de los eventos posibles y sus respectivas probabilidades. Hay dos tipos
de distribución de probabilidad y son de importancia en muchas áreas del conocimiento; éstas
son las distribuciones discretas y continuas. Las primeras se derivan de las variables aleatorias
discretas, tales como el número de llamadas telefónicas que se reciben por quejas, el número de
respuestas contestadas de manera correcta en un examen, el número de artículos defectuosos,
etcétera. Las distribuciones continuas se generan a partir de variables aleatorias continuas;
ejemplos de este tipo de variables son el periodo de vida de una batería, el promedio de las
cali…caciones al …nalizar un ciclo escolar o el coe…ciente intelectual de una persona.
Se ha presentado el concepto de espacio muestral en el capítulo anterior, y tanto los problemas
como ejemplos que se explican en esta unidad toman en cuenta esa idea para indicar cómo surgen
la variable aleatoria y su distribución de probabilidad.
Con el …n de conocer y estudiar las distribuciones CalEst muestra varias distribuciones que
son muy importantes en el estudio cuantitativo de las investigaciones. En la Figura 5.1 se
describen esta serie de distribuciones. En todas se cuenta con un calculador estadístico que

69
70 5. Distribuciones de probabilidad discretas

Figura 5.1: Distribuciones de probabilidad disponibles en CalEst

resulta relevante puesto que le permite el cálculo de probabilidades y de modo inverso dada una
probabilidad se establece el valor de la variable..

5.1 Distribuciones de probabilidad Discretas


En muchos estudios, un evento experimental -también llamado ensayo o prueba- es frecuente que
se restringe a dos posibles resultados, usualmente denominados éxito e y falla f .

Por ejemplo, un selección aleatoria de un producto se clasi…ca en defectuoso o no defectuoso.


En un tratamiento médico, a una persona se le suministra una medicina y el resultado se alivió
o no se alivió.

Los resultados de un experimento en probabilidad es a menudo un conteo o una medición.


Cuando esto se realiza, al resultado se le conoce como variable aleatoria.

Variable aleatoria.

Una variable aleatoria x representa un valor numérico asociado con cada resultado
de un experimento de probabilidad

Existen dos tipos de variable aleatoria: discreta y continua en este apartado se verán las dis-
tribuciones relacionadas con la variable discreta.
5.1. Distribuciones de probabilidad Discretas 71

Variable discreta.

Una variable aleatoria x es discreta si este tiene un número …nito o contable de posibles
resultados, los que presentan en una tabla.

5.1.1 Distribución Bernoulli


Una distribución Bernoulli se de…ne como una acción que produce uno de dos resultados posibles.
Suponga que esos resultados, llamados éxito y falla, tiene probabilidad p y (1 p) respectivamente.
Entonces la variable número de éxitos en un ensayo Bernoulli tiene una distribución Bernoulli
con parámetro p. Esta distribución se resume como:

Número de éxitos 0 1
Probabilidades 1 p p

La distribución de Bernoulli se expresa como una función de probabilidad, P (x) como sigue:

P (x) = px (1 p)1 x
para x = 0; 1 (5.1a)

La expresión (5.1a), P (x) es la probabilidad de tener x éxitos en una prueba Bernoulli. Clara-
mente x puede ser 0 o 1, así:

p para x = 1
P (x) =
1 p para x = 0

La media y la varianza para la distribución Bernoulli son:

media  = p varianza  2 = p(1 p)

5.1.2 De…nición de una distribución de probabilidad discreta


A cada valor de una variable aleatoria discreta se le asigna una probabilidad. Se elabora una
tabla de cada valor de la variable aleatoria con su probabilidad correspondiente, así se tiene una
distribución de probabilidad.

Distribución de probabilidad discreta.

Una distribución de probabilidad discreta se presenta una tabla con cada valor que
la variable aleatoria puede tomar, conjuntamente con su probabilidad.

Una distribución de probabilidad satisface las siguientes condiciones:


72 5. Distribuciones de probabilidad discretas

1. La probabilidad de cada valor de la variable aleatoria 0  P (x)  1


discreta está entre 0 y 1, incluyéndolos P
2. La suma de todas las probabilidades es igual a 1 P (x) = 1

5.1.3 Distribución Binomial


Si se realizan una serie de n ensayos Bernoulli independientes, entonces la variable aleatoria
número de éxitos en n ensayos tiene una distribución Binomial con parámetros n y p, una
descripción de esta distribución es B(n; p).
A la serie de realizaciones se le conoce como experimento binomial y se debe veri…car las
siguientes condiciones:

 Existe un número n …jo de ensayos.

 Cada ensayo produce uno de dos posibles resultados, referidos como éxito y falla.

 La probabilidad de un éxito de un ensayo, p; es constante.

 Los ensayos son independientes, es decir la probabilidad de éxito en cualquier ensayo no es


afectado por el resultado de un ensayo previo.

La distribución de probabilidad esta dada por:

 
n x
f (x) = P (X = x) = p (1 p)n x
para x = 0; 1; 2; :::; n (5.2a)
x

Interpretación de la expresión (5.2a):


P (x) es la probabilidad de x éxitos en n ensayos.
n

x
es la fórmula resumida de x!(nn! x)! :
x = 0; 1; 2; :::; n signi…ca que se puede utilizar la fórmula para cada valor de x; que es el
número de los éxitos posibles en n ensayos.
P
c Pc 
n x
Distribución de probabilidad acumulada P (X  c) = f (x) = x
p (1 p)n x
x=0 x=0

La media y la varianza para la distribución binomial son:

media  = np varianza  2 = np(1 p)


5.1. Distribuciones de probabilidad Discretas 73

5.1.4 La distribución binomial y CalEst


En el bloque didáctico aparece una opción denominada la distribución binomial y volados, este
enfoque tiene varios objetivos:

1. Conocer la distribución binomial considerando como caso inicial el valor de p = 0:5, ese
valor se puede mover para tener otros valores de p y así ver cómo cambia la distribución.
Además proponiendo diferentes valores de n hasta el valor de n = 20.

2. Comprender los conceptos probabilidad y regularidad estadística, al lanzar las monedas


varias veces aparecen los valores de la probabilidad de…nida en la expresión (5.2a) y el de
la frecuencia relativa cuando el número de repeticiones es muy grande los valores de cada
celda se van aproximando.

3. Calcular probabilidad de la binomial para diferentes valores de los parámetros.

4. Aplicar este esquema en diferentes problemas donde el éxito y la falla corresponderían a la


cara y cruz en la moneda respectivamente.

5. Se tiene el valor de la probabilidad acumulada P (X  x).

6. 6. Plantear las soluciones a ejemplos y ejercicios expuestos en diferentes libros de estadística


en cada caso tiene que identi…car el valor de los parámetros n y p.

Ejemplo 1: Cálculo de probabilidades usando el CalEst.

En la Figura 5.2 se muestra el caso en el que se lanzaron 9 monedas con 100 repeticiones en
el renglón donde aparecen las monedas corresponden a la última repetición. El valor de los
parámetros de la distribución son p = 0:5 y n = 9; los puntos en la grá…ca corresponden a la
probabilidad de la binomial para cada valor de la variable x, es de 0 hasta 9, por ejemplo: la
probabilidad de tener cuatro caras a lanzar las nueve monedas es: 0.2461, es decir: P (x = 4) =
0:2461: La frecuencia relativa tiene un valor de 0.2300, si se van incrementando las repeticiones
este valor se aproximará más al de la probabilidad.
Otras situaciones que se pueden considerar son:

1. Calcular la probabilidad de obtener al menos 3 caras.

2. Calcular la probabilidad de obtener 5 o más monedas con una cruz.


74 5. Distribuciones de probabilidad discretas

Figura 5.2: Ilustración de la distribución de la binomial considerando diferentes valores de p y n:

Solución

Con los dos primeros renglones de la tabla que aparece en la grá…ca se tiene la distribución de
probabilidad.
En la primera situación se calcula P (X  3) corresponde a sumar los primeros cuatro valores
del renglón Px, Figura 5.2, así
P (X  3) ' 0:2440

Para el inciso 2, se calcula la P (X  5) en este caso se deben sumar los últimos cinco valores
del renglón Px, esto es:

P (X  5) ' 0:5001

Nota el símbolo ' indica que por redondeo pueden existir diferencias en milésimas con el valor
real.

En el CalEst en el apartado de distribuciones se tiene la alternativa de hacer los cálculos


directos de la probabilidad binomial usando la expresión (5.2a), hasta n = 170. Se ilustra la
aplicación de esta opción mediante un ejemplo.
5.1. Distribuciones de probabilidad Discretas 75

Figura 5.3: Distribución binomial con parámetros p = 0:25 y n = 5

Ejemplo 2

Considerando la teoría de la herencia estudiada por Mendel, en la fertilización del cruce de


dos especies de plantas con ‡ores rojas y blancas produce una generación cuya descendencia
tendrá 25% de plantas con ‡ores rojas. Si un horticultor cruza 5 pares de estas especies, de la
descendencia resultante de estos 5, ¿Cuál es la probabilidad de que: i. ¿Exista una planta con
‡or de color rojo? ii. ¿Existan 2 o más plantas con ‡ores rojas?

Solución
Usando CalEst, en el apartado de distribuciones se elige la distribución de probabilidad binomial
Figura 5.3.
Se muestra la distribución de probabilidad en la tabla de abajo, esta se ha construido aplicando
la calculadora binomial para cada valor de x:

Número de ‡ores rojas x 0 1 2 3 4 5


Probabilidad P (x) 0.237 0.396 0.264 0.0088 0.014 0.001
Probabilidad acumulada P (X  x) 0.237 0.633 0.897 0.985 0.999 1

Así para el primer inciso: P (X = 1) = 0:396; para el otro: P (X  2) = 0:367:


76 5. Distribuciones de probabilidad discretas

Ejemplo 3

Un médico asegura que tiene un tratamiento que cura un malestar muscular con una probabilidad
p = 0:45: En la atención de 12 pacientes ¿Cuál es la probabilidad de que se curen entre 7 y 10
pacientes, es decir P (7  X  10). ¿Cuál es la media y la varianza en este ejemplo? Usando la
grá…ca y los umbrales o la tabla se calculan las probabilidades P (X < 8) y P (X < 11); así:

P (7  X  10) = P (X < 11) P (X < 8) = 0:99892 0:88826 = 0:11066:

La media y la varianza son:

media  = np = 12(0:45) = 5:4 varianza  2 = np(1 p) = 2:97

5.1.5 Distribución Poisson


En diferentes estudios es frecuente encontrarse con problemas donde una información se deriva
de la ocurrencia aleatoria de eventos durante un periodo de tiempo establecido o en la longitud
determinada en un segmento.

Por ejemplo, el número de ocurrencias de fenómenos naturales tales como terremotos,


huracanes, en algún intervalo de tiempo en un año, se considera como una
variable aleatoria con una distribución de Poisson.

La distribución de probabilidad esta dada por:

exp( )x
P (x) = para x = 0; 1; 2; :::;  > 0; (5.3a)
x!

Donde P (x) es la probabilidad de que x eventos aleatorios ocurrirán por unidad de tiempo o
espacio;  es la razón de ocurrencias (la media del número de eventos aleatorios) por unidad de
tiempo o espacio.
La media y la varianza para la distribución Poisson son:

media  =  varianza  2 = 

Ejemplo 4. Cálculo de probabilidades usando el CalEst

La probabilidad de que un artículo, producido por una máquina durante cada periodo de revisión,
sea defectuoso es: 0.1. Determine la probabilidad de que en una muestra de 30 artículos no haya
más de dos defectuosos.
5.1. Distribuciones de probabilidad Discretas 77

Figura 5.4: Distribución de Poisson con parámetros 7=3 en una muestra n = 30

Solución

Se desea estimar P (X  2) = P (X = 0) + P (X = 1) + P (X = 2); se sustituyen en la expresión


(5.3a) los valores de x y  = 30(0:1) = 3. Usando la distribución Poisson en el grupo de
distribuciones en CalEst se obtiene el valor deseado Figura 5.4, observe que en la grá…ca se
indican tres valores con respecto a donde se puso el cursor, en el caso de la Figura 5.4 el cursor
está en 2, entonces se indican las probabilidad de: X menor a 2, X igual a 2 y X mayor a 2:
Para el cálculo deseado se tienen dos posibilidades:
Primero si se pone el cursor en 2 la probabilidad P (X  2) se obtiene sumando los valores
de 0.19915 y 0.22404, es decir

P (X  2) = 0:19915 + 0:22404 = 0:42319

La otra es poner el cursor en 3 y el valor es el anterior porque se ha calculado la probabilidad


de que x sea menor que 3 lo que resulta equivalente a que x sea menor e igual a 2 (x  2):
Empleando la calculadora Poisson también se obtienen los valores de las probabilidades, en la
Figura 5.4, se ha ilustrado la segunda situación explicada anteriormente.
78 5. Distribuciones de probabilidad discretas

Ejercicios

1. En el apartado didáctica de CalEst vaya a la opción distribución binomial y monedas,


realice la siguiente práctica escribiendo en un papel la solución de los siguientes incisos:

(a) Ponga el valor de p = 0:5 y el número n = 10 monedas, use el renglón Px para calcular
las probabilidades para x = 4; 6 y 9.
(b) Ponga el valor de p = 0:5 y el número n = 10 monedas, use el renglón Px para calcular
las probabilidades: i.-P (X = 5); ii.- P (X  2); iii.- P (X  8); iv.- P (2  X  8):

(c) Haga repeticiones de 50 hasta completar 1500 volados, en cada una de ellas observe
los renglones Px y el de Frec. rel. ¿Qué observa? ¿Qué se podría esperar si el número
de volados al …nal fuera 5000?

2. Repita el ejercicio anterior para un valor de p = 0:25: ¿Qué diferencias puede observar con
respecto a los resultados del ejercicio 1? Puede realizar este ejercicio para diferentes valores
de p. Esto le ayudará a familiarizarse con la distribución binomial.

3. El 65% de las personas en un fraccionamiento residencial tiene contratado TV por cable.


Si selecciona al azar 7 familias de ese conjunto habitacional y pregunta si están suscritas al
cable. Construya la distribución de probabilidad para cada valor de x para ello complete
la tabla, use la opción distribución binomial y monedas en CalEst.

Número de familias x 0 1 2 3 4 5 6 7
Probabilidad P (x)
Probabilidad acumulada P (X  x)

4. Para resolver los siguientes ejemplos use la distribución binomial en el apartado de dis-
tribuciones en CalEst:

(a) El número de nacimientos en un hospital sigue una distribución binomial B(6; 0:5):
¿Cuál es la probabilidad de que nazcan 0, 1, 2, 3, 4, 6 bebés que sean del sexo
femenino? Complete la siguiente tabla.

Número de niñas nacidas. x 0 1 2 3 4 5 6


Probabilidad P (x)
Probabilidad acumulada P (X  x)

(b) Para una distribución B(10; 0:3) ¿Cuál es la probabilidad de 5 o más éxitos? ¿Cuál es
la probabilidad de exactamente 7 éxitos? ¿Cuál es la probabilidad entre 4 y 8 éxitos?
5.1. Distribuciones de probabilidad Discretas 79

(c) En una examen de opción múltiple, hay 5 posibles respuestas en cada una de las 20
preguntas. Si un candidato contesta adivinando la respuesta a cada pregunta :
i. ¿Cuál es la probabilidad de que el candidato pase el examen obteniendo 8 o más
respuestas correctas?
ii. ¿Cuál es la probabilidad de que el candidato tenga al menos una respuesta co-
rrecta?
iii. ¿Cual es la media de respuesta correctas a las que el aspirante puede acceder?

(d) En un lote de producción de cubetas, el 5% son defectuosas. Si se toma una muestra


aleatoria de 50 cubetas de ese lote, ¿Cuál es la probabilidad que?
i. ¿Al menos una sea defectuosa?
ii. ¿Exactamente dos sean defectuosas?
iii. ¿Diez o más sean defectuosas?

(e) Una encuesta reporta que el 75% de las mujeres adultas van a consulta con su médico
para un análisis físico al menos una vez cada dos años. Si 17 mujeres se seleccionan
de manera aleatoria, encontrar la probabilidad de que:
i. ¿Menos de 12 de ellas asistieron a consulta en esos dos años?
ii. ¿Al menos 15 de ellas asistieron a consulta en esos dos años?

(f) Un profesor de letras plantea una estrategia de enseñanza que considera exitoso en la
lectura de comprensión en el 60% de los casos. Esta la veri…ca con 15 estudiantes de
nuevo ingreso, encontrar la probabilidad de que:
i. ¿Al menos 6 comprendan la lectura?
ii. ¿El número de estudiantes que comprenden la lectura no sea menor que 6 y no
mayor a 10?
iii. ¿Doce o más comprenden la lectura?

(g) Un estudio revela que 43% de las mujeres en una región urbana la lectura es uno se su
pasatiempo favorito. Se toma una muestra aleatoria de 12 mujeres y se les pregunta
si la lectura es una de su pasatiempo favorito. ¿Cuál es la probabilidad de que?
i. ¿7 mujeres respondan si?
ii. ¿Al menos 7 respondan si?
iii. ¿Menos de 3 respondan si?

(h) La producción de un proceso genera artículos defectuosos a razón del 6%. ¿Cuál es la
probabilidad de que en el embarque de 150 artículos no haya más de 8 defectuosos?
80 5. Distribuciones de probabilidad discretas

5. En los siguientes ejercicios use el CalEst para ilustrar la distribución Poisson.

(a) Una empresa recibe llamadas por teléfono de manera aleatoria a su conmutador en
un promedio de una llamada por minuto. ¿Cuál es la probabilidad de que 0, 1, 2,...,5
llamadas sean recibidas en un periodo de 2 minutos? Complete la siguiente tabla:

# de llamadas recibidas en 2 min. x 0 1 2 3 4 5


Probabilidad P (x)
Probabilidad acumulada P (X  x)

(b) Considere que el número de llamadas en 5 minutos, es decir  = 5; y n = 10: Poner


el umbral en diferentes valores, indique en un papel las probabilidades que está cal-
culando. Estime e interprete las probabilidades i.- P (X = 5); ii.- P (X > 7); iii.-
P (X  4); iv.- P (3  X  8); v. P (X < n) para n; 0  n  10:

(c) El número de accidentes por mes en un crucero es 3. ¿Cuál es la probabilidad de que


ocurran 4 accidentes en ese crucero para un mes determinado?
(d) Resuelva el inciso h del ejercicio 3 usando la distribución de Poisson.
Capítulo 6

Distribuciones de probabilidad continua

6.1 Variables aleatorias continuas


Una característica de una variable aleatoria discreta es que sólo toma valores separados, distintos
o contables. No todas las mediciones son de este tipo; por ejemplo, medir el tiempo de llegada
a la escuela, los valores pueden ser 40 o 41 minutos, o cualquier número entre 40 y 41 minutos,
tal como 40.36 minutos. No existe separación ni valores distintos en este caso. Además, en
este intervalo son posibles un número in…nito de números. De modo que los resultados no son
contables como en el caso de la variable aleatoria discreta.
A la variable aleatoria como la del tiempo de llegada a la escuela se le llama variable aleatoria
continua. Sus valores posibles forman un intervalo continuo y las probabilidades de las variables
aleatorias continuas se asocian sólo con intervalos de observaciones, no con valores individuales,
como ocurre en el caso de las variables aleatorias discretas. Las típicas variables continuas miden
alguna cantidad, como pueden ser el tiempo, el peso, la altura, el volumen, la presión de la
sangre, la concentración de los químicos en la sangre. Ejemplo de variables aleatorias continuas
serían:

 El tiempo en llegar a la escuela.

 El tiempo entre llamadas en un celular.

 El peso de la carne en una torta.

 La resistencia eléctrica de un diodo en una tarjeta impresa.

 El volumen de contenido de un refresco.

 La temperatura de un horno.

6.1.1 Distribución normal


Objetivos:

81
82 6. Distribuciones de probabilidad continua

 Conocer y caracterizar el modelo de probabilidad normal.

 Comprender que muchas variables que explican el comportamiento de fenómenos o procesos


se pueden modelar mediante la distribución normal.

 Aprender a calcular probabilidades con este modelo usando las diferentes opciones del
CalEst.

La distribución de probabilidad normal se aplica de manera frecuente para estudiar procesos


cuya variable aleatoria es continua.

La distribución normal
La densidad de probabilidad de esta distribución se caracteriza por los parámetros (  y  2 ),
es decir, su media (  ) y su varianza (  2 ); y  es la desviación estándar.

La densidad de probabilidad de esta distribución se caracteriza por los parámetros (  y  2 ),


es decir, su media (  ) y su varianza (  2 ); y  es la desviación estándar. Esta distribución
es simétrica con respecto a la  y tiene forma de campana la amplitud depende de la desviación
estándar. La expresión matemática que caracteriza la función de densidad de la normal está
dada por:
1 2 2
f (x) = p e (X ) =(2 ) :
 2
Donde  = 3:1416 y e = 2:7183: A continuación se describirá la forma de esta función, Figura
6.1, como a partir de esta se obtienen las probabilidades de la normal. Las opciones descritas
por el CalEst permitirán resolver diferentes problemas de otros libros .

Descripción del CalEst para la distribución normal

En el bloque de distribuciones en CalEst aparece las opciones para la normal entre ellas la función
densidad y la acumulada. Con estas se pueden calcular probabilidades o los valores de la variable
X correspondientes a diferentes percentiles. Con el …n de conocer su aplicación en la estimación
de probabilidades se ha …jado una media  = 12; (para ver la grá…ca de el valor a  de 12 y
apriete la tecla enter) y una desviación estándar  = 2, la variable X describe el tiempo de un
servicio bancario: Nota aquí se pueden obtener los valores de las probabilidades para cualquier
pareja de (; ):

1. Sin umbrales, en el cuadro sin la paloma, aparece la función densidad, para conocer el valor
de la función para diferentes valores de la variable use el signo más en azul, éste aparece
en la parte superior izquierda.
6.1. Variables aleatorias continuas 83

Figura 6.1: Características del CalEst para la distribución normal

2. Con umbrales, éstos se emplean para calcular probabilidades. Un umbral permite estimar
el área a la derecha o a la izquierda, su valor aparece en un recuadro superior a la derecha.
Ahí también se indica la diferencia de 1 el a rea, abajo aparece el valor de la variable Z
que corresponde a la normal estándar que se indica más adelante.

3. Dos umbrales, colocados abajo, arriba o uno arriba y otro abajo, permite estimar la pro-
babilidad entre dos valores da la variable. Muestra el valor de la diferencia de 1 el a
rea;
y los valores de la normal estándar respectivos a los valores de la variable X:

4. Para obtener percentiles, se mueven los umbrales considerando el valor de las áreas.

5. Una mayor precisión en el cómputo de las probabilidades se obtiene usando un calculador


que viene integrado, este se activa accediendo al último cuadro que aparece en el segundo
renglón a la derecha. Ahí se pide dar el valor de la media y desviación estándar, luego para
obtener probabilidades se deben dar valores de la variable X: La otra opción es dar una
probabilidad y saber a qué valores de la variable corresponden para una pareja (; ): La
precisión en los umbrales se da hasta milésimas.

6. Siempre que de el valor de  oprima enter para cambiar la media en la distribución, luego
el valor de , y nuevamente, oprima enter.
84 6. Distribuciones de probabilidad continua

7. Aparecen dos …guras en azul que corresponden a la función densidad y acumulada de la


normal, con estas se puede obtener una u otra de manera alternativa.

8. Con las lupas, le permiten agrandar (+), empequeñecer (-) y actualizar (A) la …gura.

9. Active el símbolo + para encontrar el valor de la función densidad para un valor de X,


para descativarlo use la ‡echa ubicada en la parte superior izquierda.

Ejemplo1. Cálculo de probabilidades usando el CalEst

El tiempo que dura un embarazo tiene una distribución normal con media  = 266 días y una
desviación estándar de 16 días. Esta situación se describe en la Figura 6.2 generada por CalEst
en el bloque de distribuciones con la opción normal.

1. Usando esta grá…ca encuentre la proporción de embarazos entre 285 y 305 días.

2. Una compañia de seguros tiene un plan familiar de salud, en una de sus cláusulas indica que
no se cubre los costos de hospitalización si el nacimiento es en menos de 217 días después
de la fecha de casamiento. Encuentre la probabilidad de que el nacimiento se da en menos
de 217 días.

3. Encontrar el 90 percentil.

4. Encontrar el 30 percentil.

5. Encontrar el rango percentil del valor de 275 días.

6. ¿Cuál es la probabilidad del que el embarazo termine en 280 días o más?

Solución
En la Figura 6.2 en la grá…ca se muestra la primera solución, la segunda se muestra en la tabla.
Ésta muestra las alternativas del calculador para obtener los valores de probabilidad en una
distribución normal.

1. En el primer inciso se está calculando la probabilidad P (285  X  305) = 0:110.

2. En el segundo P (X  217) = 0:0011; es una probabilidad muy baja de que esto ocurra.

3. En el tercer caso se desea encontrar el número que satisface P (266  X ?) = 0:40; se
puede notar que P (X  266) = 0:5, veri…que esta situación usando el cursor. En la Figura
6.3 se describe esta situación.
6.1. Variables aleatorias continuas 85

Figura 6.2: La función densidad de la normal y cálculo de probabilidades de esta distribución.

4. De manera análoga se resuelve el caso cuarto, ver Figura 6.3 en la grá…ca derecha. P (? 
X) = 0:3

5. En este caso P (X  275) = 0:713; solución se tiene colocando un solo cursor en 275. En
los resultados del calculador mostrados en la Figura 6.4

6. La solución es P (X  280) = 0:191; los resultados se describen en la Figura 6.4.

Un resultado que se usa frecuentemente como referencia para la distribución normal es la


desviación estándar alrededor de la media y se conoce como la regla empírica. Así se consideran

Figura 6.3: Distribución normal con  = 266;  = 16; soluciones 3 y 4.


86 6. Distribuciones de probabilidad continua

Figura 6.4: Resultados mostrados por el calculador para los incisos 4 y 5.

la media a una, dos y tres desviaciones estándar, esto es:

P (   X   + ) = 0:6826
P ( 2  X   + 2) = 0:9544
P ( 3  X   + 3) = 0:9974

Veri…que estos resultados en el CalEst usando los datos del ejemplo 1. En la Figura 6.5 se
presenta la función acumulada, distribución de probabilidad normal, con ésta se obtiene el área
bajo la curva de la función densidad para valores especí…cos de la variable aleatoria X. En
particular el caso que se ilustra es el área desde menos in…nito hasta el valor de X = 275, para
(; ) = (266; 16):

6.1.2 Normal Estándar


En la Figura 6.6, izquierda, se dibuja la normal con media cero y varianza 1, ésta se conoce como
la normal estándar. En el calculador se tiene la opción de uno o dos umbrales, éstos le permiten
obtener diferentes probabilidades y cada una de ellas aparece señalada con el área bajo la curva.
En la Figura 6.6 en la grá…ca a la derecha se muestra la distribución de probabilidad acumulada
de la normal, usando el cursor también puede estimar la probabilidad que requiera. Finalmente
en la Figura 6.7 se muestra cómo se usa el calculador de probabilidad, se debe oprimir la caja
señalada, ésta aparece en el ambiente de la distribución.
Esta variable normal caracterizada por la pareja (; ) = (0; 1) tiene su importancia porque
se usa para encontrar probabilidad asociadas con cualquier otra distribución normal con (; ):
6.1. Variables aleatorias continuas 87

Figura 6.5: Distribución normal acumulada con la probabilidad P (X  275)

Figura 6.6: Función densidad y la acumulada de la distribución normal. El uso del símbolo +,
el efecto se quita con la ‡echa.
88 6. Distribuciones de probabilidad continua

Figura 6.7: Distribución y el calculador de la normal

Por ello en los libros de estadística se trabaja con la variable normal estándar y en cada uno
de ellos viene una tabla de esta distribución para el cálculo de probabilidades. En el desarrollo
de este paquete ésta queda como un caso particular, aquí se describe con la …nalidad de que los
usuarios tengan una visión completa de la normal estándar y la aprovechen en la solución de sus
problemas y en otras aplicaciones.

De…nición

La variable aleatoria normal estándar es una variable normal con media 0 y


desviación estándar 1. Usualmente se representa por el símbolo Z.

La expresión que relaciona la variable aleatoria X de una normal con (; ) y la normal
estándar Z es:
X 
Z= , o X =  + Z

X 
Así para los datos de la Figura 6.1: Z = 
= 9 12
2
= 1:5: El cálculo de la probabilidad
del primer inciso del ejemplo 1,

285 266 X  305 266


P (285  X  305) = P (   ) = P (1:188  Z  2:438) = 0:101
16  16
6.1. Variables aleatorias continuas 89

Figura 6.8: Opciones del módulo de Control de calidad

6.1.3 Temas selectos: aplicación de la normal


En este apartado se presentan algunas aplicaciones de la distribución normal desarrolladas en
CalEst y que tienen importancia en la actividad industrial. Aquí sólo se darán a conocer las
referencias donde el usuario puede profundizar en el conocimiento de estos temas. En la Figura
6.8 se describe las opciones del módulo Control de calidad.

Métrica de Seis Sigma

La métrica seis sigma evalúa un proceso, ésta se basa en el nivel de : Existen varios libros
donde se puede profundizar en el concepto. Entre ellos puede consultar el de Escalante (2004)
página 239, y el de Breyfogle I I I (2003) Capítulo 9 página 188. La distribución normal como se
ha desarrollado aquí será de mucha utilidad para resolver los ejemplos y problemas planteados
en esos libros. En esos mismos libros se puede encontrar los conceptos de capacidad del proceso,
la e…ciencia del cálculo de este índice depende de la distribución normal.
En la opción estadística, métodos avanzados, control de calidad en CalEst aparece el cálculo
del valor de X y Z para estimar la métrica

Papel de probabilidad normal

Este método grá…co es de mucha utilidad para evaluar si unos datos siguen una distribución
normal. El principio es tener un conjunto de datos, ordenarlos de menor a mayor. La idea es
construir en un plano de coordenadas (x; y), donde x es el eje horizontal: los datos ordenados,
y es el eje vertical y representa los porcentajes correspondientes a la distribución normal, por lo
general y es:

i 0:5
yi = %, donde i = 1; :::; n:
n
El valor de i representa la iésima observación de los n datos estudiados.
90 6. Distribuciones de probabilidad continua

Cartas de control X RoX S

Las cartas (X R) son apropiadas para estudiar el promedio de la variable y la dispersión de


los datos obtenidos del proceso cuando la característica de calidad que medimos en un producto
se expresa en números. Por ejemplo podemos medir en un artículo la longitud, masa, peso,
temperatura, viscosidad, velocidad, densidad, alcalinidad, entre otras. Con el …n de obtener más
detalle en la construcción de estas cartas consultar Escalante (2004) página 194.
Para construir una carta de control (X R) se sigue el siguiente procedimiento:

1. Determinamos la característica de calidad. En la manufactura o en un servicio es impor-


tante identi…car la variable que describirá la calidad del producto o bien.

2. Escoger el subgrupo muestra. El subgrupo es una pequeña parte de la producción que


la representa, la idea fundamental es detectar los cambios que se producen en el sistema.
Existen dos procedimientos para seleccionar este subgrupo una vez de…nido el tamaño de
la muestra.

En el primer procedimiento la meta es minimizar la variabilidad dentro de las unidades en la


muestra, y maximizar la variabilidad entre las muestras. Esto se logra seleccionando los artículos
en la muestra en un rango de tiempo lo más pequeño posible.
Debemos tener presente que las cartas X RoX S nos ayudan a determinar si un proceso
está fuera de control. Con la carta X observamos la característica de calidad y con las cartas R
o S la variabilidad del proceso, para ello primero tomamos en cuenta la carta R o S, es decir,
conocer la variabilidad del proceso. Aunque es importante mantener en control la característica
de calidad y la dispersión, no se puede interpretar la carta X cuando las cartas R o S nos
muestran condiciones que implican un proceso fuera de control.

Capacidad del proceso

Con objeto de medir la capacidad de un proceso, se establece un sistema de 5 índices que son de
utilidad para cuanti…car la capacidad de un proceso estable, éstos permitirán evaluar un proceso
con respecto a los límites de especi…cación. Los índices son:

Cp = índice potencial del proceso.

CP U = índice superior del desempeño del proceso.

CP L = índice inferior del desempeño del proceso.


6.1. Variables aleatorias continuas 91

k = índice de centrado del proceso.

Cpk = índice del desempeño del proceso.

Conceptos generales

Con objeto de estimar los índices indicados anteriormente, primero se determina la caracterís-
tica de calidad que se desea medir, se toma una muestra aleatoria del proceso, se obtiene el
histograma tal que contenga los límites de especi…cación inferior (LEI) y superior (LES). A
simple vista del histograma se puede analizar la forma de la distribución, si ésta tiene una forma
acampanada puede representar a un proceso capaz si este está cerca del centro. También, se
puede emplear el papel de probabilidad de una distribución normal para observar la tendencia
de los datos. La mayor amplitud es 6  b; es decir la longitud comprendida entre los límites de
tolerancia del proceso. Se puede establecer que un proceso no es capaz si:

1. El proceso no es estable.

2. El proceso está centrado cerca de los límites de especi…cación

3. El proceso es excesivamente variable.

Las cartas de control permiten conocer la estabilidad de un proceso. Por otro lado, es más
fácil obtener un proceso capaz, si la variabilidad del proceso no es tan grande.¿Por qué?

Indice potencial del proceso Cp

Este índice depende sólo de la variabilidad en condiciones de…nidas del proceso a corto plazo y
que éste se encuentre bajo control estadístico. Un método simple para estimar el Cp , es relacionar
la amplitud del proceso, con la amplitud permitida, esta última se establece de antemano.

amplitud permitida LES LEI


Cp = =
amplitud actual del proceso 6

se dice que el índice Cp estima la habilidad del proceso. Otra manera de evaluar al proceso
en términos de porcentaje, es mediante el índice de razón de capacidad, este se obtiene por el
recíproco del índice Cp multiplicado por 100, es decir:

1
CR = 100%
Cp
92 6. Distribuciones de probabilidad continua

La interpretación de éste índice se mostrará en el siguiente ejemplo, durante el curso éste se


denoto por Por .
El índice potencial del proceso presenta tres situaciones que permiten establecer la habilidad
del proceso, éstas se de…nen como sigue:
8
< < 1 es no capaz
Cp = 1 es deseable
:
> 1 es capaz

Indice del desempeño del proceso Cpk

Cuando un proceso está bajo control estadístico, se espera que la característica de calidad que
se le mide a los artículos tenga una distribución con promedio  y varianza  2 . Generalmente
un industrial requiere que la característica de calidad de su proceso tenga un compotamiento
en promedio a un cierto valor establecido, este frecuentemente se identi…ca como valor nominal
del proceso denotado por T . Si el promedio y el valor nominal coinciden, es decir, que  = T:
Entonces dice que el proceso está centrado. Cuando esto no es así, se requiere de un índice
que indique qué tan lejos está el proceso del valor objetivo. Un objetivo es plantear cómo el
desempeño del proceso se puede relacionar con el potencial del proceso Cp y con la medida de
_
localización X:
Considere la situación en la que el proceso únicamente se relaciona con el límite de especi-
_
…cación superior, en esta situación intervienen tanto la media X; como la desviación estandar 
b
para de…nir el índice CPS denominado índice de capacidad superior, es decir:
_
LES X
CP S(CP U ) =
3b

Análogamente, se puede considerar de un proceso el límite de especi…cación inferior, esto da
lugar a de…nir el índice de capacidad inferior como sigue:
_
X LES
CP I = (CP L ) =
3b

El índice Cpk mide el desempeño del proceso y su cálculo es

Cpk = min( CP I; CP S )

Ejercicios

1. El tiempo de respuesta para un estimulo tiene una distribución normal con media  = 46,
 = 4. ¿Qué porcentaje de valores están?
6.1. Variables aleatorias continuas 93

(a) i. ¿Mayores de 46? ii. ¿Mayores de 50?

(b) i. ¿Mayores de 40? ii. ¿Menor que 38?

(c) i. ¿Menor que 49? ii. ¿Entre 45 y 49?

(d) i. ¿Entre 50 y 54? ii. ¿Mayor que 56 y menor 46?

(e) ¿Dentro 1.5 desviaciones estándar de la media?

(f) ¿Fuera de 2.3 desviaciones estándar de la media?

2. En un proceso de producción un producto tiene un encogimiento con una media 80 mm y


una desviación estándar de 12. Si un producto se selecciona al azar, encontrar cada una de
las siguientes probabilidades.

(a) i. P (80  X  92), ii. P (71  X  80), iii. P (X  92), iv. P (X  56), iv.
1 P (65  X  98),

(b) i. 1 P (66  X), ii. 1 P (X  104), iii. P (53  X  59), iv. P (X = 80).

3. Para un grupo de estudiantes de secundaria y preparatoria, el tiempo de solución del


rompecabezas de la República Mexicana tiene una distribución normal con media 150
segundos y una desviación estándar de 10. Encuentre:

(a) El primer, segundo y tercer cuartil.

(b) El 65 percentil y el 35 percentil.

(c) El rango del percentil del valor 165, es decir P (X  165):

(d) El rango del percentil del valor 145.

4. Supongamos que X es una variable aleatoria con una distribución normal con media y
desviación estándar . Calcula:

(a) P (40  X  56)

(b) P (X  64)

(c) w tal que P (X  w) = 0:32

(d) w tal que P (X < w) = 0:063

5. El tiempo en que el cajero bancario tarda en atender a los clientes tiene una distribución
normal con media  = 10 minutos y desviación estándar  = 2 minutos.
94 6. Distribuciones de probabilidad continua

(a) ¿Qué porcentaje de clientes espera menos de 8 minutos?

(b) ¿Cuál es la probabilidad de que el cajero tarde en atender a un cliente en un tiempo


mayor que 16 minutos?

6. En estudios realizados por una …rma para medir el coe…ciente intelectual de las personas
que solicitan un empleo, hay una distribución normal con media y desviación estándar .

(a) ¿Cuál es la probabilidad de un coe…ciente intelectual mayor a dos desviaciones están-


dar de la media?
(b) ¿Qué porcentaje de las personas presenta un coe…ciente intelectual superior a 120?

(c) ¿Qué porcentaje de las personas muestra un coe…ciente intelectual entre 80 y 120?

7. El número de calorías de una sopa en un menú se distribuye como una normal con media
200 y desviación estándar de 5. Encuentra la probabilidad de que la sopa contenga:

(a) Más de 210 calorías.

(b) Entre 190 y 200 calorías.

(c) Encuentra el 14 percentil de las calorías.

8. En un restaurante sirven manzanas como postre. El peso de ellas muestra una distribución
normal con media 60 gramos y una desviación estándar de 0.8 gramos. ¿Cuál es la pro-
babilidad de que a la siguiente persona que se le sirva una manzana, el peso de ésta sea de
50 gramos?

9. Las cali…caciones de admisión presentan una distribución normal con media 500 y desviación
estándar de 100. Encuentra la probabilidad de que un estudiante:

(a) Obtenga una cali…cación mayor que 650.

(b) Obtenga una cali…cación menor que 375.

(c) Obtenga una cali…cación entre 350 y 575.

(d) Si la escuela admite a los que sólo tienen una cali…cación mayor a 670, ¿cuál es la
proporción de los estudiantes que pueden ser admitidos?
(e) ¿En qué límite se debe …jar la cali…cación si el 50% de los estudiantes deben ser
admitidos?
(f) ¿Cuál debe ser la cali…cación límite si el tope de admisión es del 15% de estudiantes?
6.1. Variables aleatorias continuas 95

10. Supongamos que Z es una distribución normal estándar. Encuentra el percentil de la


distribución en cada caso.

(a) Debajo de z = 2:0

(b) Debajo de z = 2:6

(c) Debajo de z = 1:36

(d) Debajo de z = 1:36

(e) Entre z = 1:42 y z = 1:25

(f) Entre z = 2:82 y z = 0:58

11. Supongamos que Z es una distribución normal estándar. Encuentra:

(a) P (Z < 1:64)

(b) P (Z  1:96)

(c) P ( 1:35  Z  1:35)

(d) P (1:22  Z  2:47)

(e) El valor de z tal que 5% del área está debajo de éste.

12. Encuentra los percentiles 0.05, 0.01, 0.10, 0.025, 0.90, 0.95 y 0.68 en una distribución
normal estándar.
96 6. Distribuciones de probabilidad continua
Capítulo 7

Galería de distribuciones*

(*) Opcional

7.1 Ideas Generales: distribución de probabilidad


Cuando no se pueden conocer los valores de medidas repetidas en una cantidad de interés, es
práctico caracterizar esa cantidad como una variable aleatoria y se denota por X. Esta variable se
re…ere a la población. La colección de todos los valores posibles en la población se llama espacio
muestra S. Los valores X de los resultados de los ensayos realizados, esto es, las mediciones en
X son denotados por x. Un conjunto de estos ensayos, es la muestra. Así una muestra es un
subconjunto de valores del espacio muestra S:
Así muchas cantidades medibles en diferentes áreas del conocimiento, incluyen un rango
continuo de puntos en el espacio muestra S:
La condición de incertidumbre de la variable aleatoria X se modela por una distribución de
probabilidad F (x; ): Donde F es una función matemática de los valores x que la variable X
puede tomar en el espacio muestra S; y  son parámetros que caracterizan a la distribución.
A continuación se describen varias distribuciones de probabilidad que son importantes, debido
a su utilidad para modelar diferentes situaciones y su aplicación en ingeniería.

7.1.1 Distribución Weibull


La función densidad para una distribución Weibull, Wei (; ) de una variable aleatoria X está
dada por:
  x  1 
( ) e (x=)
 
x0
f (x : ; ) =
0 x<0

 > 0 es el parámetro de escala,  > 0 es el parámetro de forma

W e(; )

97
98 7. Galería de distribuciones*

Figura 7.1: Distribución Weibull W ei(2; 1) y cálculo de probabilidad ilustrada por la grá…ca y
la tabla.

Observaciones: Esta función de densidad puede tener gran variedad de formas con una o dos
colas.

 Si  = 1, se tiene como caso particular la distribución exponencial exp(): Notación


exp() = e :

 Si  = 2, da lugar a la distribución de Rayleigh.

La función de distribución es la distribución acumulada y se expresa por.


  
F (x; ; ) = 1 exp(

La media y la varianza de distribución son:

      2
1 1 2 1 2 1
= 1+  = 2 1+ 1+
    
 p
donde es la distribución gama, (1) = 1; 1
2
= ; (n) = (n 1) (n 1) y si n es entero
(n) = (n 1)1 :
En la Figura 7.1 se observa la distribución Weibull W ei(2; 1); a la derecha de la grá…ca se ha
puesto la tabla para el cálculo de probabilidades de esta distribución. En ésta se ilustra, en la
grá…ca, el cálculo de la probabilidad para X mayor a 1.731 es decir P (X  1:731) = 0:0499: Con
7.1. Ideas Generales: distribución de probabilidad 99

Figura 7.2: Cálculos de la probabilidad para más de 1000 horas -izquierda, y del valor de X para
una probabilidad de 0.1 -derecha.

la tabla se obtiene la probabilidad entre los valores de 0.85 y 1.74, P (0:85  X  1:74) = 0:437:
Usando esta distribución, observe para los siguientes valores del parámetro de forma  = 0:5; 1;
1:5; 3; 4 con  = 1: Esto indica la variedad de formas de la función densidad Weibull y con ello
la ‡exibilidad del modelo para caracterizar datos de algún proceso.

Ejemplo 1

La falla de un calentador se debe a la reducción o pérdida total de la potencia de empuje en un


grupo de empaques. Se midieron estos durante un periodo de dos años y los valores se ajustan
bien con un modelo de la distribución Weibull, W ei(0:8941; 1609:8) use la tabla para calcular la
probabilidad para 1000 horas o más de operación.

Solución

En la Figura 7.2 se presenta el cálculo de la probabilidad cuyo resultado es P (X  1000) =


0:5203:
Esta probabilidad se le conoce como la con…abilidad del calentador. Dada la probabilidad de
P (X  x) = 0:1 con los parámetros k = 0:8941 y  = 1609:8, ¿cuál es el valor de x? x = 129:9375
100 7. Galería de distribuciones*

7.1.2 Distribución Gama


La función densidad de la distribución gama se expresa por

  1
x e x
()


1 e x
g(x : ; ) = x para x > 0:
( )

 > 0 es el parámetro de forma > 0 es el parámetro de escala. Del cálculo diferencial e


integral se tiene que la función
Z 1
() = x 1 e x dx:
0

Nota 2
Si  = n=2; n es un entero positivo y = 1=2 es la función densidad de la gama, entonces se
tiene una distribución Ji (Chi) cuadrada, distribución que se ilustra en el siguiente capítulo.
La media y la varianza se expresan respectivamente por

Ejemplo 2
 
= y 2 = 2

Encontrar P (3:28 < X  25:2) si X tiene una distribución gama con  = 3 y = 0:25: Ver
en la Figura 7.3 la solución.

7.1.3 Distribución exponencial


La importancia de esta distribución sigue de su relación a procesos Poisson, el tiempo X : T entre
las posibles ocurrencias de eventos, tiene una distribución exponencial con la siguiente función
densidad:

e x
, si x  0
f (x; ) =
0, si x < 0

 > 0 es el parámetro de taza.


La función de distribución está dada por:

F (x; ) = 1 exp( x)


7.1. Ideas Generales: distribución de probabilidad 101

Figura 7.3: Cálculo de la probabilidad para una distribución gama

La media y la varianza son dados, respectivamente por:

1 1
= y 2 = 2
 
Vea el grupo de distribuciones en CalEst y seleccione la exponencial, observe las diferentes
formas para distintos valores de ; por ejemplo  = 0:5;  = 1;  = 1:5;  = 2:

Ejemplo 3

La razón de falla de un gra…cador electrónico es  = 0:00055 fallas/hora. Determine la proba-


bilidad de qué gra…cador dure en operación unas 450 horas, P (X  450): Como se observa en la
Figura 7.4. La con…abilidad de este equipo es 0:78075:

Solución

P (X  450) = 1 F (x; ) = exp( x) = exp( 0:0005  450) = 0:78075:

7.1.4 Distribución beta


Distintos valores de y para la distribución beta e( ; ) proporcionan diferentes formas de
la función densidad, la cual se expresa por:
102 7. Galería de distribuciones*

Figura 7.4: Aplicación de la distribución exponencial en problemas de con…abilidad.

( + ) 1
f (x; ; ) = x (1 x) 1
( ) ( )

> 0 es el parámetro de forma. > 0 es el parámetro de forma.


La media y la varianza para la distribución, se expresan por:


= , 2 = 2
+ ( + ) ( + + 1)

Nota
Cuando = se tiene una distribución simétrica. Un caso particular se presenta cuando
= = 1; en este caso se obtiene una distribución uniforme U(0; 1):

Ejemplo 4

Usando la distribución Beta del grupo de distribuciones en CalEst. Haga las grá…cas para la
función densidad de esta distribución para observar los siguientes casos:

1. Distribución unimodal y simétrica = = 1; 2; 3; 4; 6


7.1. Ideas Generales: distribución de probabilidad 103

Figura 7.5: Distribución beta con = = 2:

2. Distribución unimodal y sesgada ( = 1:5; = 2); ( = 1:5; = 3); ( = 3; = 5) y


( = 2; = 5):

3. Distribución en forma U y simétrica = = 0:15; = = 0:3; = = 0:5; = = 0:8:

4. Distribución en forma U y sesgada ( = 0:2; = 0:8); ( +0:3; = 0:6); ( = 0:4; = 0:8);


( = 0:5; = 0:9):

5. Distribución en forma J ( = 1; = 2); ( = 0:8; = 2); ( = 0:6; = 2); ( = 0:4;


= 2); ( = 0:2; = 2):

En la Figura 7.5 se ilustra un caso en 1, .

7.1.5 Distribución uniforme


La función densidad uniforme U(a; b) de una variable aleatoria  se describe por:

 1

para  x  ;
f (x) =
0 para x < o x > ;

Parámetros y : límites. ; 2 ( 1; 1): La media y la varianza para la distribución son:


104 7. Galería de distribuciones*

Figura 7.6: Descripción del cálculo para el inciso b.

b+a (b a)2
= , 2 =
2 12

la probabilidad de que X esté en cualquier subintervalo de [ ; ] es igual a la longitud del


intervalo dividido entre la longitud del intervalo [ ; ]:
Esto es:

b a
P (a < X < b) =

Ejemplo 5

Si X se distribuye de manera uniforme en el intervalo [0; 10]; calcule la probabilidad de que:


a) P (2 < X < 9); b) P (1 < X < 4) c) P (X < 5) d) P (X > 6)

Solución

Observe la Figura 7.6, las soluciones son: a) 0:7; b) 0:3; c) 0:5; d) 0:4:
7.1. Ideas Generales: distribución de probabilidad 105

7.1.6 Distribución Lognormal


Una variable aleatoria X tiene una distribución lognormal si Y = loge (X) tiene una distribución
de probabilidad normal, donde loge es el logaritmo natural de base e. La función densidad de la
distribución lognormal está dada por:
 
1 (log(x) 
f (x; ; ) = p exp
x 2 2 2

 = media,  2 = desviación estándar

Ejercicio

Observe la distribución lognormal para  = 1: Observe los casos para  = 0:2;  = 0:3 y  = 0:5

7.1.7 Distribución Logística


Una variable aleatoria continua X tiene una distribución logística, si su función densidad tiene
la forma:

e (x )=
f (x; ; ) = (x )= )2
(1 + e

 = posición,  = escala.

Ejercicio

En la Figura 7.8 se describe la función de esta distribución para  = 3 y  = 2:

7.1.8 Distribución Gumbel


Una variable aleatoria X tiene una distribución Gumbel si su función densidad tiene la forma:
  
1 x  x 
f (x; ; ) = exp exp ;  > 0; 1 < x;  < 1:
  

 = posición,  = escala. La distribución de probabilidad se expresa por:


  
x 
F (x; ; ) = 1 exp exp

106 7. Galería de distribuciones*
Capítulo 8

Distribuciones 2, t, F +

Estas distribuciones desempeñan un papel importante en la inferencia estadística. Son distribu-


ciones derivadas de la Normal.

8.1 Distribución 2
Si Z1 ; Z2 ; :::Zn son variables normales estándar independientes, entonces se dice que la variable
 de…nida por
 = Z 2 + Z22 + ::: + Zn2

tiene una distribución Ji (Chi) cuadrada con n grados de libertad. Se denota  s 2n para indicar
que  tiene una distribución Ji cuadrada con n grados de libertad.
Por ejemplo, una compañía produce bolsas de cacahuate, el proceso genera miles de bolsas
cada una debe tener el mismo peso. Sin embargo existe una variación en el peso de cada bolsa, la
cual debe ser baja. Si la población de pesos tiene una distribución normal, en este caso se desea
hacer inferencia estadística sobre la varianza o desviación estándar, como se verá mas adelante.
Para llevar a cabo esta inferencia, es necesario determinar los valores críticos en la distribución
 con n
2
1 grados de libertad.
En esta dirección se especi…ca un valor tal que (0 < < 1) y se calcula alguna de las
siguientes tres probabilidades: P (2 > 2 ( ; n 1)) = ; P (2 (1 ; n 1) < 2 ) = o
P (2 (1 =2; n 1) < 2 ) = =2; P (2 ( =2; n 1) > 2 ) = =2: Estos se calculan usando el
CalEst.

Guía para encontrar los valores críticos de la 2

1. Especi…que el nivel de signi…cancia (probabilidad ).

2. Determine los grados de libertad gl = n:

107
108 8. Distribuciones 2 , t, F +

Figura 8.1: Descripción del ejemplo 1.

3. Los valores de la distribución 2 se encuentran en la grá…ca de la distribución Chi cuadrada


en CalEst o con la opción de la tabla que muestra el ambiente de la pantalla.

(a) Use el umbral para moverse a la derecha o izquierda según el valor de :

(b) Use dos umbrales que correspondan a 12 y 1- 2 :

La distribución 2 se utiliza para hacer inferencia sobre la varianza (prueba de hipótesis e


intervalos de con…anza). Ver Capítulo de Prueba de Hipótesis para una población. La 2 también
se aplica en las pruebas de bondad de ajuste, ver ese Capítulo.

Ejemplo 1

Encontrar el valor crítico 2D a la derecha cuando n = 24 y = 0:10

Solución

Los grados de libertad son n 1 = 24 1 = 23: La grá…ca de la Figura 8.1, CalEst, muestra
una 2 con 23 grados de libertad y un área sombreada (probabilidad) de = 0:10 en la parte
derecha. 2 = 32
8.1. Distribución 2 109

Figura 8.2: Cálculo de la probabilidad de Ji cuadrada a la izquierda

Ejemplo 2

Encontrar el valor crítico 2L a la izquierda cuando n = 12 y = 0:05:

Solución

Los grados de libertad son n = 12 1 = 11:La grá…ca de la Figura 8.2, CalEst, muestra una 2
con 11 grados de libertad y el área sombreada a la izquierda de = 0:05: Así el área a la derecha
es 1 =1 0:05 = 0:95: 2 = 4:571

Ejemplo 3

Encontrar los valores críticos 2 a la derecha e izquierda de la distribución cuando n = 13 y


= 0:05

Solución

Los grados de libertad de la distribución son gl = n 1 = 13 1 = 12: La grá…ca de la Figura


8.3, describe la distribución de 2 con 12 grados de libertad y el área sombreada (probabilidad)
de 12 = 0:025 en cada cola de la distribución. El área central es 1 = 0:95: Así 2I = 4:403
2D = 23:336
110 8. Distribuciones 2 , t, F +

Figura 8.3: Valores críticos de la distribución Ji cuadrada con un área del 95%.

Ejercicios

1. En cada uno de los siguientes casos 2 (0:01; n 1); 2 (0:025; n 1); 2 (0:95; n 1) y
2 (0:99; n 1):Encontrar estos valores de 2 con los siguientes grados de libertad (gl): a.-
gl = 9; b.- gl = 15; c:- gl = 25:

2. Si los grados de libertad de la distribución son gl = 2, encuentre los valores de x en los


siguientes casos: a: P (2  x) = 0:01; b: P (2  x) = 0:05; c: P (2  x) = 0:99; d:
P (2  x) = 0:01; e: P (2  x) = 0:9; f: P (2  x) = 0:5

3. Considerando gl = 18; calcule las siguientes probabilidades: a: P (2 > 25:989) b: P (2 
7:015) c: P (7:015 < 2 < 9:390) d: P (10:865 < 2 < 28:869)

4. Encuentre el valor crítico de 2 para la cola izquierda cuando n = 18 y = 0:01

5. Encuentre el valor crítico de 2 para la cola derecha cuando n = 30 y = 0:05

6. Encuentre el valor crítico de 2 para dos colas cuando n = 19 y = 0:05: Es decir encuentre
el valor 2D con 12 y el valor 2I con 1
2
:

7. Si X tiene una distribución 2 con gl = 10; encuentre la probabilidad P (3:25  X  20:5)


8.2. La distribución t 111

Figura 8.4: Descripción de la distribución t, 6 grados de libertad y con su valor critico a la


izquierda.

8. Si X tiene una distribución 2 con gl = 5; determine las constantes c y d tal que P (c <
X < d) = 0:95 y P (X < c) = 0:025:

8.2 La distribución t
En la vida real para realizar estudios usando la distribución normal, se requieren muestras su…-
cientemente grandes (n  30): Esta situación no es práctica, una alternativa para hacer inferencia
sobre la media  es usar la distribución t: Si Z y 2n 1 son variables aleatoria independientes,
donde Z tiene una distribución normal estándar y 2 sigue una distribución Ji cuadrada con
n 1 grados de libertad entonces se dice que la variable aleatoria de…nida por:

Z
Tn 1 =p 2
n 1 =(n 1)

tiene una distribución t con n 1 grados de libertad. La representación de esta distribución


aparece en el grupo de distribuciones presentadas por el CalEst.

Ejemplo 4

La forma de la distribución con 6 grados de libertad se muestra en la Figura 8.5, en esta se


muestra el cálculo de un valor crítico a la izquierda: esto es P (Tn 1  2:467) = 0:024: Se
muestra la probabilidad complementaria P (Tn 1 > 2:467) = 1 0:0243 ' 0:976. Nota: se usa
el símbolo ' por errores de redondeo al considerar el umbral en milésimas.
112 8. Distribuciones 2 , t, F +

En muchas situaciones prácticas la desviación estándar  de la población es desconocida. Si


la distribución de una variable aleatoria X es aproximadamente normal, entonces

X 
t= p
S= n

tiene una distribución t de Student.


Los valores críticos de t se denotan por tc ; y se tiene P (Tn 1 > tc ) = ; donde está entre 0
y 1: La distribución t tiene las siguientes propiedades.

1. La distribución t es de forma acampanada y simétrica alrededor de la media.

2. La distribución t es una familia de curva cada una es determinada por un parámetro llamado
grados de libertad. Los grados de libertad son igual al tamaño de la muestra menos uno,
gl = n 1:

3. El área total bajo la curva es 1 o 100%:

4. La media, la mediana y la moda de la distribución son igual a cero.

5. Conforme el número de grados de libertad, crece la distribución se aproxima a una normal.


(Aunque es un resultado asintótico), después de los 30 gl, la distribución t es muy cercana
a la normal estándar. En CalEst la distribución t se tiene hasta un valor de n = 300.

Nota: Observe que debido a la simetría:

= P ( Tn 1  tc ) = P (Tn 1  tc ) = 1 P (Tn 1  tc )

Por lo que
P (Tn 1  tc ) = 1

Se llega a la conclusión de que

tc ( 1; n 1) = t( 1; n 1)

Ver Figura 8.6.

Ejemplo 5

Encontrar el valor crítico tc en la cola derecha de la distribución t Student con = 0:01 y


n = 17:
8.2. La distribución t 113

Figura 8.5: Descripción de la distribución t para = 0:01 y gl = 16.

Solución

Los grados de libertad son gl = n 1 = 17 1 = 16: Usando el bloque de distribución en el


CalEst: la distribución t de Student en la Figura 8.5. El área sombreada corresponde al valor
de = 0:01 y t0 = 2:583 es el valor crítico. En símbolos:

P (Tn 1 > 2:583) = 0:01

en la tabla de la derecha, es la alternativa para encontrar los valores t de la distribución para un


valor de dado. En este caso usar la inversa. También se pueden encontrar probabilidades para
diferentes valores de t.

Ejemplo 6

Usar la tabla de probabilidades de la distribución t con 13 gl, para encontrar la probabilidad:


a: P (T  0:45); b: P (T  2:56); c:P ( 1:9  T  1:9)

Solución

a: P (T  0:45) = 0:330; b: P (T  2:56) = 0:0118; c:P ( 1:9  T  1:9) = 0:920


114 8. Distribuciones 2 , t, F +

Figura 8.6: Cálculo de los valores críticos de la distribución t para = :05 y gl = 25

Ejemplo 7

Encontrar los valores críticos t0 y t0 para las colas derecha e izquierda respectivamente de la
distribución t, con = 0:05 y n = 26:

Solución

Los grados de libertad son n 1 = 26 1 = 25: En este caso se toma 1


2
para indicar la
probabilidad de cada cola, es decir 12 = 0:025: {Los valores de t0 = 2:059 y t0 = 2:059; ver
Figura 8.6.

Ejercicios

1. Encontrar los valores críticos para la cola izquierda en cada inciso.

(a) t(0:0 5; 7); t(0:0 1; 7); t(0:005; 7); t(0:10; 7)

(b) t(0:05; 12); t(0:01; 12); t(0:005; 12); t(0:10; 12)

(c) t(0:05; 25); t(0:01; 25); t(0:005; 25); t(0:10; 25)


8.3. La distribución F 115

2. Encontrar las siguientes probabilidades

(a) P (T  2:7); P (T  1:56) P ( 2  T  2) con n = 18

(b) P (T  3:5); P (T  0:58); P ( 2:5  T  2:5) con n = 35

(c) P (T  1:35); P (T  3:5); P ( 3  T  3) con n = 6

8.3 La distribución F
Si 2(n) y 2(m) son variables aleatorias Ji cuadrados con n y m grados de libertad respectivamente,
entonces se dice que la variable aleatoria F (n; m) se de…ne por:

2(n) =n
F (n; m) =
2(m) =m

Como una distribución F con n y m grados de libertad. La notación grados libertad en el


numerador glN = n; y en el denominador glD = m:

Ejemplo 8

En la Figura 8.7 se presenta la distribución F con 4 y 7 grados de libertad, con un valor de


= 0:05, es decir: F (0:05; 4; 7) = 4:121: También se ilustra el uso de la tabla que funciona
como calculadora de ésta distribución. Es conveniente realizar varios ejercicios con base en
esta distribución para obtener un mayor dominio sobre el cálculo de los valores de F dada una
probabilidad, o calcular probabilidades a partir de un valor de F .
El valor de se le conoce como nivel de signi…cancia y es la probabilidad de que F (n; m) sea
mayor que FD ; a este valor de FD se le conoce como punto crítico a la derecha de la distribución
F: Es decir:

P (F (n; m) > FD ( ; 4; 7)) =

El valor de está entre 0 y 1 (0 < < 1); la distribución F cumple con la propiedad

1
F (1 ; n; m) =
F ( ; m; n)

Otra propiedad de la distribución F en su relación con la distribución t-student, ésta es:


F ( ; 1; m) = t2 ( =2; m):
116 8. Distribuciones 2 , t, F +

Figura 8.7: Probabilidad a la derecha de 4.12 en una distribución F .

Guía para encontrar los valores críticos para la distribución F

1. Especi…car el nivel de signi…cancia :

2. Determinar los grados de libertad para el numerador glN:

3. Determinar los grados de libertad para el denominador glD :

4. Use la distribución F en CalEst

(a) Valor de cola derecha, describe la probabilidad a la derecha del punto FD (n; m), es
decir: P (F (n; m) > FD (n; m)) =

(b) Valor de cola izquierda; se obtiene la probabilidad a la izquierda del punto FI (n; m)

1
FI (n; m) =
FD (m; n)

Ejemplo 9

Ilustración de propiedad FI (n; m) = 1


FD (m;n)
8.3. La distribución F 117

Figura 8.8: Valores de F para una probabilidad 1 :

Caso 1 glN = 3 y glD = 6; FD ( = 0:05; 3; 6) = 4:757; P (F > 4:757) = 0:05:


Cálculos

1  1 
FI (1 0:05 = 0:95; 6; 3) = = = 0:210
F ( = 0:05; 3; 6) 4:757

Nota. Dada esta propiedad en los libros de estadística, generalmente aparecen los valores de
la distribución F a la derecha.
Una ventaja usando el CalEst es que usando los cursores, puede obtener rápidamente los
valores críticos de F a la izquierda de y a la derecha de :
Caso 2. glN = 6 glD = 3 FD ( = 0:05; 6; 3) = 8:940

1 1 
FI (1 0:05 = 0:95; 3; 6) = = = 0:11183
F ( = 0:05; 6; 3) 8:940

En la Figura 8.8 se ilustra el caso bilateral de la distribución F .

Ejercicios

1. Calcular los valores de F en la distribución F para los siguientes casos:


118 8. Distribuciones 2 , t, F +

F (0:025; 7; 5); F (0:1; 3; 8); F (0:05; 5; 7); F (0:9; 5; 7); F (0:01; 10; 12): Use las
grá…cas y tablas de la distribución F del CalEst.

2. Calcular el valor de F en la distribución F con glN = glD = 24 y = 0:001: Dadas estas


condiciones encontrar la probabilidad a la derecha si F = 3:83.

3. Encontrar el valor crítico derecho de FD cuando los valores de son: = 0:05; = 0:025;
= 0:01 y = 0:005 respectivamente, donde los grados de libertad son: glN = 6 y
glD = 29: Para estas condiciones encontrar el valor crítico a la siguiente FI :

4. Encontrar las probabilidades a la derecha de F = 5:40 para los tres siguientes pares de
grados de libertad i. glN = 4 y glD = 40; ii. glN = 6 y glD = 29; iii. glN = 10 y glD = 12:

5. Si F0 = 4:83 con glN = 4 glD = 8 encontrar las probabilidades P (F (4; 8) > 4:83);
1
P ( F (8;4) < 0:97):
Capítulo 9

Estimación estadística

9.1 Parámetro y estimación


Objetivo: Comprender la importancia de la inferencia estadística

La inferencia estadística es una herramienta muy útil para resolver una gran cantidad de cues-
tiones que se presentan en la vida cotidiana, en el desarrollo tecnológico y en la investigación
cientí…ca. Los problemas citados en la entrada de esta unidad son ejemplos típicos de inferencia
estadística.
En el primer caso, las personas forman un conjunto grande de individuos. A éste se le
denomina población. Para tomar decisiones adecuadas en la dieta alimenticia, es necesario
conocer si un producto alimenticio ayuda en promedio a reducir el IMC -índice de masa corporal-.
Se toma una muestra de personas obesas con la idea de que el promedio de la reducción del IMC
en esa muestra sea una buena estimación del promedio de reducción en toda la población. De
esta manera, se podría decir que el tratamiento para adelgazar fue en promedio efectivo.
En la Figura 9.1, se ilustra una población de personas y en el círculo se describe la muestra.
La esencia de la inferencia estadística es adquirir conocimiento sobre una población a través de
la información proporcionada por la muestra, y así extraer conclusiones generales sobre el objeto
de estudio.
Para hacer inferencia estadística acerca de la media  de la población, debemos comprender
el comportamiento de la media muestral X. El enfoque de esta unidad es comprender cómo
funciona la X para obtener un conocimiento aproximado de la media poblacional.
En la Figura 9.2, el círculo grande representa la población objeto de estudio y el pequeño
se re…ere a la muestra que se toma de la población. En realidad, el círculo de la muestra debe
estar dentro de la población como se indica en la Figura 9.1, pero mediante esta grá…ca puede
visualizarse la relación entre probabilidad e inferencia estadística.
En resumen, necesitamos aprender a calcular la verosimilitud de una muestra particular
seleccionada de una población. En ese sentido, lo que estamos haciendo es recorrer el camino de

119
120 9. Estimación estadística

la población a la muestra, como la ‡echa de arriba en la Figura 9.2. Sin embargo, nuestra meta
…nal es ir de la muestra a la población, esto es, hacer lo que representa la ‡echa de abajo de la
Figura 9.2. Con ello, decimos que se usa la información de la muestra para elaborar a…rmaciones
en términos de probabilidad sobre el comportamiento de la población. Esta temática es un fuerte
componente con temas relacionados con la investigación, se hace un breve resumen de elementos
relacionados con esta área.

Investigación

Tanto las ciencias sociales como las ciencias naturales inician la investigación de una forma
controlada, sistematizada, crítica, con el …n primordial de aprobar o desechar hipótesis como
explicativas de los fenómenos del comportamiento del ser humano. Su punto de partida está
también en la observación de los hechos, en la formulación del problema, en la estructuración de
la hipótesis y en la búsqueda de pruebas para confrontar esas hipótesis, con el …n de establecer
una ley o norma explicativa de la conducta social de los individuos (Tamayo, 2002).

Tipos de investigación cuantitativa

Investigación descriptiva. Se re…ere a la etapa preparatoria del trabajo cientí…co que permita
ordenar el resultado de las observaciones de las conductas, las características, los factores, los
procedimientos y otras variables de fenómenos y hechos. Este tipo de investigación no tiene
hipótesis explicada.
Investigación analítica. Es un procedimiento más complejo con respecto a la investigación
descriptiva, que consiste fundamentalmente en establecer la comparación de variables entre gru-
pos de estudio y de control sin aplicar o manipular las variables, estudiando éstas según se dan
naturalmente en los grupos. Además, se re…ere a la proposición de hipótesis que el investigador
trata de probar o negar.
Investigación experimental. Es un procedimiento metodológico en el cual un grupo de
individuos o conglomerado, son divididos en forma aleatoria en grupos de estudio y control y
son analizados con respecto a un factor o medida que el investigador introduce para estudiar y
evaluar.

Problema 1 Salario profesional

Una cuestión de suma importancia para los profesionistas que acaban de egresar de la universidad
y están en busca de empleo es el salario.
Una universidad le encargó a una empresa que realiza estudios de mercado una encuesta para
saber, entre otros factores, el salario percibido por las personas que terminaron hace tres años o
menos la carrera de ingeniero industrial en diferentes universidades. En este caso la población de
9.1. Parámetro y estimación 121

Figura 9.1: Idea general entre población y una muestra de ella.

Figura 9.2: Descripción del procedimiento de inferencia estadística


122 9. Estimación estadística

Figura 9.3: Tabla de salarios

interés la forman todos los ingenieros industriales que egresaron de las universidades en México
y tienen tres años o menos de haber egresado y están trabajando.

Preguntas sobre la naturaleza del problema

El salario establece el centro de las relaciones de intercambio entre las personas y las organiza-
ciones. Todas las personas dentro de las organizaciones ofrecen su tiempo y su fuerza de trabajo
a cambio de dinero. Esto representa el intercambio de una equivalencia entre derechos y obliga-
ciones recíprocas entre el empleado y el empleador. Varias preguntas surgen para conocer los
niveles de salarios: ¿Qué tan competitivo es el salario de un ingeniero industrial recién egresado?
¿Cómo es este salario con respecto a otras profesiones? ¿Existen empresas que pagan mejor que
otras?

Recopilación de datos

Con el …n de plantear la idea establecida entre los datos de una población y el procedimiento
para obtener una muestra y a partir de ella, realizar la inferencia estadística sobre la población.
Consideremos una población de 50 ingenieros industriales y su salario. En la Figura 9.3 se
identi…ca con ID a los 50 ingenieros para facilitar el procedimiento de extracción de la muestra.
Recordemos que a partir de la información de la muestra pueden conocerse las características
de la población. En este caso, se considera una población pequeña donde se puede calcular su
media y desviación estándar (puedes ejecutar este cálculo en el paquete estadístico que viene en
el CD). La media y la desviación estándar para esta población pequeña N = 50 son:

 = 6170 y  
= 972

(En este caso se expresa la desviación estándar de manera aproximada: 


=)
9.1. Parámetro y estimación 123

El objetivo es observar que cuando se toma una muestra, ésta nos aproxima al valor real de
la media poblacional; en la pr
actica este valor es desconocido:
La media y la desviación estándar para la muestra son X y S , respectivamente. Así,
para estimar la media de la población con la media de la muestra se realiza lo siguiente:

=X un error o  = X + un error

Las preguntas centrales en este caso son: ¿Qué tan pequeño es el error? ¿Con qué con-
…anza obtenemos el resultado? Con el propósito de motivar estas ideas se plantea una estrategia
para seleccionar la muestra.

Procedimiento
Metemos en un caja 50 papeles numerados del 1 al 50 y seleccionamos varias muestras de tamaño
n = 5. Los cinco papeles que salieron para la muestra son: 18, 41, 40, 45, 22 y los salarios
correspondientes son: 4940, 6040, 6350, 5760, 5490. Por lo tanto, la media muestral es:

4940 + 6040 + 6350 + 5760 + 5490


X= = 5696
5
Este valor es una estimación puntual del valor de la media poblacional  . Como se puede
observar existe una discrepancia con el valor real de la media de 474 (valor del error).

 = X + error = 5696 + 474

9.1.1 Estimación puntual


La estimacion es el proceso que permite inferir sobre los posibles valores de los parámetros que
describen la población.
Proceso: Como es muy probable que se desconozcan los valores de los parámetros que
representan a una población, se recurre a la información proporcionada en la muestra para
contar con una idea de los valores de los parámetros. Lo que puede resultar lógico es identi…car
un descriptor numérico para la muestra. Este estadístico, llamado estimaci
on puntual , se puede
usar para estimar la medida correspondiente a la población.
Recordemos que un estadístico es la medida numérica que se calcula a partir de los datos
observados en una muestra

Una estimación puntual es un número calculado a partir de la muestra.


Éste se usa para estimar un parámetro de la población.
124 9. Estimación estadística

Un estimador puntual es una fórmula que se emplea para


calcular la estimación puntual en un conjunto de datos.

Recuerda que un parámetro es una medida numérica de la población. Los parámetros en


realidad son desconocidos.

9.1.2 Muestreo con reemplazo y sin reemplazo


Como se habrá observado, al extraer el papel que identi…que a una persona para conocer su
salario, éste puede regresarse a la caja (con reemplazo) o no regresarlo (sin reemplazo). Reem-
plazar el papel en un millón de casos realmente no importa. De hecho, al reemplazar el primer
papel antes de sacar el segundo, las observaciones en la primera y la segunda extracciones son
totalmente independientes. No obstante, si no se reemplaza el papel, el segundo resultado de la
extracción afectará ligeramente la segunda extracción. En poblaciones pequeñas el efecto sí es
importante.

Muestreo aleatorio simple

El desarrollo matemático es más sencillo si las observaciones son independientes. En esta unidad
se va a suponer el muestreo aleatorio con reemplazo, al cual también suele llamarse muestreo
aleatorio simple.

Ejemplo 1

Siguiendo los datos de salario del Problema 1.


a) Obtener 4 muestras aleatorias simples adicionales de tamaño n = 5, estimar la media en
cada caso y la discrepancia con respecto a la media poblacional  .
b) Seleccionar de manera aleatoria 5 muestras de tamaño n = 10, siguiendo el mismo pro-
cedimiento del inciso anterior, y calcular X y X .
c) ¿Qué diferencias observas en X  para cada uno de los incisos anteriores?
d) Seleccionar la muestra usando el paquete estadístico (módulo Extras, opción Generador
de números) o la tabla de números aleatorios.

Solución
a) En la columna 1 de la Tabla 9.1 se ha reproducido la muestra que se obtuvo en el problema. Las
siguientes muestras fueron seleccionadas mediante el muestreo aleatorio simple. En los últimos
dos renglones se han calculado X y X .
9.2. Distribución muestral de la media muestral 125

b) Ahora extraemos de la caja con reemplazo 10 papeles y anotamos el número que corres-
ponde al salario. Las muestras y los valores seleccionados de 5 muestras de tamaño n = 10 y el
cálculo de X y X  , se presentan en la Tabla 9.1.
c) Observemos que la discrepancia entre la media muestral X y la media poblacional  es
menor cuando la muestra es de mayor tama~
no: ¿Qué piensas que ocurriría si se aumentara el
tamaño de la muestra? ¿Por qué?
d) Usa el generador de números aleatorios que se presenta en el CalEst.

Tabla 9.1 Selección de 5 muestras de tamaño n = 5 y el cálculo de X y X :

9.2 Distribución muestral de la media muestral


Objetivo: Conocer cómo se construye la distribución de la media muestral.

Problema 2 Evaluación continua del aprendizaje

La dirección de una escuela desea dar seguimiento durante el año al aprendizaje global de sus
alumnos. Para ello, cada semana aplica una evaluación a una muestra de 10 estudiantes. Dicha
evaluación consiste en un examen de conocimientos generales y se evalúa en una escala de 0 a
100. Por experiencia, se sabe que la media es  = 60:5 y la desviación estándar es  = 10:5 .
Preguntas sobre la naturaleza del problema
¿Cómo puede haber un conocimiento continúo del desempeño de los alumnos sin la necesidad
de aplicar una evaluación a todos los estudiantes? ¿Cuál es la precisión de la información si
aumenta el número de estudiantes evaluados? ¿Qué información proporciona la media en cada
muestra para contar con una idea clara del aprovechamiento de los alumnos?

Recopilación de datos

Se siguió el siguiente procedimiento.


126 9. Estimación estadística

Figura 9.4: Grá…ca que describe la muestra de cali…caciones para 10 alumnos durante 12 semanas.

1. Para la primera semana seleccionar una muestra de 10 alumnos y calcular la media de las
cali…caciones.

2. Seleccionar una muestra de tamaño n = 10 durante 12 semanas y calcular la media de las


cali…caciones para cada una de las semanas.

3. Bosquejar un diagrama de puntos para las 12 medias del inciso anterior.

Análisis de la información
1. La muestra de n = 10 fue: 71, 62, 66, 51, 65, 67, 47, 60, 50 y 58. La media muestral para
este conjunto de datos es:

71 + 62 + 66 + 51 + 65 + 67 + 47 + 60 + 50 + 58
X= = 59:7
10

Este valor es una estimación puntual de la media  para la población.

2. En la Figura 9.4 se describe la muestra para cada una de las 12 semanas. Los signos +
indican el valor de la media muestral en cada semana. En la Figura 9.4 se puede observar
que en la semana 1 las cali…caciones fueron bajas y el promedio, en este caso, lo re‡eja.
En la semana 2, por el contrario, las cali…caciones fueron altas. Con el …n de observar la
discrepancia de la estimación con respecto al parámetro, se traza la media  como se ve
en la Figura 9.5. Ahí se puede observar que, salvo en las muestras 1 y 2, las medias de las
muestras están muy próximas a .

3. En la Tabla 9.2 se presentaron los valores de las medias en cada muestra. En la Figura 9.6
se describe el diagrama de puntos para estas medias.
9.2. Distribución muestral de la media muestral 127

Figura 9.5: Grá…ca que ilustra las medias de las muestras de cali…caciones para 10 alumnos y su
referencia con la media poblacional.

Tabla 9.2 Medias de cada muesta

Ejemplo 2

Con referencia al Problema 2 describamos la distribución de X para muestras de tamaño n =


6; n = 24 y n = 100.

Solución

Para examinar la distribución de X con diferentes tamaños de muestra se usa la información del
ejemplo anterior. En el primer caso, se obtienen 120 muestras de tamaño n = 6 y se calculan las
medias. La distribución de esas 120 medias se ilustra en el primer histograma de la Figura 9.7,
donde se puede observar la variación de esta distribución.
En el segundo histograma se describe la distribución de X para 120 muestras de tamaño
n = 24. Como se advierte en esta situación, existe menor variación con respecto a la distribución
anterior. Finalmente, se aumentó el tamaño de la muestra a 100, y la distribución de X se
presenta en el tercer histograma. Ahí se observa que los valores de la media muestral están más
próximos al valor de la media  .
128 9. Estimación estadística

Figura 9.6: Diagrama de puntos que ilustra la distribución de las medias muestrales.

Figura 9.7: Histogramas de medias muestrales para una población de estudiantes.

Es claro que la dirección de la escuela adquiere mayor conocimiento de lo que ocurre con sus
alumnos en la medida en que el tamaño de la muestra crezca, pero desde luego tendría que gastar
más recursos y tiempo para obtener esa información.

Resultado teórico

El valor de la media muestral X varía de una muestra a otra. Llamamos a X un estimador


puntual, pero éste también es una variable aleatoria. En unidades anteriores aprendimos que una
variable aleatoria tiene una media, una desviación estándar y una distribución de probabilidad.
De modo que la variable aleatoria X cuenta con una media, una desviación estándar y una
distribución de probabilidad.
Notemos que la media es ahora la media de todos los posibles valores de X y se denota por:

x

Ésta corresponde al parámetro de la distribución de X . La desviación estándar es la


9.2. Distribución muestral de la media muestral 129

desviación estándar de los valores de X y se indica por:

x

De manera análoga, ésta es el parámetro para la desviación estándar de la distribución X .


Mediante métodos matemáticos se puede demostrar que dichos parámetros se relacionaban con
los parámetros de la variable aleatoria X . Esta asociación se establece mediante las expresiones:

x = 
y


x = p
n

En esta última expresión revela que la desviación estándar disminuye en la medida que el
tamaño de la muestra crece.

Ejemplo 3

Si hemos seleccionado una muestra de tamaño n = 10 con  x = 9 , ¿cuántas observaciones más


necesitamos tomar para reducir  x a 4.5, a 3 o a 1?

Solución

La expresión  x = p
n
relaciona la desviación estándar de la media muestral X , la desviación
estándar de la variable X y el tamaño de muestra n. Con la información proporcionada por
los datos se necesita conocer el valor de  . Así, la expresión  x = pn se puede escribir como
p
 = n x ; o  2 = n 2x . Sustituyendo los valores se tiene que  2 = 10  92 = 810 .
Para encontrar un valor del tamaño de muestra se requiere tener los valores de las desviaciones
2
estándar y  x , esto es, n = 2.
x
Entonces, el tamaño de muestra si se desea reducir  x a 4.5,
es:

2 810
n= 2
= = 40
x (4:5)2

Con las 10 observaciones que se tienen, entonces se necesitarán 30 observaciones más.


Observa que habrá un mejor conocimiento sobre los parámetros de la población si hay más
observaciones en la muestra. Esta situación se ve re‡ejada si la desviación estándar  x disminuye;
en tal caso, se dice que aumenta la precisión de la estimación.
130 9. Estimación estadística

Figura 9.8: Descripción de la relación entre la distribución de las variables aleatorias X y X.

Práctica
La …nalidad es ilustrar cómo emplear la distribución normal en el CalEst para mostrar la relación
entre la varianza  2 de la distribución de la variable X y la varianza  2X distribución de la variable
X: Información: se tiene que  2 = 729 ( = 27); n = 9, por lo tanto  2X = 81 ( x = 9): La
Figura 9.8 extiende la idea de la Figura 9.7. La grá…ca de la derecha en la Figura 9.8 muestra
la normal con ( = 60;  = 27) y la de la izquierda es una normal con (x = 60;  x = 9)
distribución muestral. A partir de esta descripción se pueden realizar varios ejercicios para
estudiar y comprender esta relación. Esta práctica será de mucha utilidad para comprender los
conceptos que exponen diferentes libros sobre inferencia estadística, y reproducir la descripción
grá…ca que presentan sobre la distribución normal, la normal estándar y la t-Student.

Resultado técnico
Si las mediciones de X vienen de una distribución normal, se sigue que la distribución muestral
de X también es normal, Figura 9.8.
En el proceso de estandarizar, ésta se puede escribir como una normal estándar. Como se
indica por la siguiente expresión:

X x X 
z= =
x p
n
9.3. Teorema de límite central 131

Ejemplo 4

El pH mide la alcalinidad o acidez de una sustancia química. En un proceso de elaboración de


harinas, X es la variable aleatoria que mide el pH y se considera que ésta tiene una distribución
normal con parámetros  = 5:30 y  = 0:4 . Se toman 25 mediciones aleatorias en un nuevo
proceso con una media de pH de 5.10. Una media más pequeña a este valor resulta crítica para el
proceso. ¿Cuál es la probabilidad de obtener una media por abajo de 5.10? Ilustrar este ejemplo
usando la distribución normal en el CalEst.

Solución

Como la distribución normal de X con parámetros  = 5:30 y  = 0:4 , entonces X, tendrá


una distribución normal con media  = 5:30 y desviación estándar  x = p
n
= 0:4
p
25
= 0:08 . La
probabilidad es:

!
X x X  5:10 5:30
P (X  5:10) = P = = = P (z  2:5)
x p 0:08
n

Puesto que z es una variable normal estándar, su probabilidad la podemos obtener usando
el paquete estadístico o las tablas de probabilidad. En este caso se encuentra que un valor
P (z  2:5) = 0:006 , lo que indica que hay pocas posibilidades de obtener una media muestral
por debajo de 5.10; por lo tanto, el nuevo proceso no afecta el pH.

9.3 Teorema de límite central


Objetivo: Comprender lo que se conoce como teorema de límite central y la importancia del
resultado en la inferencia estadística.
En función de los resultados observados en el Ejemplo 3, se ve que cuando se aumenta el
tamaño de muestra la distribución de X se aproxima a una distribución normal. Esta situación
es importante y se enuncia en lo que se conoce como teorema de l{mite central.

Teorema de límite central


Si se seleccionan muestras aleatorias de tamaño n de una población,
sin importar la forma de su distribución, con media  y desviación
estándar ; cuando n es su…cientemente grande, la distribución de
la variable X se aproxima a la distribución normal con

 Media X ; tal que X = ; y


 Desviación estándar  X igual a p
n
132 9. Estimación estadística

Figura 9.9: Ilustración de la distribución muestral para diferentes tamaños de muestra cuando
la población original no tiene una distribución normal.

Este resultado es muy apropiado, dado que especi…ca la distribución X para muestras grandes.
Por lo general, desde un punto de vista práctico es su…ciente con que el tamaño de n sea de 20 o 30
para considerar la distribución de X como normal. Recurriendo a la simulación por computadora,
en la Figura 9.9 se muestran algunos casos.
En referencia a la Figura 9.9, se observa la forma de la distribución de la población examinando
un histograma de las observaciones en la muestra. En el primer caso se presenta una distribución
triangular. Si se selecciona una muestra de tamaño n = 1, la forma de la distribución muestral
dada por el histograma es similar a la de la población. Si el tamaño de muestra n crece, la
distribución de X se aproxima a una normal.
Una situación similar ocurre cuando la distribución de la población es uniforme. Si la muestra
es de tamaño n = 1, el histograma reproduce la distribución original. Si n crece, la distribución
de X se aproxima a una normal.

Ejemplo 5

Una empresa que manufactura aparatos eléctricos efectúa pruebas de habilidad y destreza durante
el proceso de contratación de personal. La cali…cación de esas pruebas conforman una población
con una media  = 100 y desviación estándar  = 32 . ¿Cuál es la media x y la desviación
9.3. Teorema de límite central 133

estándar  x de una distribución muestral X cuya muestra es de tamaño n =  x ? ¿Cuál es la


probabildad de la cali…cación de la media muestral este entre 90 y 120?

Solución

En este caso se desea conocer los parámetros x y  x de la distribución muestral X ; entonces,


se recurre a los resultados del teorema del límite central. Para ello se utilizan las expresiones:


x =  y  x = p
n

Se tiene que x =  = 100 y  x = p


n
= p32
16
=8.
Utilizando la distribución normal del CalEst con parámetros ( = 100;  x = 8) se tiene que
P (90  X  120) = 0:888: El resultado mediante la normal estándar es: P ( 1:25  Z  2:5) =
0:888

Ejercicio 1

Una población normal tiene media 200 y desviación estándar 100. Suponga que la distribución
de la media muestral es generada por muestras de tamaño n = 100. a. Encuentre el valor de x .
b. Encuentre  x . c. Encontrar P (195  X  205): d. Encontrar P (X > 210): e. Si un valor de
X es seleccionado, encontrar P (195  X  205): Compare con el inciso c. f. Si un valor de X
es seleccionado, encontrar P (X > 210): Compare con el inciso d.

Ejercicio 2

Repita el ejercicio si n = 400: ¿Qué observa con respecto a las probabilidades en los incisos c y
d en los ejercicios 1 y 2?

Ejercicio 3

Una población normal tiene media 200 y varianza 144. Suponga que la distribución de la media
muestral es generada por muestras de tamaño n = 36. a. Encuentre los valores de x . y  x . b.
Obtener P (320  X  322): c. Obtener P (X > 323): d. Obtener P (321 < X < 327):

Resumen del teorema del límite central


Se pueden combinar los tres puntos del teorema del límite central, y se obtiene la Figura 9.10,
en la cual se describe la distribución muestral X cuando n es su…cientemente grande. De la pre-
sentación de la distribución normal se sabe que 68% de los valores caen dentro de una desviación
134 9. Estimación estadística

Figura 9.10: P (42  X  78) ' 0:95, el caso de dos desviaciones alrededor de la media, esta
varia para diferentes valores de n:

estándar de la media. Mientras que 95% cae dentro de dos desviaciones estándar de la media y
99.7% cae dentro de tres desviaciones estándar de la media.
Con respecto a la variable aleatoria X, se puede advertir que 68% de las veces observaremos
una media muestral que cae dentro de una desviación estándar de una media poblacional 
desconocida. De manera similar, 95% de las veces observaremos una media muestral que cae
dentro de dos desviaciones estándar de  , y 99.7% de las veces observaremos una media muestral
que cae dentro de tres desviaciones estándar de  . Esta idea da lugar al concepto conocido como
intervalo de con…anza o una estimación por intervalo, que se verá más adelante.

Relación con la Binomial

Una de las aplicaciones más importantes del teorema del límite control, es su relación con las
variables aleatorias normales. Considere la variable aleatoria binomial X con parámetros (n; p);
donde X representa el número de éxitos que n ensayos independientes con probabilidad de éxito
p cada uno de ellos. La variable X se expresa como:

X = X1 + X2 + ::: + Xn
9.3. Teorema de límite central 135

Figura 9.11: Distribución binomial para p = 0:3, para diferentes valores crecientes de n:

donde

1 si el ensayo i-ésimo es un éxito
Xi =
0 si el ensayo i-ésimo es un fracaso

Puesto que la media de Xi  = E(Xi ) = p y la varianza de Xi es V ar(Xi ) = p(1 p) entonces


por el teorema de límite central, la variable

X np
p ;
np(1 p)

para n grande, será aproximadamente una variable normal estándar. Esta situación se puede
ilustrar de manera visual, utilizando el CalEst.

Ejemplo 6

Ilustre en la opción de distribuciones en CalEst, la distribución binomial con (n; p) = (10; 0:3);
varíe esta distribución haciendo crecer n; por ejemplo (20; 0:3); (30; 0:3); (60; 0:3):Esta situación
se ilustra en la Figura 9.11.
Nota. Se pueden ilustrar varios casos combinados p y poniendo diferentes valores n; tal que
n vaya creciendo.
136 9. Estimación estadística

Figura 9.12: Ilustra el teorema de límite central, distribución uniforme n = 1, luego con n = 9:

Ejercicio 4

En una escuela el 60% de los estudiantes no recibe atención médica, se selecciona una muestra
de 150 estudiantes. Si la variable aleatoria X -no recibe atención médica- tiene una distribución
binomial. Estime la probabilidad de que a. X está entre 82 y 101. b. X mayor que 97.

Ejercicio 5

Una encuesta realizada en una ciudad, a gran escala, revela que el 30% de la población adulta
consume regularmente bebidas alcohólicas durante la comida. Considerando esta proporción,
¿cuál es la probabilidad de que de 1000 entrevistados el número de consumidores de bebidas
alcohólicas sea a. menor a 280, b. 316 o más?

Ejemplo 7 (Teorema de límite central lanzando dados)

Se muestra el teorema con el lanzamiento de dados. Así se lanza un dado n = 1, el modelo


para este experimento es una distribución uniforme. Vea esta situación visualmente usando la
opción TLC en el programa, lance 1000 veces el dado de 100 en 100 ¿Qué observa? El número
de lanzamientos del dado puede seguir creciendo. Ahora lance 5000 veces el dado de 100 en 100
vaya observando los cambios en la distribución.
Repita el mismo procedimiento lanzando los dados 1000, 2000, 3000, 4000 y 5000, variando
el números de dados lanzados, por ejemplo para n = 2; n = 3; n = 4; n = 5 y n = 10: Realice
esta actividad varias veces. En cada caso la distribución tiende a hacerse simétrica.
En la Figura 9.12 se ilustra el caso con un dado, distribución aproximadamente uniforme,
nueve dados distribución cercana a una normal.
9.3. Teorema de límite central 137

Práctica
1. Lanzar un dado 10 veces, registrar el número x que muestra el dado al caer. Calcule la
media.

Lanzamiento Tamaño de muestra n = 10 x

1 6 3 2 2 5 1 4 4 1 3 3.1

2. Repita este procedimiento 24 veces. Haga el histograma para las 25 medias. Calcule la
media y la varianza de estos 25, medias, datos.

2
3
4
5
6
7
8
9
10
11
12
13
14
15

16
17
18
19
20
21
22
23
24
25

Nota. El modelo probabilístico al lanzar un dado, tiene una distribución uniforme P (X) = 16 ;
X = 1; 2; 3; 4; 5; 6 con media

6
X            
1 1 1 1 1 1
= Xi P (Xi ) = 1 +2 +3 +4 +5 +6 = 3:5
i=1
6 6 6 6 6 6
138 9. Estimación estadística

6
X 6
X
2 = (Xi )2 P (Xi ) = Xi2 P (Xi ) 2 =
i=1 i=1

           
1 1 1 1 1 1
1 +4 +9 + 16 + 25 + 36 (3:5)2 = 2:92
6 6 6 6 6 6

así

p
= 2:92 = 1:71

Por el teorema de límite central

 1:71
x =  = 3:5;  x = p = p  = 0:54
n 10

¿Qué tan aproximados son estos valores con los estimados en la práctica?

Ejemplo 8

Suponga que el peso X de un adulto hombre se distribuye como una normal con media  = 77
kg., y  = 9 kg. Es decir X  N (77; 92 ): Si tomamos una muestra de 16 adultos. ¿Cuál es la
probabilidad de que la media caiga entre 73 y 82 kgs? Observe esta situación y haga los cálculos
usando el CalEst.
Usando el programa con la distribución normal con media 77 y desviación estándar p916 = 2:25
se obtiene que P (73  X  82) ' 0:949; para normal estándar: P ( 1:778  Z  2:222) ' 0:949:
Si se calcula la probabilidad que un adulto seleccionado al azar tenga un peso entre 73 y 82
kg.

P (73  X  82) ' 0:382

9.4 Intervalos de con…anza para la media


9.4.1 Muestras grandes
Objetivo: Conocer el procedimiento para obtener la estimación por intervalo de con…anza de la
media poblacional  .
9.4. Intervalos de con…anza para la media 139

9.4.2 Ideas preliminares


Para saber cuánto gana en el mercado laboral un ingeniero industrial recién egresado, se toma
una muestra de tamaño n = 30 (se les pregunta su salario). Con la información proporcionada
por la encuesta se obtiene una media de X = 6200 del salario. La media muestral X es una
estimación puntual con…able de  , pero probablemente no esté exactamente sobre la  . En
lugar de esta idea, se puede especi…car con una alta probabilidad digamos de 0.90 o 0.95— que un
rango en particular cubre la verdadera media. Por ejemplo, a partir de los datos de la muestra,
se puede decir que el intervalo de 6100 a 6300 cubre la media  con una probabilidad de 0.95.
Esto es un ejemplo de un intervalo de conf ianza. Veamos ahora cuáles son los componentes
de un intervalo de con…anza. Dicho intervalo comprende dos límites: uno inferior IN y otro
superior SU . En el ejemplo citado IN = 6100 y SU = 6300. Por otro lado, el intervalo de
con…anza tiene un valor de probabilidad, el cual suele conocerse como nivel de conf ianza y se
denota por 1 . Para el ejemplo será: = 0:05 y 1 = 0:95 . Expresado en términos de
porcentaje se dice que hay un intervalo de 95% de con…anza.
En general, un intervalo de con…anza para la media poblacional presenta la forma:

P (IN    SU ) = 1

9.4.3 Intervalo de con…anza para cuando la población es normalmente


distribuida y la desviación estándar es conocida
Con el …n de ilustrar el procedimiento para la estimación por intervalo de media  , se propone
que la muestra sea seleccionada de una población cuya distribución es normal y en el supuesto
de conocer la desviación estándar. No obstante, en la práctica el valor de  no se conoce, aunque
más adelante veremos cómo obtener un intervalo de con…anza sin estos supuestos.

Detalles técnicos

Para hallar el intervalo de con…anza necesitamos calcular los valores de los límites inferior IN
y superior SU . Como sabemos, la X calculada de la muestra no será exactamente igual a la
media; por tanto, lo primero que debe hacerse es establecer el tamaño de un cierto margen de
error (e), conocido como error muestral, así:

=X e

De esta manera, los límites inferior y superior del intervalo de con…anza son:
140 9. Estimación estadística

IN = X e
SU = X + e

Recordemos que para cubrir 95% de los valores de una distribución normal se tiene que:

P ( 1:96  z  1:96) = 0:95

Considerando la distribución muestral de X se tiene que ésta en forma de una normal estándar
se escribe como:

X 
z= p
= n

Se sustituye ésta en la expresión anterior y se simpli…ca; entonces:

 
P (X 1:96 p    X + 1:96 p ) = 0:95
n n

Reuniendo esta información tenemos que el error (e) es:


e = 1:96 p
n
Por consiguiente, los límites inferior y superior son:

 
IN = X 1:96 p SU = X + 1:96 p
n n

Resumen de los intervalos de con…anza para 

Desviación Tamaño de Intervalo de


Población
estándar muestra con…anza para 
IN =X z =2 pn
Normal Conocida n1
SU =X + z =2 pn
IN =X z =2 pSn
Normal Desconocida n > 30
SU =X + z =2 pSn
IN =X t =2 pSn
Normal Desconocida n  30
SU =X + t =2 pSn
IN =X z =2 pn
No normal Conocida n > 30
SU =X + z =2 pn

Tabla 7.4 Intervalos de con…anza para .


9.4. Intervalos de con…anza para la media 141

Figura 9.13: Intervalo de con…anza para la media.

Una expresión general para el error (e), también conocido como precisión, éste se expresa
por:
 
e = z =2 p o e = t =2 p (9.1)
n n

Ejemplo 9

En el estudio del tiempo de respuesta para resolver un rompecabezas sobre la República Mexi-
cana, aparece en la columna tiempo del archivo: est.tab contenido en la opción de herramientas
del programa. Se desea estimar un intervalo del 95% con…anza, en este caso como el tamaño
de muestra es mayor que 30, se puede usar la distribución normal estándar z. En el grupo de
inferencia aparece la alternativa de intervalos de con…anza, al seleccionarla aparece una tabla
como la que se muestra a la izquierda en la Figura 9.13 se completan los cuadros en blanco, se
da aceptar a continuación se proporciona el resultado.
Note que las elecciones Múltiple niveles permite observar el tamaño del intervalo según los
niveles de con…anza que se utilicen y Múltiple desviaciones permite considerar otros intervalos
en términos a la desviación estándar. Estas observaciones están relacionadas con la expresión
(9.1). Compruebe que la longitud de los intervalos también dependen del tamaño de muestra
n, a medida que n crece, se cuenta con mayor información la precisión de los intervalos es
mejor.Veri…que estas diferentes situaciones usando el programa.
142 9. Estimación estadística
Capítulo 10

Inferencia estadística

10.1 Presentación
La inferencia estadística es un procedimiento cuyo objetivo es generar una conclusión sobre
una población, mediante la información que proporciona una muestra seleccionada de datos. Una
rama importante de la inferencia es la prueba de hipótesis. Éste consiste en un procedimiento
para seleccionar entre dos hipótesis, conocidas como hipótesis nula e hipótesis alternativa. Una
hipótesis es una a…rmación que expresa el valor del parámetro de una población, por ejemplo
la media poblacional : En la prueba de hipótesis, la idea es dar el bene…cio de la duda a la
hipótesis nula, si el valor del parámetro es razonable. La hipótesis nula se rechaza solo si los
datos de la muestra indican que el valor del parámetro es no razonable, esto se verá con mas
detalle en el análisis de datos. Formalmente:
Hipótesis nula, es una proposición que indica que no hay diferencia (no hay efecto, no hay
cambio). Ésta se plantea usualmente en términos del parámetro (medida de la población) y
contiene el signo igual, ésta se denota por H0 .
Hipótesis Alternativa, es una a…rmación que indica la verdad del parámetro en lugar de
la hipótesis nula. Usualmente se expresa con los símbolos <; > o 6=. Éste se denota por H1 :

10.2 Prueba de hipótesis: utilizando el CalEst


En esta parte, se considera una serie de ejemplos para ilustrar cómo funciona CalEst para realizar
pruebas de hipótesis.
Considere la siguiente situación: Un neurólogo y un sicólogo quieren tener estrategias para
estudiar el desarrollo del cerebro en diferentes personas. Evaluar esta estrategia y conocer el
desarrollo del cerebro, utilizan una fotografía de granos de café y en la que hay que identi…car la
cara de un hombre escondida entre los granos. El tiempo de respuesta de los individuos sometidos
al estudio les indicará que tan desarrollado tienen el cerebro. Ellos contemplan que por lo general

143
144 10. Inferencia estadística

las persona reaccionan de manera lenta ante este tipo de situaciones, en este caso suponen que
el tiempo de respuesta es menor a 130 segundos. En este estudio las hipótesis son:

H0 :  = 130
H1 :  < 130

Los investigadores aplicaron la foto a 120 personas los resultados obtenidos: X = 124:8 y
una desviación estándar S = 38:6, lo que genera un error estándar pS
n
= 3:52: La idea del
procedimiento para realizar la prueba de hipótesis se describe en la Figura 10.1. A la derecha
se ha descrito la normal con media 130 y desviación estándar 3.52 que caracteriza a la hipótesis
nula. A la izquierda, con el …n de …jar ideas, se ha considerado una normal con media 120
y desviación estándar 3.52 que representa a una de las alternativas posibles. Se determinó un
umbral, X = 124:21; punto de referencia, en lo sucesivo se llamará punto crítico, que permitirá
establecer una estructura probabilística para no rechazar o rechazar la hipótesis nula y, en lo
sucesivo, tomar una decisión. Por ejemplo, decir que el valor de x está tan lejos de 130 que
es improbable, se dice que ese valor tiene una probabilidad baja. Esta probabilidad se conoce
como nivel de signi…cancia de la prueba. Este se denota por ; probabilidad de rechazar una
hipótesis nula verdadera: observe el área a la izquierda de la distribución normal derecha (color
rojo), y cambia de una prueba de hipótesis a otra. Note que:

 = P (X  xc ) = P (X  124:21) = 0:0499 ' 0:05:

 = P (X > xc ) = P (X  124:21) = 0:116; probabilidad considerando la distribución


normal izquierda (curva verde).

La información recabada por los datos permiten calcular la media xm , información de la


muestra, si esta cae a la izquierda del punto crítico se dice que los datos no apoyan a la hipótesis
nula y por lo tanto se rechaza. En el otro caso, si cae a la derecha no se rechaza la hipótesis
nula. Una alternativa para la prueba de hipótesis es usar el nivel de signi…cancia descriptivo
o valor p. En este caso la probabilidad es:

 p = P (X  xm ) = P (X  124:8) = 0:0698; en esta situación se compara éste valor con


el nivel de signi…cancia : Así como p = 0:0698 > 0:05 = , se concluye no rechazar la
hipótesis nula.

Observe cómo las grá…cas de la Figura 6.1 describen las situaciones posibles y las decisiones
potenciales relacionadas en la prueba de hipótesis. La grá…ca sugiere dos tipos de errores al
realizar la prueba, el área a la izquierda del punto crítico bajo la hipótesis nula indica que se
10.2. Prueba de hipótesis: utilizando el CalEst 145

Figura 10.1: Grá…cas de la función normal para la hipótesis nula y una alternativa …jada con
anterioridad.

rechaza H0 cuando en realidad H0 es verdadera. El otro, el área a la derecha del punto crítico
considerando la hipótesis alternativa indica que no se rechaza H0 ; en realidad, H0 es falsa. En
resumen:

Hipótesis nula
Decisión H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta : Error tipo II
Rechazar H0 : Error tipo I Decisión correcta

10.2.1 Utilidad de la opción didáctica H0


Las ideas mostradas en la Figura 10.1 se pueden extender para ilustrar otras pruebas de hipótesis
bajo la distribución normal. Para ello primero tiene que identi…car el estadístico x, éste es la
variable aleatoria que va en el eje horizontal. A continuación debe calcular el error estándar
de x; que aquí se ha escrito simplemente por la letra griega : Varios de estos valores x y
su respectivo  se explicarán más adelante. Estos comprenden pruebas tales como la de una
proporción, diferencia de proporciones, diferencia de medias, pendiente de una recta. Estas ideas
son similares cuando se realiza la prueba de hipótesis usando la distribución t-Student.
Primero se recordará el procedimiento para realizar una prueba de hipótesis, éste es el que
146 10. Inferencia estadística

plantean la mayoría de libros de estadística, y se resume en siete pasos:

1. Plantear una hipótesis nula, H0 .

2. Establecer la hipótesis alternativa, H1 .

3. Proponer un nivel de signi…cancia.

4. Encontrar un valor de referencia (punto crítico) a partir de una distribución de probabilidad


(por ejemplo t-student, ji-cuadrada, normal,...)

5. Calcular el estadístico de prueba correspondiente utilizando los datos de la muestra.

6. Comparar el valor del estadístico calculado con el punto crítico.

7. Dar una conclusión.

El planteamiento general de las hipótesis es:


La hipótesis nula
H 0 :  = 0

La hipótesis alternativa es alguna de las siguientes opciones:

1. H1 :  < 0
2. H1 :  > 0
3. H1 :  6= 0

Las dos primeras se les conoce como pruebas de un lado y la tercera como prueba bilateral.
En un apéndice al …nal de este apartado se muestra un ejemplo de la lógica de la prueba de
hipótesis.

10.2.2 Observaciones que surgen de las bondades de utilizar el CalEst:


1. Todos estos conceptos e ideas se plantean en la Figura 10.1.

2. Para realizar una prueba de hipótesis en el caso de la distribución normal, aplique esta
distribución en el CalEst:

(a) Primero escriba el valor de la media  y de enter -teclado de la computadora-, luego


escriba el valor del error estándar . Con el valor del nivel de signi…cancia encuentre
el valor crítico xc éste servirá de referencia para evaluar si los datos apoyan a la
hipótesis nula, una vez calculado el valor del estadístico x, x si se re…ere a la media
10.3. Prueba de hipótesis para una media 147

muestral. Este punto resume todos los siete pasos del procedimiento de la prueba de
hipótesis. Ver ejemplo 1 para captar la idea y luego se puede aplicar a otros ejemplos
y ejercicios.

(b) El procedimiento que trae la mayoría de libros comprende a la distribución normal


estándar. En ese caso habrá que calcular el valor zc en un normal estándar y éste
corresponde al valor de signi…cancia :

(c) Una alternativa para realizar una prueba de hipótesis es calcular la probabilidad, nivel
de signi…cancia descriptivo, p = P (X < x) o p = P (X > x): El procedimiento consiste
en comparar éste valor con el nivel de signi…cancia ; si p < se rechaza la hipótesis
nula, no se rechaza en caso contrario, es decir, p > :

3. Use la distribución normal y elabore dos grá…cas de la normal con los parámetros (; )
correspondientes al problema. En la primera use el umbral para referirse al punto crítico,
en la otra ponga el umbral en el valor del estadístico de prueba, analice esta información
grá…ca. Compare los niveles de signi…cancia y p -descriptivo. Nota. Reduzca el tamaño
de las grá…cas para que pueda realizar el estudio.

4. Estas ideas se aplican a pruebas de hipótesis para estadísticos que siguen una distribución
t-Student, F , o 2 .

Ejercicio 1

Del bloque didáctica en CalEst use la opción hipótesis para ilustrar las situaciones : H1 :  < 0 ;
y H1 :  > 0 para diferentes valores del nivel de signi…cancia y de :

10.3 Prueba de hipótesis para una media


10.3.1 Caso muestras grandes
Ejemplo 1. Caso prueba bilateral o de dos colas

En un proceso de llenado, el peso de bolsas de uvas pasas no debe pesar ni más ni menos de 336
gramos. Para veri…car que el proceso cumple con esta especi…cación el responsable del proceso
toma una muestra de 40 bolsas de un lote de producción. La media del peso de estas bolsas
fue de xm = 329:91 -valor en la muestra-, con una desviación estándar de s = 11 Nota: No se
proporciona el valor de , pero dado que el valor de la muestra es grande, se usará el valor de s
como un estimado, así  = 11:
148 10. Inferencia estadística

Figura 10.2: Prueba de hipótesis aplicando la opción de la distribución normal en CalEst.

Solución.
Las hipótesis que se plantean para describir esta situación son:

H0 :  = 336
H1 :  6= 336

Para veri…car si los datos apoyan la hipótesis nula con un nivel de signi…cancia de =
0:05(5%):
En la Figura 10.2 se resume el procedimiento de los siete pasos para realizar una prueba
de hipótesis. En ésta, se describen los dos umbrales tanto en la grá…ca cómo en la calculadora
-tabla-, éstos corresponden a una prueba bilateral -dos colas-. En la grá…ca por cuestiones de
compilación se han redondeado los valores. El procedimiento indica que se debe comparar el valor
del estadístico xm = 329:91 con el valor crítico xc = 332:6: En este caso resulta que xm < xc , por
lo que se rechaza la hipótesis nula.
Observación. En la mayoría de los libros de estadística realizan la prueba de hipótesis usando
la distribución normal estándar Z, así construyen el valor del estadístico Zm en función de la
información generada por la muestra y este se compara con el valor de Z considerando el nivel
10.3. Prueba de hipótesis para una media 149

de signi…cancia . Se comparan estos dos valores para evaluar si los datos apoyan la hipótesis
nula. Siguiendo esa línea a continuación se describe el procedimiento.

Prueba aplicando la distribución normal estándar.

Bajo el supuesto de que la hipótesis nula es verdadera, se realiza el cálculo del estadístico de
prueba.

Xm  329:91 336
Zm = p = p = 3:5
= n 11= 40

El valor de Z en la distribución normal correspondiente al valor de = 0:05 es zc = 1:96:


Recuerde que en la distribución normal en el CalEst se reportan los valores estandarizados de
Z; vea la grá…ca en la Figura 10.2. A partir de esos valores se puede obtener la conclusión de la
prueba de hipótesis.
El detalle del procedimiento de la prueba de hipótesis con la normal estándar sigue a con-
tinuación. Observe la grá…ca en la Figura 10.3 generada por CalEst, entre los valores de los
umbrales (puntos críticos) se tiene la región de no rechazo, a la izquierda del umbral 1 y a la
derecha del umbral 2 se tiene la región de rechazo. El área sombreada corresponde al nivel de
signi…cancia, =2 = 0:025 a la izquierda y =2 = 0:025 a la derecha. Una alternativa es usar las
tablas de la distribución normal, el equivalente en CalEst es usar la calculadora de la normal
tal y como se ilustra a la derecha de la grá…ca en la Figura 10.3.
Dado que zm < zc , se rechaza H0 : Conclusión: esta situación indica que las bolsas de uvas
pasas dan menos del peso que se espera. Por lo tanto habrá que estudiar el proceso para lograr
que las bolsas den el peso.

Prueba usando la información de la muestra


Alternativamente se complementa la información calculando el intervalo de con…anza de (1 )%:
En este ejemplo se establece el del 95%

(X Z =2 pn ; X + Z =2 pn )
(329:91 1:96(1:74); 329:91 + 1:96(1:74))

Reporte: Intervalo de con…anza del 95% es:

(326:4996; 333:3204)

Nota: Este intervalo no contiene a  = 336, lo que con…rma lo dicho por la prueba de
hipótesis.
150 10. Inferencia estadística

Figura 10.3: Descripción de los valores críticos en una prueba de hipótesis bilateral

El proceso operativo de la prueba de hipótesis se puede realizar utilizando CalEst, para ello
hay que ir a la opción: Inferencia, Prueba de hipótesis 1 una media y aparece el cuadro como se
muestra en la Figura 10.4, este se completa con la información generada por los datos muestrales,
enseguida se oprime el botón Aceptar y se despliega la información desarrollada en el ejemplo 1.
La salida de los resultados mediante el CalEst se muestran en la Figura 10.5, en este reporte
se obtiene el estadístico calculado y los valores críticos; de esta manera obtiene la información
para poder concluir si rechazar o no rechazar la hipótesis nula. En esta Figura se destaca la parte
visual del software, a la derecha se ilustra la grá…ca de la distribución normal, sin necesidad de
pasar por el proceso de estandarizar la normal, se ven los valores críticos. Así se tiene que la
media X m = 329:91 es menor que el valor crítico X c = 332:6 y sigue la conclusión ya anotada.
Esta situación esta descrita con más detalle en la Figura 10.2

Prueba mediante la comparación de probabilidades

Se puede observar que en el cuarto renglón de resultados aparece un valor de p, Figura 10.5, éste
corresponde a la probabilidad que deja a la izquierda el estadístico calculado, también denomi-
nado nivel de signi…cancia descriptivo. En símbolos P (Z  3:5) = 0:00046, esta probabilidad
se compara con el nivel de signi…cancia ; esta es otra alternativa para decidir sobre la hipótesis
nula. Por lo tanto si p < , se rechaza H0 , haga las grá…cas en el software para ilustrar los valores
10.3. Prueba de hipótesis para una media 151

Figura 10.4: Descripción del procedimiento para realizar la prueba de hipótesis para una media
usando el CalEst.

de y p use también las tablas para estimar los valores. Note que en el caso de las pruebas
bilaterales se tiene 2 ; en ese sentido se tiene el valor correspondiente de p para los dos lados.
Comentario: así la presentación visual y operativa del procedimiento de la prueba de hipóte-
sis le generará bene…cios en la comprensión de los conceptos y desarrollo de esta metodología
estadística. Este mismo mecanismo se aplica en otras pruebas de hipótesis aplicando estadís-
ticos con base en otras distribuciones de probabilidad; lo que le permitirá evaluar los ejemplos
planteados por otros libros y resolver los ejercicios que éstos proponen.

Ejemplo 2.

Un ingeniero de un proceso de curtiduría plantea que el índice de elongación de una piel, debe
estar arriba de 64 unidades. En una muestra de n = 45 pieles, la media del índice de elongación
es de x = 65:5 y desviación estándar de  = 3:5, ésta se escribe en función del parámetro dado
que la muestra es su…cientemente grande.

Solución.
Las hipótesis correspondientes en este ejemplo son:

H0 :  = 64
H1 :  > 64

El nivel de signi…cancia es = 0:05 ver Figura 10.6, de esta manera la región de rechazo se
establece por:
= P (Z  1:644) = 0:05
152 10. Inferencia estadística

Figura 10.5: Resultados que se obtiene al efectuar una prueba de hipótesis utilizando el CalEst

Por lo tanto el valor crítico es zc = 1:644: El valor estadístico de prueba se obtiene por:

65:6 64 1:6
zm = p = = 3:07
3:5= 45 0:5217

Al comparar zm con zc se observa que zm > zc ; por lo tanto se rechaza la hipótesis nula y
efectivamente el índice de elongación está por arriba de 64 unidades.
Considerando el nivel de signi…cancia descriptivo p se tiene que:

p = P (Z  3:07) = 0:00107

Lo que con…rma la decisión planteada, se rechaza H0 porque p < = 0:05. La información


proporcionada por esta muestra permite concluir que las pieles tienen una elongación mayor a
64:
Intervalo de con…anza del 95%: Alternativamente se puede estimar el intervalo de con…anza
(1 )%, la expresión es:
 

x  Z =2 p :
n

Si = 0:05; entonces el intervalo de con…anza del 95% de con…anza es:


10.3. Prueba de hipótesis para una media 153

Figura 10.6: Descripción del punto crítico

(65:6 1:96(:5217); 65:6 + 1:96(:527))


(64:577; 66:623)

Realice este procedimiento empleando CalEst.

Ejemplo 3.

Una escuela aplica una prueba de 100 preguntas para conocer el conocimiento general de sus
estudiantes. Para ello se tomó una muestra de 45 estudiantes al …nalizar el ciclo escolar de
primaria. El director de la escuela considera que se tiene un nivel bajo si la prueba arroja una
media menor a 70 puntos.

Solución.
Los valores alcanzados en la prueba se resumen por la siguiente información:

La media X = 68:14; la desviación estándar  = 10:34 y el tamaño de muestra n = 42:

Las hipótesis planteada por el director se establecen por:

H0 :  = 70
H1 :  < 71

El director quiere ser conservador ante la posibilidad de cometer el error tipo I y propone
el nivel de con…anza = 0:02. Previo al análisis, construya la distribución normal en CalEst
empleando la información proporcionada, con ayuda de la grá…ca y los datos obtenga sus con-
clusiones. Luego compare éstas con los resultados que se dan a continuación.
154 10. Inferencia estadística

Figura 10.7: Resultados de la prueba de hipótesis utilizando CalEst.

El reporte proporcionado utilizando CalEst se muestra en la Figura 10.7


El desarrollo más detallado se describe a continuación, estadístico de prueba:

68:14 70
zm = p = 1:17
10:34= 42

El valor del punto crítico: = P (Z  2:05) = 0:02: Puesto zm > zc = 2:05; no se rechaza
la hipótesis nula y por lo tanto la escuela no tiene un nivel bajo considerando el criterio del
director. Alternativamente con el nivel de signi…cancia descriptivo:

p = P (Z  1:17) 
= 0:12

Se con…rma que no se rechaza H0 puesto que p >


Finalmente el intervalo de con…anza del 98% es:

   
10:34 10:34
(68:14 2:05 p ; (68:14 + 2:05
42
p
42
(64:429; 71:852)
10.4. Prueba de hipótesis para una proporción 155

10.4 Prueba de hipótesis para una proporción


Las pruebas de hipótesis sobre proporciones se emplean en muchas actividades de investigación.
Por ejemplo conocer la proporción de personas que están a favor de una propuesta después de
una campaña publicitaria, los elementos que intervienen en un ejemplo como estos son:

Prueba: consiste en seleccionar de manera aleatoria una persona



Exito = E, la persona seleccionada está a favor de la propuesta
F alla = F , la persona seleccionada no está a favor de la propuesta
P (E) = p, la proporción de los participantes a favor de la propuesta
P (F ) = q = 1 p, la proporción de los participantes en contra de la propuesta
n, número de pruebas, es decir, número de participantes en la muestra
x, número de éxitos,
p es estimado por pb = x
n

Si np  5 y n(1 p)  5 para una distribución binomial, entonces la distribución muestral


para pb es normal con
p
p) = p y  pb = (b
pb = (b p) = p(1 p)=n

Use la distribución binomial en CalEst para observar esta situación, para ello …je un valor de
p e incremente el valor de n. El estadístico de prueba es la proporción muestral pb y el estadístico
de prueba estandarizado es z:

pb pb pb p
z= =p
 pb p(1 p)=n

Los intervalos de con…anza (1 )% se calculan de acuerdo al valor de z:

 p p 
pb z =2 ( pb(1 pb)=n); pb + z =2 ( pb(1 pb=n)

Ejemplo 4.

En un estudio se indica que al menos el 20% de los adultos en una población son alérgicos a un
medicamento. En una muestra aleatoria de 100 adultos de esa población, el 15% indicaron que
son alérgicos. Con = 0:01, hay evidencia para apoyar lo que señaló el estudio.
156 10. Inferencia estadística

Figura 10.8: Ambiente en CalEst para realizar una prueba de hipótesis sobre una proporción.

Solución
La información generada por la muestra es: pb = 0:15; n = 100. Las hipótesis se plantean como
sigue:

H0 : p = 0:2
H1 : p < 0:2

Se cumplen las restricciones 100(0:2) = 20  5 y 100(0:8) = 80  5: Antes de realizar


la prueba de hipótesis haga la grá…ca de la distribución normal con media pb = (b
p) = p
p
y desviación estándar  pb = (bp) = p(1 p)=n: A partir de la información dada en el
planteamiento del ejemplo, use esta grá…ca y obtenga sus conclusiones.
En la Figura 10.8 se describe el procedimiento que se debe generar en CalEst para realizar
la prueba de hipótesis de una proporción. En este caso se muestra la información señalada en el
ejemplo.
El nivel de signi…cancia se estableció por = 0:01, el valor de z para el alfa establecido es
zc = 2:33: Ahora se calcula el estadístico

pb p 0:15 0:20
zm = p =p = 1:25
p(1 p)=n (0:2)(0:8)=100
dado que zm = 1:25 < zc = 2:33; se concluye que no se rechaza la hipótesis nula.
10.4. Prueba de hipótesis para una proporción 157

Figura 10.9: Resumen de resultados para la prueba de hipótesis de una proporción.

Se complementa la información calculando el valor de signi…cancia descriptivo, es decir la


probabilidad de que z sea menor que 1:25; este es p = 0:1056; y representa el área que deja a
la izquierda el valor del estadístico, es decir p = P (z < 1:25):
Finalmente el intervalo de con…anza del (1 )% para una proporción p se calcula de acuerdo
al valor de z: La expresión para el intervalos es:
 p p 
pb z =2 ( pb(1 pb)=n); pb + z =2 ( pb(1 pb)=n)

(0:058; 0:242)

Lo que indica que con un 99% de con…anza la población que es alérgicos a los medicamentos está
entre el 6% y 24%. A continuación, en la Figura 10.9, los resultados generados por CalEst

Ejemplo 5.

Con el …n de conocer la memoria a corto plazo un sicólogo realiza una prueba con 200 personas,
para ello le ayudan varios de sus asistentes. La prueba consiste en mostrar una tarjeta con 16
palabras a cada una de las personas por 30 segundos, a continuación se les distrae por un minuto
platicando con los entrevistados. Finalmente se le pide a la persona que diga las palabras que
158 10. Inferencia estadística

Figura 10.10: Descripción de la región rechazo y no rechazo identi…cando los puntos críticos

recuerda, para ello se da un minuto. El investigador plantea que el 23% de las personas recuerdan
8 o más palabras. La información que recogieron de las n = 200 entrevistas es que pb = 0:27
recuerdan 8 o más palabras.

Solución

Las hipótesis para este estudio se plantean por:

H0 : p = 0:23
H1 = p 6= 0:23

El nivel de signi…cancia que se propone para realizar ésta prueba es de = 0:05; para este
valor de alfa se puede veri…car en CalEst los valores de z; ver Figura 10.10, estos son: z = 1:96
y z = 1:96:
En la Figura 10.10 se observa la región de no rechazo establecida por los puntos críticos
(umbrales), además de manera clásica se obtienen estos mediante una tabla de la distribución
normal estándar  = 0 y  = 1. El equivalente aquí es usar la calculadora señalada por un aro
en la Figura, al aplicar ésta se generan los valores de los puntos críticos para este caso.
10.4. Prueba de hipótesis para una proporción 159

La parte operativa inicia veri…cando las condiciones que garanticen usar una distribución
normal, es decir: 200(0:23) = 46  5 y 200(0:77) = 154  5: Nuevamente puede recurrir a la
grá…ca de la distribución normal para llevar a cabo el procedimiento de prueba de hipótesis.
El cálculo del estadístico de prueba mediante la normal estándar es como sigue:

pb p 0:27 0:23
zm = p =p = 1:34
p(1 p)=n (0:23)(0:77)=200

Como este valor está entre 1:96 y 1:96 no se rechaza la hipótesis nula. También se concluye
así porque el valor de la probabilidad correspondiente al zm calculado es (p = P (Z  zm ) =
0:177), así p > :
El intervalo de con…anza del 95% para este ejemplo se calculan de acuerdo al valor de Z:

 p p 
pb z =2 ( pb(1 pb=n); pb + z =2 ( pb(1 pb)=n)

 p p 
0:27 1:96( 0:27(0:73)=200); 0:27 + 1:96( 0:27(0:73=200)

(0:208; 0:332)

Lo que indica que entre el 21% y 33% recuerdan 8 o más palabras.

Ejemplo 6.

Un médico supone que más del 55% de las personas que viven en una zona cercana a una re…nería
tienen algún problema de salud relacionado con en el aparato respiratorio. Para con…rmar su
supuesto realiza con un equipo de médicos y varios laboratorios 425 pruebas en una localidad y
encontró que 255 padecían un mal respiratorio.

Solución
El médico se plantea las siguientes hipótesis:

H0 : p = 0:55
H1 : p > 0:55

Se desea probar esa hipótesis con un nivel de signi…cancia del 0:05. Se desea calcular el valor
de zc que cumpla P (Z > zc ) = 0:05: Como se ilustra en la siguiente Figura 10.11
160 10. Inferencia estadística

Figura 10.11: Cálculo del punto crítico, dato el nivel de signi…cancia.

Los datos son pb = 0:60 y n = 425: Se veri…ca que se cumplan las restricciones para satisfacer
la condiciones de normalidad: 425(0:55)  = 234  5 y 425(0:45) = 191  5: Nuevamente se
recomienda usar la grá…ca de la distribución normal.
El valor del estadístico es:

pb p 0:6 0:55 
zm = p =p = 2:07;
p(1 p)=n (0:55)(0:45)=425

puesto que este valor es mayor que el valor de Z correspondiente a = 0:05; es decir zm =
2:07 > zc = 1:645: Por lo tanto se rechaza la hipótesis nula.
Los intervalos de con…anza (1 )% se calculan de acuerdo al valor de z =2 :

 p p 
pb z =2 ( pb(1 pb=n); pb + z =2 ( pb(1 pb)=n)

(0:553; 0:647)

Con el 95% con…anza se observa que entre el 55% y el 65% de la población tienen algún problema
en el aparato respiratorio.
10.5. Prueba de hipótesis para una media: 161

10.5 Prueba de hipótesis para una media:


10.5.1 Caso muestras pequeñas.
Cuando el tamaño de muestra no es muy grande es necesario recurrir a la distribución conocida
como t de Student, estudiada por W.R. Gosset quién la publicó bajo el seudónimo Student.

10.5.2 Valores críticos en una distribución t-student


En esta parte, se presenta un resumen del procedimiento para realizar la prueba de hipótesis de
la media de una población, cuando el tamaño muestra es al menos de 30. En este caso se utiliza
la distribución t de Student.
Guía para encontrar los valores críticos en una distribución t Student: En la opción dis-
tribuciones del CalEst seleccione la distribución t Student a continuación se indica cómo usar
esta distribución para encontrar el valor crítico y calcular probabilidades. Se recomienda repasar
la sección 8.2.

1. Identi…car el nivel de signi…cancia

2. Identi…car los grados de libertad, gl : n 1

3. Usar la opción del umbral con una barra o dos barras de abajo según sea el caso, para
identi…car el valor correspondiente a la distribución t de Student. Si la prueba de hipótesis
es:

 Al lado izquierdo
 Al lado derecho
 Bilateral (en este caso se ve señalado el lado derecho o izquierdo, use =2).

10.5.3 Prueba de hipótesis de un lado


En este apartado se estudiará la prueba de hipótesis para un lado, también conocida como la
prueba de una cola. Primero se considera el caso de la izquierda H1 :  < 0 . Planteamiento
general:

H 0 :  = 0
H1 :  < 0

La t que equivale a la que tradicionalmente se dice t de tablas, tc = t( = 0:05; gl = 9) =


1:83426, ver Figura 10.12. Si en el procedimiento que se sigue para realizar la prueba de
162 10. Inferencia estadística

Figura 10.12: Prueba de hipótesis t cuando la alternativa es menor.

hipótesis, resulta que tm < tc entonces se rechaza la hipótesis H0 donde

x 0
tm =
pS
n

De manera equivalente se puede realizar la prueba empleando el nivel de signi…cancia descriptivo


p: Si p < = 0:05 se rechaza la hipótesis H0 : Donde p probabilidad: valor del área que deja tm
a la izquierda, p = P (t  tm ):
Por ejemplo tm = 2:28 este valor es menor que tc , por lo tanto se rechaza la hipótesis H0 .
En este caso p = 0:024 menos que .

10.5.4 Prueba de hipótesis de un lado


Similar al caso anterior, ahora la prueba es a la derecha H1 :  > 0 : El planteamiento general
es:

H 0 :  = 0
H1 :  > 0

La t de tablas, tc = t(1 ; gl = 9) = t(1 0:05; gl = 9) = t(0:95; gl = 9) = 1:83426, Figura


10.5. Prueba de hipótesis para una media: 163

Figura 10.13: Prueba de hipótesis t para el lado derecho

10.13: Se calcula el valor de t a partir de la información de la muestra.

x 0
tm =
pS
n

Si tm > tc se rechaza la hipótesis H0 .


De manera equivalente Si p probabilidad: valor del área que deja tm a la derecha. Por ejemplo
tm = 1:68 este valor es menor que tc por lo tanto no se rechaza la hipótesis H0 . En este caso
p = 0:0656 mayor que

10.5.5 Prueba de hipótesis de dos lados


En este caso se estudiará la prueba de dos colas H1 :  6= 0 , donde H1 :  > 0 o H1 :  < 0 :
Planteamiento general

H 0 :  = 0
H1 :  6= 0

Considere que = 0:10: La t de tablas, tc = t( =2 = 0:05; gl = 9) = 1:83426 o tc =


t(1 =2 = 0:95; gl = 9) = 1:83426; Figura 10.14
164 10. Inferencia estadística

Figura 10.14: Prueba de hipótesis t cuando la alternativa es diferente

Si tm < tc o tm > tc se rechaza la hipótesis H0 , donde

x 0
tm =
pS
n

De manera equivalente, si p < = 0:10 se rechaza la hipótesis H0 . Donde p probabilidad:


valor del área que deja tm a la izquierda o derecha.
Por redondeo el valor de es 0.10

Regla de decisión

La idea principal de la prueba de hipótesis es comparar dos números, el valor del estadístico de
prueba con el valor de una distribución de probabilidad (éste se obtiene a partir de un valor de
signi…cancia -probabilidad- establecido por ).
Por ejemplo en una distribución t de Student el valor del estadístico de prueba:

x 
tm =
pS
n

Se compara con un valor de la distribución tc de Student t( ; n 1), donde es una proba-


bilidad y n 1 son los grados de libertad.
10.5. Prueba de hipótesis para una media: 165

 Si la hipótesis alternativa es H1 :  < o se rechaza la hipótesis si tm es menor que


tc = t( ; n 1).

 Si la hipótesis alternativa es H1 :  > o se rechaza la hipótesis si tm es mayor que


tc = t(1 ; n 1).

 Si la hipótesis alternativa es H1 :  6= o , se rechaza la hipótesis si tm es menor que


tc = t( =2; n 1) o mayor que tc = t(1 =2; n 1).

Una alternativa es comparar la probabilidad p que deja el estadístico de prueba (a la derecha


o izquierda) con el valor de signi…cancia -probabilidad- . Análogamente:

 Si la hipótesis alternativa es H1 :  < o se rechaza la hipótesis si p es menor que .

 Si la hipótesis alternativa es H1 :  > o se rechaza la hipótesis si (1 p) es menor que


(1 ).

 Si la hipótesis alternativa es H1 :  6= o se rechaza la hipótesis si p=2 es menor que =2 o


(1 p=2) es menor que (1 =2).

Este procedimiento de prueba de hipótesis se puede realizar con CalEst. Se debe tener en
cuenta que el planteamiento de la hipótesis alternativa surge del contexto del problema que se
desea estudiar. Una vez abierto un archivo o creado un nuevo archivo, vaya a la opción inferencia,
enseguida a prueba de hipótesis y seleccione la opción: una media en seguida la t, ver Figura
10.15.
A continuación, en tres ejemplos se ilustra cada caso, para ello se debe crear un archivo por
el lector con los datos que se muestran en los ejemplos. Un archivo se crea en el CalEst en la
opción: Archivo, al abrir ésta aparece una hoja de cálculo en la que puede capturar los datos. A
partir de ahí se pueden realizar las pruebas planeadas.

Ejemplo 7.

La Secretaría de Salud, recomienda que el nivel de colesterol de una persona debe estar por abajo
de 200 miligramos por 100 mililitros. Los datos que se dan a continuación representan la lectura
del nivel de colesterol en una muestra tomada a 16 personas con edad menor a 40 años:

197 192 179 174 217 186 221 188


209 196 167 238 179 196 191 233
166 10. Inferencia estadística

Figura 10.15: Esquema para realizar una prueba de hipótesis t de Student con CalEst

Solución
El planteamiento de las hipótesis son:

H0 :  = 200
H1 :  < 200

El nivel de signi…cancia propuesto para realizar esta prueba es = 0:05; en la Figura 10.16
se ilustra el valor del estadístico de prueba que corresponde al área sombreada en la grá…ca de
la t de Student con 15 grados de libertad, t( ; n 1) = t(0:05; 15) = 1:752; Así tc = 1:753:
Cuanti…cando los datos se tiene que el valor del estadístico de prueba es:.

xm  197:687 200
tm = = 20:706 = 0:447:
pS p
n 16

Se comparan los valores de tc y tm ; tm = 0:447 > tc ; los datos no dan evidencia para rechazar
la hipótesis nula.
Alternativamente, como el valor de p = P (tm  0:44671) = 0:3307; es mayor que = 0:05
(nivel de signi…cancia) no se rechaza H0 : Lo que indica que esa población de personas no tiene
un colesterol por debajo de 200.
10.5. Prueba de hipótesis para una media: 167

Figura 10.16: Valor de la distribución t-Student para el nivel de signi…cancia = 0:05

Intervalo de con…anza
Con el …n de completar la inferencia de los datos se construye un intervalo del (1 )% de
con…anza para una media con respecto al caso de muestras pequeñas.
 
S S
x t(1 =2; n 1) p ; x + t(1 =2; n 1) p
n n

Para construir un intervalo del 95% de con…anza 95%, se recurre al calculador de la distribu-
ción en CalEst y se tiene que el valor de t(1 =2; n 1) = t(0:975; 15) = 2:1335:

(197:687 2:1335(5:1775); 197:687 + 2:1335(5:1775))

(186:654; 208:721)

Una vez descrito el procedimiento de la prueba de hipótesis, en la Figura 10.17 se muestran los
resultados que genera el CalEst:

Ejemplo 8.

Un sicólogo elaboró una prueba de memoria en el que, el tiempo de respuesta en minutos es de


3 minutos. Se aplica esta prueba a 10 pacientes y el tiempo adicional de respuesta a los 3, los
resultados: 1.9, 0.8, 1.1, 0.1, -0.1, 4.4, 5.5, 1.6, 4.6, 3.4.
168 10. Inferencia estadística

Figura 10.17: Reporte de una prueba de hipótesis para una media con la t de Student.

Solución
El planteamiento de las hipótesis es:

H0 :  = 0
H1 :  > 0

Se propuso un nivel de signi…cancia = 0:05(5%), el valor correspondiente tc = t(1 ; n


1) = t(0:95; 9) = 1:833, este valor se veri…ca en el calculador, Figura 10.18. Nota. En los libros de
estadística aparece la tabla de la distribución t-Student para algunos valores de ; y el cálculo de
probabilidades es limitado. En las opciones mostradas en la Figura 10.18 se tienen las opciones
para que usted pueda estimar cualquier probabilidad de esta distribución.
A partir de los datos se calcula el estadístico de prueba y su valor es:

xm  2:33 0
tm = = = 3:679:
pS 0:633
n

Puesto que tm = 3:681 es mayor que tc = t( ; n 1) = t(0:95; 9) = 1:833, se rechaza la


hipótesis nula.
Alternativamente se realiza la prueba de hipótesis comparando las probabilidades correspon-
dientes al nivel de signi…cancia. Con el valor de signi…cancia descriptivo también se con…rma la
10.5. Prueba de hipótesis para una media: 169

Figura 10.18: Valor crítico de la t de Student para el ejemplo.

conclusión, se sigue que p = P (t > 3:681) = 0:0025, este valor es menor que = 0:05 por lo
tanto se rechaza H0 : Efectivamente el tiempo de reacción es mayor como lo establecido por el
sicólogo, esto indica que los pacientes rebasaron el tiempo de respuesta esperado y se les someterá
a nuevos ejercicios de memoria.

Ejemplo 9.

Una empresa que genera un producto químico requiere que la media del nivel de pH en el agua
debe estar en 6:8: El técnico responsable de este proceso toma 19 muestras de agua y mide el
pH de cada una de ellas. Los datos son:

6.7, 7.1, 6.8, 6.9, 6.5, 6.7, 6.6, 6.5, 6.5, 6.2
6.3, 6.6, 7.0, 6.7, 6.9, 6.5, 6.6, 6.9, 6.9

Solución
El planteamiento hipotético para el pH es:

H0 :  = 6:8

H1 :  6= 6:8
170 10. Inferencia estadística

El nivel de signi…cancia propuesto es el valor clásico = 0:05: En el caso de la prueba hipótesis


para la diferencia, el valor de se divide entre 2 y los puntos críticos correspondientes a la
distribución tiene los siguientes valores tc = t(0:025; 18) = 2:1004 o tc = t(0:975; 18) = 2:1004:
Se recomienda ver estos valores en la distribución t.
El valor del estadístico:

x  6:679 6:8 0:121


tm = = p = = 2:2258
pS 0:237 19 0:054
n

Como t = 2:2258 es menor a 2:1004, se rechaza la hipótesis nula. De manera análoga se


obtiene el mismo resultado usando el valor de signi…cancia descriptivo. El valor de p = 0:0195
comparado con el valor de alfa 0:025, se rechaza la hipótesis nula. Este resultado indica que el
nivel del pH está por abajo de lo deseado.

Intervalo de con…anza: Se completa el análisis estadístico estimando el intervalo del 95% de


con…anza para la media.
 
S S
x t(1 =2; n 1) p ; x + t(1 =2; n 1) p
n n

(6:679 2:1004(0:0544); 6:679 + 2:1004(0:0544)

(6:564; 6:793)

En este caso el intervalo de con…anza no contiene al 6.8, que como alternativa también prueba
la hipótesis. Ya que al no estar 6.8 en el intervalo, se rechaza la hipótesis nula.

10.6 Inferencia sobre la varianza  2 y 


La varianza desempeña un papel importante para explicar el desempeño de los procesos o fenó-
menos, ya que una dispersión grande de los datos entorno a la media genera una gran variabilidad
de las características de estudio. Por ejemplo una excesiva variación en las dimensiones de un
producto contribuye a tener una calidad pobre. La expectativa del cliente es tener un producto
uniforme, por ello es importante minimizar la variabilidad. Un aspecto relevante en muchas
situaciones es conocer la varianza o la desviación estándar de un proceso, con la …nalidad de
poder reducir ésta. Un resultado importante de la teoría estadística es el siguiente:

El estimador puntual para  2 es S 2 y el estimador puntual para  es S,


además S 2 es un estimador insesgado para  2 :
10.6. Inferencia sobre la varianza  2 y  171

10.6.1 Intervalos de con…anza y prueba de hipótesis para  2


Es necesario usar la distribución conocida como Ji Cuadrada (Chi cuadrada) 2 en la construc-
ción de intervalos de con…anza para la varianza y la desviación estándar. Análogamente ésta
distribución se utiliza para hacer pruebas de hipótesis sobre estos parámetros. Así:

Si una variable aleatoria X tiene una distribución normal, entonces la distribución


2
2 = (n 1)S
2

es una distribución Ji cuadrada para muestras de tamaño n > 1. Esta distribución


tiene cuatro propiedades:

1. Todo los valores 2 son mayores o iguales a cero.

2. La distribución Ji cuadrada es una familia de curvas, cada una determinada por los grados
de libertad.
3. El área bajo la curva de una distribución Ji cuadrada es igual a 1.

4. La distribución Ji cuadrada es sesgada positivamente.

Nota. En el ambiente de CalEst, en la opción Distribuciones aparece la Ji cuadrada, vea


estas propiedades para diferentes grados de libertad.

El intervalo de con…anza de (1 )% para  2

Un intervalo de con…anza del (1 )% para  2 :


 
(n 1)S 2 (n 1)S 2
;
2 (1 ; n 1) 2 ( ; n 1

y un intervalo de con…anza del (1 )% para :


s s !
(n 1)S 2 (n 1)S 2
;
2 (1 ; n 1) 2 ( ; n 1

Formulación de la prueba de hipótesis para  2

Para investigar la posible diferencia signi…cativa que existe entre la varianza de una población  2
(o desviación estándar ) y un valor de una varianza  20 preseleccionada ( 0 ), el procedimiento
se plantea como sigue:

No existe diferencia signi…cativa entre la varianza de una población  2 y un valor


preseleccionado para la varianza  20 :
172 10. Inferencia estadística

Figura 10.19: En inferencia: Pruebas de hipótesis: Una media 2 : Luego llene la hoja.

En símbolos:
H0 :  2 =  20

Las hipótesis alternativas:

H1 :  2 <  20 H1 :  2 >  20 H1 :  2 6=  20

Ejemplo 10

En los proyectos de mejora, una empresa que opera cines decidió aplicar un programa de capa-
citación para reducir la desviación estándar del tiempo de servicio en sus dulcerías a 2.9 minutos.
Una muestra aleatoria de 23 atenciones a clientes, tiene una desviación estándar 2.1 minutos.
Con = 0:01 (10%). ¿Existe evidencia para sostener que el programa de mejora es exitoso?
Resumen de la información muestral: n = 23 y s = 2:1 minutos. Las hipótesis son:

H0 :  2 = (2:9)2 y H1 :  2 < (2:9)2

= 0:1 es el nivel de signi…cancia propuesto. El estadístico de prueba:

(n 1)S 2
2 =
2
El procedimiento que realiza el programa para llevar a cabo la inferencia estadística sobre la
varianza, Figura 10.19.
10.6. Inferencia sobre la varianza  2 y  173

Cálculo del estadístico -el reporte generado por el software se describe en la Figura 10.20-

(23 1)(2:1)2
2m = = 11:54
(2:9)2

Determinación del valor crítico 2c (gl; ) = 2tablas (41 1; 0:10) = 14:042, vea este resultado
usando la distribución  en CalEst. Comparando el valor calculado con el valor crítico se tiene:
2

11:54 = 2m < 2c = 14:042

Por lo tanto se rechaza H0 . En efecto el programa de capacitación logra reducir la variabilidad


en la atención a clientes. La prueba alternativa usando el valor de p = P (2m < 11:54) = 0:0338,
observe que p < por lo tanto se rechaza H0 :

Intervalo del (1- )% con…anza para  2


!
(n 1)S 2 (n 1)S 2
;
2(22;1 =2) 2(22; =2)

El resultado al sustituir los valores en la expresión anterior proporcional al intervalo del 90% de
con…anza para  2
97:02 97:02
( ; ) = (2:8599; 7:8635)
33:924 12:338
Intervalo del 90% con…anza para  : es (1:6927; 2:804): La desviación estándar en la atención
a clientes estará, con un 90% de con…anza, entre 1.7 minutos y 2.8 minutos.

Ejemplo 11

Un sistema de riego, no da uniformidad a la distribución del agua si la varianza es mayor 0.25


unidades (cm/hr)2 . Para probar la uniformidad de la aplicación del agua para un nuevo sistema,
se midió la cantidad de agua después de 1 hora, en 41 lugares seleccionados aleatoriamente. La
media y varianza registrados fueron, 0.85 y 0.27 respectivamente.

H0 : la distribución del agua no es mayor a 0:25:

Resumen de la información muestral: n = 41 y S 2 = 0:27. Las hipótesis

H0 :  2 = 0:25 H1 :  2 > 0:25

Realice la prueba considerando un nivel de signi…cancia = 0:05: Estadístico de prueba 2


174 10. Inferencia estadística

Figura 10.20: Reporte estadístico sobre la inferencia de la varianza  2

(n 1)S 2
2 =
2
Sigue una distribución 2 con gl = n 1 grados de libertad. Cálculo del estadístico

(41 1)(0:27)
2m = = 43:2
0:25
El valor crítico usando la distribución Ji-cuadrada es: 2 = 2tablas (gl; ) = 2tablas (41 1; 0:05) =
55:758: Observe que:

43:2 = 2m < 2c = 55:758

así que no hay su…ciente evidencia para rechaza H0 : En efecto, este sistema de riego es uniforme
en la distribución de agua. La prueba mediante la comparación de los niveles de signi…cancia
sigue: el valor de p = P (2m > 43:2) = 0:336, así p > = 0:05 no se rechaza H0

Intervalo del (1- )% con…anza para  2


!
(n 1)S 2 (n 1)S 2
2 ;
2(40;1 =2) 2(40; =2)
10.6. Inferencia sobre la varianza  2 y  175

Sustituyendo los valores de la información proporcionada por la muestra en la expresión anterior,


se tiene el intervalo del 95% de con…anza para  2 :
 
(40)0:27 (40)0:27
; = (0:182; 0:442)
59:342 24:433

Intervalo de con…anza para 


s s !
(n 1)S 2 (n 1)S 2
2
; 2
X(40;1 =2) X(40; =2)

El intervalo de con…anza del 95% de con…anza para  es (0:427; 0:665), entre estos valores
está la desviación estándar del sistema de riego.

Ejemplo 12

La varianza del peso de engorda en una población de borregos se supone  20 = 225 unidades.
Con el …n de conocer si este supuesto es adecuado, se toma una muestra de 16 borregos, a estos
se les pesa y la varianza muestral es S 2 = 428:74.

Solución
Resumen de los datos y de los valores de la distribución Ji cuadrada.para construir el intervalo
del 95% con…anza para la varianza: n 1 = 16 1 = 15; S = 20:706

(0:95; 15)  = 27:48; 2 (0:025; 15) 


= 6:26
 2 2

15(20:706) 15(20:706)
25
; 7:26

Finalmente, el intervalo de 95% de con…anza para la varianza  2 es:

(233:957; 1027:045)

el intervalo de 95% de con…anza para la desviación estándar

(15:29; 32:05)

Planteamiento de la prueba de hipótesis:

H0 :  2 =  20
H1 :  2 6=  20
176 10. Inferencia estadística

Figura 10.21: Resultados de la estimación sobre la varianza

En la Figura 10.21 se presentan los resultados generados por CalEst incluyendo los intervalos
de con…anza para la varianza y desviación estándar:
Dado que 2m > 2c ; se rechaza la hipótesis nula, equivalentemente lo con…rma el valor de
p > : Por lo tanto la varianza del peso de los borregos es diferente a lo establecido. Esta
varianza da lugar a que exista una variabilidad en el peso de los borregos y por lo tanto no
deseada.

Ejemplo 13

Un fabricante de hilo industrial señala que la tensión de su producto al …nal de la línea de


producción tiene una varianza diferente a 15.9 unidades. Un auditor selecciona una muestra
aleatoria de 15 carretes al …nal de la línea, estos muestran una varianza de 21.8 unidades. Bajo
el supuesto de que la población tiene una muestra normal, veri…que que estos datos muestran
su…ciente evidencia para rechazar la hipótesis nula, considere un = 0:05 para el nivel de
signi…cancia.
Información de la muestra: n = 15 y S 2 = 21:8: Las hipótesis son:

H0 :  2 = 15:9
H1 :  21 6= 15:9
10.6. Inferencia sobre la varianza  2 y  177

Figura 10.22: Valores críticos con un nivel de signi…cancia de = 0:05 en la distribución Ji-
cuadrada con gl = 14:

El estadístico de prueba es

(n 1)S 2
2 =
2
Cálculo del estadístico de prueba,

(15 1)(21:8)
2 = = 19:19
15:9

Vea en la Figura 10.22 cómo se obtienen los valores de 2 en =2 y en 1 =2 son respectivamente:

2c = 2tablas (15 1; =2) = 5:629 y 2c = 2tablas (15 1; 1 =2) = 26:119

Observación. La notación anterior es la que regularmente emplean los libros de estadística


para calcular los puntos críticos en la distribución 2 , en el calculador del CalEst es su…ciente
que señale izquierda o derecha para obtener el valor del punto crítico. No se rechaza H0 ya que
2m < 26:13: Por lo tanto no hay evidencia su…ciente para decir que la varianza de la tensión del
hilo es diferente a 15.9. La prueba alternativa usando el valor de p; 2p = P (2 (n 1)  19:19) =
2(0:1578) = 0:315: No se rechaza H0 puesto que p >
178 10. Inferencia estadística

Intervalo del (1- )% de con…anza para  2


 
(n 1)S 2 (n 1)S 2
;
X 2 (gl; 1 =2) X 2 (gl; =2)
Sustituyendo los valores de la muestra:
 
14(21:8) 14(21:8)
; = (11:680; 54:210)
26:13 5:63

El intervalo del 95% con…anza para  es (3:418; 7:363):

10.7 Aplicación en CalEst:


10.7.1 Lógica de la prueba de hipótesis
Con la …nalidad de que un usuario tenga una mayor claridad en las ideas de cómo opera una
prueba de hipótesis se ha descrito en el CalEst, un sistema de seguridad. Este se relaciona con
el tema del reconocimiento del iris. El sistema de seguridad consiste en identi…car a una persona
mediante la lectura del iris. Si el bene…ciario pertenece al lugar, el sistema lo identi…ca como
auténtico leyendo el iris. De otra manera es un impostor si el individuo no pertenece al lugar.
Existen otras dos situaciones, la persona es un auténtico pero se rechaza; tal como se ilustra en
la Figura 10.23. La otra situación consiste en que el individuo es un impostor pero la acción
tomada es no rechazar, el sistema se equivoca. Los valores de las probabilidades de rechazar un
auténtico o de aceptar un impostor signi…ca que si se lee el iris 100 veces, aproximadamente el
5% se rechaza un auténtico y 6.7% se acepta un impostor. Como actividad se puede simular
varias veces esta opción para visualizar el procedimiento de prueba de hipótesis, que se explica
más adelante. También se puede simular otros escenarios cambiando la media y la desviación
estándar y de esa manera generar otros sistemas de seguridad.

Planteamiento general del procedimiento de una prueba de hipótesis

Se plantean las hipótesis:

H0 : El sistema identi…ca un auténtico


H1 : El sistema identi…ca un impostor

La Figura 10.23 es un auxiliar para ilustrar la esencia del procedimiento de prueba de hipótesis.
Se tienen cuatro opciones:

1. El sistema acierte en su decisión e identi…que al usuario como un auténtico cuando éste es


un auténtico.
10.7. Aplicación en CalEst: 179

Figura 10.23: Procedimiento de la prueba de hipótesis ilustrado mediante la lectura del iris.

2. El sistema acierte en su decisión rechazando al individuo cuando éste es un impostor.

3. El sistema se equivoque cuando el individuo es un auténtico y la acción tomada es rechazar,


esto equivale a cometer el error tipo I.

4. Cometer el error tipo II, es decir, el individuo es impostor y la acción tomada es aceptar
en este caso el sistema se equivocó.
180 10. Inferencia estadística
Capítulo 11

Inferencia para dos poblaciones

En el trabajo observacional o experimental es frecuente que surja la necesidad de comparar dos


poblaciones. Se pueden citar muchos ejemplos en torno a la comparación, por ejemplo comparar
métodos de enseñanza, de rendimiento, de habilidades, impacto de dos estrategias publicitarias.
Sin embargo, la ejecución de la estrategia experimental juega un papel relevante para generar
la información. Se da el caso de muestras independientes y muestras pareadas, alrededor de
estas estrategias se plantea la necesidad de hacer inferencia estadística. Nuevamente mediante
prueba de hipótesis o la construcción de intervalos de con…anza se hace la comparación de dos
poblaciones. En este Capítulo se expondrán diferentes estrategias metodológicas para realizar
prueba de hipótesis y obtener intervalos de con…anza, estos se ilustrarán con ejemplos con objeto
de comprender los conceptos y madurar las ideas. Una vez comprendidos los conceptos se puede
usar el CalEst para abreviar el trabajo de cálculo, se inicia la presentación de los temas que se
abordarán en este Capítulo con la opción del calculador estadístico.
Se realizarán pruebas de hipótesis para muestras independientes, Figura 11.1, ésta puede
ocurrir cuando las muestras seleccionadas de dos poblaciones son grandes y en este caso se usa la
distribución normal z o pequeñas y en tal caso se usa la distribución t Student: Para realizar
las prueba de hipótesis sobre dos poblaciones se parte del supuesto de que las varianzas de la
población son iguales, para veri…carlo se realiza una prueba de hipótesis sobre las varianzas y en

Figura 11.1: Opción para realizar los cálculos para hacer inferencias sobre dos poblaciones

181
182 11. Inferencia para dos poblaciones

ese caso se usa la prueba F .


Para realizar una hipótesis de muestras independientes:

 Las muestras deben ser seleccionadas de manera aleatoria.


 Las muestras deben ser independientes. Dos muestras son independientes si la muestra
seleccionada de una población no está relacionada con la muestra de la otra población.

 Cada población debe tener una distribución normal.

11.1 Inferencia para dos medias: muestras dependientes


Para probar una hipótesis de dos poblaciones:

1. La hipótesis nula H0 es la hipótesis estadística que usualmente indica que no hay diferencia
entre los parámetros de dos poblaciones.

2. La hipótesis alternativa, es la hipótesis estadística que indica la relación entre las dos
poblaciones y se plantea como menor, mayor o diferente.

Los tres casos son:

H 0 : 1 = 2 H 0 :  1 = 2 H 0 : 1 = 2
(11.1)
H1 : 1 6= 2 H 1 : 1 >  2 H 1 : 1 <  2

11.1.1 La prueba z para la diferencia de medias: Muestras grandes


Con el …n de veri…car las pruebas planteadas en (11.1), se debe tener en cuenta las siguientes
condiciones:
 Las muestras deben ser seleccionadas de manera aleatoria.
 Las muestras deben ser independientes. Dos muestras son independientes si la muestra
seleccionada de una población no está relacionada con la muestra de la otra población.

 El tamaño de muestra obtenida de cada población debe ser mayor de 30, o si no, cada
población debe tener una distribución normal con varianzas conocidas.

Si se cumplen éstas condiciones entonces la distribución muestral de la diferencia de medias


x1 x2 es una distribución normal con:

media  = media(x1 x 2 ) =  x 1 x 2 =  1  2
q q 2
 2
y error estándar  = (x1 2 2
x2 ) =  x1 +  x2 = n11 + n22
11.1. Inferencia para dos medias: muestras dependientes 183

Aplicación del CalEst en la prueba de hipótesis para diferencia de medias

 Para motivar el concepto de esta prueba use la opción didáctica H0 cuya descripción grá…ca
aparece en la Figura 10.1. En este caso el estadístico x es la diferencia de medias x1 x2
y el error estándar  = (x1 x2 ):

 Use la distribución normal con los parámetros  = media(x1 x2 ) y  = (x1 x2 ) para


construir el valor crítico, así como el nivel de signi…cancia descriptivo p:

 En otras pruebas de hipótesis, puede usar las distribuciones como la t de Student, la F


y la Ji-cuadrada entre otras para hacer pruebas de hipótesis en la comparación de dos
poblaciones.

Pruebas de hipótesis utilizando la normal estándar

Este es el procedimiento que usan la mayoría de los libros de estadística, use la distribución
normal estándar en CalEst para realizar estas pruebas.
Dada estas características de la distribución muestral x1 x2 ; el estadístico de prueba es-
tandarizado toma la forma:

(dif erencia observada) (dif erencia hip


otesis)
z=
Error est
andar

La expresión del estadístico de prueba para comparar dos medias es: x1 x2 y en forma es-
tandarizado se indica por:

(x1 x ) (1 2 )
zm = q2 2 (11.2)
1 2
n1
+ n22

En resumen el patrón que se sigue para realizar la prueba de hipótesis en la comparación de dos
medias usando la distribución Z (muestras grandes).
184 11. Inferencia para dos poblaciones

Guía para la diferencia de medias usando el estadístico de prueba z


En palabras En símbolos
1. Identi…car las hipótesis nula y alternativa Plantear H0 y H1
2. Especi…car el nivel de signi…cancia Dar el valor de
3. Identi…car la distribución muestral
4. Determinar el punto crítico Usar el calculador estadístico: zc
5. Determinar la región de rechazo
6. Calcular el estadístico de prueba Aplicar la expresión 11.2: zm
7. Tomar la decisión estadística: rechazar o no rechazar Comparar zc con zm
8. Interpretar los resultados

Intervalo (1 )% de con…anza para 1 2

Con la información generada por los datos se puede construir el intervalo (1 )% de con…anza
para la diferencia de medias 1 2 , cuya interpretación indicará explicaciones importantes del
objeto de estudio. Éste se escribe como:
s s
 21  22  21  22
(x1 x2 ) zc + < (1 2 ) < (x1 x2 ) + zc +
n1 n2 n1 n2

donde zc = z(1 =2):

Ejemplo 1

Se desea comparar el rendimiento de los estudiantes de preparatoria abierta y el sistema escolar


en los exámenes de matemáticas. En el primer sistema se usa para preparar a los estudiantes un
tipo de material que se denominará A. En el escolar usan un material tipo B. Si 1 es la media
de la cali…cación que obtendrán los estudiantes en el sistema abierto, y 2 la media para los
estudiantes del sistema escolar. ¿Serán las medias diferentes?. En la tabla siguiente se reportan
los resultados que se obtuvieron al evaluar a una muestra aleatoria de cada sistema.

Número de Media Desviación estándar


Material estudiantes muestral muestral
A n1 = 35 x1 = 78 S1 = 8
B n2 = 40 x2 = 75 S2 = 6

Resultados al evaluar los dos sistemas


11.1. Inferencia para dos medias: muestras dependientes 185

Figura 11.2: Resultados del procedimiento para probar la diferencia de dos medias.

Solución

Para veri…car esta prueba se siguen los pasos señalados en la Tabla 1 de esta sección, las varianzas
son desconocidas. Por otro lado, dado que los tamaños de muestra son su…cientemente grandes
se utilizan las varianzas de la muestra. Considerando la experiencia acumulada en las pruebas de
hipótesis aquí se recurre al calculador estadístico para realizar la prueba. Se toma la información
proporcionada en la Figura 11.2, en ésta se presenta también, el resumen de resultados y los
valores relacionados con el intervalo de con…anza para la diferencia de medias.
Conclusión: No se puede reportar una diferencia en los dos sistemas.

11.1.2 La prueba t Student para la diferencia de medias: Muestras


pequeñas

Se usa la prueba t para probar la diferencia de las medias 1 y 2 entre dos poblaciones cuando
una muestra es seleccionada aleatoriamente de cada población. La aplicación de esta prueba
requiere que cada población se distribuya normalmente, y que las muestras sean independientes.
En este caso use la distribución t de Student en el CalEst para identi…car los valores críticos y
186 11. Inferencia para dos poblaciones

los niveles de signi…cancia. El estadístico de prueba estandarizado es:

s
(x1 x2 ) (1 2 ) (n1 1)S12 + (n2 1)S22
tm = q , donde Sp = (11.3)
Sp 1
+ 1 n1 + n2 2
n1 n2

La desviación estándar Sp se le conoce como ponderada y se obtiene bajo el supuesto de que


 21 =  22 : Este último supuesto se veri…ca mediante una prueba de hipótesis que se verá más
adelante.

Prueba de hipótesis estadística para comparar dos poblaciones usando la prueba t:


Cuando la alternativa es:
1. Diferente Menor Mayor
H 0 : 1 =  2 H 0 : 1 = 2 H 0 : 1 =  2
H1 : 1 6= 2 H 1 : 1 <  2 H 1 : 1 >  2
2. Seleccionar el nivel de signi…cancia
3. Usar la distribución t de Student con gl = n1 + n2 2 grados de libertad,
4. Determinar el punto crítico calculando tc = t( =2; gl); tc = t(1 =2; gl) para
la diferencia; tc = t( ; gl) para el caso menor y; tc = t(1 ; gl) para el caso mayor.
5. Determinar la región de rechazo
6. Hacer los cálculos para construir el estadístico de prueba, expresión 11.3
7. Tomar la decisión comparando tc con tm
8. Interpretar la decisión en el contexto del problema

Intervalo (1 )% de con…anza para 1 2

Con la información generada por los datos se puede construir el intervalo (1 )% de con…anza
para la diferencia de medias 1 2 , cuya interpretación indicará interpretaciones importantes
del estudio. Éste se escribe como:

r r
1 1 1 1
(x1 x2 ) tc Sp + < (1 2 ) < (x1 x2 ) + tc Sp +
n1 n2 n1 n2

donde tc = t(1 =2; n1 + n2 2):


11.1. Inferencia para dos medias: muestras dependientes 187

Figura 11.3: Captura de datos y la opción para realizar la prueba de hipótesis.

Ejemplo 2

En una investigación se desea comparar el rendimiento atlético de dos grupos de jóvenes. El


primero es grupo control y el otro es un grupo entrenado. La evaluación física después de
completar un programa para ambos grupos se muestra en la tabla:

Control 83, 91, 97, 97, 108, 111, 111, 117, 117, 125, 125, 140
Entrenado 64, 83, 83, 85, 91, 97, 97, 97, 103, 108, 111, 111, 117, 117, 125, 125

Se capturan estos datos en CalEst, en la opción archivo y aparece una hoja de cálculo y se
capturan los datos. El nombre de las columnas se escribe sobre la columna o usando el ratón al
marcar el extremo izquierdo del rectángulo. La descripción de este procedimiento se muestra en
la Figura 11.3.
Se realiza la prueba t los resultados se muestran en la Figura 11.4. Use la distribución t de
Student, en el paquete estadístico., para con…rmar la información que se indica en el reporte.
Sugerencia: puede hacer unas grá…cas de la t para los niveles de signi…cancia p y .
La conclusión es que no hay diferencia en el rendimiento físico en ambos grupos.
188 11. Inferencia para dos poblaciones

Figura 11.4: Resultados al realizar la prueba de hipótesis.

11.2 Inferencia para dos medias: muestras pareadas


Ejemplo 3: Situación real

En la resolución del rompecabezas de la República Mexicana se llevaron a cabo la comparación de


dos poblaciones, la característica es la siguiente se seleccionó de una universidad 12 personas y se
les pidió que resolvieran el rompecabezas y se anotó el tiempo en segundos en que lo completaron.
Se les recomendó que repasaran el mapa y estas mismas doce personas se les pidió que volvieran
a resolver el rompecabezas. Los resultados de antes y después se anotan en la siguiente tabla:

Antes 185 194 213 198 244 162 211 273 178 192 181 209
Después 168 177 196 180 229 144 197 252 161 178 161 193

¿Mejoraron el tiempo en la resolución del rompecabezas estos alumnos?

Planteamiento del problema muestras pareadas

La forma en la que se realizó este experimento da lugar a muestras dependientes, generalmente


denominadas muestras pareadas. La estrategia consiste en experimentar sobre la misma unidad
experimental un tiempo después. En caso de que las unidades no puedan ser las mismas se
buscará que los pares sean lo más homogéneo posible. De esta manera la estrategia es encontrar
11.2. Inferencia para dos medias: muestras pareadas 189

la diferencia d para cada par mediante:

di = x1 x2

En este caso el estadístico de prueba para veri…car la hipótesis nula H0 : 1 = 2 contra alguna
de las alternativas será la media d de estas diferencias di ;

P
n
di
i=1
d= (11.4)
n

Para realizar un experimento para comparar dos poblaciones mediante muestras pareadas es:

1. Seleccionar las muestras de manera aleatoria.

2. Las muestras son pareadas (dependientes), la unidad en la primera muestra debe ser la
misma en la segunda muestra (par) o lo más homogéneo posible.

3. Ambas poblaciones tiene una distribución normal.

Dadas estas condiciones se sigue que la distribución de la diferencia de medias d, tiene una
distribución t de Student con n 1 grados de libertad. Así el estadístico estandarizado es:

d d
tm = Sd
gl = n 1 (11.5)
p
n

Solución al ejemplo 3

Se hará la solución de este problema mediante CalEst, se abre un archivo para capturar los
datos del problema, como se indica en la Figura 11.5, luego en la opción inferencia en prueba de
hipótesis para dos medias y pareadas se genera la solución.
190 11. Inferencia para dos poblaciones

Figura 11.5: Procedimiento para realizar una prueba hipótesis, en muestras pareadas en CalEst

Prueba de hipótesis estadística para comparar dos poblaciones en muestras pareadas


usando la prueba t:
Cuando la alternativa es:
1. Diferente Menor Mayor
H 0 : d = 0 H 0 : d = 0 H 0 : d = 0
H1 : d 6= 0 H 1 : d < 0 H 1 : d > 0
2. Seleccionar el nivel de signi…cancia
3. Usar la distribución t de Student con gl = n 1 grados de libertad,
4. Determinar el punto crítico calculando tc = t( =2; gl); tc = t(1 =2; gl) para
la diferencia; tc = t( ; gl) para el caso menor y; tc = t(1 ; gl) para el caso mayor.
5. Determinar la región de rechazo
6. Hacer los cálculos para construir el estadístico de prueba, expresión 11.5
7. Tomar la decisión comparando tc con tm
8. Interpretar la decisión en el contexto del problema

La Figura 11.6 muestra los resultados.


11.3. Inferencia para dos proporciones 191

Figura 11.6: Resultados de la prueba de comparaciones pareadas

Se observa de manera clara que los estudiantes mejoraron de manera signi…cativa la resolución
del rompecabezas.

11.3 Inferencia para dos proporciones


Ejemplo 4: Situación real

Se realizó una prueba para conocer la memoria a corto plazo a una muestra aleatoria de personas
entre 30 y 40 años. Esta consistía en mostrar una tarjeta con 16 palabras por un espacio de 30
segundos, después se dejaba pasar un minuto platicando con el entrevistado. A continuación se le
pedía que dijera las palabras que recordaba, para esta acción se dejaba un minuto. Se consideró
la proporción, p1 , de personas que recordaban 8 o más palabras. El investigador supone que si
enseña la tarjeta por un espacio de 60 segundos en lugar de 30, la proporción, p2 , de personas
que recuerden 8 o más palabras aumentará. Para veri…car esta situación se realiza una prueba
de diferencia entre dos proporciones.
Prueba de hipótesis para dos proporciones
Las condiciones que se deben seguir para realizar la comparación entre proporciones es:

1. Seleccionar las muestras de manera aleatoria.


192 11. Inferencia para dos poblaciones

2. Las muestras deben ser independientes.

3. Las muestras deben ser su…cientemente grandes para usar la distribución normal, así se
debe cumplir:

n1 p1  5; n1 (1 p1 )  5; n2 p2  5 y n2 (1 p2 )  5:

Dadas estas condiciones, se tiene que la distribución muestral de pb1 pb2 ; diferencia entre
proporciones, es una normal con media

(b
p1 pb2 ) = p1 p2

y un error estándar:
s  
1 1
(b
p1 pb2 ) = p(1 p) + ;
n1 n2

x1 +x2
donde p = n1 +n2
; x1 = n1 pb1 ; x2 = n2 pb2 :
Entonces para probar la hipótesis de diferencia entre dos proporciones p1 y p2 cuando las
muestras se extraen de manera aleatoria de dos poblaciones el estadístico de prueba es:

pb1 pb2 (11.6)

y en forma estandarizado

p1 pb2 ) (p1 p2 )
(b
zm = r   (11.7)
1 1
p(1 p) n1 + n2

Nota. Recuerde que puede usar la opción didáctica Ho para estudiar esta prueba de hipótesis,
donde ahora el estadístico es (11.6). Asimismo puede recurrir a la distribución normal para
determinar los valores correspondientes a los estadísticos y niveles de signi…cancia.
Con el estadístico (11.6) o (11.7) se prueba una de las siguientes hipótesis alternativas:

H0 : p 1 = p 2
H1 : p1 6= p2 , H1 : p1 > p2 , o H1 : p1 < p2
11.3. Inferencia para dos proporciones 193

Guía para la diferencia de medias usando el estadístico de prueba z


En palabras En símbolos
1. Identi…car las hipótesis nula y alternativa Plantear H0 y H1
2. Especi…car el nivel de signi…cancia Dar el valor de
3. Identi…car la distribución muestral
4. Determinar el punto crítico Usar el calculador estadístico: zc
5. Determinar la región de rechazo
6. Calcular el estadístico de prueba Aplicar la expresión 11.7: zm
7. Tomar la decisión estadística: rechazar o no rechazar Comparar zc con zm
8. Interpretar los resultados

Solución al ejemplo 4

Los datos generados en este estudio son:

Muestra Proporciones Tamaño


1 pb1 = 0:20 n1 = 100 x1 = 20
2 pb2 = 0:42 n2 = 100 x2 = 42

Se cumplen las condiciones:

n1 p1 = 100(0:2)  5; n1 (1 p1 ) = 100(0:8)  5;
n2 p2 = 100(0:42)  5 y n2 (1 p2 ) = 100(0:42)  5:

El reporte estadístico de este ejemplo generado por el software se muestra en la Figura 11.7.
Al rechazar la hipótesis nula se veri…ca el supuesto del investigador, es decir si hay un efecto en
la memoria de corto plazo al mostrar la tarjeta un mayor tiempo.

11.3.1 Prueba F, comparación de Varianzas


La comparación de varianzas mediante una prueba de hipótesis es un procedimiento importante
en estadística para veri…car la homogeneidad entre dos poblaciones o tratamientos.

Ejemplo 5

En dos tiendas de autoconsumo el precio de la canasta básica varía día con día y una persona
tiene que decidir en cuál de las dos tiendas comprar para no desequilibrar su presupuesto. El
precio en el riesgo de compra, está asociado con la desviación estándar del precio diario de la
canasta. Se tienen seleccionados muestras aleatorias de ambas tiendas; la tienda A; 31 días con
194 11. Inferencia para dos poblaciones

Figura 11.7: Descripción del procedimiento para hacer la comparación de proporciones

Figura 11.8: Opción en CalEst para realizar la comparación entre varianzas.


11.3. Inferencia para dos proporciones 195

Figura 11.9: Opción en CalEst para realizar la comparación entre varianzas.

una desviación estándar de 5.7; la tienda B; 30 días con una desviación estándar de 3.5. Con
un nivel de signi…cancia = 0:05 ¿ Se puede concluir que en alguna tienda hay mayor riesgo de
comprar y desequilibrar el presupuesto?
Resumen de la información que proporciona la muestra:

Muestra 1 n1 = 31 S12 = (5:7)2 = 32:49


Muestra 2 n2 = 30 S22 = (3:5)2 = 12:25

Planteamiento de las hipótesis:

H0 :  21 =  22 H1 :  21 6=  22

En la Figura 11.8 se describe la opción del programa estadístico para llevar a cabo la prueba de
hipótesis entre la razón de varianzas. Estadístico de prueba

S12
F =
S22

Cálculo del estadístico en CalEst


La descripción operativa que genera el CalEst sobre la prueba de hipótesis sobre la razón de
varianzas se describe en la Figura 11.9.
196 11. Inferencia para dos poblaciones

Figura 11.10: Pantalla que muestra la parte operativa de la prueba de hipótesis sobre la razón
de varianzas.

32:49
Fm = = 2:652
12:25
Cálculo del valor crítico en función del nivel de signi…cancia Fc = Ftablas ; Fc = F ( =2; 31 1; 30
1) = 2:1, puesto que 2:652 = Fcalculada > Fc = 2:1 se rechaza H0 :
Alternativamente se prueba la hipótesis utilizando el nivel de signi…cancia descriptivo p,
2p = P (Fm > 2:652) = 2(0:00514) = 0:01028; puede observar que p < = 0:025; por lo tanto se
concluye rechazar H0 :

 21
Intervalo del (1- )% con…anza para la razón de varianzas :  22

 
S12 S2
F1 (1 =2; glN ; glD ); 12 F0 ( =2; glN ; glD )
S2 S2

Determinación de los valores para la distribución F : FI = F (1 =2; 31 1; 30 1) = 0:48,


FD = F ( =2; 31 1; 30 1) = 2:1; donde glN ; glD son los grados de libertad para el númerador
y denominador respectivamente. Así el intervalo del 95% de con…anza para la razón de varianza
es:

((2:652)(0:48); (2:652)(2:1)) = (1:232; 5:523)


11.3. Inferencia para dos proporciones 197

Figura 11.11: Valores de la distribución F para construir el intervalo de 95% de con…anza.

La descripción grá…ca de los resultados de la prueba se muestra en la Figura 11.10, la facilidad


grá…ca de la distribución de probabilidad F es relevante para comprender con mayor claridad
de un intervalo de con…anza. Análogamente puede usar la descripción de esta distribución para
explicar la prueba de hipótesis, para ello conviene que haga dos grá…cas una de ellas que señale
el nivel de signi…cancia y así ver el valor del punto crítico. Luego la otra que indique el valor del
estadístico calculado.
Note que la distribución del estadístico que genera la distribución F es la razón de varianzas.

Ejemplo 6: Situación real

Un profesor ha diseñado una estrategia para mejorar la velocidad de lectura, en esa dirección
él intenta reducir la varianza en el tiempo de lectura. Primero hace una prueba para conocer
la varianza del tiempo de lectura que actualmente tienen sus alumnos. Selecciona una muestra
aleatoria de 10 alumnos, la prueba de velocidad de lectura arrojó una varianza de 144 minutos2 .
Bajo su planteamiento consideró una muestra de 21 alumnos, la varianza del tiempo de lectura
fue de 100 minutos2 . Proponiendo un nivel de signi…cancia = 0:10. ¿Existe su…ciente evidencia
para respaldar la estrategia del profesor?
Resumen de la información que proporciona la muestra:

Muestra 1 n1 = 10 S12 = 144


Muestra 2 n2 = 21 S22 = 100
198 11. Inferencia para dos poblaciones

La hipótesis de trabajo se expresa por

Ht : La varianza del tiempo de lectura actual es mayor a la varianza del tiempo bajo su esquema.

Las hipótesis estadísticas son:

H0 :  21 =  22 H1 :  21 >  22

Estadístico de Prueba

S12
F =
S22

Cálculo del estadístico:

144
Fm = = 1:44
100
El valor de referencia Fc = Ftablas ( = 0:10; 10 1; 21 1) = 1:96, veri…que este valor usando
la distribución F . Puesto que Fm < Fc se concluye que no se rechaza H0 :
Alternativamente usando el nivel de signi…cancia descriptivo p; el valor de p = P (F (10
1; 21 1) > 1:44) = 0:237: Observe que 0:237 = p > = 0:1, vea este valor en la distribución F .
Se con…rma que no se rechaza H0 :
Capítulo 12

Análisis de Varianza

12.1 Ideas generales

En capítulos anteriores se plantearon pruebas de hipótesis para una población y dos poblaciones.
En esta parte se desarrolla un procedimiento para comparar dos o más poblaciones a la vez. Este
se conoce como análisis de varianza, abreviada ANDEVA.
La estrategia experimental, desempeña un papel relevante para hacer la comparación entre
más de dos poblaciones y se llama diseño completamente al azar. Con el …n de …jar ideas considere
el siguiente ejemplo, un ingeniero que trabaja en biotecnología de alimentos, quiere conocer la
preferencia que tienen las personas por cuatro tipos de helados elaborados bajo condiciones
diferentes. En este caso las hipótesis son:
Hipótesis nula:
H0 : Las personas pre…eren por igual los cuatro helados.
Hipótesis alternativas:
H1 : Existe preferencia por alguno de los helados.
La estrategia experimental para este caso es como sigue; suponga que hay 12 personas y que
cada una de tres personas prueban cada helado. Las doce personas se seleccionan aleatoriamente
y se les da a probar el helado correspondiente, es decir:

h1 h1 h1 h2 h2 h2 h3 h3 h3 h4 h4 h4
8 3 10 12 5 6 11 9 4 7 2 1

La medición se realiza en una escala hedónica con valores que van de 1 a 10, donde 1 es el
disgusto de las personas por el helado y 10 es la aceptación total.
La estructura de esta estrategia experimental se presenta en la Tabla 12.1, con los resultados
reportados por las personas.

199
200 12. Análisis de Varianza

Helados
1 2 3 4
74 46 80 85
78 56 70 82
73 49 77 89
nj 4 4 4 4
xj 75 50.33 75.67 85.33
Sj2 7 26.33 26.33 12.33

Tabla 12.1 Resultados experimentales

La idea principal en este caso, es probar si la variación entre grupos (entre helados) es similar
a la variación dentro de grupos (cada helado).
En resumen, el planteamiento general de este esquema es:

Supóngase que hay k poblaciones de interés, el procedimiento del análisis de varianza


se plantea probar la hipótesis:
H0 : 1 = 2 = ::: = k
H1 : No todas las medias son iguales.

Este esquema se conoce como diseño completamente al azar. La meta de este procedimiento
es construir el estadístico de prueba para veri…car esta hipótesis.

Términos básicos en el diseño.


Primero se describe lo que se entiende por factor.

Un factor, es una variable que se usa para diferenciar un grupo de una población a otra.
Esta es una variable que puede estar relacionada con la variable de interés. Un nivel es
uno de los posibles valores que el factor puede tomar.

En el ejemplo, el factor es el tipo de helado y el nivel es cada uno de los helados. A continuación
se formaliza lo que se llama variable de respuesta, en este caso la evaluación de la preferencia del
helado.

La variable de respuesta es una variable cuantitativa, que son las mediciones u


observaciones del experimento.

La descripción del experimento:

Un diseño completamente al azar es un experimento si se estudian diferentes niveles


de un factor, y los objetos que se observan o miden son asignados aleatoriamente
a uno de los niveles del factor.
12.1. Ideas generales 201

El procedimiento para analizar los datos del experimento, se llama análisis de la varianza
(ANDEVA).

Análisis de la Varianza es una técnica que se utiliza para analizar la varianza en los
datos para determinar cuando mas de dos poblaciones tienen medios iguales.

En la terminología de experimentos, se de…ne lo que se conoce como tratamiento. En el


ejemplo, el tratamiento es el tipo de helado que probarán las personas.

Un tratamiento es una característica particular o una combinación


de características del factor o factores que se estudian.

En el ejemplo, en cada uno de los tratamientos hay tres observaciones, es decir n1 = n2 =


n3 = n4 = 3 en este caso el diseño es balanceado, porque el tamaño de muestra es igual en cada
caso.

Estadístico en el ANDEVA
La media de todos los datos se conoce como la gran media.

La gran media es el promedio de todas las observaciones en el experimento y se denota por x

Así se puede escribir la variación total o suma de cuadros total, es decir:

La varianza total o la suma de cuadrados total (SCT), es la medida de la variación


en el conjunto de datos del experimento.

Este se escribe por:


ni
t X
X
SCT = (xij x )2
i=1 j=1

donde t es el número de tratamientos y ni el tamaño de muestra en cada tratamiento.

12.1.1 Componentes de la variación total


En este diseño se tienen dos componentes de variación, el que se re…ere a la variabilidad que
se atribuye entre los promedios de las k poblaciones que se están comparando y la variabili-
dad interna dentro de cada una de las k poblaciones, a esta última se le conoce como error
experimental.
202 12. Análisis de Varianza

La …nalidad de la prueba de hipótesis, es comparar estos dos componentes de variabilidad, si


estos resultan ser iguales, se concluye que la variabilidad entre promedios de la población no se
considera signi…cativa, es decir no se rechaza la hipótesis nula; H0 : 1 = 2 = ::: = k

La variación entre poblaciones mide qué tan diferente son los tratamientos de la gran media.
Esta se llama el cuadrado medio de tratamientos y se denota por CMtrat

El cuadrado medio de tratamientos CMtrat se obtiene dividiendo la suma de cuadrados


entre tratamientos, entre el número de tratamientos menos 1, esto es:
SCtrat
CMtrat = k 1

La fórmula para la suma de cuadrados entre tratamientos es:

k
X
SCtrat = nj (xj x )2 ;
j=1

donde xj es el promedio de los k tratamientos.


La variación dentro de tratamientos toma en cuenta la varianza y el tamaño de muestra en
cada tratamiento, a este se le conoce como el cuadrado medio dentro de tratamientos y se denota
por:

(n1 1)S12 + (n2 1)S22 + ::: + (nk 1)Sk2


CMdentro = (12.1)
(n1 1) + (n2 1) + ::: + (nk 1)

Observación
El numerador de la expresión (12.1) se le conoce como la suma de cuadrados dentro de tratamien-
tos. El denominador son los grados de libertad asociados a esta fuente de variación son:
(n1 1) + (n2 1) + (nk 1) = n1 + n2 + ::: + nk k=N k:
La variable que resulta de dividir el cuadrado medio entre y el cuadrado medio dentro de
tratamientos tiene una distribución F con k 1 grados de libertad en el numerador y N k
grados de libertad en el denominador; esto es F (k 1; N k):
Los resultados de este procedimiento se recogen en una Tabla que se conoce como análisis de
varianza. En la Tabla 12.2 se describen las expresiones para realizar los cálculos realizados.

Procedimiento de la prueba de hipótesis

1. Plantear las hipótesis H0 : 1 = 2 = ::: = k , H1 : al menos una media de una población


es diferente de otra.
12.1. Ideas generales 203

2. Seleccionar el nivel de signi…cancia, se calculan los grados de libertad para el numerador


gln y denominador gld se calcula el valor crítico referencia Fc = F (gln ; gld )

3. Calcular el valor Fm = CMtrat


CMdentro
:

4. Comparar Fm con Fc si Fm > Fc se rechaza H0 y se concluye a favor de la hipótesis alterna.

5. Interpretar en el contexto del problema.

Fuente de Grados de Suma de Cuadrado Fm


Variación libertad cuadrados medio
Entre tratamientos k 1 SCtrat CMtrat = SC trat
k 1
CMtrat
CMdentro
SCdentro
Dentro tratamientos N k SCdentro CMdentro = N k

Total N 1 SCtotal

Tabla 12.2 Análisis de la Varianza

Ejemplo 1

Un nutriólogo está probando cuatro tratamientos (A,B,C y D) para reducir el peso. Él cuenta con
18 personas para realizar el experimento, aplica de manera aleatoria uno de los tratamientos a
cada persona. Después de un periodo de prueba anota el número de kilogramos que redujeron las
personas, en la Tabla 12.3 se anota el registro, (6.5 indica que una persona redujo 6 kilogramos
con 500 gramos) ¿Cuál es la hipótesis que se plantea veri…car el nutriólogo? ¿Cuáles son los
resultados principales para construir el estadístico de prueba F?
204 12. Análisis de Varianza

Resultados

Tratamiento
A B C D
6.5 6.0 5.5 4.6
6.5 5.8 5.2 4.5
5.8 5.8 4.9 4.5
5.7 5.5 4.8 4.8
5.6 5.1
nj 5 5 4 4
xj 6.02 5.64 5.10 4.60
S2 0.197 0.123 0.100 0.020

Tabla 12.3 Resumen estadístico de los


datos del estudio.

Hipótesis

El planteamiento de las hipótesis es:


H1 : A = B = C = D (Los cuatro tratamientos producen en promedio, la misma
reducción de peso).
H2 : Al menos un par de tratamientos es diferente.
En la Figura 12.1 se muestra el análisis de varianza que se obtiene del paquete estadístico. A
continuación se resume el procedimiento para realizar ésta prueba de hipótesis.
Considere un nivel de signi…cancia = 0:05; los grados de libertad correspondientes para
el numerador y denominador son en este caso gln = 4 1 = 3; gld = 18 4 = 14: Así Fc =
F (0:05; 3; 14) = 3:344:

Procedimiento operativo para calcular el estadístico Fm

Con la información reportada en la Tabla 13.3 se pueden construir los cuadrados medios entre y
dentro de tratamientos, es decir:

5(6:02 5:394)2 + 5(5:64 5:394)2 + 4(5:10 5:394)2 + 4(4:60 5:394)2


CMtrat = = 1:709
4 1

(5 1)(0:197) + (5 1)(0:123) + (4 1)(0:100) + (4 1)(0:020)


CMdentro = = 0:117
(5 1) + (5 1) + (4 1) + (4 1)
12.1. Ideas generales 205

Figura 12.1: Archivo de datos que registra los valores experimentales y el análisis estadístico.

Figura 12.2: Valor crítico de la distribución F para el ejemplo.


206 12. Análisis de Varianza

Así Fm = 1:709
0:117
= 14:596: Puesto que Fm = 14:596 > Fc = 3:344 se rechaza la hipótesis nula,
lo que indica que alguno de los tratamientos es efectiva para reducir de peso.
Capítulo 13

Modelo de regresión lineal simple

13.1 Planteamiento del problema de regresión


Muchos de los fenómenos sociales y naturales requieren de una explicación, los modelos de re-
gresión son una herramienta útil para tal …n. En este apartado se presentarán y desarrollarán
los conceptos estadísticos que comprenden los temas de regresión lineal simple.
Objetivos: Proporcionar una guía para conocer y comprender los elementos estadísticos más
importantes en la elaboración de un modelo de regresión. Generalmente este tipo de mode-
los permiten explicar y estudiar diferentes situaciones que se presentan en distintas áreas del
conocimiento. La idea principal es seleccionar una muestra de individuos u objetos a los cuales
se les medirán dos o más características. De esta manera el interés que se tiene es evaluar:

 Cuando las variables se relacionan.

 Qué tan estrecha es esa relación.

 Cuando una variable de respuesta se puede predecir de la otra.

La …nalidad del análisis de regresión consiste en estudiar la relación que existe entre las
variables, describir modelos grá…cos para explicar esta relación, y construir modelos sobre un
fenómeno para predecir otros valores de la respuesta dado un valor …jo de la covariable y hacer
inferencia sobre los parámetros del modelo, sobre la media estimada y la predicción. La forma
general del modelo es:

Y = Componente determinista + una variable aleatoria.

Donde la variable del componente determinista se denota por X, X = variable independiente


o variable predictora, o variable de entrada. Y se conoce como variable dependiente o respuesta.

207
208 13. Modelo de regresión lineal simple

Figura 13.1: Hoja de trabajo y la forma para la regresión simple

Ejemplo 1

En los reportes de quién es quién en los precios que proporciona la Secretaría del Consumidor,
seleccionamos el precio de dos medicinas en 10 farmacias, el precio está dado en pesos y el precio
real se debe multiplicar por 50. Los resultados se muestran en la siguiente tabla. Es de interés
saber si existe alguna relación entre los precios de las distintas medicinas: es decir si las farmacias
conservan la misma relación en sus precios con respecto a las dos medicinas:

Farmacia 1 2 3 4 5 6 7 8 9 10
Xi 3 3 4 5 6 6 7 8 8 9
Yi 9 5 12 9 14 16 22 18 24 22

En forma general, se usa la letra n para denotar el tamaño de la muestra, para cada uno de
los n individuos se observa la pareja de valores (X; Y ). Es decir

variable independiente X X1 X2 ::: Xn


variable de respuesta Y Y1 Y2 ::: Yn

En la investigación de la relación entre dos variables, el diagrama de dispersión es una técnica


de grá…ca para entender un análisis estadístico formal. Este análisis se realiza en CalEst en
módulo de regresión, en éste aparecen tres opciones la regresión simple, la regresión múltiple y
13.2. Modelo de regresión lineal simple 209

Figura 13.2: Diagrama de dispersión y modelo de regresión para el precio de las farmacias.

la regresión avanzada. En este Capítulo se abordará la primera, como paso inicial se anotan los
datos en una hoja de trabajo, creando o abriendo un archivo en CalEst o en otra hoja electrónica.
Una vez capturado los datos y se llama la opción regresión simple como aparece en la Figura
13.1.
Una vez llenados los cuadros para la variable dependiente, far2 en este caso, y la variable
independiente far1, se aprieta el botón aceptar. Enseguida aparece una serie de grá…cas que
forman parte del análisis, atrás aparece una hoja que completa el análisis estadístico. En la
Figura 13.2 se muestra una línea y los puntos que representan el precio de las 10 farmacias.
El objetivo principal es estimar los parámetros que caracterizan al modelo, línea recta, descrito
en la Figura 13.2. En la Figura 13.3 se muestra el reporte que contiene los valores estimados y
los resultados estadísticos generados por el método de mínimos cuadrado. Este se explicará en
este Capítulo. La información que se presenta en esta …gura se obtiene del paquete estadístico.

13.2 Modelo de regresión lineal simple


Suponemos que la respuesta (Y ) es una variable aleatoria que se relaciona con la variable (X)
por

Yi = 0 + 1 Xi + "i ; i = 1; :::; n donde (13.1)

1. Y denota la i-ésima respuesta correspondiente a un valor de X.

2. " (epsilon) "1;:::; "n son variables aleatorias no observables y suponemos que se distribuyen
como una distribución de probabilidad normal con media cero y varianza  2 .
210 13. Modelo de regresión lineal simple

Figura 13.3: Resultados estadísticos del análisis que genera el método de mínimos cuadrados

3. Los parámetros 0 (Beta cero), es el punto en el cual la recta (13.1) intercepta a Y . 1 (Beta
uno), pendiente de la recta (13.1), indica la cantidad que crece (decrece) Y por cada unidad
que aumenta X:

Ejemplos:

1. Identi…que los valores de los parámetros 0 ; 1 ;  2 ; en el siguiente modelo estadístico

Y =8 6X + "

" es una variable normal con media cero y desviación estándar 4.

2. Del modelo de regresión lineal, determine la media y la desviación estándar de Y , para


X = 1, cuando 0 =2, 1 =4 y =3

3. Haga la grá…ca de la línea de regresión para la media de la línea de regresión lineal

Y = 0 + 1 X + "; con 0 = 7 y 1 = 2:
13.2. Modelo de regresión lineal simple 211

13.2.1 El método de mínimos cuadrados


Supóngase, tentativamente que el modelo (13.1) es correcto. El problema de la estimación de los
parámetros 0 y 1 se ve como la línea recta que mejor se ajuste al diagrama de dispersión. El
procedimiento estadístico que nos permite determinar la recta que mejor se ajuste se conoce por
el método de mínimos cuadrados. Los estimadores de los parámetros 0 ; 1 ; se denotan por la
letra latina b0 ; bi respectivamente
Supóngase que una línea arbitraria Yb =b0 + b1 X es dibujada en un diagrama de dispersión.
En el valor Xi de la variable independiente, vemos el valor observado Yi y el correspondiente a
la recta Ybi = b0 + b1 Xi .(este valor Ybi : se le denomina valor predicho) la discrepancia entre los
valores observados y predichos es:

Yi Ybi = Yi (b0 + b1 Xi ) = ei

y representa la distancia vertical del punto Yi a la línea. La discrepancia de todos los puntos está
representada por la siguiente expresión.

n
X n
X
D= e2i = (Yi (b0 + b1 Xi ))2 ; (13.2)
i=1 i=1

Así, D es una medida de la discrepancia de los puntos observados Yi de la línea Ybi = b0 +b1 Xi .
La magnitud de D depende de la línea que se dibuje, es decir dependen de b0 y b1 . Un buen ajuste
hace la D tan pequeña como sea posible. El método de mínimos cuadrados permite estimar los
valores estimados de los parámetros, y su objetivo es minimizar la siguiente discrepancia:
n
X n
X
D= (respuesta observada-modelo)2 = (Yi ( 0 + 1 Xi ))2 :
i=1 i=1

Los valores que se obtienen de optimizar la expresión anterior se denominan estimadores de mí-
nimos cuadrados de los parámetros del modelo, estos se representan por las cantidades b0 y b1
Mediante este procedimiento obtenemos el modelo que mejor se ajusta a los datos, este se re-
presenta por Ybi = b0 + b1 Xi .

Notación.
Con la …nalidad de facilitar los cálculos en la estimación de los parámetros, en el análisis y
evaluación del modelo, se plantean las siguientes expresiones.

P
n P
n

_ _ _ _
( X )( Y )
1P n 1P n Pn Pn
i=1 i=1
X= Xi ; Y = Yi ; Sxy = (X i X)(Y i Y ) = Xi Yi i i
(13.3)
n i=1 n i=1 i=1 i=1 n
212 13. Modelo de regresión lineal simple

P
n P
n
_
( Xi2 )2 _
( Yi ) 2
P
n
2 P
n
i=1 P
n
2 P
n
i=1
Sxx = (Xi X) = Xi2 ; Syy = (Yi Y ) = Yi2 (13.4)
i=1 i=1 n i=1 i=1 n

Estas fórmulas son de utilidad porque permiten calcular los estimadores de mínimos cuadrados,
y a continuación se mostrarán las expresiones :

_
El estimador de mínimos cuadrados de 0 es b0 : b0 = Y b1X

Sxy
El estimador de mínimos cuadrados de 1 es b1 : b1 =
Sxx

La recta de regresión (estimada) o ajustada es : Ybi = b0 + b1 Xi

Las desviaciones individuales entre las observaciones Yi y los valores ajustados Ybi = b0 + b1 Xi
se llaman residuales, y los denotamos por ei .

13.2.2 Residuales
Los residuales se expresan por
ei = Ybi (b0 + b1 Xi ):

Los residuales permiten veri…car los supuestos estadísticos en los que se basa el método de
mínimos cuadrados, ellos son de utilidad para evaluar otras características del modelo, estos
Pn
aspectos se verán posteriormente. Una propiedad de los residuales es i=1 ei = 0: La suma de
cuadrados de los residuales es:

n
X 2
Sxy
SCerror = e2i = Syy (13.5)
i=1
Sxx

Esta expresión es útil para estimar la varianza, así la varianza  2 se estima por

SCerror
b2 =

n 2

Ejemplo 2

Considerando los datos de los precios de las medicinas en las diez farmacias, descritos anterior-
mente, a continuación se efectúan los cálculos para obtener la línea de mínimos cuadrados, los
residuales, la estimación de la varianza, los resultados previos se describen en la siguiente tabla.
13.2. Modelo de regresión lineal simple 213

Xi Yi Xi2 Yi2 Xi Yi Yb ei
3 9 9 81 27 7.15 1.85
3 5 9 25 15 7.15 -2.15
4 12 16 144 48 9.89 2.11
5 9 25 81 45 12.63 -3.63
6 14 36 196 84 15.37 -1.37
6 16 36 256 96 15.37 .63
7 22 49 484 154 18.11 3.89
8 18 64 324 144 20.85 -2.85
8 24 64 576 192 20.85 3.15
9 22 81 484 198 23.59 -1.59
59 151 389 2651 1003 0

El último renglón de la tabla anterior representa la suma de los renglones, estos valores se
sustituyen en las fórmulas descritas anteriormente para obtener la estimación del modelo. Los
cálculos son:
_ 59  151
X = 5:9; Y = 15:1; Sxy = 1003 = 112:1;
10
(59)2 (151)2
Sxx = 389 = 40:9; Syy = 2651 = 370:9:
10 10
Los estimadores de mínimos cuadrados para el modelo son:

112:1
b0 = 15:1 2:74  5:9 = 1:07; b1 = = 2:74:
40:9
Así la recta que mejor se ajusta a los datos de precios es:

Yi = 1:07 + 2:74Xi
La varianza se estima por:

SCerror 63:6528
b2 =
 = = 7:96;
n 2 8
(112:1)2
donde SCerror = 370:9 40:9
= 63:6528. En la Figura 13.3 se muestra el reporte de los cálculos
que genera el CalEst, compare esta con el procedimiento ilustrado. La construcción de la segunda
tabla que aparece en reporte se presenta en el apartado 13.3.4 y en la Tabla 13.1.
Interpretacion: Un vez que se han obtenido los estimadores de los parámetros, es impor-
tante su interpretación. En el modelo lineal que se esta estudiando el coe…ciente de la variable
independiente X es en particular el más importante. Así el valor de b1 = 2:74 indica que cuando
una farmacia vende la medicina X en un peso más cara, en esa misma farmacia la medicina Y
cuesta casi tres pesos más cara (por la consideración inicial 27 pesos más).
214 13. Modelo de regresión lineal simple

13.3 Estimadores de mínimos cuadrados.


 Recuerde que se tiene una muestra, si se selecciona otra muestra puede plantearse la pre-
gunta, ¿cuál es el valor de b1 ; si este proceso se repite varias veces?

 Si una farmacia vende la medicina X en 3.5 pesos, ¿cuánto costará la medicina Y en esa
farmacia?

Para responder a estas preguntas se necesita indicar que los estimadores de mínimos cuadra-
dos, se distribuyen como una distribución de probabilidad normal con media  = ; y varianza
 2 (bi ):

1. El estimador de la varianza de los estimadores de mínimos cuadrados se representan por


las siguientes expresiones:

b2
 1 X2
b2 (b1 ) =
 y b2 (b0 ) = 
 b2 ( + )
Sxx n Sxx

b2 =
donde el estimador de la varianza  2 es  SCE
n 2
o el estimador de la desviación estándar
b es la raíz cuadrada de
 SCerror
n 2
:

b2 , por ello la
2. En la práctica la varianza  2 no se conoce, así que se usa el estimador 
inferencia en los parámetros del modelo se basan en la distribución de probabilidad t,
entonces para la pendiente 1 ;
(b1 1 )
t=

b(b1 )

se distribuye como una t Student con n 2 gl. Análogamente la inferencia del intercepto
0 se basan en la distribución t.
(b0 0 )
t=

b(b0 )

se distribuye como una t Student, con n 2 gl.

3. Cuando se propone un valor especí…co de la variable independiente X, es de interés estimar


el valor de la respuesta para ese valor, suponga que el valor propuesto es X = X  ; con ello
la respuesta esperada es Y = 0 + 1 X  , y se estima por Yb = b0 + b1 X  con el objeto de
hacer inferencia sobre esta respuesta esperada es importante obtener la varianza de Yb y la
varianza estimada de ésta es:
13.3. Estimadores de mínimos cuadrados. 215

 
1 (X  X)2
b (Yb ) = 
 2
b 2
+ (13.6)
n Sxx

La inferencia sobre 0 + 1 X  se basa en la distribución t Student, esta es:

(b0 b1 X  0 + 1X )
t= con gl = n 2
b(Yb )


13.3.1 Inferencia con respecto a la pendiente.


En un problema de análisis de regresión es de interés determinar cuando la respuesta varía o no
con la magnitud de la variable de entrada X. Considere el modelo de regresión lineal. Respuesta
esperada
E(Y ) = 0 + 1 X

En esta no hay cambio en X si y solo si 1 = 0. Con objeto de veri…car si los datos apoyan
o no este hecho, en términos estadísticos se plantea la siguiente hipótesis:

H0 : 1 = 0 y H1 : 1 > 0;
(b1 1 )
con base en el estadístico de prueba, tc = 
b( 1 )
, gl = n 2. Permitirá rechazar o no la hipótesis
nula.
En particular, la hipótesis alternativa H1 como está planteada permite preguntarse, ¿existe
evidencia de que la medicina Y es más cara cuando la medicina X es cara? La respuesta será
a…rmativa si al realizar la prueba se rechaza la hipótesis nula, para ello primero se tiene que
obtener el valor del estadístico t.
De los cálculos se tiene que b1 = 2:74;

SCE 63:65
b2 =
 = = 7:956
n 2 8

de aquí se obtiene 
b = 2:8207, …nalmente:
s r

b 2:8207

b(b1 ) = = = 0:441
Sxx 40:9

estadístico de prueba es tc = 2:74


0:441
= 6:213. Este valor de t se compara con el valor de t obtenido
de las tablas de la distribución de probabilidad de la t de Student con 8 grados de libertad y
= 0:05, este valor es t = 1:860. Se puede observar que t es mayor que t : Esto permite
concluir que se rechaza la hipótesis nula.
216 13. Modelo de regresión lineal simple

Figura 13.4: Análisis grá…co de residuales.

Nota. Use la distribución y el calculador de probabilidad de la t de Student del paquete


estadístico para veri…car estos resultados estadísticos y conclusiones.

En la Figura 13.4 se describe el análisis grá…co del modelo proporcionado por el CalEst. En la
grá…ca superior izquierda aparece el modelo con su límite de con…anza del 95%. El cuadro que se
indica con las letras ab, brinda la posibilidad de cambiar el nivel de con…anza, además se puede
ver el límite de con…anza para la predicción. La grá…ca de la derecha superior muestra la relación
entre los valores reales y los predichos e indica qué tanto explica el modelo. Las siguientes dos
grá…cas completan el análisis del modelo mediante la evaluación de los residuales, en ellas se
puede interpretar: si existe homogeneidad en la varianza, dispersión de los residuales y puntos
aberrantes. Abajo hay una quinta grá…ca sobre los residuales que interpreta la dependencia con
respecto al tiempo.
13.3. Estimadores de mínimos cuadrados. 217

13.3.2 Intervalo de con…anza para los parámetros del modelo.


Intervalo de con…anza para 1 :

Se puede encontrar un intervalo de con…anza para el parámetro 1 usando la distribución t. Un


intervalo de con…anza para 1 , con un nivel de 100(1 )% se obtiene mediante la expresión
r
1
b1  t =2 
b(b1 ) = b1  t =2 
b
Sxx

donde t =2 es el punto correspondiente a la distribución t para gl = n 2 y /2.


Con esta expresión se construye un intervalo del 95% de con…anza para la pendiente de la
línea de regresión. De los cálculos realizados se tiene que b1 = 2:74 y 
b(b1 ) = 0:441 El intervalo
requerido es:
2:74  2:306(0:441) = 2:74  1:02 es decir (1:72; 3:76)

Intervalo de con…anza para 0

Con un nivel de signi…cancia del 100(1 )% :


s
2
1 X
b0  t =2 
b + (13.7)
n Sxx
De los resultados descritos del ejemplo 2, se tiene que b0 = 1:07, X = 5:9 y Sxx = 40:9. Se
b = 2:8207, por lo tanto el intervalo de con…anza 0 con = 0:05 es:
tiene que 
r
7 (5:9)2
1:07  2:306(2:8207) + = ( 7:41; 5:27):
10 40:9

13.3.3 Predicción de la respuesta media para un valor dado de X


En esta situación, se realiza inferencia sobre la estimación de la predicción de la respuesta para
un valor dado de la variable independiente, primero se plantea la estimación por intervalo de
con…anza y luego se describe la prueba de hipótesis.
Intervalo de con…anza para la respuesta esperada 0 + 1 X con un nivel de 100(1- ) %
con…anza es :
s
1 (X  X)2
b0 + b1 X   t =2 
b + (13.8)
n Sxx

Las hipótesis estadísticas para la predicción se muestran por:


218 13. Modelo de regresión lineal simple

H 0 : 0 + 1 X  = 0 ; H1 : 0 + 1 X  6= 0 ;

el estadístico de prueba que permite contrastar esta hipótesis es:

b 0 + b 1 X  0
tc = q ; gl = n 2;
1 (X  X)2

b n + Sxx

con la …nalidad de ilustrar la inferencia sobre la predicción de la respuesta, se utilizarán los datos
del ejemplo 1.

13.3.4 Reporte estadístico del modelo de regresión en CalEst


Las Figuras de la 13.1 a la 13.5 muestran cómo entran los datos en una hoja de trabajo para
la regresión hasta el reporte global. El procedimiento se ha ilustrado utilizando los datos del
Ejemplo 1 de este capítulo.
La línea de regresión que se ajustó a los datos descritos en el ejemplo 1 es Yb = 1:07+2:74X,
el precio de la medicina correspondiente a la farmacia cuyo precio en la medicina es X  = 6:5 se
estima por b0 + b1 X  = 1:07 + (2:74)  6:5 = 16:745. La desviación estándar se estima mediante
la siguiente expresión:
r
1 (6:5 5:9)2
2:8207 + = 0:893
10 40:9
El intervalo de con…anza del 95% para la media de la medicina Y con el precio de la medicina
X  = 6:5 es

16:745 + t0:25 (0:893) = 16:745  2:306  (0:893) = (14:600; 16:889):

Interpretación, con un 95% de con…anza la medicina Y se vende entre (13.31 y 17.43) con-
siderando que X  = 6:5, para un valor no observado de X, se desea proponer un valor de X
no observado, pero aún, entre el rango de valores de X, el error estándar estimado cuando se
predice una respuesta es:
r
1 (X  X)2

b 1+ +
n Sxx
Nuevamente se recurre a los datos de los precios de las farmacias, ahora X  = 6:5. El valor
predicho es: b0 + b1 X  = 1:07 + 2:74(6:5) = 16:74. La Figura 13.5 complementa el análisis
estadístico de este ejemplo. Para reproducirlo oprima el botón tercero en la segunda franja. La
predicción se obtiene usando el botón yb. Un intervalo de con…anza del 95% de con…anza es
13.3. Estimadores de mínimos cuadrados. 219

Figura 13.5: Información complementaria para el análisis estadístico del modelo de regresión.

r
1 (6:5 5:9)2
16:74  2:306(2:8207) 1+ + = 16:74  6:85 = (9:89; 23:59):
10 40:9

13.3.5 Evaluación de la relación lineal


Como una medida de la adecuación del modelo lineal se examina que tanto de la variación en la
respuesta es explicada por el modelo ajustado

Yi = (b0 + b1 Xi ) + (Yi b0 b1 Xi )

donde Yi es el valor observado, ( b0 + b1 Xi ) explica la relación lineal (Yi b0 b1 Xi ) explica el


residual
En una situación ideal donde todos los puntos están en la línea los residuales son cero, de
ésta manera los valores de Y son explicados por la dependencia lineal en X. Se puede considerar
la suma de cuadrados de los residuales:

X 2
Sxy
2
SCerror = (Yi b0 b1 Xi ) = Syy (13.9)
Sxx
220 13. Modelo de regresión lineal simple

para medir la discrepancia de la linealidad. La variabilidad total de los Yi se expresa por

X
Syy = (Yi Y )2 (13.10)

se denomina la suma de cuadrados total y se denota por SCtotal , la SCerror es parte de la


variabilidad de esta última expresión, la diferencia :

 2  2
Sxy Sxy
Syy SCerror = Syy Syy = : (13.11)
Sxx Sxx

representa la variabilidad de los datos al modelo y se denomina suma de cuadrados se denota


por SCregresion .Así la variación total o SCtotal queda expresada por dos componentes: SCregresion
(explicada por el modelo) y SCerror (residual). A continuación se describe la variabilidad de las
diferentes componentes del modelo.

SCtotal = Syy (total de Y )

explicada por la relación lineal


2
Sxy
SCregresion =
Sxx

no explicada por el modelo residual

SCerror = SCtotal SCregresion

Para evaluar qué tanto los datos se ajustan al modelo debemos considerar la SCregresion ,
de tal manera que si existe un buen ajuste, la SCregresion contribuye fuertemente a la SCtotal .
Nuevamente la situación ideal: todos los puntos sobre la línea recta nos indica que SCerror es
cero, así SCtotal queda totalmente explicada por los valores de X. Para resumir esta situación
generalmente se presenta una tabla que se llama análisis de la varianza (ANDEVA).

Fuentes de Suma de GL Cuadrado Medio Razón de varianza


Variación Cuadrados
SCregresi SCR=1
Modelo (R) SCregresion 1 1
on
F = SCE=(n 2)

Residual (E) SCerror n 2 SCerror


n 2

Total (T) SCtotal n 1

Tabla 13.1. Análisis de la Varianza


13.3. Estimadores de mínimos cuadrados. 221

La Tabla 13.1 resume el procedimiento para probar la hipótesis :

H0 : No existe relación lineal entre X y Y : 1 = 0

H1 : Sí existe relación lineal entre X y Y : 1 6= 0

F  es una variable aleatoria que tiene una distribución F con 1 y n 2 grados de libertad
respectivamente, para decidir si los datos con…rman la hipótesis nula se compara F  con el valor
F ; donde es el nivel de signi…cancia.
Nota. Use la distribución de probabilidad F y el calculador de ésta en el paquete estadístico
para veri…car estos resultados estadísticos y conclusiones. Observe que en el caso del análisis de
la regresión simple la prueba de hipótesis mediante las pruebas t y F son equivalentes. Vea la
propiedad de la distribución F con respecto a la t, que se mostró en el capítulo 8.
Un índice para evaluar el porcentaje de los datos que son explicados por el modelo, se llama
el coe…ciente de determinación y se denota por R2 ; este se construye considerando la proporción
de la variabilidad total y la explicada por el modelo, es decir :

2 2
SCregresion Sxy =Sxx Sxy
= = (13.12)
SCtotal Syy Sxx Syy

Realizando un poco de álgebra el coe…ciente de determinación se escribe como

SCtotal SCerror SCerror


R2 = =1
SCtotal SCtotal

La raíz cuadrada de esa cantidad, se le conoce como coe…ciente de correlación y se denota


por r:
s
2
Sxy Sxy
r= =p (13.13)
Sxy Syy Sxx Syy

Considerando nuevamente los datos sobre el precio de las farmacias, y por los cálculos que
se han realizado en los precios para las medicinas X y Y , se tiene: Sxx = 40:9, Syy = 370:9,
Sxy = 112:1 la recta que se ajustó : Yb = 1:07 + 2:74X. ¿Qué tanto de la variabilidad es
explicada por el modelo de regresión? La respuesta a esta pregunta calculando el coe…ciente de
determinación :

2
Sxy (112:1)2
R2 = = = 0:83
Sxx Syy (40:9)(370:9)
222 13. Modelo de regresión lineal simple

Este valor se interpreta diciendo que el 83% de la variabilidad en Y es explicada por la


regresión lineal, y se concluye que el modelo es satisfactorio. ¿Qué se puede concluir si R2 es
pequeño? ¿Qué procedimientos se deben con…rmar para tal caso?

13.3.6 Regresión lineal simple: notación matricial


La …nalidad de este apartado es mostrar mediante un ejemplo, el procedimiento de mínimos
cuadrados empleando la notación matricial. Esta es importante por la facilidad de generalizar la
estimación de los parámetros en un modelo de regresión con más de una variable independiente
X.

Ejemplo 3

Se ha probado que el tiempo de vida de un acumulador se puede predecir (por ejemplo) midiendo
la carga que se le proporciona a la batería (en voltios). Se realiza un prueba de vida acelerada, en
este caso los acumuladores se sometieron a ciertas condiciones ambientales de calor (entre otras
posibles pruebas). Los datos para seis acumuladores son:

corriente X tiempo de vida y


17.9 245
23.6 220
30.9 215
56.1 211
61 161
77 135

El objetivo es encontrar la mejor relación lineal entre las variables X y Y: El estimador de


mínimos cuadrados es:

b0 = (X 0 X) 1 X 0 Y

donde
 
0 1 1 1 1 1 1
X =
17:9 23:6 30:9 56:1 61 77

Aplicando el procedimiento de mínimos cuadrados se obtienen los siguientes resultados:


   
0 6 266:5 0 1187
XX= Xy=
266:5 14629:39 48274:1

la inversa
 
0 1 0:873 0:016
(X X) =
0:016 0:00036
13.3. Estimadores de mínimos cuadrados. 223

…nalmente se tiene
b = (268:593; 1:593)

el modelo estimado es
Yb = 268:593 1:593x

Análisis estadístico:
Hipótesis
Ho : 1 = 0
H1 : 1 6= 0
El estadístico
b
1
1
tc =  t(n p; )
b1 )
ES(
Cálculos
b ) = (S 2 (X 0 X) 1 )1=2 = 0:3543
ES( 1

donde S 2 es un estimador de la varianza  2

(Y Yb )0 (Y Yb )
S2 = = 350:4384
n p

1:593 0
tc = = 4:5
0:3543
el valor de t(n p; ) = t(4; 0:025) = 2:78:
El coe…ciente de determinación:

(Y Yb )0 (Y Yb ) 1401:9653
R2 = 1 =1 = 83:5
(Y Y )0 (Y Y) 8488:83
El coe…ciente de correlación
 
(X X)0 (Y Y)
r= = 0:913
(X X) (X
0 X)(Y Y )0 (Y Y)
Resumen
parámetro estimación error estd. tc p
o 268.593 17.494 15.353 0.0001
1 -1.593 0.354 -4.496 0.0108

Tabla 13.2. Resumen estadístico


224 13. Modelo de regresión lineal simple

tabla del análisis de la varianza: ANDEVA


fuente de suma de cuadrado medio razón p
variación cuadrados gl
modelo 7086.868 1 7086.868 20.220 0.0108
residual 1401.965 4 350.497
total 8488.833 5

Tabla 13.3. Resumen del análisis

fuente de suma de cuadrado


variación cuadrados gl medio razón p
(Yb Y )0 (Yb Y) CMregresion
modelo (Yb Y )0 (Yb Y) p 1
p 1 CMresidual
(Y Yb )0 (Y Yb )
residual (Y Yb )0 (Y Yb ) N p
N p
total (Y 0
Y ) (Y Y) N 1

Tabla 13.4 Análisis de la varianza en general

Inferencia por intervalo de con…anza:

Intervalo de con…anza para la pendiente 1


s
b1 =  t(N 1
p; )S
(X X)0 (X X)

Intervalo de con…anza para una media de la variable de respuesta 


s
1 (X  X)2
yb  t(N p; )S +
N (X X)0 (X X)

donde
b +
Yb  = b X
o 1

Intervalo de con…anza para predecir un valor de la variable de respuesta


s
1 (X  X)2
Yb   t(N p; )S 1+ +
N (X X)0 (X X)

Ejercicio

Reproduzca este ejercicio en el programa, complete la evaluación estadística e interprete.


Capítulo 14

Regresión Múltiple

14.1 Modelo
Si con la …nalidad de explicar un fenómeno o proceso se incorporan nuevas variables al modelo
lineal simple, entonces se tiene el modelo de regresión múltiple, el cual se representa mediante la
siguiente expresión :

yi = 0 + 1 X1i + 2 X2i + ::: + k Xki + " (14.1)

donde 0 es una contante, los, i ; i = 1; 2; :::; k, son los parámetros del modelo, las Xji j =
1; 2; :::n; i = 1; :::; k son las variables independientes que describen las k características de los n
individuos u objetos, Yi es la variable de respuesta, se tienen n observaciones sobre los individuos,
" es una variable aleatoria.
La ecuación (14.1) es un modelo hipotético con el cual se tratará de explicar los resultados de
una situación real, en general, la idea es bosquejar o construir un modelo que nos va a describir
e interpretar un fenómeno, para ello planteamos el siguiente procedimiento :
1.- Proponer un modelo esto incluye la selección de las variables que aparecen en el modelo.
2.- Estimar los parámetros 0 ; 1 ; 2 ;..., k del modelo.
3.- Especi…car la distribución de probabilidad de la variable aleatoria ", estimar la varianza
 2 de la distribución.
4.- Veri…car la utilidad del modelo
5.- Usar el modelo para predecir valores particular de Y , dentro del rango de valores de la
variable independiente.
NOTA.- El modelo (14.1) es lineal en los parámetros y en las variables independientes, en este
caso el modelo recibe el nombre de modelo lineal de primer orden. Más adelante se estudiarán
otros modelos.

225
226 14. Regresión Múltiple

14.2 Ajuste del modelo.


14.2.1 Supuestos estadísticos sobre el modelo.
Con el objeto de estimar los parámetros del modelo es necesario hacer algunas suposiciones sobre
la variable aleatoria ".
1.- Para cualquier conjunto de valores de X1 ; X2 ; X3 ; :::; Xk , la variable " se distribuye como
una distribución de probabilidad normal con media cero y varianza  2 . En símbolos "  N (0;  2 ),
 2 es constante.
2.- Los errores aleatorios son independientes en el sentido probabilístico.

14.2.2 Proceso de estimación


El objetivo es nuevamente estimar los parámetros del modelo con k variables independientes que
in‡uirán en la respuesta Y . Con la idea de …jar ideas sobre el procedimiento de estimación por
mínimos cuadrados, se considerarán la situación de que únicamente existen dos variables que
explican la respuesta. Este modelo es de la forma siguiente

Yi = 0 + 1 X1i + 2 X2i + "i ; (14.2)

el procedimiento es análogo al presentado para una variable, puesto que la …nalidad es optimizar
la siguiente expresión:
n
X n
X
"i "i = (Yi ( 0 + 1 X1i + 2 X2i ))2 (14.3)
i=1 i=1

Así, los estimadores de mínimos cuadrados obtenidos por este planteamiento es la solución que
se obtiene al resolver simultáneamente las ecuaciones que resultan de la optimización, para el
caso de dos variables la solución se tiene a partir de las expresiones indicadas a continuación, que
son una extensión a las anotadas cuando solo hay una variable independiente. A continuación
se muestran los resultados y la notación matemática de los estimadores.

14.2.3 Estimación por mínimos cuadrados


Si el número de variables independientes aumentan, las ecuaciones simultáneas que se obtienen al
optimizar la expresión ( 14.1 ) también aumentan, así la solución para estimar los parámetros se va
complicando algebráicamente. Una alternativa matemática que facilita el proceso de estimación
por mínimos cuadrados es la utilización de la representación matricial, esto da lugar a realizar
operaciones con matrices, como el producto, inversión y la transposición. A continuación se
presenta este planteamiento.
14.2. Ajuste del modelo. 227

Planteamiento empleando la notación matricial

Es de mayor utilidad operativa y de comprensión la representación del modelo de regresión en


términos de matrices, así las respuestas se expresan mediante un vector Y de dimensión nx1, n
es el número de observaciones que se realizan a un sujeto u objeto. Las variables independientes
se representan por la matriz X de dimensión nxk donde el número de columnas k describe al
término constante y las k variables ( las k características de interés para explicar un fenómeno).
El vector de parámetros se indica por de dimensión kx1. Por " el vector aleatorio nx1.
2 3 2 3 2 3 2 3
Y1 1 X11 X12 : : : X1k 0 "1
6 Y2 7 6 1 X21 X22 : : : X2k 7 6 1 7 6 "2 7
6 7 6 7 6 7 6 7
6 : 7 6 : : : : : : : 7 6 : 7 6 : 7
Y =6
6
7X = 6
7 6
7 = 6
7 6
7" = 6
7 6
7
7
6 : 7 6 : : : : : : : 7 6 : 7 6 : 7
4 : 5 4 : : : : : : : 5 4 : 5 4 : 5
Yn 1 Xn1 Xn2 : : : Xnk k "n

de esta manera el modelo se puede escribir en forma matricial como

y = 0 + 1 X1i + 2 X2i + ::: + k Xki + " = X + " (14.4)

14.2.4 Estimación de los parámetros del modelo.


En la parte inicial describimos que el método de mínimos cuadrados nos permite estimar los
parámetros del modelo. Por medio del procedimiento de mínimos cuadrados estimamos los
parámetros del modelo, el planteamiento estadístico es como sigue

0
minimizar "0 " = (y X ) (y X ) (14.5)

La solución de esta minimización queda representada por la siguiente expresión :

b = (X 0 X) 1 0
XY (14.6)

b contiene los estimadores de los parámetros del vector , y con


Los elementos del vector
ello se puede construir el modelo de regresión estimado.

14.2.5 CalEst en el análisis estadístico del modelo


Ejemplo 1

Un economista agrícola tiene interés en evaluar el rendimiento (Y ) de un grano en unas parcelas,


debido al promedio de precipitación anual de lluvia X1 y a la temperatura promedio anual X2
para ello considera ocho años. Estime el modelo de regresión, evalúe la importancia estadística
228 14. Regresión Múltiple

de cada variable para explicar la respuesta. Se puede notar que el modelo que se propone es un
plano, así se busca el plano de regresión que mejor se ajuste a los datos descritos por el estudio.
Los datos observados se presentan en la siguiente Tabla 14.1

X1 : nivel X2 : temperatura y
a~
no de lluvia promedio prod:
1981 39 20 55
1982 37 26 65
1983 47 19 80
1984 37 27 75
1985 39 24 70
1986 38 21 50
1987 40 23 60
1988 41 22 65

Tabla 14.1. Reporte de la información

Solución

La …nalidad es presentar la solución usando el módulo de regresión múltiple en el software. La


descripción del análisis estadístico y la justi…cación del procedimiento de estimación se plantea
en el siguiente apartado.
En la Figura 14.1 se muestra la estimación de los parámetros y la inferencia estadística
de estos, para realizar esta última se estima el error estándar de los estimadores y se calcula
el estadístico de prueba t de Student y …nalmente se indica el valor del nivel de signi…cancia
descriptivo p: El valor de p es la probabilidad de la distribución t con los grados de libertad
correspondientes, a la izquierda si el estadístico es negativo o a la derecha si el estadístico es
positivo. Si p < se rechaza la hipótesis correspondiente al parámetro i ; i = 1; 2, en caso
contrario no se rechaza la hipótesis.

Estimación de los parámetros del modelo

El valor de los parámetros estimados aparece en la columna 1 y son

b = (
b ; b1 ;
b2 ) = ( 177:439; 3:863; 3:908)
0

por lo tanto el modelo es:

y= 177:439 + 3:863X1 + 3:908X2


14.2. Ajuste del modelo. 229

Figura 14.1: Cuadro de la izquierda reporta la estimación de los parámetros y el análisis de la


varianza. A la derecha se presenta información descriptiva e intervalos de con…anza.
230 14. Regresión Múltiple

14.2.6 Prueba de hipótesis: parámetros del modelo


Con esta información se puede hacer inferencia sobre los parámetros, de esa manera averiguar si
tanto el nivel de lluvia como la temperatura de manera individual tienen efecto estadísticamente
signi…cativo sobre el rendimiento por hectárea. Para ello se plantean las siguientes hipótesis:

H0 : 1 = 0 contra H1 : 1 6= 0 y

H0 : 2 = 0 contra H1 : 2 6= 0

Ver los resultados reportados en la Figura 14.1. Cada una de estas hipótesis se prueban con
el estadístico t de Student, el planteamiento y el cálculo de estas es como sigue:

b
1 3:863 0
1
t1 = = = 5:331
 b )
b ( 0:725
1

y
b2
2 3:908 0
t2 = = = 4:687
 b )
b ( 0:834
2

Como ambos estadísticos son mayores que el valor t( =2; gl = 5) = 2:571 y con un = 0:05;
se tiene que ambas variables contribuyen de manera signi…cativa en el efecto de rendimiento de
producción del grano. La Figura 14.2 indica el valor del estimador su error estándar y el intervalo
de con…anza del 95%, en este caso, para los parámetros. Finalmente se indica el coe…ciente de
correlación entre la respuesta y cada una de las variables de entrada. Se indica los coe…cientes
de determinación y el error estándar.

Análisis de residuales
Las grá…cas de la Figura 14.3 describe el análisis de residuales.

14.2.7 Análisis e Interpretación del Modelo.


Se ha construido el modelo de regresión del ejemplo, una inferencia importante en el análisis de
regresión es evaluar la signi…cancia del modelo, tal situación se plantea mediante la hipótesis:

H0 : 1 = 2 = ::: = p = 0

H1 : i 6= 0 para alguna i ; i =1; :::; k


14.2. Ajuste del modelo. 231

Figura 14.2: Completa el análisis de regresión múltiple, las correlaciones son entre ( y y X1 ) y
( y y X2 )

Figura 14.3: Análisis grá…co de los residuales


232 14. Regresión Múltiple

Si se rechaza la hipótesis H0 , se concluye que el modelo es estadísticamente signi…cativo, así el


modelo es de utilidad para predecir valores de y dentro del rango de las variables independientes.
El procedimiento para probar ésta hipótesis se resume en una tabla conocida como análisis de
la varianza y se abrevia ANDEVA. Ésta consiste en dividir la suma de cuadrados total en dos
componentes una debida al modelo y la otra la que no explica el modelo. Ésta última corresponde
a la suma de cuadrados de la discrepancia que existe en el valor observado y el ajustado por el
modelo. En general a la discrepancia se le reconoce como residual. Finalmente se tiene que:
Suma de cuadrados total = Suma de cuadrados del modelo + Suma de cuadrados de residuales;
en símbolos:

n
X n 
X 2 n 
X 2
2
Yi Y = Ybi Y + Yi Yb (14.7)
i=1 i=1 i=1

Notación: Los términos de la ecuación (14.7 ), se conocen como la suma de cuadrados, el


P
n 2
término del primer miembro se denomina el total y se denota por SCT, éste es: Yi Y ,
i=1

el primer término del segundo miembro se conoce como la suma de cuadrados debida al modelo
Pn  2
y se denota por SCM y es: Ybi Y , …nalmente el otro término del segundo miembro se
i=1

denomina como la suma de cuadrados no explicada por el modelo o suma de cuadrados del error,
n 
P 2
ésta se denota por SCE, es decir Yi Yb . Con esta información y los grados de libertad
i=1

se construye la Tabla 14.2:

Fuente de Suma de gl Cuadrados Razón Prob.


variación cuadrados medios
Pn  2 Pn  2
Modelo Ybi Y k 1 Ybi Y =(n k) F = CMmodelo
CMerror
p
i=1 i=1
Pn  2 Pn  2
Error Yi Yb n k Yi Yb =(n k)
i=1 i=1
P
n 2
Total Yi Y n 1
i=1

Tabla 14.2. Descripción general de la tabla del ANDEVA

Los cuadrados medios que aparecen en la cuarta columna de la Tabla 14.2 se obtienen divi-
diendo la suma de cuadrados por los grados de libertad. Luego se divide el cuadrado medio del
14.2. Ajuste del modelo. 233

modelo entre el cuadrado medio del error, el valor resultante viene de una distribución de pro-
babilidad F con  1 y  2 grados de libertad. Éste permite probar la hipótesis nula sobre igualdad
de parámetros, es decir:

CMmodelo
Fc =
CMerror

Si Fc es mayor que un valor de la distribución F para un = 0:05 con los grados de libertad
apropiados, entonces se dice que los datos no apoyan la hipótesis nula H0 y se rechaza. También
se compara el valor de con el valor de la probabilidad p; es decir si > p se rechaza H0 .

Análisis de la Varianza con respecto a la representación matricial

En forma esquemática, el procedimiento para contrastar la hipótesis global se muestra en la


Tabla 14.3. En la columna 5 se presenta el valor calculado del estadístico.

Fuente de Grados de Suma de Cuadrados Fc valor p


variación libertad cuadrados medios

Regresión g 1 b
SCreg = (y0 X y 2 =n) SCreg CMreg
g 1 CMerror

Error n g SCerror = y0 y b
y 0 X SCerror
n g

Total n 1 SCtotal = (y0 y y 2 =n)

Tabla 14.3 Descripción del análisis de la varianza

ANDEVA para el ejemplo 1

La hipótesis que se probará para este ejemplo es :

H0 : 1 = 2 = 0 contra la alternativa H1 : i 6= 0; para alguna i = 1; 2.

En el segundo cuadro de la izquierda en la Figura 14.1 muestra el análisis de la varianza, de ahí


se puede concluir que se rechaza la hipótesis nula ya que el valor de p es menor que = 0:05:

Estimación de la varianza

La varianza  2 se estima por


P 2
SCE Yi Yb
b2 =
 =
n k n k
234 14. Regresión Múltiple

b2 es
La varianza  2 se estima así 

P
2 SCE (Y Yb )2 99:268

b = = = = 19:854
n k n k 7 2
p 2 p
y el error estándar es 
b=  b = 19:854 = 4:4578

Coe…ciente de determinación
Otros resultados estadísticos para evaluar el modelo de regresión se siguen a partir del coe…ciente
de determinación, el cual se obtiene por:

SCM SCE 99:268


R2 = =1 =1 = 0:858;
SCT SCT 700:0
P b 2
donde la SCT = Yi Y = 700:0; entonces este coe…ciente indica que aproximadamente el
86% de los datos son explicados por el modelo. Por otro lado el de determinación ajustado por
los grados de libertad es:

2 (n 1)SCE (7 1)99:268
Rajs =1 =1 = 0:802
(n k)SCT (7 2)700:0

Considerando esta información proporcionada por los datos, se tiene que el modelo explica el
80%. Se puede notar que estos coe…cientes son aproximadamente iguales, si el número de datos
observados aumenta de manera considerable.

Coe…ciente de determinación R2 : notación matricial


El reporte sobre la bondad del modelo se completa mediante el cálculo del coe…ciente de deter-
minación, el cual indica qué porcentaje de los datos son explicados por el modelo, éste se estima
por la siguiente expresión:

SCreg SCerror y0 y y 0 X b
R2 = =1 =1
SCtotal SCtotal y0 y y 2 =n

con la información presentada en la tabla del ANDEVA, se obtiene el valor estimado de R2 .

Evaluación del modelo.


La construcción del modelo y la estimación de los parámetros se basan en el supuesto de que la
variable aleatoria " tiene una distribución de probabilidad normal, entonces es importante veri-
…car este supuesto, también se debe observar si se cumple la homogeneidad de la varianza. Estos
14.2. Ajuste del modelo. 235

aspectos relevantes se analizan descriptivamente mediante técnicas grá…cas como se muestran a


continuación.

Intervalos de con…anza para el modelo y la predicción

En el análisis del modelo de regresión es importante estimar mediante intervalos de con…anza


a los parámetros del modelo y a la respuesta media en un valor especí…co de x, y mediante un
intervalo de predicción para la respuesta individual para un valor especí…co de la variable x.
Intervalo de con…anza para 1

b1  t(n b1 )  t(n p
g; =2)ES( g; =2)S m11

donde m11 es el segundo elemento de la diagonal en la matriz (X0 X) 1 :


Intervalo de con…anza para la media de la variable de respuesta  en x0
q
Yb   t(n g; =2)S (1; x0 ) (X0 X) 1 (1; x0 )0

=
b el vector de parámetros
donde Yb  = x0 ; b0 ;
b = ( b1 ) y el vector (1; x0 ); donde x0 representa
a los niveles de los factores donde se requiere estimar la media de Y .
Intervalo de con…anza para un valor de la variable de respuesta (predicho)
p
Yb   t(n g; =2)S 1 + (1; x0 )(X0 X) 1 (1; x0 )0

Del ejemplo tratado se puede estimar el intervalo de con…anza correspondiente al modelo y al


de la predicción para un valor da las variables de entrada, por ejemplo si X1 = 48 y X2 = 20; se
tienen los resultados que muestra la Figura 14.4. Estos intervalos se obtiene usando el software.

Ejercicio 1

Existe interés en conocer si hay alguna relación en el rendimiento de los estudiantes en el examen
de selección para ingresar a la preparatoria, con el promedio en la materia de matemáticas X1 y
la de español X2 que obtuvieron en los tres años de secundaria, el rendimiento se evaluó por el
número de respuestas correctas en el examen. Los resultados de nueve estudiantes seleccionados
al azar son los mostrados en la siguientes tabla, aciertos en el examen de selección X1 y el
promedio en secundaria X2 .

Y = aciertos 89 78 66 62 52 49 47 44 38
X1 = mat:promedio 78 89 70 74 72 68 70 65 62
X2 = esp:promedio 89 81 80 72 70 67 68 69 68
236 14. Regresión Múltiple

Figura 14.4: Intervalos de con…anza para el modelo y la predicción

Ejercicio 2

En un proceso se quiere conocer la relación que existe entre el tiempo de mezclado y la velocidad
del equipo con la densidad. Un ingeniero realiza varias pruebas sus resultados se muestran en la
siguiente tabla
prueba tm vel den prueba tm vel den
1 5 100 3.1 11 8 200 3.2
2 5 100 3.3 12 8 200 3.5
3 5 200 2.6 13 9 100 2.8
4 5 200 2.4 14 9 100 2.6
5 7 100 2.5 15 9 200 3.1
6 7 100 2.6 16 9 200 3.0
7 7 200 3.0 17 10 100 3.2
8 7 200 3.3 18 10 100 3.4
9 8 100 2.4 19 10 200 2.5
10 8 100 2.3 20 10 200 2.4

Proponga un modelo de regresión múltiple y realice un análisis estadístico completo para


evaluar el modelo.

Ejecicio 3

Un investigador estudia el efecto de la razón de carga (X1 ) y temperatura (X2 ) en la vida de un


nuevo tipo de celda de poder. Un experimento se realiza donde tres niveles de X1 (6, 1.0 y 1.4
ampers) y de X2 (10, 20, 30 o C). Los factores que se re…eren a la descarga de la celda Y, se midió
en términos del número de ciclos de carga-descarga en que la celda se mantiene antes de fallar.
Los datos se muestran en la siguiente tabla:
14.2. Ajuste del modelo. 237

razón de tem número


carga de ciclos
X1 X2 x1 x2 Y
0.6 10 -1 -1 150
1.0 10 0 -1 86
1.4 10 1 -1 49
0.6 20 -1 0 288
1.0 20 0 0 157
1.0 20 0 0 131
1.0 20 0 0 184
1.4 20 1 0 109
0.6 30 -1 1 279
1.0 30 0 1 235
1.4 30 1 1 224
X1 = 1 X 2 = 20

Se propone el modelo: Y = 0 + 1 x1 + 2 x2 + 11 x21 + 22 x22 + 12 x1 x2 : Obtenga:

1. La tabla de coe…cientes.

2. La tabla del ANDEVA, la tabla de suma de cuadrados condicionales.

3. Obtenga el valor de la varianza y de los coe…cientes de determinación.

Ejercicio 4

Se somete un material a cierta temperatura, se desea conocer las impurezas generadas en un


proceso químico. A continuación se muestran los datos.

X Temeperatura (oC) y Impurezas (%)


90 18.4, 17.6, 18
100 11.7, 10.3
110 7.7, 8.3
120 6.5, 6.7
130 6.6, 7.2, 6.7

Preguntas:

1. Escriba el modelo lineal.

2. Haga la prueba de hipótesis sobre los parámetros del modelo.

3. Plantee y pruebe la hipótesis sobre el modelo, ¿qué puede concluir?


238 14. Regresión Múltiple

4. Interprete el coe…ciente de determinación.

5. Interprete el valor de la estimación del parámetro de la temperatura.

6. Estime el error estándar del parámetro de la variable temperatura.

7. Observe la grá…ca de residuales, ¿qué puede concluir?

8. Agregando al modelo el término cuadrático: Use el módulo de regresión avanzada, modelo


polinomial de orden 2. ¿qué puede concluir?

Parámetro Coe…ciente error std estadístico t p


coe…ciente 176.834 11.850 14.923 0.000
X -2.802 0.219 -12.811 0.000
X2 0.012 0.0009 11.588 0.000
Capítulo 15

Pruebas de bondad de ajuste

15.1 Análisis de datos categóricos


Los datos categóricos surgen cuando se observa una característica de una muestra de individuos
y ésta se registra en diferentes categorías cualitativas. Así, se toma una muestra de personas que
asisten al cine y se les pregunta su preferencia por el género de las películas. El tipo de película
se clasi…ca por: Terror, Comedia, Ficción y Drama. Los datos relevantes en este estudio son el
número de asistentes que escogen cada categoría. La frecuencia de este tipo de datos se llaman:
datos categóricos. En este caso existe interés en estudiar la proporción que existe en cada una
de las categorías seleccionadas por los ciné…los. La técnica que permite estudiar estas cuestiones
se conoce como pruebas Ji (Chi) Cuadrada de Bondad de ajuste.

Ejemplo 1.

Un vendedor en una tienda, considera que las ventas de un determinado juguete se debe al color,
hay tres tipos de colores A: azul, R: rojo, V: verde. La relación planteada por el vendedor entre
A, R y V se da en razón 1:2:1 .
Para veri…car ésta situación se observa una muestra aleatoria de 150 juguetes de las ventas
realizadas el último trimestre. Los datos reportados se describen en la Tabla 15.1a:

Color juguete A:azul R:rojo V:verde N


Frecuencia Observada 27 82 41 150
Proporción 0.25 0.50 0.25

Tabla 15.1a Datos del ejemplo 1

Solución: Prueba de hipótesis 1. Las hipótesis que se plantea para este estudio:

H0 : p1 = 0:25: p2 = 0:50: p3 = 0:25

239
240 15. Pruebas de bondad de ajuste

H1 : El esquema de colores no satisface esta proporción.

Nota. La prueba se veri…ca bajo el supuesto de que la hipótesis nula es verdadera. El valor
que se espera ante este supuesto, es multiplicar el tamaño de la muestra , N por la proporción
pi , es decir: N pi y se denota por Ei : Entonces la frecuencia esperada se escribe por:

Ei = N pi

La idea de la prueba es comparar las frecuencias esperadas Ei con los observados Oi . mediante
el estadístico de prueba:

n
X (0i Ei )2
2 = (15.1)
i=1
Ei

Tal como se muestra en la Tabla 15.1b

(0i Ei )2
Oi pi Ei Ei

Categoría Observado Proporción Esperado Contribución a la Ji


1 18 0.25 25 1.96
2 55 0.50 50 0.50
3 27 0.25 25 0.16
100 1 2.62

Tabla 15.1b Cálculo del estadístico

2. Se especi…ca un valor de ; suponga = 0:05: Se identi…can los grados de libertad, en


este caso gl = n 1 = 2; donde n es el número de celdas. Se obtiene el valor de referencia 2c
usando las características de la distribución 2 : Ver Tabla 15.1c. Es decir 2c = 5:991
3. Se calcula el valor del estadístico que se genera para esta muestra, ver la última columna
de la Tabla 15.1b, así 2m = 2:62
4. Puesto que 2m = 2:62 < 2c = 5:991 no se rechaza H0
5. Se concluye que el vendedor con…rma su a…rmación sobre la proporción de venta de juguetes
con respecto al color.
15.1. Análisis de datos categóricos 241

Guía: Para realizar la prueba


En palabras En símbolos
1. Establecer las hipótesis Nula y Alternativa Indicar H0 y H1
2.a. Especi…car el nivel de signi…cancia
2.b. Identi…car los grados de libertad gl = (r 1)(c 1)
2.c. Usar la distribución 2 CalEst 2 ( ; gl) = 2c
para determinar la región de rechazo
P (0 E)2
3. Calcular el estadístico de prueba 2m = E

4. Decidir si se rechaza o no se rechaza H0 Si 2m > 2c se rechaza H0 No, en caso contrario
5. Interpretar la decisión en el contexto de H.

Tabla 15.1c

Prueba de hipótesis: Para ver este valor ir a CalEst tabla.


Resumen: A continuación se describe el procedimiento operativo, para construir el estadístico
de prueba 2 ; cálculo que realiza el CalEst.

 n = número de celdas. (El número celdas en el ejemplo es 3, este debe ser variable)

P
n
 Sumar el número de observaciones N = 0i
i=1

 Obtener el valor esperado Ei = N  pi donde p es la proporción i-esima.

(0i Ei )2
 Calcular los i sumandos 2i = Ei
(Contribución a la Ji).

P
n
(0i Ei )2
 Sumar los 2i ; 2 = Ei
i=1

 Grados de libertad (gl) = número de celdas - 1.

Observaciones

1. La fórmula para calcular 2 es válida si todos los valores E son mayores o iguales a 5. Si
el valor de E es mayor que 5, el valor de 2 es sensible, al combinar las otras categorías de
E mayores a 5:

2. Si alguna de las categorías son combinadas para evitar valores bajos de E; el número de
categorías después de la combinación se usan en el cálculo de los grados de libertad.
242 15. Pruebas de bondad de ajuste

15.1.1 Pruebas de independencia y homogeneidad en tabla de con-


tingencia

En este apartado, se discutirá el análisis de dos variables. Estas variables tendrán la característica
de ser categóricas, porque nos permiten clasi…car los valores de las variables por categorías. Las
variables se reportan en tablas, llamadas de contingencia, las columnas consisten de los valores
en categorías de una variable, en los renglones se tienen los valores de la otra variable.
Suponga que se tienen varias poblaciones y de cada una de ella se extrae una muestra de
tamaño …jo y cada respuesta se clasi…ca en categorías. Estos datos se resumen como conteos en
una tabla de doble entrada, Tabla 15.2. Las columnas se re…eren a las categorías y los renglones
a las diferentes poblaciones. El objetivo es probar cuando las poblaciones son semejantes u ho-
mogéneas con respecto a las probabilidades de las categorías. Es decir, se requiere determinar
cuando la proporción para cada categoría es aproximadamente la misma para todas las propor-
ciones. La prueba se conoce como prueba de homogeneidad y se aplica a tablas de contingencia
que tienen un marginal …jado, el total del renglón corresponde al tamaño de muestras …jado para
cada población.

Grupos de Edad
Tamaño de la compañía 1 2 3 4 5
Pequeña pa1 pa2 pa3 pa4 pa5 1
Grande pb1 pb2 pb3 pb4 pb5 1
Tabla 15.2 Caracterización de una población

La hipótesis nula de no diferencia u homogeneidad, especi…ca que las probabilidades para una
categoría es la misma para todos los renglones o poblaciones.

H0 : pa1 = pb1 ; pa2 = pb2 ; pa3 = pb3 ; pa4 = pb4 ; pa5 = pb5 :

Bajo la hipótesis nula, se denotan estas probabilidades por p1 ; p2 ; p3 respectivamente.

El estadístico para veri…car esta hipótesis se compara con el valor de una distribución 2 con
gl un número de grados de libertad y un nivel de signi…cancia : El procedimiento para construir
el estadístico de prueba se describe en el siguiente algoritmo.
15.1. Análisis de datos categóricos 243

Resumen de la Prueba de Homogeneidad en una Tabla de Contingencia.

Prueba 2
Hipótesis Nula:
En cada categoría, las probabilidades son iguales para todas las poblaciones.
Estadístico de Prueba

2
P (O E)2 O = frecuencia observada
 = ;  total columnas
Celdas
E E = total renglonestotal
gl = (No. de renglones-1)(No. de columnas -1)
Región de rechazo 2  2

Ejemplo 2

Se llevó a cabo un estudio para determinar la característica de la edad en dos tipos de compañías
(pequeñas y grandes). Se toma una muestra de 550 empleados, 300 de la pequeña y 250 de la
grande. La frecuencia esperada se muestra en la siguiente Tabla 15.3.

Grupos de Edad
Tamaño de la compañia 1 2 3 4 5 N
Pequeña 42 69 108 60 21 300
Grande 5 18 85 120 22 250
Total 47 87 193 180 43 500

Tabla 15.3 Descripción de los datos del ejemplo.


Columnas grupos de Edad en años, las categorías son: 1:mayores de 39, 2: 40-49, 3: 50-59, 4:
60-69, 5: más de 70.

Resultado del ejemplo:

Referencia Observado Esperado Contribución 2


1 42 25.636 10.445
2 69 47.455 9.782
3 108 105.273 0.071
4 60 98.182 14.848
5 21 23.455 0.257
6 5 21.364 12.534
7 18 39.545 11.739
8 85 87.727 0.085
9 120 81.818 17.818
10 22 19.545 0.308
Total 550 77.887
244 15. Pruebas de bondad de ajuste

V de Cramer : 0.37631379. Para ver el valor de p ir a CalEst tabla de la Chi cuadrada.

Solución de Ejemplo: Hipótesis:


H0 : Las dos poblaciones (pequeña y grande) son homogéneas con respecto a la proporción
de los grupos de edad. H0 : p1 = p2
H1 : Las dos poblaciones no son homogéneas con respecto a la proporción de los grupos de
edad.
2. El nivel de signi…cación: = 0:05; ver en el CalEst la distribución 2 (0:05; 4) = 2c = 9:487
3. Estadístico de prueba:
P (O E)2
2m = E
= 77:886
Cell

4. Decisión: Se rechaza H0 ya que 2m > 2c


5. Conclusión: No existe homogeneidad en las poblaciones con respecto a las proporciones
del grupo de edad. Solución usando CalEst.

Procedimiento de cálculo del estadístico 2 :

 Tener en cuenta las frecuencias observadas

 Considerar las categorías para renglones y columnas (puede ser 1,2,3,... o las que el usuario
escoja)

 Determinar el valor n = número de celdas. (El número de celdas por renglón y por columna)

P
r P
c
 Sumar el número de observaciones total N = Oij , determinar el total renglón i-ésimo
i=1 j=1

P
c P
c
tri = Oij , y total columna j-ésimo tcj = Oij
j=1 i=1

tri tcj
 Obtener el valor esperado Eij = N
.

(0i Ei )2
 Calcular los i sumandos 2i = Ei
(Contribución a la Ji)

P
n P
n
(0i Ei )2
 Sumar los 2i , 2 = 2i = Ei
i=1 i=1

 Grados de libertad (gl) = (n


umero de renglones 1)(n
umero de columnas 1)
q
X2
 Obtener Valor de Cramer V = N (k 1)
donde k = min(I; J), I renglones J
15.2. Pruebas de Bondad de Ajuste sobre distribuciones de probabilidad 245

15.2 Pruebas de Bondad de Ajuste sobre distribuciones


de probabilidad
Estas pruebas permiten decidir cuando una muestra de datos proviene de una distribución par-
ticular de probabilidad. Aquí solo se plantean tres distribuciones de probabilidad: Binomial,
Poisson y Normal, discretas las dos primeras y continua la segunda.
Para la binomial y Poisson se aplicará una prueba 2 , para ver que tan aproximadas son las
frecuencias observadas de la muestra obtenida con las frecuencias que se esperan bajo la hipótesis
nula, tal que ésta supone alguna de las distribuciones.
Para la distribución, se usará la prueba de Kondgorov-Smirnov.

15.2.1 Prueba de bondad de ajuste para una Distribución Binomial


Supóngase que se realizan n ensayos Bernoulli, y en cada ensayo hay dos resultados posibles,
denominados como éxito y falla. Los ensayos son independientes y la probabilidad p de éxito,
es constante. Considere que se repite ese conjunto de n ensayos varias veces y se observa la
frecuencia del número de éxitos. En este caso se puede plantear una prueba de hipótesis, para
veri…car si es razonable concluir si el número de éxitos en los n ensayos tienen una distribución
binomial, en este caso se utiliza el estadístico de prueba 2 :
Nota: Para calcular la frecuencia esperada E, el valor p se estima de las frecuencias observadas
o se especi…ca de manera hipotética.

Ejemplo 3

Se realiza un experimento en una prueba de concurso, donde el participante, "se supone ",
adivina la respuesta. Se plantean cinco preguntas con cuatro opciones. Esta prueba se aplicó a
una muestra de 60 individuos. El registro de los datos se reportan en la Tabla 15.4.
¿Hay evidencia de que los individuos respondieron simplemente adivinando?

Solución
Si los individuos adivinan cada respuesta, entonces la probabilidad de una respuesta correcta es
0.25. Así que la pregunta planteada, es equivalente a veri…car si los datos de la muestra descritos
en la Tabla 15.4, siguen una distribución binomial con n = 5 y p = 0:25: La frecuencia esperada,
E; para los diferentes casos, se obtiene bajo el supuesto de que la distribución es una binomial
B(5; 0:25): Para ello se calcula la probabilidad en cada uno de los casos, ésta se multiplica por
el tamaño de la muestra. Con los valores de las frecuencias observadas y esperadas, se calcula el
estadístico 2 :
246 15. Pruebas de bondad de ajuste

Observaciones

1. La fórmula para calcular 2 es válida si todos los valores E son mayores o iguales a 5. Si
el valor de E es mayor que 5, el valor de 2 es sensible, al combinar las otras categorías de
E mayores a 5:

2. Si alguna de las categorías son combinadas para evitar valores bajos de E; el número de
categorías, después de la combinación, se usan en el cálculo de los grados de libertad.

Casos Respuestas correctas P (x) E = P (x)  60 0 2m


1 0 0.2373 14:238 18 0:994
2 1 0.3955 23:730 22 0:126
3 2 0.2637 15:822 10 2:142
4 3 0.0879 5:274 6:21 6 10
5 4 0.0146 0:876 6:21 3 10
6 5 0.0010 0:060 6:21 1 10 2:313
Total 1.0000 60 60 5:575

Tabla 15.4 Resultados para el cálculo de la prueba 2

* Estos valores se obtienen del CalEst en el grupo de distribuciones en la opción Binomial,


en propiedades se escribe p = 0:25; n = 5 y se mueve el umbral.

Procedimiento de la prueba de hipótesis.

1. Plantear las hipótesis:

H0 : La muestra de los datos viene de una distribución binomial B(5; 0:25); suponiendo que
los individuos responden adivinando.
H1 : La muestra de los datos no tiene una distribución binomial B(5; 0:25); los individuos
muestran algunos conocimientos sobre las preguntas.

2. El nivel de signi…cancia = 0:05, los grados de libertad gl = número de categorías 1=3


(En este caso se redujeron) 2c 2
=  (0:05; 3) = 7:82

3. En la última columna de la Tabla 15.4 se muestra el cálculo de 2 ; es decir 2m = 5:576:

4. Puesto que 2m = 5:576 < 2c = 7:82; no se rechaza H0 :

5. Es razonable concluir que los individuos contestaron adivinando la respuesta.


15.2. Pruebas de Bondad de Ajuste sobre distribuciones de probabilidad 247

15.2.2 Prueba de bondad de ajuste para una Distribución Poisson.

En muchas ocasiones existe el interés por determinar sin un modelo probabilísticos es adecuado
para expresar un fenómeno aleatorio. En esa dirección, lo que se requiere es probar si la muestra
aleatoria seleccionada proviene de una distribución de probabilidad especí…ca. En este apartado
se ilustrará si la muestra de los datos sigue una distribución Poisson. Recuerde que una variable
aleatoria Y de esta distribución, consiste en contar el número y de veces que ocurre un evento
en particular, durante una unidad de tiempo dado, un área o volumen.

Ejemplo 4

Una empresa revisa una muestra aleatoria que contiene 100 artículos de la producción generada
en un día y cuenta el número de defectos en cada artículo. Los datos se resumen en la Tabla 15.5

Número de defectos 0 1 2 3 4
Número de artículos 61 29 6 3 1

Tabla 15.5 Número de defectos en 100 artículos.

¿Se puede concluir que esta muestra de datos viene de una distribución Poisson?
Para responder a esta pregunta se debe realizar la prueba de hipótesis:

H0 : La muestra de datos proviene de una distribución Poisson.


(15.2)
H1 : La muestra de datos no vienen de una distribución Poisson.

El estadístico de prueba en este caso es 2 indicada en la expresión (15.1).


El procedimiento operativo para veri…car esta hipótesis consiste en calcular el estadístico 2 .
Con el …n de obtener los valores esperados, primero se estima el parámetro de la distribución.

Número total de artículos defectuosos 61  0 + 29  1 + 6  2 + 3  3 + 1  4


= = = 0:54
Número total de artículos 100

x e 
Recuerde que la función de probabilidad de Poisson se expresa por P (X) = x!
para
x = 0; 1; 2; ::: En la Tabla 15.6 en la columna 2 se muestra el cálculo de probabilidades.
248 15. Pruebas de bondad de ajuste

(0i Ei )2
Defectos P (x) E = P (x)  100 0i Ei
0 0.583 58:3 61 0:125
1 0.315 31:5 29 0:194
2 0.085 8:5 10:2 6 10 0:004
3 0.015 1:5 10:2 3 10
4 o mas 0.002 0:2 10:2 1 10

Tabla 15.6 Cálculo de la 2 para la distribución Poisson.

En resumen

 La hipótesis se plantea en (15.2)

 Con un nivel de signi…cancia = 0:05 el valor de 2 con gl = número de categorías


1 1=3 1 1
P (10 E1 05)2
 En este caso se usa la corrección de Yates E

 Puesto que 2m = 0:323 < 2c no se rechaza H0

Conclusión: La muestra de datos que caracteriza el número de defectos de la producción de


artículos por día sigue una distribución Poisson.

Ejercicio 1

El número de defectos menores detectado por un inspector en 90 carros de la producción de una


línea de ensamble es como sigue:

Número de defectos 0 1 2 3 4 5 6
Número de carros 35 13 6 5 18 10 3

1. Encuentre la media y varianza. ¿Estos valores son aproximadamente iguales? ¿Esto justi-
…ca que los datos tengan una distribución Poisson?

2. Use la prueba 2 para conocer si el número de defectos sigue una distribución Poisson.

Ejercicio 2

El número de accidentes semanales en una ciudad durante un periodo de 30 semanas se resume


en la tabla:
15.3. Prueba de bondad de ajuste cuando la variable aleatoria es continua 249

Número de accidentes 0 1 2 3 4 5 6 7 8 9 10 11 12
Semanas 6 5 4 4 4 2 0 1 2 1 0 0 1

¿Cuál es el número de accidentes?


Organizando estos datos por sectores de la siguiente manera, en el sector 1 si hay 0 accidentes
X6 = 6, en el sector 2 si hay 1 accidente X1 = 5; en el sector 3, si hay 2 o 3 accidentes X2 = 8;
en el sector 4, si hay 4 o 5 accidentes X3 = 6; y en el sector 5, si hay mas de 5 accidentes X4 = 5;
en resumen:

Número de accidentes 0 1 2 3 4
Semanas 6 5 8 6 5

Veri…que que el número de accidentes semanales tiene una distribución de Poisson.

15.3 Prueba de bondad de ajuste cuando la variable aleato-


ria es continua
Si X1 ; :::; Xn es una muestra de datos en una distribución continua F especí…ca, se tiene interés
en probar la hipótesis nula H0 :

H0 : Se a…rma que F es la distribución poblacional.

Usando la prueba 2 cuadrada.

Se prueba esta hipótesis H0 considerando un conjunto de valores que pueden tomar las Xj ; estas
se organizan en k intervalos distintos, es decir:

(x0 ; x1 ); (x1 ; x2 ); :::; (xn 1 ; xn ) donde x0 = 1; xn = +1

A continuación la variable aleatoria Xj se plantea como una variable numérica discreta mediante
Yj ; j = 1; :::; n donde Yj se de…ne como sigue:

Yj = i si Xj se encuentra en el intervalo (Xi 1 ; Xi )

Para esta hipótesis se tiene que:

P (Yj = i) = F (Xi ) F (Xi 1 ); i = 1; :::; k

Esta se puede realizar mediante la prueba de 2 cuadrada.


250 15. Pruebas de bondad de ajuste

Figura 15.1: Histograma con 7 clases, se anota la frecuencia en cada una de ellas. Se ajusta una
distribución normal.

Ejemplo 4

El tiempo en que una muestra de 120 estudiantes seleccionados al azar, tarda en responder el
rompecabezas sobre la República Mexicana se describen en el histograma de Figura 15.1-módulo
Grá…cas-. La hipótesis que se quiere probar, es que los tiempos de respuesta X siguen una
distribución de probabilidad normal con media  = 500 y desviación estándar  = 12. Es decir:

H0 : La variable X tiene una distribución normal (15.3)


H1 : La variable X no tiene una distribución normal

En la Figura 15.2, se muestran estrategias alternativas para evaluar si unos datos siguen una
distribución normal. En la grá…ca de la derecha se han aproximado la distribución empírica de
los datos, el polígono de frecuencias relativas acumulado, y el diagrama que representa la función
de distribución acumulada de una normal. Como se observa se ven muy aproximados. En la
grá…ca de la derecha se ha descrito el papel de probabilidad de una normal. En ambos casos se
observa de manera descriptiva que los datos se aproximan a una distribución normal.
En la Tabla 15.7 se presenta el resumen del cálculo del estadístico de prueba 2 :
15.3. Prueba de bondad de ajuste cuando la variable aleatoria es continua 251

Figura 15.2: Análisis grá…co para evaluar si los datos se aproximan a una distribución normal.

(0i Ei )2
Tiempo de respuesta P (Y = i) Ei = P (Y = i)  120 0i Ei
1 [ 1; 471] 0:008 0:96 0 0:96
2 [471; 479] 0:032 3:84 5 0:350
3 [479; 487] 0:099 11:88 15 0:819
4 [487; 495] 0:199 23:88 24 0:001
5 [495; 503] 0:260 31:2 31 0:001
6 [503; 511] 0:222 26:64 22 0:808
7 [511; 519] 0:123 14:76 17 0:340
8 [519; 527] 0:044 5:28 6 0:136
9 [527; +1] 0:012 1:44 0 1:440
4:756

Tabla 15.7. Cálculo de 2 para una distribución normal.

El cálculo de las probabilidades las puede realizar usando la distribución normal o la calcu-
ladora normal en CalEst. Por ejemplo:

P (Y = 3) = P (479 < X  487) = 0:099 y P (Y = 9) = P (X  527) = 0:012

La suma de los valores en la última columna de la Tabla 15.7, genera el valor estadístico 2 ,
es decir 2m = 4:756: El área que deja a la derecha esta valor en la Calculadora Chi-Cuadrada es
igual a p = 0:783, con gl = 8: Si se compara p con el nivel de signi…cancia = 0:05 (5%) resulta
252 15. Pruebas de bondad de ajuste

Figura 15.3: Resultado de la prueba de bondad de ajuste para una normal, usando la prueba 2 :

que p es mayor y por lo tanto no se rechaza H0 . Se concluye que los valores de la variable, X;
tiempo de solución del rompecabezas, sigue una distribución normal. La reproducción de este
análisis usando la prueba de 2 cuadrada en el programa se describe en la Figura 15.3:

15.4 La prueba Kolmogorov-Smirnov


La prueba de Kolmogorov-Smirnov (KS) es apropiada para decidir cuando una muestra viene de
una distribución de probabilidad normal con parámetros conocidos  y  2 . Esta prueba es mas
e…ciente que el procedimiento elaborado para usar la prueba 2 :
En esencia la prueba KS compara la función distribución acumulada, F (x) de una población
con una función distribución acumulada empírica S(x); con base en los valores de la muestra.
Para una muestra X1 ; :::; Xn de n observaciones.

Número de valores de la muestra menores o iguales a x


S(x) =
n
La comparación se hace para todos los valores de x desde 1 hasta +1. La cantidad D
que obtiene el máximo absoluto de la diferencia, comparación, entre F (x) y S(x) se le llama
estadístico de prueba Kolmogorov-Smirnov, es decir:
15.4. La prueba Kolmogorov-Smirnov 253

   
i i 1
D = Máximo jF (x) S(x)j = Máximo Máximo F (Xi ; (F (Xi ) ;
x 1in n n
(in)

D = Máximo (D+ ; D ); (15.4)



i = 1; :::; n; y D+ =Máximo ( n1 F (Xi )); D =Máximo F (Xi ) i 1
n
:
El valor D se compara con los valores críticos del estadístico D ; donde es el nivel de
signi…cancia.
Nota. En el procedimiento operativo se ordenan los datos Xi ; es decir X(1)  X(2)  :::  X(n)
y F (Xi ) se estima bajo el supuesto de la hipótesis nula.
Se toma una muestra de 13 valores que miden un parámetro de calidad del agua en ppm :

48; 54; 47; 53; 49; 63; 57; 60; 51; 52; 58; 61; 56
Considere un nivel de signi…cancia de 5%, ¿Se puede concluir que estos datos vienen de una
distribución normal con media ( = 55  = 5)? Los valores estimados de estos parámetros
son 
b = 54:54 y 
b = 5:13:

Tabla 15.8. Descripción de los resultados de la prueba de Kolmogorov-Smirnov.

Los valores máximos para D+ y D son 0:091 y 0:087 respectivamente, así el máximo
(D ; D ) = (0:091; 0:087) = 0:091, ver Tabla 15.8. El valor p > 0:15, en referencia al nivel
+

de signi…cancia se tiene que p > ; de esa manera la muestra no da evidencias para rechazar
H0 : Por lo tanto una distribución normal con media 54:54 y desviación estándar 5:13 se puede
utilizar como modelo para medir el parámetro de calidad del agua.
254 15. Pruebas de bondad de ajuste

Ejercicio 3

En relación a estudios médicos con el objeto de conocer qué tan desarrollado tienen el cerebro,
los médicos experimentan mostrando diferentes tipos de diseños y miden el tiempo de respuesta.
En particular en el caso del diseño, o la cara de un hombre entre semillas de café. Se toma el
tiempo en segundos a una muestra aleatoria de 30 personas.

11 13 14 22 29 30 41 41 51 55 56 59 65 65 66
74 74 75 77 81 82 82 82 82 83 85 85 87 87 88

¿Es razonable suponer que los tiempos de respuesta se distribuyen como una normal?

Ejercicio 4

Se realiza un experimento donde se tiene un grupo control y un tratamiento, las respuestas son
indicadas en:

Control 0.22, -0.87, -2.39, -1.79, 0.37, -1.54, 1.28, -0.31, -0.74, 0.38
-0.17, 0.62, -1.10, 0.30, 0.15, 2.30, 0.19, 0.50, -0.09.

Tratamiento -5.15, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43
7.11, 4.87, -3.10, -5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.5

El responsable de este estudio quiere veri…car si existe diferencia entre el control y el tratamiento.
Veri…que si esto es así realizando:

 Una prueba de hipótesis para diferencia de medios, usando una t student:

 Realice esta comparación, empleando el estadístico KS.

En ambos casos use el programa. Según los resultados qué puede concluir.

Ejercicio 5

El profesor Sprent tiene en un librero de su biblioteca 114 libros de estadística, de esos tomó una
muestra aleatoria de 12 libros y anotó el número de páginas que tienen cada uno, estas son:

126 142 156 228 245 246 370 419 433 454 478 503

En otro librero dice que tiene sus libros favoritos de …cción y no …cción, (libros en general)
son un total de 143. Anotó el número de páginas de una muestra de 16 libros, ellos tienen:

29 39 60 78 82 112 125 170 192 224 263 275 276 286 369 756
15.4. La prueba Kolmogorov-Smirnov 255

Use la prueba de Kolmogorov-Smirnov para determinar si es adecuado suponer que las dos
muestras vienen de distribuciones poblacionales idénticas.

D = Máximo jF (x) F (y)j ; donde x es la variable número de hojas de los libros


en general y la variable y número de hojas de los libros en estadística.
256 15. Pruebas de bondad de ajuste
Capítulo 16

Pruebas no paramétricas

16.1 Introducción
Las pruebas estadísticas no paramétricas se re…eren a los procedimientos de inferencia que no
requieren que la distribución de la población sea normal o alguna otra distribución especí…ca en
términos de parámetros. Estas pruebas utilizan aspectos simples de una muestra aleatoria de
datos, tales como el signo de las medidas, el orden de la relación o frecuencias de categorías.
Por el momento, en el paquete estadístico sólo se a desarrollado la prueba del signo. En futuras
versiones y en función de la necesidad de los usuarios se ampliará la elaboración de estas pruebas.

16.2 Prueba del signo.


En una población la mediana de lo que gasta un estudiante a la semana es menor a 75 pesos. Para
veri…car este hecho se realiza la prueba de la Mediana. La hipótesis nula plantea que la Mediana
es 75. Se entrevista a n estudiantes para veri…car esta hipótesis, el procedimiento consiste en
contar los datos que están por arriba o abajo de la mediana. Según la hipótesis alternativa si
quedan por abajo o arriba se considera un éxito o un fracaso.
Por ejemplo si:

H0 : m0 = 75
H1 : m0 < 75

Si m0 < 75 son casos de éxito x = x0 es la referencia para evaluar si los datos apoyan a la
hipótesis nula. Se usa la distribución binomial para estimar el nivel de signi…cancia descriptiva
p: Así:

0
X
p= b(n; x0 ) si p < se rechaza H0
i=0

257
258 16. Pruebas no paramétricas

De manera análoga se tiene que si:

H1 : m0 > 75;
0
X
p = 1 b(n; i)
i 0

para el caso en que la alternativa sea:

H1 ; m0 6= 75
El nivel de signi…cancia descriptivo es 2p:
Cuando n > 25 se considera un tamaño de muestra grande y el valor de p se calcula por
p = P (Z  z0 ):
Si H1 : m0 < 75: La referencia del procedimiento completo se da en la tabla. Donde Z es una
distribución Normal:

x + 0:5
Z= p
0:5 n

Procedimiento general para realizar la prueba del signo.

Planteamiento

H0 : mediana = 0,

H1 : mediana 6= k; H1 : mediana < k, H1 : mediana >k

Procedimiento:

Si el tamaño de muestra es menor o igual a 25.

1. Determinar el número del tamaño de muestra asignando signos positivos y negativos a los
datos de muestra.n = i + j, donde i el número de signos negativos y j número de signos
positivos.

2. Determinar el valor crítico mediante la distribución binomial. El valor de p (para rechazar


no rechazar la hipótesis) es en el caso de la alternativa H1 : mediana < k : p = P (X 
Px
x) = binomial(n; i), donde la probabilidad de éxito es 0.5
i=0

Si el tamaño de muestra es mayor a 25 usar el siguiente estadístico:


16.2. Prueba del signo. 259

1. z= (x+0:5)
p
n
0:5n
, este se distribuye como una normal y el caso es igual al caso de la z para
2

(x+0:5) 0:5n
una población. Es decir si zm es mayor o igual al valor crítico zc donde zm = p
n
2

correspondiente a la información muestral.

Ejemplo 1

Se cree que las mujeres de las zonas rurales que trabajan en una empresa tienen un salario a la
semana, superior a la mediana de 750. Se entrevista a una muestra aleatoria de 16 mujeres. Los
datos reportados son:

775 754 745 756


765 753 750 760
801 739 777 782
742 751 769 789

Hipótesis:

H0 : mediana = 750;
H1 : mediana > 750

El mecanismo para veri…car esta hipóteis se basa en comparar los 16 datos con 750. Hay
i = 3 con signo negativo, y j = 12 con signo positivo, entonces n = 15. Hay un empate. Se
calcula la binomial para determinar el valor de p.

15
X
p = P (X  12) = binomial(15; i) = 0:0176
i=12

Salida:
Prueba de Signo para la mediana = 750.0 contra > 750.0

N Abajo Igual Arriba valor de p Mediana


Dem 16 3 1 12 0.0176 758.0

Abajo son los negativos, arriba son los positivos. Puesto que p < = 0:05, se rechaza la
hipótesis nula.
Este procedimiento se puede aplicar a la comparación no paramétrica de dos poblaciones, es
decir la prueba del signo extendida para comparar dos poblaciones.
260 16. Pruebas no paramétricas
Capítulo 17

Diseño de Experimentos

17.1 Presentación
La …nalidad principal de este módulo en el software es generar de manera visual diseños facto-
riales 2k y sus fracciones, una vez seleccionado el diseño, el siguiente paso es realizar el análisis
estadístico básico capturando la información de los resultados experimentales.
También se tiene desarrollada la hoja para generar el diseño de Plackett-Burman. Se com-
plementa con la estructura para obtener la forma y análisis de los diseños factoriales completos.
Finalmente se completa el módulo con diseños básicos de la metodología de super…cie de
respuesta, como son el diseño central compuesto y el Box-Behnken.
Una parte relevante en el paquete, es llevar a cabo prácticas en diseño experimental, con
ese …n se han agregado dos ayudas didácticas denominadas el cañón y el helicóptero. Estos
describen dos artefactos que mediante la simulación se pueden plantear diferentes estrategias
experimentales y aplicar los diseños elaborados en el módulo de diseño de experimentos.
La metodología y el fundamento técnico del diseño y análisis estadístico de un experimento
que forma parte de este módulo, se puede consultar en el libro de Experimentos: Estrategia y
Análisis en Ciencia y Tecnología.
Referencia: Castaño, T. E. y Domínguez, D. J. (2003). Experimentos: Estrategia y Análisis en
Ciencia y Tecnología. CIMAT, México. Por aparecer una nueva edición. Diseño de Experimentos
Estrategias y Análisis Estadísticos en Ciencia y Tecnología.

17.2 Material experimental


En esta parte se presentan dos prototipos que permiten realizar experimentos de manera simu-
lada. Éstos se han denominado cañón y helicóptero, en el software se tienen en el conjunto de
herramientas didácticas. En la Figura 17.1 se describen estos dos artefactos. En ambos casos se
plantea una serie de factores de control y de ruido con un rango de valores para cada factor. En
el helicóptero se tiene una variable de respuesta que es el tiempo de caida, en este caso se espera

261
262 17. Diseño de Experimentos

Figura 17.1: Prototipos para realizar experimentos considerando diferentes diseños.

maximizar la respuesta. El cañón tiene tres variables de respuesta estas son altura, distancia y
tiempo. El uso de estos simuladores se planteará como ejercicios más adelante.

17.2.1 Diseños de experimentos en CalEst


Los diseños que se pueden emplear aparecen en una hoja de trabajo generada por el software,
para obterner ésta hay que ir a la opción estadística y de ahí a métodos avanzados. Luego
seleccionar diseño de experimentos y aparece una hoja como la que se muestra en la Figura 17.2.
Esta hoja es dinámica porque a partir de esa se pueden generar diferentes diseños y al …nal de
las selecciones que considere el usuario se tendrá una hoja para capturar la respuesta. Al …nal se
presenta un apartado que corresponde al glosario de términos básicos en diseño de experimentos

La primera opción en la Figura 17.2 son los diseños 2k y sus fracciones, el ejemplo 1 ilustra el
caso de un diseño completo 23 . La hoja de trabajo de diseño, en esa …gura, tiene la posibilidad
de varias selecciones el procedimiento es como sigue:

1. Completar el número de réplicas, bloques y puntos centrados y se oprime continuar.

2. En la siguiente hoja aparece un resumen de lo seleccionado en el paso 1, luego tiene la


opción de regresar o continuar.

3. La tercer hoja le permite de…nir el nombre de los factores, los valores y el orden del diseño,
en este caso se ha limitado a dos. Nuevamente tiene las opciones de regresar o continuar.
17.2. Material experimental 263

Figura 17.2: Esquema para plantear un diseño experimental.


264 17. Diseño de Experimentos

4. Finalmente aparece la tabla para capturar la información, ver Figura 17.3, en esa existe la
posibilidad de aleatorizar el experimento, seleccionar factores para el análisis estadístico,
pasar la información a una hoja de cálculo.

5. A continuación aprieta la tecla calcular y se despliega el análisis estadístico con una serie
de opciones grá…cas.

Ejemplo 1

En un proceso industrial se tiene interés en extraer aceite de cacahuate, la técnica usada es


mediante el dióxido de carbono a presión muy alta, se consideraron los siguientes factores, A:
temperatura, B: mezcla de cacahuate y C: razón de ‡ujo. La …nalidad del proyecto consiste en
mejorar la producción total de aceite (y). Los dos niveles de cada factor se describen en la Tabla
17.1a.
FactoresnNiveles 1 1
o
A:temperatura 50 C 90o C
B:mezcla 10g 20g
C:‡ujo 35g=min 50g=min

Tabla 17.1a Producción de aceite de cacahuate del Ejemplo 1


Los datos que se obtuvieron al realizar este experimento se muestran en la Tabla 17.1b (en el
orden estándar ahora para tres factores). Las estimaciones de los promedios se muestran en las
siguientes tablas. En la Figura 17.3 se reproduce la captura de datos.

Factores Respuesta
A B C
1 1 1 y111 = 65
1 1 1 y211 = 62
1 1 1 y121 = 58
1 1 1 y221 = 68
1 1 1 y112 = 64
1 1 1 y212 = 79
1 1 1 y122 = 62
1 1 1 y222 = 94
y 1 = 62:25 y 1 = 67:50 y 1 = 63:25 y = 69
y 2 = 75:75 y 2 = 70:50 y 2 = 74:75
^ A = 13:50 ^ B = 3:00 ^ C = 11:5

Tabla 17.1b. Datos de producción de aceite de cacahuate

Observe que se han asignando los números -1 y 1 a los dos niveles de los tres factores con el
mismo criterio establecido en el ejemplo anterior, es decir los niveles en el factor A se alternan
17.2. Material experimental 265

Figura 17.3: Captura de datos en un diseño factorial 23 .

uno a uno, en el factor B dos a dos y en el factor C cuatro a cuatro. Se realiza el experimento
llevando a cabo los tratamientos, éstos se obtienen de hacer todas las combinaciones posibles de
los tres niveles de los factores, en este caso resultan 8 tratamientos; por supuesto en la práctica
estos se corren en un orden aleatorio.

^ A = (
y2 y1 ) (17.1)
^ B = (
y2 y1 )
^ C = (
y2 y3 )

^ AB = [(
y22 y12 ) (
y21 y11 )]=2
^ AC = [(
y22 y12 ) (
y21 y11 )]=2
^ BC = [(
y22 y12 ) (
y21 y11 )]=2 (17.2)

Los efectos correspondientes al experimento se obtienen mediante el método de mínimos


cuadrados, las expresiones correspondientes se plantean en las expresiones (17.1) y (17.2), con-
sultar el Capítulo 4 del libro Castaño-Domínguez.

Solución
En resumen, los efectos de los factores e interacciones se muestran en las Figuras 17.4, primera
parte, y 17.5 segunda parte, éstas se obtiene a partir del reporte que genera el CalEst
266 17. Diseño de Experimentos

Figura 17.4: Parte 1 del reporte generado por el CalEst para un diseño factorial 2k .

La Figura 17.4 muestra la estimación de los efectos, así como los coe…cientes del modelo de
regresión y el correspondiente error estándar de cada factor; a continuación el valor del estadístico.
Éste último se obtiene mediante la siguiente expresión:

b =  2 (X0 X) 1 :
V ar( )

El error estándar ES de cada parámetro del modelo se obtiene por:

b ) =  pmii ;
ES( (17.3)
i

donde mii es i esimo elemento de la diagonal en la matriz (X0 X) 1


y  2 es la varianza del
error. La estimación de este valor corresponde al cuadrado medio del error, reportado en la tabla
del análisis de la varianza Figura 17.3, su valor para el ejemplo es CMerror = 2:00 y su error
estándar S = 1:4142, Figura 17.4 segunda parte del reporte.
Nota. La matriz (X0 X) 1
se ha descrito en el Capítulo 14, en el diseño 23 la matriz X es la
matriz diseño mostrada en la Tabla 17.1b y en la Figura 17.3, con una columna de unos. Luego
sigue la columna que corresponde al estadístico cuyo valor es:
17.2. Material experimental 267

bij
E( bij )
tc =
bij )
ES(

donde tc ; suponiendo que se cumple la hipótesis nula respectiva, tiene una distribución de pro-
babilidad t de Student, con n g grados de libertad t(n g). Donde la hipótesis nula se plantea
para la parte lineal por:

Hlo : i = 0; i = 0; :::; p
Hl1 : i 6= 0

y en el caso de interacciones, segundo orden, mediante:

Hco : ij = 0; i; j = 1; :::; p; i 6= j:
Hc1 : ij 6= 0

Finalmente, el valor arrojado por tc es el valor de la probabilidad a la derecha o izquierda de la


distribución t si la hipótesis alternativa es mayor o menor a cero. Ese valor de p corresponde
al nivel de signi…cancia descriptivo y se compara con el nivel de signi…cancia : Si p > no se
rechaza la hipótesis nula, se rechaza en caso contrario.
A continuación, Figura 17.3, se decribe el modelo de regresión y la tabla del análisis de la
varianza para el modelo.
La Figura 17.4 indica, la parte complementaria del reporte. Nuevamente se presenta el valor
estimado del parámetro de regresión, el error estándar como se escribió en la expresión (17.3).
El intervalo del 95% de con…anza para estos parámetros. El último bloque señala el coe…ciente
de correlación de la respuesta con respecto a cada variable de entrada -factor-. Los coe…cientes
de determinación, ver su de…nición Capítulo 14, y el valor del error estándar.
La Figura 17.6 describe el análisis estadístico, mediante grá…cas, del diseño experimental.
Estas grá…cas son el soporte e interpretación visual del reporte estadístico generado en las Figuras
17.4 y 17.5. Las primeras cinco grá…cas tienen que ver con la signi…cancia de los factores e
interacciones. Las siguientes tres evalúan las características del modelo. La última tiene que ver
con las curvas de nivel del modelo de regresión, esta se describe en la Figura 17.6 para el ejemplo
2 en un diseño central compuesto. Estas curvas tienen que ver con el proceso de optimización
descriptivo del modelo de regresión.

Ejemplo 2

La …nalidad en este ejemplo es ilustrar el uso de las curvas de nivel, en las opciones grá…cas
en el diseño de experimentos aparece en el último renglón de nivel. Ésta es apropiada para los
268 17. Diseño de Experimentos

Figura 17.5: Segunda parte del reporte generado por el CalEst.

Figura 17.6: Análisis grá…co del diseño de experimentos y modelo.


17.2. Material experimental 269

primeros cuatro tipos de diseño experimental descritos en la hoja de trabajo. A continuación se


describe el esquema de un diseño central compuesto.
En el proceso de nixtamalización, se consideran los factores tiempo, temperatura y la con-
centración de cal en 0.8% este factor quedó …jo, se desea encontrar una región de operación de
tal manera que el índice de absorción de agua (iia) se incremente. Después de una investigación
inicial se propusieron los niveles de dos factores de tal manera que diera lugar a un diseño central
compuesto, así para el tiempo y la temperatura se tiene que:

FactornNiveles 1:41 1 0 1 1:41


t: tiempo min 25 27 32 37 39
T : temperatura o C 88 95 100 105 112

El diseño y los resultados se muestran en la Tabla 17.2, estos datos se captura en la hoja del
diseño central compuesto, se realiza el análisis estadístico y se construye el modelo de regresión.
Éste modelo permite llevar a cabo el proceso de optimización de manera descriptiva tal y como
se muestra en la Figura 17.8. Para generar estas curvas se debe ir a la última opción de grá…cas
en diseño de experimentos y seguir el siguiente procedimiento:

x1 x2 tpo temp iia


1 1 27 95 6:3
1 1 37 95 5:4
1 1 27 105 5:8
1 1 37 105 6:5
1:41 0 25 100 4:9
1:41 0 39 100 5:6
0 1:41 32 88 5:9
0 1:41 32 112 6:8
0 0 32 100 7:5
0 0 32 100 7:3
0 0 32 100 7:8

Tabla 17.2. Resultados experimentales del Ejemplo 2

1. Aparece un plano de coordenadas, éste contendrá a la curva o las curvas de nivel, para
trazar ésta (s) oprima la opción factores en la parte central superior, ver Figura 17.7

2. En la hoja aparecen indicados los factores que van en el eje horizontal y eje vertical.
También aparecen los factores que han sido parte del experimento, así para que en el caso
de más de dos factores se pueda …jar el tercer factor en los valores que más le convenga al
usuario. Del lado derecho aparecen los valores mínimo y máximo según los niveles de los
factores en el cuadro de la derecha, estos se sustituyeron en el modelo.
270 17. Diseño de Experimentos

Figura 17.7: Procedimiento para generar curvas de nivel.


17.2. Material experimental 271

Figura 17.8: Curvas de nivel para el diseño central compuesto del ejemplo 2.

3. Luego se selecciona el valor o los valores de las curvas de nivel que desea que aparezcan en
el plano, para cada valor hay que oprimir la ‡echa verde.

4. Se oprime la tecla aceptar y aparece un plano con las curvas de nivel, estas se pueden
mover con el ratón. No aparecerán las que no estén en la región descrita por el plano de
coordenadas.

17.2.2 Glosario de términos básicos


Bloque: Un grupo de puebas con base en un factor común, tales que son efectuadas a la vez. El
bloque homogeniza las unidades experimentales. No es de interés estudiar su efecto. El bloque
reduce el ruido experimental y mejora la sensitividad de los efectos.
Curvas de nivel: Es una descripción grá…ca del modelo de regresión, se usa en los diseños
experimentales de super…cie de respuesta.
Diseño Box-Behnken: Es un diseño experimental con tres niveles usado en los métodos de
super…cie de respuesta.
Diseño Central Compuesto: Es un diseño de múltiples niveles usado en métodos de super…cie
272 17. Diseño de Experimentos

de respuesta, éste está conformado por el diseño factorial 2k , puntos centrales y aumentado con
puntos axiales.
Diseño factorial: Una serie de pruebas que consiste en la combinación de los niveles de los
factores incluidos en el experimento.
Diseño factorial completo: Es un diseño completo, todas las posibles combinaciones de los
niveles de los factores, que involucra a factores categóricos con dos o más niveles.
Diseño factorial fraccionado: Es un diseño que corresponde a un subconjunto del diseño fac-
torial, estos se generan a partir de las interacciones de los factores que se confunden, usualmente
conocido como generador.
Diseño Plackett-Burman: Es una clase de diseño factorial ortogonal saturado con dos niveles
por cada factor, el número de pruebas o corridas es múltiplo de 4, pueden coincidir con algún
diseño factorial fraccionado 2k-p. Estos diseños son de resolución III.
Efecto: Cambio en el promedio de una respuesta cuando el factor cambia de su nivel bajo
al nivel alto.
Efectos confundidos: Los efectos no se pueden estimar de manera independiente uno de otro,
estos están completamente o parcialmente confundidos.
El término error: Representa la parte aleatoria en el modelo téorico. Los residuales se
usan para estimar su naturaleza. Usualmente se supone que estos tienen una distribución de
probabilidad normal con media cero y varianza constante.
Error experimental: La variación en la respuesta debida a variables extrañas, también con-
siderada por los factores, bloques aunada a la incertidumbre de medición en la respuesta.
Estructura Alias: Es una lista de los factores principales o interacciones que están confundidos
con otras interacciones. Esto es básico en diseño factorial fraccionado, y señala cuando los efectos
principales o interacciones se pueden estimar.
Experimento: Una serie de pruebas que se realizan con el objeto de descubrir el resultado en
un proceso.
Factor: Variable independiente que se manipula en el experimento.
Nivel: Valor de un factor.
Papel de probabilidad semi normal: Es el papel de probabilidad normal considerado a la
derecha del punto cero, corresponde al valor absoluto del efecto de los factores.
Puntos Axiales: Son puntos del diseño que están en los ejes de coordenadas de los factores
equidistantes del punto central, se usan frecuentemente en el diseño central compuesto y se
conocen como puntos estrella.
Puntos centrales: Son pruebas experimentales en las que los factores cuantitativos están en
el punto intermedio de su valor alto y bajo.
Términos aliados: Cuando existen pocos puntos en el diseño experimental, entonces algunos
parámetros del modelo no pueden ser estimados independientemente.
17.2. Material experimental 273

Valores codi…cados: Es una manera de simpli…car los cálculos, en los diseños factoriales de
dos niveles se convierten los niveles alto y bajo en 1 y 1 respectivamente. La codi…cación
permite realizar los cálculos independientemente de las unidades de cada factor.

Ejercicio 1

Considere el prototipo del helicóptero descrito en el módulo de opciones en didáctica en el CalEst.


La Tabla 17.3 muestra los factores y los valores de sus niveles mínimo y máximo.

Niveles
Factores Mínimo Máximo
A: Long. ala 5 15
B: Ancho ala 3 7
C: Altura 1 6
D: Peso 0 20
E: Ángulo 0 90
F: Tipo papel 1 2 3
Tabla 17.3 Factores de control en el helicóptero

Realice el experimento con un diseño 26 3 con los valores que se indican en la Tabla 17.4, use
la hoja de captura en el software para aleatorizar los tratamientos, lleve a cabo los siguientes dos
casos:
1. Haga una sola vez el experimento, anote la respuesta y realice el análisis estadístico.

2. Haga dos réplicas del experimento anterior.


Con la …nalidad de tener tres respuestas, calcule la media desviación estándar de cada
tratamiento, como respuesta haga los análisis estadísticos respectivos para ambas respuestas.

Valores reales Valores codi…cados


Factores A B C D E F A B C D E F
7 4 3 15 90 2 -1 -1 -1 1 1 1
12 4 3 5 0 2 1 -1 -1 -1 -1 1
7 6 3 5 90 1 -1 1 -1 -1 1 -1
12 6 3 15 0 1 1 1 -1 1 -1 -1
7 4 5 15 0 1 -1 -1 1 1 -1 -1
12 4 5 5 90 1 1 -1 1 -1 1 -1
7 6 5 5 0 2 -1 1 1 -1 -1 1
12 6 5 15 90 2 1 1 1 1 1 1
Tabla 17.4 Diseño Factorial Fraccionado: 26 3
¿En qué valores de los factores tiene la mayor respuesta?
¿Qué estrategia plantearía para mejorar el valor de la respuesta, tener un mayor valor del
tiempo de caida?
274 17. Diseño de Experimentos

Ejercicio 2

En el caso del helicóptero existen dos factores de ruido, como se muestra en la Tabla 17.5, donde
( 1) y (1) son los valores codi…cados.

Niveles
Factores Mínimo Máximo
P: Temperatura 15( 1) 25(1)
Q: Humedad 30( 1) 50(1)
Tabla 17.5 Factores de ruido

Desarrolle un diseño factorial 22 para estos factores de ruido. Junto con el diseño experimental
presentado en la Tabla 17.4, se plantea un diseño en un doble arreglo ortogonal como se muestra
en la Tabla 17.6.

P: -1 1 -1 1
TratnFactores A B C D E F Q: -1 -1 1 1 y s
1 1 1 1 1 1 1
2 1 1 1 1 1 1
3 1 1 1 1 1 1
4 1 1 1 1 1 1
5 1 1 1 1 1 1
6 1 1 1 1 1 1
7 1 1 1 1 1 1
8 1 1 1 1 1 1
Tabla 17.6 Doble arreglo ortogonal respuestas media y y desviación estándar

1. Haga el experimento soltando los 32 helicópteros.

2. Con los resultados en 1, calcule la media y desviación estándar.

3. Realice el análisis de varianza completo para ambas respuestas, la media y desviación


estándar.

Ejercicio 3

Use los resultados del experimento en un arreglo factorial 28 3 , 32 tratamientos donde los 8
factores son: los 6 de control y los 2 de ruido. Haga el análisis estadístico de este diseño.
¿Resultan signi…cativos los factores de ruido? ¿Existe alguna interacción entre los factores de
ruido y control?
Ejercicio 4
Plantee otros diseños experimentales con otros factores.
17.2. Material experimental 275

Ejercicio 5

En la Tabla 17.7, se plantea los niveles de tres factores para el helicóptero con la …nalidad de
realizar un diseño central compuesto.

1. Plantee el esquema de este experimento.

2. Realice el experimento.

3. Haga el análisis estadístico e interprete los resultados.

4. Use las curvas de nivel para encontrar la solución con mayor respuesta.

Niveles
Factores ( 2) 1 0 1 (2)
A: Área 15 30 50 75.6 105
B: Razón 1.63 1.875 2 2.08 2.14
C: Ángulo 15 30 45 60 75
Tabla 17.7 Valores de los niveles en un diseño central compuesto:

Donde los valores de la longitud y ancho del ala para determinar el área y la razón entre esos
valores son:

Longitud ala 5 7:5 10 12:5 15


Ancho ala 3 4 5 6 7

Ejercicio 6

Tomando como base el cañón, plantee esquemas experimentales similares a los ejercicios ante-
riores con el …n de que al disparar el cañón, éste de en el blanco. Tome como variable de respuesta
la diferencia entre la distancia del blanco y la distancia alcanzada al disparar el cañón.
276 17. Diseño de Experimentos
Capítulo 18

Proyectos de estudios estadísticos

En el mundo real existe una gran variedad de problemas y necesidades de conocimiento, la solu-
ción a diferentes cuestiones y demandas a estas necesidades se dan en base a la información
generada por los datos. La estadística desempeña un papel relevante en la captura e inter-
pretación de esa información. Su …nalidad es generar modelos o esquemas signi…cativos de la
variación que está en todas partes.

La …nalidad de la estadística está en el proceso de encontrar un mayor conocimiento


sobre el mundo real mediante la colección e interpretación adecuada de los datos.

Los estadísticos que hace la teoría han desarrollado métodos para solucionar los problemas
relacionados al proceso. Para ello existe un esquema de investigación que se describe en seis
etapas y en resumen se describen a continuación.

1. El problema, curiosidades. En diferentes profesiones y actividades académicas y no académi-


cas las personas tratan de resolver una enorme variedad de problemas usando el pen-
samiento estadístico.

2. Las preguntas sobre el tema a estudiar. Los procesos de investigación, o procesos para
generar conocimiento inician haciéndose preguntas.

3. Diseño del método para la colección de datos. La colección de los datos usualmente se
obtienen mediante la realización de un experimento, una encuesta o estudios de observación.
Todos estos requieren de una metodología estadística para obtener la información.

4. Colección de los datos. Este involucra la fase de diseño tanto experimental como en en-
cuestas.

5. Resumen y análisis. Uno de los objetivos de este libro está en los métodos para resumir y
analizar los datos, éstos últimos en el marco de estructuras simples.

277
278 18. Proyectos de estudios estadísticos

6. Respuestas. Una vez realizados los análisis se llega a la etapa de interpretar los datos, así
responder a las preguntas planteadas.

A continuación se planean una serie de problemas con el objetivo de generar sus datos propios.
Estos se pueden realizar con los alumnos en diferentes cursos, conviene tomar estos ejemplos como
referencias, planear estrategias y objetivos en función de la clase. Además que estos les permitan
proporcionar ideas para complementar la problemática planteada y elaborar otros proyectos
relacionados a sus intereses.

18.0.3 Ejemplo 1: Consumo de energía


El consumo de energía es un servicio por el cual se debe pagar cada bimestre. A partir de este
se crean una serie de cuestiones que resultan de interés para las familias porque representa un
gasto. Por otro lado, es importante para el gobierno ya que se requiere de una estrategia para
generar energía. Considerando los recibos de facturación se pueden generar datos que permiten
contestar varias preguntas, la primera de ellas que es la más relevante es el consumo de energía
en cada uno de los hogares. Indagar si en los seis pagos bimestrales existe un consumo regular de
energía o existen grandes cambios. Precisar si el consumo de energía en el periodo de verano es
mayor que en el otro. En este problema se puede plantear una encuesta para saber si hay mayor
consumo de energía en las casas que tienen horno de microondas de las que no, en esa misma
dirección se puede preguntar sobre la calefacción, el número de personas que habitan la casa, el
área construida, zonas residenciales entre otras preguntas.
El ahorro de energía eléctrica, es una …nalidad importante para mejorar el bienestar del ser
humano. También en los hogares, empresas e industria en general, existe interés en disminuir
el consumo de energía eléctrica con …nes económicos. Para llevar a cabo las actividades que se
citan abajo y realizar un estudio para conocer el consumo, medido en kWh, utilice los recibos
que genera la Comisión Federal de Electricidad.

Actividades
 Que una persona -alumno/estudiante- seleccione a 10 personas y pregunte sobre el consumo
de energía del último recibo, haga un diagrama de caja e interprete el resultado. Estime
las medidas de tendencia central, dispersión y posición e interprétalas.

 Junte este resultado con 10 personas y realice un histograma, tabla de frecuencias, un


diagrama de puntos, un diagrama de tallo y hoja, y un diagrama de caja e interprete
sus resultados. El polígono de frecuencia acumulado, ¿Se aproxima a una distribución
acumulada?. De este último diagrama indique ¿Cuál es el consumo del 10%, 20%, 40%,
60% y 80%, de las personas entrevistadas?
279

Aplique la siguiente encuesta

Pregunte a una persona por:

1. Número de personas que vive en su casa.

2. Área de construcción de la casa en la que habita.

3. Si tienen y usan horno de microondas.

Responda a:

 Existe una relación entre X1 y el consumo de energía.

 Existe una relación entre X2 y el área de construcción.

 ¿Son diferentes los diagramas de caja entre las personas que tienen horno de microondas y
las que no lo tienen?

 Construya un intervalo de con…anza del 95% para el promedio y varianza del consumo de
energía.

 Pruebe la hipótesis; ¿el promedio de consumo de energía entre los que tienen horno de
microondas es diferente de los que no lo tienen?

18.0.4 Ejemplo 2 : Rompecabezas del mapa de México


Se desea conocer qué tanto conocen los estudiantes o mexicanos la República Mexicana, para ello
se plantea la solución de un rompecabezas sobre el mapa de la división geopolítica de México.
Éste se presenta de un modo animado por computadora. El objetivo es arrastrar con el ratón
el estado que aparece de manera aleatoria a la izquierda y colocarlo en el lugar que corresponde.
Las respuestas que se generan al completar el mapa son el tiempo de solución y el porcentaje de
fallas. El mapa se encuentra en el siguiente sitio http://www.calest.org/mx/desc.html

Actividades
1. Seleccione de manera aleatoria a 50 estudiantes y propóngale que resuelva el rompecabezas.
Alternativas: pueden juntarse por equipos de cinco, cada persona del equipo entreviste a
10 compañeros. Junte los datos con otros equipos.

2. Con estos datos realice un estudio descriptivo tal que contenga los siguientes puntos.
280 18. Proyectos de estudios estadísticos

(a) Hacer los cálculos estadísticos en el tiempo de solución y porcentaje de fallas. Realizar
las interpretaciones correspondientes.
(b) Elaborar la tabla de frecuencia e histograma para la respuesta tiempo de solución e
interpretar la grá…ca.
(c) Completar el estudio con el polígono de frecuencias, diagrama de caja, el diagrama
de tallo y hoja. Relacionarla con la información de los incisos previos y hacer inter-
pretaciones.
(d) Realizar la comparación del polígono de frecuencias, distribución empírica con la dis-
tribución normal.
(e) Hacer un estudio similar para el porcentaje de fallas.

3. Nuevas preguntas sobre la naturaleza del problema, por ejemplo proponga que los partici-
pantes vean ahora el mapa de la República y que vuelvan a resolver el rompecabezas.

(a) Hacer una análisis similar al anterior.

(b) Es interesante en este caso comparar los diagramas de tallo y hoja, así como los
diagramas de caja, con referencia al antes y después.
(c) Se pueden plantear pruebas de hipótesis sobre el antes y después además interpretar
los intervalos de con…anza.

4. Será de interés conocer la relación entre el promedio de cali…caciones en un año escolar


anterior y el tiempo de respuesta.

5. Abordar otros estudios: presentar un mapa de la República señalada con los meridianos y
paralelos. Enseguida volver a tomar el tiempo de solución del rompecabezas.

(a) Ahora se tienen tres situaciones diferentes se pueden plantear diferentes preguntas. En
primera instancia se pueden comparar diagramas de tallo y hoja, así como diagramas
de caja.
(b) Se pueden hacer pruebas de hipótesis sobre las tres poblaciones, así plantear el esquema
de un diseño completamente al azar.
(c) Se pueden hacer comparaciones entre grupos de edad, conocimientos, género entre
otros. Así realizar pruebas de hipótesis de homogeneidad e independencia. Pruebas
no paramétricas.

6. También se pueden plantear preguntas sobre la distribución de la variable de respuesta.


281

18.0.5 Problema: Hombre en granos de café*


En la transparencia que se describe en la …gura de este ejercicio, muestra granos de café, en ellos
aparece la cara de un hombre. El problema que se plantea a partir de esta foto, es conocer el
desarrollo cerebral de las personas. Los neurólogos y sicólogos utilizan este tipo de representación
para realizar diversos estudios, sobre la habilidad de percepción en diferentes individuos. Algunas
de estas preguntas se plantean los ejercicios de este problema. La actividad consiste en mostrar
a una persona de manera individual la transparencia, a partir de ese momento tomar el tiempo
que se lleva en encontrar al hombre en los granos de café. Variable de respuesta: tiempo en que
se tarda una persona en responder. Tome el tiempo usando un cronómetro.
*Esta la puede bajar o encontrar en el siguiente sitio de Internet:
http://www.calest.org/mx/desc.html.

Actividades:

1. Una persona –alumno/estudiante- seleccione 15 personas, le muestra la transparencia y


registe el tiempo de respuesta. (En este caso sin considerar la edad).
1.1 Hacer un diagrama de caja e interpretar. Calcule los estadísticos básicos e interprete.
1.2 Juntar la información con 10 personas y elaborar un histograma, tabla de frecuencias,
un polígono de frecuencias, un diagrama de tallo y hoja, una grá…ca de puntos, un diagrama de
caja. En cada caso interprete sus resultados.
282 18. Proyectos de estudios estadísticos

1.3 Calcule los estadísticos: medidas de tendencia central, dispersión y posición e interprete.
1.4 Compare la distribución de frecuencias acumulada con la normal e interprete.
2. Muestre la transparencia a 10 mujeres y 10 hombres y registe el tiempo de respuesta. (En
este caso no considere la edad).
2.1 Haga un diagrama de caja para describir el tiempo empleado por las mujeres y otra para
el tiempo realizado por los hombres, interprete sus resultados.
2.2 Calcule medidas de tendencia central, dispersión y posición e interprete.
2.3 Junte esta información con 10 personas y realice las actividades similares a los indicados
en 1.2 y 1.3, tanto para mujeres como para los hombres e interprete.
3. Muestre la transparencia a 10 personas de los siguientes dos grupos de edad; grupo 1,
menores de 30 años y grupo 2, mayores de 30 años. En cada caso registe el tiempo.
3.1 Realice actividades similares a la de los puntos 2.1 y 2.2.
4. Plantee otras estrategias considerando el género (mujer, hombre) y grupos de edad. Pro-
ponga algunos criterios para de…nir grupos de edad. Muestre la transparencia a los grupos
de…nidos y plantee el análisis de estadística descriptiva similar a las actividades anteriores.
5. Considere que el tiempo promedio de respuesta es de 110 segundos. Plantee la siguiente
prueba de hipótesis:

H0 :  = 110
H1 :  < 110

Tome una muestra de 30 personas para veri…car esta a…rmación. Por el momento suponga
que ésta variable se distribuye como una distribución normal.
5.1 Calcule la media, la desviación estándar y la desviación estándar de la muestra.
5.2 En el grupo de opciones didácticas del paquete, use el de prueba de hipótesis H0 , plantee
varios escenarios para realizar esta prueba; por ejemplo diferentes valores en cada caso identi…que
el valor del umbral: estadístico de prueba. Diferentes valores para la hipótesis alternativa.
5.3 En cada escenario en el punto 5.2 ubique el valor de la media x calculado en 5.1. Obtenga
sus conclusiones.
5.4 Realice la prueba de hipótesis usando la opción que corresponde en módulo de inferencia
en el paquete. Compare con lo visto en las actividades 5.2 y 5.3. Interprete sus resultados. Use
la distribución normal para visualizar su información.
6. Tome una muestra de 15 personas para veri…car la hipótesis:
6.1 Abra un archivo en el paquete para capturar la información.
6.2 Gra…que la distribución t-Student con gl = 14 y = 0:05; señale el área a la izquierda
que deja el valor de y compare el valor del umbral con el valor de la media de la muestra. ¿Qué
observa? Interprete.
283

6.3 Use la opción correspondiente en el módulo de inferencia y realice la prueba de hipótesis.


Obtenga sus conclusiones.
6.4 Haga una nueva grá…ca de la distribución t Student con gl = 14 y señale el área a la
izquierda que deja el valor de p, este valor aparece en el reporte de los resultados de la prueba
de hipótesis. Compare las áreas de y p ¿Qué observa?
7. Use los resultados de la actividad 2 para justi…car si existe diferencia en el tiempo promedio
de respuesta entre mujeres y hombres.
Con el …n de veri…car esta situación se plantea la hipótesis:

H 0 : 1 2 = 0
H 1 : 1 2 6= 0

1 = promedio mujeres, 2 = promedio hombres.


7.1 En un archivo de datos capture la información, en una columna ponga los tiempos de
respuesta para una mujer y en otra los correspondientes a un hombre.
7.2 Usando el módulo referente a inferencia lleve a cabo la prueba de hipótesis. Obtenga sus
conclusiones.

18.0.6 Problema: memoria a corto plazo


Un problema que es de interés para muchos médicos consiste en conocer la capacidad de memoria
a corto plazo. Con ese …n tienen desarrolladas varias actividades que les aplican a los participantes
y así detectar esa capacidad.

Ejemplo 3

Realice la siguiente práctica ponga en una tarjeta blanca las 16 palabras que se indican en la
Tabla de abajo. Luego muestre en un lapso de 20 segundos esa tarjeta a una persona. Deje pasar
un minuto y pídale que le diga las palabras que recuerda; pero no puede tardarse más de un
minutos. Anota el número de palabras que recuerda, repite la actividad con otras 25 personas.

Roca Tapete Llave Ventana


Botella Lápiz Cuchillo Pulsera
Mesa Frasco Manzana Perro
Cuaderno Rojo Avión Flor

Con los 25 datos obtenidos de la práctica

1. Elabore un diagrama de puntos.


284 18. Proyectos de estudios estadísticos

2. ¿Qué porcentaje de personas recuerda más de 12 palabras?

3. ¿Qué porcentaje de personas recuerda menos de 8 palabras?

4. Pruebe la hipótesis de que la proporción de personas que recuerdan más de ocho palabras
es de 0.20, es decir:

H0 : p = 0:20
H1 : p < 0:20

5. Si se deja la tarjeta por un lapso de 40 segundos ¿Las personas recordarán más palabras?
¿Cómo veri…caría su respuesta?

6. Plantee otras actividades relacionadas con esta práctica, por ejemplo considerar factores
cpmo la edad, el género, el color de la tarjeta, el tamaño de la letra.

18.0.7 Simulación
Existen algunas estrategias para generar datos, el análisis e interpretación de estos permiten sim-
ular situaciones aproximadas a la realidad. Por ejemplo, en la actividad industrial se desarrollan
procesos con la …nalidad de manufacturar un producto. Tanto la calidad del producto como
la e…ciencia del proceso son evaluados por una o varias respuestas. Es común en cada proceso
que existan diversos factores que afecten esa salida. En el capítulo anterior se han mostrado los
prototipos tales como el helicóptero y el cañón para generar información, ahí se usaron como
una estrategia experimental. Aquí se ilustrarán con dos ejemplos algunas ideas para realizar
actividades y de esa manera generar datos con el …n de realizar análisis estadísticos. Con estos
usted puede planear muchas prácticas para realizar análisis estadísticos.

Ejemplo 4

Considere el prototipo del helicóptero realice las siguientes actividades.

1. Suelte el helicóptero 15 veces en la opción análisis con una humedad de 30 y registre el


tiempo de caída. Con esos valores obtenga los valores de los estadísticos y haga el diagrama
de caja.

2. Junte esta información con 10 personas para obtener 150 datos, realice un estudio descrip-
tivo de esta información.
3. Suelte el helicóptero 15 veces en la opción mejora con una humedad de 50 y registre el
tiempo de caída. Con esos valores obtenga los valores de los estadísticos y haga el diagrama
de caja. Compare el análisis estadístico de este punto con el del 1.
285

4. Realice la prueba de hipótesis de que los helicópteros tienen un tiempo de caida en promedio
diferente. Es decir:

H0 : 1 2 = 0
H1 : 1 2 6= 0

5. Realice otras prácticas, por ejemplo puede ir variando la longitud del ala, únicamente del
helicóptero, desde 5 hasta 15 de uno en uno registre en cada caso dos veces el tiempo de
caída. Haga un análisis de regresión de la longitud del ala con el tiempo de caída.

Ejemplo 5

Tome como referencia el prototipo del cañón realice las siguientes actividades.

1. Ponga el blanco a una distancia de 7 metros, realice 18 disparos registre el valor de la


distancia, altura y tiempo en cada caso calcule los estadísticos y haga un diagrama de caja.
Interprete los resultados. ¿Cuántas veces acertó el disparo en el blanco?

2. Ponga el blanco a una distancia de 5 metros, realice 10 disparos. ¿Cuántas veces dió en
el blanco? ¿Qué estrategia puede seguir para dar en el blanco? Realice un planteamiento
estadístico para alcanzar tal …n.

3. Elabore una serie de prácticas para llevar a cabo diferentes métodos estadísticos.
Referencias
1. Breyfogle I I I, F.W. (2003). Implementing Six Sigma. 2nd Ed. Wiley, United States of
America

2. Domínguez Domínguez J. y Domínguez López J. A. (2006). Estadística y Probabilidad: El


mundo de los datos y el azar. Oxford, México.

3. Escalante, V.E. (2004). Seis Sigma Metodología y Técnicas. Limusa Noriega Editores,
México.

4. Mendenhall. W. y Sincich T. (1997). Probabilidad y Estadística para Ingeniería y Ciencias,


4a. Ed. Printice-Hall. Hispanoamericana, México.

5. Press, W., Teukolsky, S., Vetterling, W., Flannery B. (2002) Numerical Recipes in C++
2nd Ed. Cambridge University Press. New York.

6. Tamato, T. M. El Proceso de la Investigación Cientí…ca. Limusa, México 2002.

7. Triola M. (2008). Essentials of Statistics, 3rd ed. Pearson Education, Inc. Boston, MA

8. Triola M. F. (2004). Probabilidad y Estadística 10ma ed. Pearson, México

9. Wall, K. (2000). Programación en Linux: con ejemplos. Pearson Education, Inc. Buenoss
Aires, Arg.

10. Yamane T. (1999). Estadística. Oxford University Press-Harla, México.


´ndice
ambiente CalEst, 6 distribución Poisson y CalEst, 76
análisis de la varianza, 232
espacio muestral, 37, 38
análisis de residuales, 230
estimacin, 123
cálculo de probabilidades usando el CalEst puntual, 123
distribución binomial, 73 Eventos independientes, 47
distribución normal, 84 experimento, 37
distribución Poisson , 76 aleatorio, 37
calculador estadístico, 70
frecuencia relativa, 12
capacidad del proceso, 90
coe…ciente histograma, 12
correlación, 221
determinación, 234 inferencia
varianza, 170
coe…ciente
determinación, 221 inferencia parámetros
combinaciones, 64 regresión simple, 217
Instalación, 1
densidad empírica, 14
La desviación estándar, 30
Desviación, 28
La media, 23
Diagrama de caja, 32
La media armónica, 26
diagrama de tallo y hoja, 17
La media geométrica, 27
diseño completamente al azar
La mediana, 25
análisis de la varianza, 201
La moda, 26
diseño de experimentos
la probabilidad condicional, 47
completamente al azar, 200
Distribución Bernoulli, 71 mínimos cuadrados, 226, 227
Distribución de probabilidad discreta, 71 método de mínimos cuadrados, 211
distribución empírica, 16 métrica
distribución normal seis sigma, 89
muestral, 130 modelo de regresión
papel de probabilidad, 89 lineal simple, 209
distribución normal y el CalEst, 82 razón de varianzas, 220

287
288 ´NDICE

modelo de regresión múltiple, 225


muestreo
aleatorio simple, 124
con reemplazo, 124
sin reemplazo, 124
mutuamente excluyentes, 46

nivel de signi…cancia, 144


descriptivo, 144

ojiva, 16

permutación, 63
Probabilidad Clásica o Teórica, 43
probabilidad con ruletas, 52
Probabilidad Empírica, 42
Probabilidades mediante extracción de canicas,
56
Probabilidades usando rami…caciones, 56
prueba de hipótesis, 143
error tipo I, 145, 179
error tipo II, 145, 179
modelo de regresión, 215
modelo regresión múltiple, 230
muestras independientes, 182
procedimiento, 145
razón de varianzas, 195

rango muestral, 27
Regla aditiva, 44
regla empírica, 85
residuales, 212

tabla de frecuencias, 9
teorema de límite central
ilustración, 136

variable aleatoria, 70
variable discreta, 71
varianza muestral, 29

También podría gustarte