Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2009
ii
Contenido
Prefacio vii
1 Instalación de CalEst 1
1.1 Instalación del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 El ambiente de CalEst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Estadísticas 23
3.0.7 Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.0.8 Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.0.9 Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.0.10 Diagrama de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Probabilidad 37
4.1 Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Probabilidad de un evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.1 Eventos compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Independencia y probabilidad condicional . . . . . . . . . . . . . . . . . . . 46
4.2.3 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Principios básicos de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
iii
iv CONTENIDO
7 Galería de distribuciones* 97
7.1 Ideas Generales: distribución de probabilidad . . . . . . . . . . . . . . . . . . . . 97
7.1.1 Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.1.2 Distribución Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.3 Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.4 Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.1.5 Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.1.6 Distribución Lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.1.7 Distribución Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.1.8 Distribución Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8 Distribuciones 2 , t, F +
107
8.1 Distribución 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2 La distribución t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.3 La distribución F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Referencias 286
Prefacio
De la experiencia se conoce que existen varias di
cultades para transmitir diferentes conceptos
en estadística y probabilidad, así como asimilarlos por parte del educando. Con el
n de contribuir
en la solución de esta problemática se ha realizado un proyecto de desarrollo tecnológico que
denominaremos CalEst. La investigación en este trabajo se plantea en dos direcciones, la primera
se da en la elaboración de este proyecto en el cual se han desarrollado ideas y propuestas didácticas
con el propósito de facilitar la comprensión de conceptos en las dos áreas citadas. La segunda
tiene la
nalidad de evaluar el impacto en la comprensión de nociones estadísticas usando el
material de este proyecto.
El CalEst se aboca a cubrir dos áreas principales, una de ellas tiene por objeto presentar un
conjunto de herramientas con un enfoque didáctico para cubrir el proceso enseñanza apren-
dizaje. La otra consiste en abarcar de manera sencilla la descripción y el análisis de datos
generados en un estudio. Esto permitirá al usuario trabajar con los diferentes temas propuestos
en los planes y programas de estadística y probabilidad para los cursos a nivel bachillerato y
superior. La aplicación en estas dos líneas del CalEst permite estudiar los ejemplos y encontrar
las soluciones de los ejercicios planteados en diferentes textos de estadística.
Finalmente se ha desarrollado el material temático tal que la metodología del tratamiento de
la información surja de problemas reales o que los estudiantes generen su propia información.
La integración de éste desarrollo tecnológico asistido de manera visual y las estrategias para
producir la información crean una dinámica que proporcionan una mayor facilidad para la com-
prensión de conceptos y motivan el aprendizaje de estas dos disciplinas.
Una parte fundamental del desarrollo de este trabajo se da en el conocimiento y habilidad de
cómputo aplicada para explicar y desarrollar conceptos y resultados en la enseñanza de la estadís-
tica y probabilidad. Este proyecto se ha elaborado con alto desarrollo en programación avanzada
y cómputo especializado dedicado como apoyo integral a la educación con la presentación de imá-
genes animadas y visuales para comprender los conceptos básicos en estadística y probabilidad.
CalEst corre en los sistemas operativos Windows XP y Vista.
Esta propuesta usa como recurso tecnológico la animación asistida por computadora y se
presenta como un paquete. Así este desarrollo resulta novedoso, visualmente atractivo y es
una herramienta complementaria que bene
cia en el aprendizaje, enseñanza y aplicación de los
conceptos de estadística y probabilidad. Por un lado, da elementos a los profesores para explicar
diferentes temáticas de una manera mas amena y fácil de entender. Asimismo, le da al profesor
la opción de profundizar ampliamente en los temas. Su entorno visual y animaciones no solo
permite, sino además alienta, que el estudiante explore y aprenda por si mismo utilizando el
material de prácticas auxiliar al paquete. El material contribuye a que los estudiantes entiendan
claramente los conceptos, se motiven a conocer más y a explorar por si mismos.
viii Prefacio
CalEst sirve como material de apoyo para comprender mejor algunos conceptos en estadística
y probabilidad, así como resolver problemas de diferentes libros de estadística cuya temática
se enfoca a los planes de estudio en los bachilleratos, tecnológicos regionales, licenciaturas e
ingenierías. Inclusive, por sus animaciones y grá
cas, también puede ser utilizado en primaria o
secundaria para adentrar a los estudiantes en el tratamiento de la información.
Presentación. Partimos del hecho de que la disciplina de estadística es el proceso de descubrir
más sobre el mundo real mediante la colección, análisis e interpretación de datos. En esa dirección
los estudios en estadística se plantean como un procedimiento de búsqueda, en el que se plantea
un problema y a partir de ahí se derivan una serie de cuestiones, las cuales se responderán y
explicarán con una apropiada recolección y análisis de datos. Sin embargo en la práctica es común
dar datos para que los estudiantes hagan cálculos, por lo general no se hacen interpretaciones
de los resultados. Por otro lado, el estudio de la estadística se fundamenta en conceptos de la
teoría de probabilidad, por lo general, en la práctica existe una cierta di
cultad para enseñar
y aprender nociones sobre estos temas. Por ejemplo, en un estudio sobre el cerebro, se desea
conocer el tiempo de respuesta de una persona ante un estímulo visual. En este caso se desea
conocer el porcentaje de personas que tardan menos de 30 segundos en responder, o estimar el
porcentaje de individuos en responder entre 70 y 180 segundos. Ambas situaciones se plantean
en términos de probabilidad. A partir de este planteamiento se generan una serie de cuestiones
tales como la de comprender, el concepto de probabilidad, el de variable aleatoria, función de
densidad, distribución de probabilidad. Para abordar este tipo de problemas en cursos básicos
de estadística y probabilidad se supone la distribución normal. Lo primero que se le explica al
estudiante, antes de hacer el cálculo de estas probabilidades dados los parámetros para la media
y desviación estándar de esta distribución, es el proceso de estandarización. Situación que distrae
de la
nalidad principal, toma tiempo y de alguna manera complica al estudiante. Además de
las di
cultades que genera al estudiante comprender estas funciones de probabilidad y distinguir
la diferencia entre ellas.
El desarrollo tecnológico propuesto mediante el CalEst, ayuda de manera animada a calcular
directamente esas probabilidades, además de ilustrar los conceptos de función densidad y dis-
tribución de probabilidad. Esta técnica se extiende a una gama de distribuciones tales como:
Bernulli, Binomial, Poisson, t-Student, Ji cuadrada, la F, Weibull, Gama Exponencial, Uniforme
para variables continuas-, Beta, Lognormal, Logística y Valores Extremos.
En el ejemplo descrito, también se tiene el interés en veri
car la hipótesis de que las personas
no reaccionan de manera lenta, en términos estadísticos la media debe ser menor a 130 segundos.
El planteamiento estadístico formal es:
H0 = = 130
H1 = 6= 130
Prefacio ix
Instalación de CalEst
CalEst es un paquete estadístico que le permitirá al usuario, realizar los cálculos y análisis
estadísticos de un conjunto de datos en la solución de problemas.
CalEst cuenta además con una serie de animaciones visuales que facilitará al usuario la
comprensión de diferentes conceptos estadísticos.
1.b Apriete sobre la opción instalar. El instalador se ejecutará y una ventana como la
mostrada por la Figura 1.2 aparecerá.
1.c Si no se ejecuta automáticamente el programa es posible que no esté habilitada la ca-
racterística de autoejecución. Si la autoejecución está deshabilitada. Desde Mi PC, seleccione la
unidad del CD, ejecuta el programa Instalame.exe y una ventana como la ilustrada en la Figura
1.2 aparecerá.
2 Seleccione el idioma de la instalación y aprieta el botón Aceptar. Una pantalla como la
mostrada en la parte inferior de la Figura 1.2 aparecerá.
3 A continuación apriete el botón Siguiente. Se mostrará la licencia del software.
4 Lea dicha licencia y si está de acuerdo con los puntos allí expuesto seleccione Acepto el
acuerdo y aprieta Siguiente.
1.1. Instalación del programa 3
6 En este paso puede escoger la carpeta del menú de inicio Figura 1.5. Por defecto la carpeta
es CalEst Studio. Puede escoger otra carpeta. Cuando esté de acuerdo con el nombre de la
carpeta apriete el botón Siguiente.
7 En este paso se le pregunta si quiere crear un icono de acceso directo en su escritorio Figura
1.6. Si así lo desea, seleccione la casilla. Para continuar apriete Siguiente.
9 El programa se instala Figura 1.8. El proceso puede tomar unos cuantos minutos. Al
terminar la instalación puede ejecutar el programa. No es necesario reiniciar la computadora.
Apriete el botón Finalizar para concluir el proceso.
relevantes sobre éstos. Dos elecciones más a esta opción conciernen al análisis de la varianza y
pruebas de bondad de ajuste.
Las Grá
cas que tiene CalEst son las típicas en estadística descriptivas tales como el his-
tograma y su correspondiente tabla de frecuencia, polígono de frecuencia, polígono de frecuencia
acumulada, diagrama de pastel, diagrama de puntos, diagrama de tallo y hoja, diagrama de caja
y diagrama de dispersión y la grá
ca de la distribución empírica que permite visualizar que tan
cercana es la distribución de los datos a una distribución normal.
El análisis de Regresión simple y múltiple es una parte que complementa la parte cálculos
estadísticos para estimar los parámetros de un modelo y su análisis, así como las representaciones
grá
cas de los conceptos relacionados.
La parte correspondiente a las Distribuciones tiene una con
guración relevante para que
el usuario tenga la posibilidad de realizar cálculos de probabilidad. En cada caso aparece la
distribución caracterizada por sus parámetros, así aparece la función densidad con uno o dos
umbrales, moviendo éstos generan valores de la probabilidad a la derecha, izquierda de un valor
de referencia o entre dos valores dados. Esta opción tiene la versatilidad de trabajar de manera
animada con la función distribución de probabilidad para hacer cálculos, y comprender la relación
matemática con la función densidad. Se ha anexado un calculador de probabilidad en cada
distribución lo que equivale al manejo de las tablas, esta permite tener el valor de la variable
aleatoria que de
na a la distribución o el valor de una distribución probabilidad acumulada.
Opciones didácticas:
2. Para explicar el Teorema de límite central, los conceptos de prueba de hipótesis, prueba de
hipótesis de un sistema de seguridad.
2.1 Presentación
Una vez que se han aplicado las encuestas o algún procedimiento formal para obtener la informa-
ción, es necesario contar con una estrategia para hacer más comprensible la información generada
por los datos. La estadística descriptiva es el procedimiento que permite organizar y describir los
datos. Esto se alcanza mediante la representación de los datos de manera grá
ca. Es importante
tener presente y caracterizada la población objeto de estudio para poder hacer inferencia sobre
ella a través de una muestra representativa.
Objetivo:
Presentar diferentes procedimientos grá
cos para
describir y analizar los datos de una muestra
Ejemplo 1.
Un sicólogo tiene interés en estudiar la memoria a corto plazo, su experimento consiste en mostrar
una tarjeta que contiene 16 palabras a un grupo de 100 personas seleccionadas al azar entre 15
y 25 años. El procedimiento consiste en mostrar la tarjeta a cada persona por un espacio de
20 segundos, luego platica con la persona por espacio de un minuto, a continuación, les da
otro minuto para que le digan las palabras que recuerdan. Los datos aparecen en el bloque
Herramientas del archivo DataEjemplo1.Tab en la columna palabras.
El procedimiento para organizar y describir los datos es construir una tabla, conocida como
Tabla de frecuencias .
9
10 2. Organización y descripción de datos
Tabla de frecuencias:
Una tabla de frecuencias o distribución de frecuencia es una tabla que
registra categorías, valores o clases de valores que una variable debe
tener y el número de veces que cada una ocurre.
Figura 2.2: Un ejemplo de la Tabla de frecuencias para los datos del ejemplo 1.
1. Se divide la distancia entre el número k de clases que se deseen, todas de igual ancho.
distancia
ancho (aproximado del intervalo de clase) =
k
El ancho del intervalo de clase se determina en función del número de clases que desee.
Aunque esto resulta arbitrario, casi siempre se propone entre 5 y 15 intervalos, pero
ello depende del número de datos. Las observaciones agrupadas sacri
can información
dependiendo de cómo las observaciones se distribuyan dentro de cada clase. Por un lado,
un número limitado de intervalos (menos de 5) nos daría muy poca información
2. Se establecen los intervalos de clase, para lo cual se requiere obtener el primero de ellos.
Se elige el menor de los datos y se suma el valor del ancho. Al valor resultante se le vuelve
a sumar el ancho, y así sucesivamente hasta obtener el número de clases establecidos.
Cada intervalo de clase, como podemos observar, presenta dos valores que se pueden su-
perponer. Para evitar que ello ocurra, deben contarse las observaciones iguales o mayores
al valor de la izquierda del intervalo y las menores al valor de la derecha. Se denota con X
el valor de la observación, por lo que la representación formal en términos matemáticos de
un intervalo de clase es:
valor izquierdo X < valor derecho
3. Se cuenta el número de observaciones que caen dentro del intervalo de clase. A este número
se le conoce como frecuencia.
12 2. Organización y descripción de datos
La tabla frecuencias es una clasi
cación de datos y permite tener una mejor idea acerca
de los datos iniciales. Además, los valores de las frecuencias individuales se ven inuidos por el
tamaño de la muestra, pues cuando las muestras son grandes, las frecuencias individuales serán
mayores que cuando son pequeñas. La comparación entre diferentes muestras se vuelve compli-
cada; también se convierte en difícil de interpretar y comprender la problemática planteada, por
ello, se recurre al concepto de frecuencia relativa.
La frecuencia relativa de una clasi
cación de datos es el número de veces que una ob-
servación cae sobre una clase, y representa una proporción del número total de datos. Por esta
razón, la frecuencia relativa se expresa en fracciones, decimales o porcentajes.
El cálculo de la frecuencia relativa se obtiene empleando la expresión:
f recuencia
f recuencia relativa =
total
2.1.2 El Histograma
Una vez capturados los datos en la hoja de datos, se pulsa la opción Grá
cas y aparece el
histograma Figura 2.3. Aparece una hoja que contiene la o las variables que se desean estudiar,
en este caso el número de palabras recordadas por 100 personas. Se completan los espacios, en
datos se escribe el nombre de la variable, los nombres de las clases es opcional y deben estar en
una columna. Se escoge el número de intervalos que se deseen obtener.
El histograma es una grá
ca de barras que consiste básicamente de un conjunto de rectángulos.
Su forma está determinada por tres elementos: el número de rectángulos, el ancho y la altura
de éstos. En esencia, el histograma es una representación visual de la tabla de frecuencias. En
ese sentido, el número de barras (rectángulos) corresponde al número de clases. El ancho del
rectángulo corresponde al intervalo de clase y la altura es la frecuencia. El histograma y la tabla
de frecuencias del conjunto de datos son una estrategia conjunta para organizar y describir los
datos de una muestra.
bajo la distribución queda sobre cierto intervalo, entonces 25% (0.25) de las observaciones caen
en ese intervalo. En ese sentido, el área total de las barras es igual al 100% (1).
Interpretación: aproximadamente el 10% de personas recuerda entre 9 y 10 palabras, lo que
resulta una cantidad pequeña de la población. El 21% de los entrevistados recuerda muy pocas
palabras 5 o menos. ¿Qué cantidad de palabras recuerda el 50% de personas? El histograma de
frecuencias relativas reeja esta situación en la Figura 2.4 se presentan de manera conjunta los
dos histogramas:
Figura 2.7: Grá cas que ilustran los polígonos de frecuencia, también conocidos como ojivas.
plantearse algunas preguntas que resultan interesantes para realizar una interpretación de una
muestra de datos. Por ejemplo, podríamos preguntarnos ¿a qué valor de los datos le corresponde
75%?
Con la información que se proporciona en la Figura 2.2 se facilita la construcción del his-
tograma de frecuencias acumulado y del polígono de frecuencias relativas en forma acumulada.
Véase la última columna de esa
gura, donde se observa cómo se han utilizado estos datos para
elaborar la grá
ca poligonal de la izquierda en la Figura 2.7, ahí se muestra el polígono que des-
cribe las frecuencias relativas acumuladas; éste es el más utilizado en la práctica. En esa grá
ca
se han trazado los porcentajes correspondientes a las personas que recordaron 5 o 7 palabras.
El polígono de frecuencias relativas acumuladas también recibe el nombre de ojiva . Así cuando
se requiera construir la ojiva de un conjunto de datos, lo que se desea es trazar el polígono de
frecuencias relativas acumuladas. En la grá
ca a la derecha de la Figura 2.7 se compara ese polí-
gono de frecuencias relativas con la distribución acumulada de la normal estándar: distribución
teórica. Nota: El polígono de frecuencias relativas que proceden de los datos de una muestra se
llama también distribución empírica.
2.1. Presentación 17
Varias de estas opciones se ilustrarán utilizando 125 datos que corresponden al tiempo en que
una muestra de estudiantes completaron un rompecabezas electrónico de la República Mexicana
. Los datos están en el cuadro de abajo, en CalEst se abre un archivo y en una columna se
capturan estos.
El objetivo es ilustrar la elaboración de la grá
ca de tallo y hoja. Esta es una grá
ca que
permite complementar el estudio descriptivo de los datos. Es una grá
ca alternativa al his-
tograma. Con estos datos a continuación se elabora un diagrama de tallo y hoja, la
nalidad de
este diagrama es describir a la vez una tabla de frecuencias y un histograma, éste se presenta en
la Figura 2.8.
Se ilustrará la construcción del diagrama de tallo y hoja considerando los nueve datos corre-
spondientes a la muestra de la producción de maíz en un área de 100m2 . El peso del maíz para
cada muestra es: 312, 324, 310, 314, 322, 328, 316, 314, 324 toneladas. Antes de elaborar este
diagrama, se dará una idea general de cómo se forman el tallo y la hoja.
La idea principal es partir cada número para formar primero el tallo y luego la hoja. En
general, donde se hace la partición depende del rango de los datos. Para
jar ideas considere el
número 310, el cual se parte en dos cifras, 31 y 0. 31 representará al tallo y el 0 a la hoja. En la
representación se escribe el 31 a la derecha separándolo con un espacio, que aquí se resalta con
una línea vertical, y el 0 del lado izquierdo. Esto es:
31 j 0
Paso 2. Se consideran todos los datos de manera integral. Los números candidatos para el
tallo en estos datos son el 31 (para los números 310, 312, 314, 316) y 32 (para los números 322,
324, 328); así:
Paso 3. Se incorpora la otra parte del número partido; así, se anexan 0, 2, 4, 4 y 6, que son
la parte correspondiente del 31, o sea:
Paso 4. Se agrega la parte dividida correspondiente al número 32; así la grá
ca queda como
sigue:
2.1. Presentación 19
Cabe observar que en este ejemplo, el ancho de los intervalos de clase es de 10 unidades
(de 310 a 320). Además se puede resaltar que la realización del paso 1 facilita la construcción
del diagrama.
Supongase que el ancho de intervalos sea de tan sólo 5 unidades (310 a 315, 315 a 320, y
así sucesivamente). Para construir el diagrama de tallo y hoja con 5 unidades, se pone el 31 dos
veces en el tallo. Así, en la hoja del primer 31 del tallo, se consideran los números menores que
5, que en este caso serán 310, 312, 314 y 314. En el segundo tallo los números mayores o iguales
que 5 y menores o iguales que 9, esto es, el 316 del ejemplo. De manera análoga se procede para
el otro número del tallo. En este caso el diagrama es:
Con el auxilio de esta grá ca se tendrá una idea general de la distribución de los datos.
Establecer una unidad ayuda en la construcción de un diagrama de tallo y hoja. Por lo general,
ésta debe aparecer en la parte superior del diagrama. Por ejemplo:
En este caso la unidad que se lee indica que la partición se da entre diez de miles y los miles.
De este modo si el número con tallo fuera 9 y el de la hoja 6 se leería como 96000.
En contraste si dice:
Esto signi ca que el número con tallo 9 y hoja 6 se leería como 0.096.
Distribución empírica
En la Figura 2.8 se muestra una aparente simetría en la distribución de los datos. Con el propósito
de ilustrar la utilidad del polígono de frecuencias acumulado en la descripción de los datos se
describe este en la grá
ca izquierda de la Figura 2.9. La grá
ca a la derecha muestra el mismo
polígono comparado con distribución de probabilidad normal. Esta situación permite evaluar de
manera descriptiva si los datos se ajustan a una distribución de probabilidad normal.
20 2. Organización y descripción de datos
Figura 2.9: Polígono de frecuencias acumulado izquierda, este mismo comparado con la normal.
2.1.6 Ejercicios.
1. Para el conjuntos de datos del ejemplo 2:
(c) Veri
que que tan simétrica es la distribución comparándola con una distribución nor-
mal
(d) Elabore un diagrama de tallo y hojas.
(e) En qué conjunto de datos hay mayor variabilidad en los del ejercicio 1 o los del ejercicio
2.
(f) Si se aplica este mismo rompecabezas a 1000 personas con las mismas características
de esta muestra, ¿cuántas tardarán en resolverlo en menos de 500 segundos?
(e) Si se muestra este mismo cuadro a 1500 personas con las mismas características de
esta muestra, ¿cuántas tardarán en encontrar la cara en menos de 30 segundos?
En este caso, hay que construir el diagrama de tallo y hoja para este conjunto de datos e
interpretarlo.
22 2. Organización y descripción de datos
Capítulo 3
Estadísticas
Ejemplo 1
Un sociólogo ha realizado un estudio para conocer la edad en la cual contraen matrimonio las
mujeres que radican en una ciudad determinada. Del registro civil obtuvo una muestra aleatoria
de 120 parejas. Es de interés conocer ¿Cuál es la media o la mediana en la que una mujer se
casa? ¿Qué porcentaje de mujeres se casa cuando tiene 20 años o menos? ¿Qué tanta variación
de edad existe entre las mujeres que se casan? ¿Qué diferencia existe entre la edad máxima y
mínima para casarse? ¿A qué edad se casan al menos el 25% de las mujeres?
Datos: Los datos relacionados con esta investigación aparecen en el archivo DatosEjem-
plo1.TAB en la columna edad. Para poder responder a estas preguntas aplicamos la opción
Estadística y luego Numérica en CalEst, a continuación aparecen las tres clases de mediciones
como se ilustra en la Figura 3.1.
A continuación se explica el procedimiento para obtener esta información y sobre todo es
relevante interpretar estos resultados.
De
nición. Dado una colección de n valores de una variable, la media aritmética es una medida
de tendencia central que se obtiene sumando cada uno de estos valores y el total de esta suma
se divide por n. En general a esta medida se le conoce como la media. La fórmula para calcular
la media de la población y de la muestra son:
23
24 3. Estadísticas
P
N P
n
xi xi
i=1 i=1
población = ; muestra x =
N n
Ejemplo 2
Se tomó una muestra de siete farmacias para conocer el precio en pesos de una medicina, los
datos son: 510, 850, 480, 420, 445, 495 y 500.
Solución
La suma del precio de las siete farmacias es:
n
X
xi = 510 + 850 + 480 + 420 + 445 + 495 + 500 = 3700
i=1
P
n
xi
i=1 3700
x= = = 528:6
n 7
25
La mediana
De
nición. Dado una colección de n valores de una variable, la mediana es una medida de
tendencia central cuyo valor está en la mitad de los n datos ordenados de menor a mayor.
Si el número de datos es impar, la mediana es el dato que está situado a la mitad. Si el
número de datos es par, la mediana es la media de los dos datos que están situados a la mitad.
Ejemplo 3
Encontrar la mediana del precio en pesos de una medicina de las farmacias en el ejemplo 1.
Solución
Para encontrar la mediana se ordenan los datos 510, 850, 480, 420, 445, 495 y 500 de menor a
mayor.
Sitio 1 2 3 4 5 6 7
Orden 420 445 480 495 500 510 850:
Son siete datos, por lo que se tiene un número impar, la mediana es el dato situado a la mitad,
esto es: m
e = 495. Con el símbolo m
e se representa la mediana. En la mitad de las farmacias la
medicina cuesta menos de 495 pesos.
Ejemplo 4
Una compañía que manufactura un pesticida estudia el número de insectos que aniquila una dosis
especí
ca del insecticida. Se realizan 10 pruebas. En cada una de ellas, el número de insectos
muertos de 40 son:
19; 22; 34; 28; 18; 16; 25; 27; 31; 30
Calcular la mediana. Con base en esos datos, ¿qué tan efectivo es el insecticida?
Solución
A partir de la de
nición se ordenan los datos de menor a mayor y se identi
ca el lugar que
ocupan.
Sitio 1 2 3 4 5 6 7 8 9 10
Orden 16 18 19 22 25 27 28 30 31 34
Puesto que el número de datos es par la mediana es la media de los datos situados en los
lugares 5 y 6, es decir 25+27
2
= 26:
26 3. Estadísticas
La moda
De
nición. Dado una colección de n valores de una variable, la moda es una medida de
tendencia central, y es el valor que ocurre con mayor frecuencia.
Cuando dos valores aparecen con la misma frecuencia, cada uno es una moda y el conjunto
de datos es bimodal.
Cuando más de dos valores se tienen con la misma frecuencia, cada unos es una moda y el
conjunto de datos es multimodal.
Cuando no hay valores repetidos, se dice que los datos no tienen moda.
1
El recíproco de un número X es
X
1 1 1
El recíproco de n números X1 ; X2 ; :::; Xn es ; ; :::;
X1 X2 Xn
n
1X 1
La media de estos recíprocos es
n i=1 Xi
1
El recíproco de la media es P
n
1 1
n Xi
i=1
La media armónica
La media armónica (denotada por la letra H) de un conjunto de datos X1 ,X2 ,...,Xn es el recíproco
de la media aritmética del recíproco de esos datos.
1 n
H Pn = P
n
1 1 1
n Xi Xi
i=1 i=1
27
La media geométrica
Si algunos valores son muy grandes en magnitud y otros son pequeños, entonces la media geo-
métrica es una medida que representa los datos mejor que la media.
Si hay n observaciones X1 ; X2 ; :::; Xn la media geométrica G de un conjunto de datos es la
raíz enésima del producto de esos datos.
p
n
G= X1 X2 :::Xn
Por lo general, la media geométrica se utiliza cuando los valores de la variable siguen una
progresión geométrica, o cuando se necesitan promediar porcentajes, tasas, índices, etc., siempre
que vengan dados en porcentajes.
Rango
El rango es una de las medidas más sencillas para expresar la dispersión de los datos. Tan sólo
se requiere considerar los valores máximo y mínimo de las observaciones.
Ejemplo 5
Consumo 416 378 390 454 472 413 440 441 379 421
Solución
Se ordenan de menor a mayor ese conjunto de datos:
Consumo 378 379 390 413 416 421 440 441 454 472
28 3. Estadísticas
Así el valor deseado para el rango es: R= máximo-mínimo = 472 -378 =94 .
Como se ha visto el rango sólo requiere de dos datos para obtener su valor. La varianza y
la desviación estándar son dos medidas para la variación que utilizan todos los datos de la
información. Primero se necesita comprender la desviación de cada una de las entradas de los
datos.
Desviación
La desviación de la entrada x en una muestra aleatoria de un conjunto de datos es la
diferencia entre cada entrada y la media X del conjunto de datos.
P
n 2
Xi X
i=1
S2 =
n 1
Ejemplo 6
Calcular la varianza para los datos del ejemplo 5. En la Tabla 1 se han calculado los cuadrados
de las desviaciones y luego se sumaron, así la varianza es:
P
n 2
Xi X
i=1 9110:40
S2 = = = 1012:267
n 1 10 1
P
n 2 P
n 2
Xi X Xi2 X
i=1 i=1
S2 = =
n 1 n 1
Observaciones
Para encontrar el promedio de la suma de cuadrados, se ha dividido entre n 1 y no exactamente
entre n. Esto se debe a dos razones. La primera es que, como se ve en la segunda columna de
la Tabla 1, la suma de las desviaciones es cero. Esto quiere decir que cualquier desviación se
puede encontrar a partir de las nueve desviaciones restantes. De modo que el valor de la suma
de cuadrados depende sólo de nueve desviaciones que son la libertad de variar de una muestra
a la siguiente. En general, se dice que la suma de cuadrados tiene n 1 grados de libertad.
La segunda razón es tema de la inferencia estadística, y se puede decir que dividir la suma
de cuadrados entre n 1 hace que la varianza muestral (estadístico) sea un mejor estimador
de la varianza poblacional (parámetro). Ésta última se expresa mediante la letra griega sigma
minúscula elevada al cuadrado, 2 .
La varianza 2 de la población se de
ne por:
P
N
(Xi )2
i=1
2 =
N
Donde es la media de la población y N es el tamaño de la población.
v v
uP 2 uP
u n u n 2 2
u Xi X u Xi X
t t
S = i=1 ; o S = i=1
n 1 n 1
Para los datos del ejemplo 6 se saca la raíz cuadrada y se obtiene el valor de S; así:
v
uP 2
u n r
u Xi X
t i=1 9110:40 p
S= = = 1012:267 = 31:816
n 1 10 1
En la práctica, se usa más la desviación estándar porque tiene las mismas unidades de
los datos originales.
La desviación estándar:
La desviación estándar muestral (S) es la raíz cuadrada positiva de la varianza.
La desviación estándar de la población se denota por :
v
uN
uP
u (Xi
t i=1 )2
=
N
La desviación media
Una medida que se menciona y aparece en muchos estudios es la desviación media (DM ), la cual
consiste en sumar el valor absoluto de la desviación. Por el momento sólo se dirá aquí que, debido
a propiedades matemáticas se usan la varianza y desviación estándar con mayor frecuencia.
n
P
Xi X
i=1
DM =
n
n
P
Xi X
i=1 252
DM = = = 25:2
n 10
31
Una medida que permite comparar la variación en diferentes poblaciones se conoce como el
coe
ciente de variación. Esta medida no tiene unidades.
Coe
ciente de variación
El coe
ciente de variación muestral (CV) describe la desviación estándar S
relativa a la media X y se expresa en porcentaje (%).
muestra población
S
CV = X
100% CV = 100%
S 31:816
CV = 100% = = 7:57%
X 420:4
Primer cuartil C1
El primer cuartil es el valor de los datos ordenados que representa al 25%, es decir:
al menos el 25% de los valores de datos ordenados son menores o igual a C1 y al
menos 75% de los valores son mayores o iguales a C1 :
Segundo cuartil C2
El segundo cuartil es el valor de los datos ordenados que corresponde a la mediana.
Tercer cuartil C3
El tercer cuartil es el valor de los datos ordenados que representa al 75%, es decir:
al menos el 75% de los valores de datos ordenados son menores o igual a C3 y al
menos 25% de los valores son mayores o iguales a C3 :
Ejemplo 7
Un profesor de historia aplica un cuestionario a sus alumnos sobre temas de historia universal y
nacional, el cuestionario es 20 preguntas de opción múltiple. Los resultados de una muestra de
esos 15 alumnos son: 16, 9, 13, 15, 16, 19, 8, 11, 12, 6, 20, 17, 10, 18, 5.
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Orden 5 6 8 9 10 12 12 13 15 16 16 17 18 19 20
C1 C2 C3
Así, menos un cuarto de alumnos tiene 9 o menos aciertos. La mitad tiene 13 aciertos y 75%
tiene 17 o más aciertos.
Ejemplo 8
Variable M in M ax C1 C2 C3
Tiempo 474 524 491 499 509
Ejercicios
1. El gasto (pesos) de transporte que realizan en una semana una muestra de 40 familias se
muestra a continuación:
43; 52; 63; 55; 66; 78; 79; 87; 42; 43; 44; 49; 52; 53; 53; 53; 64; 58; 76; 78
70; 78; 86; 87; 90; 81; 84; 85; 97; 79; 88; 96; 91; 92; 89; 94; 60; 85; 85; 97:
(b) ¿Cuál de las dos medidas dan mejor indicación de la pérdida de calcio?
3. Para estimar el número de árboles de café en una granja, el agrónomo divide la granja en
1000 pequeñas parcelas. Él selecciona de manera aleatoria 20 de estas parcelas y cuenta el
número de árboles. Los resultados son: Calcula el rango y el rango intercuartil para este
conjunto de datos. ¿Qué información adicional le proporciona este nuevo cálculo, unido al
de la media, la mediana y al primer y tercer cuartil?
41 56 47 59 24 37 23 53 44 43
62 28 54 41 30 44 52 69 34 46
4. Al inicio del semestre un profesor realiza una prueba para evaluar la lectura de comprensión
a una muestra de 20 alumnos. Se cali
ca sobre 100, y los resultados de la prueba se
describen a continuación:
24 31 54 62 36 28 37 55 18 27
58 32 37 41 55 39 56 42 29 35
64 71 81 43 69 75 86 58 63 66 82 62 79
91 83 55 68 74 48 66 84 77 73 59 55
(a) El tiempo que emplearon los 22 estudiantes del primer grupo en contestar las preguntas
se muestra a continuación:
95; 85; 87; 82; 98; 92; 92; 97; 103; 92; 94; 94; 94; 75; 98; 90; 100; 92
91; 92; 100; 87:
122; 116; 120; 121; 120; 115; 118; 115; 113; 112; 117; 115; 122; 119
119; 126; 117; 118; 120; 123; 120; 125; 112:
(d) Trace los diagramas de caja para cada caso y haga un análisis comparativo.
6. Una empresa que elabora alimentos procesados realiza pruebas para determinar la vida de
anaquel de un nuevo producto. En el estudio se consideran 21 productos. El número de
días que duraron los productos sin descomponerse se presenta en el siguiente cuadro.
152; 152; 115; 109; 137; 88; 94; 77; 160; 165; 125; 40; 128; 136; 101;
62; 153; 83; 69; 132; 120:
7. Los médicos de una clínica probaron dos tratamientos para reducir los niveles de colesterol.
El tratamiento 1 se aplicó a 13 pacientes. El nivel de colesterol se midió antes de la
aplicación y después de ella. Los datos que indican la reducción son:
54; 39; 44; 53; 56; 66; 34; 61; 36; 67; 32; 22; 40:
40; 31; 50; 40; 52; 44; 74; 38; 81; 64; 66:
(a) Calcule desviación media, la varianza y la desviación estándar para el primer tratamiento.
(b) Calcule desviación media, la varianza y la desviación estándar para el segundo tratamiento.
Probabilidad
En esta parte se presentarán los conceptos básicos de probabilidad para conocer sus de
niciones
y las propiedades. En la parte de herramientas en el CalEst en la opción didáctica se describen
una serie de elementos para motivar el aprendizaje y comprensión de la probabilidad. En la
Figura 4.1 se describen estas alternativas.
Con la
nalidad de comprender cómo funciona esta opción didáctica, a continuación se des-
cribirán, de
nirán e ilustrarán algunos de los conceptos básicos en probabilidad.
Objetivo:
37
38 4. Probabilidad
Ejemplo 1
Una experiencia aleatoria consiste en preguntar a una persona, elegida al azar de un grupo de
10 clientes, si es partidaria o no de consumir un determinado producto. Los sucesos aleatorios
en este caso son dos: es partidaria, no es partidaria.
De nición
A la colección, o al conjunto de todos los resultados posibles distintos que pueden ocurrir
cuando un experimento es efectuado se le llama espacio muestral para el experimento.
Esta colección de resultados tiene la propiedad de que cuando el experimento es
efectuado, uno y solo uno de estos resultados puede ocurrir.
4.1. Espacio muestral y eventos 39
Ejemplo 2
Considere el experimento de lanzar una moneda. Existen dos resultados posibles: cara, sello.
Identi
car los sucesos elementales y escribir el espacio muestral. Usar la opción de volados en
CalEst.
Solución
Los sucesos elementales son: e1 = cara; e2 = sello:
M = fe1 ; e2 g
Ejemplo 3
Solución
Los sucesos elementales son 5 resultados posibles: e1 = A; e2 = B; e3 = C; e4 = D; e5 = E: Todos
los resultados posibles para los 50 estudiantes se representan en el conjunto:
M = fe1 ; e2 ; e3 ; e4 ; e5 g
Un suceso compuesto es fe4 ; e5 g , que consta de dos sucesos elementales. En el contexto del
ejemplo se puede referir a que los alumnos que obtengan una cali
cación en las categorías D y
E tienen que entregar un trabajo extra para aprobar el curso. Como analogía a este ejemplo se
pueden usar las ruletas (F), luego seleccionar una ruleta con 5 opciones. En este caso cada una
de las categorías tiene la misma probabilidad de ocurrir. En otro caso usar una de las ruletas
aleatorias (A).
En resumen:
Se dice que un experimento es aleatorio si se cumplen los siguientes puntos:
Ejemplo 4
Se describen varios casos de experimentos aleatorios, señalando todos sus posibles resultados.
Ejemplo 5
En un estudio sobre el hábito de lectura de jóvenes entre los 15 y 20 años se estimó que 50% no
lee un libro (ciencia
cción, divulgación, novela, literario, otros géneros atractivos) durante las
vacaciones de verano. Al regreso a clases se seleccionó de manera aleatoria a tres estudiantes y
se les preguntó si habían leído en las vacaciones. En la raya responde Sí o No a la siguiente
pregunta: ¿Leíste un libro en estas vacaciones?
Solución
La segunda parte del ejemplo consiste en obtener los diferentes eventos. Éstos se obtienen
a partir del espacio muestral . De los resultados se construye cada uno de los eventos. Así:
A = f(ssn); (sns); (nss)g
B = f(snn); (nsn); (nns)g
C = f(sss)g
D = f(sss); (ssn); (sns); (snn); (nss); (nsn); (nns)g
Nota 1: En la construcción del espacio muestra de este ejemplo, se puede tener como analogía
el lanzamiento de monedas, ir a la opción de volados para generar el espacio muestra: tres
monedas en este caso. Si cambia el valor de p = 0:5 ir a la opción volados (binomial) y en el caso
de n > 20 ir a la distribución binomial.
Nota 2: Para ver otras rami
caciones ver la opción de árboles.
42 4. Probabilidad
De
nición
Un evento es una colección, o el conjunto de alguno de los resultados posibles
de un espacio muestral. Dicho de otra manera, un evento es un subconjunto del
espacio muestra. Se dice que un evento ocurre si, al realizar un experimento, uno
y solo uno de los resultados que lo componen ocurre.
Probabilidad Empírica
Se realiza un experimento, y se cuenta el número de veces que el evento A ocurre.
La probabilidad empírica del evento A es la frecuencia relativa de A, así P(A) es:
Lanzamiento dado De la Figura 4.3, considere, por ejemplo, el evento A = fel dado muestre
el número uno}. Se observa que la probabilidad empírica de A es P (A) = 50
250
= 0:2: Si el
experimento de lanzar el dado es repetido una y otra vez, la probabilidad empírica de un evento
se aproxima a la probabilidad teórica del evento.
Lanzamiento moneda Al lanzar una moneda muchas veces, n es grande, se puede observar
una estabilización de la frecuencia relativa, eso da lugar a lo que se conoce como frecuencia
relativa, o la ley de los grandes números. A nivel de práctica puede realizar el lanzamiento de la
moneda en el bloque didáctica del CalEst. Observe que el espacio muestral es M = f
aguila; solg,
se pueden lanzar un número de monedas que va desde una hasta cien, repetir el procedimiento las
veces que se desee. En la Figura 4.4 se ilustra el lanzamiento de 200 monedas. La probabilidad
de obtener un águila P (
aguila) se aproxima a 0.5.
Número de resultados de A s
P (A) = =
Número de resultados en el espacio muestral n
El espacio muestra en lanzamiento del dado es M = f1; 2; 3; 4; 5; 6g el evento A de que la cara
del dado caiga en el número 1: A = f1g; se sigue que P (A) = 1
6
= 0:1666:
En resumen:
La probabilidad satisface las siguientes propiedades:
Regla aditiva
Regla aditiva
Consideremos dos eventos A y B. Entonces
P (A [ B) = P (A) + P (B) P (A \ B)
donde P (A \ B) denota la probabilidad que A y B ocurren a la vez como un resultado
en la prueba experimental
4.2. Probabilidad de un evento 45
Ejemplo 6
3 2 1 4
P (A [ B) = P (A) + P (B) P (A \ B) = + = :
6 6 6 6
De
nición:
Dos eventos A y B son ajenos o mutuamente excluyentes
si entre ellos no hay un resultado común y
P (A \ B) = 0
El complemento del evento A se denota por Ac , consiste de todos los resultados en los que el
evento A no ocurre. Así P (A) + P (Ac ) es la suma de las probabilidades, los sucesos elementales
que están en A más la suma de las probabilidades de los sucesos elementales que no est
an en
A. Juntando estos dos eventos se forma el espacio muestral M y P (M ) = 1. En consecuencia,
P (A) + P (Ac ) = 1 .
Los diagramas de Venn son un auxiliar grá
co para representar un evento. En la Figura 4.5 se
utilizan los diagramas de Venn para representar la relación de eventos.
En el bloque didáctica en CalEst está la opción de lanzar dos dados, en la Figura 4.6
aparece la descripción del espacio muestral, la estimación de probabilidad empírica, el cálculo
de probabilidad clásica para los eventos simples y el casino donde se puede generar varios cál-
culos de probabilidades aplicando las reglas. Por ejemplo, ¿cuál es la probabilidad de que al
lanzar dos dados ambos sean iguales o que la suma sea 7? El evento A ambos dados mar-
que el mismo número, A = f(1; 1); (2; 2); (3; 3); (4; 4); (5; 5); (6; 6)g -observe el espacio muestra
46 4. Probabilidad
Figura 4.5: Representación grá ca de las relaciones básicas entre dos eventos.
Figura 4.6. El evento B los datos suman 7: B = f(1; 6); (2; 5); (3; 4); (4; 3); (5; 2); (6; 1): Así
P (A [ B) = P (A) + P (B) = 6
36
+ 6
36
= 13 : Los eventos A y B son mutuamente excluyentes.
Se formula la regla para la suma de eventos excluyentes:
Eventos independientes
La probabilidad de que ocurra el evento A no afecta la probabilidad de que
suceda B. En este caso, se dice que los eventos A y B son independientes:
Si los eventos A y B son independientes, entonces P (A \ B) = P (A)P (B):
Nótese que
4.2. Probabilidad de un evento 47
P (A \ B) P (B \ A)
P (AjB) = ; o P (BjA) = :
P (B) P (A)
48 4. Probabilidad
Figura 4.7: Espacio muestra y cálculo de probabilidades para una moneda y un dado
Una moneda (cara, sello) y un dado de seis caras son lanzados, Figura 4.7. Encontrar la
probabilidad de obtener una cara al lanzar la moneda y que el dado caiga en seis. El espacio
muestra es:
M = fc1; c2; c3; c4; c5; c6; s1; s2; s3; s4; s5; s6)
1 1 1
P (A y B) = P (A)P (B) = = ' 0:083
2 6 12
Así la probabilidad de que al lanzar la moneda salga cara y al tirar el dado marque 6 es aproxi-
madamente 0.083.
En la Figura 4.8 se muestra una opción para el cálculo de probabilidades, en esta se tienen tres
dados. Con el signo más se considera los dados que se lanzan, así por ejemplo en esa
gura se
describe el lanzamiento de dos dados, uno de cuatro lados y otro de 12, existen 48 posibilidades
4.2. Probabilidad de un evento 49
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12 13
2 3 4 5 6 7 8 9 10 11 12 13 14
3 4 5 6 7 8 9 10 11 12 13 14 15
4 5 6 7 8 9 10 11 12 13 14 15 16
En la hoja se presenta el espacio muestra que indica la suma de los números que marcan los
dados. En este caso se puede preguntar por la probabilidad de que la suma de los dados sea un
número primo, es decir P (la suma sea un número primo) = 19
48
:
Usando estos dados se pueden organizar varias prácticas para el cálculo de probabilidades.
Nota. Apretando el signo más con el botón del ratón, se activa un dado, con el signo menos
se quita el dado.
Ejemplo 7.
Se lanza de manera independiente dos dados, el primero de 4 caras y el segundo de doce caras,
en ambos casos se observa el número que cayó.
50 4. Probabilidad
Ejercicio 1
a.- Se lanza un dado de seis caras. encuentre la probabilidad en cada uno de los siguientes
eventos
b.- Evento A: Caiga un 3,
f.- Use el simulador de lanzamientos de dados en CalEst, sólo se pueden lanzar de 100 en 100.
Si se lanza un dado, cien veces, mil veces, cinco mil veces escriba las frecuencias registradas
y complete la tabla, ¿qué puede concluir?
X 1 2 3 4 5 6
F recuencia(100)
F recuencia(1000)
F recuencia(5000)
Ejercicio 2
Considere el experimento de lanzar un par de dados, suponga que X es la suma de los valores que
marcan al caer. En la siguiente tabla se resumen los resultados y las probabilidades relacionadas.
X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
P (X = x) 36 36 36 36 36 36 36 36 36 36 36
a.- Use la opción de grá
cas en el programa y trace el diagrama de barras para estos valores.
Estime las probabilidades P (X 11) y P (X 2):
b.- Considere los eventos E obtener una suma que sea un número par y F obtener una suma que
sea un número primo. Hallar la probabilidad P (E [ F ) y P (E [ F ):
4.2. Probabilidad de un evento 51
c.- Use el simulador de lanzamientos de dados en CalEst, sólo se pueden lanzar de 100 en 100.
Si se lanza el par de dado, cien veces, mil veces, cinco mil veces escriba las frecuencias
registradas y complete la tabla, ¿qué puede concluir?
X 2 3 4 5 6 7 8 9 10 11 12
F recuencia(100)
F recuencia(1000)
F recuencia(5000)
Ejercicio 3
El juego craps consiste en lanzar dos dados, referencia ejercicio anterior, este considera las reglas
que a continuación se describen.
e.- ¿Cuál es la probabilidad de obtener una suma menor que 13 en cualquier tirada?
f.- Si los dados se tiran 60 veces, estime cuántas veces se obtendrá una suma de 7?
Ejercicio 4.
Se lanzan dos dados y se calcula la diferencia entre los valores de mayor a menor situación que
se describe en la siguiente tabla:
X 0 1 2 3 4 5
6 10 8 6 4 2
P (X = x) 36 36 36 36 36 36
a.- Use la opción de grá
cas en el programa y trace el diagrama de barras para estos valores.
Estime las probabilidades P (X 5) y P (X 1):
b.- Pedro y Pablo juegan a los dados y calculan la diferencia tal como se ha descrito. Pedro gana
si la diferencia es 0, 1, o 2. Pablo gana si la diferencia es 3, 4 o 5. ¿Cuál es la probabilidad
de que Pedro gane? ¿Cuál es la probabilidad de que Pablo gane?
52 4. Probabilidad
Ejercicio 5.
X 2 3 4 5 6 7 8 9 10
P (X = x)
Ejercicio 6.
X 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
P (X = x)
Sea E el evento que el primer dado sea mayor que 3, calcule P (E).
Figura 4.9: El caso de dos ruletas con cuatro colores, también se puede considerar el caso de la
combinación de números y letras.
Ejemplo 8
¿Cuál es la probabilidad de que ambas ruletas tengan el mismo color? Se tienen que se
repiten 4 colores de 16 resultados posibles entonces P (E : mismo color) = 4
16
= 0:25
¿Cuál es la probabilidad de que al menos una de las ruletas sea azul? En el espacio muestra
se cuenta en el número renglones que tienen al menos un azul, de estos hay 7, así P (F : al
menos una es azul) = 7
16
= 0:4375
Considere los números y las letras en la primer y segunda ruleta respectivamente, ahora
se de
nen los evento E como los números: E = f1; 2; 3; 4g; y el F como las letras: F =
fA; B; C; Dg. ¿Cuál es la probabilidad de que al girar ambas ruletas la echa marque un
número par y una consonante? R: rojo y A: amarillo corresponden a los números pares
y R: rojo, V: verde y A: amarillo se asocian a las consonantes, de esa manera se tiene
H = f(R; V ); (A; A); (R; A); (A; R); (R; R); (A; V )g de manera equivalente el evento H se
escribe por H = f(2; C); (4; D); (2; D); (4; B); (2; B); (4; C)g. Entonces la probabilidad es
0.375, o sea P (H) = 0:375
54 4. Probabilidad
Ejercicio 7
Use la opción de ruletas, considere sólo una de ellas y divídela en nueve partes iguales. Tome
en cuenta los números en cada color y sean los eventos E: obtener un número par y G: obtener
un número divisible entre 3, es decir: E = f2; 4; 6; 8g; G = f3; 6; 9g: Calcule las siguientes
probabilidades: a.- P (E [ G); b.- P (E); c.- P (E \ G); d.- P (Factor de 35); e.- P (6 o 2):
Ejercicio 8
Utilizar las ruletas de la opción 1, con cuatro grupos cada una de ellas. Supóngase que se asignan
los valores 3 al azul, 4 al rojo, 5 al verde, 6 al amarillo. Se plantea construir una fracción, para
ello realice el siguiente experimento, el valor que marque la echa en la ruleta superior póngalo
en numerador y el valor que marque la otra ruleta póngalo en el denominador. ¿Cuál es la
probabilidad de que la fracción sea mayor que 32 ?
Ejercicio 9
Con las ruletas: Un experimento consiste en girar la ruleta superior dividida en cuatro considere
los números 1, 2, 3 y 4, después gire la ruleta de abajo donde el azul o letra A vale 1 y el rojo o
letra B vale 2. ¿Cuál es la probabilidad de que a.- el número en la ruleta superior sea mayor que
en la ruleta inferior, b.- en ambas ruletas sea un número par, c.- el resultado sean dos enteros
consecutivos en cualquier orden?
Ejercicio 10
En referencia a las dos ruletas se divide cada una de ellas en 3 grupos, a los colores se les asignan
valores como se indica a continuación: en la ruleta de arriba los colores azul, verde y rojo valen
4, 8 y 6 respectivamente, de manera equivalente en la ruleta de abajo los colores azul, verde y
rojo valen 10, 3 y 5. Se plantea realizar un juego, este consiste en que la ruleta que tenga el
número mayor gana, si se desea ganar ¿Qué ruleta escogería? ¿Por qué?
Ruleta 2
Ejercicio 11
Relacionada con la Figura 4.10 a.- ¿Cuál es la probabilidad que al girar ambas ruletas la echa
marque el color negro en la primera y color verde en la segunda? b.-¿Cuál es la probabilidad de
que la primer ruleta no se detenga en el negro? c.- ¿Cuál es la probabilidad de que en la segunda
ruleta no pare en el verde? d.- ¿Cuál es la probabilidad de que ambas ruletas la echa marque
4.2. Probabilidad de un evento 55
azul? e.- ¿Cuál es la probabilidad de que en la primera ruleta se pare en amarillo o la segunda
se detenga en verde?
Ejercicio 12
Use esta segunda opción de ruletas en el programa, seleccione en la primera ruleta 2 grupos y en
la segunda 3 grupos en ambos casos idénticos.
2. Calcule las siguientes probabilidades de que a.- La primera sea roja y la segunda amarilla.
b.- La segunda no sea amarilla. c.- La primera sea azul y la segunda no sea amarilla. d.-
Ambas rojas.
3. 2.- Luego en el número de tiradas vaya haciendo de cien en cien hasta completar quinientos,
en cada caso observe la tabla de frecuencias utilice la última para estimar las probabilidades.
Estime la probabilidad, frecuencia de que a.- La primera sea roja y la segunda amarilla.
b.- La segunda no sea amarilla. c.- La primera sea azul y la segunda no sea amarilla. d.-
Ambas rojas.
Ejercicio 13
Con la segunda opción de ruletas, dibuje las siguientes ruletas la superior con tres grupos el azul
con 59 ; el rojo con 2
9
y el verde con 29 : La segunda ruleta con dos grupos el azul con 6
11
y el rojo
con 5
11
:
2. ¿En cuál de ellas tiene mayor posibilidad de que la echa marque azul?
3. Gire varias veces la ruleta, digamos unas 600 veces y vea la tabla de frecuencia, ¿qué ruleta
tiene mayor posibilidad de ganar con el azul?
Ejercicio 14
Utilizando la segunda opción de las ruletas simule la situación de lanzar dos dados, es decir,
divida las ruletas en 6 partes iguales cada una. Luego gire varias veces de cien en cien y vea
las frecuencias generadas compare estos resultados con el lanzamiento de los datos. En este
caso se pueden buscar varias situaciones para generar cálculo de probabilidades, por ejemplo la
probabilidad de que una de las ruletas sea roja y la otra azul, o una azul y la otra roja, equivale
a la probabilidad de que la suma de los dados sea tres.
Ejercicio 15
1. Simule salidas por las 5 árboles diferentes y estime el porcentaje de salidas al lanzar la
canica, 300, 1000, 2500, 5000 veces. ¿Qué observa?
Ejemplo 9
Javier invitó a tres amigos a jugar Wii, cada uno de ellos llevaba una gorra al entrar se la quitaron
y la pusieron en una silla. Cuando terminaron de jugar, Javier les dió una gorra, al azar, a cada
uno de sus amigos. ¿Cuál es la probabilidad de que los tres recibieron su gorra? Para resolver
este ejemplo se usará la bolsa de canicas que viene en el grupo Didáctica del programa. Ahí
escogemos tres como se muestra en la Figura 4.12 a la izquierda para representar cada una de
las gorras.
Sugerencia para usar esta opción, aparecen el número de canicas a extraer sin reemplazo o con
reemplazo. Por ejemplo, si selecciona extraer 3 canicas, aparecerán tres signos de interrogación,
este le permite seleccionar una de las posibles alternativas. Aparece la elección para que usted dé
su respuesta o para ver la probabilidad que se describe en el cuadro del resultado. La opción de
espacio muestra, en este caso, indica todas las posibilidades de seleccionar el número de canicas
que se pueden sacar. Para el ejemplo de las 3 canicas éste se describe a la derecha de la Figura
4.12, la extracción se hizo sin remplazo. Primero usted puede dar su respuesta de probabilidad
y luego compararla al aplicar la opción ver probabilidades, estas se presentan en el cuadro de
resultados.
La probabilidad de que los tres amigos recibieron su gorra es 1
6
= 0:167: Razonamiento:
suponga que A: canica azul (gorra amigo 1), R: canica roja (gorra amigo 2) y V: canica verde
(gorra amigo 3). En la primera extracción cada una de las tres canicas tienen la misma posibilidad
de salir, una vez seleccionada una de estas en la segunda sólo hay dos canicas,
nalmente en la
4.2. Probabilidad de un evento 59
Figura 4.13: ARV todos reciben su gorra ( 16 ), al menos uno tiene su gorra ( 36 ), o nadie tiene la
gorra que traía ( 26 ).
tercera sólo una se puede escoger, situación que se describe en la Figura 4.13
Ejercicio 16
Se tiene una bolsa con tres canicas de color A: azul. R: rojo, V: verde, considere un experimento
en dos etapas como sigue: se extrae una canica de la bolsa y se registra el color. Después se
repone la canica en la bolsa, se hace una segunda extracción y se registra su color. Haga un
diagrama de árbol para representar esta situación, veri
que sus resultados con los presentados
en el espacio muestra descrito en CalEst.
Determinar la probabilidad de que a.- ambas canicas sean rojas, b.- ninguna canica sea roja,
c.- al menos una canica sea roja, d.- a lo sumo una canica sea roja, e.- ambas canicas sean del
mismo color.
Ejercicio 17
Una bolsa contiene 5 canicas amarillas, 10 canicas rojas. Se extraen dos canicas al azar, una
después de otra sin reemplazo. ¿Cuáles son los posibles resultados de este experimento? ¿Cuál
es la probabilidad de que se extraigan dos canicas amarillas? Puesto que las canicas se extraen
al azar, todas las canicas de la bolsa tienen la misma probabilidad de que salgan en cualquier
extracción. Hay 15 canicas P (1er: canica amarilla) = 5
15
; P (2da: canica amarillaj 1era: canica
amarilla) = 4
14
60 4. Probabilidad
Solución
Usando la opción canicas en el programa, se tiene:
¿Cuáles son las probabilidades P (A; R); P (R; A); P (R; A) y P (R; R)?
¿Cuáles son las probabilidades P (A; A); P (A; R); P (R; A) y P (R; R)?
Si la extracción es con remplazo.
¿Cuáles son las probabilidades P (A; R); P (R; A); P (R; A) y P (R; R)?
¿Cuáles son las probabilidades P (A; A); P (A; R); P (R; A) y P (R; R)?
Ejercicio 18
Suponga que tiene dos bolsas, la primera contiene 3 canicas azules, 2 canicas rojas y 1 canica
verde. La segunda bolsa contiene 4 canicas rojas, 2 canicas verdes y ninguna azul. Además se
tiene un dado de seis caras.
Haga el siguiente experimento, lance el dado, si este cae 1 o 6 saque una canica de la bolsa
1. En caso contrario saque una canica de la bolsa 2.
Complete las probabilidades en la siguiente Tabla:
Color canica
Azul Roja Verde Suma
Bolsa 1 ? ? 1
18
1
3
Bolsa 2 0 4
9
? ?
Suma 1
6
? ? 1
Ejercicio 19
(b) ¿Cuál es la probabilidad de sacar al azar una canica que no sea roja?
(c) ¿Cuál es la probabilidad de que la canica sacada al azar sea azul o verde?
Ejercicio 20
1. Considere el problema de extraer dos canicas al azar, sin reemplazo, de una bolsa que
contiene dos canicas rojas y tres amarillas. Liste el espacio muestra y los resultados de los
siguientes tres eventos: A = fAmbas canicas son rojasg, B = fla primer canica es roja y la
segunda canica es amarillag y C = funa de la canicas es rojag: Encuentre las probabilidad
de cada uno de los eventos A; B y C:
2. Suponga, una bolsa contiene 3 canicas rojas y 2 verdes. Se toman 3 canicas sacando una
a una sin reemplazo. ¿Cuál es la probabilidad de que las 3 sean rojas? Idea: De
na los
eventos A1 : la primer canica es roja. A2 : la segunda canica es roja y A3 : la tercer canica
es roja. Entonces calcule: P (A1 \ A2 \ A3 ):
Ejercicio 21
De una urna que contiene 6 pelotas blancas y 5 negras, se toman dos pelotas de forma aleatoria.
¿Cuál es la probabilidad de que una de las pelotas tomadas sea blanca y la otra negra?
65
110
+ 56
110
= 0:2727 + 0:2727 = 0:5454 o 65
11:10
= 30+30
110
= 6
11
Solución
Hay 11 pelotas, si se saca una quedan 10; así el número de posibilidades diferentes de extraer
una, dos bolas es 11 10 = 110
Se puede generar una serie de problemas previos para que los estudiantes puedan deducir
estos resultados.
Ejemplo 10.
2. Las placas para que un automóvil pueda circular en un estado, está compuesta por tres
letras y cuatro números, estas están ordenadas de la siguiente forma, la primera letra es
ja,
la segunda posición se tienen seis letras y veintidós en la tercer letra, si el primer número
4.3. Principios básicos de conteo 63
1 6 22 9 10 10 10 = 1188000
Nota: Esta es la presentación que aparece en CalEst para aplicar las técnicas de conteo.
Cuando se llenan las casillas calcula todas las técnicas, se selecciona sólo la que se tiene in-
terés.
la Figura 4.14 se describe el cálculo, usando principio básico de conteo (principio de multi-
plicación). En la Figura 4.15 se ilustra el caso de las placas, a la vez aparece el cálculo del
factorial en este caso el de 7!
3. ¿De cuántas maneras distintas se pueden ordenar las letras A,B,C? se puede aplicar el
principio básico de conteo para determinar el número de las diferentes maneras en las que
n objetos se pueden acomodar en orden. Así:
En este caso se dice que hay 6 posibles permutaciones para un conjunto de 3 objetos,
aplicando el principio básico: El primer objeto de la permutación puede ser cualquiera de
los 3, después el segundo objeto puede ser cualquiera de los 2 restantes y el tercer objeto
es el que falta. De esa manera existen 3 2 1 = permutaciones posibles. En general para
n objetos se tiene:
n (n 1) (n 2) ::: 2 1
Permutación
Una importante aplicación del principio de conteo es la determinación del número de maneras
diferentes en que m objetos se pueden arreglar en orden o en permutaciones.
Ejemplo 11
Solución
Para formar un código de tres dígitos sin que ninguno de ellos se repita, se necesita seleccionar
3 dígitos de un grupo de 10, así r = 10 y k = 3:
10! 10!
n Pr =10 P3 = = = 720
(10 3)! 7!
2. De los 20 coches que compiten en una carrera de Fórmula 1. ¿De cuántas maneras distintas
pueden los carros
nalizar primero, segundo y tercero?
Solución
En este caso n = 20 y r = 3; ilustrado en la parte superior de la Figura 4.16.
20!
20 P3 = = 6840
(20 3)!
4.3. Principios básicos de conteo 65
Combinaciones.
A continuación se presenta otra técnica en el conteo, la característica de ésta, es que no considera
el orden de selección.
Ejemplo 12
1. Se desean comprar 3 CDs de una selección de 5 CDs. Para
jar ideas denote los CDs, por
A, B, C, D, y E.
Solución.
ABC, ABD, ABE
ACD, ACE
ADE
66 4. Probabilidad
BCD, BCE
BDE
CDE
Observe que es lo mismo seleccionar ABC que BAC, así en los demás casos. El cálculo se
muestra en la parte de la Figura 4.16.
5!
5 C3 = = 10
(5 3)!3!
Ejemplo 13
13 C5 1285
P (diamante) = =
52 C5 2 598 960
Ejemplo 14
Un subdirector de una escuela ha recibido una lista de 12 alumnos distinguidos por su buen rendi-
miento escolar, tiene que seleccionar 4 estudiantes para formar un comité de representación. La
lista está compuesta por 5 mujeres y 7 hombres.
Solución
1. El número de maneras en los que 4 estudiantes se pueden seleccionar de 12 es:
12 12!
= = 495
4 4!8!
7
5
2. Un hombre se puede escoger en 1
= 7 maneras y 3 mujeres se pueden escoger en 3
= 10:
Cada uno de los 7 hombres puede acompañar a cada una de las 10 seleccionadas de 3
mujeres. Razonando por la regla de conteo m n; se concluye que el número posible de
muestras es:
7 5
= 7 10 = 70
1 3
3. Suponga que las 495 posibles son igualmente probables. De estos 70 son casos favorables
para el evento A = f1 estudiante es hombre y 3 son mujeresg; así:
5
70 2 10
P (A) = = 5 = = 0:3125
495 2 32
68 4. Probabilidad
Capítulo 5
Galería de distribuciones
En general, resulta poco práctico estudiar un proceso o investigar sobre un tema especí
co
en toda una población sobre todo cuando los componentes de ésta son muy numerosos. Por
ejemplo, supongamos que se desea saber en una ciudad el estado civil (soltero, casado, divorciado,
unión libre) de las personas que trabajan de meseros en restaurantes de una ciudad, por lo que
recurrimos a examinar una muestra e inferir de la población entera a partir de la muestra.
Debido a que las predicciones o decisiones que formulamos sobre una población, con apoyo de
la información muestral, genera un grado de incertidumbre, ésta se expresa en probabilidades.
Para el caso de los meseros puede ser de interés estudiar si la probabilidad de divorcio es alta.
Una población consiste en una colección de individuos u objetos a lo que se les observa una
característica particular que será objeto de estudio.
El principio de la distribución de probabilidad resulta al considerar un experimento aleatorio,
y al preguntarnos acerca de los eventos posibles y sus respectivas probabilidades. Hay dos tipos
de distribución de probabilidad y son de importancia en muchas áreas del conocimiento; éstas
son las distribuciones discretas y continuas. Las primeras se derivan de las variables aleatorias
discretas, tales como el número de llamadas telefónicas que se reciben por quejas, el número de
respuestas contestadas de manera correcta en un examen, el número de artículos defectuosos,
etcétera. Las distribuciones continuas se generan a partir de variables aleatorias continuas;
ejemplos de este tipo de variables son el periodo de vida de una batería, el promedio de las
cali
caciones al
nalizar un ciclo escolar o el coe
ciente intelectual de una persona.
Se ha presentado el concepto de espacio muestral en el capítulo anterior, y tanto los problemas
como ejemplos que se explican en esta unidad toman en cuenta esa idea para indicar cómo surgen
la variable aleatoria y su distribución de probabilidad.
Con el
n de conocer y estudiar las distribuciones CalEst muestra varias distribuciones que
son muy importantes en el estudio cuantitativo de las investigaciones. En la Figura 5.1 se
describen esta serie de distribuciones. En todas se cuenta con un calculador estadístico que
69
70 5. Distribuciones de probabilidad discretas
resulta relevante puesto que le permite el cálculo de probabilidades y de modo inverso dada una
probabilidad se establece el valor de la variable..
Variable aleatoria.
Una variable aleatoria x representa un valor numérico asociado con cada resultado
de un experimento de probabilidad
Existen dos tipos de variable aleatoria: discreta y continua en este apartado se verán las dis-
tribuciones relacionadas con la variable discreta.
5.1. Distribuciones de probabilidad Discretas 71
Variable discreta.
Una variable aleatoria x es discreta si este tiene un número
nito o contable de posibles
resultados, los que presentan en una tabla.
Número de éxitos 0 1
Probabilidades 1 p p
La distribución de Bernoulli se expresa como una función de probabilidad, P (x) como sigue:
P (x) = px (1 p)1 x
para x = 0; 1 (5.1a)
La expresión (5.1a), P (x) es la probabilidad de tener x éxitos en una prueba Bernoulli. Clara-
mente x puede ser 0 o 1, así:
p para x = 1
P (x) =
1 p para x = 0
Una distribución de probabilidad discreta se presenta una tabla con cada valor que
la variable aleatoria puede tomar, conjuntamente con su probabilidad.
Cada ensayo produce uno de dos posibles resultados, referidos como éxito y falla.
n x
f (x) = P (X = x) = p (1 p)n x
para x = 0; 1; 2; :::; n (5.2a)
x
1. Conocer la distribución binomial considerando como caso inicial el valor de p = 0:5, ese
valor se puede mover para tener otros valores de p y así ver cómo cambia la distribución.
Además proponiendo diferentes valores de n hasta el valor de n = 20.
En la Figura 5.2 se muestra el caso en el que se lanzaron 9 monedas con 100 repeticiones en
el renglón donde aparecen las monedas corresponden a la última repetición. El valor de los
parámetros de la distribución son p = 0:5 y n = 9; los puntos en la grá
ca corresponden a la
probabilidad de la binomial para cada valor de la variable x, es de 0 hasta 9, por ejemplo: la
probabilidad de tener cuatro caras a lanzar las nueve monedas es: 0.2461, es decir: P (x = 4) =
0:2461: La frecuencia relativa tiene un valor de 0.2300, si se van incrementando las repeticiones
este valor se aproximará más al de la probabilidad.
Otras situaciones que se pueden considerar son:
Solución
Con los dos primeros renglones de la tabla que aparece en la grá
ca se tiene la distribución de
probabilidad.
En la primera situación se calcula P (X 3) corresponde a sumar los primeros cuatro valores
del renglón Px, Figura 5.2, así
P (X 3) ' 0:2440
Para el inciso 2, se calcula la P (X 5) en este caso se deben sumar los últimos cinco valores
del renglón Px, esto es:
P (X 5) ' 0:5001
Nota el símbolo ' indica que por redondeo pueden existir diferencias en milésimas con el valor
real.
Ejemplo 2
Solución
Usando CalEst, en el apartado de distribuciones se elige la distribución de probabilidad binomial
Figura 5.3.
Se muestra la distribución de probabilidad en la tabla de abajo, esta se ha construido aplicando
la calculadora binomial para cada valor de x:
Ejemplo 3
Un médico asegura que tiene un tratamiento que cura un malestar muscular con una probabilidad
p = 0:45: En la atención de 12 pacientes ¿Cuál es la probabilidad de que se curen entre 7 y 10
pacientes, es decir P (7 X 10). ¿Cuál es la media y la varianza en este ejemplo? Usando la
grá
ca y los umbrales o la tabla se calculan las probabilidades P (X < 8) y P (X < 11); así:
exp( )x
P (x) = para x = 0; 1; 2; :::; > 0; (5.3a)
x!
Donde P (x) es la probabilidad de que x eventos aleatorios ocurrirán por unidad de tiempo o
espacio; es la razón de ocurrencias (la media del número de eventos aleatorios) por unidad de
tiempo o espacio.
La media y la varianza para la distribución Poisson son:
media = varianza 2 =
La probabilidad de que un artículo, producido por una máquina durante cada periodo de revisión,
sea defectuoso es: 0.1. Determine la probabilidad de que en una muestra de 30 artículos no haya
más de dos defectuosos.
5.1. Distribuciones de probabilidad Discretas 77
Solución
Ejercicios
(a) Ponga el valor de p = 0:5 y el número n = 10 monedas, use el renglón Px para calcular
las probabilidades para x = 4; 6 y 9.
(b) Ponga el valor de p = 0:5 y el número n = 10 monedas, use el renglón Px para calcular
las probabilidades: i.-P (X = 5); ii.- P (X 2); iii.- P (X 8); iv.- P (2 X 8):
(c) Haga repeticiones de 50 hasta completar 1500 volados, en cada una de ellas observe
los renglones Px y el de Frec. rel. ¿Qué observa? ¿Qué se podría esperar si el número
de volados al
nal fuera 5000?
2. Repita el ejercicio anterior para un valor de p = 0:25: ¿Qué diferencias puede observar con
respecto a los resultados del ejercicio 1? Puede realizar este ejercicio para diferentes valores
de p. Esto le ayudará a familiarizarse con la distribución binomial.
Número de familias x 0 1 2 3 4 5 6 7
Probabilidad P (x)
Probabilidad acumulada P (X x)
4. Para resolver los siguientes ejemplos use la distribución binomial en el apartado de dis-
tribuciones en CalEst:
(a) El número de nacimientos en un hospital sigue una distribución binomial B(6; 0:5):
¿Cuál es la probabilidad de que nazcan 0, 1, 2, 3, 4, 6 bebés que sean del sexo
femenino? Complete la siguiente tabla.
(b) Para una distribución B(10; 0:3) ¿Cuál es la probabilidad de 5 o más éxitos? ¿Cuál es
la probabilidad de exactamente 7 éxitos? ¿Cuál es la probabilidad entre 4 y 8 éxitos?
5.1. Distribuciones de probabilidad Discretas 79
(c) En una examen de opción múltiple, hay 5 posibles respuestas en cada una de las 20
preguntas. Si un candidato contesta adivinando la respuesta a cada pregunta :
i. ¿Cuál es la probabilidad de que el candidato pase el examen obteniendo 8 o más
respuestas correctas?
ii. ¿Cuál es la probabilidad de que el candidato tenga al menos una respuesta co-
rrecta?
iii. ¿Cual es la media de respuesta correctas a las que el aspirante puede acceder?
(e) Una encuesta reporta que el 75% de las mujeres adultas van a consulta con su médico
para un análisis físico al menos una vez cada dos años. Si 17 mujeres se seleccionan
de manera aleatoria, encontrar la probabilidad de que:
i. ¿Menos de 12 de ellas asistieron a consulta en esos dos años?
ii. ¿Al menos 15 de ellas asistieron a consulta en esos dos años?
(f) Un profesor de letras plantea una estrategia de enseñanza que considera exitoso en la
lectura de comprensión en el 60% de los casos. Esta la veri
ca con 15 estudiantes de
nuevo ingreso, encontrar la probabilidad de que:
i. ¿Al menos 6 comprendan la lectura?
ii. ¿El número de estudiantes que comprenden la lectura no sea menor que 6 y no
mayor a 10?
iii. ¿Doce o más comprenden la lectura?
(g) Un estudio revela que 43% de las mujeres en una región urbana la lectura es uno se su
pasatiempo favorito. Se toma una muestra aleatoria de 12 mujeres y se les pregunta
si la lectura es una de su pasatiempo favorito. ¿Cuál es la probabilidad de que?
i. ¿7 mujeres respondan si?
ii. ¿Al menos 7 respondan si?
iii. ¿Menos de 3 respondan si?
(h) La producción de un proceso genera artículos defectuosos a razón del 6%. ¿Cuál es la
probabilidad de que en el embarque de 150 artículos no haya más de 8 defectuosos?
80 5. Distribuciones de probabilidad discretas
(a) Una empresa recibe llamadas por teléfono de manera aleatoria a su conmutador en
un promedio de una llamada por minuto. ¿Cuál es la probabilidad de que 0, 1, 2,...,5
llamadas sean recibidas en un periodo de 2 minutos? Complete la siguiente tabla:
La temperatura de un horno.
81
82 6. Distribuciones de probabilidad continua
Aprender a calcular probabilidades con este modelo usando las diferentes opciones del
CalEst.
La distribución normal
La densidad de probabilidad de esta distribución se caracteriza por los parámetros ( y 2 ),
es decir, su media ( ) y su varianza ( 2 ); y es la desviación estándar.
En el bloque de distribuciones en CalEst aparece las opciones para la normal entre ellas la función
densidad y la acumulada. Con estas se pueden calcular probabilidades o los valores de la variable
X correspondientes a diferentes percentiles. Con el
n de conocer su aplicación en la estimación
de probabilidades se ha
jado una media = 12; (para ver la grá
ca de el valor a de 12 y
apriete la tecla enter) y una desviación estándar = 2, la variable X describe el tiempo de un
servicio bancario: Nota aquí se pueden obtener los valores de las probabilidades para cualquier
pareja de (; ):
1. Sin umbrales, en el cuadro sin la paloma, aparece la función densidad, para conocer el valor
de la función para diferentes valores de la variable use el signo más en azul, éste aparece
en la parte superior izquierda.
6.1. Variables aleatorias continuas 83
2. Con umbrales, éstos se emplean para calcular probabilidades. Un umbral permite estimar
el área a la derecha o a la izquierda, su valor aparece en un recuadro superior a la derecha.
Ahí también se indica la diferencia de 1 el a rea, abajo aparece el valor de la variable Z
que corresponde a la normal estándar que se indica más adelante.
3. Dos umbrales, colocados abajo, arriba o uno arriba y otro abajo, permite estimar la pro-
babilidad entre dos valores da la variable. Muestra el valor de la diferencia de 1 el a
rea;
y los valores de la normal estándar respectivos a los valores de la variable X:
4. Para obtener percentiles, se mueven los umbrales considerando el valor de las áreas.
6. Siempre que de el valor de oprima enter para cambiar la media en la distribución, luego
el valor de , y nuevamente, oprima enter.
84 6. Distribuciones de probabilidad continua
8. Con las lupas, le permiten agrandar (+), empequeñecer (-) y actualizar (A) la gura.
El tiempo que dura un embarazo tiene una distribución normal con media = 266 días y una
desviación estándar de 16 días. Esta situación se describe en la Figura 6.2 generada por CalEst
en el bloque de distribuciones con la opción normal.
1. Usando esta grá ca encuentre la proporción de embarazos entre 285 y 305 días.
2. Una compañia de seguros tiene un plan familiar de salud, en una de sus cláusulas indica que
no se cubre los costos de hospitalización si el nacimiento es en menos de 217 días después
de la fecha de casamiento. Encuentre la probabilidad de que el nacimiento se da en menos
de 217 días.
3. Encontrar el 90 percentil.
4. Encontrar el 30 percentil.
Solución
En la Figura 6.2 en la grá
ca se muestra la primera solución, la segunda se muestra en la tabla.
Ésta muestra las alternativas del calculador para obtener los valores de probabilidad en una
distribución normal.
2. En el segundo P (X 217) = 0:0011; es una probabilidad muy baja de que esto ocurra.
3. En el tercer caso se desea encontrar el número que satisface P (266 X ?) = 0:40; se
puede notar que P (X 266) = 0:5, veri
que esta situación usando el cursor. En la Figura
6.3 se describe esta situación.
6.1. Variables aleatorias continuas 85
4. De manera análoga se resuelve el caso cuarto, ver Figura 6.3 en la grá
ca derecha. P (?
X) = 0:3
5. En este caso P (X 275) = 0:713; solución se tiene colocando un solo cursor en 275. En
los resultados del calculador mostrados en la Figura 6.4
P ( X + ) = 0:6826
P ( 2 X + 2) = 0:9544
P ( 3 X + 3) = 0:9974
Veri
que estos resultados en el CalEst usando los datos del ejemplo 1. En la Figura 6.5 se
presenta la función acumulada, distribución de probabilidad normal, con ésta se obtiene el área
bajo la curva de la función densidad para valores especí
cos de la variable aleatoria X. En
particular el caso que se ilustra es el área desde menos in
nito hasta el valor de X = 275, para
(; ) = (266; 16):
Figura 6.6: Función densidad y la acumulada de la distribución normal. El uso del símbolo +,
el efecto se quita con la echa.
88 6. Distribuciones de probabilidad continua
Por ello en los libros de estadística se trabaja con la variable normal estándar y en cada uno
de ellos viene una tabla de esta distribución para el cálculo de probabilidades. En el desarrollo
de este paquete ésta queda como un caso particular, aquí se describe con la
nalidad de que los
usuarios tengan una visión completa de la normal estándar y la aprovechen en la solución de sus
problemas y en otras aplicaciones.
De nición
La expresión que relaciona la variable aleatoria X de una normal con (; ) y la normal
estándar Z es:
X
Z= , o X = + Z
X
Así para los datos de la Figura 6.1: Z =
= 9 12
2
= 1:5: El cálculo de la probabilidad
del primer inciso del ejemplo 1,
La métrica seis sigma evalúa un proceso, ésta se basa en el nivel de : Existen varios libros
donde se puede profundizar en el concepto. Entre ellos puede consultar el de Escalante (2004)
página 239, y el de Breyfogle I I I (2003) Capítulo 9 página 188. La distribución normal como se
ha desarrollado aquí será de mucha utilidad para resolver los ejemplos y problemas planteados
en esos libros. En esos mismos libros se puede encontrar los conceptos de capacidad del proceso,
la e
ciencia del cálculo de este índice depende de la distribución normal.
En la opción estadística, métodos avanzados, control de calidad en CalEst aparece el cálculo
del valor de X y Z para estimar la métrica
Este método grá
co es de mucha utilidad para evaluar si unos datos siguen una distribución
normal. El principio es tener un conjunto de datos, ordenarlos de menor a mayor. La idea es
construir en un plano de coordenadas (x; y), donde x es el eje horizontal: los datos ordenados,
y es el eje vertical y representa los porcentajes correspondientes a la distribución normal, por lo
general y es:
i 0:5
yi = %, donde i = 1; :::; n:
n
El valor de i representa la iésima observación de los n datos estudiados.
90 6. Distribuciones de probabilidad continua
Con objeto de medir la capacidad de un proceso, se establece un sistema de 5 índices que son de
utilidad para cuanti
car la capacidad de un proceso estable, éstos permitirán evaluar un proceso
con respecto a los límites de especi
cación. Los índices son:
Conceptos generales
Con objeto de estimar los índices indicados anteriormente, primero se determina la caracterís-
tica de calidad que se desea medir, se toma una muestra aleatoria del proceso, se obtiene el
histograma tal que contenga los límites de especi
cación inferior (LEI) y superior (LES). A
simple vista del histograma se puede analizar la forma de la distribución, si ésta tiene una forma
acampanada puede representar a un proceso capaz si este está cerca del centro. También, se
puede emplear el papel de probabilidad de una distribución normal para observar la tendencia
de los datos. La mayor amplitud es 6 b; es decir la longitud comprendida entre los límites de
tolerancia del proceso. Se puede establecer que un proceso no es capaz si:
1. El proceso no es estable.
Las cartas de control permiten conocer la estabilidad de un proceso. Por otro lado, es más
fácil obtener un proceso capaz, si la variabilidad del proceso no es tan grande.¿Por qué?
Este índice depende sólo de la variabilidad en condiciones de
nidas del proceso a corto plazo y
que éste se encuentre bajo control estadístico. Un método simple para estimar el Cp , es relacionar
la amplitud del proceso, con la amplitud permitida, esta última se establece de antemano.
se dice que el índice Cp estima la habilidad del proceso. Otra manera de evaluar al proceso
en términos de porcentaje, es mediante el índice de razón de capacidad, este se obtiene por el
recíproco del índice Cp multiplicado por 100, es decir:
1
CR = 100%
Cp
92 6. Distribuciones de probabilidad continua
Cuando un proceso está bajo control estadístico, se espera que la característica de calidad que
se le mide a los artículos tenga una distribución con promedio y varianza 2 . Generalmente
un industrial requiere que la característica de calidad de su proceso tenga un compotamiento
en promedio a un cierto valor establecido, este frecuentemente se identi
ca como valor nominal
del proceso denotado por T . Si el promedio y el valor nominal coinciden, es decir, que = T:
Entonces dice que el proceso está centrado. Cuando esto no es así, se requiere de un índice
que indique qué tan lejos está el proceso del valor objetivo. Un objetivo es plantear cómo el
desempeño del proceso se puede relacionar con el potencial del proceso Cp y con la medida de
_
localización X:
Considere la situación en la que el proceso únicamente se relaciona con el límite de especi-
_
cación superior, en esta situación intervienen tanto la media X; como la desviación estandar
b
para de
nir el índice CPS denominado índice de capacidad superior, es decir:
_
LES X
CP S(CP U ) =
3b
Análogamente, se puede considerar de un proceso el límite de especi
cación inferior, esto da
lugar a de
nir el índice de capacidad inferior como sigue:
_
X LES
CP I = (CP L ) =
3b
El índice Cpk mide el desempeño del proceso y su cálculo es
Cpk = min( CP I; CP S )
Ejercicios
1. El tiempo de respuesta para un estimulo tiene una distribución normal con media = 46,
= 4. ¿Qué porcentaje de valores están?
6.1. Variables aleatorias continuas 93
(a) i. P (80 X 92), ii. P (71 X 80), iii. P (X 92), iv. P (X 56), iv.
1 P (65 X 98),
(b) i. 1 P (66 X), ii. 1 P (X 104), iii. P (53 X 59), iv. P (X = 80).
4. Supongamos que X es una variable aleatoria con una distribución normal con media y
desviación estándar . Calcula:
(b) P (X 64)
5. El tiempo en que el cajero bancario tarda en atender a los clientes tiene una distribución
normal con media = 10 minutos y desviación estándar = 2 minutos.
94 6. Distribuciones de probabilidad continua
6. En estudios realizados por una
rma para medir el coe
ciente intelectual de las personas
que solicitan un empleo, hay una distribución normal con media y desviación estándar .
(c) ¿Qué porcentaje de las personas muestra un coe ciente intelectual entre 80 y 120?
7. El número de calorías de una sopa en un menú se distribuye como una normal con media
200 y desviación estándar de 5. Encuentra la probabilidad de que la sopa contenga:
8. En un restaurante sirven manzanas como postre. El peso de ellas muestra una distribución
normal con media 60 gramos y una desviación estándar de 0.8 gramos. ¿Cuál es la pro-
babilidad de que a la siguiente persona que se le sirva una manzana, el peso de ésta sea de
50 gramos?
9. Las cali
caciones de admisión presentan una distribución normal con media 500 y desviación
estándar de 100. Encuentra la probabilidad de que un estudiante:
(d) Si la escuela admite a los que sólo tienen una cali
cación mayor a 670, ¿cuál es la
proporción de los estudiantes que pueden ser admitidos?
(e) ¿En qué límite se debe
jar la cali
cación si el 50% de los estudiantes deben ser
admitidos?
(f) ¿Cuál debe ser la cali
cación límite si el tope de admisión es del 15% de estudiantes?
6.1. Variables aleatorias continuas 95
(b) P (Z 1:96)
12. Encuentra los percentiles 0.05, 0.01, 0.10, 0.025, 0.90, 0.95 y 0.68 en una distribución
normal estándar.
96 6. Distribuciones de probabilidad continua
Capítulo 7
Galería de distribuciones*
(*) Opcional
W e(; )
97
98 7. Galería de distribuciones*
Figura 7.1: Distribución Weibull W ei(2; 1) y cálculo de probabilidad ilustrada por la grá
ca y
la tabla.
Observaciones: Esta función de densidad puede tener gran variedad de formas con una o dos
colas.
2
1 1 2 1 2 1
= 1+
= 2 1+ 1+
p
donde es la distribución gama, (1) = 1; 1
2
= ; (n) = (n 1) (n 1) y si n es entero
(n) = (n 1)1 :
En la Figura 7.1 se observa la distribución Weibull W ei(2; 1); a la derecha de la grá
ca se ha
puesto la tabla para el cálculo de probabilidades de esta distribución. En ésta se ilustra, en la
grá
ca, el cálculo de la probabilidad para X mayor a 1.731 es decir P (X 1:731) = 0:0499: Con
7.1. Ideas Generales: distribución de probabilidad 99
Figura 7.2: Cálculos de la probabilidad para más de 1000 horas -izquierda, y del valor de X para
una probabilidad de 0.1 -derecha.
la tabla se obtiene la probabilidad entre los valores de 0.85 y 1.74, P (0:85 X 1:74) = 0:437:
Usando esta distribución, observe para los siguientes valores del parámetro de forma = 0:5; 1;
1:5; 3; 4 con = 1: Esto indica la variedad de formas de la función densidad Weibull y con ello
la exibilidad del modelo para caracterizar datos de algún proceso.
Ejemplo 1
Solución
1
x e x
()
1 e x
g(x : ; ) = x para x > 0:
()
Nota 2
Si = n=2; n es un entero positivo y = 1=2 es la función densidad de la gama, entonces se
tiene una distribución Ji (Chi) cuadrada, distribución que se ilustra en el siguiente capítulo.
La media y la varianza se expresan respectivamente por
Ejemplo 2
= y 2 = 2
Encontrar P (3:28 < X 25:2) si X tiene una distribución gama con = 3 y = 0:25: Ver
en la Figura 7.3 la solución.
1 1
= y 2 = 2
Vea el grupo de distribuciones en CalEst y seleccione la exponencial, observe las diferentes
formas para distintos valores de ; por ejemplo = 0:5; = 1; = 1:5; = 2:
Ejemplo 3
Solución
( + ) 1
f (x; ; ) = x (1 x) 1
() ()
= , 2 = 2
+ ( + ) ( + + 1)
Nota
Cuando = se tiene una distribución simétrica. Un caso particular se presenta cuando
= = 1; en este caso se obtiene una distribución uniforme U(0; 1):
Ejemplo 4
Usando la distribución Beta del grupo de distribuciones en CalEst. Haga las grá
cas para la
función densidad de esta distribución para observar los siguientes casos:
1
para x ;
f (x) =
0 para x < o x > ;
b+a (b a)2
= , 2 =
2 12
b a
P (a < X < b) =
Ejemplo 5
Solución
Observe la Figura 7.6, las soluciones son: a) 0:7; b) 0:3; c) 0:5; d) 0:4:
7.1. Ideas Generales: distribución de probabilidad 105
Ejercicio
Observe la distribución lognormal para = 1: Observe los casos para = 0:2; = 0:3 y = 0:5
e (x )=
f (x; ; ) = (x )= )2
(1 + e
= posición, = escala.
Ejercicio
Distribuciones 2, t, F +
8.1 Distribución 2
Si Z1 ; Z2 ; :::Zn son variables normales estándar independientes, entonces se dice que la variable
de
nida por
= Z 2 + Z22 + ::: + Zn2
tiene una distribución Ji (Chi) cuadrada con n grados de libertad. Se denota s 2n para indicar
que tiene una distribución Ji cuadrada con n grados de libertad.
Por ejemplo, una compañía produce bolsas de cacahuate, el proceso genera miles de bolsas
cada una debe tener el mismo peso. Sin embargo existe una variación en el peso de cada bolsa, la
cual debe ser baja. Si la población de pesos tiene una distribución normal, en este caso se desea
hacer inferencia estadística sobre la varianza o desviación estándar, como se verá mas adelante.
Para llevar a cabo esta inferencia, es necesario determinar los valores críticos en la distribución
con n
2
1 grados de libertad.
En esta dirección se especi
ca un valor tal que (0 < < 1) y se calcula alguna de las
siguientes tres probabilidades: P (2 > 2 (; n 1)) = ; P (2 (1 ; n 1) < 2 ) = o
P (2 (1 =2; n 1) < 2 ) = =2; P (2 (=2; n 1) > 2 ) = =2: Estos se calculan usando el
CalEst.
107
108 8. Distribuciones 2 , t, F +
Ejemplo 1
Solución
Los grados de libertad son n 1 = 24 1 = 23: La grá
ca de la Figura 8.1, CalEst, muestra
una 2 con 23 grados de libertad y un área sombreada (probabilidad) de = 0:10 en la parte
derecha. 2 = 32
8.1. Distribución 2 109
Ejemplo 2
Solución
Los grados de libertad son n = 12 1 = 11:La grá
ca de la Figura 8.2, CalEst, muestra una 2
con 11 grados de libertad y el área sombreada a la izquierda de = 0:05: Así el área a la derecha
es 1 =1 0:05 = 0:95: 2 = 4:571
Ejemplo 3
Solución
Figura 8.3: Valores críticos de la distribución Ji cuadrada con un área del 95%.
Ejercicios
1. En cada uno de los siguientes casos 2 (0:01; n 1); 2 (0:025; n 1); 2 (0:95; n 1) y
2 (0:99; n 1):Encontrar estos valores de 2 con los siguientes grados de libertad (gl): a.-
gl = 9; b.- gl = 15; c:- gl = 25:
3. Considerando gl = 18; calcule las siguientes probabilidades: a: P (2 > 25:989) b: P (2
7:015) c: P (7:015 < 2 < 9:390) d: P (10:865 < 2 < 28:869)
6. Encuentre el valor crítico de 2 para dos colas cuando n = 19 y = 0:05: Es decir encuentre
el valor 2D con 12 y el valor 2I con 1
2
:
8. Si X tiene una distribución 2 con gl = 5; determine las constantes c y d tal que P (c <
X < d) = 0:95 y P (X < c) = 0:025:
8.2 La distribución t
En la vida real para realizar estudios usando la distribución normal, se requieren muestras su
-
cientemente grandes (n 30): Esta situación no es práctica, una alternativa para hacer inferencia
sobre la media es usar la distribución t: Si Z y 2n 1 son variables aleatoria independientes,
donde Z tiene una distribución normal estándar y 2 sigue una distribución Ji cuadrada con
n 1 grados de libertad entonces se dice que la variable aleatoria de
nida por:
Z
Tn 1 =p 2
n 1 =(n 1)
Ejemplo 4
X
t= p
S= n
2. La distribución t es una familia de curva cada una es determinada por un parámetro llamado
grados de libertad. Los grados de libertad son igual al tamaño de la muestra menos uno,
gl = n 1:
= P ( Tn 1 tc ) = P (Tn 1 tc ) = 1 P (Tn 1 tc )
Por lo que
P (Tn 1 tc ) = 1
tc ( 1; n 1) = t( 1; n 1)
Ejemplo 5
Solución
Ejemplo 6
Solución
Ejemplo 7
Encontrar los valores críticos t0 y t0 para las colas derecha e izquierda respectivamente de la
distribución t, con = 0:05 y n = 26:
Solución
Ejercicios
8.3 La distribución F
Si 2(n) y 2(m) son variables aleatorias Ji cuadrados con n y m grados de libertad respectivamente,
entonces se dice que la variable aleatoria F (n; m) se de
ne por:
2(n) =n
F (n; m) =
2(m) =m
Ejemplo 8
El valor de está entre 0 y 1 (0 < < 1); la distribución F cumple con la propiedad
1
F (1 ; n; m) =
F (; m; n)
(a) Valor de cola derecha, describe la probabilidad a la derecha del punto FD (n; m), es
decir: P (F (n; m) > FD (n; m)) =
(b) Valor de cola izquierda; se obtiene la probabilidad a la izquierda del punto FI (n; m)
1
FI (n; m) =
FD (m; n)
Ejemplo 9
1 1
FI (1 0:05 = 0:95; 6; 3) = = = 0:210
F ( = 0:05; 3; 6) 4:757
Nota. Dada esta propiedad en los libros de estadística, generalmente aparecen los valores de
la distribución F a la derecha.
Una ventaja usando el CalEst es que usando los cursores, puede obtener rápidamente los
valores críticos de F a la izquierda de y a la derecha de :
Caso 2. glN = 6 glD = 3 FD ( = 0:05; 6; 3) = 8:940
1 1
FI (1 0:05 = 0:95; 3; 6) = = = 0:11183
F ( = 0:05; 6; 3) 8:940
Ejercicios
F (0:025; 7; 5); F (0:1; 3; 8); F (0:05; 5; 7); F (0:9; 5; 7); F (0:01; 10; 12): Use las
grá
cas y tablas de la distribución F del CalEst.
3. Encontrar el valor crítico derecho de FD cuando los valores de son: = 0:05; = 0:025;
= 0:01 y = 0:005 respectivamente, donde los grados de libertad son: glN = 6 y
glD = 29: Para estas condiciones encontrar el valor crítico a la siguiente FI :
4. Encontrar las probabilidades a la derecha de F = 5:40 para los tres siguientes pares de
grados de libertad i. glN = 4 y glD = 40; ii. glN = 6 y glD = 29; iii. glN = 10 y glD = 12:
5. Si F0 = 4:83 con glN = 4 glD = 8 encontrar las probabilidades P (F (4; 8) > 4:83);
1
P ( F (8;4) < 0:97):
Capítulo 9
Estimación estadística
La inferencia estadística es una herramienta muy útil para resolver una gran cantidad de cues-
tiones que se presentan en la vida cotidiana, en el desarrollo tecnológico y en la investigación
cientí
ca. Los problemas citados en la entrada de esta unidad son ejemplos típicos de inferencia
estadística.
En el primer caso, las personas forman un conjunto grande de individuos. A éste se le
denomina población. Para tomar decisiones adecuadas en la dieta alimenticia, es necesario
conocer si un producto alimenticio ayuda en promedio a reducir el IMC -índice de masa corporal-.
Se toma una muestra de personas obesas con la idea de que el promedio de la reducción del IMC
en esa muestra sea una buena estimación del promedio de reducción en toda la población. De
esta manera, se podría decir que el tratamiento para adelgazar fue en promedio efectivo.
En la Figura 9.1, se ilustra una población de personas y en el círculo se describe la muestra.
La esencia de la inferencia estadística es adquirir conocimiento sobre una población a través de
la información proporcionada por la muestra, y así extraer conclusiones generales sobre el objeto
de estudio.
Para hacer inferencia estadística acerca de la media de la población, debemos comprender
el comportamiento de la media muestral X. El enfoque de esta unidad es comprender cómo
funciona la X para obtener un conocimiento aproximado de la media poblacional.
En la Figura 9.2, el círculo grande representa la población objeto de estudio y el pequeño
se re
ere a la muestra que se toma de la población. En realidad, el círculo de la muestra debe
estar dentro de la población como se indica en la Figura 9.1, pero mediante esta grá
ca puede
visualizarse la relación entre probabilidad e inferencia estadística.
En resumen, necesitamos aprender a calcular la verosimilitud de una muestra particular
seleccionada de una población. En ese sentido, lo que estamos haciendo es recorrer el camino de
119
120 9. Estimación estadística
la población a la muestra, como la echa de arriba en la Figura 9.2. Sin embargo, nuestra meta
nal es ir de la muestra a la población, esto es, hacer lo que representa la echa de abajo de la
Figura 9.2. Con ello, decimos que se usa la información de la muestra para elaborar a
rmaciones
en términos de probabilidad sobre el comportamiento de la población. Esta temática es un fuerte
componente con temas relacionados con la investigación, se hace un breve resumen de elementos
relacionados con esta área.
Investigación
Tanto las ciencias sociales como las ciencias naturales inician la investigación de una forma
controlada, sistematizada, crítica, con el
n primordial de aprobar o desechar hipótesis como
explicativas de los fenómenos del comportamiento del ser humano. Su punto de partida está
también en la observación de los hechos, en la formulación del problema, en la estructuración de
la hipótesis y en la búsqueda de pruebas para confrontar esas hipótesis, con el
n de establecer
una ley o norma explicativa de la conducta social de los individuos (Tamayo, 2002).
Investigación descriptiva. Se re
ere a la etapa preparatoria del trabajo cientí
co que permita
ordenar el resultado de las observaciones de las conductas, las características, los factores, los
procedimientos y otras variables de fenómenos y hechos. Este tipo de investigación no tiene
hipótesis explicada.
Investigación analítica. Es un procedimiento más complejo con respecto a la investigación
descriptiva, que consiste fundamentalmente en establecer la comparación de variables entre gru-
pos de estudio y de control sin aplicar o manipular las variables, estudiando éstas según se dan
naturalmente en los grupos. Además, se re
ere a la proposición de hipótesis que el investigador
trata de probar o negar.
Investigación experimental. Es un procedimiento metodológico en el cual un grupo de
individuos o conglomerado, son divididos en forma aleatoria en grupos de estudio y control y
son analizados con respecto a un factor o medida que el investigador introduce para estudiar y
evaluar.
Una cuestión de suma importancia para los profesionistas que acaban de egresar de la universidad
y están en busca de empleo es el salario.
Una universidad le encargó a una empresa que realiza estudios de mercado una encuesta para
saber, entre otros factores, el salario percibido por las personas que terminaron hace tres años o
menos la carrera de ingeniero industrial en diferentes universidades. En este caso la población de
9.1. Parámetro y estimación 121
interés la forman todos los ingenieros industriales que egresaron de las universidades en México
y tienen tres años o menos de haber egresado y están trabajando.
El salario establece el centro de las relaciones de intercambio entre las personas y las organiza-
ciones. Todas las personas dentro de las organizaciones ofrecen su tiempo y su fuerza de trabajo
a cambio de dinero. Esto representa el intercambio de una equivalencia entre derechos y obliga-
ciones recíprocas entre el empleado y el empleador. Varias preguntas surgen para conocer los
niveles de salarios: ¿Qué tan competitivo es el salario de un ingeniero industrial recién egresado?
¿Cómo es este salario con respecto a otras profesiones? ¿Existen empresas que pagan mejor que
otras?
Recopilación de datos
Con el
n de plantear la idea establecida entre los datos de una población y el procedimiento
para obtener una muestra y a partir de ella, realizar la inferencia estadística sobre la población.
Consideremos una población de 50 ingenieros industriales y su salario. En la Figura 9.3 se
identi
ca con ID a los 50 ingenieros para facilitar el procedimiento de extracción de la muestra.
Recordemos que a partir de la información de la muestra pueden conocerse las características
de la población. En este caso, se considera una población pequeña donde se puede calcular su
media y desviación estándar (puedes ejecutar este cálculo en el paquete estadístico que viene en
el CD). La media y la desviación estándar para esta población pequeña N = 50 son:
= 6170 y
= 972
El objetivo es observar que cuando se toma una muestra, ésta nos aproxima al valor real de
la media poblacional; en la pr
actica este valor es desconocido:
La media y la desviación estándar para la muestra son X y S , respectivamente. Así,
para estimar la media de la población con la media de la muestra se realiza lo siguiente:
Las preguntas centrales en este caso son: ¿Qué tan pequeño es el error? ¿Con qué con-
anza obtenemos el resultado? Con el propósito de motivar estas ideas se plantea una estrategia
para seleccionar la muestra.
Procedimiento
Metemos en un caja 50 papeles numerados del 1 al 50 y seleccionamos varias muestras de tamaño
n = 5. Los cinco papeles que salieron para la muestra son: 18, 41, 40, 45, 22 y los salarios
correspondientes son: 4940, 6040, 6350, 5760, 5490. Por lo tanto, la media muestral es:
El desarrollo matemático es más sencillo si las observaciones son independientes. En esta unidad
se va a suponer el muestreo aleatorio con reemplazo, al cual también suele llamarse muestreo
aleatorio simple.
Ejemplo 1
Solución
a) En la columna 1 de la Tabla 9.1 se ha reproducido la muestra que se obtuvo en el problema. Las
siguientes muestras fueron seleccionadas mediante el muestreo aleatorio simple. En los últimos
dos renglones se han calculado X y X .
9.2. Distribución muestral de la media muestral 125
b) Ahora extraemos de la caja con reemplazo 10 papeles y anotamos el número que corres-
ponde al salario. Las muestras y los valores seleccionados de 5 muestras de tamaño n = 10 y el
cálculo de X y X , se presentan en la Tabla 9.1.
c) Observemos que la discrepancia entre la media muestral X y la media poblacional es
menor cuando la muestra es de mayor tama~
no: ¿Qué piensas que ocurriría si se aumentara el
tamaño de la muestra? ¿Por qué?
d) Usa el generador de números aleatorios que se presenta en el CalEst.
La dirección de una escuela desea dar seguimiento durante el año al aprendizaje global de sus
alumnos. Para ello, cada semana aplica una evaluación a una muestra de 10 estudiantes. Dicha
evaluación consiste en un examen de conocimientos generales y se evalúa en una escala de 0 a
100. Por experiencia, se sabe que la media es = 60:5 y la desviación estándar es = 10:5 .
Preguntas sobre la naturaleza del problema
¿Cómo puede haber un conocimiento continúo del desempeño de los alumnos sin la necesidad
de aplicar una evaluación a todos los estudiantes? ¿Cuál es la precisión de la información si
aumenta el número de estudiantes evaluados? ¿Qué información proporciona la media en cada
muestra para contar con una idea clara del aprovechamiento de los alumnos?
Recopilación de datos
Figura 9.4: Grá ca que describe la muestra de cali caciones para 10 alumnos durante 12 semanas.
1. Para la primera semana seleccionar una muestra de 10 alumnos y calcular la media de las
cali
caciones.
Análisis de la información
1. La muestra de n = 10 fue: 71, 62, 66, 51, 65, 67, 47, 60, 50 y 58. La media muestral para
este conjunto de datos es:
71 + 62 + 66 + 51 + 65 + 67 + 47 + 60 + 50 + 58
X= = 59:7
10
2. En la Figura 9.4 se describe la muestra para cada una de las 12 semanas. Los signos +
indican el valor de la media muestral en cada semana. En la Figura 9.4 se puede observar
que en la semana 1 las cali
caciones fueron bajas y el promedio, en este caso, lo reeja.
En la semana 2, por el contrario, las cali
caciones fueron altas. Con el
n de observar la
discrepancia de la estimación con respecto al parámetro, se traza la media como se ve
en la Figura 9.5. Ahí se puede observar que, salvo en las muestras 1 y 2, las medias de las
muestras están muy próximas a .
3. En la Tabla 9.2 se presentaron los valores de las medias en cada muestra. En la Figura 9.6
se describe el diagrama de puntos para estas medias.
9.2. Distribución muestral de la media muestral 127
Figura 9.5: Grá
ca que ilustra las medias de las muestras de cali
caciones para 10 alumnos y su
referencia con la media poblacional.
Ejemplo 2
Solución
Para examinar la distribución de X con diferentes tamaños de muestra se usa la información del
ejemplo anterior. En el primer caso, se obtienen 120 muestras de tamaño n = 6 y se calculan las
medias. La distribución de esas 120 medias se ilustra en el primer histograma de la Figura 9.7,
donde se puede observar la variación de esta distribución.
En el segundo histograma se describe la distribución de X para 120 muestras de tamaño
n = 24. Como se advierte en esta situación, existe menor variación con respecto a la distribución
anterior. Finalmente, se aumentó el tamaño de la muestra a 100, y la distribución de X se
presenta en el tercer histograma. Ahí se observa que los valores de la media muestral están más
próximos al valor de la media .
128 9. Estimación estadística
Figura 9.6: Diagrama de puntos que ilustra la distribución de las medias muestrales.
Es claro que la dirección de la escuela adquiere mayor conocimiento de lo que ocurre con sus
alumnos en la medida en que el tamaño de la muestra crezca, pero desde luego tendría que gastar
más recursos y tiempo para obtener esa información.
Resultado teórico
x
x
x =
y
x = p
n
En esta última expresión revela que la desviación estándar disminuye en la medida que el
tamaño de la muestra crece.
Ejemplo 3
Solución
La expresión x = p
n
relaciona la desviación estándar de la media muestral X , la desviación
estándar de la variable X y el tamaño de muestra n. Con la información proporcionada por
los datos se necesita conocer el valor de . Así, la expresión x = pn se puede escribir como
p
= n x ; o 2 = n 2x . Sustituyendo los valores se tiene que 2 = 10 92 = 810 .
Para encontrar un valor del tamaño de muestra se requiere tener los valores de las desviaciones
2
estándar y x , esto es, n = 2.
x
Entonces, el tamaño de muestra si se desea reducir x a 4.5,
es:
2 810
n= 2
= = 40
x (4:5)2
Práctica
La
nalidad es ilustrar cómo emplear la distribución normal en el CalEst para mostrar la relación
entre la varianza 2 de la distribución de la variable X y la varianza 2X distribución de la variable
X: Información: se tiene que 2 = 729 ( = 27); n = 9, por lo tanto 2X = 81 ( x = 9): La
Figura 9.8 extiende la idea de la Figura 9.7. La grá
ca de la derecha en la Figura 9.8 muestra
la normal con ( = 60; = 27) y la de la izquierda es una normal con (x = 60; x = 9)
distribución muestral. A partir de esta descripción se pueden realizar varios ejercicios para
estudiar y comprender esta relación. Esta práctica será de mucha utilidad para comprender los
conceptos que exponen diferentes libros sobre inferencia estadística, y reproducir la descripción
grá
ca que presentan sobre la distribución normal, la normal estándar y la t-Student.
Resultado técnico
Si las mediciones de X vienen de una distribución normal, se sigue que la distribución muestral
de X también es normal, Figura 9.8.
En el proceso de estandarizar, ésta se puede escribir como una normal estándar. Como se
indica por la siguiente expresión:
X x X
z= =
x p
n
9.3. Teorema de límite central 131
Ejemplo 4
Solución
!
X x X 5:10 5:30
P (X 5:10) = P = = = P (z 2:5)
x p 0:08
n
Puesto que z es una variable normal estándar, su probabilidad la podemos obtener usando
el paquete estadístico o las tablas de probabilidad. En este caso se encuentra que un valor
P (z 2:5) = 0:006 , lo que indica que hay pocas posibilidades de obtener una media muestral
por debajo de 5.10; por lo tanto, el nuevo proceso no afecta el pH.
Figura 9.9: Ilustración de la distribución muestral para diferentes tamaños de muestra cuando
la población original no tiene una distribución normal.
Este resultado es muy apropiado, dado que especi
ca la distribución X para muestras grandes.
Por lo general, desde un punto de vista práctico es su
ciente con que el tamaño de n sea de 20 o 30
para considerar la distribución de X como normal. Recurriendo a la simulación por computadora,
en la Figura 9.9 se muestran algunos casos.
En referencia a la Figura 9.9, se observa la forma de la distribución de la población examinando
un histograma de las observaciones en la muestra. En el primer caso se presenta una distribución
triangular. Si se selecciona una muestra de tamaño n = 1, la forma de la distribución muestral
dada por el histograma es similar a la de la población. Si el tamaño de muestra n crece, la
distribución de X se aproxima a una normal.
Una situación similar ocurre cuando la distribución de la población es uniforme. Si la muestra
es de tamaño n = 1, el histograma reproduce la distribución original. Si n crece, la distribución
de X se aproxima a una normal.
Ejemplo 5
Una empresa que manufactura aparatos eléctricos efectúa pruebas de habilidad y destreza durante
el proceso de contratación de personal. La cali
cación de esas pruebas conforman una población
con una media = 100 y desviación estándar = 32 . ¿Cuál es la media x y la desviación
9.3. Teorema de límite central 133
Solución
x = y x = p
n
Ejercicio 1
Una población normal tiene media 200 y desviación estándar 100. Suponga que la distribución
de la media muestral es generada por muestras de tamaño n = 100. a. Encuentre el valor de x .
b. Encuentre x . c. Encontrar P (195 X 205): d. Encontrar P (X > 210): e. Si un valor de
X es seleccionado, encontrar P (195 X 205): Compare con el inciso c. f. Si un valor de X
es seleccionado, encontrar P (X > 210): Compare con el inciso d.
Ejercicio 2
Repita el ejercicio si n = 400: ¿Qué observa con respecto a las probabilidades en los incisos c y
d en los ejercicios 1 y 2?
Ejercicio 3
Una población normal tiene media 200 y varianza 144. Suponga que la distribución de la media
muestral es generada por muestras de tamaño n = 36. a. Encuentre los valores de x . y x . b.
Obtener P (320 X 322): c. Obtener P (X > 323): d. Obtener P (321 < X < 327):
Figura 9.10: P (42 X 78) ' 0:95, el caso de dos desviaciones alrededor de la media, esta
varia para diferentes valores de n:
estándar de la media. Mientras que 95% cae dentro de dos desviaciones estándar de la media y
99.7% cae dentro de tres desviaciones estándar de la media.
Con respecto a la variable aleatoria X, se puede advertir que 68% de las veces observaremos
una media muestral que cae dentro de una desviación estándar de una media poblacional
desconocida. De manera similar, 95% de las veces observaremos una media muestral que cae
dentro de dos desviaciones estándar de , y 99.7% de las veces observaremos una media muestral
que cae dentro de tres desviaciones estándar de . Esta idea da lugar al concepto conocido como
intervalo de con
anza o una estimación por intervalo, que se verá más adelante.
Una de las aplicaciones más importantes del teorema del límite control, es su relación con las
variables aleatorias normales. Considere la variable aleatoria binomial X con parámetros (n; p);
donde X representa el número de éxitos que n ensayos independientes con probabilidad de éxito
p cada uno de ellos. La variable X se expresa como:
X = X1 + X2 + ::: + Xn
9.3. Teorema de límite central 135
Figura 9.11: Distribución binomial para p = 0:3, para diferentes valores crecientes de n:
donde
1 si el ensayo i-ésimo es un éxito
Xi =
0 si el ensayo i-ésimo es un fracaso
X np
p ;
np(1 p)
para n grande, será aproximadamente una variable normal estándar. Esta situación se puede
ilustrar de manera visual, utilizando el CalEst.
Ejemplo 6
Ilustre en la opción de distribuciones en CalEst, la distribución binomial con (n; p) = (10; 0:3);
varíe esta distribución haciendo crecer n; por ejemplo (20; 0:3); (30; 0:3); (60; 0:3):Esta situación
se ilustra en la Figura 9.11.
Nota. Se pueden ilustrar varios casos combinados p y poniendo diferentes valores n; tal que
n vaya creciendo.
136 9. Estimación estadística
Figura 9.12: Ilustra el teorema de límite central, distribución uniforme n = 1, luego con n = 9:
Ejercicio 4
En una escuela el 60% de los estudiantes no recibe atención médica, se selecciona una muestra
de 150 estudiantes. Si la variable aleatoria X -no recibe atención médica- tiene una distribución
binomial. Estime la probabilidad de que a. X está entre 82 y 101. b. X mayor que 97.
Ejercicio 5
Una encuesta realizada en una ciudad, a gran escala, revela que el 30% de la población adulta
consume regularmente bebidas alcohólicas durante la comida. Considerando esta proporción,
¿cuál es la probabilidad de que de 1000 entrevistados el número de consumidores de bebidas
alcohólicas sea a. menor a 280, b. 316 o más?
Práctica
1. Lanzar un dado 10 veces, registrar el número x que muestra el dado al caer. Calcule la
media.
1 6 3 2 2 5 1 4 4 1 3 3.1
2. Repita este procedimiento 24 veces. Haga el histograma para las 25 medias. Calcule la
media y la varianza de estos 25, medias, datos.
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Nota. El modelo probabilístico al lanzar un dado, tiene una distribución uniforme P (X) = 16 ;
X = 1; 2; 3; 4; 5; 6 con media
6
X
1 1 1 1 1 1
= Xi P (Xi ) = 1 +2 +3 +4 +5 +6 = 3:5
i=1
6 6 6 6 6 6
138 9. Estimación estadística
6
X 6
X
2 = (Xi )2 P (Xi ) = Xi2 P (Xi ) 2 =
i=1 i=1
1 1 1 1 1 1
1 +4 +9 + 16 + 25 + 36 (3:5)2 = 2:92
6 6 6 6 6 6
así
p
= 2:92 = 1:71
1:71
x = = 3:5; x = p = p = 0:54
n 10
¿Qué tan aproximados son estos valores con los estimados en la práctica?
Ejemplo 8
Suponga que el peso X de un adulto hombre se distribuye como una normal con media = 77
kg., y = 9 kg. Es decir X N (77; 92 ): Si tomamos una muestra de 16 adultos. ¿Cuál es la
probabilidad de que la media caiga entre 73 y 82 kgs? Observe esta situación y haga los cálculos
usando el CalEst.
Usando el programa con la distribución normal con media 77 y desviación estándar p916 = 2:25
se obtiene que P (73 X 82) ' 0:949; para normal estándar: P ( 1:778 Z 2:222) ' 0:949:
Si se calcula la probabilidad que un adulto seleccionado al azar tenga un peso entre 73 y 82
kg.
P (IN SU ) = 1
Detalles técnicos
Para hallar el intervalo de con
anza necesitamos calcular los valores de los límites inferior IN
y superior SU . Como sabemos, la X calculada de la muestra no será exactamente igual a la
media; por tanto, lo primero que debe hacerse es establecer el tamaño de un cierto margen de
error (e), conocido como error muestral, así:
=X e
De esta manera, los límites inferior y superior del intervalo de con
anza son:
140 9. Estimación estadística
IN = X e
SU = X + e
Recordemos que para cubrir 95% de los valores de una distribución normal se tiene que:
Considerando la distribución muestral de X se tiene que ésta en forma de una normal estándar
se escribe como:
X
z= p
= n
P (X 1:96 p X + 1:96 p ) = 0:95
n n
e = 1:96 p
n
Por consiguiente, los límites inferior y superior son:
IN = X 1:96 p SU = X + 1:96 p
n n
Una expresión general para el error (e), también conocido como precisión, éste se expresa
por:
e = z=2 p o e = t=2 p (9.1)
n n
Ejemplo 9
En el estudio del tiempo de respuesta para resolver un rompecabezas sobre la República Mexi-
cana, aparece en la columna tiempo del archivo: est.tab contenido en la opción de herramientas
del programa. Se desea estimar un intervalo del 95% con
anza, en este caso como el tamaño
de muestra es mayor que 30, se puede usar la distribución normal estándar z. En el grupo de
inferencia aparece la alternativa de intervalos de con
anza, al seleccionarla aparece una tabla
como la que se muestra a la izquierda en la Figura 9.13 se completan los cuadros en blanco, se
da aceptar a continuación se proporciona el resultado.
Note que las elecciones Múltiple niveles permite observar el tamaño del intervalo según los
niveles de con
anza que se utilicen y Múltiple desviaciones permite considerar otros intervalos
en términos a la desviación estándar. Estas observaciones están relacionadas con la expresión
(9.1). Compruebe que la longitud de los intervalos también dependen del tamaño de muestra
n, a medida que n crece, se cuenta con mayor información la precisión de los intervalos es
mejor.Veri
que estas diferentes situaciones usando el programa.
142 9. Estimación estadística
Capítulo 10
Inferencia estadística
10.1 Presentación
La inferencia estadística es un procedimiento cuyo objetivo es generar una conclusión sobre
una población, mediante la información que proporciona una muestra seleccionada de datos. Una
rama importante de la inferencia es la prueba de hipótesis. Éste consiste en un procedimiento
para seleccionar entre dos hipótesis, conocidas como hipótesis nula e hipótesis alternativa. Una
hipótesis es una a
rmación que expresa el valor del parámetro de una población, por ejemplo
la media poblacional : En la prueba de hipótesis, la idea es dar el bene
cio de la duda a la
hipótesis nula, si el valor del parámetro es razonable. La hipótesis nula se rechaza solo si los
datos de la muestra indican que el valor del parámetro es no razonable, esto se verá con mas
detalle en el análisis de datos. Formalmente:
Hipótesis nula, es una proposición que indica que no hay diferencia (no hay efecto, no hay
cambio). Ésta se plantea usualmente en términos del parámetro (medida de la población) y
contiene el signo igual, ésta se denota por H0 .
Hipótesis Alternativa, es una a
rmación que indica la verdad del parámetro en lugar de
la hipótesis nula. Usualmente se expresa con los símbolos <; > o 6=. Éste se denota por H1 :
143
144 10. Inferencia estadística
las persona reaccionan de manera lenta ante este tipo de situaciones, en este caso suponen que
el tiempo de respuesta es menor a 130 segundos. En este estudio las hipótesis son:
H0 : = 130
H1 : < 130
Los investigadores aplicaron la foto a 120 personas los resultados obtenidos: X = 124:8 y
una desviación estándar S = 38:6, lo que genera un error estándar pS
n
= 3:52: La idea del
procedimiento para realizar la prueba de hipótesis se describe en la Figura 10.1. A la derecha
se ha descrito la normal con media 130 y desviación estándar 3.52 que caracteriza a la hipótesis
nula. A la izquierda, con el
n de
jar ideas, se ha considerado una normal con media 120
y desviación estándar 3.52 que representa a una de las alternativas posibles. Se determinó un
umbral, X = 124:21; punto de referencia, en lo sucesivo se llamará punto crítico, que permitirá
establecer una estructura probabilística para no rechazar o rechazar la hipótesis nula y, en lo
sucesivo, tomar una decisión. Por ejemplo, decir que el valor de x está tan lejos de 130 que
es improbable, se dice que ese valor tiene una probabilidad baja. Esta probabilidad se conoce
como nivel de signi
cancia de la prueba. Este se denota por ; probabilidad de rechazar una
hipótesis nula verdadera: observe el área a la izquierda de la distribución normal derecha (color
rojo), y cambia de una prueba de hipótesis a otra. Note que:
Observe cómo las grá
cas de la Figura 6.1 describen las situaciones posibles y las decisiones
potenciales relacionadas en la prueba de hipótesis. La grá
ca sugiere dos tipos de errores al
realizar la prueba, el área a la izquierda del punto crítico bajo la hipótesis nula indica que se
10.2. Prueba de hipótesis: utilizando el CalEst 145
Figura 10.1: Grá
cas de la función normal para la hipótesis nula y una alternativa
jada con
anterioridad.
rechaza H0 cuando en realidad H0 es verdadera. El otro, el área a la derecha del punto crítico
considerando la hipótesis alternativa indica que no se rechaza H0 ; en realidad, H0 es falsa. En
resumen:
Hipótesis nula
Decisión H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta : Error tipo II
Rechazar H0 : Error tipo I Decisión correcta
1. H1 : < 0
2. H1 : > 0
3. H1 : 6= 0
Las dos primeras se les conoce como pruebas de un lado y la tercera como prueba bilateral.
En un apéndice al
nal de este apartado se muestra un ejemplo de la lógica de la prueba de
hipótesis.
2. Para realizar una prueba de hipótesis en el caso de la distribución normal, aplique esta
distribución en el CalEst:
muestral. Este punto resume todos los siete pasos del procedimiento de la prueba de
hipótesis. Ver ejemplo 1 para captar la idea y luego se puede aplicar a otros ejemplos
y ejercicios.
(c) Una alternativa para realizar una prueba de hipótesis es calcular la probabilidad, nivel
de signi
cancia descriptivo, p = P (X < x) o p = P (X > x): El procedimiento consiste
en comparar éste valor con el nivel de signi
cancia ; si p < se rechaza la hipótesis
nula, no se rechaza en caso contrario, es decir, p > :
3. Use la distribución normal y elabore dos grá
cas de la normal con los parámetros (; )
correspondientes al problema. En la primera use el umbral para referirse al punto crítico,
en la otra ponga el umbral en el valor del estadístico de prueba, analice esta información
grá
ca. Compare los niveles de signi
cancia y p -descriptivo. Nota. Reduzca el tamaño
de las grá
cas para que pueda realizar el estudio.
4. Estas ideas se aplican a pruebas de hipótesis para estadísticos que siguen una distribución
t-Student, F , o 2 .
Ejercicio 1
Del bloque didáctica en CalEst use la opción hipótesis para ilustrar las situaciones : H1 : < 0 ;
y H1 : > 0 para diferentes valores del nivel de signi
cancia y de :
En un proceso de llenado, el peso de bolsas de uvas pasas no debe pesar ni más ni menos de 336
gramos. Para veri
car que el proceso cumple con esta especi
cación el responsable del proceso
toma una muestra de 40 bolsas de un lote de producción. La media del peso de estas bolsas
fue de xm = 329:91 -valor en la muestra-, con una desviación estándar de s = 11 Nota: No se
proporciona el valor de , pero dado que el valor de la muestra es grande, se usará el valor de s
como un estimado, así = 11:
148 10. Inferencia estadística
Solución.
Las hipótesis que se plantean para describir esta situación son:
H0 : = 336
H1 : 6= 336
Para veri
car si los datos apoyan la hipótesis nula con un nivel de signi
cancia de =
0:05(5%):
En la Figura 10.2 se resume el procedimiento de los siete pasos para realizar una prueba
de hipótesis. En ésta, se describen los dos umbrales tanto en la grá
ca cómo en la calculadora
-tabla-, éstos corresponden a una prueba bilateral -dos colas-. En la grá
ca por cuestiones de
compilación se han redondeado los valores. El procedimiento indica que se debe comparar el valor
del estadístico xm = 329:91 con el valor crítico xc = 332:6: En este caso resulta que xm < xc , por
lo que se rechaza la hipótesis nula.
Observación. En la mayoría de los libros de estadística realizan la prueba de hipótesis usando
la distribución normal estándar Z, así construyen el valor del estadístico Zm en función de la
información generada por la muestra y este se compara con el valor de Z considerando el nivel
10.3. Prueba de hipótesis para una media 149
de signi
cancia . Se comparan estos dos valores para evaluar si los datos apoyan la hipótesis
nula. Siguiendo esa línea a continuación se describe el procedimiento.
Bajo el supuesto de que la hipótesis nula es verdadera, se realiza el cálculo del estadístico de
prueba.
Xm 329:91 336
Zm = p = p = 3:5
= n 11= 40
(X Z=2 pn ; X + Z=2 pn )
(329:91 1:96(1:74); 329:91 + 1:96(1:74))
(326:4996; 333:3204)
Nota: Este intervalo no contiene a = 336, lo que con
rma lo dicho por la prueba de
hipótesis.
150 10. Inferencia estadística
Figura 10.3: Descripción de los valores críticos en una prueba de hipótesis bilateral
El proceso operativo de la prueba de hipótesis se puede realizar utilizando CalEst, para ello
hay que ir a la opción: Inferencia, Prueba de hipótesis 1 una media y aparece el cuadro como se
muestra en la Figura 10.4, este se completa con la información generada por los datos muestrales,
enseguida se oprime el botón Aceptar y se despliega la información desarrollada en el ejemplo 1.
La salida de los resultados mediante el CalEst se muestran en la Figura 10.5, en este reporte
se obtiene el estadístico calculado y los valores críticos; de esta manera obtiene la información
para poder concluir si rechazar o no rechazar la hipótesis nula. En esta Figura se destaca la parte
visual del software, a la derecha se ilustra la grá
ca de la distribución normal, sin necesidad de
pasar por el proceso de estandarizar la normal, se ven los valores críticos. Así se tiene que la
media X m = 329:91 es menor que el valor crítico X c = 332:6 y sigue la conclusión ya anotada.
Esta situación esta descrita con más detalle en la Figura 10.2
Se puede observar que en el cuarto renglón de resultados aparece un valor de p, Figura 10.5, éste
corresponde a la probabilidad que deja a la izquierda el estadístico calculado, también denomi-
nado nivel de signi
cancia descriptivo. En símbolos P (Z 3:5) = 0:00046, esta probabilidad
se compara con el nivel de signi
cancia ; esta es otra alternativa para decidir sobre la hipótesis
nula. Por lo tanto si p < , se rechaza H0 , haga las grá
cas en el software para ilustrar los valores
10.3. Prueba de hipótesis para una media 151
Figura 10.4: Descripción del procedimiento para realizar la prueba de hipótesis para una media
usando el CalEst.
de y p use también las tablas para estimar los valores. Note que en el caso de las pruebas
bilaterales se tiene 2 ; en ese sentido se tiene el valor correspondiente de p para los dos lados.
Comentario: así la presentación visual y operativa del procedimiento de la prueba de hipóte-
sis le generará bene
cios en la comprensión de los conceptos y desarrollo de esta metodología
estadística. Este mismo mecanismo se aplica en otras pruebas de hipótesis aplicando estadís-
ticos con base en otras distribuciones de probabilidad; lo que le permitirá evaluar los ejemplos
planteados por otros libros y resolver los ejercicios que éstos proponen.
Ejemplo 2.
Un ingeniero de un proceso de curtiduría plantea que el índice de elongación de una piel, debe
estar arriba de 64 unidades. En una muestra de n = 45 pieles, la media del índice de elongación
es de x = 65:5 y desviación estándar de = 3:5, ésta se escribe en función del parámetro dado
que la muestra es su
cientemente grande.
Solución.
Las hipótesis correspondientes en este ejemplo son:
H0 : = 64
H1 : > 64
El nivel de signi
cancia es = 0:05 ver Figura 10.6, de esta manera la región de rechazo se
establece por:
= P (Z 1:644) = 0:05
152 10. Inferencia estadística
Figura 10.5: Resultados que se obtiene al efectuar una prueba de hipótesis utilizando el CalEst
Por lo tanto el valor crítico es zc = 1:644: El valor estadístico de prueba se obtiene por:
65:6 64 1:6
zm = p = = 3:07
3:5= 45 0:5217
Al comparar zm con zc se observa que zm > zc ; por lo tanto se rechaza la hipótesis nula y
efectivamente el índice de elongación está por arriba de 64 unidades.
Considerando el nivel de signi
cancia descriptivo p se tiene que:
p = P (Z 3:07) = 0:00107
Ejemplo 3.
Una escuela aplica una prueba de 100 preguntas para conocer el conocimiento general de sus
estudiantes. Para ello se tomó una muestra de 45 estudiantes al
nalizar el ciclo escolar de
primaria. El director de la escuela considera que se tiene un nivel bajo si la prueba arroja una
media menor a 70 puntos.
Solución.
Los valores alcanzados en la prueba se resumen por la siguiente información:
H0 : = 70
H1 : < 71
El director quiere ser conservador ante la posibilidad de cometer el error tipo I y propone
el nivel de con
anza = 0:02. Previo al análisis, construya la distribución normal en CalEst
empleando la información proporcionada, con ayuda de la grá
ca y los datos obtenga sus con-
clusiones. Luego compare éstas con los resultados que se dan a continuación.
154 10. Inferencia estadística
68:14 70
zm = p = 1:17
10:34= 42
El valor del punto crítico: = P (Z 2:05) = 0:02: Puesto zm > zc = 2:05; no se rechaza
la hipótesis nula y por lo tanto la escuela no tiene un nivel bajo considerando el criterio del
director. Alternativamente con el nivel de signi
cancia descriptivo:
p = P (Z 1:17)
= 0:12
10:34 10:34
(68:14 2:05 p ; (68:14 + 2:05
42
p
42
(64:429; 71:852)
10.4. Prueba de hipótesis para una proporción 155
Use la distribución binomial en CalEst para observar esta situación, para ello
je un valor de
p e incremente el valor de n. El estadístico de prueba es la proporción muestral pb y el estadístico
de prueba estandarizado es z:
pb pb pb p
z= =p
pb p(1 p)=n
p p
pb z=2 ( pb(1 pb)=n); pb + z=2 ( pb(1 pb=n)
Ejemplo 4.
En un estudio se indica que al menos el 20% de los adultos en una población son alérgicos a un
medicamento. En una muestra aleatoria de 100 adultos de esa población, el 15% indicaron que
son alérgicos. Con = 0:01, hay evidencia para apoyar lo que señaló el estudio.
156 10. Inferencia estadística
Figura 10.8: Ambiente en CalEst para realizar una prueba de hipótesis sobre una proporción.
Solución
La información generada por la muestra es: pb = 0:15; n = 100. Las hipótesis se plantean como
sigue:
H0 : p = 0:2
H1 : p < 0:2
pb p 0:15 0:20
zm = p =p = 1:25
p(1 p)=n (0:2)(0:8)=100
dado que zm = 1:25 < zc = 2:33; se concluye que no se rechaza la hipótesis nula.
10.4. Prueba de hipótesis para una proporción 157
(0:058; 0:242)
Lo que indica que con un 99% de con
anza la población que es alérgicos a los medicamentos está
entre el 6% y 24%. A continuación, en la Figura 10.9, los resultados generados por CalEst
Ejemplo 5.
Con el
n de conocer la memoria a corto plazo un sicólogo realiza una prueba con 200 personas,
para ello le ayudan varios de sus asistentes. La prueba consiste en mostrar una tarjeta con 16
palabras a cada una de las personas por 30 segundos, a continuación se les distrae por un minuto
platicando con los entrevistados. Finalmente se le pide a la persona que diga las palabras que
158 10. Inferencia estadística
Figura 10.10: Descripción de la región rechazo y no rechazo identi cando los puntos críticos
recuerda, para ello se da un minuto. El investigador plantea que el 23% de las personas recuerdan
8 o más palabras. La información que recogieron de las n = 200 entrevistas es que pb = 0:27
recuerdan 8 o más palabras.
Solución
H0 : p = 0:23
H1 = p 6= 0:23
El nivel de signi
cancia que se propone para realizar ésta prueba es de = 0:05; para este
valor de alfa se puede veri
car en CalEst los valores de z; ver Figura 10.10, estos son: z = 1:96
y z = 1:96:
En la Figura 10.10 se observa la región de no rechazo establecida por los puntos críticos
(umbrales), además de manera clásica se obtienen estos mediante una tabla de la distribución
normal estándar = 0 y = 1. El equivalente aquí es usar la calculadora señalada por un aro
en la Figura, al aplicar ésta se generan los valores de los puntos críticos para este caso.
10.4. Prueba de hipótesis para una proporción 159
La parte operativa inicia veri
cando las condiciones que garanticen usar una distribución
normal, es decir: 200(0:23) = 46 5 y 200(0:77) = 154 5: Nuevamente puede recurrir a la
grá
ca de la distribución normal para llevar a cabo el procedimiento de prueba de hipótesis.
El cálculo del estadístico de prueba mediante la normal estándar es como sigue:
pb p 0:27 0:23
zm = p =p = 1:34
p(1 p)=n (0:23)(0:77)=200
Como este valor está entre 1:96 y 1:96 no se rechaza la hipótesis nula. También se concluye
así porque el valor de la probabilidad correspondiente al zm calculado es (p = P (Z zm ) =
0:177), así p > :
El intervalo de con
anza del 95% para este ejemplo se calculan de acuerdo al valor de Z:
p p
pb z=2 ( pb(1 pb=n); pb + z=2 ( pb(1 pb)=n)
p p
0:27 1:96( 0:27(0:73)=200); 0:27 + 1:96( 0:27(0:73=200)
(0:208; 0:332)
Ejemplo 6.
Un médico supone que más del 55% de las personas que viven en una zona cercana a una re
nería
tienen algún problema de salud relacionado con en el aparato respiratorio. Para con
rmar su
supuesto realiza con un equipo de médicos y varios laboratorios 425 pruebas en una localidad y
encontró que 255 padecían un mal respiratorio.
Solución
El médico se plantea las siguientes hipótesis:
H0 : p = 0:55
H1 : p > 0:55
Se desea probar esa hipótesis con un nivel de signi
cancia del 0:05. Se desea calcular el valor
de zc que cumpla P (Z > zc ) = 0:05: Como se ilustra en la siguiente Figura 10.11
160 10. Inferencia estadística
Los datos son pb = 0:60 y n = 425: Se veri
ca que se cumplan las restricciones para satisfacer
la condiciones de normalidad: 425(0:55) = 234 5 y 425(0:45) = 191 5: Nuevamente se
recomienda usar la grá
ca de la distribución normal.
El valor del estadístico es:
pb p 0:6 0:55
zm = p =p = 2:07;
p(1 p)=n (0:55)(0:45)=425
puesto que este valor es mayor que el valor de Z correspondiente a = 0:05; es decir zm =
2:07 > zc = 1:645: Por lo tanto se rechaza la hipótesis nula.
Los intervalos de con
anza (1 )% se calculan de acuerdo al valor de z=2 :
p p
pb z=2 ( pb(1 pb=n); pb + z=2 ( pb(1 pb)=n)
(0:553; 0:647)
Con el 95% con
anza se observa que entre el 55% y el 65% de la población tienen algún problema
en el aparato respiratorio.
10.5. Prueba de hipótesis para una media: 161
3. Usar la opción del umbral con una barra o dos barras de abajo según sea el caso, para
identi
car el valor correspondiente a la distribución t de Student. Si la prueba de hipótesis
es:
Al lado izquierdo
Al lado derecho
Bilateral (en este caso se ve señalado el lado derecho o izquierdo, use =2).
H 0 : = 0
H1 : < 0
x 0
tm =
pS
n
H 0 : = 0
H1 : > 0
x 0
tm =
pS
n
H 0 : = 0
H1 : 6= 0
x 0
tm =
pS
n
Regla de decisión
La idea principal de la prueba de hipótesis es comparar dos números, el valor del estadístico de
prueba con el valor de una distribución de probabilidad (éste se obtiene a partir de un valor de
signi
cancia -probabilidad- establecido por ).
Por ejemplo en una distribución t de Student el valor del estadístico de prueba:
x
tm =
pS
n
Este procedimiento de prueba de hipótesis se puede realizar con CalEst. Se debe tener en
cuenta que el planteamiento de la hipótesis alternativa surge del contexto del problema que se
desea estudiar. Una vez abierto un archivo o creado un nuevo archivo, vaya a la opción inferencia,
enseguida a prueba de hipótesis y seleccione la opción: una media en seguida la t, ver Figura
10.15.
A continuación, en tres ejemplos se ilustra cada caso, para ello se debe crear un archivo por
el lector con los datos que se muestran en los ejemplos. Un archivo se crea en el CalEst en la
opción: Archivo, al abrir ésta aparece una hoja de cálculo en la que puede capturar los datos. A
partir de ahí se pueden realizar las pruebas planeadas.
Ejemplo 7.
La Secretaría de Salud, recomienda que el nivel de colesterol de una persona debe estar por abajo
de 200 miligramos por 100 mililitros. Los datos que se dan a continuación representan la lectura
del nivel de colesterol en una muestra tomada a 16 personas con edad menor a 40 años:
Figura 10.15: Esquema para realizar una prueba de hipótesis t de Student con CalEst
Solución
El planteamiento de las hipótesis son:
H0 : = 200
H1 : < 200
El nivel de signi
cancia propuesto para realizar esta prueba es = 0:05; en la Figura 10.16
se ilustra el valor del estadístico de prueba que corresponde al área sombreada en la grá
ca de
la t de Student con 15 grados de libertad, t(; n 1) = t(0:05; 15) = 1:752; Así tc = 1:753:
Cuanti
cando los datos se tiene que el valor del estadístico de prueba es:.
xm 197:687 200
tm = = 20:706 = 0:447:
pS p
n 16
Se comparan los valores de tc y tm ; tm = 0:447 > tc ; los datos no dan evidencia para rechazar
la hipótesis nula.
Alternativamente, como el valor de p = P (tm 0:44671) = 0:3307; es mayor que = 0:05
(nivel de signi
cancia) no se rechaza H0 : Lo que indica que esa población de personas no tiene
un colesterol por debajo de 200.
10.5. Prueba de hipótesis para una media: 167
Intervalo de con
anza
Con el
n de completar la inferencia de los datos se construye un intervalo del (1 )% de
con
anza para una media con respecto al caso de muestras pequeñas.
S S
x t(1 =2; n 1) p ; x + t(1 =2; n 1) p
n n
Para construir un intervalo del 95% de con
anza 95%, se recurre al calculador de la distribu-
ción en CalEst y se tiene que el valor de t(1 =2; n 1) = t(0:975; 15) = 2:1335:
(186:654; 208:721)
Una vez descrito el procedimiento de la prueba de hipótesis, en la Figura 10.17 se muestran los
resultados que genera el CalEst:
Ejemplo 8.
Figura 10.17: Reporte de una prueba de hipótesis para una media con la t de Student.
Solución
El planteamiento de las hipótesis es:
H0 : = 0
H1 : > 0
xm 2:33 0
tm = = = 3:679:
pS 0:633
n
conclusión, se sigue que p = P (t > 3:681) = 0:0025, este valor es menor que = 0:05 por lo
tanto se rechaza H0 : Efectivamente el tiempo de reacción es mayor como lo establecido por el
sicólogo, esto indica que los pacientes rebasaron el tiempo de respuesta esperado y se les someterá
a nuevos ejercicios de memoria.
Ejemplo 9.
Una empresa que genera un producto químico requiere que la media del nivel de pH en el agua
debe estar en 6:8: El técnico responsable de este proceso toma 19 muestras de agua y mide el
pH de cada una de ellas. Los datos son:
6.7, 7.1, 6.8, 6.9, 6.5, 6.7, 6.6, 6.5, 6.5, 6.2
6.3, 6.6, 7.0, 6.7, 6.9, 6.5, 6.6, 6.9, 6.9
Solución
El planteamiento hipotético para el pH es:
H0 : = 6:8
H1 : 6= 6:8
170 10. Inferencia estadística
(6:564; 6:793)
En este caso el intervalo de con
anza no contiene al 6.8, que como alternativa también prueba
la hipótesis. Ya que al no estar 6.8 en el intervalo, se rechaza la hipótesis nula.
2. La distribución Ji cuadrada es una familia de curvas, cada una determinada por los grados
de libertad.
3. El área bajo la curva de una distribución Ji cuadrada es igual a 1.
Para investigar la posible diferencia signi
cativa que existe entre la varianza de una población 2
(o desviación estándar ) y un valor de una varianza 20 preseleccionada ( 0 ), el procedimiento
se plantea como sigue:
Figura 10.19: En inferencia: Pruebas de hipótesis: Una media 2 : Luego llene la hoja.
En símbolos:
H0 : 2 = 20
H1 : 2 < 20 H1 : 2 > 20 H1 : 2 6= 20
Ejemplo 10
En los proyectos de mejora, una empresa que opera cines decidió aplicar un programa de capa-
citación para reducir la desviación estándar del tiempo de servicio en sus dulcerías a 2.9 minutos.
Una muestra aleatoria de 23 atenciones a clientes, tiene una desviación estándar 2.1 minutos.
Con = 0:01 (10%). ¿Existe evidencia para sostener que el programa de mejora es exitoso?
Resumen de la información muestral: n = 23 y s = 2:1 minutos. Las hipótesis son:
(n 1)S 2
2 =
2
El procedimiento que realiza el programa para llevar a cabo la inferencia estadística sobre la
varianza, Figura 10.19.
10.6. Inferencia sobre la varianza 2 y 173
Cálculo del estadístico -el reporte generado por el software se describe en la Figura 10.20-
(23 1)(2:1)2
2m = = 11:54
(2:9)2
Determinación del valor crítico 2c (gl; ) = 2tablas (41 1; 0:10) = 14:042, vea este resultado
usando la distribución en CalEst. Comparando el valor calculado con el valor crítico se tiene:
2
El resultado al sustituir los valores en la expresión anterior proporcional al intervalo del 90% de
con
anza para 2
97:02 97:02
( ; ) = (2:8599; 7:8635)
33:924 12:338
Intervalo del 90% con
anza para : es (1:6927; 2:804): La desviación estándar en la atención
a clientes estará, con un 90% de con
anza, entre 1.7 minutos y 2.8 minutos.
Ejemplo 11
(n 1)S 2
2 =
2
Sigue una distribución 2 con gl = n 1 grados de libertad. Cálculo del estadístico
(41 1)(0:27)
2m = = 43:2
0:25
El valor crítico usando la distribución Ji-cuadrada es: 2 = 2tablas (gl; ) = 2tablas (41 1; 0:05) =
55:758: Observe que:
así que no hay su
ciente evidencia para rechaza H0 : En efecto, este sistema de riego es uniforme
en la distribución de agua. La prueba mediante la comparación de los niveles de signi
cancia
sigue: el valor de p = P (2m > 43:2) = 0:336, así p > = 0:05 no se rechaza H0
El intervalo de con
anza del 95% de con
anza para es (0:427; 0:665), entre estos valores
está la desviación estándar del sistema de riego.
Ejemplo 12
La varianza del peso de engorda en una población de borregos se supone 20 = 225 unidades.
Con el
n de conocer si este supuesto es adecuado, se toma una muestra de 16 borregos, a estos
se les pesa y la varianza muestral es S 2 = 428:74.
Solución
Resumen de los datos y de los valores de la distribución Ji cuadrada.para construir el intervalo
del 95% con
anza para la varianza: n 1 = 16 1 = 15; S = 20:706
(233:957; 1027:045)
(15:29; 32:05)
H0 : 2 = 20
H1 : 2 6= 20
176 10. Inferencia estadística
En la Figura 10.21 se presentan los resultados generados por CalEst incluyendo los intervalos
de con
anza para la varianza y desviación estándar:
Dado que 2m > 2c ; se rechaza la hipótesis nula, equivalentemente lo con
rma el valor de
p > : Por lo tanto la varianza del peso de los borregos es diferente a lo establecido. Esta
varianza da lugar a que exista una variabilidad en el peso de los borregos y por lo tanto no
deseada.
Ejemplo 13
H0 : 2 = 15:9
H1 : 21 6= 15:9
10.6. Inferencia sobre la varianza 2 y 177
Figura 10.22: Valores críticos con un nivel de signi
cancia de = 0:05 en la distribución Ji-
cuadrada con gl = 14:
El estadístico de prueba es
(n 1)S 2
2 =
2
Cálculo del estadístico de prueba,
(15 1)(21:8)
2 = = 19:19
15:9
2c = 2tablas (15 1; =2) = 5:629 y 2c = 2tablas (15 1; 1 =2) = 26:119
La Figura 10.23 es un auxiliar para ilustrar la esencia del procedimiento de prueba de hipótesis.
Se tienen cuatro opciones:
Figura 10.23: Procedimiento de la prueba de hipótesis ilustrado mediante la lectura del iris.
4. Cometer el error tipo II, es decir, el individuo es impostor y la acción tomada es aceptar
en este caso el sistema se equivocó.
180 10. Inferencia estadística
Capítulo 11
Figura 11.1: Opción para realizar los cálculos para hacer inferencias sobre dos poblaciones
181
182 11. Inferencia para dos poblaciones
1. La hipótesis nula H0 es la hipótesis estadística que usualmente indica que no hay diferencia
entre los parámetros de dos poblaciones.
2. La hipótesis alternativa, es la hipótesis estadística que indica la relación entre las dos
poblaciones y se plantea como menor, mayor o diferente.
H 0 : 1 = 2 H 0 : 1 = 2 H 0 : 1 = 2
(11.1)
H1 : 1 6= 2 H 1 : 1 > 2 H 1 : 1 < 2
El tamaño de muestra obtenida de cada población debe ser mayor de 30, o si no, cada
población debe tener una distribución normal con varianzas conocidas.
media = media(x1 x 2 ) = x 1 x 2 = 1 2
q q 2
2
y error estándar = (x1 2 2
x2 ) = x1 + x2 = n11 + n22
11.1. Inferencia para dos medias: muestras dependientes 183
Para motivar el concepto de esta prueba use la opción didáctica H0 cuya descripción grá
ca
aparece en la Figura 10.1. En este caso el estadístico x es la diferencia de medias x1 x2
y el error estándar = (x1 x2 ):
Este es el procedimiento que usan la mayoría de los libros de estadística, use la distribución
normal estándar en CalEst para realizar estas pruebas.
Dada estas características de la distribución muestral x1 x2 ; el estadístico de prueba es-
tandarizado toma la forma:
La expresión del estadístico de prueba para comparar dos medias es: x1 x2 y en forma es-
tandarizado se indica por:
(x1 x ) (1 2 )
zm = q2 2 (11.2)
1 2
n1
+ n22
En resumen el patrón que se sigue para realizar la prueba de hipótesis en la comparación de dos
medias usando la distribución Z (muestras grandes).
184 11. Inferencia para dos poblaciones
Con la información generada por los datos se puede construir el intervalo (1 )% de con
anza
para la diferencia de medias 1 2 , cuya interpretación indicará explicaciones importantes del
objeto de estudio. Éste se escribe como:
s s
21 22 21 22
(x1 x2 ) zc + < (1 2 ) < (x1 x2 ) + zc +
n1 n2 n1 n2
Ejemplo 1
Figura 11.2: Resultados del procedimiento para probar la diferencia de dos medias.
Solución
Para veri
car esta prueba se siguen los pasos señalados en la Tabla 1 de esta sección, las varianzas
son desconocidas. Por otro lado, dado que los tamaños de muestra son su
cientemente grandes
se utilizan las varianzas de la muestra. Considerando la experiencia acumulada en las pruebas de
hipótesis aquí se recurre al calculador estadístico para realizar la prueba. Se toma la información
proporcionada en la Figura 11.2, en ésta se presenta también, el resumen de resultados y los
valores relacionados con el intervalo de con
anza para la diferencia de medias.
Conclusión: No se puede reportar una diferencia en los dos sistemas.
Se usa la prueba t para probar la diferencia de las medias 1 y 2 entre dos poblaciones cuando
una muestra es seleccionada aleatoriamente de cada población. La aplicación de esta prueba
requiere que cada población se distribuya normalmente, y que las muestras sean independientes.
En este caso use la distribución t de Student en el CalEst para identi
car los valores críticos y
186 11. Inferencia para dos poblaciones
s
(x1 x2 ) (1 2 ) (n1 1)S12 + (n2 1)S22
tm = q , donde Sp = (11.3)
Sp 1
+ 1 n1 + n2 2
n1 n2
Con la información generada por los datos se puede construir el intervalo (1 )% de con
anza
para la diferencia de medias 1 2 , cuya interpretación indicará interpretaciones importantes
del estudio. Éste se escribe como:
r r
1 1 1 1
(x1 x2 ) tc Sp + < (1 2 ) < (x1 x2 ) + tc Sp +
n1 n2 n1 n2
Ejemplo 2
Control 83, 91, 97, 97, 108, 111, 111, 117, 117, 125, 125, 140
Entrenado 64, 83, 83, 85, 91, 97, 97, 97, 103, 108, 111, 111, 117, 117, 125, 125
Se capturan estos datos en CalEst, en la opción archivo y aparece una hoja de cálculo y se
capturan los datos. El nombre de las columnas se escribe sobre la columna o usando el ratón al
marcar el extremo izquierdo del rectángulo. La descripción de este procedimiento se muestra en
la Figura 11.3.
Se realiza la prueba t los resultados se muestran en la Figura 11.4. Use la distribución t de
Student, en el paquete estadístico., para con
rmar la información que se indica en el reporte.
Sugerencia: puede hacer unas grá
cas de la t para los niveles de signi
cancia p y .
La conclusión es que no hay diferencia en el rendimiento físico en ambos grupos.
188 11. Inferencia para dos poblaciones
Antes 185 194 213 198 244 162 211 273 178 192 181 209
Después 168 177 196 180 229 144 197 252 161 178 161 193
di = x1 x2
En este caso el estadístico de prueba para veri
car la hipótesis nula H0 : 1 = 2 contra alguna
de las alternativas será la media d de estas diferencias di ;
P
n
di
i=1
d= (11.4)
n
Para realizar un experimento para comparar dos poblaciones mediante muestras pareadas es:
2. Las muestras son pareadas (dependientes), la unidad en la primera muestra debe ser la
misma en la segunda muestra (par) o lo más homogéneo posible.
Dadas estas condiciones se sigue que la distribución de la diferencia de medias d, tiene una
distribución t de Student con n 1 grados de libertad. Así el estadístico estandarizado es:
d d
tm = Sd
gl = n 1 (11.5)
p
n
Solución al ejemplo 3
Se hará la solución de este problema mediante CalEst, se abre un archivo para capturar los
datos del problema, como se indica en la Figura 11.5, luego en la opción inferencia en prueba de
hipótesis para dos medias y pareadas se genera la solución.
190 11. Inferencia para dos poblaciones
Figura 11.5: Procedimiento para realizar una prueba hipótesis, en muestras pareadas en CalEst
Se observa de manera clara que los estudiantes mejoraron de manera signi
cativa la resolución
del rompecabezas.
Se realizó una prueba para conocer la memoria a corto plazo a una muestra aleatoria de personas
entre 30 y 40 años. Esta consistía en mostrar una tarjeta con 16 palabras por un espacio de 30
segundos, después se dejaba pasar un minuto platicando con el entrevistado. A continuación se le
pedía que dijera las palabras que recordaba, para esta acción se dejaba un minuto. Se consideró
la proporción, p1 , de personas que recordaban 8 o más palabras. El investigador supone que si
enseña la tarjeta por un espacio de 60 segundos en lugar de 30, la proporción, p2 , de personas
que recuerden 8 o más palabras aumentará. Para veri
car esta situación se realiza una prueba
de diferencia entre dos proporciones.
Prueba de hipótesis para dos proporciones
Las condiciones que se deben seguir para realizar la comparación entre proporciones es:
3. Las muestras deben ser su
cientemente grandes para usar la distribución normal, así se
debe cumplir:
n1 p1 5; n1 (1 p1 ) 5; n2 p2 5 y n2 (1 p2 ) 5:
Dadas estas condiciones, se tiene que la distribución muestral de pb1 pb2 ; diferencia entre
proporciones, es una normal con media
(b
p1 pb2 ) = p1 p2
y un error estándar:
s
1 1
(b
p1 pb2 ) = p(1 p) + ;
n1 n2
x1 +x2
donde p = n1 +n2
; x1 = n1 pb1 ; x2 = n2 pb2 :
Entonces para probar la hipótesis de diferencia entre dos proporciones p1 y p2 cuando las
muestras se extraen de manera aleatoria de dos poblaciones el estadístico de prueba es:
y en forma estandarizado
p1 pb2 ) (p1 p2 )
(b
zm = r (11.7)
1 1
p(1 p) n1 + n2
Nota. Recuerde que puede usar la opción didáctica Ho para estudiar esta prueba de hipótesis,
donde ahora el estadístico es (11.6). Asimismo puede recurrir a la distribución normal para
determinar los valores correspondientes a los estadísticos y niveles de signi
cancia.
Con el estadístico (11.6) o (11.7) se prueba una de las siguientes hipótesis alternativas:
H0 : p 1 = p 2
H1 : p1 6= p2 , H1 : p1 > p2 , o H1 : p1 < p2
11.3. Inferencia para dos proporciones 193
Solución al ejemplo 4
n1 p1 = 100(0:2) 5; n1 (1 p1 ) = 100(0:8) 5;
n2 p2 = 100(0:42) 5 y n2 (1 p2 ) = 100(0:42) 5:
El reporte estadístico de este ejemplo generado por el software se muestra en la Figura 11.7.
Al rechazar la hipótesis nula se veri
ca el supuesto del investigador, es decir si hay un efecto en
la memoria de corto plazo al mostrar la tarjeta un mayor tiempo.
Ejemplo 5
En dos tiendas de autoconsumo el precio de la canasta básica varía día con día y una persona
tiene que decidir en cuál de las dos tiendas comprar para no desequilibrar su presupuesto. El
precio en el riesgo de compra, está asociado con la desviación estándar del precio diario de la
canasta. Se tienen seleccionados muestras aleatorias de ambas tiendas; la tienda A; 31 días con
194 11. Inferencia para dos poblaciones
una desviación estándar de 5.7; la tienda B; 30 días con una desviación estándar de 3.5. Con
un nivel de signi
cancia = 0:05 ¿ Se puede concluir que en alguna tienda hay mayor riesgo de
comprar y desequilibrar el presupuesto?
Resumen de la información que proporciona la muestra:
H0 : 21 = 22 H1 : 21 6= 22
En la Figura 11.8 se describe la opción del programa estadístico para llevar a cabo la prueba de
hipótesis entre la razón de varianzas. Estadístico de prueba
S12
F =
S22
Figura 11.10: Pantalla que muestra la parte operativa de la prueba de hipótesis sobre la razón
de varianzas.
32:49
Fm = = 2:652
12:25
Cálculo del valor crítico en función del nivel de signi
cancia Fc = Ftablas ; Fc = F (=2; 31 1; 30
1) = 2:1, puesto que 2:652 = Fcalculada > Fc = 2:1 se rechaza H0 :
Alternativamente se prueba la hipótesis utilizando el nivel de signi
cancia descriptivo p,
2p = P (Fm > 2:652) = 2(0:00514) = 0:01028; puede observar que p < = 0:025; por lo tanto se
concluye rechazar H0 :
21
Intervalo del (1-)% con
anza para la razón de varianzas : 22
S12 S2
F1 (1 =2; glN ; glD ); 12 F0 (=2; glN ; glD )
S2 S2
Un profesor ha diseñado una estrategia para mejorar la velocidad de lectura, en esa dirección
él intenta reducir la varianza en el tiempo de lectura. Primero hace una prueba para conocer
la varianza del tiempo de lectura que actualmente tienen sus alumnos. Selecciona una muestra
aleatoria de 10 alumnos, la prueba de velocidad de lectura arrojó una varianza de 144 minutos2 .
Bajo su planteamiento consideró una muestra de 21 alumnos, la varianza del tiempo de lectura
fue de 100 minutos2 . Proponiendo un nivel de signi
cancia = 0:10. ¿Existe su
ciente evidencia
para respaldar la estrategia del profesor?
Resumen de la información que proporciona la muestra:
Ht : La varianza del tiempo de lectura actual es mayor a la varianza del tiempo bajo su esquema.
H0 : 21 = 22 H1 : 21 > 22
Estadístico de Prueba
S12
F =
S22
144
Fm = = 1:44
100
El valor de referencia Fc = Ftablas ( = 0:10; 10 1; 21 1) = 1:96, veri
que este valor usando
la distribución F . Puesto que Fm < Fc se concluye que no se rechaza H0 :
Alternativamente usando el nivel de signi
cancia descriptivo p; el valor de p = P (F (10
1; 21 1) > 1:44) = 0:237: Observe que 0:237 = p > = 0:1, vea este valor en la distribución F .
Se con
rma que no se rechaza H0 :
Capítulo 12
Análisis de Varianza
En capítulos anteriores se plantearon pruebas de hipótesis para una población y dos poblaciones.
En esta parte se desarrolla un procedimiento para comparar dos o más poblaciones a la vez. Este
se conoce como análisis de varianza, abreviada ANDEVA.
La estrategia experimental, desempeña un papel relevante para hacer la comparación entre
más de dos poblaciones y se llama diseño completamente al azar. Con el
n de
jar ideas considere
el siguiente ejemplo, un ingeniero que trabaja en biotecnología de alimentos, quiere conocer la
preferencia que tienen las personas por cuatro tipos de helados elaborados bajo condiciones
diferentes. En este caso las hipótesis son:
Hipótesis nula:
H0 : Las personas pre
eren por igual los cuatro helados.
Hipótesis alternativas:
H1 : Existe preferencia por alguno de los helados.
La estrategia experimental para este caso es como sigue; suponga que hay 12 personas y que
cada una de tres personas prueban cada helado. Las doce personas se seleccionan aleatoriamente
y se les da a probar el helado correspondiente, es decir:
h1 h1 h1 h2 h2 h2 h3 h3 h3 h4 h4 h4
8 3 10 12 5 6 11 9 4 7 2 1
La medición se realiza en una escala hedónica con valores que van de 1 a 10, donde 1 es el
disgusto de las personas por el helado y 10 es la aceptación total.
La estructura de esta estrategia experimental se presenta en la Tabla 12.1, con los resultados
reportados por las personas.
199
200 12. Análisis de Varianza
Helados
1 2 3 4
74 46 80 85
78 56 70 82
73 49 77 89
nj 4 4 4 4
xj 75 50.33 75.67 85.33
Sj2 7 26.33 26.33 12.33
La idea principal en este caso, es probar si la variación entre grupos (entre helados) es similar
a la variación dentro de grupos (cada helado).
En resumen, el planteamiento general de este esquema es:
Este esquema se conoce como diseño completamente al azar. La meta de este procedimiento
es construir el estadístico de prueba para veri
car esta hipótesis.
Un factor, es una variable que se usa para diferenciar un grupo de una población a otra.
Esta es una variable que puede estar relacionada con la variable de interés. Un nivel es
uno de los posibles valores que el factor puede tomar.
En el ejemplo, el factor es el tipo de helado y el nivel es cada uno de los helados. A continuación
se formaliza lo que se llama variable de respuesta, en este caso la evaluación de la preferencia del
helado.
El procedimiento para analizar los datos del experimento, se llama análisis de la varianza
(ANDEVA).
Análisis de la Varianza es una técnica que se utiliza para analizar la varianza en los
datos para determinar cuando mas de dos poblaciones tienen medios iguales.
Estadístico en el ANDEVA
La media de todos los datos se conoce como la gran media.
La gran media es el promedio de todas las observaciones en el experimento y se denota por x
La variación entre poblaciones mide qué tan diferente son los tratamientos de la gran media.
Esta se llama el cuadrado medio de tratamientos y se denota por CMtrat
k
X
SCtrat = nj (xj x )2 ;
j=1
Observación
El numerador de la expresión (12.1) se le conoce como la suma de cuadrados dentro de tratamien-
tos. El denominador son los grados de libertad asociados a esta fuente de variación son:
(n1 1) + (n2 1) + (nk 1) = n1 + n2 + ::: + nk k=N k:
La variable que resulta de dividir el cuadrado medio entre y el cuadrado medio dentro de
tratamientos tiene una distribución F con k 1 grados de libertad en el numerador y N k
grados de libertad en el denominador; esto es F (k 1; N k):
Los resultados de este procedimiento se recogen en una Tabla que se conoce como análisis de
varianza. En la Tabla 12.2 se describen las expresiones para realizar los cálculos realizados.
Total N 1 SCtotal
Ejemplo 1
Un nutriólogo está probando cuatro tratamientos (A,B,C y D) para reducir el peso. Él cuenta con
18 personas para realizar el experimento, aplica de manera aleatoria uno de los tratamientos a
cada persona. Después de un periodo de prueba anota el número de kilogramos que redujeron las
personas, en la Tabla 12.3 se anota el registro, (6.5 indica que una persona redujo 6 kilogramos
con 500 gramos) ¿Cuál es la hipótesis que se plantea veri
car el nutriólogo? ¿Cuáles son los
resultados principales para construir el estadístico de prueba F?
204 12. Análisis de Varianza
Resultados
Tratamiento
A B C D
6.5 6.0 5.5 4.6
6.5 5.8 5.2 4.5
5.8 5.8 4.9 4.5
5.7 5.5 4.8 4.8
5.6 5.1
nj 5 5 4 4
xj 6.02 5.64 5.10 4.60
S2 0.197 0.123 0.100 0.020
Hipótesis
Con la información reportada en la Tabla 13.3 se pueden construir los cuadrados medios entre y
dentro de tratamientos, es decir:
Figura 12.1: Archivo de datos que registra los valores experimentales y el análisis estadístico.
Así Fm = 1:709
0:117
= 14:596: Puesto que Fm = 14:596 > Fc = 3:344 se rechaza la hipótesis nula,
lo que indica que alguno de los tratamientos es efectiva para reducir de peso.
Capítulo 13
La
nalidad del análisis de regresión consiste en estudiar la relación que existe entre las
variables, describir modelos grá
cos para explicar esta relación, y construir modelos sobre un
fenómeno para predecir otros valores de la respuesta dado un valor
jo de la covariable y hacer
inferencia sobre los parámetros del modelo, sobre la media estimada y la predicción. La forma
general del modelo es:
207
208 13. Modelo de regresión lineal simple
Ejemplo 1
En los reportes de quién es quién en los precios que proporciona la Secretaría del Consumidor,
seleccionamos el precio de dos medicinas en 10 farmacias, el precio está dado en pesos y el precio
real se debe multiplicar por 50. Los resultados se muestran en la siguiente tabla. Es de interés
saber si existe alguna relación entre los precios de las distintas medicinas: es decir si las farmacias
conservan la misma relación en sus precios con respecto a las dos medicinas:
Farmacia 1 2 3 4 5 6 7 8 9 10
Xi 3 3 4 5 6 6 7 8 8 9
Yi 9 5 12 9 14 16 22 18 24 22
En forma general, se usa la letra n para denotar el tamaño de la muestra, para cada uno de
los n individuos se observa la pareja de valores (X; Y ). Es decir
Figura 13.2: Diagrama de dispersión y modelo de regresión para el precio de las farmacias.
la regresión avanzada. En este Capítulo se abordará la primera, como paso inicial se anotan los
datos en una hoja de trabajo, creando o abriendo un archivo en CalEst o en otra hoja electrónica.
Una vez capturado los datos y se llama la opción regresión simple como aparece en la Figura
13.1.
Una vez llenados los cuadros para la variable dependiente, far2 en este caso, y la variable
independiente far1, se aprieta el botón aceptar. Enseguida aparece una serie de grá
cas que
forman parte del análisis, atrás aparece una hoja que completa el análisis estadístico. En la
Figura 13.2 se muestra una línea y los puntos que representan el precio de las 10 farmacias.
El objetivo principal es estimar los parámetros que caracterizan al modelo, línea recta, descrito
en la Figura 13.2. En la Figura 13.3 se muestra el reporte que contiene los valores estimados y
los resultados estadísticos generados por el método de mínimos cuadrado. Este se explicará en
este Capítulo. La información que se presenta en esta
gura se obtiene del paquete estadístico.
2. " (epsilon) "1;:::; "n son variables aleatorias no observables y suponemos que se distribuyen
como una distribución de probabilidad normal con media cero y varianza 2 .
210 13. Modelo de regresión lineal simple
Figura 13.3: Resultados estadísticos del análisis que genera el método de mínimos cuadrados
3. Los parámetros 0 (Beta cero), es el punto en el cual la recta (13.1) intercepta a Y . 1 (Beta
uno), pendiente de la recta (13.1), indica la cantidad que crece (decrece) Y por cada unidad
que aumenta X:
Ejemplos:
Y =8 6X + "
Y = 0 + 1 X + "; con 0 = 7 y 1 = 2:
13.2. Modelo de regresión lineal simple 211
Yi Ybi = Yi (b0 + b1 Xi ) = ei
y representa la distancia vertical del punto Yi a la línea. La discrepancia de todos los puntos está
representada por la siguiente expresión.
n
X n
X
D= e2i = (Yi (b0 + b1 Xi ))2 ; (13.2)
i=1 i=1
Así, D es una medida de la discrepancia de los puntos observados Yi de la línea Ybi = b0 +b1 Xi .
La magnitud de D depende de la línea que se dibuje, es decir dependen de b0 y b1 . Un buen ajuste
hace la D tan pequeña como sea posible. El método de mínimos cuadrados permite estimar los
valores estimados de los parámetros, y su objetivo es minimizar la siguiente discrepancia:
n
X n
X
D= (respuesta observada-modelo)2 = (Yi ( 0 + 1 Xi ))2 :
i=1 i=1
Los valores que se obtienen de optimizar la expresión anterior se denominan estimadores de mí-
nimos cuadrados de los parámetros del modelo, estos se representan por las cantidades b0 y b1
Mediante este procedimiento obtenemos el modelo que mejor se ajusta a los datos, este se re-
presenta por Ybi = b0 + b1 Xi .
Notación.
Con la
nalidad de facilitar los cálculos en la estimación de los parámetros, en el análisis y
evaluación del modelo, se plantean las siguientes expresiones.
P
n P
n
_ _ _ _
( X )( Y )
1P n 1P n Pn Pn
i=1 i=1
X= Xi ; Y = Yi ; Sxy = (X i X)(Y i Y ) = Xi Yi i i
(13.3)
n i=1 n i=1 i=1 i=1 n
212 13. Modelo de regresión lineal simple
P
n P
n
_
( Xi2 )2 _
( Yi ) 2
P
n
2 P
n
i=1 P
n
2 P
n
i=1
Sxx = (Xi X) = Xi2 ; Syy = (Yi Y ) = Yi2 (13.4)
i=1 i=1 n i=1 i=1 n
Estas fórmulas son de utilidad porque permiten calcular los estimadores de mínimos cuadrados,
y a continuación se mostrarán las expresiones :
_
El estimador de mínimos cuadrados de 0 es b0 : b0 = Y b1X
Sxy
El estimador de mínimos cuadrados de 1 es b1 : b1 =
Sxx
Las desviaciones individuales entre las observaciones Yi y los valores ajustados Ybi = b0 + b1 Xi
se llaman residuales, y los denotamos por ei .
13.2.2 Residuales
Los residuales se expresan por
ei = Ybi (b0 + b1 Xi ):
Los residuales permiten veri
car los supuestos estadísticos en los que se basa el método de
mínimos cuadrados, ellos son de utilidad para evaluar otras características del modelo, estos
Pn
aspectos se verán posteriormente. Una propiedad de los residuales es i=1 ei = 0: La suma de
cuadrados de los residuales es:
n
X 2
Sxy
SCerror = e2i = Syy (13.5)
i=1
Sxx
Esta expresión es útil para estimar la varianza, así la varianza 2 se estima por
SCerror
b2 =
n 2
Ejemplo 2
Considerando los datos de los precios de las medicinas en las diez farmacias, descritos anterior-
mente, a continuación se efectúan los cálculos para obtener la línea de mínimos cuadrados, los
residuales, la estimación de la varianza, los resultados previos se describen en la siguiente tabla.
13.2. Modelo de regresión lineal simple 213
Xi Yi Xi2 Yi2 Xi Yi Yb ei
3 9 9 81 27 7.15 1.85
3 5 9 25 15 7.15 -2.15
4 12 16 144 48 9.89 2.11
5 9 25 81 45 12.63 -3.63
6 14 36 196 84 15.37 -1.37
6 16 36 256 96 15.37 .63
7 22 49 484 154 18.11 3.89
8 18 64 324 144 20.85 -2.85
8 24 64 576 192 20.85 3.15
9 22 81 484 198 23.59 -1.59
59 151 389 2651 1003 0
El último renglón de la tabla anterior representa la suma de los renglones, estos valores se
sustituyen en las fórmulas descritas anteriormente para obtener la estimación del modelo. Los
cálculos son:
_ 59 151
X = 5:9; Y = 15:1; Sxy = 1003 = 112:1;
10
(59)2 (151)2
Sxx = 389 = 40:9; Syy = 2651 = 370:9:
10 10
Los estimadores de mínimos cuadrados para el modelo son:
112:1
b0 = 15:1 2:74 5:9 = 1:07; b1 = = 2:74:
40:9
Así la recta que mejor se ajusta a los datos de precios es:
Yi = 1:07 + 2:74Xi
La varianza se estima por:
SCerror 63:6528
b2 =
= = 7:96;
n 2 8
(112:1)2
donde SCerror = 370:9 40:9
= 63:6528. En la Figura 13.3 se muestra el reporte de los cálculos
que genera el CalEst, compare esta con el procedimiento ilustrado. La construcción de la segunda
tabla que aparece en reporte se presenta en el apartado 13.3.4 y en la Tabla 13.1.
Interpretacion: Un vez que se han obtenido los estimadores de los parámetros, es impor-
tante su interpretación. En el modelo lineal que se esta estudiando el coe
ciente de la variable
independiente X es en particular el más importante. Así el valor de b1 = 2:74 indica que cuando
una farmacia vende la medicina X en un peso más cara, en esa misma farmacia la medicina Y
cuesta casi tres pesos más cara (por la consideración inicial 27 pesos más).
214 13. Modelo de regresión lineal simple
Si una farmacia vende la medicina X en 3.5 pesos, ¿cuánto costará la medicina Y en esa
farmacia?
Para responder a estas preguntas se necesita indicar que los estimadores de mínimos cuadra-
dos, se distribuyen como una distribución de probabilidad normal con media = ; y varianza
2 (bi ):
b2
1 X2
b2 (b1 ) =
y b2 (b0 ) =
b2 ( + )
Sxx n Sxx
b2 =
donde el estimador de la varianza 2 es SCE
n 2
o el estimador de la desviación estándar
b es la raíz cuadrada de
SCerror
n 2
:
b2 , por ello la
2. En la práctica la varianza 2 no se conoce, así que se usa el estimador
inferencia en los parámetros del modelo se basan en la distribución de probabilidad t,
entonces para la pendiente 1 ;
(b1 1 )
t=
b(b1 )
se distribuye como una t Student con n 2 gl. Análogamente la inferencia del intercepto
0 se basan en la distribución t.
(b0 0 )
t=
b(b0 )
1 (X X)2
b (Yb ) =
2
b 2
+ (13.6)
n Sxx
(b0 b1 X 0 + 1X )
t= con gl = n 2
b(Yb )
En esta no hay cambio en X si y solo si 1 = 0. Con objeto de veri
car si los datos apoyan
o no este hecho, en términos estadísticos se plantea la siguiente hipótesis:
H0 : 1 = 0 y H1 : 1 > 0;
(b1 1 )
con base en el estadístico de prueba, tc =
b( 1 )
, gl = n 2. Permitirá rechazar o no la hipótesis
nula.
En particular, la hipótesis alternativa H1 como está planteada permite preguntarse, ¿existe
evidencia de que la medicina Y es más cara cuando la medicina X es cara? La respuesta será
a
rmativa si al realizar la prueba se rechaza la hipótesis nula, para ello primero se tiene que
obtener el valor del estadístico t.
De los cálculos se tiene que b1 = 2:74;
SCE 63:65
b2 =
= = 7:956
n 2 8
de aquí se obtiene
b = 2:8207,
nalmente:
s r
b 2:8207
b(b1 ) = = = 0:441
Sxx 40:9
En la Figura 13.4 se describe el análisis grá
co del modelo proporcionado por el CalEst. En la
grá
ca superior izquierda aparece el modelo con su límite de con
anza del 95%. El cuadro que se
indica con las letras ab, brinda la posibilidad de cambiar el nivel de con
anza, además se puede
ver el límite de con
anza para la predicción. La grá
ca de la derecha superior muestra la relación
entre los valores reales y los predichos e indica qué tanto explica el modelo. Las siguientes dos
grá
cas completan el análisis del modelo mediante la evaluación de los residuales, en ellas se
puede interpretar: si existe homogeneidad en la varianza, dispersión de los residuales y puntos
aberrantes. Abajo hay una quinta grá
ca sobre los residuales que interpreta la dependencia con
respecto al tiempo.
13.3. Estimadores de mínimos cuadrados. 217
H 0 : 0 + 1 X = 0 ; H1 : 0 + 1 X 6= 0 ;
b 0 + b 1 X 0
tc = q ; gl = n 2;
1 (X X)2
b n + Sxx
con la
nalidad de ilustrar la inferencia sobre la predicción de la respuesta, se utilizarán los datos
del ejemplo 1.
Interpretación, con un 95% de con
anza la medicina Y se vende entre (13.31 y 17.43) con-
siderando que X = 6:5, para un valor no observado de X, se desea proponer un valor de X
no observado, pero aún, entre el rango de valores de X, el error estándar estimado cuando se
predice una respuesta es:
r
1 (X X)2
b 1+ +
n Sxx
Nuevamente se recurre a los datos de los precios de las farmacias, ahora X = 6:5. El valor
predicho es: b0 + b1 X = 1:07 + 2:74(6:5) = 16:74. La Figura 13.5 complementa el análisis
estadístico de este ejemplo. Para reproducirlo oprima el botón tercero en la segunda franja. La
predicción se obtiene usando el botón yb. Un intervalo de con
anza del 95% de con
anza es
13.3. Estimadores de mínimos cuadrados. 219
Figura 13.5: Información complementaria para el análisis estadístico del modelo de regresión.
r
1 (6:5 5:9)2
16:74 2:306(2:8207) 1+ + = 16:74 6:85 = (9:89; 23:59):
10 40:9
Yi = (b0 + b1 Xi ) + (Yi b0 b1 Xi )
X 2
Sxy
2
SCerror = (Yi b0 b1 Xi ) = Syy (13.9)
Sxx
220 13. Modelo de regresión lineal simple
X
Syy = (Yi Y )2 (13.10)
2 2
Sxy Sxy
Syy SCerror = Syy Syy = : (13.11)
Sxx Sxx
Para evaluar qué tanto los datos se ajustan al modelo debemos considerar la SCregresion ,
de tal manera que si existe un buen ajuste, la SCregresion contribuye fuertemente a la SCtotal .
Nuevamente la situación ideal: todos los puntos sobre la línea recta nos indica que SCerror es
cero, así SCtotal queda totalmente explicada por los valores de X. Para resumir esta situación
generalmente se presenta una tabla que se llama análisis de la varianza (ANDEVA).
F es una variable aleatoria que tiene una distribución F con 1 y n 2 grados de libertad
respectivamente, para decidir si los datos con
rman la hipótesis nula se compara F con el valor
F ; donde es el nivel de signi
cancia.
Nota. Use la distribución de probabilidad F y el calculador de ésta en el paquete estadístico
para veri
car estos resultados estadísticos y conclusiones. Observe que en el caso del análisis de
la regresión simple la prueba de hipótesis mediante las pruebas t y F son equivalentes. Vea la
propiedad de la distribución F con respecto a la t, que se mostró en el capítulo 8.
Un índice para evaluar el porcentaje de los datos que son explicados por el modelo, se llama
el coe
ciente de determinación y se denota por R2 ; este se construye considerando la proporción
de la variabilidad total y la explicada por el modelo, es decir :
2 2
SCregresion Sxy =Sxx Sxy
= = (13.12)
SCtotal Syy Sxx Syy
Considerando nuevamente los datos sobre el precio de las farmacias, y por los cálculos que
se han realizado en los precios para las medicinas X y Y , se tiene: Sxx = 40:9, Syy = 370:9,
Sxy = 112:1 la recta que se ajustó : Yb = 1:07 + 2:74X. ¿Qué tanto de la variabilidad es
explicada por el modelo de regresión? La respuesta a esta pregunta calculando el coe
ciente de
determinación :
2
Sxy (112:1)2
R2 = = = 0:83
Sxx Syy (40:9)(370:9)
222 13. Modelo de regresión lineal simple
Ejemplo 3
Se ha probado que el tiempo de vida de un acumulador se puede predecir (por ejemplo) midiendo
la carga que se le proporciona a la batería (en voltios). Se realiza un prueba de vida acelerada, en
este caso los acumuladores se sometieron a ciertas condiciones ambientales de calor (entre otras
posibles pruebas). Los datos para seis acumuladores son:
b0 = (X 0 X) 1 X 0 Y
donde
0 1 1 1 1 1 1
X =
17:9 23:6 30:9 56:1 61 77
la inversa
0 1 0:873 0:016
(X X) =
0:016 0:00036
13.3. Estimadores de mínimos cuadrados. 223
nalmente se tiene
b = (268:593; 1:593)
el modelo estimado es
Yb = 268:593 1:593x
Análisis estadístico:
Hipótesis
Ho : 1 = 0
H1 : 1 6= 0
El estadístico
b
1
1
tc = t(n p; )
b1 )
ES(
Cálculos
b ) = (S 2 (X 0 X) 1 )1=2 = 0:3543
ES( 1
(Y Yb )0 (Y Yb )
S2 = = 350:4384
n p
1:593 0
tc = = 4:5
0:3543
el valor de t(n p; ) = t(4; 0:025) = 2:78:
El coe
ciente de determinación:
(Y Yb )0 (Y Yb ) 1401:9653
R2 = 1 =1 = 83:5
(Y Y )0 (Y Y) 8488:83
El coe
ciente de correlación
(X X)0 (Y Y)
r= = 0:913
(X X) (X
0 X)(Y Y )0 (Y Y)
Resumen
parámetro estimación error estd. tc p
o 268.593 17.494 15.353 0.0001
1 -1.593 0.354 -4.496 0.0108
donde
b +
Yb = b X
o 1
Ejercicio
Regresión Múltiple
14.1 Modelo
Si con la
nalidad de explicar un fenómeno o proceso se incorporan nuevas variables al modelo
lineal simple, entonces se tiene el modelo de regresión múltiple, el cual se representa mediante la
siguiente expresión :
donde 0 es una contante, los, i ; i = 1; 2; :::; k, son los parámetros del modelo, las Xji j =
1; 2; :::n; i = 1; :::; k son las variables independientes que describen las k características de los n
individuos u objetos, Yi es la variable de respuesta, se tienen n observaciones sobre los individuos,
" es una variable aleatoria.
La ecuación (14.1) es un modelo hipotético con el cual se tratará de explicar los resultados de
una situación real, en general, la idea es bosquejar o construir un modelo que nos va a describir
e interpretar un fenómeno, para ello planteamos el siguiente procedimiento :
1.- Proponer un modelo esto incluye la selección de las variables que aparecen en el modelo.
2.- Estimar los parámetros 0 ; 1 ; 2 ;..., k del modelo.
3.- Especi
car la distribución de probabilidad de la variable aleatoria ", estimar la varianza
2 de la distribución.
4.- Veri
car la utilidad del modelo
5.- Usar el modelo para predecir valores particular de Y , dentro del rango de valores de la
variable independiente.
NOTA.- El modelo (14.1) es lineal en los parámetros y en las variables independientes, en este
caso el modelo recibe el nombre de modelo lineal de primer orden. Más adelante se estudiarán
otros modelos.
225
226 14. Regresión Múltiple
el procedimiento es análogo al presentado para una variable, puesto que la
nalidad es optimizar
la siguiente expresión:
n
X n
X
"i "i = (Yi ( 0 + 1 X1i + 2 X2i ))2 (14.3)
i=1 i=1
Así, los estimadores de mínimos cuadrados obtenidos por este planteamiento es la solución que
se obtiene al resolver simultáneamente las ecuaciones que resultan de la optimización, para el
caso de dos variables la solución se tiene a partir de las expresiones indicadas a continuación, que
son una extensión a las anotadas cuando solo hay una variable independiente. A continuación
se muestran los resultados y la notación matemática de los estimadores.
0
minimizar "0 " = (y X) (y X) (14.5)
b = (X 0 X) 1 0
XY (14.6)
de cada variable para explicar la respuesta. Se puede notar que el modelo que se propone es un
plano, así se busca el plano de regresión que mejor se ajuste a los datos descritos por el estudio.
Los datos observados se presentan en la siguiente Tabla 14.1
X1 : nivel X2 : temperatura y
a~
no de lluvia promedio prod:
1981 39 20 55
1982 37 26 65
1983 47 19 80
1984 37 27 75
1985 39 24 70
1986 38 21 50
1987 40 23 60
1988 41 22 65
Solución
b = (
b ;b1 ;
b2 ) = ( 177:439; 3:863; 3:908)
0
H0 : 1 = 0 contra H1 : 1 6= 0 y
H0 : 2 = 0 contra H1 : 2 6= 0
Ver los resultados reportados en la Figura 14.1. Cada una de estas hipótesis se prueban con
el estadístico t de Student, el planteamiento y el cálculo de estas es como sigue:
b
1 3:863 0
1
t1 = = = 5:331
b )
b ( 0:725
1
y
b2
2 3:908 0
t2 = = = 4:687
b )
b ( 0:834
2
Como ambos estadísticos son mayores que el valor t(=2; gl = 5) = 2:571 y con un = 0:05;
se tiene que ambas variables contribuyen de manera signi
cativa en el efecto de rendimiento de
producción del grano. La Figura 14.2 indica el valor del estimador su error estándar y el intervalo
de con
anza del 95%, en este caso, para los parámetros. Finalmente se indica el coe
ciente de
correlación entre la respuesta y cada una de las variables de entrada. Se indica los coe
cientes
de determinación y el error estándar.
Análisis de residuales
Las grá
cas de la Figura 14.3 describe el análisis de residuales.
H0 : 1 = 2 = ::: = p = 0
Figura 14.2: Completa el análisis de regresión múltiple, las correlaciones son entre ( y y X1 ) y
( y y X2 )
n
X n
X 2 n
X 2
2
Yi Y = Ybi Y + Yi Yb (14.7)
i=1 i=1 i=1
el primer término del segundo miembro se conoce como la suma de cuadrados debida al modelo
Pn 2
y se denota por SCM y es: Ybi Y ,
nalmente el otro término del segundo miembro se
i=1
denomina como la suma de cuadrados no explicada por el modelo o suma de cuadrados del error,
n
P 2
ésta se denota por SCE, es decir Yi Yb . Con esta información y los grados de libertad
i=1
Los cuadrados medios que aparecen en la cuarta columna de la Tabla 14.2 se obtienen divi-
diendo la suma de cuadrados por los grados de libertad. Luego se divide el cuadrado medio del
14.2. Ajuste del modelo. 233
modelo entre el cuadrado medio del error, el valor resultante viene de una distribución de pro-
babilidad F con 1 y 2 grados de libertad. Éste permite probar la hipótesis nula sobre igualdad
de parámetros, es decir:
CMmodelo
Fc =
CMerror
Si Fc es mayor que un valor de la distribución F para un = 0:05 con los grados de libertad
apropiados, entonces se dice que los datos no apoyan la hipótesis nula H0 y se rechaza. También
se compara el valor de con el valor de la probabilidad p; es decir si > p se rechaza H0 .
Regresión g 1 b
SCreg = (y0 X y 2 =n) SCreg CMreg
g 1 CMerror
Error n g SCerror = y0 y b
y 0 X SCerror
n g
Estimación de la varianza
b2 es
La varianza 2 se estima así
P
2 SCE (Y Yb )2 99:268
b = = = = 19:854
n k n k 7 2
p 2 p
y el error estándar es
b= b = 19:854 = 4:4578
Coe
ciente de determinación
Otros resultados estadísticos para evaluar el modelo de regresión se siguen a partir del coe
ciente
de determinación, el cual se obtiene por:
2 (n 1)SCE (7 1)99:268
Rajs =1 =1 = 0:802
(n k)SCT (7 2)700:0
Considerando esta información proporcionada por los datos, se tiene que el modelo explica el
80%. Se puede notar que estos coe
cientes son aproximadamente iguales, si el número de datos
observados aumenta de manera considerable.
SCreg SCerror y0 y y 0 Xb
R2 = =1 =1
SCtotal SCtotal y0 y y 2 =n
b1 t(n b1 ) t(n p
g; =2)ES( g; =2)S m11
=
b el vector de parámetros
donde Yb = x0 ; b0 ;
b = ( b1 ) y el vector (1; x0 ); donde x0 representa
a los niveles de los factores donde se requiere estimar la media de Y .
Intervalo de con
anza para un valor de la variable de respuesta (predicho)
p
Yb t(n g; =2)S 1 + (1; x0 )(X0 X) 1 (1; x0 )0
Ejercicio 1
Existe interés en conocer si hay alguna relación en el rendimiento de los estudiantes en el examen
de selección para ingresar a la preparatoria, con el promedio en la materia de matemáticas X1 y
la de español X2 que obtuvieron en los tres años de secundaria, el rendimiento se evaluó por el
número de respuestas correctas en el examen. Los resultados de nueve estudiantes seleccionados
al azar son los mostrados en la siguientes tabla, aciertos en el examen de selección X1 y el
promedio en secundaria X2 .
Y = aciertos 89 78 66 62 52 49 47 44 38
X1 = mat:promedio 78 89 70 74 72 68 70 65 62
X2 = esp:promedio 89 81 80 72 70 67 68 69 68
236 14. Regresión Múltiple
Ejercicio 2
En un proceso se quiere conocer la relación que existe entre el tiempo de mezclado y la velocidad
del equipo con la densidad. Un ingeniero realiza varias pruebas sus resultados se muestran en la
siguiente tabla
prueba tm vel den prueba tm vel den
1 5 100 3.1 11 8 200 3.2
2 5 100 3.3 12 8 200 3.5
3 5 200 2.6 13 9 100 2.8
4 5 200 2.4 14 9 100 2.6
5 7 100 2.5 15 9 200 3.1
6 7 100 2.6 16 9 200 3.0
7 7 200 3.0 17 10 100 3.2
8 7 200 3.3 18 10 100 3.4
9 8 100 2.4 19 10 200 2.5
10 8 100 2.3 20 10 200 2.4
Ejecicio 3
1. La tabla de coe cientes.
Ejercicio 4
Preguntas:
Ejemplo 1.
Un vendedor en una tienda, considera que las ventas de un determinado juguete se debe al color,
hay tres tipos de colores A: azul, R: rojo, V: verde. La relación planteada por el vendedor entre
A, R y V se da en razón 1:2:1 .
Para veri
car ésta situación se observa una muestra aleatoria de 150 juguetes de las ventas
realizadas el último trimestre. Los datos reportados se describen en la Tabla 15.1a:
Solución: Prueba de hipótesis 1. Las hipótesis que se plantea para este estudio:
239
240 15. Pruebas de bondad de ajuste
Nota. La prueba se veri
ca bajo el supuesto de que la hipótesis nula es verdadera. El valor
que se espera ante este supuesto, es multiplicar el tamaño de la muestra , N por la proporción
pi , es decir: N pi y se denota por Ei : Entonces la frecuencia esperada se escribe por:
Ei = N pi
La idea de la prueba es comparar las frecuencias esperadas Ei con los observados Oi . mediante
el estadístico de prueba:
n
X (0i Ei )2
2 = (15.1)
i=1
Ei
(0i Ei )2
Oi pi Ei Ei
4. Decidir si se rechaza o no se rechaza H0 Si 2m > 2c se rechaza H0 No, en caso contrario
5. Interpretar la decisión en el contexto de H.
Tabla 15.1c
n = número de celdas. (El número celdas en el ejemplo es 3, este debe ser variable)
P
n
Sumar el número de observaciones N = 0i
i=1
(0i Ei )2
Calcular los i sumandos 2i = Ei
(Contribución a la Ji).
P
n
(0i Ei )2
Sumar los 2i ; 2 = Ei
i=1
Observaciones
1. La fórmula para calcular 2 es válida si todos los valores E son mayores o iguales a 5. Si
el valor de E es mayor que 5, el valor de 2 es sensible, al combinar las otras categorías de
E mayores a 5:
2. Si alguna de las categorías son combinadas para evitar valores bajos de E; el número de
categorías después de la combinación se usan en el cálculo de los grados de libertad.
242 15. Pruebas de bondad de ajuste
En este apartado, se discutirá el análisis de dos variables. Estas variables tendrán la característica
de ser categóricas, porque nos permiten clasi
car los valores de las variables por categorías. Las
variables se reportan en tablas, llamadas de contingencia, las columnas consisten de los valores
en categorías de una variable, en los renglones se tienen los valores de la otra variable.
Suponga que se tienen varias poblaciones y de cada una de ella se extrae una muestra de
tamaño
jo y cada respuesta se clasi
ca en categorías. Estos datos se resumen como conteos en
una tabla de doble entrada, Tabla 15.2. Las columnas se re
eren a las categorías y los renglones
a las diferentes poblaciones. El objetivo es probar cuando las poblaciones son semejantes u ho-
mogéneas con respecto a las probabilidades de las categorías. Es decir, se requiere determinar
cuando la proporción para cada categoría es aproximadamente la misma para todas las propor-
ciones. La prueba se conoce como prueba de homogeneidad y se aplica a tablas de contingencia
que tienen un marginal
jado, el total del renglón corresponde al tamaño de muestras
jado para
cada población.
Grupos de Edad
Tamaño de la compañía 1 2 3 4 5
Pequeña pa1 pa2 pa3 pa4 pa5 1
Grande pb1 pb2 pb3 pb4 pb5 1
Tabla 15.2 Caracterización de una población
La hipótesis nula de no diferencia u homogeneidad, especi
ca que las probabilidades para una
categoría es la misma para todos los renglones o poblaciones.
H0 : pa1 = pb1 ; pa2 = pb2 ; pa3 = pb3 ; pa4 = pb4 ; pa5 = pb5 :
El estadístico para veri
car esta hipótesis se compara con el valor de una distribución 2 con
gl un número de grados de libertad y un nivel de signi
cancia : El procedimiento para construir
el estadístico de prueba se describe en el siguiente algoritmo.
15.1. Análisis de datos categóricos 243
Prueba 2
Hipótesis Nula:
En cada categoría, las probabilidades son iguales para todas las poblaciones.
Estadístico de Prueba
2
P (O E)2 O = frecuencia observada
= ; total columnas
Celdas
E E = total renglonestotal
gl = (No. de renglones-1)(No. de columnas -1)
Región de rechazo 2 2
Ejemplo 2
Se llevó a cabo un estudio para determinar la característica de la edad en dos tipos de compañías
(pequeñas y grandes). Se toma una muestra de 550 empleados, 300 de la pequeña y 250 de la
grande. La frecuencia esperada se muestra en la siguiente Tabla 15.3.
Grupos de Edad
Tamaño de la compañia 1 2 3 4 5 N
Pequeña 42 69 108 60 21 300
Grande 5 18 85 120 22 250
Total 47 87 193 180 43 500
Considerar las categorías para renglones y columnas (puede ser 1,2,3,... o las que el usuario
escoja)
Determinar el valor n = número de celdas. (El número de celdas por renglón y por columna)
P
r P
c
Sumar el número de observaciones total N = Oij , determinar el total renglón i-ésimo
i=1 j=1
P
c P
c
tri = Oij , y total columna j-ésimo tcj = Oij
j=1 i=1
tri tcj
Obtener el valor esperado Eij = N
.
(0i Ei )2
Calcular los i sumandos 2i = Ei
(Contribución a la Ji)
P
n P
n
(0i Ei )2
Sumar los 2i , 2 = 2i = Ei
i=1 i=1
Ejemplo 3
Se realiza un experimento en una prueba de concurso, donde el participante, "se supone ",
adivina la respuesta. Se plantean cinco preguntas con cuatro opciones. Esta prueba se aplicó a
una muestra de 60 individuos. El registro de los datos se reportan en la Tabla 15.4.
¿Hay evidencia de que los individuos respondieron simplemente adivinando?
Solución
Si los individuos adivinan cada respuesta, entonces la probabilidad de una respuesta correcta es
0.25. Así que la pregunta planteada, es equivalente a veri
car si los datos de la muestra descritos
en la Tabla 15.4, siguen una distribución binomial con n = 5 y p = 0:25: La frecuencia esperada,
E; para los diferentes casos, se obtiene bajo el supuesto de que la distribución es una binomial
B(5; 0:25): Para ello se calcula la probabilidad en cada uno de los casos, ésta se multiplica por
el tamaño de la muestra. Con los valores de las frecuencias observadas y esperadas, se calcula el
estadístico 2 :
246 15. Pruebas de bondad de ajuste
Observaciones
1. La fórmula para calcular 2 es válida si todos los valores E son mayores o iguales a 5. Si
el valor de E es mayor que 5, el valor de 2 es sensible, al combinar las otras categorías de
E mayores a 5:
2. Si alguna de las categorías son combinadas para evitar valores bajos de E; el número de
categorías, después de la combinación, se usan en el cálculo de los grados de libertad.
H0 : La muestra de los datos viene de una distribución binomial B(5; 0:25); suponiendo que
los individuos responden adivinando.
H1 : La muestra de los datos no tiene una distribución binomial B(5; 0:25); los individuos
muestran algunos conocimientos sobre las preguntas.
En muchas ocasiones existe el interés por determinar sin un modelo probabilísticos es adecuado
para expresar un fenómeno aleatorio. En esa dirección, lo que se requiere es probar si la muestra
aleatoria seleccionada proviene de una distribución de probabilidad especí
ca. En este apartado
se ilustrará si la muestra de los datos sigue una distribución Poisson. Recuerde que una variable
aleatoria Y de esta distribución, consiste en contar el número y de veces que ocurre un evento
en particular, durante una unidad de tiempo dado, un área o volumen.
Ejemplo 4
Una empresa revisa una muestra aleatoria que contiene 100 artículos de la producción generada
en un día y cuenta el número de defectos en cada artículo. Los datos se resumen en la Tabla 15.5
Número de defectos 0 1 2 3 4
Número de artículos 61 29 6 3 1
¿Se puede concluir que esta muestra de datos viene de una distribución Poisson?
Para responder a esta pregunta se debe realizar la prueba de hipótesis:
x e
Recuerde que la función de probabilidad de Poisson se expresa por P (X) = x!
para
x = 0; 1; 2; ::: En la Tabla 15.6 en la columna 2 se muestra el cálculo de probabilidades.
248 15. Pruebas de bondad de ajuste
(0i Ei )2
Defectos P (x) E = P (x) 100 0i Ei
0 0.583 58:3 61 0:125
1 0.315 31:5 29 0:194
2 0.085 8:5 10:2 6 10 0:004
3 0.015 1:5 10:2 3 10
4 o mas 0.002 0:2 10:2 1 10
En resumen
Ejercicio 1
Número de defectos 0 1 2 3 4 5 6
Número de carros 35 13 6 5 18 10 3
1. Encuentre la media y varianza. ¿Estos valores son aproximadamente iguales? ¿Esto justi-
ca que los datos tengan una distribución Poisson?
2. Use la prueba 2 para conocer si el número de defectos sigue una distribución Poisson.
Ejercicio 2
Número de accidentes 0 1 2 3 4 5 6 7 8 9 10 11 12
Semanas 6 5 4 4 4 2 0 1 2 1 0 0 1
Número de accidentes 0 1 2 3 4
Semanas 6 5 8 6 5
Se prueba esta hipótesis H0 considerando un conjunto de valores que pueden tomar las Xj ; estas
se organizan en k intervalos distintos, es decir:
A continuación la variable aleatoria Xj se plantea como una variable numérica discreta mediante
Yj ; j = 1; :::; n donde Yj se de
ne como sigue:
Figura 15.1: Histograma con 7 clases, se anota la frecuencia en cada una de ellas. Se ajusta una
distribución normal.
Ejemplo 4
El tiempo en que una muestra de 120 estudiantes seleccionados al azar, tarda en responder el
rompecabezas sobre la República Mexicana se describen en el histograma de Figura 15.1-módulo
Grá
cas-. La hipótesis que se quiere probar, es que los tiempos de respuesta X siguen una
distribución de probabilidad normal con media = 500 y desviación estándar = 12. Es decir:
En la Figura 15.2, se muestran estrategias alternativas para evaluar si unos datos siguen una
distribución normal. En la grá
ca de la derecha se han aproximado la distribución empírica de
los datos, el polígono de frecuencias relativas acumulado, y el diagrama que representa la función
de distribución acumulada de una normal. Como se observa se ven muy aproximados. En la
grá
ca de la derecha se ha descrito el papel de probabilidad de una normal. En ambos casos se
observa de manera descriptiva que los datos se aproximan a una distribución normal.
En la Tabla 15.7 se presenta el resumen del cálculo del estadístico de prueba 2 :
15.3. Prueba de bondad de ajuste cuando la variable aleatoria es continua 251
Figura 15.2: Análisis grá co para evaluar si los datos se aproximan a una distribución normal.
(0i Ei )2
Tiempo de respuesta P (Y = i) Ei = P (Y = i) 120 0i Ei
1 [ 1; 471] 0:008 0:96 0 0:96
2 [471; 479] 0:032 3:84 5 0:350
3 [479; 487] 0:099 11:88 15 0:819
4 [487; 495] 0:199 23:88 24 0:001
5 [495; 503] 0:260 31:2 31 0:001
6 [503; 511] 0:222 26:64 22 0:808
7 [511; 519] 0:123 14:76 17 0:340
8 [519; 527] 0:044 5:28 6 0:136
9 [527; +1] 0:012 1:44 0 1:440
4:756
El cálculo de las probabilidades las puede realizar usando la distribución normal o la calcu-
ladora normal en CalEst. Por ejemplo:
La suma de los valores en la última columna de la Tabla 15.7, genera el valor estadístico 2 ,
es decir 2m = 4:756: El área que deja a la derecha esta valor en la Calculadora Chi-Cuadrada es
igual a p = 0:783, con gl = 8: Si se compara p con el nivel de signi
cancia = 0:05 (5%) resulta
252 15. Pruebas de bondad de ajuste
Figura 15.3: Resultado de la prueba de bondad de ajuste para una normal, usando la prueba 2 :
que p es mayor y por lo tanto no se rechaza H0 . Se concluye que los valores de la variable, X;
tiempo de solución del rompecabezas, sigue una distribución normal. La reproducción de este
análisis usando la prueba de 2 cuadrada en el programa se describe en la Figura 15.3:
i i 1
D = Máximo jF (x) S(x)j = Máximo Máximo F (Xi ; (F (Xi ) ;
x 1in n n
(in)
48; 54; 47; 53; 49; 63; 57; 60; 51; 52; 58; 61; 56
Considere un nivel de signi
cancia de 5%, ¿Se puede concluir que estos datos vienen de una
distribución normal con media ( = 55 = 5)? Los valores estimados de estos parámetros
son
b = 54:54 y
b = 5:13:
Los valores máximos para D+ y D son 0:091 y 0:087 respectivamente, así el máximo
(D ; D ) = (0:091; 0:087) = 0:091, ver Tabla 15.8. El valor p > 0:15, en referencia al nivel
+
de signi
cancia se tiene que p > ; de esa manera la muestra no da evidencias para rechazar
H0 : Por lo tanto una distribución normal con media 54:54 y desviación estándar 5:13 se puede
utilizar como modelo para medir el parámetro de calidad del agua.
254 15. Pruebas de bondad de ajuste
Ejercicio 3
En relación a estudios médicos con el objeto de conocer qué tan desarrollado tienen el cerebro,
los médicos experimentan mostrando diferentes tipos de diseños y miden el tiempo de respuesta.
En particular en el caso del diseño, o la cara de un hombre entre semillas de café. Se toma el
tiempo en segundos a una muestra aleatoria de 30 personas.
11 13 14 22 29 30 41 41 51 55 56 59 65 65 66
74 74 75 77 81 82 82 82 82 83 85 85 87 87 88
¿Es razonable suponer que los tiempos de respuesta se distribuyen como una normal?
Ejercicio 4
Se realiza un experimento donde se tiene un grupo control y un tratamiento, las respuestas son
indicadas en:
Control 0.22, -0.87, -2.39, -1.79, 0.37, -1.54, 1.28, -0.31, -0.74, 0.38
-0.17, 0.62, -1.10, 0.30, 0.15, 2.30, 0.19, 0.50, -0.09.
Tratamiento -5.15, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43
7.11, 4.87, -3.10, -5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.5
El responsable de este estudio quiere veri
car si existe diferencia entre el control y el tratamiento.
Veri
que si esto es así realizando:
En ambos casos use el programa. Según los resultados qué puede concluir.
Ejercicio 5
El profesor Sprent tiene en un librero de su biblioteca 114 libros de estadística, de esos tomó una
muestra aleatoria de 12 libros y anotó el número de páginas que tienen cada uno, estas son:
126 142 156 228 245 246 370 419 433 454 478 503
En otro librero dice que tiene sus libros favoritos de
cción y no
cción, (libros en general)
son un total de 143. Anotó el número de páginas de una muestra de 16 libros, ellos tienen:
29 39 60 78 82 112 125 170 192 224 263 275 276 286 369 756
15.4. La prueba Kolmogorov-Smirnov 255
Use la prueba de Kolmogorov-Smirnov para determinar si es adecuado suponer que las dos
muestras vienen de distribuciones poblacionales idénticas.
Pruebas no paramétricas
16.1 Introducción
Las pruebas estadísticas no paramétricas se re
eren a los procedimientos de inferencia que no
requieren que la distribución de la población sea normal o alguna otra distribución especí
ca en
términos de parámetros. Estas pruebas utilizan aspectos simples de una muestra aleatoria de
datos, tales como el signo de las medidas, el orden de la relación o frecuencias de categorías.
Por el momento, en el paquete estadístico sólo se a desarrollado la prueba del signo. En futuras
versiones y en función de la necesidad de los usuarios se ampliará la elaboración de estas pruebas.
H0 : m0 = 75
H1 : m0 < 75
Si m0 < 75 son casos de éxito x = x0 es la referencia para evaluar si los datos apoyan a la
hipótesis nula. Se usa la distribución binomial para estimar el nivel de signi
cancia descriptiva
p: Así:
0
X
p= b(n; x0 ) si p < se rechaza H0
i=0
257
258 16. Pruebas no paramétricas
H1 : m0 > 75;
0
X
p = 1 b(n; i)
i 0
H1 ; m0 6= 75
El nivel de signi
cancia descriptivo es 2p:
Cuando n > 25 se considera un tamaño de muestra grande y el valor de p se calcula por
p = P (Z z0 ):
Si H1 : m0 < 75: La referencia del procedimiento completo se da en la tabla. Donde Z es una
distribución Normal:
x + 0:5
Z= p
0:5 n
Planteamiento
H0 : mediana = 0,
Procedimiento:
1. Determinar el número del tamaño de muestra asignando signos positivos y negativos a los
datos de muestra.n = i + j, donde i el número de signos negativos y j número de signos
positivos.
1. z= (x+0:5)
p
n
0:5n
, este se distribuye como una normal y el caso es igual al caso de la z para
2
(x+0:5) 0:5n
una población. Es decir si zm es mayor o igual al valor crítico zc donde zm = p
n
2
Ejemplo 1
Se cree que las mujeres de las zonas rurales que trabajan en una empresa tienen un salario a la
semana, superior a la mediana de 750. Se entrevista a una muestra aleatoria de 16 mujeres. Los
datos reportados son:
Hipótesis:
H0 : mediana = 750;
H1 : mediana > 750
El mecanismo para veri
car esta hipóteis se basa en comparar los 16 datos con 750. Hay
i = 3 con signo negativo, y j = 12 con signo positivo, entonces n = 15. Hay un empate. Se
calcula la binomial para determinar el valor de p.
15
X
p = P (X 12) = binomial(15; i) = 0:0176
i=12
Salida:
Prueba de Signo para la mediana = 750.0 contra > 750.0
Abajo son los negativos, arriba son los positivos. Puesto que p < = 0:05, se rechaza la
hipótesis nula.
Este procedimiento se puede aplicar a la comparación no paramétrica de dos poblaciones, es
decir la prueba del signo extendida para comparar dos poblaciones.
260 16. Pruebas no paramétricas
Capítulo 17
Diseño de Experimentos
17.1 Presentación
La
nalidad principal de este módulo en el software es generar de manera visual diseños facto-
riales 2k y sus fracciones, una vez seleccionado el diseño, el siguiente paso es realizar el análisis
estadístico básico capturando la información de los resultados experimentales.
También se tiene desarrollada la hoja para generar el diseño de Plackett-Burman. Se com-
plementa con la estructura para obtener la forma y análisis de los diseños factoriales completos.
Finalmente se completa el módulo con diseños básicos de la metodología de super
cie de
respuesta, como son el diseño central compuesto y el Box-Behnken.
Una parte relevante en el paquete, es llevar a cabo prácticas en diseño experimental, con
ese
n se han agregado dos ayudas didácticas denominadas el cañón y el helicóptero. Estos
describen dos artefactos que mediante la simulación se pueden plantear diferentes estrategias
experimentales y aplicar los diseños elaborados en el módulo de diseño de experimentos.
La metodología y el fundamento técnico del diseño y análisis estadístico de un experimento
que forma parte de este módulo, se puede consultar en el libro de Experimentos: Estrategia y
Análisis en Ciencia y Tecnología.
Referencia: Castaño, T. E. y Domínguez, D. J. (2003). Experimentos: Estrategia y Análisis en
Ciencia y Tecnología. CIMAT, México. Por aparecer una nueva edición. Diseño de Experimentos
Estrategias y Análisis Estadísticos en Ciencia y Tecnología.
261
262 17. Diseño de Experimentos
maximizar la respuesta. El cañón tiene tres variables de respuesta estas son altura, distancia y
tiempo. El uso de estos simuladores se planteará como ejercicios más adelante.
La primera opción en la Figura 17.2 son los diseños 2k y sus fracciones, el ejemplo 1 ilustra el
caso de un diseño completo 23 . La hoja de trabajo de diseño, en esa
gura, tiene la posibilidad
de varias selecciones el procedimiento es como sigue:
3. La tercer hoja le permite de
nir el nombre de los factores, los valores y el orden del diseño,
en este caso se ha limitado a dos. Nuevamente tiene las opciones de regresar o continuar.
17.2. Material experimental 263
4. Finalmente aparece la tabla para capturar la información, ver Figura 17.3, en esa existe la
posibilidad de aleatorizar el experimento, seleccionar factores para el análisis estadístico,
pasar la información a una hoja de cálculo.
5. A continuación aprieta la tecla calcular y se despliega el análisis estadístico con una serie
de opciones grá
cas.
Ejemplo 1
Factores Respuesta
A B C
1 1 1 y111 = 65
1 1 1 y211 = 62
1 1 1 y121 = 58
1 1 1 y221 = 68
1 1 1 y112 = 64
1 1 1 y212 = 79
1 1 1 y122 = 62
1 1 1 y222 = 94
y 1 = 62:25 y 1 = 67:50 y 1 = 63:25 y = 69
y 2 = 75:75 y 2 = 70:50 y 2 = 74:75
^ A = 13:50 ^ B = 3:00 ^ C = 11:5
Observe que se han asignando los números -1 y 1 a los dos niveles de los tres factores con el
mismo criterio establecido en el ejemplo anterior, es decir los niveles en el factor A se alternan
17.2. Material experimental 265
uno a uno, en el factor B dos a dos y en el factor C cuatro a cuatro. Se realiza el experimento
llevando a cabo los tratamientos, éstos se obtienen de hacer todas las combinaciones posibles de
los tres niveles de los factores, en este caso resultan 8 tratamientos; por supuesto en la práctica
estos se corren en un orden aleatorio.
^ A = (
y2 y1 ) (17.1)
^ B = (
y2 y1 )
^ C = (
y2 y3 )
^ AB = [(
y22 y12 ) (
y21 y11 )]=2
^ AC = [(
y22 y12 ) (
y21 y11 )]=2
^ BC = [(
y22 y12 ) (
y21 y11 )]=2 (17.2)
Solución
En resumen, los efectos de los factores e interacciones se muestran en las Figuras 17.4, primera
parte, y 17.5 segunda parte, éstas se obtiene a partir del reporte que genera el CalEst
266 17. Diseño de Experimentos
Figura 17.4: Parte 1 del reporte generado por el CalEst para un diseño factorial 2k .
La Figura 17.4 muestra la estimación de los efectos, así como los coe
cientes del modelo de
regresión y el correspondiente error estándar de cada factor; a continuación el valor del estadístico.
Éste último se obtiene mediante la siguiente expresión:
b = 2 (X0 X) 1 :
V ar()
b ) = pmii ;
ES( (17.3)
i
bij
E(bij )
tc =
bij )
ES(
donde tc ; suponiendo que se cumple la hipótesis nula respectiva, tiene una distribución de pro-
babilidad t de Student, con n g grados de libertad t(n g). Donde la hipótesis nula se plantea
para la parte lineal por:
Hlo : i = 0; i = 0; :::; p
Hl1 : i 6= 0
Hco : ij = 0; i; j = 1; :::; p; i 6= j:
Hc1 : ij 6= 0
Ejemplo 2
La
nalidad en este ejemplo es ilustrar el uso de las curvas de nivel, en las opciones grá
cas
en el diseño de experimentos aparece en el último renglón de nivel. Ésta es apropiada para los
268 17. Diseño de Experimentos
El diseño y los resultados se muestran en la Tabla 17.2, estos datos se captura en la hoja del
diseño central compuesto, se realiza el análisis estadístico y se construye el modelo de regresión.
Éste modelo permite llevar a cabo el proceso de optimización de manera descriptiva tal y como
se muestra en la Figura 17.8. Para generar estas curvas se debe ir a la última opción de grá
cas
en diseño de experimentos y seguir el siguiente procedimiento:
1. Aparece un plano de coordenadas, éste contendrá a la curva o las curvas de nivel, para
trazar ésta (s) oprima la opción factores en la parte central superior, ver Figura 17.7
2. En la hoja aparecen indicados los factores que van en el eje horizontal y eje vertical.
También aparecen los factores que han sido parte del experimento, así para que en el caso
de más de dos factores se pueda
jar el tercer factor en los valores que más le convenga al
usuario. Del lado derecho aparecen los valores mínimo y máximo según los niveles de los
factores en el cuadro de la derecha, estos se sustituyeron en el modelo.
270 17. Diseño de Experimentos
Figura 17.8: Curvas de nivel para el diseño central compuesto del ejemplo 2.
3. Luego se selecciona el valor o los valores de las curvas de nivel que desea que aparezcan en
el plano, para cada valor hay que oprimir la echa verde.
4. Se oprime la tecla aceptar y aparece un plano con las curvas de nivel, estas se pueden
mover con el ratón. No aparecerán las que no estén en la región descrita por el plano de
coordenadas.
de respuesta, éste está conformado por el diseño factorial 2k , puntos centrales y aumentado con
puntos axiales.
Diseño factorial: Una serie de pruebas que consiste en la combinación de los niveles de los
factores incluidos en el experimento.
Diseño factorial completo: Es un diseño completo, todas las posibles combinaciones de los
niveles de los factores, que involucra a factores categóricos con dos o más niveles.
Diseño factorial fraccionado: Es un diseño que corresponde a un subconjunto del diseño fac-
torial, estos se generan a partir de las interacciones de los factores que se confunden, usualmente
conocido como generador.
Diseño Plackett-Burman: Es una clase de diseño factorial ortogonal saturado con dos niveles
por cada factor, el número de pruebas o corridas es múltiplo de 4, pueden coincidir con algún
diseño factorial fraccionado 2k-p. Estos diseños son de resolución III.
Efecto: Cambio en el promedio de una respuesta cuando el factor cambia de su nivel bajo
al nivel alto.
Efectos confundidos: Los efectos no se pueden estimar de manera independiente uno de otro,
estos están completamente o parcialmente confundidos.
El término error: Representa la parte aleatoria en el modelo téorico. Los residuales se
usan para estimar su naturaleza. Usualmente se supone que estos tienen una distribución de
probabilidad normal con media cero y varianza constante.
Error experimental: La variación en la respuesta debida a variables extrañas, también con-
siderada por los factores, bloques aunada a la incertidumbre de medición en la respuesta.
Estructura Alias: Es una lista de los factores principales o interacciones que están confundidos
con otras interacciones. Esto es básico en diseño factorial fraccionado, y señala cuando los efectos
principales o interacciones se pueden estimar.
Experimento: Una serie de pruebas que se realizan con el objeto de descubrir el resultado en
un proceso.
Factor: Variable independiente que se manipula en el experimento.
Nivel: Valor de un factor.
Papel de probabilidad semi normal: Es el papel de probabilidad normal considerado a la
derecha del punto cero, corresponde al valor absoluto del efecto de los factores.
Puntos Axiales: Son puntos del diseño que están en los ejes de coordenadas de los factores
equidistantes del punto central, se usan frecuentemente en el diseño central compuesto y se
conocen como puntos estrella.
Puntos centrales: Son pruebas experimentales en las que los factores cuantitativos están en
el punto intermedio de su valor alto y bajo.
Términos aliados: Cuando existen pocos puntos en el diseño experimental, entonces algunos
parámetros del modelo no pueden ser estimados independientemente.
17.2. Material experimental 273
Valores codi
cados: Es una manera de simpli
car los cálculos, en los diseños factoriales de
dos niveles se convierten los niveles alto y bajo en 1 y 1 respectivamente. La codi
cación
permite realizar los cálculos independientemente de las unidades de cada factor.
Ejercicio 1
Niveles
Factores Mínimo Máximo
A: Long. ala 5 15
B: Ancho ala 3 7
C: Altura 1 6
D: Peso 0 20
E: Ángulo 0 90
F: Tipo papel 1 2 3
Tabla 17.3 Factores de control en el helicóptero
Realice el experimento con un diseño 26 3 con los valores que se indican en la Tabla 17.4, use
la hoja de captura en el software para aleatorizar los tratamientos, lleve a cabo los siguientes dos
casos:
1. Haga una sola vez el experimento, anote la respuesta y realice el análisis estadístico.
Ejercicio 2
En el caso del helicóptero existen dos factores de ruido, como se muestra en la Tabla 17.5, donde
( 1) y (1) son los valores codi
cados.
Niveles
Factores Mínimo Máximo
P: Temperatura 15( 1) 25(1)
Q: Humedad 30( 1) 50(1)
Tabla 17.5 Factores de ruido
Desarrolle un diseño factorial 22 para estos factores de ruido. Junto con el diseño experimental
presentado en la Tabla 17.4, se plantea un diseño en un doble arreglo ortogonal como se muestra
en la Tabla 17.6.
P: -1 1 -1 1
TratnFactores A B C D E F Q: -1 -1 1 1 y s
1 1 1 1 1 1 1
2 1 1 1 1 1 1
3 1 1 1 1 1 1
4 1 1 1 1 1 1
5 1 1 1 1 1 1
6 1 1 1 1 1 1
7 1 1 1 1 1 1
8 1 1 1 1 1 1
Tabla 17.6 Doble arreglo ortogonal respuestas media y y desviación estándar
Ejercicio 3
Use los resultados del experimento en un arreglo factorial 28 3 , 32 tratamientos donde los 8
factores son: los 6 de control y los 2 de ruido. Haga el análisis estadístico de este diseño.
¿Resultan signi
cativos los factores de ruido? ¿Existe alguna interacción entre los factores de
ruido y control?
Ejercicio 4
Plantee otros diseños experimentales con otros factores.
17.2. Material experimental 275
Ejercicio 5
En la Tabla 17.7, se plantea los niveles de tres factores para el helicóptero con la
nalidad de
realizar un diseño central compuesto.
2. Realice el experimento.
4. Use las curvas de nivel para encontrar la solución con mayor respuesta.
Niveles
Factores ( 2) 1 0 1 (2)
A: Área 15 30 50 75.6 105
B: Razón 1.63 1.875 2 2.08 2.14
C: Ángulo 15 30 45 60 75
Tabla 17.7 Valores de los niveles en un diseño central compuesto:
Donde los valores de la longitud y ancho del ala para determinar el área y la razón entre esos
valores son:
Ejercicio 6
Tomando como base el cañón, plantee esquemas experimentales similares a los ejercicios ante-
riores con el
n de que al disparar el cañón, éste de en el blanco. Tome como variable de respuesta
la diferencia entre la distancia del blanco y la distancia alcanzada al disparar el cañón.
276 17. Diseño de Experimentos
Capítulo 18
En el mundo real existe una gran variedad de problemas y necesidades de conocimiento, la solu-
ción a diferentes cuestiones y demandas a estas necesidades se dan en base a la información
generada por los datos. La estadística desempeña un papel relevante en la captura e inter-
pretación de esa información. Su
nalidad es generar modelos o esquemas signi
cativos de la
variación que está en todas partes.
Los estadísticos que hace la teoría han desarrollado métodos para solucionar los problemas
relacionados al proceso. Para ello existe un esquema de investigación que se describe en seis
etapas y en resumen se describen a continuación.
2. Las preguntas sobre el tema a estudiar. Los procesos de investigación, o procesos para
generar conocimiento inician haciéndose preguntas.
3. Diseño del método para la colección de datos. La colección de los datos usualmente se
obtienen mediante la realización de un experimento, una encuesta o estudios de observación.
Todos estos requieren de una metodología estadística para obtener la información.
4. Colección de los datos. Este involucra la fase de diseño tanto experimental como en en-
cuestas.
5. Resumen y análisis. Uno de los objetivos de este libro está en los métodos para resumir y
analizar los datos, éstos últimos en el marco de estructuras simples.
277
278 18. Proyectos de estudios estadísticos
6. Respuestas. Una vez realizados los análisis se llega a la etapa de interpretar los datos, así
responder a las preguntas planteadas.
A continuación se planean una serie de problemas con el objetivo de generar sus datos propios.
Estos se pueden realizar con los alumnos en diferentes cursos, conviene tomar estos ejemplos como
referencias, planear estrategias y objetivos en función de la clase. Además que estos les permitan
proporcionar ideas para complementar la problemática planteada y elaborar otros proyectos
relacionados a sus intereses.
Actividades
Que una persona -alumno/estudiante- seleccione a 10 personas y pregunte sobre el consumo
de energía del último recibo, haga un diagrama de caja e interprete el resultado. Estime
las medidas de tendencia central, dispersión y posición e interprétalas.
Responda a:
¿Son diferentes los diagramas de caja entre las personas que tienen horno de microondas y
las que no lo tienen?
Construya un intervalo de con
anza del 95% para el promedio y varianza del consumo de
energía.
Pruebe la hipótesis; ¿el promedio de consumo de energía entre los que tienen horno de
microondas es diferente de los que no lo tienen?
Actividades
1. Seleccione de manera aleatoria a 50 estudiantes y propóngale que resuelva el rompecabezas.
Alternativas: pueden juntarse por equipos de cinco, cada persona del equipo entreviste a
10 compañeros. Junte los datos con otros equipos.
2. Con estos datos realice un estudio descriptivo tal que contenga los siguientes puntos.
280 18. Proyectos de estudios estadísticos
(a) Hacer los cálculos estadísticos en el tiempo de solución y porcentaje de fallas. Realizar
las interpretaciones correspondientes.
(b) Elaborar la tabla de frecuencia e histograma para la respuesta tiempo de solución e
interpretar la grá
ca.
(c) Completar el estudio con el polígono de frecuencias, diagrama de caja, el diagrama
de tallo y hoja. Relacionarla con la información de los incisos previos y hacer inter-
pretaciones.
(d) Realizar la comparación del polígono de frecuencias, distribución empírica con la dis-
tribución normal.
(e) Hacer un estudio similar para el porcentaje de fallas.
3. Nuevas preguntas sobre la naturaleza del problema, por ejemplo proponga que los partici-
pantes vean ahora el mapa de la República y que vuelvan a resolver el rompecabezas.
(b) Es interesante en este caso comparar los diagramas de tallo y hoja, así como los
diagramas de caja, con referencia al antes y después.
(c) Se pueden plantear pruebas de hipótesis sobre el antes y después además interpretar
los intervalos de con
anza.
5. Abordar otros estudios: presentar un mapa de la República señalada con los meridianos y
paralelos. Enseguida volver a tomar el tiempo de solución del rompecabezas.
(a) Ahora se tienen tres situaciones diferentes se pueden plantear diferentes preguntas. En
primera instancia se pueden comparar diagramas de tallo y hoja, así como diagramas
de caja.
(b) Se pueden hacer pruebas de hipótesis sobre las tres poblaciones, así plantear el esquema
de un diseño completamente al azar.
(c) Se pueden hacer comparaciones entre grupos de edad, conocimientos, género entre
otros. Así realizar pruebas de hipótesis de homogeneidad e independencia. Pruebas
no paramétricas.
Actividades:
1.3 Calcule los estadísticos: medidas de tendencia central, dispersión y posición e interprete.
1.4 Compare la distribución de frecuencias acumulada con la normal e interprete.
2. Muestre la transparencia a 10 mujeres y 10 hombres y registe el tiempo de respuesta. (En
este caso no considere la edad).
2.1 Haga un diagrama de caja para describir el tiempo empleado por las mujeres y otra para
el tiempo realizado por los hombres, interprete sus resultados.
2.2 Calcule medidas de tendencia central, dispersión y posición e interprete.
2.3 Junte esta información con 10 personas y realice las actividades similares a los indicados
en 1.2 y 1.3, tanto para mujeres como para los hombres e interprete.
3. Muestre la transparencia a 10 personas de los siguientes dos grupos de edad; grupo 1,
menores de 30 años y grupo 2, mayores de 30 años. En cada caso registe el tiempo.
3.1 Realice actividades similares a la de los puntos 2.1 y 2.2.
4. Plantee otras estrategias considerando el género (mujer, hombre) y grupos de edad. Pro-
ponga algunos criterios para de
nir grupos de edad. Muestre la transparencia a los grupos
de
nidos y plantee el análisis de estadística descriptiva similar a las actividades anteriores.
5. Considere que el tiempo promedio de respuesta es de 110 segundos. Plantee la siguiente
prueba de hipótesis:
H0 : = 110
H1 : < 110
Tome una muestra de 30 personas para veri
car esta a
rmación. Por el momento suponga
que ésta variable se distribuye como una distribución normal.
5.1 Calcule la media, la desviación estándar y la desviación estándar de la muestra.
5.2 En el grupo de opciones didácticas del paquete, use el de prueba de hipótesis H0 , plantee
varios escenarios para realizar esta prueba; por ejemplo diferentes valores en cada caso identi
que
el valor del umbral: estadístico de prueba. Diferentes valores para la hipótesis alternativa.
5.3 En cada escenario en el punto 5.2 ubique el valor de la media x calculado en 5.1. Obtenga
sus conclusiones.
5.4 Realice la prueba de hipótesis usando la opción que corresponde en módulo de inferencia
en el paquete. Compare con lo visto en las actividades 5.2 y 5.3. Interprete sus resultados. Use
la distribución normal para visualizar su información.
6. Tome una muestra de 15 personas para veri
car la hipótesis:
6.1 Abra un archivo en el paquete para capturar la información.
6.2 Gra
que la distribución t-Student con gl = 14 y = 0:05; señale el área a la izquierda
que deja el valor de y compare el valor del umbral con el valor de la media de la muestra. ¿Qué
observa? Interprete.
283
H 0 : 1 2 = 0
H 1 : 1 2 6= 0
Ejemplo 3
Realice la siguiente práctica ponga en una tarjeta blanca las 16 palabras que se indican en la
Tabla de abajo. Luego muestre en un lapso de 20 segundos esa tarjeta a una persona. Deje pasar
un minuto y pídale que le diga las palabras que recuerda; pero no puede tardarse más de un
minutos. Anota el número de palabras que recuerda, repite la actividad con otras 25 personas.
4. Pruebe la hipótesis de que la proporción de personas que recuerdan más de ocho palabras
es de 0.20, es decir:
H0 : p = 0:20
H1 : p < 0:20
5. Si se deja la tarjeta por un lapso de 40 segundos ¿Las personas recordarán más palabras?
¿Cómo veri
caría su respuesta?
6. Plantee otras actividades relacionadas con esta práctica, por ejemplo considerar factores
cpmo la edad, el género, el color de la tarjeta, el tamaño de la letra.
18.0.7 Simulación
Existen algunas estrategias para generar datos, el análisis e interpretación de estos permiten sim-
ular situaciones aproximadas a la realidad. Por ejemplo, en la actividad industrial se desarrollan
procesos con la
nalidad de manufacturar un producto. Tanto la calidad del producto como
la e
ciencia del proceso son evaluados por una o varias respuestas. Es común en cada proceso
que existan diversos factores que afecten esa salida. En el capítulo anterior se han mostrado los
prototipos tales como el helicóptero y el cañón para generar información, ahí se usaron como
una estrategia experimental. Aquí se ilustrarán con dos ejemplos algunas ideas para realizar
actividades y de esa manera generar datos con el
n de realizar análisis estadísticos. Con estos
usted puede planear muchas prácticas para realizar análisis estadísticos.
Ejemplo 4
2. Junte esta información con 10 personas para obtener 150 datos, realice un estudio descrip-
tivo de esta información.
3. Suelte el helicóptero 15 veces en la opción mejora con una humedad de 50 y registre el
tiempo de caída. Con esos valores obtenga los valores de los estadísticos y haga el diagrama
de caja. Compare el análisis estadístico de este punto con el del 1.
285
4. Realice la prueba de hipótesis de que los helicópteros tienen un tiempo de caida en promedio
diferente. Es decir:
H0 : 1 2 = 0
H1 : 1 2 6= 0
5. Realice otras prácticas, por ejemplo puede ir variando la longitud del ala, únicamente del
helicóptero, desde 5 hasta 15 de uno en uno registre en cada caso dos veces el tiempo de
caída. Haga un análisis de regresión de la longitud del ala con el tiempo de caída.
Ejemplo 5
Tome como referencia el prototipo del cañón realice las siguientes actividades.
2. Ponga el blanco a una distancia de 5 metros, realice 10 disparos. ¿Cuántas veces dió en
el blanco? ¿Qué estrategia puede seguir para dar en el blanco? Realice un planteamiento
estadístico para alcanzar tal
n.
3. Elabore una serie de prácticas para llevar a cabo diferentes métodos estadísticos.
Referencias
1. Breyfogle I I I, F.W. (2003). Implementing Six Sigma. 2nd Ed. Wiley, United States of
America
3. Escalante, V.E. (2004). Seis Sigma Metodología y Técnicas. Limusa Noriega Editores,
México.
5. Press, W., Teukolsky, S., Vetterling, W., Flannery B. (2002) Numerical Recipes in C++
2nd Ed. Cambridge University Press. New York.
7. Triola M. (2008). Essentials of Statistics, 3rd ed. Pearson Education, Inc. Boston, MA
9. Wall, K. (2000). Programación en Linux: con ejemplos. Pearson Education, Inc. Buenoss
Aires, Arg.
287
288 ´NDICE
ojiva, 16
permutación, 63
Probabilidad Clásica o Teórica, 43
probabilidad con ruletas, 52
Probabilidad Empírica, 42
Probabilidades mediante extracción de canicas,
56
Probabilidades usando rami
caciones, 56
prueba de hipótesis, 143
error tipo I, 145, 179
error tipo II, 145, 179
modelo de regresión, 215
modelo regresión múltiple, 230
muestras independientes, 182
procedimiento, 145
razón de varianzas, 195
rango muestral, 27
Regla aditiva, 44
regla empírica, 85
residuales, 212
tabla de frecuencias, 9
teorema de límite central
ilustración, 136
variable aleatoria, 70
variable discreta, 71
varianza muestral, 29