Está en la página 1de 848

UNIVERSIDAD AUTNOMA DE CD.

JUREZ

INSTITUTO DE INGENIERA Y TECNOLOGA

DEPARTAMENTO DE INGENIERA CIVIL Y AMBIENTAL

MTODOS ESTADSTICOS PARA LA


INGENIERA AMBIENTAL Y LA CIENCIA

DR. HCTOR ADOLFO QUEVEDO URIAS

AGOSTO DE 2006
Copyright 2006. Mtodos Estadsticos para la Ingeniera Ambiental y la Ciencia.
Hctor Adolfo Quevedo Uras

Es propiedad del autor. Queda hecho el depsito que marca la ley.

Advertencia

Prohibida la reproduccin de este libro, adems de los esquemas e ideas originales del
autor que se hallan en este texto, ya sea por medios electrnicos, mecnicos,
fotocopiado o de cualquier otra forma, puesto que todo esto pertenece al dominio de
la propiedad intelectual y est protegido por la ley.

Para revisores, crticos o reseadores literarios, a quienes se les asigne la tarea de


hacer revisiones literarias de esta obra, lo pueden hacer, previo acuerdo con el autor.

Impreso en Cd. Jurez, Chihuahua, Mxico

Library of Congress Cataloging in Publication Data


Hctor Adolfo Quevedo Uras

Este libro fue publicado en el Internet en Enero de 2006 por la Biblioteca Virtual de la
Universidad Autnoma de Cd. Jurez.

La direccin electrnica del libro es:

http://bivir.uacj.mx/LibrosElectronicosLibres/UACJ/ua00001.pdf
CONTENIDO
Pgina
Introduccin i

Captulo 1 Estadstica Descriptiva 1-1

Definicin de estadstica.- Poblacin y muestra.- Estadstica inductiva y de inferencia.-


Estadstica descriptiva.- Variables continuas y discretas.- Medidas de tendencia central.-
Medidas de dispersin.- La variable aleatoria estandarizada z.- Las desviaciones del
promedio.- El rango.- Sesgo y kurtosis.- Distribuciones de frecuencia.- Diagramas de tallo y
hoja.

Captulo 2 Probabilidad 2-1

Probabilidad de frecuencia relativa.- Probabilidad subjetiva.- Axiomas y propiedades


bsicas de la probabilidad.- Diagramas de Venn y lgebra de conjuntos.- Tcnicas de
conteo: Regla de producto para pares ordenados, la regla de multiplicacin ms general,
regla factorial, diagramas de rbol, permutaciones y combinaciones.- Regla multiplicativa
para eventos dependientes e independientes.- Regla aditiva para eventos mutuos
excluyentes y eventos no mutuos excluyentes.-

Captulo 3 Distribucin Binomial e Hipergeomtrica 3-1

Aplicaciones generales de la distribucin binomial.- Relacin entre la distribucin normal


y la distribucin binomial.- Relacin entre la distribucin binomial y la distribucin de
Poisson.- La distribucin hipergeomtrica.- Suposiciones y propiedades de la distribucin
hipergeomtrica.-

Captulo 4 Distribucin de Poisson 4-1

Aplicaciones de la distribucin de Poisson.- Condiciones que se requieren para aplicar la


distribucin de Poisson.- Funciones probabilsticas de la funcin de Poisson.- Aplicacin
de la distribucin de Poisson dentro de sus propios trminos y como una aproximacin a
la distribucin binomial.- Propiedades de la distribucin de Poisson.- Problemas de la
distribucin de Poisson usando el programa Minitab.

Captulo 5 Distribuciones de Probabilidad Continua 5-1

Funcin de densidad de probabilidad de la variable aleatoria continua X.- Frmula


fundamental del clculo.- Distribucin normal y sus caractersticas.- Relacin entre la curva
normal y la binomial.- reas bajo la curva normal.- Distribucin exponencial.- Distribucin
Gamma.- Distribucin Weibull.- Intervalos de confianza para .- Estadstica de inferencia:
teora de decisin estadstica y pruebas de hiptesis.- Pruebas de hiptesis estadsticas.
Hiptesis nula (Ho:) e hiptesis alternativas (H1:, H2:, H3:).- Tipos de errores I (alfa) y II
(beta).- Pruebas de hiptesis no tradicionales usando el valor de la probabilidad p.- Pruebas
de hiptesis para uno y dos promedios poblacionales (1, y 2).- Pruebas de hiptesis para
las diferencias de dos promedios poblacionales (1 2), para muestras grandes (n 30)
usando la distribucin normal, con varianzas conocidas e iguales (21 = 22).- Intervalos de
confianza para dos promedios poblacionales.- Pruebas de hiptesis e intervalos de confianza
para proporciones.-

Captulo 6 Distribuciones de t de Estudiante, JI Cuadrada y F 6-1

Propiedades de la distribucin de t de Estudiante.- Intervalos de confianza para el promedio


poblacional .- Prueba de hiptesis para .- Prueba de t pareada para detectar diferencias
entre dos tratamientos.- Prueba de t para probar la hiptesis de dos promedios, cuando las
varianzas son iguales.- Prueba de t para probar la hiptesis de dos promedios cuando las
varianzas son desiguales.- Mecanismos para calcular el valor de p cuando se hacen pruebas
de hiptesis no tradicionales.- Intervalos de confianza y pruebas de hiptesis con la JI
cuadrada, (2).- Aplicacin de la JI cuadrada en cuanto a la prueba de bondad de ajuste
comparando las frecuencias observadas y las frecuencias tericas.- Distribucin F y su
aplicacin en la comparacin de varianzas muestrales.-

Captulo 7 Anlisis de Varianza 7-1

Diseos de anlisis de varianza completamente aleatorizados y diseo de bloques


aleatorizados.- Mtodo de comparaciones mltiples para saber cuales poblaciones son
iguales y cuales son desiguales.- Anlisis de varianza de diseo de bloques
aleatorizados.- Suposiciones del modelo de bloques aleatorios completos.- Anlisis de
varianza en dos sentidos.- Interaccin con ANOVA de dos factores.- Anlisis de varianza
en tres sentidos: diseo completamente aleatorio.- Interaccin con ANOVA de diseos
factoriales de tres clasificaciones.- Ejemplos de ANOVA usando el programa Minitab.-

Captulo 8 Regresin Lineal Simple y Mltiple 8-1

Suposiciones del modelo de regresin lineal.- Ecuaciones normales para calcular el


intercepto en la ordenada a y la pendiente b de la curva o lnea de regresin.- Coeficiente de
determinacin R2 de la muestra que estima a 2 el coeficiente de determinacin
poblacional.- Coeficiente de correlacin R de la muestra que estima a , el coeficiente de
correlacin poblacional.- Intervalo de confianza para el coeficiente poblacional
componente de la lnea de regresin Y|X = + X, estimado por b, la pendiente de la
lnea.- Intervalo de confianza para el parmetro poblacional , el intercepto de la
ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a.- Hiptesis nula de
Ho: = o contra las hiptesis alternativas de H1: < 1 y H2: > 1.- Hiptesis nula de Ho:
= o contra las hiptesis alternativas de H1: o, H2: > o, y de H3: < o.- Intervalo
de confianza para Y|X de la lnea poblacional estimada por Y.- Regresin y correlacin
mltiple.- Mtodos para validar el modelo de regresin lineal simple y mltiple: a travs de
estadstica de inferencias y a travs del anlisis grfico de los residuales estandarizados.
Procedimiento de regresin mltiple usando el programa Minitab.-

Captulo 9 Regresin Polinomial 9-1

Modelos polinomiales de segundo orden (k = 2) con una variable independiente.- Modelo de


polinomios de tercer orden (k = 3), con una variable independiente.- Modelo de segundo
orden (cuadrtico) con interaccin.- Modelo polinomial (de segundo orden o cuadrtico),
con tres variables independientes con interaccin.- Evaluacin de los modelos de
regresin.- Prueba estadstica para comparar la suma de los cuadrados del error (SSe) de
cada modelo probado, para saber cual modelo es superior.- Modelos de regresin no lineales
y de regresin logstica.- Modelos de regresin exponenciales paramtricos, con una sola
variable independiente.- Procedimientos para la Identificacin de valores atpicos extremos.
Diagnstico y mitigacin de multicolinealidad.- Medidas para corregir multicolinealidad
severa.- Ejemplos de problemas de regresin polinomial usando el programa de
computadora Minitab.- Autocorrelacin en datos de series de tiempo.- Heteroscedasticidad y
homoscedasticidad.- Prueba de White para el problema de heteroscedasticidad.-

Captulo 10 Estadstica no Paramtrica. El modelo de Distribucin


de ANOVA Libre 10-1

Ventajas de los mtodos no paramtricos.- Desventajas de los mtodos no paramtricos.-


Prueba de H de Kruskal-Wallis para anlisis de varianza por rangos.- Pruebas de hiptesis
con las funciones no paramtricas.- Procedimientos de pruebas de Kruskal-Wallis para
ANOVA simple.- Pruebas de hiptesis no tradicionales, para la prueba de Kruskal-Wallis,
es decir, usando el valor de la probabilidad p.-

Captulo 11 Series de Tiempo 11-1

Clasificacin de los movimientos de las series de tiempo.- Tendencias a largo plazo.-


Componentes cclicos de series de tiempo.- Variaciones estacionales.- Variacin irregular.-
Mtodos para encontrar lneas de tendencia.- Lnea de los cuadrados mnimos y parbolas
de los cuadrados mnimos.-

Captulo 12 Seleccin del Tamao de la Muestra 12-1

Derivacin de la frmula para estimar el tamao ms apropiado de la muestra para el


promedio.- Seleccin del tamao de la muestra para dos poblaciones.-

Apndices

Apndice A Lista de Tablas Estadsticas Apndice-A


Apndice B Bibliografa Apndice-B

Apndice C Papel de grfica Apndice-C

Apndice D ndice Apndice-D


Introduccin
La estadstica y los mtodos probabilsticos o estocsticos juegan un papel muy
importante en todas las fases del comportamiento humano. El uso de la probabilidad y
de la estadstica se ha extendido, no tan solo a las reas tradicionales universitarias o
escolsticas, sino tambin a todos los campos de la ingeniera, la agricultura, la
biologa, la qumica, las comunicaciones, la economa, la electrnica, la medicina, la
fsica, las ciencias polticas, la psicologa, la sociologa, las encuestas polticas, la
mercadotecnia, la ecologa, la meteorologa, y as sucesivamente.
Este texto de probabilidad y de estadstica, est diseado para cursos de
postgrado de la Ingeniera Ambiental y la Ciencia. Este libro es una compilacin de
ms de 25 libros de referencias bibliogrficas de probabilidad y de estadstica
orientados, no tan solo a la ingeniera ambiental, sino tambin a la ingeniera en
general, la economa, la qumica, la fsica, la agricultura, la medicina, etc. Este texto
consta de ms de 700 pginas que incluyen conceptos tericos, muchos ejemplos
prcticos y muchos ejercicios. El autor de este texto, sin intenciones de ufanarse,
incluye un diseo de una frmula (que no aparece en los libros de estadstica) para
interpolar, manualmente, valores y estimar la probabilidad p.
En verdad, el propsito de este texto es el de ayudar al lector a entender los
conceptos, ideas y funciones de la probabilidad y de la estadstica aplicados a
problemas de la ingeniera ambiental y a la ciencia. Este texto deber ser tambin til
para aquellos estudiosos quienes deseen hacer aplicaciones de la probabilidad y de la
estadstica a problemas de la ingeniera en trminos generales, as como tambin a la
investigacin.
Cada captulo se inicia con definiciones pertinentes y claras, teoremas y
i
principios, con material abundante de grficas, de materiales descriptivos y de
muchos ejemplos y ejercicios.
Por ejemplo, el Captulo 1 da la introduccin a la estadstica clsica. Este
captulo da una clara distincin entre lo que es una poblacin y una muestra. Este
captulo habla, adems, de estadstica descriptiva y de distribuciones de frecuencia.
Ms adelante, el Captulo 2 habla de la teora de probabilidad y todo lo relacionado
con la probabilidad clsica. Despus, los Captulos 3 y 4 hablan de las distribuciones
discretas, como la binomial, la hipergeomtrica y la Poisson. Aqu se incluye el
concepto de la lgica deductiva, la cual es un concepto de difcil entendimiento. El
Captulo 5 describe las funciones continuas de probabilidad, especialmente la
distribucin normal, adems, de las distribuciones Weibul, exponencial, Gamma, etc.
El Captulo 6 habla de la teora de muestreo pequeo como la t de Estudiante, JI
cuadrada y la distribucin F. En este rengln, en las pruebas de hiptesis, para el
control de calidad, se habla de la lgica inductiva, que es un concepto de difcil
entendimiento y discutido en poqusimos libros de estadstica. Adems, el Captulo 7
est relacionado con diseos de anlisis de varianza completamente aleatorizados y
diseos de bloques aleatorizados. Este captulo tambin discute modelos factoriales
de dos y tres clasificaciones. El Captulo 8 est relacionado con regresin lineal
simple y mltiple. El Captulo 9 est relacionado con regresin polinomial, el cual
incluye modelos polinomiales de segundo y tercer orden, con una variable
independiente y con ms de dos variables regresivas. Este captulo habla tambin de
modelos de regresin no lineales de regresin logstica y de modelos exponenciales
paramtricos, con una sola variable independiente. Ms adelante, el Captulo 10 habla
de pruebas no paramtricas. Otros, el Captulo 11 habla de las series de tiempo.
Finalmente, el Captulo 12 habla de mtodos para seleccionar el tamao de muestra
ii
ms apropiado.
Este texto, adems, incluye varios apndices con tablas de las distribuciones
binomiales, de Poisson, normal, de t de Estudiante, de F, de JI cuadrada, etc.
Igualmente, este texto incluye una serie de referencias bibliogrficas. Finalmente, este
libro de estadstica incluye una seccin que contiene ms de 340 ejercicios
relacionados con cada captulo y ejemplos usando el programa de computadora
Minitab y Excel. En este contexto, este texto de estadstica da muchos ejemplos de
problemas usando el paquete de computadora Minitab, es decir, describiendo el uso
del Minitab con minuciosidad de detalles; situaciones presentadas por muy pocos
libros de estadstica.
Para concluir, debo decir que este es un texto de estadstica diseado para los
estudiantes de ingeniera ambiental de posgrado y de la ciencia en general. Es decir,
para aquellos investigadores quienes deseen encontrar, prcticamente, todos los
conceptos de la probabilidad y de la estadstica, que les pueda ayudar en el desarrollo
de su profesin de ingeniera, en la investigacin o en cualquier otra rea de la
ciencia en general.

iii
Dr. Hctor Quevedo Uras

CAPITULO 1

Estadstica Descriptiva

Definicin de estadstica.- Poblacin y muestra.- Estadstica inductiva y de


inferencia.- Estadstica descriptiva.- Variables continuas y discretas.- Medidas
de tendencia central.- Medidas de dispersin.- La variable aleatoria
estandarizada z.- Las desviaciones del promedio.- El rango.- Sesgo y kurtosis.-
Distribuciones de frecuencia.- Diagramas de tallo y hoja.

Estadstica es el estudio de los mtodos para coleccionar, resumir, organizar,


presentar y analizar informacin de datos. El trmino estadstica tambin se refiere a
la derivacin de conclusiones vlidas y a la formacin de decisiones razonables, en
base a semejantes anlisis. En la coleccin de datos de un grupo de observaciones, a
menudo es imposible o imprctico observar toda la poblacin. De manera qu, en
lugar de examinar el grupo en su totalidad, llamado la poblacin o universo, es
conveniente examinar solamente una parte de la poblacin llamada muestra.
Poblacin se refiere a un grupo de tems que tienen una caracterstica en
comn. Una poblacin puede ser definida como un grupo de individuos, como por
ejemplo, una persona, un animal, un objeto o una medicin. Adems, una poblacin
puede ser finita o infinita. Por ejemplo, la poblacin consistente de todos los tornillos
producidos en una fbrica, en un da, es finita. En contraste, la poblacin consistente
de todos los posibles resultados (caras o guilas) de los lanzamientos sucesivos de una
moneda es infinita. A menudo la poblacin no existe pero, sin embargo, es de
importancia. Por ejemplo, al estudiar un nuevo colorante para telas de algodn
podemos probar el nuevo colorante, con solamente 10 piezas de un metro del material

1-1
Dr. Hctor Quevedo Uras

y hacer mediciones de la resistencia del colorante. La muestra consiste de 10 piezas


de algodn tratadas con el colorante. La poblacin consiste de todas las piezas de
algodn posibles de un cierto tipo que pudieran ser tratadas con el nuevo colorante.
Esta poblacin no existe. Sin embargo, la poblacin total nos la podemos imaginar al
estudiar las 10 piezas de algodn con el objeto de hacer inferencias.
En el caso de una muestra, esto se refiere a una estadstica y es un estimador de
un parmetro de poblacin. Por ejemplo, si X denota el promedio aritmtico
estadstico de una muestra, entonces, X es el estimador del parmetro de todo el
conjunto o poblacin. Sin embargo, en contraste como se dijo antes, es imprctico o
imposible observar toda la poblacin, por esta razn se examina una pequea parte
del grupo o poblacin llamada muestra estadstica. Aqu, es conveniente introducir
trminos tales como muestra aleatoria o al azar, muestreo, estadstica inductiva o de
inferencia y estadstica descriptiva. Tambin es muy crtico distinguir entre los
trminos parmetros (donde se usan smbolos griegos) versus estadsticas. Los
parmetros se refieren a poblaciones infinitas o finitas. Sin embargo, las estadsticas
ser refieren a una muestra. Por ejemplo, si una muestra es representativa de una
poblacin se pueden sacar conclusiones importantes acerca de esta poblacin. Sin
embargo, es importante notar que la muestra debe ser aleatoria, porque de otra
manera, la inferencia acerca de la poblacin ser invlida.
Con respecto a la estadstica inductiva y a la estadstica de inferencia, stas se
refieren al proceso de inferir conclusiones acerca de una poblacin basndose en un
muestreo aleatorio (al azar), de tal manera que la probabilidad de tener una inferencia
correcta puede ser determinada de acuerdo con varias hiptesis concerniendo la
poblacin bajo estudio. Dicho en otras palabras, debido a que semejante inferencia no
puede ser absolutamente cierta, el lenguaje de probabilidad es, a menudo usado en la

1-2
Dr. Hctor Quevedo Uras

presentacin de los resultados o conclusiones.


En contraste, la fase de estadstica que busca nicamente describir y analizar
datos de una distribucin continua (como la normal), sin sacar ninguna conclusin o
inferencia acerca de la poblacin o universo, se denomina estadstica descriptiva.
Aqu se incluyen trminos como coleccin de datos sin procesar, formacin de datos
en orden descendiente o ascendente (cuya diferencia entre el mayor y menos se
denomina rango), distribuciones de frecuencia, que es un trmino para describir el
arreglo relativo de un conjunto de elementos de los valores de una variable y de las
frecuencia de ocurrencia de cada valor (la ms importante llamada curva normal y t
de estudiante). Otros trminos usados en estadstica descriptiva son promedios
aritmticos, promedios geomtricos, promedios armnicos, medianas, modas,
percentiles, desviaciones estndar, varianzas, etc., pero, sin sacar inferencias del
grupo que provienen.
Sin embargo, con relacin a la estadstica descriptiva y la estadstica de
inferencia, en el caso de la estadstica descriptiva, este tipo de estadstica incluye la
presentacin de conjuntos de observaciones, de tal manera que puedan ser
comprendidas e interpretadas y sirven para resumir o describir datos. En cambio, la
estadstica de inferencia se relaciona con estimaciones de magnitudes de poblaciones
y pruebas de acerca de las caractersticas de la poblacin. Ambas son tiles para
determinar cual entre dos a ms cursos de accin se siguen cuando el curso correcto
es determinado por una caracterstica particular o desconocida de la poblacin.
En el campo de la ingeniera (como en la ingeniera ambiental) y ciencias
experimentales el uso de la estadstica es requerido en el diseo de plantas de aguas
residuales e industriales, en el diseo de chimeneas industriales, en el diseo del
equipo de control de la contaminacin, en pruebas de rutina de laboratorio, en

1-3
Dr. Hctor Quevedo Uras

trabajos de investigacin y en la produccin de calidad y construccin. Por ejemplo,


en el laboratorio si el muestreo es preciso o si la variabilidad de nuestros resultados es
mayor de lo esperado, entonces hay que corregir la variacin refinando las tcnicas de
laboratorio o incrementando el tamao de la muestra.
En el campo de la investigacin tal vez estemos interesados en saber si un
cambio es un ingrediente que afecta las propiedades del material resultante, para
comparar la eficiencia de procesos o de mquinas probadoras; para determinar si los
resultados obtenidos encajan en una forma postulada o sospechada. Otra aplicacin
muy importante es el control de la calidad en la ingeniera industrial.
Con relacin a las variables continuas y discretas, en este caso se dice que una
variable aleatoria es una funcin que asigna un valor numrico a cada evento simple
en un espacio de la muestra. As, una variable aleatoria continua puede asumir una
figura innumerable y, tericamente, puede asumir cualquier valor entre dos valores
dados. Por ejemplo las alturas de una persona pueden ser 62.0 pulgadas, 63.8
Pulgadas, 65.8456 Pulgadas, etc. En contraste, una variable es discreta si puede
asumir, solamente, un nmero contable de posibles valores.

Medidas de tendencia central o de localizacin: el promedio, la mediana y la


moda. Smbolos usados en las sumatorias de estadstica:
n
El smbolo Xj se usa para denotar la suma de todas las
j=1

Xjs, desde j = 1 hasta j = N.

n
Ejemplo #1. Xj = X1 + X2 + X3 + ... + Xn
j=1

1-4
Dr. Hctor Quevedo Uras

n
Ejemplo #2. XjYj = X1Y1 + X2Y2 + X3Y3 + ...+ XNYn
j=1

n
Ejemplo #3. aXj = aX1 + aX2 +...+ aXn
j=1

n
= a(X1 + X2 +,..,+ Xn) = a Xj
j=1

Ntese la diferencia entre X 2 y (X)2

La suma de los cuadrados (SS), es decir, la suma de las desviaciones al cuadrado de X


de su promedio X se denota como:
kn
La suma total de los cuadrados = (Xi - X )2 = SS (1-1)
i=1

= X 2 - (X)2/n

El promedio aritmtico
El promedio aritmtico es un valor el cual es tpico o representativo de un conjunto de
datos de distribuciones continuas. Existen diferentes tipos de promedios. Los ms
comunes son el promedio aritmtico, la mediana, la moda, el promedio geomtrico, el
promedio harmnico, etc. Cada uno tiene sus ventajas y desventajas dependiendo de
los datos y el propsito a seguir. El promedio aritmtico no se debe usar como
sinnimo de promedio o media, porque hay otros tipos de promedios.
El promedio aritmtico es un valor que representa un conjunto de datos; es una
medicin de tendencia central. El promedio aritmtico es el estimador del parmetro

1-5
Dr. Hctor Quevedo Uras

de poblacin, y se define como:

X = (X1 + X2 + X3 +...+ Xn) / n = Xj / n = X/n (1-2)

Si los nmeros X1, X2, X3,,Xk ocurren f1, f2,,fk veces, es decir, con datos
agrupados, entonces:
X = fXi / n (1-3)

Con las distribuciones continuas, es de notarse qu, el promedio aritmtico, X


es un estimador de , es decir, del parmetro de poblacin. En muy raras ocasiones se
conoce (toda la poblacin), siendo as, entonces, se calcula directamente.

Ejemplo #4. El promedio de una muestra de observaciones de ciertos anlisis de


aguas, cuyos valores son 8, 3, 5, 12, 10, es:

X = (8 + 3 + 5 + 12 + 10)/5 = 38/5 = 7.6

Ejemplo #5. Calcular X , de una muestra de 5, 8, 6, y 2 casos que ocurren con una
frecuencia de de 3, 2, 4, y 1.
X = [(3)(5) + (2)(8) + (4)(6) + (1)(2)]/(3+2+4+1) = 5.7

La mediana
~
La mediana, X es el valor de en medio de un grupo de nmeros u observaciones
(puestas en forma ascendente) o el promedio aritmtico de los dos valores de en
medio. Geomtricamente hablando, la mediana es el valor de X (abscisa)
correspondiente a esa lnea vertical que divide a un histograma en dos partes teniendo
reas iguales. La mediana es una posicin de promedio, mientras que el promedio
aritmtico es un promedio calculado.

1-6
Dr. Hctor Quevedo Uras

Ejemplo # 6. La muestra de observaciones 3, 4, 4, 5, 6, 8, 8, 10 tiene una mediana de


~
X = (5+6)/2 = 5.5.
Ejemplo #7. La muestra de observaciones 5, 5, 7, 9, 11, 12, 13, 15, 18 tiene una
~
mediana de X = 11.
La moda

La moda es una estadstica que demuestra el valor que ocurre con ms frecuencia en
una muestra (poniendo los datos en forma ascendente). Una distribucin puede tener
una moda, puede ser bimodal, etc. Este valor se denota por X . Sin embargo, algunas
ocasiones la moda no existe.
Ejemplo #8. La muestra de observaciones 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene
una moda de X = 9, es decir, el valor que ocurre con ms frecuencia.
Ejemplo #9. Los valores 3, 5, 8, 10, 12, 15, 16 no tienen moda.
Ejemplo #10. La muestra de observaciones 2 ,3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos
modas, 4 y 7 y es bimodal, es decir, X = 2.

1-7
Dr. Hctor Quevedo Uras

Relacin entre el promedio aritmtico, la mediana y la moda


Si el promedio, la mediana y la moda coinciden, entonces la distribucin es simtrica;
de otra manera, la distribucin es asimtrica con sesgo a la derecha o la izquierda. Ver
figuras de abajo.

Figura 1.0. Distribucin oblicua Figura 1.1. Distribucin oblicua


a la derecha (sesgo positivo). a la izquierda (sesgo negativo)
(Elaboracin propia) (Elaboracin propia)

Ejemplo #11. Encontrar el promedio aritmtico, la mediana y la moda para una


muestra de anlisis de aire de Pb cuyos valores son: 3, 5, 2, 6, 5, 9, 5, 2, 8, 6 partes
por milln (ppm).
Solucin:
X = 5.1 ppm
~
X = (5+5)/2 = 5

X = nmero que ocurre con ms frecuencia = 5

Ejemplo #12. Encontrar el promedio, la mediana y la moda de los casos 48.7, 48.8,

1-8
Dr. Hctor Quevedo Uras

49.5, 50.3, 51.6.


Solucin:
~
X = 49.8, X = 49.5, X = no existe

El promedio geomtrico
El promedio geomtrico se usa como un disfraz de transformacin logartmica. Es til
para promediar tasas de crecimiento (aumento o decremento) de una muestra
estadstica. La frmula es:
G= n
x x x ... x
1 2 3 n
(1-4)

Ejemplo #13. Encontrar el promedio geomtrico de los valores 3, 5, 6, 6, 7, 10, 12


Solucin:
G = 7 (3)(5)(6)(6)(7)(10)(12) = 7 453,600
log G = 1/7 log(453,000) = 0.8081 y antilog 0.8031 = 6.43
Existen otros promedios como el promedio harmnico, el promedio cuadrtico,
etc. Tambin hay otras medidas de localizacin ms finas que dividen los datos en
ms de dos partes. Por ejemplo, los cuartiles dividen el conjunto de datos en cuatro
partes iguales. Por ejemplo, el tercer cuartil (Q3) describe la cuarta parte superior del
conjunto de datos. El segundo cuartil (Q2) es idntico a la mediana. El primer cuartil
(Q1) separa la cuarta parte inferior de las tres cuartas partes superiores. Adems, los
percentiles pueden dividir los datos en 100 partes iguales. Por ejemplo, el 99avo
percentil separa el 1% ms alto del 99% restante, etc.
Otra forma de ver la simetra de los datos es usando diagramas de caja.
Tambin hay lo que se llama diagramas de punto, que ayudan, visualmente, a revisar
la simetra de los datos.

1-9
Dr. Hctor Quevedo Uras

La varianza
La varianza, s2 es una medida de dispersin y nos dice, qu tanta variacin existe de
una observacin a otra (o del promedio) o de una muestra a otra. Una s2 grande tiene
ms casos diversificados, que una con una varianza pequea. La varianza s2 de una
muestra estadstica (o de varias muestras) es el estimador del parmetro de la
varianza, 2 de una poblacin o poblaciones. La frmula de la varianza es:
n
s2 = (X - X )2/(n-1) = [X 2 (X)2/n]/(n - 1) (1-5)
i=1

= SS/(n 1)

Ejemplo #14. Calcular la varianza y la desviacin estndar de la muestra 2, 4, 6.


Solucin:
Calculando X = 4 y usando el mtodo largo nos da:
s2 = [(2 - 4)2 + (4 - 4)2 + (6 - 4)2]/(3 - 1)
= 8/2 = 4
Usando el mtodo corto:
Varianza = s2 = [X2 (X)2/n]/(n 1) nos dara:
s2 = [X2 (X)2/n]/(n 1)
= (56 48)/2
=4
La desviacin estndar
La desviacin estndar, s es una forma especial de la desviacin promedio de la
media. Es una medida de dispersin. A medida que aumenta la desviacin estndar o
la varianza, mayor diversidad habr entre las observaciones de una muestra. Esta

1-10
Dr. Hctor Quevedo Uras

estadstica se da como:
s = [X 2 (X)2/n] / (n 1) (1-5a)
Para datos agrupados, la desviacin estndar es:
s = [fj X 2 (X)2/n] / (n 1) (1-5b)
Ejemplo #15. Para el ejemplo de arriba, calcular la desviacin estndar.
Solucin:
Si la varianza, s2 = 4, por lo tanto, la desviacin estndar, s es:
s = s2 = 4 = 2
Ejemplo #16. Encontrar X , s, s2, la mediana, el error estndar del promedio, el sesgo
y la kurtosis de una muestra al azar de 36 anlisis de fosfatos (PO4-3), en mg/L. Qu
tanta fidelidad hay en los datos? La tabla de abajo da la informacin.
__________________________________________________________________
Valores de X | 61 64 67 70 73 69 68 70
Frecuencia | 5 8 4 5 5 4 3 2

Solucin:
Usando un paquete de computadora da: X = 67.27, s = 3.78, s2 = 14.31, mediana =
68, sesgo = -0.22 y kurtosis = -0.95. Al juzgar por los resultados, hay una buena
aproximacin a la distribucin normal, puesto que X y la mediana son parecidos.
Adems el valor del sesgo no difiere mucho de 0. Se le pide al lector usar la frmula
(15-b) para corroborar los resultados computarizados obtenidos.

Propiedades de la desviacin estndar


Para una distribucin normal el 68.27% de todas las observaciones estn incluidas
entre ( X - s) y ( X + s), esto es, una desviacin estndar a cualquier lado del
promedio. Similarmente, el 95.45% de todos los casos se incluyen entre ( X - 2s) y

1-11
Dr. Hctor Quevedo Uras

( X + 2s), esto es entre z = 2. Adems, en el 99.73% de todos los casos se incluyen


entre ( X - 3s) y ( X + 3s), esto es, entre z = 3.

Figura 1.2. Distribucin normal mostrando las reas para diferentes percentiles de la
variable estandarizada z (Spiegel, 1961).
Variable aleatoria estandarizada z
Esta variable aleatoria estandarizada z mide las desviaciones del promedio en
unidades de desviacin estndar y se da como:
z = (X - X ) / s. (1-6)
Su parmetro respectivo es:
Z = (X - )/ (1-7)
Ejemplo #16. Calcular las siguientes probabilidades:
(a) P(z 1.25)
(b) P(z > 1.25)
(c) P(z -1.25)
(d) P(-.38 z 1.25)
Solucin:
(a) Para esto, buscamos en la tabla de la distribucin normal del rengln marcado con

1-12
Dr. Hctor Quevedo Uras

1.2 y la columna .05 y da .8944; por lo cual, P(X 1.25) = .8944.


(b) P(z > 1.25) = 1 P(z 1.25) = 1 - .8944 = .1056
c) P(z -1.25) = .1056. Por simetra de la curva normal, es la misma respuesta que en
el inciso (b)
(d) P(-.38 z 1.25) = (rea de - a z = 1.25) (rea de - a z = -.38) = .8944 -
.3520 = .5424 (de la tabla de z)
Otra manera de ver lo mismo es usando anotacin de probabilidades:
P(-.38 z 1.25) = P(z 1.25) P(z -.38)
= .8944 - .3520 = .5424
Las desviaciones del promedio
Las desviaciones del promedio son otras medidas de dispersin. Matemticamente....
n
Desviacin del promedio = |Xj - X |/N (1-8)
j=1

Ejemplo #17. Encontrar la desviacin promedio de los valores 2, 3, 6, 8, 11.


Solucin:
El promedio aritmtico es X = 6
La desviacin promedio = (|2-6|+|3-6|+|6-6|+|8-6|+|11-6|)/5
= 2.8
El rango
El rango de las observaciones de una muestra es la diferencia entre el nmero ms
grande y el ms pequeo. Aqu, es de notarse qu, entre ms grande sea la diferencia,
ms dispersin habr, es decir, la varianza y la desviacin estndar sern ms grandes.

Ejemplo #18. Encontrar el rango de 2, 3, 3, 5, 5, 5, 8, 10, 12.


Solucin:

1-13
Dr. Hctor Quevedo Uras

El nmero ms pequeo es el 2 y el ms grande es el 12, esto es, 12 - 2 = 10


Nota: Existen otras funciones de dispersin como la dispersin relativa y absoluta o el
coeficiente de variacin, etc.
Sesgo y kurtosis
El sesgo de una distribucin mide el grado de la simetra. Si la curva de frecuencia de
una distribucin tiene un extremo ms largo a la derecha del mximo central que el de
la izquierda, la distribucin es oblicua hacia la derecha o con sesgo positivo. Lo
contrario es correcto y se dice que es oblicua hacia la izquierda o de sesgo negativo.
Esta condicin se denomina el primer coeficiente de sesgo de Pearson. El sesgo de la
distribucin normal es igual a 0.
Ya se explic que, la relacin entre el promedio, la mediana y la moda pueden
dar una indicacin del grado de simetra de los datos de una distribucin. Por ejemplo,
si el promedio es mayor que la mediana, mayor que la moda, entonces, la distribucin
es asimtrica con sesgo positivo hacia la derecha. De otra manera, la distribucin
tiene sesgo negativo hacia la izquierda.
La kurtosis de una distribucin mide lo puntiagudo de una distribucin normal.
Una distribucin que tiene una cima o pico relativamente alta se llama leptokrtica,
mientras que aqulla que est achatada se llama platykrtica. La curva normal que no
est picuda ni achatada se llama mesokrtica. La kurtosis de la curva normal es igual
a 3.
Error estndar
Adems de reportar el valor de una estimacin puntual, tambin debe indicarse su
precisin. La medida de precisin usual es el error estndar del estimador usado. Por
ejemplo, los errores estndares de algunas distribuciones de la muestra son los del
promedio, de proporciones, de desviaciones estndar y de medianas.

1-14
Dr. Hctor Quevedo Uras

As, de esta manera, los errores estndares del promedio, de las proporciones o
la mediana es, respectivamente:
X = N (1-9)
p = pq/N (1-9a)

s = 2N (para poblaciones normales) (1-9b)


med.= (para n 30) (1-9c)
2N

Trminos importantes
Parmetros. Se refieren a valores poblacionales. Se usan los smbolos griegos para
denotarlos.
Estadstica. Se refiere a una muestra tomada de una poblacin. Es un estimador de los
parmetros de poblacin.
Promedio aritmtico. Si se conoce toda la poblacin se usa la variable . Si se refiere
a una muestra estadstica, se usa la variable X . De cualquier manera el promedio
aritmtico es la sumatoria de un grupo de observaciones dividido entre el total de los
casos.
Promedio. En general un promedio se refiere a una medida de tendencia central.
Ejemplos son el promedio aritmtico, la mediana y la moda. Hay tambin promedios
geomtricos, armnicos, etc.
Mediana. Es el valor del tem central cuando los datos son agrupados por tamao
~
( X ).
Moda. Es el valor que ocurre con ms frecuencia ( X ).
Distribucin bimodal. Se refiere a una distribucin con dos modas.

1-15
Dr. Hctor Quevedo Uras

Medidas de dispersin. Se refiere al grado de dispersin de los datos numricos del


promedio. Los ms comunes son: el rango, la desviacin estndar, la variancia, la
desviacin promedio, desviacin de cuartiles, etc.
Varianza. Es una medida de dispersin. Se denota como 2 para describir toda la
poblacin. Sin embargo, si se refiere a la varianza de la muestra, se usa el smbolo s2 y
se describe como la suma de los cuadrados dividida entre el nmero de valores de la
muestra menos uno. Se usa el smbolo s2 que es el estimador del parmetro
poblacional 2.
Desviacin estndar. Se obtiene sacando la raz cuadrada de la varianza poblacional o
de la varianza de la muestra.
Coeficiente de variacin. Es la relacin matemtica de la desviacin estndar divida
entre el promedio aritmtico. Generalmente se expresa como porcentaje. Es til para
comparar distribuciones donde las unidades puedan ser diferentes.
Variables discretas. Variables discretas se refieren a caractersticas tales como color,
sexo, religin, etc., que se pueden expresar en clasificaciones o categoras cualitativas.
Por ejemplo, el nmero n de una familia de nios asume valores de 0, 1, 2, 3,..., pero
que no puede asumir valores de 2.5 o de 3.856.
Variables continuas.- Se refiere a variables que, tericamente, pueden asumir
cualquier valor entre dos valores dados. Se pueden expresar en clasificaciones o
categoras cuantitativas. Por ejemplo, la altura h de un individuo, la cual puede ser
63.9 pulgadas, 65.9945 pulgadas, es una variable continua.
Sesgo. Mide la simetra de una distribucin. El sesgo puede ser positivo (oblicuo
hacia la derecha) o negativo (oblicuo hacia la izquierda). Si es sesgo es positivo,
~
entonces X > X > X . Sin embargo, si el sesgo es negativo, entonces, es el reverso.
La kurtosis mide lo achatado o puntiagudo de la distribucin.

1-16
Dr. Hctor Quevedo Uras

Variable estandarizada. Mide la desviacin del promedio en unidades de desviacin


estndar, simplemente, se refiere al nmero de desviaciones estndar de una
observacin que est abajo o arriba del promedio de la distribucin.
Mtodos grficos y tabulares usados en estadstica descriptiva
Otras tcnicas visuales, que son muy tiles en la probabilidad y la estadstica de
inferencia, son el uso de desplegados de tallo y hojas. Otros ms son los diagramas de
punto (explicados posteriormente) y los histogramas. Por ejemplo, para construir un
diagrama de tallo y hoja, esta situacin se explica en el tpico de diagramas de tallo y
hoja. Los diagramas de tallo y hoja son parecidos a los histogramas y sirven el mismo
propsito. Esto es, porque los diagramas de tallo y hoja revelan el rango de los datos,
muestran donde ocurre la concentracin ms alta de valores, proveen informacin
acerca de la presencia o ausencia de simetra y, pueden indicar el grado de simetra en
la cual los datos son homogneos.
Distribuciones de frecuencia
Cuando se estn procesando grandes cantidades de datos es conveniente distribuirlos
dentro de clases o categoras, para determinar el nmero de observaciones que
pertenecen a cada clase llamada frecuencia de clase. As, un arreglo tabular de datos
por clases junto con las frecuencias de clases correspondientes se llama distribuciones
de frecuencia o tablas de frecuencias.
Definicin de trminos
rdenes.- Un orden es un arreglo de datos numricos sin procesar en orden de
magnitud ascendente o descendente.
Intervalo de clase.- Es un arreglo que define una clase digamos de 60-62 la cual se
llama intervalo de clase. Los nmeros terminales 60 y 62 se llaman lmites de clases o
lmites de clase inferior y superior. El intervalo 60-62 incluye, tericamente, las

1-17
Dr. Hctor Quevedo Uras

mediciones 59.5-62.5 y se llaman lmites de clases. Estos se obtienen sumando el


lmite superior de un intervalo con el lmite inferior del siguiente intervalo de clase y
dividiendo entre 2.
Clases de punto intermedio o marcas de clases.- Las clases de punto intermedio o
marcas de clases son el punto medio de un intervalo de clase que se obtiene sumando
los lmites superiores e inferiores y dividiendo entre dos. Por ejemplo, el punto medio
del intervalo 60-62 es (60 + 62)/2 = 61 y, as sucesivamente.
Tamaos de intervalos de clase. El tamao de un intervalo de clase es la diferencia
entre los lmites o linderos superiores e inferiores.
Reglas para hacer distribuciones de frecuencia
1. Determinar los nmeros ms pequeos y ms grandes de los datos sin procesar.
2. Dividir el rango en un nmero conveniente de intervalos de clases que tengan el
mismo tamao. Si esto no es posible, usar intervalos de clase de diferentes tamaos.
3. Determinar el nmero de observaciones que caen dentro de cada uno de estos
intervalos de clases.
4. Los lmites de clases no deben de coincidir con los datos reales. La frmula para
calcular el tamao de clase de una distribucin de frecuencia es:
i = (h - l) / k (1-10)
Donde:
i = el tamao del intervalo de clase
h = el valor del tem ms alto
l = el valor del tem ms bajo
k = nmero de clases
Tipos de curvas de frecuencia
1. Curva de frecuencia simtrica o en forma de campana. Un ejemplo importante es

1-18
Dr. Hctor Quevedo Uras

la curva normal.
2. Curva asimtrica u oblicua cuyos extremos de la curva estn al lado derecho o al
izquierdo del mximo central.
3. Curva de frecuencia en forma de J.
4. Curva de frecuencia en forma de U.
5. Curva de frecuencia bimodal que tiene dos mximos.
6. La curva de frecuencia multimodal que tiene ms de dos mximos.

Figura 1.3 Grficas mostrando los tipos de curvas de frecuencia (Spiegel, 1961).

Histogramas y polgonos de frecuencia

1-19
Dr. Hctor Quevedo Uras

La forma ms comn de representacin grfica de una distribucin de frecuencia es el


histograma. Estos histogramas consisten en rectngulos adyacentes, las alturas de los
cuales representan las frecuencias de clases, mientras que sus bases se extienden entre
sucesivas fronteras de clases. Esto quiere decir que tienen bases sobre la abscisa con
centros en las marcas de clases y con las longitudes igual a los intervalos de clases.
Por otro lado, los polgonos de frecuencia son grficas de lneas de frecuencias
de clases que se grafican contra las clases de marcas. Se obtienen conectando los
puntos medios de arriba de los rectngulos en los histogramas.

Figura 1.4. En los histogramas y polgonos de frecuencia se acostumbra a sumar las


extensiones pq y rs para la siguiente marca de clase ms baja y ms alta que tienen la
correspondiente clase de frecuencia de cero. En tales casos, la suma de las reas de
los rectngulos es igual al rea total circundada por el polgono de frecuencia y el eje
de las equis. (Elaboracin propia)
Distribuciones de frecuencia relativa
La frecuencia relativa de un intervalo de clase es la frecuencia de la clase dividida
entre la frecuencia total de todas las clases y se expresa como porcentaje.

1-20
Dr. Hctor Quevedo Uras

Ejemplo #20. Hacer una tabla de distribucin con intervalos de clase y la frecuencia
relativa para las alturas de 100 estudiantes de una universidad.
TABLA 1.0. Alturas de los estudiantes. (Spiegel, 1961).
___________________________________________________________________
Distribucin de las alturas Frecuencia relativa
por intervalos de clase de estudiantes (%)
___________________________________________________________________
60 - 62 pulgadas 5%
63 - 65 18 %
66 - 68 42 %
69 - 71 27 %
72 - 74 8%
_________________________________________________________
Total 100 %

Distribuciones de frecuencias acumuladas y distribuciones de frecuencias


relativas acumuladas
Aqu se discutirn las distribuciones de frecuencias acumuladas y la frecuencia
relativa acumulada que se obtiene dividiendo la frecuencia acumulada por la
frecuencia total.
Ejemplo #21. Tabular los valores de la tabla de frecuencia de 500 observaciones
formando una tabla con los intervalos de clase ms apropiados, con la frecuencia, la
frecuencia relativa (%), la frecuencia acumulada y la frecuencia relativa acumulada.
Usar papel de probabilidad y encontrar el promedio aritmtico y la desviacin
estndar. Confirmarlos grficamente y calcularlos.

1-21
Dr. Hctor Quevedo Uras

TABLA 1.1. Frecuencias de 500 observaciones de fosfatos (mg/L). (Elaboracin


propia).
_____________________________________________________________
X f X f X f X f
_____________________________________________________________
20 1 - - - - - -
21 0 36 7 51 20 66 6
22 0 37 9 52 19 67 5
23 1 38 10 53 19 68 4
24 1 39 11 54 18 70 3
25 1 40 12 55 18 70 3
26 1 41 13 56 17 71 2
27 1 42 14 57 16 72 2
28 2 43 16 58 14 73 1
29 2 44 17 59 13 74 1
30 3 45 18 60 12 75 1
31 3 46 18 61 11 76 1
32 4 47 19 62 10 77 1
33 5 48 19 63 9 78 0
34 6 49 20 64 7 79 0
35 6 50 20 65 6 80 1
__________________________________________________________________

1-22
Dr. Hctor Quevedo Uras

TABLA 1.2. Tabla de frecuencias de 500 casos de fosfatos. (Elaboracin propia)


_________________________________________________________________
Intervalo de clase f f. r.(%) f. a. f. r. a. (%)
________________________________________________________________
< 30.5 13 2.6 13 2.6
30.5-35.5 24 4.8 37 7.4
35.5-40.5 49 9.8 86 17.2
40.5-45.5 78 15.6 164 32.8
45.5-50.5 96 19.2 260 52.0
50.5-55.5 94 18.8 354 70.8
55.5-60.5 72 14.4 426 85.2
60.5-65.5 43 8.6 469 93.8
65.5-70.5 21 4.2 490 98.0
> 70.5 10 2.0 500 100.0
_______________________________________________________________
Total 500

1-23
Dr. Hctor Quevedo Uras

Figura 1.5. Papel de probabilidad mostrando las 500 observaciones de fosfatos


relacionadas con la TABLA 1.2. (Elaboracin propia)
Analizando la Figura 1.5, se puede ver qu, para calcular el promedio localizamos
.50 en la ordenada y por interpolacin calculamos el valor de 50. Igualmente, para
calcular la desviacin estndar , nos movemos a .84 y por interpolacin calculamos
el valor de 10, que est entre 50 y 60.
Ejemplo #22. Para los siguientes 40 datos de anlisis de agua de concentraciones de
calcio, en mg/L, contestar las siguientes preguntas:
(a) Construir una tabla de frecuencias con intervalos de 5 y estimar el punto
intermedio o marca de clase.
(b) Construir otra tabla ms con intervalos de tamao 9 y estimar el punto intermedio

1-24
Dr. Hctor Quevedo Uras

o marca de clase.
(c) Para ambos casos construir un histograma y un polgono de frecuencia y tambin,
en funcin de frecuencia relativa.
(d) Para ambos casos, construir una grfica de frecuencia acumulada y frecuencia
relativa acumulada.
(e) Usar papel de probabilidad para estimar el promedio aritmtico y la desviacin
estndar. Comparar estos resultados con el clculo del promedio y la desviacin
estndar usando las frmulas estadsticas.
TABLA 1.3. Tabla mostrando las concentraciones de calcio de 40 anlisis de agua.
(Elaboracin propia)

138 164 150 132 133 125 149 157


146 158 140 147 136 148 152 144
168 126 138 176 163 119 154 165
146 173 142 147 135 153 140 135
161 145 135 142 150 156 145 128

Solucin:

El rango es de 176 - 119 = 57 mg/L

Si se usan intervalos de clase de tamao 5, los intervalos de clase son 57/5 = 12,
aproximadamente. Sin embargo, si se usan intervalos de clase de tamao 9, los
intervalos de clase son 57/9 = 6, aproximadamente. Las tablas de abajo muestran estas
estimaciones.

1-25
Dr. Hctor Quevedo Uras

TABLA 1.4. Tabla de frecuencias de las concentraciones de Calcio (Ca) usando un


intervalo de tamao 5. (Elaboracin propia)
_________________________________________________________________
Intervalo de clase Marca de clase f f.a. f.r. f.r.a.
_________________________________________________________________
118 - 122 120 1 1 2.5% 2.5%
123 - 127 125 2 3 5.0% 7.5%
128 - 132 130 2 5 5.0% 12.5%
133 - 137 135 4 9 10.0% 22.5%
138 - 142 140 6 15 15.0% 37.5%
143 - 147 145 8 23 20.0% 57.5%
148 - 152 150 5 28 12.5% 70.0%
153 - 157 155 4 32 10.0% 80.0%
158 - 162 160 2 34 5.0% 85.0%
163 - 167 165 3 37 7.5% 92.5%
168 - 172 170 1 38 2.5% 95.0%
173 - 177 175 2 40 5.0% 100.0%
__________________________________________________________________
Total 40

TABLA 1.5. Tabla de frecuencias de las concentraciones de Ca usando un intervalo


de tamao 9. (Elaboracin propia)
_________________________________________________________________
Intervalo de clase Punto intermedio f f.a. f.r. f.r.a.
_________________________________________________________________
118 - 126 122 3 3 7.5% 7.5%
127 - 135 131 5 8 12.5% 20.0%
136 - 144 140 9 17 22.5% 42.5%
145 - 153 149 12 29 30.0% 72.5%
154 - 162 158 5 34 12.5% 85.0%
163 - 171 167 4 38 10.0% 95.0%
172 - 180 176 2 40 5.0% 100.0%
__________________________________________________________________
Total 40
Los incisos (c), (d) y (e) se reservan para que el estudiante los haga.

1-26
Dr. Hctor Quevedo Uras

Tambin se puede calcular el promedio aritmtico de una distribucin de


frecuencia, cuando se dan los intervalos de clase y las frecuencias. La frmula para
tales casos es:
X = fX / f = fX / n (1-11)
Ejemplo #22. Se dan los siguientes datos de temperaturas ambientales en grados
Fahrenheit (oF) en la tabla de abajo.

TABLA 1.6. Tabla mostrando los datos. (Elaboracin propia)


Temperaturas (oF) Marca de clase (X) f fX
60 62 61 5 5 x 61 = 305
63 65 64 18 64 x 18 = 1152
66 68 67 42 67 x 42 = 2814
69 71 70 27 70 x 27 = 1890
72 74 73 8 73 x 8 = 584
N = f = 100 fX = 6745

Por lo tanto, X = fX / f = fX / N = 6745 / 100 = 67.45 oF

Diagramas de tallo y hoja usando el programa Minitab

Ejemplo # 23. Para ilustrar la construccin de una grfica de tallo y hoja,


considrese la tabla de abajo, la cual muestra las mediciones de 40 observaciones.

TABLA 1.7. Tabla mostrando las mediciones de 40 objetos. (Elaboracin propia).


2.2 4.1 3.5 4.5 3.2 3.7 3.0 2.6
3.4 1.6 3.1 3.3 3.8 3.1 4.7 3.7
2.5 4.3 3.4 3.6 2.9 3.3 3.9 3.1
3.3 3.1 3.7 4.4 3.2 4.1 1.9 3.4
4.7 3.8 3.2 2.6 3.9 3.0 4.2 3.5
_____________________________________________________________

Procedimiento:
Para formar el diagrama de tallo y hoja, se separa cada observacin en dos partes

1-27
Dr. Hctor Quevedo Uras

consistentes de un tallo y una hoja. Siendo as, el tallo representa el dgito que
precede al punto decimal y, la hoja, corresponde al dgito a la derecha del punto
decimal. Por ejemplo, con el nmero 3.7, el dgito 3 representa el tallo y el dgito 7
representa la hoja. De acuerdo a los datos de la TABLA 1.8 hay cuatro tallos, es
decir, 1, 2, 3, 4. Una vez hecho esto, se identifican los nmeros a la derecha del
punto decimal correspondientes a cada tallo. Por ejemplo, para el tallo 1 hay dos
hojas, 6 y 9; para el tallo 2 hay 5 hojas, es decir, 2, 5, 6, 9 y 5, etc. La TABLA 1.8
de abajo representa la grfica de tallo y hojas para este problema.
No obstante, para poder construir la TABLA 1.8 se puede usar el Minitab de
acuerdo a las siguientes indicaciones:
Graph Stem-and-leaf
En el recuadro que aparece poner las variables de la columna C1 en la ventanilla de
Stem-and-leaf y en la ventanilla de Increments poner 1. Esto produce los datos
de la TABLA 1.8 mostrada abajo.
TABLA 1.8. Tabla mostrando los resultados de tallo y hoja correspondientes a las
observaciones de la TABLA 1.7.
__________________________________________________________________
Stem-and-Leaf Display: Mediciones de 40 objetos

Stem-and-leaf of Mediciones de 40 objetos N = 40


Leaf Unit = 0.10

Frecuencia Tallos Hojas

2 1 69
7 2 25669
(25) 3 0011112223334445567778899
8 4 11234577
__________________________________________________________________

1-28
Dr. Hctor Quevedo Uras

Sin embargo, los resultados de la TABLA 1.8 no dan un panorama adecuado de la


distribucin de los datos. Para remediar esta situacin se necesita aumentar el
nmero de tallos en la grfica. Una manera simple de hacerlo es doblando cada
tallo. Para esto, nuevamente introducir los datos como se hizo anteriormente y en la
ventanilla de Increments poner .5. Esto produce la tabla de abajo.
TABLA 1.9. Tabla mostrando los tallos dobles y de hojas.
Stem-and-Leaf Display: Mediciones de 40 objetos

Stem-and-leaf of Mediciones de 40 objetos N = 40


Leaf Unit = 0.10

Frecuencia Tallos Hojas


2 1 69
3 2* 2
7 2 5669
(15) 3* 001111222333444
18 3 5567778899
8 4* 11234
3 4 577
__________________________________________________________________

Las tablas de las distribuciones de tallo y hoja se pueden usar para estimar los
intervalos de clase cuando se hacen distribuciones de frecuencia. El procedimiento
es como sigue:
1. Primero se saca el rango de los datos. Por ejemplo, de la TABLA 1.7 el valor
mximo es 4.7 y el valor mnimo es 1.6, o sea: rango = 4.7 1.6 = 3.1.
2. Enseguida se estima el ancho del intervalo dividiendo el rango entre el nmero
de tallos (7 en este caso), es decir, 3.1 / 7 = .4.
3. Ahora, para estimar el primer intervalo de clase empezamos con 1.5 y le

1-29
Dr. Hctor Quevedo Uras

sumamos .4 para dar 1.9. El siguiente intervalo de clase es 2.0 ms .4 para dar 2.4.
El siguiente intervalo de clase es 2.5 ms .4 para dar 2.9 y as sucesivamente, como
se muestra en la TABLA 1.10 de abajo.
TABLA 1.10. Tabla mostrando los intervalos de clase, el punto medio, la
frecuencia, la frecuencia relativa y la frecuencia relativa acumulada.
Intervalo de Punto Frecuencia Frecuencia Frecuencia relativa
clase medio (f) relativa (f.r.) acumulada (f.r.a.)
1.5 1.9 1.7 2 0.050 0.050
2.0 2.4 2.2 1 0.025 0.075
2.5 2.9 2.7 4 0.100 0.175
3.0 3.4 3.2 15 0.375 0.550
3.5 3.9 3.7 10 0.250 0.800
4.0 4.4 4.2 5 0.125 0.925
4.5 4.9 4.7 3 0.075 1.000

Por otro lado, con los datos de la TABLA 1.10 se pueden hacer histogramas
de frecuencia relativa, con curvas normales sobrepuestas y curvas de frecuencia
relativa acumulada para calcular medidas de localizacin como cuartiles o
percentiles. Por ejemplo, los cuartiles dividen el conjunto de datos en cuatro partes
iguales. Siendo as, el primer cuartil o .25 fractil (Q1) separa la cuarta parte inferior
de las tres cuartas partes superiores, esto es, el 25% de las mediciones de abajo. El
segundo cuartil o .50 fractil (Q2) es idntico a la mediana o sea que la mitad de las
observaciones estn debajo de este valor. Las observaciones arriba del tercer cuartil
o .75 fractil (Q3) son la cuarta parte superior del conjunto de datos. Finalmente, los

1-30
Dr. Hctor Quevedo Uras

intercuartiles miden la diferencia entre los cuartiles Q1 y Q2.


De la misma manera, el conjunto de datos de la muestra se puede dividir en
100 partes iguales por medio de percentiles. Por ejemplo, el 99avo percentil separa
el 1% ms alto del 99% restante; el 84avo percentil separa el 16% ms alto del
84% restante. Bajo estas condiciones, el 84avo percentil correspondiente al valor
de la variable aleatoria z de la distribucin normal es, aproximadamente, z = +1 y
por simetra es z = -1.
Los cuartiles y percentiles junto con la estadstica descriptiva se pueden
calcular con el programa Minitab usando el mandato:
Stat Basic statistics Display Descriptive Statistics
Igualmente, los cuartiles y percentiles tambin se pueden calcular de una grfica de
frecuencia relativa acumulada vs. valores de X.
Usando los datos de la TABLA 1.7 vamos a proceder a hacer los clculos de la
estadstica descriptiva, los cuales se dan en la tabla de abajo.

TABLA 1.11. Tabla mostrando la estadstica descriptiva del ejemplo #23.


Descriptive Statistics: Mediciones de 40 objetos

Variable N N* CumPct Mean SE Mean StDev Variance CoefVar

Mediciones 40 0 100 3.413 0.111 0.703 0.494 20.60

Variable Minimum Q1 Median Q3 Maximum Range

Mediciones 1.600 3.100 3.400 3.875 4.700 3.100

__________________________________________________________________

1-31
Dr. Hctor Quevedo Uras

Histogram (with Normal Curve) of Mediciones de 40 objetos


Mean 3.413
12
StDev 0.7028
N 40

10

Frequency
6

0
1.6 2.4 3.2 4.0 4.8
Mediciones de 40 objetos

Figura 1.6. Figura mostrando el histograma de frecuencia con curva normal


sobrepuesta.

Ahora, el procedimiento para hacer una grfica de frecuencia relativa acumulada en


funcin de los valores de X se procede de la siguiente manera:
1. Irse a:
Calc Probability Distribution Normal
2. En el recuadro que aparece puntear Cummulative distribution y almacenar los
datos de la distribucin de frecuencia acumulada en C2.
3. Para hacer la grfica de frecuencia relativa acumulada vs. valores de X, irse a:
Graph Scatterplot With connect line
4. En la ventana de Scatterplot with connect line introducir los datos de la
distribucin de frecuencia acumulada (de la columna C2) vs. los valores de X.
5. En la ventanilla de Scatterplot-Scale, llenar todos los recuadros.

De esta manera, para calcular la distribucin de frecuencia acumulada proceder


como en el paso 1 de arriba. Todas estas rdenes producen la tabla conteniendo los
valores de X (no se muestra aqu). La grfica de las frecuencias relativas

1-32
Dr. Hctor Quevedo Uras

acumuladas y valores de las observaciones se hace como en el paso 3 de arriba.


De la grfica de abajo se pueden leer todos los cuartiles y percentiles
deseados.

Figura mostrando la grafica de f.r.a. y valores de X


1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
1.0 1.0

0.8 0.8
Distribucion de f.r.a.

0.6 0.6

0.4 0.4

0.2 0.2

0.0 0.0

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0


Mediciones de 40 objetos

Figura 1.7. Figura mostrando la grfica de la frecuencia relativa acumulada versus


valores de X.

Ejemplo #24. Encontrar los cuartiles (Q1, Q2 y Q3) de una muestra de 15


mediciones de slidos suspendidos, en unidades de mg/L, de una muestra de agua
residual.

7 19 12 5 17 29 8 19 4 27 30 1 4 10 21
__________________________________________________________________

Solucin:

1-33
Dr. Hctor Quevedo Uras

Primero se arreglan los datos en forma ascendente, esto es:

1, 4, 4, 5, 7, 8, 10, 12, 17, 19, 19, 21, 27, 29, 30



Q1 Q2 Q3

El primer cuartil (Q1) es 5. El segundo cuartil (Q2) o la mediana es 12 y el tercer


cuartil (Q3) es 21.

1-34
Dr. Hctor Quevedo Uras

Ejercicios Captulo 1
1.1. Calcular el promedio, la varianza y la desviacin estndar de las observaciones de
la muestra: 12, 6, 7, 3, 15, 10, 18, 5. (9.5, 27.1, 5.2)
1.2. Encontrar la desviacin estndar y el promedio de los valores: 3, 6, 2, 1, 7, 5. De
acuerdo a la relacin de los valores obtenidos del promedio y la desviacin estndar o
varianza. Qu conclusiones se pueden sacar?
1.3. Escribir los siguientes trminos usando anotacin de sumatoria.
10
2 2 2 2
(a) X 1 +X 2 +X 3 + ...+ X 10 ( Xi)
x=0

5
(b) (X1 + Y1) + (X2 + Y2) + .... + (X5 + Y5) ( Xi+Yi)
x=0

(c) f1 X1Y1 + f2 X2Y2 + f3 X3Y3 + f4 X4Y4

1.4. Encontrar la desviacin promedio de:


(a) -3, 7,-9,5
(b) 2.4, 1.6, 3.8, 4.1, 3.4
1.5. El rango de los nmeros 5, 3, 8, 4, 7, 6, 12, 4, 3 es: (9)
1.6. De 50 mediciones la ms grande es 8.34 Kg. Si el rango es .46, encontrar la
medicin ms pequea.
1.7. Convertir las siguientes observaciones a unidades de desviacin estndar: 6, 2, 7,
5. (z6=0.46, z2=-1.39, z7=0.93, z5=0)
1.8. Escribir los siguientes trminos en forma de sumatoria.
6
(a) Xj
j=1

1-35
Dr. Hctor Quevedo Uras

4
(b) (y1 - 3) 2
j=1

5
(c) fkxk
k=1

1.9. Usando el programa de computadora Minitab, EXCEL o una calculadora de


bolsillo, encontrar:
(a) El promedio aritmtico (95.84)
(b) La desviacin estndar
(c) El error estndar del promedio
(f) La varianza (106.49)

Tabla mostrando los datos del problema. (Elaboracin propia)


Observacin x | 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126
_______________________________________________________________________________

Frecuencia f| 4 9 16 28 45 66 85 72 54 38 27 18 115
_______________________________________________________________________________

1.10. En una distribucin, si el promedio es 5.0, la mediana es 7.0 y la moda es 9.0,


contestar a los siguientes enunciados:
(a) Qu tipo de sesgo tiene esta distribucin?
(b) Dnde se encuentra la mayor concentracin de valores?
1.11. En una distribucin, si el promedio es de 10.0, la mediana es de 8.0 y la moda es
de 5.0, contestar las siguientes preguntas:
(a) Qu tipo de sesgo tiene esta distribucin? (Sesgo positivo)
(b) Dnde se encuentran la mayor concentracin de valores?
1.12. En un examen final de estadstica, los grados fueron: 100, 100, 66, 65, 64, 60,
59, 57, 58, 50.

1-36
Dr. Hctor Quevedo Uras

Es esta distribucin oblicua hacia la derecha o hacia la izquierda? Justificar el


argumento usando la relacin del promedio, la mediana y la moda.
1.13. Encontrar el promedio geomtrico de una muestra aleatoria de de observaciones
10, 12, 16. (12.43)
1.14. Si el promedio aritmtico de una muestra de 30 casos es igual a 10 y la
desviacin estndar es igual a 2, calcular la variable estandarizada correspondiente al
valor de X = 15.
1.15. La tabla de abajo muestra los coeficientes de inteligencia de 550 nios de una
escuela elemental. Encontrar:
(a) El promedio aritmtico. (97.03)
(b) La desviacin estndar. (13.22)
(c) El error estndar del promedio (0.56)
Tabla mostrando los datos del problema. (Elaboracin propia)
___________________________________________________________________
Marca de | 75 78 78 82 86 91 94 98 102 106 110 114 118 122 126
clase (X)
Frecuencia (Y) | 53 5 10 20 45 60 85 72 54 38 27 18 11 50 2

1.16. Los siguientes datos estn relacionados con las temperaturas, en oC, de 10
regiones de Mxico. La tabla de abajo muestra esta situacin:
Tabla mostrando los datos del problema. (Elaboracin propia)
__________________________________________________________________
Temp. Frecuencia Frecuencia Frecuencia Frecuencia relativa
o
( C) acumulada relativa (%) acumulada
__________________________________________________________________
20 3 3 30% 30%
21
22 2 9 20% 90%
23 1
Total 10

1-37
Dr. Hctor Quevedo Uras

(a) Completar la tabla de arriba.


(b) Hacer grficas de frecuencia versus frecuencia relativa.
(c) Hacer grficas de frecuencia acumulada (f.a.) vs. frecuencia relativa acumulada
(f.r.a.).
1.17. Se saca una muestra aleatoria de anlisis qumicos de compuestos de cloruros
(Cl-) expresados en unidades de mg/L procedentes de una muestra de aguas
residuales. Estos anlisis se hicieron usando el mtodo de nitrato de mercurio descrito
en el texto Mtodos Estndares. La tabla con los valores de los cloruros se da abajo:
Tabla mostrando los datos del problema. (Elaboracin propia)
___________________________________________________________________
17.2, 17.1, 17.0, 17.1, 16.9, 17.0, 17.1, 17.0, 17.3, 17.2, 16.9,
17.0, 17.1, 17.3, 17.2, 17.4, 17.1, 17.1, 17.0, 17.1

(a) Encontrar el promedio. (17.11)


(b) Encontrar la varianza. (0.017)
(c) Encontrar la desviacin estndar. (0.132)
(d) Hacer una tabla de frecuencia mostrando la frecuencia, la frecuencia relativa y la
frecuencia relativa acumulada. (el lector lo deber hacer)
(e) Hacer un histograma. (el lector lo deber hacer)
(f) Hacer un polgono de frecuencia. (el lector lo har)
(g) Qu tanta simetra hay en esta distribucin? (el lector responder a esto)
1.18. Completar la tabla de abajo y hacer una grfica en funcin de los intervalos de
las concentraciones de DBO, de la frecuencia (f) y de la frecuencia relativa acumulada
(f.r.a.).

1-38
Dr. Hctor Quevedo Uras

Tabla mostrando los datos. (Elaboracin propia)


__________________________________________________________________
Intervalos Nmero de Puntos Frecuencia
(Conc. DBO) anlisis intermedios relativa (%)
__________________________________________________________________

50.00 - 59.99 8
60.00 - 69.99 10
70.00 - 79.99 16
80.00 - 89.99 14
90.00 - 99.99 10
100.00 - 109.99 5
10.00 - 119.99 2

1.19. Una organizacin caritativa que ayuda a damnificados por huracanes ha hecho
una lista de donaciones recibidas durante el presente ao, en miles de pesos. El
propsito de este ejemplo es el de hacer una tabla de distribucin de frecuencia
encontrando los intervalos de clase ms apropiados usando la tcnica de diagramas de
tallo y hoja. La tabla de abajo muestra los datos. Para esto hacer lo siguiente:
(a) Calcular el promedio y la mediana. (139, 135)
(b) Hacer una tabla de distribucin de frecuencia usando un diagrama de tallo y hoja.
Encontrar los puntos intermedios, la frecuencia, la f. r. y la frecuencia relativa
acumulada y construir un histograma y una grfica de f. r. a. contra valores de X.
Tabla mostrando los datos del problema (Elaboracin propia).
___________________________________________________________________
253.0 173.4 117.0 191.2 151.4
182.0 132.0 162.0 212.9 155.9
221.0 158.0 135.0 124.4 68.9
89.7 95.6 84.1 135.1 123.2
101.0 126.5 142.8 20.2 119.0
___________________________________________________________________

1-39
Dr. Hctor Quevedo Uras

1.20. La siguiente tabla da las emisiones de xidos de azufre (SO2 en toneladas


mtricas) provenientes de 200 plantas siderrgicas localizadas en cierta regin
industrial.
Tabla mostrando los datos. (Elaboracin propia)
___________________________________________________________________
Emisin de SO2 (ton) Nmero de plantas
___________________________________________________________________
1.00 - 1.02 6
1.02 - 1.04 26
1.04 - 1.06 52
1.06 - 1.08 58
1.08 - 1.10 39
1.10 - 1.12 15
1.12 - 1.14 5
1.14 - 1.16 1

(a) Calcular el promedio aritmtico de la distribucin.


(b) Calcular la desviacin estndar.
(c) Calcular la mediana y la moda de la distribucin.
1.21. Se dan los siguientes datos en la tabla de abajo.
Tabla mostrando los datos de este problema. (Elaboracin propia)
__________________________________________________________________
Altura (pulgadas) Marca de clase (x) Frecuencia fx

60 - 62 61 5 5 x 61 = 305
63 - 65 64 18 64 x 18 = 1152
66 - 68 67 42 67 x 42 = 2814
69 - 71 70 27 70 x 27 = 1890
72 - 74 73 8 73 x 8 = 584
__________________________________________________________________

(a) Calcular el promedio aritmtico. Sugerencia: usar la funcin del promedio igual a
f X/f

1-40
Dr. Hctor Quevedo Uras

1.22. Se da la siguiente tabla de distribucin de datos (intervalos de clase) de


emisiones de partculas atmosfricas menores de 10 micras provenientes de varias
industrias. (Elaboracin propia)
___________________________________________________________________
Mediciones de partculas Nmero de industrias
___________________________________________________________________
50.00 - 59.99 8
60.00 - 69.99 10
70.00 - 79.99 16
80.00 - 89.99 14
90.00 - 99.99 10
100.00 - 109.99 5
110.00 - 119.99 2
__________________________________________________________________

(a) Calcular la marca de clase X.


(b) Calcular el promedio aritmtico.
(c) Calcular la frecuencia relativa (f.r.) y la frecuencia relativa acumulada (f.r.a.).
(d) Hacer un histograma.
(e) Usar papel de probabilidad para ver que tanta uniformidad hay en los datos.
1.23. Completar los faltantes de la tabla de abajo, de una distribucin de frecuencia de
las vidas de 400 tubos de radios. Adems, hacer los clculos pedidos abajo.
(a) Encontrar el lmite superior de la quinta clase. (799)
(b) Encontrar el lmite inferior de la octava clase. (1000)
(c) Encontrar la marca de clase de la sptima clase. (949.5)
(d) Encontrar los lmites de la ltima clase. (1099.5-1199.5)
(e) Encontrar el tamao del intervalo de clase. (100)
(f) Encontrar la frecuencia de la cuarta clase. (76)
(g) Encontrar la f.r. de la sexta clase. (15.5%)

1-41
Dr. Hctor Quevedo Uras

(h) Encontrar el % de los tubos cuyas vidas sean < 600 horas. (29.5%)
(i) Graficar los datos en papel de probabilidad y leer el promedio aritmtico y la
desviacin estndar de la grfica.
(j) Hacer una grafica de frecuencia relativa acumulada versus puntos medios y
calcular los percentiles Q1, Q2 y Q3.
Tabla mostrando los datos del problema. (Elaboracin propia)
___________________________________________________________________
Vida de los No. de (f) f.r. f.a. f.r.a. Punto
tubos tubos medio
___________________________________________________________________
300 - 399 14
400 - 499 46
500 - 599 58
600 - 699 76
700 - 799 68
800 - 899 62
900 - 999 48
1000 - 1099 22
1100 - 1199 6
__________________________________________________________________

1.24. Se da la tabla de debajo consistente en una muestra aleatoria de mediciones de


xidos de nitrgeno (NO2), procedentes de una planta de tratamiento de aguas
residuales. La tabla con los datos se da abajo.

1-42
Dr. Hctor Quevedo Uras

Tabla con los datos. (Elaboracin propia)


Mediciones de NO2 Frecuencia Marca de f.r f.r.a.
(Intervalos) clase (X)
3.0 5.0 14
6.0 8.0 46
9.0 11.0 58
12.0 14.0 76
15.0 17.0 68
18.0 20.0
21.0 23.0 48
24.0 26.0 22
27.0 29.0 6
Total 400

(a) Llenar los faltantes de la tabla.


(b) Calcular el promedio aritmtico.
(c) Usando papel de grafica de probabilidad, graficar los datos.
(d) De la grafica de probabilidad obtenida en el inciso (c) calcular el promedio
aritmtico y compararlo con el promedio obtenido en (b).
(e) De la misma grafica de probabilidad estimar la desviacin estndar.
1.25. Se da la tabla de abajo.
__________________
X P(X)
__________________
0 0.8574
1 0.1354
2 0.0071
3 0.0001
_________________

Para los problemas de abajo encontrar las siguientes sumatorias usando la tabla de
arriba.

1-43
Dr. Hctor Quevedo Uras

(a) p(x) (0.9928)


x=0

2 1
(b) p(x) p(x)
x=0 x=0

1
(c) p(x) (0.9928)
x=0

3
(c) p(x) (1.000)
x=0

1-44
Dr. Hctor Quevedo Uras

1-45
Dr. Hctor Quevedo Uras

CAPITULO 2

Probabilidad

Probabilidad clsica.- Probabilidad de frecuencia relativa.- Probabilidad


subjetiva.- Axiomas y propiedades bsicas de la probabilidad.- Diagramas de
Venn y algebra de conjuntos.- Tcnicas de conteo: Regla de producto para pares
ordenados, la regla de multiplicacin ms general, regla factorial, diagramas de
rbol, permutaciones y combinaciones.- Regla multiplicativa para eventos
dependientes e independientes.- Regla aditiva para eventos mutuos excluyentes y
eventos no mutuos excluyentes.-
El desarrollo de la teora de la probabilidad matemtica ocurri en el siglo 17, y est
relacionada con el noble francs Antoine Gombauld y con el matemtico Francs
Blaise Pascal. El estudio de la probabilidad es una rama de las matemticas que se
inici hace 300 aos.
Maneras de medir las probabilidades:
(1) La probabilidad clsica
(2) La probabilidad de frecuencia relativa
(3) La probabilidad subjetiva
Probabilidad clsica
El trmino probabilidad se refiere al estudio de lo aleatorio y de la incertidumbre. El
concepto clsico de la probabilidad de un evento A se define como sigue: si hay a
posibles resultados favorables la ocurrencia del evento A y, b resultados desfavorables
a la ocurrencia de A, y si todos los resultados son igualmente mutuos excluyentes (que
no pueden ocurrir a la vez), entonces la probabilidad de que A ocurra se denota como
P(A), es decir:
2-1
Dr. Hctor Quevedo Uras

a Nmero de resultados favorables al evento A


P(A) = = (2.0)
(a + b) Nmero total de resultados posibles

Otra manera de definir la probabilidad es:

p = Pr{E} = h / n (2-0a.)

Donde:

E = el tipo de evento que estamos haciendo


h = nmero de maneras favorables de que pueda ocurrir el evento o nmero de puntos
en el evento del espacio A
n = nmero total de posibles resultados o de nmero de puntos en el espacio de la
muestra (S)

La probabilidad de que no ocurra el evento es q, es decir:

q = Pr{que no ocurra E} = 1 - h / n = 1 - Pr{E} (2-1)

Por lo tanto, p + q = 1

Ejemplo #1. Si una moneda tiene dos caras denotadas por guilas o sellos, calcular la
probabilidad de que salga un sello.
Solucin:
Usando la funcin (2-0) y dejando que A sea el evento sello y B el evento guila,
entonces, la probabilidad de sellos es:
P(A) = 1 / (1 + 1) = 0.5.

Ejemplo #2. En el caso de un dado que tiene 6 nmeros: 1, 2, 3, 4, 5, 6, si el dado es


honesto, todos los nmeros tienen la misma probabilidad de salir. Siendo as, calcular

2-2
Dr. Hctor Quevedo Uras

las siguientes probabilidades:


(a) La probabilidad de sacar el nmero 1
(b) La probabilidad de sacar los nmeros pares
(c) La probabilidad de sacar los nmeros 3 o 4
(d) La probabilidad de no sacar los nmeros 3 o 4
Solucin:
(a) P(sacar el nmero 1) = 1 / (1 + 5) = 1/6.
(b) En este caso hay 3 nmeros pares en las seis caras del dado, por lo tanto, la
probabilidad de sacar los pares es: P(pares) = 3/(3 + 3) = 1/2
(c) Aqu, el evento puede ocurrir de dos maneras, es decir, como (3 o 4). Por lo tanto,
P(3 o 4) = 2/(2 + 4) = 1/3.
(d) La probabilidad de no sacar el 3 o 4 es: q = 1 - 1/3 = 2/3
Ejemplo #3. Encontrar la probabilidad de que una pareja con 3 hijos tendrn:
(a) Exactamente 2 varones (X = 2)
(b) 3 varones y 3 hembras
(c) A lo ms dos varones (X 2)
(d) Cuando menos 2 varones (X 2)
(e) Ms de 2 hembras (X > 2)
(f) Menos de 2 varones (X < 2)
Solucin:
Dejemos que el evento varn sea v y, el evento hembra, sea h. Aqu el espacio
muestral S se puede hacer de un rbol de probabilidad y da 8 resultados:
S = {vvv, vvh, vhv, vhh, hvv, hvh, hhv, hhh}

(a) P(2 varones en 3 nacimientos) = P(X = 2) = 3/8 = 0.375

2-3
Dr. Hctor Quevedo Uras

(b) P(X = 3 varones) P(X = 3 hembras) = (1/8)(1/8) = 1/64


(c) P(X 2) = 6/8 = 3/4
(d) P(X 2) = 4/8 = 1/2
(e) P(X > 2) = 1/8
(f) P(X < 2) = 3/8
Probabilidad de frecuencia relativa

La probabilidad de frecuencia relativa puede interpretarse como la proporcin de


veces un evento ocurre a largo plazo, bajo condiciones estables o uniformes. Este tipo
de probabilidad se define como:
P(E) = n / N (2-2)
Donde:
n/N es la proporcin del tiempo que el evento E ocurre en experimentos repetidos.
Ejemplo #4. Si 8,000 de 1,000,000 hombres anglos de 35 aos murieron durante el
ao, la frecuencia relativa de muertes o la probabilidad de muerte para individuos de
este grupo es:
P(de muerte) = 8,000 / 1,000,000 = 0.00080
Ejemplo #5. Supngase que se estudian 10,000 personas de 20 aos y se encuentra
que 9961 vivieron 21 aos. Encontrar la probabilidad de que una persona de 20 aos
vaya a vivir 21 aos.
Solucin:
Aqu, los dos resultados de vivir y morir no son igualmente probables, de manera que
la aproximacin de frecuencia relativa debe usarse. Entonces la aproximacin
emprica de frecuencia relativa es:
P(de la persona de 20 aos que viva 21 aos) = 9,961/10,000 = .996
Probabilidad subjetiva
2-4
Dr. Hctor Quevedo Uras

La probabilidad subjetiva es un desarrollo relativamente reciente. Esta probabilidad se


define como el grado de credibilidad o confianza de un evento que vara con el juicio
o estado de nimo de la persona. Esta probabilidad es til en decisiones financieras y
otros tipos de trabajos.
Relacin entre la probabilidad (usando distribuciones discretas) y la estadstica
de inferencia (usando distribuciones continuas) usando lgica deductiva e
inductiva
La relacin entre la probabilidad usando distribuciones discretas como la binomial,
hipergeomtrica o la Poisson y la estadstica de inferencia (usando distribuciones
continuas como la normal, la t de Estudiante, la distribucin F, gamma, exponencial,
etc.) radica en el hecho de qu, en el primer caso, el razonamiento va del conjunto o de
la poblacin hacia la parte (razonamiento deductivo o lgica deductiva). En contraste,
con la estadstica de inferencia, el razonamiento va desde la muestra o la parte hacia la
poblacin o total (razonamiento inductivo o lgica inductiva).
Anotacin para encontrar probabilidades
Las anotaciones usadas en encontrar probabilidades se definen como: P denota una
probabilidad; A, B, C denotan eventos especficos y, P(A), denota la probabilidad de
que ocurra el evento A.
1. P denota una probabilidad
2. A, B, C denotan eventos especficos
3. P(A) denota la probabilidad de que ocurra el evento A
4. P (B) denota la probabilidad de que ocurra el evento B, etc.

Axiomas y propiedades bsicas de la probabilidad


2-5
Dr. Hctor Quevedo Uras

1. Para cualquier evento A, P(A) 0. Adems, la probabilidad no puede ser mayor que
1, ni tampoco negativa.
2. La probabilidad de un espacio muestral es: P(S) = 1
3. Si A1, A2,...., Ak es una coleccin finita de eventos mutuos excluyentes (que no
puede ocurrir a la misma vez), entonces:
k
P(A1 A2 .... Ak) = P(Ai) (2-3)
i=1

Si A1, A2, A3,... es una coleccin infinita de eventos mutuos excluyentes, entonces:
k
P(A1 A2 A3 ...) = P(Ai) (2-4)
i=1

Ejemplo #6. Este es un ejemplo adaptado del libro de Richard A. Jonson, intitulado
Probabilidad y Estadstica para Ingenieros de Miller y Freund (1994). Las
probabilidades de que un consumidor que prueba el servicio de un nuevo dispositivo
anticontaminante para autos, lo clasifique como muy deficiente, deficiente, suficiente,
bueno, muy bueno o excelente son: 0.07, 0.12, 0.17, 0.21, y 0.011. Cules son las
probabilidades de que las clasificaciones del dispositivo sean?:
(a) Muy deficientes?
(b) Deficientes?
(c) Suficientes o buenas?
(d) Buenos, muy buenos o excelentes?
Solucin:
Puesto que las posibilidades son mutuamente excluyentes (que no pueden ocurrir a la
vez), la sustitucin directa de cada una de las cinco clasificaciones, en la funcin (2-3)
da como resultado:
(a)-(c) es: 0.07 + 0.12 + 0.17 + 0.32 = 0.68
2-6
Dr. Hctor Quevedo Uras

(d) 0.32 + 0.21 + 0.11 = 0.64


Terminologa usada en probabilidad

Cuando se habla de probabilidad se incluyen trminos como: experimento, resultados,


eventos, espacio muestral, teora de conjuntos (uniones, intersecciones, complemento
como A'), eventos mutuos excluyentes, variables aleatorias discretas (estocsticas de
conjetura o probabilidad), probabilidad de frecuencia relativa, probabilidad subjetiva,
tcnicas de conteo (combinaciones y permutaciones, regla de multiplicacin y adicin,
etc.), teorema de Bayes, independencia, eventos mutuos excluyentes, diagramas de
Venn, rboles de probabilidad, etc. Algunas definiciones de estos trminos se dan
abajo.
Experimento.- Un experimento es un proceso que nos ayuda a obtener observaciones
de dos o ms resultados distintos, donde el resultado que ocurre no puede ser
predecible con certeza, sino en trminos de probabilidad.
Evento.- Es una coleccin de uno o ms resultados elementales de un experimento. Un
evento es un subconjunto de un espacio muestral. Por subconjunto se entiende
cualquier parte de un conjunto, incluyendo el conjunto en su totalidad. Aqu, tambin
puede haber conjuntos vacos denotados por , los cuales no poseen ningn elemento.
Eventos mutuos excluyentes. Dos eventos A y B son mutuos excluyentes o desunidos,
si su interseccin A B = , esto es, si A y B no tienen elementos en comn. Por
ejemplo, los eventos A y B se dice que son mutuos excluyentes o desunidos, si A y B
no pueden ocurrir simultneamente o en un solo ensayo de un experimento. Por ende,
si A y B son eventos mutuos excluyentes, por lo tanto, P(A B) = 0. En este rengln
se puede usar la regla aditiva, el teorema de Bayes o eventos independientes.
Ejemplo #7. Dos eventos A y B son mutuos excluyentes o desunidos, si A B = ,
esto es, si A y B no tienen elementos en comn. Siendo as, decir si en un solo
2-7
Dr. Hctor Quevedo Uras

lanzamiento de una moneda los dos eventos A y B son mutuos excluyentes.


Solucin:
Debido a que si cae la cara, el guila no puede caer a la misma vez y viceversa, por lo
tanto, los eventos A y B son mutuos excluyentes.
Ejemplo #8. Si E1 es el evento de sacar un as de un mazo de 52 naipes y E2 es el
evento de sacar un rey, son estos eventos mutuos excluyentes?
Solucin:
Aqu, en este caso, si son eventos mutuos excluyentes porque no se puede sacar el as o
el rey a la misma vez.
Espacio muestral.- El espacio muestral (S) es el conjunto de todos los resultados
posibles de un experimento estadstico. Los espacios muestrales se clasifican de
acuerdo al nmero de elementos (puntos) que contienen. En este respecto, se pueden
enlistar los elementos separados por comas y enclaustrados en corchetes ({}). Los
espacios muestrales pueden ser finitos, no finitos, discretos y continuos. Sin embargo,
los dos tipos bsicos de espacios muestrales son los discretos y continuos. Por
ejemplo, un espacio muestral discreto tiene un nmero finito de eventos simples o un
nmero infinito contable de eventos simples. En el caso de espacios muestrales
continuos, esto se refiere cuando los elementos (puntos) de un espacio muestral
constituyen un continuo, como por ejemplo, todos los puntos de una lnea; todos los
puntos de un segmento de lnea o todos los puntos de un plano. En algunos
experimentos puede ser til enlistar los elementos del espacio muestral,
sistemticamente, por medio de diagramas de rbol.
Ejemplo #9. Un ejemplo de un espacio muestral discreto finito es el lanzamiento de
una moneda dos veces, el cual tiene un espacio muestral de 4 eventos simples, donde
H denotan caras y T denotan guilas. Esto es:
2-8
Dr. Hctor Quevedo Uras

S = {HH, HT, TH, TT}


Ejemplo #10. Un ejemplo de un espacio no finito est relacionado con el siguiente
experimento. Si unos mecnicos encargados de verificar la emisin de xidos de
nitrgeno de los autos, les interesa saber el nmero de autos que deben inspeccionar
antes de ver, cul es el nmero de ellos que no satisfacen los reglamentos
gubernamentales. Aqu, bien podra ocurrir que fuese el primer auto, el segundo, el
tercero, etc., y que tuvieran que verificar miles de autos antes de encontrar uno que no
cumpla con los reglamentos. Dado a que no se sabe que tan lejos tendran que llegar,
por lo tanto, se considera una cantidad de autos contable infinita.
Ejemplo #11. En el caso de espacios muestrales con un nmero infinito de puntos
muestrales, estos se describen mejor usando mtodos de regla. Por ejemplo, si todos
los resultados posibles de un experimento, es el grupo de ciudades en el mundo, con
una poblacin de ms de un milln, entonces, el espacio muestral S es:
S = {x|x es una ciudad con una poblacin de ms de un milln}
Ejemplo #12. Para explicar un espacio muestral continuo, considrese el experimento
de observar el tiempo para completar una tarea en particular, digamos, en un intervalo
de 0 a 40 segundos. En este caso, el espacio muestral es continuo debido a que hay un
nmero de valores infinitamente contable, en el intervalo de 0 a 40 segundos.
S = {todas las veces posibles entre 0 y 40 segundos}
Unin.- La unin de dos eventos, digamos A y B, se denotan por el smbolo A B y
se lee A o B, y es el evento que contiene todos los elementos que pertenecen a A o B o
ambos. Por lo tanto, el evento A B ocurre, si A ocurre, si B ocurre o si ambos A y B
ocurren.
Ejemplo #13. Si dejamos que el evento A = {a, b, c} y B = {b, c, d, e}, siendo as, por
lo tanto, A B = {a, b, c, d, e}
2-9
Dr. Hctor Quevedo Uras

Ejemplo #14. Si M = {x|3 < x < 9} y N = {y|5 < y < 12}, entonces, encontrar la unin
de M N. (Walpole 1993, p. 14)
Solucin:
M N = {z}3 < z < 12}
Interseccin de los eventos. La interseccin de dos eventos A y B, se denota por el
smbolo A B, que se lee "A y B". La interseccin A B es el grupo de puntos en el
evento del espacio A y en el evento del espacio B. Por lo tanto, el evento A B
ocurre, solamente, si ambos eventos A y B ocurren. Aqu, la palabra clave y se
refiere al evento conteniendo todos los elementos que son comunes o que estn en
ambos, A y B.
Ejemplo #15. Si S = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, A = {0, 2, 4, 6, 8}, B = {1, 3, 5, 7, 9},
C = {2, 3, 4, 5} y D = {1, 6, 7}, encontrar:
(a) A B.
(b) A C
Solucin:
(a) Debido a que en A B no hay ningn elemento en comn, por lo tanto, A B =
y no pueden ocurrir a la misma vez.
(b) Debido a que, solamente el 2 y el 4 son comunes en ambos eventos A y C, por lo
tanto, A C = {2, 4}
Ejemplo #16. Si dejamos que M = {a, e, i, o, u} y N = {r, s, t}, por lo tanto, M N =
, lo cual dice que M y N no tienen elementos en comn y que no pueden ocurrir a la
misma vez.
Complemento.- El complemento de un evento A, denotado por A', es el conjunto de
todos los resultados en el espacio muestral S, que no estn contenidos en A.
Ejemplo #17. Si A = {0, 1, 2, 3, 4}, B = {3, 4, 5, 6} y C = {1, 3, 5}, entonces,
2-10
Dr. Hctor Quevedo Uras

encontrar:
(a) A B
(b) A C
(c) A B
(d) A C
(e) A'
(f) {A C}'
Solucin:
(a) A B = {0, 1, 2, 3, 4, 5, 6} = S
(b) A C = {0, 1, 2, 3, 4, 5}
(c) A B = {3,4}
(d) A C = {1,3}
(e) A' = {5,6}
(f) (A C)' = {6}

2-11
Dr. Hctor Quevedo Uras

Figura 2.0. Diagrama mostrando los espacios muestrales y los eventos. (Johnson,
1997).

Ejemplo #18. Refirindose al problema anterior representar con smbolos de Venn las
siguientes regiones:
(a) 4, 6, 7
(b) 1,4
(c) 1, 2, 5, 7
(d) 1, 2
(e) 1, 3, 4
Solucin:
(a) (A U C)
(b) (A C)
(c) (A U B)
(d) (A B)
(e) (A U B) C)
Ejemplo #19. Si S = {libro, catalizador, cigarrillo, qumico, ingeniero, remache} y, si
dejamos que A = {catalizador, remache, libro, cigarrillo}, entonces A' = {qumico,

2-12
Dr. Hctor Quevedo Uras

ingeniero}
Ejemplo #20. El espacio muestral de un experimento aleatorio se da como S = {AA,
AN, NA, NN}. Si E1 = {AA, AN, NA} y E2 = {AN, NA, NN}, entonces, encontrar:
(a) E1 E2
(b) E1 E2
(c) E1'
(d) E2'
Solucin:
(a) E1 E2 = {AA, AN, NA, NN}
(b) E1 E2 = {AN, NA}
(c) E1' = {NN}
(d) E2' = {AA}
Eventos mutuos excluyentes.- Dos o ms eventos se dice que son mutuos excluyentes
o desunidos, cuando no hay elementos comunes entre si. Para esto se usa la
simbologa de intersecciones, es decir, A B = , esto dice que A y B no tienen
elementos en comn. Esto nos dice qu, cuando uno de los resultados ocurre, los otros
no pueden ocurrir al mismo tiempo. Por ejemplo, cuando se lanza un dado, la sacada
de un 1 y un 2 son eventos mutuos excluyentes, debido a que, si el sale el 1, no puede
salir el 2, a la misma vez. Igualmente, con los naipes si sale un rey no puede salir un as
o cualquier otra carta del mazo de cartas.
Si E1 y E2 son eventos mutuos excluyentes, entonces:
Pr{E1E2} = 0.
Si E1 + E2 denotan los eventos de que, ya sea que E1 o E2 o ambos ocurran, entonces:
Pr{E1 + E2} = Pr{E1} + Pr{E2} - Pr{E1E2}
En general para eventos mutuos excluyentes:
2-13
Dr. Hctor Quevedo Uras

Pr{E1 + E2} = Pr{E1} + Pr{E2} (2-5)


Ejemplo #21. De los siguientes eventos, determinar, cules eventos son mutuos
excluyentes y cules no lo son.
(a) Manufacturando un componente electrnico defectuoso.
Manufacturando un componente electrnico bueno.
(b) Probando un sujeto con un coeficiente de intelecto > 100.
Probando un sujeto con un coeficiente de intelecto < 95
(c) Seleccionando un mdico, quien es cirujano
Seleccionando un mdico quien es mujer
(d) Seleccionando un tipo con personalidad dominante
Seleccionando un tipo de personalidad sumisa.
Solucin:
En este caso, los incisos (a), (b), (d) son eventos mutuos excluyentes. Sin embargo, el
inciso (c) es evento no mutuo excluyente.
Ejemplo #22. Supngase que hay 3 distribuidores de autos: el distribuidor de GM
vende Chevrolet, Pontiac y Buick; el distribuidor de la Ford vende Mercury y Ford y,
el distribuidor de la Chrysler vende Plymouth y Chrysler. Si un experimento consiste
en observar la marca del siguiente auto vendido, entonces, los eventos A = {Chevrolet,
Pontiac, Buick} y B = {Ford, Mercuy} son mutuos excluyentes porque el siguiente
auto vendido no puede ser producto de GM o de Ford.
Ejemplo #23. Dos eventos A y B son mutuos excluyentes o desunidos, si A B = ,
esto es, si A y B no tienen elementos en comn. Siendo as, decir si en un solo
lanzamiento de una moneda los eventos A y B son mutuos excluyentes.
Solucin:
Debido a que, si cae la cara de la moneda, la cara opuesta no puede caer a la misma
2-14
Dr. Hctor Quevedo Uras

vez y viceversa. Por lo tanto, los dos eventos A y B son mutuos excluyentes.
Probabilidad condicional.- Se define como la probabilidad de que un evento A ocurra,
cuando se sabe que el evento B ha ocurrido y se denota como P (A|B). Tambin la
probabilidad de que un evento B ocurra, cuando se sabe que el evento A ha ocurrido,
se denota por P (B|A). Las funciones usadas para tales fines son:
P (A B) P(A B)
P (B|A) = ; P (A|B) = (2-6)
P(A) P(B)

Ejemplo #24. Si P(D) = 0.83, P(A) = 0.82 y P(D A) = 0.78, encontrar los siguientes
enunciados:
(a) P(A|D)
(b) P(D|A)
Solucin:
(a) P(A|D) = P(D A)/P(D)
= 0.78/0.83
= 0.94
(b) P(D|A) = P(D A)/P(A)
= 0.78/0.82
= 0.95
Ejemplo #25. Los resultados obtenidos de 266 muestras de aire se clasifican de
acuerdo a la presencia de dos molculas raras. Sean A: el evento formado por todas las
muestras de aire en la que se encuentra la molcula rara 1, y B: el evento formado por
todas las muestras de aire donde est presente la molcula rara 2. Si se calcul que la
probabilidad P(A B) = 12/66 y P(A) = 36/266, entonces, calcular la probabilidad del
evento formado por todas las muestras de aire con la molcula 2, dado el evento

2-15
Dr. Hctor Quevedo Uras

formado por todas las muestras de aire con la molcula 1. (Montgomery et al. 1996)
Solucin:
P(B|A) = P(A B) / P(A)
= (12/266) / (36/266)
= 12/36
Ejemplo #26. Refirindose al problema anterior, encontrar P(A|B), si P(B) es igual a
30/266.
Solucin:
P(A|B) = P(A B) / P(B) = 12/266/(30/266) = 12/30
Eventos independientes y dependientes.- En este caso, sin embargo, cuando hablamos
de probabilidad condicional se incluyen lo que se llaman eventos independientes y
eventos dependientes. Por ejemplo, si la ocurrencia de un evento, no cambia la
probabilidad de la ocurrencia del otro evento, entonces, se dice que los dos eventos
son independientes. Sin embargo, si cualquiera de estas condiciones no se satisfacen,
los dos eventos se dicen que son dependientes, es decir, P(A|B) P(A).
En el caso especial de que A y B sean independientes, es decir, de manera que,
P(A|B) = P(A), esto conduce a la regla especial de multiplicacin:
P(A B) = P(A) P(B) (2-7)
Ejemplo #27. Encontrar la probabilidad de sacar dos caras en dos lanzamientos de una
moneda honesta.
Solucin:
Puesto que la probabilidad de las caras es de 0.5 por cada lanzamiento y los dos
lanzamientos son independientes, la probabilidad es (1/2)(1/2) =
Ejemplo #28. Se sacan dos cartas, aleatoriamente, de un mazo de 52 naipes. Qu
probabilidad hay de obtener dos ases si?
2-16
Dr. Hctor Quevedo Uras

(a) La primera carta se reemplaza antes de que se saque la segunda.


(b) La primera carta no se reemplaza antes de que se saque la segunda carta.
Solucin:
(a) Dado que entre los 52 naipes hay cuatro ases, la probabilidad de sacar dos ases es
de: (1/13)(1/13) = 1/169.
(b) Dado que entre los 51 naipes restantes, al sacar un as del fajo de cartas, quedan
solo 3 ases, entonces, la probabilidad es: (4/52)(3/51) = 1/221. Aqu se ve que este es
un evento dependiente, porque 1/221 1/169, ya que los eventos son dependientes,
cuando hay muestreo sin reemplazo.
Ejemplo #29. Para dos eventos J y K se sabe que P(J) = 0.60, P(K) = 0.4 y P(J K) =
0.10. Decir si estos dos eventos son independientes.
Solucin:
Debido a que P(J K) = 0.10, P(J/K) = P(J K)/P(K) = 0.10/0.40 = 0.25, entonces,
siendo que P(J/K) = 0.25 P(J) = 0.6 y los dos eventos son dependientes.
Ejemplo #30. Encontrar P(A|B), si P(B) = 20/26 y P(A B) = 30/26
Solucin:
Usando la funcin P(A|B) = P(A B)/P(B) y sustituyendo da:
P(A|B) = (30/26)/(20/26)
= 600/676
= 0.888
Variable aleatoria (va).- Fundamentalmente, hay dos tipos de variables aleatorias:
variables aleatorias discretas y variables aleatorias continuas. La variable aleatoria es
una funcin que asigna un nmero real a cada resultado en un espacio muestral S. Es
un valor de una funcin numricamente definido sobre S, es decir, una regla que
asocia un nmero a cada resultado en el espacio muestral S. Algunos estadsticos
2-17
Dr. Hctor Quevedo Uras

relacionan el trmino "variable aleatoria" con el trmino "estocstico", que se


relaciona con conjetura o probabilidad. Hay variables aleatorias binomiales, de
Poisson, hipergeomtricas, variables de la distribucin normal, de la distribucin de t
de estudiante, de JI cuadrada, de Fisher, etc.
Estocstico.- Es un trmino que involucra una variable aleatoria o que relaciona
casualidad o probabilidad.
Variable aleatoria discreta (vad).- La vad es un conjunto o rango de valores finitos o
infinitamente contables en nmeros. La vad se asocia con distribuciones de Bernoulli,
de Poisson, geomtrica, hipergeomtrica, negativa binomial, etc. Un ejemplo de vad
finita es el nmero de autos manejados con una flota de 6 vehculos, es decir, donde x
= 0, 1, 2, 3, 4, 5. Sin embargo, un ejemplo de vad infinitamente contable es el nmero
de personas que entran a una tienda de compras cada mes.
Variable aleatoria continua (vac).- La vac se define como el rango de una variable
aleatoria X que contiene un intervalo infinito o finito de nmeros reales. Por ejemplo,
si X es el valor del peso de una persona, el rango de X es X 0. Las distribuciones
continuas asociadas con vac son la distribucin normal, la familia de las distribuciones
gamma, beta, la distribucin exponencial, la JI cuadrada, la t de estudiante, etc.
Diagramas de Venn y lgebra de conjuntos
Diagrama de Venn.- Es un dispositivo grfico para representar el espacio muestral y
las operaciones que implican eventos. El ingls J. Venn desarroll este tipo de
diagrama para representar, grficamente, los resultados de un experimento. El
concepto de las reglas de eventos mutuos excluyentes y varias otras reglas de
probabilidad se pueden representar con diagramas de Venn. Para construir un
diagrama de Venn un espacio se enclaustra representando el total de todos los
resultados posibles.
2-18
Dr. Hctor Quevedo Uras

Las reglas de las tres operaciones bsicas del lgebra de conjuntos para formar
uniones, intersecciones y complementos de eventos se describen en la TABLA 2.1.
TABLA 2.1. Tabla mostrando las leyes del lgebra de conjuntos. (Elaboracin
propia)
___________________________________________________________________
Ley asociativa: (A B) C = A (B C)
(A B) C = A (B (B C)
Ley conmutativa: AB=BA
AB=BA
Ley distributiva: A (B C) = (A B) (A C)
A (B C) = (A B) (A C)
Leyes de Morgan: (A B)' = A' B'
(A B)' = A' B'
Leyes complementarias: A A' = S
A A' =
(A')' = A
S' = , ' = S
Leyes idnticas: A=A
AS=A
AS=S
A=
Leyes con la misma potencia: AA=A
AA=A
__________________________________________________________________

2-19
Dr. Hctor Quevedo Uras

Figura 2.2. Los esquemas de abajo muestran algunos diagramas de Venn. (Elaboracin
propia)

Tcnicas de conteo

Numerosas reglas de conteo han sido usadas para contar el nmero de puntos en
muestreos. Cuando los diversos resultados de un experimento son igualmente
probables, la tarea de calcular probabilidades se reduce a contar. Estas tcnicas de
conteo son tiles para contar el nmero de eventos que componen el numerador y/o el
denominador de una probabilidad.
Ejemplos de tcnicas de conteo son:
1. La regla del producto para pares ordenados
2. La regla del producto ms general
2-20
Dr. Hctor Quevedo Uras

3. Factoriales
4. Uso de diagramas de rbol
5. Permutaciones
6. Combinaciones
La regla del producto para pares ordenados
La forma ms bsica de conteo es la regla del producto mn. Por ejemplo, si el primer
elemento u objeto de un par ordenado se puede seleccionar en n1 formas, y por cada
una de estas n1 formas se puede seleccionar un segundo elemento del par en n2 formas,
entonces, siendo as, esto es una regla del producto.
Ejemplo #31. Cuntos puntos muestrales hay en un espacio muestral S, cuando un
par de dados se lanzan una vez?
Solucin:
El primer dado puede caer en n1 = 6 maneras. Para cada una de estas 6 maneras, el
segundo dado puede tambin caer en n2 maneras. Por lo tanto, el par de dados pueden
caer en n1n2 = (6) (6) = 36. El espacio muestral es:
S = {1-1, 1-2, 1-3, 1-4, 1-5, 1-6, 2-1, 2-2, 2-3, 2-4, 2-5, 2-6, 3-1, 3-2, 3-3, 3-4, 3-5, 3-
6, 4-1, 4-2, 4-3, 4-4, 4-5, 4-6, 5-1, 5-2, 5-3, 5-4, 5-5, 5-6, 6-1, 6-2, 6-3, 6-4, 6-5, 6-6}
Ejemplo #32. En un estudio mdico los pacientes se clasifican en ocho maneras de
acuerdo a que tengan tipo de sangre, es decir, AB+, AB-, A+, A-, B+. B- o O+, O- y
tambin de acuerdo a, aqullos que tengan presin alta, baja o normal. Encontrar el
nmero de maneras en las cuales un paciente se pueda clasificar.
Solucin:
n1 = 8 tipos de sangre y n2 = 3 presiones arteriales. Por lo tanto, n1 n2 = (8) (3) = 24
maneras.

2-21
Dr. Hctor Quevedo Uras

Regla de multiplicacin ms general


La regla del producto para k-arreglos se define como sigue: Si una operacin puede
ser hecha en n1 maneras y, si para cada una de estas maneras, una segunda operacin
puede ser hecha en n2 maneras, y, si por cada una de estas dos primeras operaciones,
una tercera operacin puede ser hecha en n3 maneras y, as sucesivamente, entonces, la
secuencia de k operaciones o arreglos puede ser hecha en n1, n2, n3,..., nk arreglos, es
decir:
n1n2n3,,nk (2-8)
Ejemplo #33. Supngase que un cliente desea instalar un telfono Trimline y se puede
seleccionar de n1 = 10 colores decorativos que se supone estn disponibles en n2 = 3
longitudes de cables con n3 = 2 tipos de tonos rotativos. Entonces, cuntos arreglos se
pueden hacer?
Solucin:
n1n2n3 = (10)(3)(2)
= 60 arreglos
Ejemplo #34. Si cada clnica en un centro mdico, tiene 4 especialistas del corazn, 3
especialistas en medicina interna y dos cirujanos generales, cuntas maneras existen
de seleccionar un mdico de cada tipo? (Nota: en este rengln, del punto de vista del
autor de este libro, no puede haber especialistas mdicas de cada una de las partes,
rganos o sistemas del cuerpo, como comnmente se cree. Si as fuera, esto
equivaldra a decir que cada rgano o sistema del cuerpo funciona independientemente
del resto del organismo; lo cul no es correcto. Esto se debe a qu, el cuerpo est
compuesto por rganos o sistemas contingentes o dependientes, cuyo funcionamiento
depende, en turno, de la direccin que se le d a todo el organismo como unidad
independiente. El hecho de que un rgano o sistema del cuerpo est aparentemente
2-22
Dr. Hctor Quevedo Uras

enfermo, esto no quiere decir qu, solamente, ese rgano en particular est enfermo,
sino que toda la qumica del cuerpo est alterada, como resultado de vida antinatural.
Este razonamiento est relacionado con la tesis de Hipcrates conspiratio una).
Solucin:
n1n2n3 = (4)(3)(2) = 24
Regla factorial
Dado un ntegro positivo n, el producto de todos los nmeros enteros desde n hasta 1
se llama factorial n y se escribe n!. En general, n! = n(n 1)(n 2)(n 3).1. Por
definicin 0! = 1. Aqu ntese que 10! = 109!; 5! = 44!, y n! = n(n 1)!
Ms adelante, cuando se discuta el tema de permutaciones se ver que, la
diferencia entre la regla factorial y la regla de permutaciones, es la siguiente: la regla
factorial dice cuntos arreglos son posibles, cuando se usan todos los diferentes
objetos de n. Sin embargo, cuando se habla de permutaciones, se seleccionan
solamente algunos de los objetos n, no todos, como en el caso de la regla factorial.
Ejemplo #35. Calcular los siguientes factoriales:
(a) 10!
(b) 5!
(c) 9!/0!
Solucin:
(a) 10! = 3,628,800
(b) 5! = 120
(c) 9!/0! = 362,880/1 = 362,880
Ejemplo #36. Un candidato presidencial planea visitar cada uno de 28 estados de un
pas. Cuntas rutas diferentes son posibles?
Solucin:
2-23
Dr. Hctor Quevedo Uras

Las capitales de los diferentes 28 estados se pueden arreglar en 28! maneras, de tal
forma el nmero de diferentes rutas es 28! = 3.049x1029.
Ejemplo #37. En la facultad de ingeniera, en cierta oficina, los escritorios de 4
becarias se ponen en lnea contra una pared. Cada becaria se puede sentar en cualquier
escritorio. Cuntos arreglos para sentar a las becarias son posibles?
Solucin:
Usando n! = 4! = (4)(3)(2)(1) = 24
Diagramas de rbol
En las reglas de producto o regla de multiplicacin se puede usar una configuracin
llamada diagrama de rbol, para representar esquemticamente, todas las posibilidades
y calcular cualquier probabilidad en los resultados obtenidos del diagrama de rbol.
De esta manera, los espacios muestrales pueden describirse grficamente en trminos
de un diagrama de rbol.
Ejemplo #38. Supngase que una computadora pueda seleccionar, aleatoriamente, uno
de dos factores, Rh (positivo y negativo) y uno de tres tipos de sangre. Calcular la
probabilidad de sacar un factor Rh positivo con tipo de sangre A.
Solucin:
Usando la regla de multiplicacin n1 n2 = (2) (3) = 6 se hace este clculo. Sin embargo,
aqu es difcil visualizar las combinaciones calculadas en la probabilidad. No obstante,
el uso de un diagrama de rbol simplifica esta tarea.
Ejemplo #39. Con relacin al problema anterior hacer un diagrama de rbol para
relacionar el factor Rh y el tipo de sangre.
Solucin:

2-24
Dr. Hctor Quevedo Uras

Factor Rh Tipo de sangre Resultado


A +A
+ O +O
B +B

A -A
- O -O
B -B

Figura 2.3. Diagrama mostrando el factor Rh, el tipo de sangre y el resultado.


(Elaboracin propia)

Del diagrama de rbol de arriba podemos ver que el espacio muestral es:
S = {+A, +O, +B, -A, -O, -B)
Examinando esta situacin vemos qu, una sola rama corresponde a: +A. Por lo tanto,
la probabilidad de sacar este arreglo es de 1/6.
Ejemplo #40. Supngase que se quiera encontrar la probabilidad de un infante, que sea
una hembra con ojos azules. Asumir que la probabilidad de varones y hembras es
igual y que puedan salir con colores de ojos cafs, verdes, azules o castaos.
Solucin:
Usando la regla de productos da: n1 n2 = (2) (4) = 8. La probabilidad de una hembra
con ojos azules es 1/8.
Pero, haciendo un diagrama de rbol simplificamos el clculo de la probabilidad de
sacar una hembra con ojos azules.

2-25
Dr. Hctor Quevedo Uras

ojos cafs ojos cafs

ojos azules ojos azules


varn hembra
ojos verdes ojos verdes

ojos castaos ojos castaos

Figura 2.4. Diagramas de rbol para varones y hembras. El espacio muestral S da 8


posibilidades. De manera que, la probabilidad de una hembra de ojos azules es de 1/8.
(Elaboracin propia)

Ejemplo #41. Considrese el lanzamiento de una moneda tres veces (o el lanzamiento


de tres monedas a la vez). Hacer los siguientes enunciados:
(a) Usar un diagrama de rbol para representar el nmero de resultados experimentales
y el espacio muestral.
(b) Calcular la probabilidad de que caigan exactamente 3 soles (caras)
(c) Calcular la probabilidad de que caigan cuando menos 2 soles.
(d) Calcular la probabilidad de que caigan a lo ms 2 guilas.
(e) Calcular la probabilidad de cada uno de los resultados del espacio muestral.
Solucin:
(a) La figura de abajo muestra el diagrama de rbol del experimento de lanzar las tres
monedas simultneamente.

2-26
Dr. Hctor Quevedo Uras

Etapa 1 Etapa 2 Etapa 3


Primera moneda Segunda moneda Tercera moneda

Figura 2.5. Diagrama de rbol del experimento de lanzar las tres monedas
simultneamente, donde S = soles y A = guilas. (Elaboracin propia)

Con este diagrama de rbol vemos que hay 8 resultados al lanzar una moneda tres
veces consecutivas o tres monedas simultneamente. El espacio muestral es:
S = {(SSS), (SSA), (SAS), (SAA), (ASS), (ASA), (AAS), (AAA)}
(b) La probabilidad de caigan exactamente 3 soles es:
P(soles = 3) = 1/8
(c) La probabilidad de que caigan cuando menos 2 soles es:
P(soles 2) = 4/8 = 1/2
(d) La probabilidad de caigan a lo ms dos guilas es:
P(guilas 2) = resolverse por el lector
(e) La probabilidad de todo el conjunto muestral es: P(S) = 1 o sea:
= P(SSS)+P(SSA)+P(SAS)+P(SAA)+P(ASS)+P(ASA)+P(ASS)+P(AAA)
= 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 + 1/8 = 1

2-27
Dr. Hctor Quevedo Uras

Ejemplo #42. Una pareja de recin casados desea tener 4 hijos.


(a) Enlistar el espacio muestral.
(b) Cual es la probabilidad de tener 3 varones? 4 varones?
(c) Cul es la probabilidad de tener puras hembras? Ms de 2 hembras?
Solucin:
(a) S = {vvvv, vvvh, vvhv, vvhh, vhvv, vhvh, vhhv, vhhh, hvvv, hvvh, hvhv, hvhh,
hhvv, hhvh, hhhv, hhhh}
(b) P(3 varones) = 2/8 = ; P(4 varones) = 1/16
(c) P(puras hembras) = 1/16; P(ms de 2 hembras) = 5/16
Permutaciones
Una permutacin es un arreglo ordenado de objetos o casos. De esta manera, hasta
ahora se ha discutido, nicamente, las reglas del producto para pares ordenados y la
regla de multiplicacin ms generalizada. Como se dijo, estas reglas dicen que, los
elementos sucesivos de un k-arreglo se seleccionaron de conjuntos diferentes y con
opciones con reemplazo para el mismo elemento que pueda aparecer ms de una vez.
Sin embargo, en el caso de las permutaciones, vamos a considerar un fondo fijo
formado por n distintos elementos y suponiendo que se forma un k-arreglo, al
seleccionar sucesivamente de este conjunto, sin reemplazo, para que un elemento
pueda aparecer a los sumo en una de las k posiciones.
Definicin: Una permutacin es un arreglo de todos o parte de un conjunto de objetos,
donde el orden es de importancia (en contraste con la combinacin en la cual veremos
que el orden no es de importancia).
Teorema 1: El nmero de permutaciones de objetos tomados todos a un tiempo es n!
Este teorema nos da el nmero total de todos los objetos tomados todos a un tiempo
(el cual es el espacio muestral).
2-28
Dr. Hctor Quevedo Uras

Ejemplo #43. Usando una calculadora de bolsillo, evaluar las siguientes


permutaciones: (a) 8P3, (b) 6P4, (c) 15P1, (d) 3P3
Solucin:
(a) 8P3 = n! / (n - r)! = 8!/(8 3)! = 336
(b) 6P4 = (6)(5)(4)(3) = 360
(c) 15P1 = 15
(d) 3P3 = (3)(2)(1) = 6
Ejemplo #44. El nmero de permutaciones de las cuatro letras, a, b, c, d (tomadas
todas a un tiempo) es:
n! = 4! = 24
Esta permutacin es, realmente, una regla factorial, porque se tomaron todas las letras
a un tiempo.
Teorema 2: El nmero de permutaciones de n objetos distintos tomados a un tiempo r
(una parte noms) se da como:
nPr = n! / (n - r)! (2-9)
Ejemplo #45. Dos boletos de la lotera se sacan de 20 para el primero y segundo lugar.
Encontrar el nmero de puntos muestrales en el espacio. Encontrar tambin todo el
espacio muestral S.
Solucin:
Aqu los objetos son tomados de 2 en 2 es decir, n = 20 y r = 2 y usamos la frmula:
nPr = n! / (n - r)! = 20P2 = 20!/(20 - 2)!
= 380
Ahora, si queremos todo el espacio muestral quiere decir que los vamos a tomar todos
a un tiempo r. Esto dice que la frmula:
nP r = n! / (n - r)! se reduce a n! o sea 20! = 2.43x1018.
2-29
Dr. Hctor Quevedo Uras

Ejemplo #46. De cuntas maneras puede la Sociedad Qumica Mexicana seleccionar


a 3 conferencistas para 3 conferencias diferentes, si hay nicamente 5 fechas
disponibles?
Solucin:
Aqu n = 5 y r = 3 usando nPr = n! / (n - r)! y sustituyendo los valores da:
nPr = n! / (n - r)! = 5P3 = 5! / 2! = 60. En resumen, aqu vemos qu, si queremos todas
las permutaciones posibles o todo el espacio muestral, entonces, usamos n! Pero, si
queremos, nicamente, una parte, usamos nPr = n!/(n - r)!
Ejemplo #47. Cul es el nmero de permutaciones de las letras a, b, c tomadas todas
a un tiempo?
Solucin:
Seis, v.g., ab, ba, ac, ca, bc, cb
Ejemplo #48. Considrese una carrera de 10 caballos y un premio de exacta para
cualquiera que pueda escoger el orden exacto del primero hasta el dcimo lugar.
Asumiendo que todos los caballos tienen la misma oportunidad de ganar, Cuntos
arreglos hay?
Solucin:
10P10 = 3,628,800 permutaciones
Ejemplo #49. Bajo las condiciones del problema #7, Cul es la probabilidad de ganar
si se compra un solo boleto?
Solucin:
P(Con un solo boleto) = 1 / 10P10 = 1/3,628,800
= 2.76x10-7
Ejemplo #50. Supngase que hay 6 partes diferentes para ser almacenadas, pero
solamente, hay 4 cajas disponibles. Cuntas permutaciones son posibles?
2-30
Dr. Hctor Quevedo Uras

Solucin:
Aqu, n = 6 y r = 4, es decir: 6P4 = 360
Teorema 3. El nmero de diferentes permutaciones de n objetos, de los cuales n1 son
de una clase, n2 son de una segunda clase,...nk son de una k-sima clase se da como:
n! / (n1! n2!..nk!) (2-10)
Donde: n! es el total de los objetos
Ejemplo #51. De cuntas maneras pueden arreglarse en un cordn elctrico 3 focos
rojos, 4 amarillos y 2 azules en 9 portalmparas?
Solucin:
Usando la regla de particin n!/(n1!n2!..nk!)
Donde, n! = 9, n1 = 3, n2 = 4 y n3 = 2, da:
9! / (3! 4! 2!) = 1260
Ejemplo #52. Un colegio juega 12 juegos durante la temporada. De cuantas maneras
puede el equipo terminar la temporada con 7 juegos ganados, 3 perdidos y 2 empates?

Solucin:
Usando la funcin (2-9) con n! = 12, n1 = 7, n2 = 3 y n3 = 2 y sustituyendo da:
12!/[(7!)(3!)(2!) = 7920
Otra forma de ver las permutaciones es cuando estamos interesados en el
nmero de maneras de partir un conjunto de n objetos en r subconjuntos llamadas
celdas.
Teorema 4. El nmero de maneras de partir un conjunto de n objetos en r celdas con n1
elementos en la primera celda, n2 elementos en la segunda y, as sucesivamente, es:

2-31
Dr. Hctor Quevedo Uras

n
= C = n! / n1! n2!...nr! (2-11)
n n1,n2..nr
n1,n2..nr

Donde:
n1 + n2 + nr = n
Ejemplo #53. En cuntas maneras pueden 7 cientficos ser asignados a un cuarto triple
y a 2 cuartos dobles en un hotel.
Solucin:
7
= 7! / (3!2!2!) = 210
3, 2 , 2

Ejemplo #54. De cuntas maneras se pueden acomodar a 10 viajeros en un hotel


asignndolos en 2 cuartos triples y 3 cuartos dobles?
Solucin:
Usando la funcin (2-11) y sustituyendo da:
10! / (3! 3! 2! 2! 2!) = 12,600
Combinaciones
Una combinacin es un arreglo de objetos, sin importar el orden. El nmero de
combinaciones de n objetos tomados a un tiempo r puede escribirse como nCr.
Teorema: El nmero de combinaciones de n objetos distintos tomados a un tiempo r es
una combinacin; esto es, el nmero de subconjuntos de tamao r que pueden
seleccionarse de un conjunto de n objetos distintos donde el orden no es importante
(como en el caso de la permutacin, en la cual el orden si es importante). La
combinacin se denota por la funcin:
nCr = n! / r! (n - r)! (2-12)
Donde:
nCr es la combinacin, que tambin se puede denotar como Cnr
2-32
Dr. Hctor Quevedo Uras

Ejemplo #55. Evaluar 7C4.


Solucin:
Usando la frmula (2-12) nCr = n! / r!(n - r)! y sustituyendo los valores da:
= 7C3 = 7! / 4! 3!
= 35
Ejemplo #56. Un fabricante de llantas hace 10 tipos de neumticos para diferentes
tamaos y quiere preparar una partida que contenga 6 tipos de llantas. Cuntas
combinaciones de llantas estn disponibles?
Solucin:
Usamos la funcin de combinacin, la cual es un arreglo de objetos, sin importar el
orden. Aqu se usa nuevamente, la funcin (2-12) definida como:
nCr = n!/ r!(n - r)! = nPr / r!
Aqu, n = 10, r = 6. Substituyendo estos valores en la funcin de arriba da:
10C6 = 10! / 6! 4! = 210
Ejemplo #57. Un grupo de tres inspectores va a inspeccionar las actividades de una
industria contaminante. El grupo se va a formar seleccionando los tres agentes de un
grupo de 5. Cuntos grupos diferentes se pueden formar siguiendo un orden
definido? Siguiendo un orden indefinido?
Solucin:
Para el primer caso, sera una permutacin, porque se quiere un orden definido.
Usando la frmula nPr = n!/(n - r)! con n = 5 y r = 3 y sustituyendo los valores da:
5P 3 = 5! / (5 - 3)! = 5!/3! = 20
Para el segundo caso, o sea un orden indefinido, sera una combinacin, porque el
orden no es de importancia, es decir, usando la frmula (2-12):
5C3 = 10
2-33
Dr. Hctor Quevedo Uras

Otra variacin de combinacin se define como el nmero de combinaciones de


n objetos tomados 1, 2, 3,... n a un tiempo. De esta manera, en general, para cualquier
ntegro positivo n se da por la funcin de abajo:
nC1 + nC2 + nC3 + ... + nCn = 2n 1 (2-13)
Ejemplo #58. Una persona tiene cinco monedas de diferentes denominaciones.
Cuntas sumas diferentes de dinero se pueden formar?
Solucin:
La moneda se puede seleccionar ya sea una de 5 monedas, dos de 5 monedas,.,
cinco de 5 monedas. Usando la funcin de arriba (2-13) y sustituyendo los valores
apropiados da:
5C1 + 5C2 + 5C3 + 5C4 + 5C5 = 5 + 10 + 10 + 5 + 1
= 31
Otra forma de hacer este problema sera razonando de la siguiente manera. Cada
moneda se puede manejar de dos maneras, a medida que se selecciona o no se
selecciona. Debido a que cada una de las dos maneras de tratar con una de las
monedas es asociada con dos maneras de usar, con cada una de las otras monedas, el
nmero de maneras de tratar con las cinco monedas es usando la relacin 25 maneras.
Pero la cantidad 25 maneras incluye el caso en el cual ninguna moneda se selecciona.
Por lo tanto, el nmero requerido de sumas de dinero es de 25 1 = 31.
Dentro del tpico de combinaciones, tambin se puede incluir el uso de la regla
hipergeomtrica (Pfaffenberger et al. 1987). Siendo as, supngase que hay n objetos
en un grupo y, que n1 son de un tipo y n2 son de otro tipo. El nmero de grupos de r
objetos, donde r1 son del primer tipo y r2 son del segundo tipo, que pueden ser
formados por medio de sacar r objetos de n, se da por: n1
n1Cr1 n2Cr2 donde n1 + n2 = n; r1 + r2 = r (2-14)
2-34
Dr. Hctor Quevedo Uras

Ejemplo #59.Un reclutador de una firma de empleos ha hecho entrevistas con 10


ingenieros, de los cuales 6 son ingenieros civiles y 4 no. El reclutador quiere emplear
5 de los 10 ingenieros entrevistados. Cuntos grupos posibles de los cinco ingenieros
empleados contendrn exactamente tres ingenieros civiles?
Solucin:
Dejar que n1 = 6 y n2 = 4 u usar la regla hipergeomtrica (2-14). En el subgrupo de
tamao r = 5, queremos r1 = 3 ingenieros civiles y r2 igual a los que no son ingenieros
civiles. Entonces, el nmero de grupos de tamao 5 de esta categora es:
6! 4!
6C34C2 = = (20)(6) = 120
3!(6 3)! 2!(4 2)!

Aqu ntese que la regla hipergeomtrica es poniendo juntos el producto y la regla


de combinaciones para obtener el resultado.
Eventos independientes y dependientes.- Dos eventos A y B se dice que son
independientes si la ocurrencia de A no afecta la probabilidad de la ocurrencia de B, es
decir:
P(A|B) = P(A) (2-15)
o bien P(B|A) = P(B) (2-16)
Eventos dependientes.- Si la ocurrencia o no ocurrencia de A, afecta la probabilidad
de ocurrencia de B, entonces, los eventos son dependientes. Adems, para tres eventos
independientes, digamos, E1, E2, E3 la probabilidad es:
Pr{E1E2E3} = Pr{E1}Pr{E2|E1}Pr{E3|E1E2}.
Ejemplo #60. Se selecciona aleatoriamente una carta de una baraja comn de 52
cartas. Si A es el evento de que la carta elegida sea un as y B sea el evento de que sea
un corazn, entonces, A y B son eventos independientes, ya que P(AB) = 1/52, P(A) =

2-35
Dr. Hctor Quevedo Uras

4/52 y P(B) = 13/52. Esto se debe a que hay 4 ases y 13 cartas de corazones.
Ejemplo #2. Considerar el espacio muestral S = {A, B, C, D), donde P(A) = P(D) = .3
y P(B) = P(C) = .2. (Keller et al. 1990)
(a) Siendo as, definir los eventos:
1 = {A, B}
2 = {B, C}
3 = {C, D}
(b) Cul de los siguientes pares de eventos son independientes o dependientes?
(b) 1 y 2
(c) 2 y 3
(d) 1 y 3
Solucin:
(a) 1 = {A, B} = .3, .2
2 = {B, C} = .2, .2
3 = {C, D} = .2, .3
(b) Los eventos 1 y 2 son independientes
(c) Los eventos 2 y 3 son independientes
(d) Los eventos 1 y 3 son dependientes

2-36
Dr. Hctor Quevedo Uras

Regla multiplicativa para eventos dependientes e independientes


En algunas ocasiones se pueden resolver problemas de probabilidad, por medio de
contar el nmero de puntos en un espacio muestral, el cual se refiere como la regla
multiplicativa. La regla multiplicativa o de conteo de nmero de puntos en un espacio
muestral se usa en este caso. Sin embargo, podemos ver que esta regla aplica para dos
eventos dependientes y para dos eventos independientes. Esta regla de multiplicacin
es sugerida por la definicin de probabilidad condicional arriba descrita. Esta regla de
probabilidad condicional se da como:
P(A|B) = P(A|B)/P(B), P(B) 0 (2-17)
Podemos reescribir esta ecuacin para obtener:
P(A|B) = P(B) P(A|B) (2-18)
La regla multiplicativa para dos eventos dependientes es:
P(A y B) = P(A) P(B|A) y P(A y B) = P(B) P(A|B) (2-19)
Que finalmente, tambin se escribe como:
P(A B) = P(B) P(A|B) (2-19a)
= P(A) P(B|A) (2-20b)
Donde:
P(A|B) se refiere a la probabilidad condicional de que el evento A ocurra dado que B
ya ocurri y P(B|A) se refiere a la probabilidad condicional de que el evento B ocurra
dado que A ya ocurri.
En verdad, la regla multiplicativa para eventos dependientes es la probabilidad
de la interseccin (A|B) de dos eventos A y B. Esto dice que, la probabilidad de
ocurrencia conjunta de evento A y evento B es igual a la probabilidad condicional de
A dado B por la probabilidad marginal de B.
La regla multiplicativa para dos eventos independientes es:
2-37
Dr. Hctor Quevedo Uras

P(A y B) = P(A) P(B) (2-21)


O bien P(A B) = P(A) P(B) (2-21a)
Ejemplo #61. Entre 3 discos de computadora uno est defectuoso. Dos de ellos se
seleccionan aleatoriamente, pero el primero es reemplazado, antes de sacar el segundo
disco. Cul es la probabilidad de que ambos discos estn buenos?
Solucin:
Dejemos que A sea el evento de sacar un disco bueno y, B, el evento de sacar un
segundo disco bueno. Entonces, la probabilidad de A es P(A) = 2/3 y la probabilidad
de B es P(B) = 2/3. Debido a que hay reemplazo, esto nos lleva a la regla
multiplicativa de eventos independientes. Por lo tanto:
P(A y B) = P(A B) = P(A) P(B)
= (2/3)(2/3) = 4/9
Ejemplo #62. Veinte unidades de un producto manufacturado se sitan en un depsito.
Dos de estas unidades estn defectuosas. Si se inspeccionan todas las 20 unidades,
cul es la probabilidad de seleccionar (aleatoriamente), las 2 unidades defectuosas?
Solucin:
Dejar que A sea la primera unidad defectuosa y B la segunda unidad defectuosa.
Entonces, queremos encontrar la probabilidad de interseccin de los dos eventos, es
decir, (A B). Los eventos son claramente dependientes, porque la probabilidad de
que la segunda unidad sea defectuosa depende de que si la primera unidad sea o no
defectuosa. Aqu: P(A) = 2/20 y P(B/A) = 1/19 Sustituyendo estos valores en la
funcin de la regla de multiplicacin para eventos dependientes da:
P(A B) = P(A) P(B/A)
= (2/10)(1/19)
= 0.00526
2-38
Dr. Hctor Quevedo Uras

Nota: La probabilidad condicional P(B/A) es igual a 19, porque si A ocurre (una


unidad defectuosa seleccionada en la primera sacada), entonces, quedarn solamente
19 unidades para ser seleccionadas en la segunda sacada. Por lo tanto, la probabilidad
de seleccionar las 2 unidades defectuosas es de 0.00526, la cual es muy improbable, es
decir, 5 oportunidades en 1,000!
Por otra parte, la regla multiplicativa para eventos independientes se define
como:
P(A B) = P(A) P(B) (2-22)
Ejemplo #63. Supngase que en una caja hay 20 fusibles, de los cules 5 estn
defectuosos. Si se seleccionan 2 fusibles aleatoriamente, en sucesin, cul es la
probabilidad de que los 2 fusibles seleccionados estn defectuosos?
Solucin:
Dejemos que A sea el evento de sacar el primer fusible defectuoso y, B, sea el evento
de sacar el segundo fusible defectuoso. Si interpretamos A B como el evento de
que A ocurre y B el evento despus de que A ocurri, entonces, la probabilidad de A
es P(A) = 5/20 y, la probabilidad de B es P(B) = 4/19. Por lo tanto,
P(A B) = P(A) P(B|A)
= (5/20)(4/19)
= 1/19
Ejemplo #64. En los juegos de los dados (honestos) la suma de un total de 7 puntos de
los dos dados gana. Cul es la probabilidad de que un jugador lance dos 7
consecutivos?
Solucin:
Los dos eventos son independientes, porque el resultado del segundo lanzamiento no
afecta al resultado del primero. Aqu el espacio muestral es de (36)(36) = 1,296 y la
2-39
Dr. Hctor Quevedo Uras

probabilidad de sacar la suma de 7 es de 6, es decir, (2+5, 5+2, 3+4, 4+3, 1+6, 6+1).
Usando la regla multiplicativa para eventos independientes da:
P(A B) = P(A) P(B)
= (6/36)(6/36) = 1/36
Ejemplo #65. Cuntos puntos muestrales hay en un espacio muestral, cuando un par
de dados se lanzan una vez?
Solucin:
El primer dado puede caer en n1 = 6 maneras. Para cada una de estas 6 maneras, el
segundo dado puede caer en n2 maneras. Por lo tanto:
n1 n2 = (6)(6) = 36 maneras posibles
El espacio muestral es:
S = {1-1, 1-2, 1-3, 1-4, 1-5, 1-6, 2-1, 2-2, 2-3, 2-4, 2-5, 2-6, 3-1, 3-2, 3-3, 3-4, 3-5, 3-6,
4-1, 4-2, 4-3, 4-4, 4-5, 4-6, 5-1, 5-2, 5-3, 5-4, 5-5, 5-6, 6-1, 6-2, 6-3, 6-4, 6-5, 6-6}
Regla aditiva para eventos mutuos excluyentes y eventos no mutuos excluyentes
En muchas aplicaciones de la teora de probabilidad, estamos interesados en combinar
probabilidades de eventos que estn relacionados de alguna manera. En este caso se usa
la regla aditiva. As, la regla aditiva se usa para computar la probabilidad de la unin de
dos eventos. Esta regla aplica para eventos no mutuos excluyentes y, tambin, para
eventos mutuos excluyentes.
Por ejemplo si A y B son eventos mutuos excluyentes el modelo aditivo es:
P(A B) = P(A) + P(B) (2-23)
Que tambin se puede escribir como:
P(A o B) = P(A) + P(B) (2-23a)
Nota. El smbolo P(A o B) se refiere a la probabilidad de cualquiera de los eventos A o
B ocurran o, bien, que ambos ocurran.
2-40
Dr. Hctor Quevedo Uras

Sin embargo, si los casos A y B no son eventos mutuos excluyentes, el modelo


aditivo es:
P(A B) = P(A) + P(B) - P(A B) (2-24)
Esta funcin tambin se puede expresar como:
P(A o B) = P(A) + P(B) - P(A y B) (2-25)
Nota: El smbolo P(A y B) se usa para denotar la probabilidad de que ambos eventos A
y B ocurrirn.
Ejemplo #66. Cul es la probabilidad de obtener un 6 en el primer o segundo
lanzamiento de un dado o, en ambos lanzamientos?
Solucin:
Aqu, usamos la regla aditiva para eventos no mutuos excluyentes:
P(A1 o A2) = P(A1) + P(A2) - P(A1 y A2)
O bien P(A o B) = P(A) + P(B) - P(A y B)
Para esto, dejemos que A1 denote el evento de un 6 en el primer lanzamiento y A2 el
evento de un 6 en el segundo lanzamiento. Queremos encontrar la probabilidad de P(A1
o A2), lo cual quiere decir que estamos buscando que el 6 aparezca, ya sea en el primer
lanzamiento o en el segundo lanzamiento o en ambos lanzamientos. De manera que:
P(A1) = 1/6, P(A2) = 1/6 y P(A1 y A2) = 1/36
Substituyendo todos estos valores en la frmula da:
P(A1 o A2) = 1/6 + 1/6 - 1/36 = 11/36
Ejemplo #67. La probabilidad de que Marina pase matemticas es de 2/3, y la
probabilidad de que pase el curso de ingls es 4/9. Si la probabilidad de pasar ambos
cursos es de 1/4, cul es la probabilidad de que Marina pase, cuando menos uno de
estos cursos?
Solucin:
2-41
Dr. Hctor Quevedo Uras

Dejar que A = 2/3 sea el evento de pasar matemticas y B = 4/9 el evento de pasar
ingls y P(A y B) = 1/4 el evento de pasar matemticas e ingls, entonces por la regla
aditiva:
P(A o B) = P(A) + P(B) - P(A y B)
P(A B) = P(A) + P(B) - P(A B)
P(2/3 o 1/4) = P(2/3) + P(1/4) - P(2/3 y 1/4)
= 2/3 + 4/9 - 1/4 = 31/36
Ejemplo #68. Cul es la probabilidad de que una carta seleccionada, aleatoriamente, de
un mazo de 52 cartas sea un rey o un corazn?
Solucin:
Debido a que hay un traslapado, se usa la regla aditiva para eventos no mutuos
excluyentes P(A o B) = P(A) + P(B) - P(A y B). Siendo as, dejemos que A = un rey
cualquiera y B = precisamente un corazn cualquiera. Por lo tanto, P(A) = 4/52, P(B) =
13/52, P(A y B) rey o corazones = 1/52. Aqu, es lgico que la probabilidad conjunta
(Una probabilidad que mide la verisimilitud de que puedan ocurrir dos a ms eventos a
la misma vez), de un rey y un corazn deba de restarse una vez. De no ser as se
incluira dos veces en encontrar la probabilidad de que una carta seleccionada
aleatoriamente fuera, ya sea un rey o un corazn. Existe un traslapado de resultados, lo
cual quiere decir que existe la probabilidad de que el rey (A) y un corazn (B) ocurran
al mismo tiempo. Por lo tanto:
P(A o B) = P(A) + P(B) - P(A y B)
= 4/52 + 13/52 1/52 = 16/52
Ejemplo #69. Este es un problema sacado del libro Statistical Analysis for Decisin
Making de Morris Hamburg (1989), el cual est relacionado con la probabilidad de
obtener un 6 en el primero o segundo lanzamiento de un dado o en ambos lanzamientos.
2-42
Dr. Hctor Quevedo Uras

Esto es lo mismo que calcular la probabilidad de obtener un 6, cuando menos una vez
en dos lanzamientos de un dado.
Solucin:
Dejar que A1 denote la salida de un 6 en el primer lanzamiento del dado y A2 represente
la salida de un 6 en el segundo lanzamiento. Queremos encontrar el valor de P(A1 o A2).
Para esto analicemos los resultados posibles del primero y segundo lanzamiento.

1,1 2,1 3,1 4,1 5,1 6,1


1,2 2,2 3,2 4,2 5,2 6,2
1,3 2,3 3,3 4,3 5,3 6,3
1,4 2,4 3,4 4,4 5,4 6,4
1,5 2,5 3,5 4,5 5,5 6,5
1,6 2,6 3,6 4,6 5,6 6,6

La probabilidad de que un 6 salga en ambos lanzamientos es P(A1 y A2) = 1/36. La


probabilidad de que un 6 salga en el primer lanzamiento es P(A1) = 1/6 y en el segundo
lanzamiento es P(A2) = 1/6. Entonces, aplicando la regla aditiva da:
P(A1 o A2) = P(A1) + P(A2) P(A1 y A2)
= 1/6 + 1/6 1/36
= 11/36
Aqu ntese que es necesario restarle 1/36 para evitar un traslapado.

2-43
Dr. Hctor Quevedo Uras

Figura 2.6. Las Figuras (a), (b) y (c) muestran el uso de diagramas de Venn para la regla
aditiva, para eventos mutuos excluyentes y no mutuos excluyentes. (Elaboracin propia)

Ejemplo #70. Una computadora genera aleatoriamente el ltimo dgito de un nmero


telefnico. Encontrar la probabilidad de que el resultado sea un 8 o 9 (Triola, 1986).
Solucin:
Los resultados de los nmeros 8 y 9 son eventos mutuos excluyentes, por lo tanto, se
usa la funcin (2-23). Entonces, dejemos que P(A) = 8 y P(B) = 9, y aplicando la regla
aditiva P(A B) = P(A) + P(B) y sustituyendo da:
P(8 o 9) = P(8) + P(9) P(8 y 9)
= 1/10 + 1/10 - 0
= 1/5
Ejemplo #71. Si E1 es el evento de sacar un as de un mazo de cartas y E2 es el evento de
sacar un rey, entonces, Pr{E1} = 4/52 y Pr{E2} = 4/52 = 1/13 y la probabilidad de sacar,
ya sea un as o un rey es de: Pr{E1 + E2} = Pr{E1} + Pr{E2} = 1/13 + 1/13 = 2/13.
2-44
Dr. Hctor Quevedo Uras

Entonces, por lo tanto, debido a que ambos el as y el rey no pueden ser sacados de un
solo tiro, por lo tanto, son eventos mutuos excluyentes y se usa la funcin (2-23).
Ejemplo #72. Si E1 es el evento de sacar un as y E2 es el evento de sacar una espada,
entonces, E1 y E2 no son eventos mutuos excluyentes debido a que el as de espadas
puede ser sacado. Siendo as, se usa la funcin (2-25) para eventos no mutuos
excluyentes. Por lo tanto, la probabilidad de sacar ya sea un as o una espada o ambos es:
Pr{E1 + E2} = Pr{E1} + Pr{E2} - Pr{E1E2} = 4/52 + 13/52 - 1/52 = 4/13
Ejemplo #73. Cual es la probabilidad de obtener un seis en el primero o segundo
lanzamiento de un dado o, en ambos lanzamientos de un dado honesto?
Solucin:
Aqu, usamos la regla aditiva para eventos no mutuos excluyentes, es decir, la funcin
(2-25). Para esto dejemos que A1 denote el evento de un seis en el primer lanzamiento y
A2 denote el evento de un seis en el segundo lanzamiento. Queremos encontrar la
probabilidad de P(A1 o A2), lo cual dice que estamos buscando que el nmero seis
aparezca, ya sea en el primer lanzamiento o en el segundo lanzamiento o en ambos
lanzamientos. Entonces:
P(A1) = 1/6, P(A2) = 1/6 y P(A1 y PA2) = 1/36
Sustituyendo todos estos valores en la funcin (2-27) da:
P(A B) = P(A) + P(B) P(A B)
P(A1 A2) = 1/6 + 1/6 1/36 = 11/36
Ejemplo #74. Cul es la probabilidad de que una carta seleccionada, aleatoriamente, de
un mazo de 52 cartas sea un as o un corazn?
Solucin:
Aqu, nuevamente, se usa la regla aditiva para eventos no mutuos excluyentes. Para esto
dejemos que A = un as cualquiera y B = precisamente un corazn cualquiera. Usando el
2-45
Dr. Hctor Quevedo Uras

mazo de 52 cartas (que contiene cuatro 2s, cuatro 3s, cuatro 4s, , cuatro 10s,
cuatro sotas, cuatro reinas, cuatro reyes y cuatro ases, con sus correspondientes figuras
de trboles, corazones, espadas y diamantes), por lo tanto, para un as cualquiera, P(A) =
4/52 , para un corazn cualquiera, P(B) = 13/52 y, para ases o corazones, P(A y B)
igual a 1/52. Aqu, nuevamente, como en el caso del ejemplo #68 es lgico asumir qu,
la probabilidad conjunta (una probabilidad que mide la probabilidad de que puedan
ocurrir dos o ms eventos a la misma vez), de un as y un corazn deba restarse una vez.
De no ser as, se incluira dos veces en encontrar la probabilidad de que una carta
seleccionada al azar fuera, ya sea un as o un corazn. Existe un sobrepuesto de
resultados, lo cual dice que existe la probabilidad de que el as (A) y un corazn (B)
salgan a la misma vez. Por lo tanto:
P(as o corazn) = P(as) + P(corazn) P(as y corazn)
= 4/52 + 13/52 1/52
= 16/52
Ejemplo #75. En este ejemplo, para ilustrar la ley aditiva de probabilidad, en la cual
existen traslapados, se puede hacer usando diagramas de Venn. Para esto, se hace el
siguiente experimento de lanzar dos monedas. Siendo as, estimar la probabilidad de
sacar, cuando menos una cara, ya sea en el primer lanzamiento o en el segundo
lanzamiento (Smith, 1985).
Solucin:
Primeramente, enlistar los cuatro posibles resultados poniendo H = caras y T = a soles,
es decir, HT, HH, TH y TT. Aqu, para evitar un traslapado, se usa la regla aditiva para
eventos no mutuos excluyentes. El diagrama de Venn de abajo ilustra claramente, el
traslapado que pudiera ocurrir, si se sumara la probabilidad de una cara en el primer
lanzamiento, ms la probabilidad de una cara en el segundo lanzamiento que dara +
2-46
Dr. Hctor Quevedo Uras

= 1, lo cual sera incorrecto. En este caso, la probabilidad de una cara en el primer


lanzamiento es de 0.5; la probabilidad de una cara en el segundo lanzamiento es 0.5 y,
la probabilidad de caras en ambos lanzamientos es de 0.25. Por lo tanto, la probabilidad
de una cara, ya sea en el primero o segundo lanzamiento es:
P(H o T) = P(H) + P(T) - P(H y T)
=+-=
El traslapado o la representacin del potencial de un doble conteo (HH) se da abajo.

Figura 2.7. Figura esquemtica mostrando un diagrama de Venn indicando el traslapado


de caras (HH), que ocurre en la interseccin de A y B (Smith, 1985).

2-47
Dr. Hctor Quevedo Uras

Regla multiplicativa para ms de dos eventos


Otra regla til para calcular la probabilidad de un evento es el modelo de la regla
multiplicativa. Esta regla se define como la probabilidad de la ocurrencia conjunta que
el evento A y el evento B sea igual a la probabilidad condicional del evento A dado el
evento B multiplicado por la probabilidad marginal de B.
Teorema 1: Si en un experimento, los eventos dependientes A1, A2, A3,...Ak pueden
ocurrir, entonces:
P(A1 A2 A3 ... Ak) = P(A1)P(A2|A1)P(A3|A1 A2) ...
...P(Ak|A1 A2 ... Ak-1) (2-26)
Teorema 2: Si los eventos A1, A2, A3,... Ak son independientes, entonces:
P(A1 A2 A3... Ak) = P(A1)P(A2)P(A3).P(Ak) (2-27)
Ejemplo #76. Tres naipes se sacan en sucesin, sin reemplazo. Encontrar la
probabilidad de que ocurra el evento A1 A2 A3, cuando A1 es el evento de que la
primera carta sea un as rojo, A2 sea que la segunda carta sea un 10 o una sota y, A3 sea
el evento de que la tercera carta sea mayor que un 3, pero menor que un 7.
Solucin:
Primero vamos a definir los eventos:
A1: la primera carta es un as rojo (aqu, ntese que hay noms 2 ases rojos)
A2: la segunda carta sea un 10 o una sota (hay cuatro 10s y cuatro sotas)
A3: la tercera carta sea mayor que 3 pero menor que 7 (hay doce cartas entre el 3 y el 7).
Los valores son: P(A1) = 2/52; P(A2|A1) = 8/51; P(A3|A1 A2) = 12/50. (Aqu ntese
que, en la primera sacada son 52 cartas, pero en la segunda sacada el nmero de cartas
baja a 51 y en la tercera sacada baja a 50 cartas).
Por lo tanto:
P(A1 A2 A3) = P(A1)P(A2|A1)P(A3|A1 A2)
2-48
Dr. Hctor Quevedo Uras

= (2/52)(8/51)(12/50)
= 8/5,525
Ejemplo #77. Hacer el mismo ejemplo #1 de arriba pero, en esta ocasin, con reemplazo
de cartas.
Solucin:
Al haber reemplazo de cartas, el problema se reduce a la regla multiplicativa para
eventos independientes. Los valores de las variables son:
P(A1) = 2/52; P(A2) = 8/52; y P(A3) = 12/52
Enseguida, substituyendo los valores en la expresin de abajo da:
P(A1 A2 A3) = P(A1)P(A2)P(A3)
= (2/52)(12/52)(12/52)
= 0.002
Ejemplo #78. Cuatro cartas se sacan en sucesin. Encontrar la probabilidad de que la
primera carta sea un rey; la segunda sea un 9 de diamantes; la tercera sea, cuando
menos, una sota (asumiendo que el as sea la ltima carta) y, la cuarta carta sea un 7
negro.
Solucin:
Dejemos que A sea cualquiera de los 4 reyes; B sea precisamente un 9 de diamantes; C
sea igual a doce cartas, es decir, desde la sota hasta el as; y D sea cualquiera de los dos
sietes negros.
Siendo as, P(A) = 4/52, P(B) = 1/51, P(C) = 16/50, P(D) = 2/49
Por lo tanto:
P(A B C D) = (4/52)(1/51)(16/50)(2/49)
= 128/6,497,400 = .00002
Ejemplo #79. Dejemos que un par de dados sean lanzados una sola vez. Las tablas de
2-49
Dr. Hctor Quevedo Uras

abajo muestran los resultados posibles, las probabilidades y su representacin. Hacer


una grfica que vaya en funcin de P(X), es decir, 1/36, 2/36, etc. (El estudiante lo
har). Solucin:
TABLA 2.1. Diagrama mostrando la distribucin de probabilidades cuando se lanzan
dos dados una sola vez. (Elaboracin propia)
No. xitos | 1 2 3 4 5 6 5 4 3 2 1
Suma (X) |2 3 4 5 6 7 8 9 10 11 12
Probabilidad |1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

TABLA 2.2. Probabilidades cuando se lanzan dos dados. (Elaboracin propia)


Suma de los dados Nmero de xitos Probabilidad
2 1 1/36
3 2 2/36
4 3 3/36
5 4 4/36
6 5 5/36
7 6 6/36
8 5 5/36
9 4 4/36
10 3 3/36
11 2 2/36
12 1 1/36

2-50
Dr. Hctor Quevedo Uras

TABLA 2.3. Resultados cuando se lanzan dos dados una sola vez. (Elaboracin propia)

Primer dado Segundo dado Resultado Suma de los nmeros


1 1-1 2
2 1-2 3
3 1-3 4
1 4 1-4 5
5 1-5 6
6 1-6 7

1 2-1 3
2 2-2 4
3 2-3 5
2 4 2-4 6
5 2-5 7
6 2-6 8

1 3-1 4
2 3-2 5
3 3-3 6
3 4 3-4 7
5 3-5 8
6 3-6 9

1 4-1 5
2 4-2 6
3 4-3 7
4 4 4-4 8
5 4-5 9
6 4-6 10

1 5-1 6
2 5-2 7
3 5-3 8
5 4 5-4 9
5 5-5 10
6 5-6 11

1 6-1 7
2 6-2 8
3 6-3 9
6 4 6-4 10
5 6-5 11
6 6-6 12

2-51
Dr. Hctor Quevedo Uras

Ejercicios Captulo 2
2.1. Si una moneda tiene dos caras denotadas por guilas o soles, cul es la
probabilidad de que salga un sol? (0.5)
2.2. En el caso de un dado que tiene 6 nmeros o caras, entonces, si el dado es honesto,
todas los nmeros del 1 al 6 tienen la misma probabilidad de caer. Entonces, cul es la
probabilidad de sacar un 1?
2.3. En el lanzamiento de un dado, cul es la probabilidad de que se muestren los
nmeros 3 o 4? Cul es la probabilidad de no sacar un 3 o un 4? (2/3)
2.4. Si una persona es seleccionada al azar de un grupo de 20 psiclogos y 30
socilogos, cul es la probabilidad de seleccionar un socilogo?
2.5. Cul de los siguientes no es una probabilidad? 3/7, 2, -1/2, 3/4, 99/101, 0, 1, 5,
1.11, 1.0001, 0.0001, 0.001, 0.9999. (2, 5, 1.11, 1.0001
2.6. La probabilidad de que Juan est vivo en 20 aos es de 0.7 y la probabilidad de que
Pedro est vivo en 20 aos es 0.5. Cul es la probabilidad de que ambos estn vivos en
20 aos?
2.7. Si E1 y E2 sean los eventos de "caras del quinto lanzamiento" y "caras en el sexto
lanzamiento" de una moneda, entonces, los eventos E1 y E2 son eventos independientes.
Cul es la probabilidad de que salgan caras en ambos lanzamientos? (1/4)
2.8. Cul es la probabilidad de sacar cuando menos un 6 en dos lanzamientos de un
dado honesto? Sugerencia: Usar la regla de adicin.
2.9. Asumiendo que los varones y las hembras ocurran igualmente y que el sexo de
cualquier hijo sea independiente de cualquiera de los hermanos o hermanas, encontrar el
espacio muestral y encontrar la probabilidad de que una pareja con 3 hijos tendrn:
(a) exactamente 2 varones. (3/8)
(b) Exactamente 2 hembras. (3/8)
2-52
Dr. Hctor Quevedo Uras

(c) Cuando menos 2 varones (P(X 2))


2.10. Lanzar una moneda 2 veces. Encontrar los siguientes eventos:
(a) Encontrar el espacio muestral.
(b) Encontrar la probabilidad de que salgan exactamente una cara y un guila.
2.11. Encontrar el nmero de permutaciones de las letras a, b, c tomadas dos a un
tiempo. (6)
2.12. Encontrar el nmero de combinaciones de las letras a, b, c tomadas dos a un
tiempo.
2.13. Para dos eventos A y B, P(A) = 0.10, P(B) = 0.40 y P(A B) = 0.05. Determinar:
(a) P(A|B) (0.125)
(b) P(B|A). (0.50)
2.14. Si P(B) = 2750/10,000 y P(A B) = 0.14, encontrar P(A|B).
2.15. Dejemos que E sea el evento de que, los nmeros pares de un dado, sean 2, 4, 6.
Encontrar la probabilidad de que salgan estos eventos. (1/2)
2.16. Un grupo de consumidores consiste de 80 estudiantes, 30 de los cuales son
mujeres. Si un estudiante es seleccionado aleatoriamente de este grupo, encontrar la
probabilidad de no escoger a una mujer.
2.17. De los siguientes eventos decir cuales eventos son mutuos excluyentes:
(a) Seleccionando un estudiante quien atiende las clases de estadstica regularmente.
Seleccionando un estudiante quien posee una computadora.
(b) Seleccionando a una persona con pelo rubio.
Seleccionando a una persona con ojos cafs.
(c) Seleccionando un curso acadmico requerido. (evento mutuo excluyente)
Seleccionando un curso electivo
2.18. La probabilidad de que un vuelo de avin salga a tiempo es de P(D) = 0.83; la
2-53
Dr. Hctor Quevedo Uras

probabilidad de que el vuelo llegue a tiempo es de P(A) = 0.82; y, la probabilidad de


que salga a tiempo y llegue a tiempo es de P(D A) = 0.78. Asmase una probabilidad
condicional. Encontrar la probabilidad de que el avin:
(a) Llegue a tiempo dado que parti a tiempo.
(b) Salga a tiempo dado que arrib a tiempo.
2.19. Supngase que una caja contiene 3 bolas blancas y 2 bolas negras. Asmase que
no hay reemplazo y, por lo tanto, son eventos dependientes. Siendo as, calcular los
siguientes enunciados:
(a) Cul es la probabilidad de que la primera bola sacada sea negra? (2/5)
(b) Cul es la probabilidad de la segunda bola sacada sea negra dado que la primera
bola sacada fue negra? (1/4)
(c) Cul es la probabilidad de que ambas bolas sacadas sean negras? (1/10)
2.20. Usando la figura de abajo y la simbologa de diagramas de Venn definir las
siguientes regiones:
(a) Regiones 1 y 2
(b) Regiones 1 y 3
(c) Regiones 1, 2, 3, 4, 5, y 7
(d) Regiones 4 y 7
(e) Regin 1
(f) Regiones 2, 6, 7

2-54
Dr. Hctor Quevedo Uras

Figura mostrando los diagramas de Venn. (Fuente: Montgomery et al.1996)

2.21. Supngase que se estudian 10,000 personas de 20 aos y se encuentra que 9961
vivieron 21 aos. Encontrar la probabilidad de que una persona de 20 aos vaya a vivir
21 aos. (.9961)
2.22. Un estudio encuest a un grupo de 100 profesionistas que consista de 40
ingenieros (de los cuales la mitad eran mujeres) y a 60 arquitectos (de los cuales la
mitad eran mujeres). Encontrar la probabilidad de que un profesionista seleccionado
aleatoriamente sea ingeniero o mujer. Asumir una regla aditiva.
2.23. Cul es la probabilidad de que una carta seleccionada al azar de un mazo de 52
naipes sea una reina o un corazn? Asumir una regla aditiva para eventos no mutuos
excluyentes (4/13)
2.24. Cul es la probabilidad de sacar un 6 en el primero o segundo lanzamiento de un
dado honesto o, en ambos lanzamientos?
2.25. Un ingeniero fabricante de motores le preocupan tres tipos de principales defectos.
Por ejemplo, A es el evento en el que el eje del motor es demasiado grande, B el evento
en el que las bobinas son inadecuadas y C el evento en el que las conexiones elctricas
son insatisfactorias. De ser as, expresar verbalmente qu eventos estn representados
por las siguientes regiones del diagrama de Venn. (Johnson, 1997)
2-55
Dr. Hctor Quevedo Uras

(a) Regin 2. (Dado que la regin 2 est en A y B, pero no en C, esto dice que, el eje es
demasiado grande y las bobinas son inadecuadas)
(b) Regin 1 y 3 juntas
(c) Regiones 3, 5, 6 y 8 juntas (Debido a que todas estas regiones estn fuera de la
regin A, esto representa el evento en que el eje es demasiado largo o defectuoso)

Figura mostrando los espacios muestrales y eventos. (Fuente: Johnson 1997)


2.26. Refirindose al problema anterior representar con smbolos de Venn las siguientes
regiones:
(a) 4, 6, 7
(b) 1,4
(c) 1, 2, 5, 7
(d) 1, 2
(e) 1, 3, 4.
2.27. En estudios de higiene industrial y seguridad de obreros de una industria se
descubri que el 8% necesitaron botas de hule para proteccin contra descargas
elctricas, 15% necesitaron cascos protectores para la cabeza y, 3% necesitaron, ambos,
botas de hule protectoras y cascos protectores para la cabeza. Cul es la probabilidad
2-56
Dr. Hctor Quevedo Uras

de que un trabajador seleccionado, al azar, necesitar, ya sea, botas protectoras de hule o


cascos protectores para la cabeza? Sugerencia: usar el modelo aditivo. (0.20)
2.28. Se lanza una moneda dos veces. Encontrar la probabilidad de sacar una cara, ya
sea en el primer lanzamiento o segundo lanzamiento o en ambos lanzamientos. Asumir
que H = caras, T = guilas.
2.29. Una computadora genera, aleatoriamente, el ltimo dgito de un nmero
telefnico. Calcular:
(a) La probabilidad de que el resultado sea un 8 o 9. (1/5)
(b) La probabilidad de que el resultado sea un nmero non o menor que 4. (0.7)
2.30. Encontrar la probabilidad de sacar un total de 7 o 11 cuando un par de dados se
lanzan.
2.31. La probabilidad de sacar un as o un rey de un mazo de 52 cartas? (2/13)
2.32. Cul es la probabilidad de sacar, ya sea un as o una espada o ambos en una sacada
de cartas de un mazo de 52 naipes.
2.33 Cuntas comidas consistentes de una sopa, un emparedado, un postre y un
refresco son posibles, si podemos seleccionar 4 sopas, 3 tipos de emparedados, 5 postres
y 4 refrescos? (240)
2.34. Dos monedas se lanzan. Cul es la probabilidad de que ambas monedas caigan en
guilas? Usar regla multiplicativa.
2.35. Una pareja de recin casados planea tener 3 hijos. Encontrar los siguientes
enunciados:
(a) La probabilidad que todos los hijos sean hombres. (1/8)
(b) La probabilidad de 3 hembras. (1/16)
(c) La probabilidad de exactamente 2 varones. (3/8)
(d) La probabilidad de 3 varones y 3 hembras. (1/64)
2-57
Dr. Hctor Quevedo Uras

(e) La probabilidad de tener a lo ms 2 varones. (3/8)


(f) La probabilidad de tener cuando menos 2 varones. (4/8)
Asumir que los varones y las hembras tienen la misma oportunidad y que el sexo de
cada hijo sea independiente del sexo del otro. Hacer un diagrama de rbol para facilitar
el cmputo.
2.36. Con referencia al problema anterior, si la familia fuera de 4 hijos, cul sera la
probabilidad de fueran 4 varones y/o 4 hembras?
2.37. Se sacan dos cartas al azar de un mazo de 52 naipes. Qu probabilidad hay de
obtener dos ases si?
(a) La primera carta es repuesta antes de sacar la segunda carta. (1/69)
(b) La primera carta no es repuesta antes de sacar la segunda carta. Asumir una regla
multiplicativa. (12/2652)
2.38. Hay 10 rollos de pelcula en una caja y 3 estn defectuosos. Se sacan 2 rollos uno
detrs del otro. Cul es la probabilidad de seleccionar un rollo defectuoso seguido por
otro rollo defectuoso, sin no hay reemplazo? Usar regla multiplicativa.
2.39. Responder a las siguientes preguntas;
(a) Cuntos resultados hay en un espacio muestral, cuando se lanzan un par de dados
una sola vez? (36)
Cul es ste?
(b) Cuntos puntos muestrales hay en un espacio muestral cuando se lanzan 3 dados
simultneamente?
2.40. Un diseador de una nueva subdivisin ofrece a los compradores de casas, una
seleccin de estilos exteriores de ingls, rstico, colonial, y exterior tradicional
combinados con tipos de rancho, de dos pisos y un desnivel. De cuntas maneras se
puede ordenar una de estas casas con esos estilos de construccin? Hacer un diagrama
2-58
Dr. Hctor Quevedo Uras

de rbol. Sugerencia: usar la regla del producto n1n2. (12)

2.41. Un estudio de trfico vehicular indica que de 3,756 autos que se acercan a la plaza,
857 entran en el aparcamiento. Cul es la probabilidad de que un auto no entre en el
aparcamiento? (P(857) = 0.23, q = ?)
2.42. En una prueba la primera pregunta es de falso y verdadero y, la segunda pregunta
es de seleccin mltiple con posibles respuestas de a, b, c, d, e. (a) Cuntas secuencias
de posibles respuestas hay en estas dos preguntas? (b) Usar un diagrama de rbol y
enlistar el espacio muestral. (10)
2.43. En el diseo de un sistema de computadora, si un byte se define como una
secuencia de 8 bits y, cada bit debe ser 0 o 1, cuntos bytes diferentes son posibles?
2.44. Explique en sus propias palabras lo que significan los siguientes trminos:
(a) Experimento aleatorio
(b) Espacio muestral
(c) Evento
2.45. Hablando de factoriales, evaluar 50! Sugerencia: usar la aproximacin de Sterling:
n! ~ 2n nn e-n (3.04x1064)
2.46. Se lanza una moneda 3 veces consecutivas. Hacer un diagrama de rbol con los
resultados de soles y guilas y el espacio muestral. Calcular lo siguiente:
(a) Nmero de soles es cuando menos 2.
(b) Segundo lanzamiento son soles.
(c) El nmero de soles es exactamente 2.
(d) Segundo lanzamiento son guilas.
(e) Todos los lanzamientos muestran la misma imagen.
(f) El nmero de soles es menor que 2.
2-59
Dr. Hctor Quevedo Uras

(g) El segundo lanzamiento no son soles.


(h) El nmero de soles es de cuando menos 2.
(i) El nmero de soles es no ms de 3.
(j) El nmero de guilas es a lo ms 3.
(k) El nmero de soles que excedan el nmero de guilas.
2.47. De cuntas maneras diferentes una seccin sindical con 25 miembros puede
elegir un presidente y un vicepresidente? (600)

2.48. Si un dado se lanza 3 veces consecutivas, Cul es la probabilidad de que salga un


3?
2.49. Se seleccionan 3 cartas, sucesivamente, de un mazo de 52, entonces, encontrar el
nmero de resultados si:
(a) Hay reemplazo (140,608)
(b) Si no hay reemplazo (132,600)
2.50. De cuntas maneras pueden acomodarse 5 canicas de diferentes colores en una
fila?
2.51. Calcular de cuntas maneras pueden formarse seis personas para subir a un
autobs? (720)
2.52. Un candidato presidencial planea hacer campaa poltica. Encontrar el nmero de
permutaciones si:
(a) Planea visitar todos los estados de la Repblica Mexicana.
(b) Planea visitar nicamente los estados que colindan con los Estados Unidos.
2.53. Evaluar los siguientes factoriales:
(a) 7! (5040)
(b) 70!/68! (100)
2-60
Dr. Hctor Quevedo Uras

(c) 10!/0! (3,628,800)


2.54. Supngase que hay 50 personas compitiendo por 3 rangos diferentes, primero,
segundo y tercero. Cul es el nmero de resultados de las 50 personas, si las tomamos
3 a un tiempo (es decir, de 3 en 3)?
2.55. En cierta compaa, 4 escritorios de secretarias se sitan en lnea contra la pared.
Cada secretaria puede sentarse en cualquier banco de los escritorios. Cuntos arreglos
se pueden hacer para sentar a las secretarias? (24)
2.56. En un almacn hay 5 cajas adyacentes para almacenar 5 objetos diferentes. El
depsito de cada objeto puede almacenarse satisfactoriamente en una caja. De cuntas
maneras pueden asignarse 5 objetos a 5 cajas?
2.57. Supngase que hay 6 partes diferentes para ser almacenadas, pero solamente, hay
4 cajas disponibles. Cuntas permutaciones son posibles? (360)
2.58. De cuntas maneras diferentes se puede realizar una primera, segunda, tercera
o cuarta seleccin entre 12 empresas arrendadoras de equipo de control de
contaminacin ambiental?
2.59. Contestar lo siguiente.
(a) Cul es el nmero de permutaciones de las letras a, b, c, es decir, tomadas dos a un
tiempo? (6)
(b)Cules son estas letras? (ab, ba, ac, ca, bc, cb)
2.60. Un mecanismo electrnico de control requiere de 5 chips de memoria idnticos.
De cuntas maneras puede inhabilitarse este mecanismo colocando los 5 chips en las 5
posibles posiciones dentro del controlador?
2.61. Se requiere sentar a 5 hombres y 4 mujeres en una fila de tal manera que las
mujeres ocupen lugares pares. Cuntos arreglos hay? (2880)
2.62. Un aparato de seguridad de un negocio con 10 botones se inhabilita cuando 3
2-61
Dr. Hctor Quevedo Uras

botones diferentes se oprimen en la secuencia apropiada (los botones no pueden


oprimirse dos veces). Si el cdigo correcto se olvida, Cul es la probabilidad de
desarmar el aparato a travs de oprimir, aleatoriamente, 3 botones?
2.63. Se sacan 2 boletos de la lotera entre 20 posibles para el primero y segundo
premios. Cul es la probabilidad de ganar comprando un boleto? (1/380)
2.64. En una carrera de 8 perros se juega un premio de exacta. Si seleccionamos 3
nmeros de perros, cul es la probabilidad de acertar comprando un solo boleto?
2.65. Considrese una carrera de 10 caballos con un premio de exacta para cualquiera
que pueda seleccionar el orden exacto y de ganar desde el primero hasta el dcimo
lugar.
(a) Cuntas permutaciones posibles hay? (3,628,800)
(b) Cul es la probabilidad de ganar si se compra un solo boleto? (2.7x10-7)
(c) Cul es la probabilidad de seleccionar los tres primeros lugares? (1/10P3)

2.66. Una prueba se compone de 12 preguntas de falso y verdadero. De cuntas


maneras diferentes un estudiante puede marcar el papel con una respuesta para cada
pregunta?
2.67. De cuntas maneras pueden 3 focos rojos, 4 focos amarillos y 2 focos azules ser
arreglados en un cordn elctrico con 9 portalmparas? (1260)
2.68. Cul es el nmero de permutaciones de la palabra "estadstica"?
2.69. Cinco canicas rojas, 2 canicas blancas y 3 azules se arreglan en una fila. Si todas
las canicas son del mismo color, y no se puede distinguir una de la otra, cuntos
arreglos pueden hacerse? (2420)
2.70. De cuantas maneras pueden 7 cientficos ser asignados a un cuarto triple y a dos
cuartos dobles? Asumir regla de particin.
2-62
Dr. Hctor Quevedo Uras

2.71. De un grupo de 4 qumicos y 3 fsicos, encontrar el nmero de comits que se


pueden formar consistentes de 2 qumicos y 1 fsico. Sugerencia: usar un producto de
combinaciones. (18)
2.72. Un equipo de colegio juega 12 juegos durante la temporada. De cuntas maneras
puede el equipo terminar la temporada con 7 juegos ganados y 3 perdidos? Sugerencia
usar la regla de particin de permutaciones.
2.73. Considerar un grupo de 5 personas consistentes de 3 hombres y 2 mujeres, todos
pertenecientes a una organizacin. Siendo as, contestar lo siguiente:
(a) Cuntos comits de 3 personas pueden formarse de todo el grupo? (10)
(b) De cuntas maneras pueden las 2 posiciones, presidente y vicepresidente ser
formados? (20)
(c) Cul es la probabilidad de que un comit de 2 personas seleccionadas,
aleatoriamente, consistieran de 1 hombre y 1 mujer? (6/10)
2.74. Cuntas manos de 5 cartas de flor imperial (la flor imperial consiste de sacar 10,
sota, reina, rey, as de un solo palo, es decir, de trboles, corazones, diamantes y
espadas) son posibles de una mazo de 52 cartas, en las cuales el orden no es de
importancia?
2.75. Si queremos saber la probabilidad de sacar una flor imperial de un mazo de 52
cartas, a sabiendas de que se pueden formar 4 flores imperiales (10, sota, reina, rey, as
de cada una de las cuatro formas, es decir, trboles, espadas, diamantes, corazones)
entonces, calcular esta probabilidad. (1.54x10-6)
2.76. En la lotera de Texas se juegan 54 nmeros y se seleccionan solamente 6 de ellos.
(a) Cuntas combinaciones se pueden hacer?
(b) Cul es la probabilidad de acertar comprando un solo boleto?
(c) Cul es la probabilidad de acertar comprando un milln de boletos?
2-63
Dr. Hctor Quevedo Uras

2.77. Supongamos que de todos los individuos que compran una computadora personal,
60% incluyen un programa de procesador de palabras en su compra, 40% incluye un
programa de esparcimiento de hojas (LOTUS) y 30% incluye ambos programas.
(a) Cul es la probabilidad de seleccionar un comprador que incluya un programa de
procesador de palabras, dado que incluya un programa de LOTUS? Usar un diagrama
de Venn. (0.75)
(b) Cul es la probabilidad de que un comprador incluya un programa de LOTUS,
dado que incluya un programa de procesador de palabras?
(0.5) 2.78. Una revista de publicaciones publica tres columnas intituladas Arte (A),
Libros (B), Cinema (C). La seleccin aleatoria de un comprador de revistas, con
respecto a estas tres columnas se da abajo (elaboracin propia):

Ledas regularmente | A B C AB AC BC ABC

Probabilidad | .15 .24 .47 .09 .08 .15 .07

Calcular y hacer un diagrama de Venn para:


(a) La probabilidad de que lea la revista Arte (A), dado que ley la revista Libros (B).

(b) La probabilidad de leer la revista Arte (A), dado que ley las revistas Libros (B) y
Cinema (C).
(c) La probabilidad de leer la revista Arte (A), dado que haya ledo cuando menos una.
2.79. Supongamos que P(A) = .5, P(B) = .4, P(A B) = .25. Hacer los siguientes
cmputos y usar un diagrama de Venn.
(a) P(B|A) (.5)
(b) P(B|A) (.5)
2-64
Dr. Hctor Quevedo Uras

(c) P(A|B) (.625)


(d) P(A|B) (.375)
(e) P(A B) (.9)
2.80. Una firma de consultora ambiental presenta licitaciones para la construccin de
tres proyectos de plantas de tratamiento de aguas residuales. Dejemos A = proyecto i
conferido para i = 1, 2, 3. Supngase que:
P(A1) = .22
P(A2) = .25
P(A3) = .28
P(A1 A2) = .11
P(A1 A3) = .05
P(A2 A3) = .07
P(A1 A2 A3) = .01
Encontrar:
(a) A1 A2
(b) A A2
Sugerencia: usar A A2 = (A1 A2) = 1 - P(A1 A2)
(c) A1 A2 A3
(d) A1' A2 A3
Sugerencia: usar 1 - P(A1 A2 A3)
2.81. Considrese un grupo de 5 personas consistentes en 3 hombres y 2 mujeres, todos
los cuales pertenecientes a una organizacin. Siendo as, encontrar los siguientes
enunciados.
(a) Cuntos comits de 3 personas pueden formarse? (5C3)
(b) Decir de cuantas maneras pueden formarse las posiciones de presidente y
2-65
Dr. Hctor Quevedo Uras

vicepresidente. (5P2)
(c) Decir la probabilidad de que un comit de 2 personas consistirn de 1 hombre y 1
mujer. ([3C12C1]/5C2)
2.82. Cul es la probabilidad de sacar una flor corrida, es decir, 5 cartas de una sola
denominacin, que no incluyan del 10 al as? Ver Figura 2.6.
2.83. En el juego de pquer de 5 cartas, existen un total de 52 cartas que van desde el 2,
3, 4, 5, 6, 7, 8, 9, 10, J, Q, K, As y cada una de estas cartas, tienen 4 figuras, es decir,
trboles, diamantes, espadas y corazones. Tomando en consideracin esto, Cul es la
probabilidad de sacar una flor imperial, es decir, las cartas 10, J, Q, K, As, de una de las
cuatro figuras, es decir, corazones, diamantes, trboles o espadas? Para esto, ver Figura
2.6. (624/2,598,960)
2.84. Cul es la probabilidad de sacar 4 cartas de la misma clase, es decir, un poker?
Esto es, cuatro 2, cuatro 3, cuatro 4,cuatro J, cuatro K, cuatro As. Para esto ver
Figura 2.6.
2.85. Cul es la probabilidad de sacar una casa llena (full house), es decir, una tercia y
un par? (.00144)
2.86. En el juego de barajas, Cul es la probabilidad de sacar una tercia?
2.87. En el juego de naipes, Cul es la probabilidad de sacar un par de un mazo
ordinario de 52 cartas? Ver Figura 2.6. (0.42)
2.88. En un estudio de higiene industrial y seguridad, un supervisor de un grupo de 20
trabajadores de la industria desea saber la opinin de ellos, (a los que seleccionar
aleatoriamente), sobre cierto reglamento de seguridad relacionado con emisiones de
gases dentro de la fbrica. Si 12 de ellos estn a favor del nuevo reglamento y los otros
8 estn en contra, Qu probabilidad hay de que dos trabajadores seleccionados, por el
supervisor, se manifiesten en contra del nuevo reglamento de seguridad? Sugerencia:
2-66
Dr. Hctor Quevedo Uras

usar la regla multiplicativa para eventos independientes, es decir: P(A B) = P(A)


P(B).
2.89. Cuatro naipes de un monte de 52 cartas (mazo de cartas americano) se sacan en
sucesin (sin reemplazo). Encontrar la probabilidad de que la primera carta sacada sea
un as; la segunda carta sacada sea un 8 de diamantes; la tercera carta sacada sea cuando
menos una reina y la cuarta carta sacada sea un 6 rojo. Sugerencia: Dejar que P(A) sea
la probabilidad de sacar el as, P(B) sea la probabilidad de sacar el 8 de diamantes, P(C)
sea la probabilidad de sacar menos una reina y P(D) sea la probabilidad de sacar el 6
rojo. Usar diagramas de Venn para denotar las probabilidades y las intersecciones de las
cuatro cartas sacadas. Referirse a la Figura 2.6 de abajo.

Figura 2.6. Diagrama esquemtico mostrando las 52 cartas de juego de barajas. El


monte de cartas empieza con el 2 hasta el 10, en cada una de sus denominaciones y
termina con cuatro cartas adicionales, que son las sotas, las reinas, los reyes y los ases.
Aqu, ntese que, las figuras de diamantes y de corazones son siempre del color rojo y
las figuras de trboles y de espadas son siempre de color negro.
2-67
Dr. Hctor Quevedo Uras

Fuente: http://en.wikipedia.org/wiki/Image:Set_of_playing_cards_52.JPG

Figura 2.7. Diagrama esquemtico de las 52 cartas ilustrando la probabilidad de sacar


un As o un Rey. Fuente: Lawrence L. Lapin. Statistics for Modern Business Decision.
(1982).

2-68
Dr. Hctor Quevedo Uras

CAPITULO 3
Distribuciones Binomial e hipergeomtrica
Aplicaciones generales de la distribucin binomial.- Relacin entre la
distribucin normal y la distribucin binomial.- Relacin entre la distribucin
binomial y la distribucin de Poisson.- La distribucin hipergeomtrica.-
Suposiciones y propiedades de la distribucin hipergeomtrica.-

La distribucin binomial es una de las distribuciones de probabilidad discretas ms


usadas en estadstica. Se puede considerar como un tipo de anlisis de lgica
deductiva, porque va del conjunto o total a la parte. Se deriva de un proceso
conocido como ensayos de Bernoulli. Un proceso Bernoulli es un ensayo de algn
proceso o experimento que puede resultar en, solamente, uno de dos resultados
mutuos excluyentes, es decir, binarios, como por ejemplo, xito y fracaso,
donde la probabilidad de xito se denota como p. Tambin el experimento
binomial se puede interpretar como una situacin defectuosa o no defectuosa,
correcta o incorrecta, presente o ausente, nacimientos de nios o nias, caras o
guilas de una moneda, etc. De esta manera, los datos de un proceso binomial
(binario) consiste, nicamente, de dos situaciones o resultados.
Aplicaciones generales de la distribucin binomial
Una de las reas principales de aplicacin de la distribucin binomial es en los
campos de la ingeniera industrial, es decir, en procesos industriales, donde el
resultado de un proceso es dictomo (proporciones de un objeto defectuoso o no
defectuoso, de xito o fracaso, etc.) Tambin se usa en aplicaciones mdicas (curar
o no curar) y en aplicaciones militares (pegar o no pegar de un msil). Igualmente,

3-1
Dr. Hctor Quevedo Uras

se usa para denotar el nmero de herramientas defectuosas producidas por una


mquina, etc.
La distribucin binomial tambin se puede aplicar a la ingeniera ambiental.
Como se dijo antes, los datos del proceso binomial consisten de dos resultados
discretos (binarios). Por ejemplo, en un bioensayo, un organismo de prueba est,
ya sea vivo o muerto, es decir, despus de ser expuesto a la concentracin de algn
desinfectante, en funcin de la concentracin y del tiempo de exposicin.
Igualmente, en el caso de una descarga de aguas residuales domsticas o
industriales, sta puede o no pueda estar dentro de los lmites estipulados por las
leyes ambientales. Anlogmente, se puede aplicar a la ingeniera ambiental en la
que una industria cumple o no cumple con las regulaciones ambientales del aire,
del agua, de ruido, de contaminacin de tierra, etc. Tambin se puede aplicar a la
ingeniera civil en el rea de construccin, etc.
Definicin: Un ensayo Bernoulli es un experimento aleatorio que tiene solo dos
resultados posibles, es decir, xito o fracaso, donde la probabilidad de xito se
denota por p y el fracaso se denota por q = 1 - p. El experimento consiste de n
ensayos repetidos donde los ensayos son independientes. De esta manera, si p es la
probabilidad de que un evento ocurrir, en un solo ensayo (llamado arbitrariamente
xito) y, la relacin q es la probabilidad de que el evento fallar en cualquier
ensayo, entonces, la distribucin de probabilidad de la variable aleatoria binomial
X, es igual al nmero de ensayos. Es decir, donde el resultado es un xito con
parmetros p y n = 1, 2, 3, , n, esto es:
P(X) = b(x;n,p) = nCx px qn-x = n!/x!(n x)! px (1 p)n-x (3-1)
Donde:
n = seleccin del tamao de la muestra considerada como ensayos independientes

3-2
Dr. Hctor Quevedo Uras

repetidos de Bernoulli (independientes porque no importa cuantas veces se repita el


experimento las probabilidades de xito o fracaso permanecen constantes).
x = 0, 1, 2, 3,., n o sea el nmero exacto de xitos posibles en n ensayos
p = probabilidad de xito
nCx = n!/x!(n x)! = coeficiente binomial a sea el nmero de combinaciones de n
objetos tomados a un tiempo r
q = 1 p = probabilidad de fracaso
Es de verse qu, la probabilidad de no xito (o fracaso) es qn, por lo tanto, la
probabilidad de cuando menos un xito es 1 - qn.
La distribucin de probabilidad discreta Bernoulli a veces se le llama
distribucin binomial porque los valores de la variable aleatoria X pueden ser x =
0, 1, 2, 3,., n que corresponden a trminos sucesivos de la frmula binomial o
expansin binomial. Esto quiere decir que, la distribucin binomial deriva su
nombre del hecho de que los trminos n + 1 en la expansin binomial de la funcin
(q + p)n corresponde a varios valores de b(x;n,p), para x = 0, 1, 2, 3,., n. As, la
expansin binomial es:
(q + p)n = qn + nC1 qn-1 p + nC2 qn-2 p2 + .. + pn (3-2)
Donde:
nC1, nC2, se llaman los coeficientes binomiales
Los coeficientes binomiales se pueden estimar usando el tringulo de Pascal que se
da abajo.

3-3
Dr. Hctor Quevedo Uras

Figura 3.0. Tringulo de Pascal que se usa para estimar los coeficientes binomiales.
En este tringulo se nota que, el primero y el ltimo nmero de cada rengln es 1.
Adems, cada otro nmero en cada ordenacin puede obtenerse por medio de
sumar los dos nmeros que aparecen directamente arriba. (Elaboracin propia)

3-4
Dr. Hctor Quevedo Uras

Figura 3.1. Grficas mostrando varias distribuciones binomiales en funcin de p y


de n. La distribucin binomial es realmente una familia de distribuciones. Cada
valor diferente de n o de p especifica una distribucin diferente. Las figuras de
arriba muestran, como la distribucin binomial vara para diferentes valores de p y
de n (donde p es la probabilidad de xito y q es la probabilidad de fracaso y, donde
en n repeticiones de un ensayo de Bernoulli, el nmero de xitos posibles es 0, 1,
2,, n). Sin embargo, sin importar el valor de n, la distribucin binomial es
simtrica cuando p = 0.5. Pero, cuando p > 0.5, la distribucin es asimtrica y el
pico ocurre a la derecha del centro. Tambin, cuando p < 0.5 la distribucin es
asimtrica y el pico ocurre a la izquierda del centro. (Elaboracin propia)

3-5
Dr. Hctor Quevedo Uras

TABLA 3.0. Tabla mostrando algunas propiedades de la distribucin Binomial.


(Elaboracin propia)
Promedio = np
= np
Varianza 2 = npq
Desviacin estndar npq =

Relacin entre la distribucin binomial y la distribucin normal


La distribucin binomial se puede aproximar por la distribucin normal cuando n
es grande y, cuando ni p ni tampoco q estn muy cercanas a cero. Esto se debe a
que, el modelo binomial es inapropiado cuando n es extremadamente grande.
Afortunadamente, la aproximacin normal es ms eficaz a medida que n aumenta.
En la prctica, la aproximacin de la distribucin binomial usando la distribucin
normal es adecuada siempre y cuando np 10 y nq 10. Entonces, si np < 10 o
nq < 10, la distribucin binomial est demasiado sesgada, para dar aproximaciones
satisfactorias, como con la curva normal que es simtrica. Para hacer las
aproximaciones de la binomial usando la distribucin normal es con la variable
aleatoria estandarizada dada abajo.

Z = (X np) / npq es decir Z = (X ) / (3-3)

Donde: np = y npq = 2 o sea = npq

Relacin entre la distribucin binomial y la distribucin de Poisson


Con la distribucin binomial, si n es grande (n 50 ensayos de Bernoulli) y si el
promedio = np < 5 (p cercana a cero y q cercana a 1) en semejantes casos, la

3-6
Dr. Hctor Quevedo Uras

distribucin binomial est muy cercana a la distribucin de Poisson.


Ejemplos de problemas relacionados con la distribucin binomial o
distribucin Bernoulli
Ejemplo #1. Calcular las siguientes probabilidades binomiales directamente de la
frmula, para b(x;n,p)
(a) B(3;8,.6)*
(b) B(5;8,.6)
(c) P(3 X 5) cuando n = 8 y p = .6
(d) P(1 X) cuando n = 12 y p = .1
(e) b(x;8,0.6)* donde x = 0
*Ntese la diferencia entre el uso de la letra mayscula B y la minscula b
Solucin:
(a) B(3;8,0.6) dice que queremos X = 3, n = 8, p = .6
P(X = 3) = 8!/3!(8 3)! (0.6)3 (1 0.6)8-3
= 0.124
Anlogamente, usando la tabla binomial de probabilidades individuales: B(3;8,0.6)
= 0.124
Igualmente, usando la frmula da:
nCx px qn-x = 8C3 (0.6)3 (0.4)8-3
= (56)(0.216)(0.01)
= 0.124
(c) P(3 X 5) = B(5;8,0.6) B(3;8,0.6)
= 0.279 0.124
= 0.155
Donde:

3-7
Dr. Hctor Quevedo Uras

B(5;8,0.6) = 0.279 (usando la tabla binomial de probabilidades individuales)


= nCx px qn-x = 8C5 (0.6)5 (0.4)8-5
= (56)(0.078)(0.064)
= 0.279 (usando la frmula)
(d) P(X 1) con n = 12 y p = 0.1. Esto dice que queremos:
P(X 1) = 1 P(X < 1) = 1 P(X = 0)
= 1 0.001
= 0.999 (usando la tabla de probabilidades individuales)
P(X 1) = 1 P(X = 0) = 1 - nCx px qn-x
= 1 - 8C0 (0.6)0 (0.4)8-0
= 1 - (1)(1)(0.0007)
= 0.9993 (usando la frmula)
Ejemplo #2. Hacer los mismos problemas del inciso #1 pero ahora usando la tabla
de la distribucin binomial. Comparar los resultados. El lector lo deber hacer.
Ejemplo #3. Usando la tabla de la distribucin binomial estimar:
(a) B(4;10,0.3)
(b) B(6;10,0.7)
Solucin:
(a) B(4;10,0.3) dice que usamos b(x;n,p), donde x = 4, n = 10 y p = 0.3.
Entonces, P(X = 4) = B(4;10,0.3). Para esto, buscamos en la tabla de la distribucin
binomial de probabilidades individuales el valor de n = 10, = p = .300 y x = a = 4
y nos da 0.200.
Por lo tanto, P(X = 4) = B(4;10,0.3) = 0.200
Ntese que aqu tambin se puede usar la frmula binomial (3-1), es decir,
P(X) = b(x;n,p) = nCx px qn-x = n!/x!(n x)! px (1 p)n-x y da el mismo resultado.

3-8
Dr. Hctor Quevedo Uras

(b) Para este inciso se procede en forma similar.


Ejemplo #4. Una moneda honesta se lanza 6 veces (que es lo mismo que lanzar
seis monedas a la vez). Llamemos las caras un xito. Calcular las siguientes
probabilidades:
(a) La probabilidad de que salgan exactamente 2 caras
(b) La probabilidad de que salgan cuando menos 4 caras
(c) La probabilidad de no caras, es decir, todos fracasos
Solucin:
(a) Aqu usamos la frmula de la distribucin binomial:
P(X) = b(x;n,p) = nCx px qn-x
Donde:
nCx = coeficiente binomial = n! / x!(n - x)!
n = nmero de ensayos
p = probabilidad de que el evento ocurra en un solo ensayo
q = 1 p = probabilidad de que el evento falle (fracaso)
x = la probabilidad de que el evento ocurra en 0, 1, 2, , n
nmero de xitos posibles
Ntese que la probabilidad de no xitos es qn, por lo tanto, la probabilidad de
cuando menos un xito es 1 - qn
Aqu n = 6, p = 0.5, q = 1 - 0.5 = 0.5.
Entonces, la probabilidad de que salgan exactamente 2 caras es:
P(X = 2) = B(2;6,0.5) = 6C2 (0.5)2 (0.5)6-2 = 15/64
(b) La probabilidad de que salgan cuando menos 4 caras (X 4) es:
P(X = 4 o 5 o 6) = B(4;6,0.5) + B(5;6,0.5) + B(6;6,0.5)
= 6C4(0.5)4 (0.5)6-4 + 6C5 (0.5)5 (0.5)6-5 + 6C6 (0.5)6 (0.5)6-6

3-9
Dr. Hctor Quevedo Uras

= 11/32
Ejemplo #5. En un estudio de toxicologa, la probabilidad de que un enfermo se
recupere de una intoxicacin es de 0.4. Si se sabe que una muestra de 15 personas
se ha intoxicado, calcular las siguientes probabilidades:
(a) La probabilidad de cuando menos 10 personas sobrevivan.
(b) La probabilidad de que de 3 a 8 personas (inclusivamente) intoxicadas
sobrevivan.
(c) La probabilidad de que exactamente 5 personas intoxicadas sobrevivan.
Solucin:
(a) Dejemos que X sea el nmero de intoxicados que sobrevivan. Aqu, el trmino
cuando menos 10 significa que el valor de la variable aleatoria es X 10.
Tambin sabemos que la muestra es n = 15. Aqu, pudiramos usar la expresin
binomial b(x;n,p) = nCx px qn-x y sustituir los valores de x = 10, 11, 12, 13, 14, 15
en la frmula de abajo, y luego sumar todos los resultados usando la expresin de
abajo.
b(x;15,0.4) = 15Cx (0.4)x (0.6)15-x
Sin embargo, este procedimiento sera muy largo y tedioso. Siendo as, esto se
simplifica mucho si tomamos el complemento de la probabilidad de 1
(acordndose de que la probabilidad no puede ser mayor que 1 o negativa) y
usando la tabla de la distribucin binomial.
P(X 10) = 1 P(X < 10). Esto dice que x = 0, 1, 2, 3,.., 9
9
= 1 - b(x;15,0.4) = 1 0.9662
x=0

= 0.0338 (usando la tabla de la distribucin binomial)


El valor de 0.9662 se saca de la tabla binomial, buscando el valor de n = 15, x = 9

3-10
Dr. Hctor Quevedo Uras

y p = 0.4. Esto se lee como 0.9662.


(b) Este problema dice que, la probabilidad de que se recuperen entre 3 y 8
intoxicados, inclusivamente, es lo mismo que decir, P(3 X 8). Esto quiere
decir que los valores de la variable aleatoria son x = 3, 4, 5, 6, 7, 8. Nuevamente, si
no usamos la tabla binomial, el procedimiento es muy largo. Por esto vamos a
razonar como sigue:
8 2
P(3 X 8) = b(x;15,0.4) - b(x;15,0.4)
x=0 x=0

= P(X 8) P(X 2)
= 0.9050 0.0271
= 0.8779 (usando la tabla de la distribucin binomial)
(c) La probabilidad de que exactamente 5 intoxicados sobrevivan es de x = 5, n =
15, p = 0.4. Esto se puede hacer de tres maneras: usando la tabla de las
probabilidades individuales (la forma ms sencilla) o la tabla acumulada o, bien, la
frmula. Usando la tabla binomial individual, buscamos el valor de n = 15 con p =
0.4 y con x = 5 y da 0.186.
5 4
P(X = 5) = B(5;15,0.4) = b(x;15,0.4) - b(x;15,0.4)
x=0 x=0

= 0.4032 0.2173
= 0.1859
Si usamos la frmula sera largo y tedioso, como se ve abajo.
P(X = 5) = B(5;15,0.4) = 15C5 (0.4)5 (0.6)15-5
= 15!/5!(15-5)! (0.0041)(0.6)10
= 0.1859
Ejemplo #6. Si el 20% de los tornillos producidos por una mquina son

3-11
Dr. Hctor Quevedo Uras

defectuosos, determinar la probabilidad que de 4 tornillos seleccionados


aleatoriamente:
(a) Uno estar defectuoso
(b) Ninguno estar defectuoso
(c) A lo ms 2 estarn defectuosos
(d) Cuando menos uno estar defectuoso
Solucin:
(a) Aqu, x = 1, n = 4, p = 0.20, q = 0.80
P(X = 1) = 4C1 (0.2)1 (0.8)4-1 = 0.4096
(b) P(X = 0) = 4C0 (0.2)0 (0.8)4-0
= 0.4096
(c) Aqu, el trmino a lo ms 2 significa X 2, lo cual quiere decir que
queremos encontrar P(X = 0 o 1 o 2). Entonces:
P(X 2) = P(0) + P(1) + P(2)
= 0.4096 + 0.4096 + 0.1536 (de la tabla de probabilidades binomiales
individuales)
= 0.9728
Aqu, tambin se puede usar P(X 2) = .974 (de la tabla acumulada)
(d) El trmino cuando menos 1 significa X 1, lo cual quiere decir que x = 1, 2,
3, 4. Entonces queremos calcular P(3) y P(4) porque ya calculamos P(1) y P(2).
Otro razonamiento sera el de calcular la probabilidad de que X = 4, menos la
probabilidad de X = 0. Para esto, usamos la tabla binomial acumulada buscando n
= 4, p = 0.2 y X = 4 y le restamos n = 4, p = 0.2 y X = 0. Es decir:
P(X = 4) P(X = 0) = P(X 4) P(X 0)
= 1 0.41

3-12
Dr. Hctor Quevedo Uras

= 0.59
Ejemplos aplicados a la ingeniera ambiental
Ejemplo #7. Supngase que el 40% de los ros de cierta regin industrial de
Mxico estn contaminados con benceno. Si tomamos una muestra aleatoria de
tamao n = 30, calcular lo siguiente:
(a) Exactamente 15 ros estarn contaminados con benceno
(b) Cuando menos 15 ros estarn contaminados con este compuesto
orgnico cancergeno, de una muestra de n = 25.
(c) No ms de 10 ros, pero cuando menos de 5 ros estarn contaminados de una
muestra aleatoria de n = 25.
Solucin:
Usamos la distribucin binomial, porque son dos eventos mutuos excluyentes o
binarios, es decir, estn o no estn contaminados los ros. Entonces, llamemos
arbitrariamente, un xito encontrar un ro contaminado y, un fracaso, no encontrar
un ro contaminado. Se usa la frmula binomial expresada como:
b(x;n,p) = nCx px (1 p)n-x = n! / (n x)! px qn-x
(a) Aqu, n = 30, x = 15, p = 0.40, q = 0.60. La muestra de 30 se puede interpretar
como 30 ensayos repetidos de Bernoulli. Ahora, sustituyendo los valores en la
frmula de arriba da:
B(15;30,0.40) = P(X = 15)
= 30! / (30 15)! (0.4)15(0.6)30-15
= 0.073
Tambin se pudiera usar la tabla de la distribucin binomial de densidad de
probabilidad o de probabilidades individuales, que son ms precisas y ms fciles
de usar que la frmula. Siendo as, con n = 30 y p = 0.4:

3-13
Dr. Hctor Quevedo Uras

P(X = 15)= 0.0783 0.08


El valor de 0.078 0.08 dice que hay cerca de 8 posibilidades entre 100 de
seleccionar una muestra de 30 ros que estn contaminados con benceno. Aqu se
ve que, a medida que aumenta n, la probabilidad de xito tambin aumenta.
(b) Cuando menos 15 indica X 15 y n = 25, p = 0.4 y q = 0.60
Aqu el espacio muestral es de:
x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, , 24, es decir, de 25
ensayos de Bernoulli.
B(15;25,0.4) = P(X 15) = 1 P(X < 15) = 1 P(X 14)
14
= 1 - B(14;25,0.4) = 1 - .966 = 0.034
x=0

(c) Aqu, P(5 X 10) = P(X 10) P(X 4)


Ejemplo #8. En un estudio de laboratorio bacteriolgico de aguas se afirma que, el
3.0% de las tomas domiciliarias contienen la bacteria E. Coli, en concentraciones
arriba del lmite estipulado por las leyes ambientales. Si esta afirmacin es
correcta, encontrar la probabilidad de que, el nmero de bacterias E. coli, en una
muestra aleatoria de 25 tomas domiciliarias, se encontrar:
(a) Ninguna bacteria
(b) Cuando menos 1 bacteria
(c) Entre 1 y 5 incluso
(d) Ms de 5 bacterias
(e) Ms de 5, pero menos de 10 bacterias
Solucin:
Usamos la distribucin binomial, porque son dos eventos mutuos excluyentes o
binarios; se contiene la bacteria (llamndola xito arbitrariamente) o no se contiene

3-14
Dr. Hctor Quevedo Uras

la bacteria (fracaso).
(a) Aqu, n = 25, p = .03, q = .97, X = 0
El tamao de muestra n = 25 indica que son 25 ensayos repetidos de Bernoulli, es
decir, que los posibles valores de la variable aleatoria X son de x = 0, 1, 2, 3,
4,., 24. Entonces,
(b) Cuando menos 1 bacteria indica X 1 y se expresa como:
P(X 1) = 1 P(X = 0) = 1 P(X < 1)
= 1 0.4670
= 0.533
(c) Entre 1 y 5 incluso se expresa como:
5
P(1 X 5) = B(5;25,0.03) P(X < 1) = 0.9999 0.467 = .533
x=0

Ejemplo #9. En un ro adyacente a una zona industrial, la probabilidad de cada


muestra de agua sacada del ro exceda el lmite de cromo de 10 mg/L, es de 0.10.
Si se supone qu, las muestras de agua son independientes con respecto a la
presencia de cromo, entonces:
(a) Encontrar la probabilidad de que en una muestra de tamao n =
18, exactamente, 2 excedan el lmite de 10 mg/L de cromo.
(b) Encontrar la probabilidad de que al menos 4 muestras excedan el lmite.
(c) Encontrar la probabilidad de que cuando menos 3 muestras, pero menos de 7
excedan el lmite estipulado.
(d) Encontrar la probabilidad de que ms de 3 muestras, pero menos de 7 excedan
el lmite estipulado de cromo.
Solucin:
(a) Dejemos que X = nmero de muestras de agua que excedan el lmite estipulado

3-15
Dr. Hctor Quevedo Uras

de 10 mg/L del total de las 18 observaciones. Entonces, X es una variable aleatoria


binomial con p = 0.1 y n = 18. Por consiguiente, usando la frmula binomial
b(x;n,p) = nCx px qn-x y sustituyendo los valores correspondientes da:
B(2;18,0.1) = P(X = 2) = 18! / 2!(18 2)! (0.1)2 (0.9)18-2
= (153)(0.01)(0.1853)
= 0.284
(b) P(X 4) = 18Cx (0.1) x (0.9)18-x
Usando este enfoque, tendramos que sustituir los valores de x = 4, 5, 6, 7,, 18
en la frmula de arriba y luego sumarlos. Tambin pudiramos usar la tabla
binomial de probabilidades individuales o de probabilidad de funcin de masa o
funcin acumulada y, luego, sumar los resultados. (Cul es la diferencia en usar la
tabla acumulada y la individual?).
De cualquier manera, es mucho ms fcil usar el evento complementario, ya sea
usando la expresin de abajo o bien, la tabla binomial.
P(X 4) = 1 P(X < 4) = 1 P(X 3)
3
= 1 - 18Cx (0.1)x (0.9)18-x
x=0

= 1 (0.15 + 0.30 + 0.284 + 0.168)


= 1 0.902 = 0.098
Ahora, si usamos la tabla binomial acumulada, buscamos el valor de n = 18, con X
= 3 y p = 0.1, para sacar el factor P(X < 4) y da .902. Por lo tanto,
P(X 4) = 1 - .902 = 0.098
(c) Aqu estamos buscando P(3 X < 7). Esto nos lleva a:
6
P(3 X < 7) = 18Cx (0.1)x (0.9)18-x
x=3

3-16
Dr. Hctor Quevedo Uras

= 0.168 + 0.07 + 0.022 + 0.005 = 0.265


Otro razonamiento sera como sigue: x = 0, 1, 2, 3, 4, 5, 6,18
P(X 6) P(X 3), es decir, para los valores de X = 3, 4, 5, 6
Aqu, nuevamente, podemos usar la tabla binomial de probabilidades individuales
y sumar las cuatro probabilidades de x = 3, 4, 5, 6. Tambin se puede usar la tabla
binomial acumulada, es decir, buscando n = 18, p = 0.1, y X = 6 y, luego,
restndole el valor de X = 3.
6
(d) P(3 < X < 7) = 18Cx (0.1)x (0.9)18-x
x=4

Ejemplo #10. En una investigacin de contaminacin ambiental se estudiaron


cientos de industrias. Sea X el nmero de industrias que no cumplen con las
regulaciones ambientales del aire y del agua de una muestra al azar de 10
industrias. Si se sabe que el valor de la probabilidad es de p = 0.5, calcular las
siguientes probabilidades.
(a) La probabilidad de que, exactamente, 5 industrias cumplan con los lmites
ambientales.
(b) La probabilidad de que no ms de 2, cumplan con el reglamento.
(c) La probabilidad de que cuando menos 9, lo cumplan.
(d) La probabilidad de que menos de 5 industrias cumplan, pero cuando menos 3 si
lo cumplan.
Solucin:
(a) P(X = 5) = B(5;10,0.5)
= 0.246 (usando la tabla binomial)
(b) P(X 2) = 0.055 (usando la tabla binomial)

3-17
Dr. Hctor Quevedo Uras

(c) P(X 9) = 1 - .989


= 0.011
(d) P(3 X < 5) = P(4) + P(3) = .205 + 0.117
= .322 (de la tabla binomial individual)
Ejemplo #11. Este problema ilustra el uso de la distribucin binomial y su
aproximacin con la distribucin normal. Resulta qu, la distribucin normal, con
= np y 2 = npq proporciona una buena aproximacin a la binomial cuando n
y, cuando p se aproxima a 0 o a 1. As, supngase que n = 15, p = 0.4 y
queremos encontrar P(X = 4). Para esto usar la distribucin binomial y la
distribucin normal como una aproximacin a esta ltima. Comparar los
resultados.
Solucin:
Usando la distribucin binomial estimamos el promedio, es decir, = np =
(15)(0.4) = 6 y la varianza, 2 = npq = (15)(0.4)(0.6) = 3.6, la cual da una
desviacin estndar de = 1.897.
Enseguida, usando la distribucin binomial acumulada da:
b(x;n,p) = P(X = 4) = B(4;15,0.4) - B(3;15,0.4)
= P(X 4) P(X 3)
= .217 - .091 = .126
Que es lo mismo que usar la frmula o la distribucin de probabilidades
individuales, es decir:
P(X = 4) = 15C4 (0.4)4 (0.6)15-4 = 0.1258
Aqu, se ve qu, usando la tabla binomial de probabilidades individuales se lee
directamente con n = 15 y p = 0.4 y da 0.126
Ahora bien, usando la distribucin normal, como una aproximacin, usamos la

3-18
Dr. Hctor Quevedo Uras

variable aleatoria normal estndar poblacional Z, es decir:


Z = (X ) / y su estimador muestral z = (X X ) / s
Sin embargo, la variable aleatoria discreta de X = 4, en forma de variable aleatoria
continua, est entre 3.5 y 4.5. Adems, con = 6 y = 1.897 hacemos la
transformacin usando la variable aleatoria normal estndar Z.
Z3.5 = (3.5 6) / 1.897 = - 1.32
Z4.5 = (4.5 6) / 1.897 = - 0.79
De manera que, P(X = 4) = P(-1.32 < Z < -0.79)
= 0.2148 0.0934 (de la tabla de z)
= 0.1214
Finalmente, el valor de 0.1214 est bastante de acuerdo con el valor de 0.1258
obtenido con la distribucin binomial.
Ejemplo #12. Supngase que se tiene una muestra de 20 casos de mediciones de
anlisis de demanda bioqumica de oxgeno (DBO5) provenientes de un muestreo
de un ro, procedentes de 20 lugares diferentes a lo largo de su trayectoria. Si se
sabe que, la probabilidad de que la concentracin de la demanda bioqumica de
oxgeno de 5 (DBO5) das est dentro de los lmites estipulados por las leyes
ambientales es de p = 0.6 (xito), hacer los siguientes clculos:
(a) Calcular el promedio y la desviacin estndar de la variable
aleatoria X binomial.
(b) Usando la distribucin binomial calcular la probabilidad de que exactamente 10
casos de DBO estn dentro del lmite estipulado.
(c) Hacer los mismo que en el inciso (b) pero usando la distribucin normal.
(d) Hacer una tabla de los valores de la variable aleatoria X correspondientes a x =
0, 1, 2, 3, 4,,19 en funcin de n = 20 y p = 0.6 usando la frmula y la tabla

3-19
Dr. Hctor Quevedo Uras

binomial. Calcular tambin la probabilidad acumulada.


(e) Hacer un histograma de probabilidades binomiales para el tamao de la muestra
n = 20 y p = 0.6 con una curva normal sobrepuesta.
(f) Calcular P(X 5), P(X 12) y P(X 12) usando, ambas la distribucin
binomial y la distribucin normal como aproximacin a esta ltima.
Solucin:
(a) El promedio, la varianza y la desviacin estndar binomiales son:
Promedio = = np = (20)(0.6) = 12
Varianza = 2 = npq = (0.4) = 4.8
Desviacin estndar = = 2 = 2.19
(b) Aqu, la aproximacin de la distribucin binomial a la distribucin normal es
buena, porque np = (20)(0.6) 10 y nq = (20)(0.4) 10.
Para calcular la probabilidad de qu, exactamente, 10 casos estn dentro de las
normas estipuladas se hace usando la distribucin binomial con los valores n = 20,
p = 0.6 y q = 1 p = 1 0.6 = 0.4. Ahora, sustituyendo los valores en la frmula
binomial nos da:
b(x;n,p) = nCx px qn-x para x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 19
B(10;20,0.6) = 20C10 (0.60)10 (0.4)20-10 = 0.1162
Sin embargo, usando la tabla binomial de probabilidades acumuladas nos da la
probabilidad individual:
P(X = 10) = .2447 - .1275 = .1172
Tambin, usando la tabla binomial de probabilidades de funcin de masa con n =
20, = .600 y a = 10 da un valor de 0.117.
Como se ve arriba, el uso de la frmula binomial es largo y tedioso. Sin
embargo, si usamos la tabla de las probabilidades binomiales individuales o de

3-20
Dr. Hctor Quevedo Uras

funcin de masa o, bien, la tabla de probabilidades acumuladas, los clculos se


simplifican de sobremanera.
(c) Ahora, usando la distribucin normal con variables aleatorias continuas, nos da:
(9.5 X 10.5) o sea P(-1.14 Z -.68). Esto se calcula usando la variable
aleatoria estandarizada Z, es decir,
Z = (X ) / donde X = 9.5 y 10.5, = 12, s = = 2.19
Z9.5 = (9.5 12) / 2.19 = - 1.14
Z10.5 = (10.5 12) / 2.19 = - 0.68
Enseguida, usando la tabla de la distribucin normal razonamos como:
P(-1.14 Z -.68) = P(Z = -.68) P(Z = -1.14)
= (0.2483 0.1271)
= .1212
Al comparar los dos resultados vemos que la distribucin binomial da 0.1172 y la
distribucin normal da 0.1212. Esta aproximacin sera mejor a medida que n fuera
ms grande.
(d) Para hacer una tabla con todas las probabilidades correspondientes a x = 0, 1, 2,
3, 4,, 19. (Ver TABLA 3.1 de abajo).

3-21
Dr. Hctor Quevedo Uras

TABLA 3.1. Tabla mostrando las probabilidades individuales y acumuladas con n


igual a 20 y p igual a 0.6. (Elaboracin propia)
Valor de la variable P(X) individual P(X) acumulada
aleatoria X
0 0.000 0.000
1 0.000 0.000
2 0.000 0.000
3 0.000 0.000
4 0.000 0.000
5 0.002 0.002
6 0.004 0.006
7 0.015 0.021
8 0.036 0.057
9 0.071 0.128
10 0.117 0.245
11 0.159 0.404
X = = 12 (promedio) 0.180 0.584*
14 0.124 0.974
15 0.075 0.949
16 0.035 0.984
18 0.003 0.999
20 0.000 1.000

El asterisco (*) seala la localizacin del promedio.


(e) Para este inciso la Figura 3.2 e abajo muestra un histograma de probabilidad

3-22
Dr. Hctor Quevedo Uras

binomial para n = 20, p = 0.6, = 12 y = 2.19, con curva normal de


aproximacin sobrepuesta. Aqu, se ve que, aun cuando el histograma de
probabilidad est un poco sesgado hacia la izquierda, porque p > .6. La curva
normal da muy buena aproximacin a la binomial.

Figura 3.2. Grfica mostrando un histograma de probabilidad binomial para n = 20,


p = 0.6, = 12 y = 2.19, con curva normal de aproximacin sobrepuesta. Aqu,
se ve claramente, qu, aun cuando el histograma de probabilidad est un poco
sesgado hacia la izquierda, (porque p > .6), la curva normal da muy buena
aproximacin a la binomial. (Elaboracin propia)
(f) Para calcular los valores de abajo usando la distribucin binomial y la normal,
se procede como:
1. P(X 5)
2. P(X 12)
3. P(X 12)
Usando la tabla de la distribucin binomial con n = 20, p = 0.6 y q = 0.4 da los
siguientes resultados.

3-23
Dr. Hctor Quevedo Uras

Para: P(X 5) = .002


Para: P(X 12) = 1 P(X < 12)
= 1 - .404
= .596
Nota: Para P(X 12) porqu el valor obtenido no se aproxim a .5? Para contestar
esta pregunta refirase a la Figura 3.2 de arriba.
Para: P(X 12) = 1 P(X > 12) = .596
Ahora, para calcular los valores de arriba usando la distribucin normal,
como una aproximacin a la binomial, para cada uno de las preguntas P(X 5),
P(X 12) y P(X 12) necesitamos convertir las variable aleatorias discretas a las
variables aleatorias normales Z usando la variable aleatoria estandarizada Z con
= 12 y = 2.19 y luego buscar el valor de Z en la tabla de la distribucin normal y
calcular la probabilidad correspondiente.
Usando la funcin Z = (X )/ y estandarizando nos da:
Z5 = (5 12)/2.19 = - 3.197
Ahora usando la tabla de la distribucin normal buscamos z = -3.197 y da .0007, o
sea .001. Similarmente, con P(X 12) convertimos X = 12 a valores de Z con =
12 y = 2.19 y da:
Z = (12 12)/2.19 = 0
Que corresponde a una probabilidad de .5000. La misma situacin ocurrira con
P(X 12) (Que tambin se puede leer de la grfica).
Ejemplo #13. Si en la fabricacin de accesorios para un sistema de control de
partculas (cicln) se asocia con un proceso Bernoulli, con un promedio de partes
defectuosas de 0.20, estimar la probabilidad:
(a) De no encontrar partes defectuosas del sistema de control de una muestra

3-24
Dr. Hctor Quevedo Uras

aleatoria de 10 partes.
(b) De no encontrar partes defectuosas de los ciclones fabricados de una muestra
de 20 partes.
Solucin:
(a) Usando la frmula binomial: b(x;n,p) = nCx px qn-x y sustituyendo X = 0, p = 0.2
y q = 0.8 nos da:
P(X = 0) = B(0;10,0.2) = 10C0 (0.2)0 (0.8)10-0 = 0.107
Este resultado tambin se puede obtener usando la tabla binomial de
probabilidades individuales o de funcin de masa, es decir, buscando n = 10, p =
0.2 y X = 0.
(b) Nuevamente usando la frmula binomial y sustituyendo da:
P(X = 0) = B(0;20,0.2)= 20C0 (0.2)0 (0.8)20-0
= (1)(1)(0.012)
= 0.012
Anlogamente, este mismo resultado se puede obtener usando la tabla binomial
acumulada buscando n = 20, p = 0.2 y X = 0 y da 0.012. Aqu, ntese que tambin
se obtiene el mismo resultado usando la tabla binomial de probabilidades
individuales.
Ejemplo #14. Si tenemos una muestra aleatoria de n = 20 (peces) para varios
valores de p, podemos estimar la probabilidad de X muertes de los organismos
sometindolos a ciertas concentraciones txicas provenientes de una descarga
industrial de un ro. Para esto hacer los siguientes clculos:
(a) Calcular el promedio y la desviacin estndar , de la muerte de los peces, si
el valor de p = 0.05
(b) La probabilidad de que muera a lo ms 1 organismo

3-25
Dr. Hctor Quevedo Uras

(c) La probabilidad de que no muera ningn organismo


(d) La probabilidad de que mueran cuando menos 3 organismos
(e) La probabilidad de P(X = 10)
Solucin:
(a) Promedio = X = = np = (20)(.05) = 1.0.
Desviacin estndar = = npq = (1.0)(.95) = .95
(b) P(X 1) = .736
(c) P(X = 0) = .358
(d) P(X 3) = 1 - P(X < 3) = 1 - .9245 = .0755
(e) P(X = 10) = 1.0
Ejemplo #15. La posibilidad de que una muestra de aire contenga un
microorganismo letal es de 10%. Suponiendo que las muestras son independientes,
con respecto a la presencia del microorganismo, encontrar la probabilidad de que:
(a) En las 18 siguientes, exactamente 2 contengan el germen.
(b) Al menos 4 muestras contengan el germen.
(c) La probabilidad de que menos de 7 muestras de aire contengan el germen, pero
cuando menos 3 muestras tambin lo tengan, e.g., P(3 X < 7).
Solucin:
(a) Sea X el nmero de muestras de aire que contengan el germen patgeno en las
18 muestras siguientes analizadas. Entonces, X es una variable aleatoria binomial,
con p = 0.1 y n = 18. Por consiguiente:
P(X = 2) = B(2;18,0.1) = 18C2 (0.1)2 (0.9)16 = 0.284
18
(b) P(X 4) = 18Cx (0.1)x (0.9)18-x, donde 18Cx = 18!/x!(18 x)!
x=0

Aqu, sin embargo, es ms fcil usar el evento complementario.

3-26
Dr. Hctor Quevedo Uras

P(X 4) = 1 P(X < 4)


3
= 1 18CX (0.1)x (0.9)18-x
x=0

= 1 (0.15 + 0.300 + 0.284 + 0.168)


= 0.098
6
(c) P(3 X < 7) = 18Cx (0.1)x (0.9)18-x
x=3

= 0.168 + 0.07 + 0.022 + 0.005


= 0.265
Tambin, P(X 6) P(X 2) = .9983 - .7338
= .2645
Ejemplo #16. En un estudio de higiene industrial y seguridad llevado a cabo en
muchas maquiladoras industriales, supngase que hay una poblacin grande de
tomadores de licor y otra poblacin de abstemios. En este caso, la probabilidad de
xito o de tomadores se asume que es p igual a 0.4 y, la probabilidad de abstemios
(probabilidad de fracaso) es de q igual a 0.6. Si sacamos una muestra al azar de n =
10 operadores de la maquiladora, entonces, el nmero de la variable aleatoria de X
tomadores de licor es de x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, siendo as:
(a) Preparar una tabla mostrando las probabilidades individuales y valores de X.
(b) Preparar una grfica en funcin de probabilidades binomiales individuales en la
ordenada y de x en la abscisa, donde las barras indiquen la probabilidad de funcin
de masa P(X = x).
(c) Calcular el promedio y la varianza de esta distribucin.
(d) De la grfica leer todas las probabilidades P(X = x).
(e) Estimar P(X = 4) e interpretar el resultado

3-27
Dr. Hctor Quevedo Uras

Solucin:
(a) La tabla de probabilidades individuales, con n = 10 y p = 0.4 se da en la
TABLA 3.2 de abajo. Esto se hace con el programa Minitab. El procedimiento
para generar las probabilidades de funcin de masa P(X=x) es:
Calc Probability distributions Binomial
En la ventana de Binomial Distribution puntear Probability e introducir el
nmero de ensayos (10) y la probabilidad de xito (0.4). Adems, puntear Input
column, introducir los valores de X, y en la ventanilla de Optional storage poner
P(X=x) y luego OK. Todas estas ordenes generan la los valores de la TABLA 3.2.
TABLA 3.2. Tabla mostrando las probabilidades
binomiales individuales vs. valores de X.
__________________________________
P(X=x) Variable aleatoria X
__________________________________
0.006047 0
0.040311 1
0.120932 2
0.214991 3
0.250823 4
0.200658 5
0.111477 6
0.042467 7
0.010617 8
0.001573 9
0.000105 10
_________________________________

(b) Para hacer la grfica de P(X=x) vs. valores de X usar el programa Minitab y
proceder de la siguiente manera: Irse a: Graph Scatterplot. En la ventana de
Scatterplot que aparece, irse a With Connect Line e introducir los valores de
P(X=x) y valores de la variable aleatoria X. En la ventana de Scatterplot Data

3-28
Dr. Hctor Quevedo Uras

View puntear Symbols y Project Lines y OK. Esto genera la grfica de las
probabilidades binomiales de funcin de masa P(X=x), en funcin de los valores de
la variable X mostrada abajo. Siendo as, analizar la configuracin de los resultados
de la grafica y decir si es oblicua a la derecha o a la izquierda y explicar porque
ocurre de esa manera. La grfica se muestra abajo.

Grafica de P(X=x) vs. variable aleatoria X


0 2 4 6 8 10

0.25 0.25

0.20 0.20

0.15 0.15
P(X=x)

0.10 0.10

0.05 0.05

0.00 0.00

0 2 4 6 8 10
Variable aleatoria X

Figura 3.3. Grfica mostrando P(X = x) en funcin de X. Aqu, debido a que p =


0.4 < 0.5, la distribucin es oblicua hacia la derecha. (Elaboracin propia)

(c) El promedio , la varianza 2 y la desviacin estndar de esta distribucin


son: = np = (10)(0.4) = 4.0, 2 = npq = (10)(0.4)(0.6) = 2.4, = 2.4 = 1.555
(d) De la Figura 3.3 se pueden leer todas las probabilidades P(X = x) mostradas en
la TABLA 3.3 y tambin usando la TABLA 3.2.

3-29
Dr. Hctor Quevedo Uras

TABLA 3.3. Tabla mostrando los valores de la variable aleatoria X para este
problema. (Elaboracin propia)
P(X = 0) = 0.0060 P(X = 6) = 0.1115
P(X = 1) = 0.0403 P(X = 7) = 0.0425
P(X = 2) = 0.1209 P(X = 8) = 0.0106
P(X = 3) = 0.2150 P(X = 9) = 0.9916
P(X = 4) = 0.2508 P(X = 10) = 0.0001
P(X = 5) = 0.2006

(e) P(X = 4) = 0.2508 dice qu, si seleccionramos 100 muestras de tamao n = 10,
de una poblacin de operadores de la industria maquiladora esperaramos que 25
de estas muestras tendran un valor de X = 4 tomadores de licor.
Ejemplo #17. La paraestatal PEMEX de Mxico se avoc a hacer perforaciones en
el sureste de Tabasco. Para ver la factibilidad financiera de que fuera conveniente
hacer las perforaciones, PEMEX contrat los servicios de una firma de estudios
estadsticos. Se sabe que, cada pozo perforado se clasifica como productivo o no
productivo. La experiencia de PEMEX es que, en este tipo de exploraciones, se
sabe por experiencia que, el 15% de los pozos perforados son productivos. Para las
exploraciones petroleras se seleccionaron aleatoriamente 12 sitios. Con esta
informacin en mente, hacer los siguientes clculos.
(a) Cul es la probabilidad de que los 12 pozos que se perforen en cada uno de los
12 sitios, sean productivos?
(b) Cul es la probabilidad de que ningn pozo perforado sea productivo?
(c) Cul es la probabilidad de que exactamente un pozo sea productivo?
(d) Para hacer rentable al pas, cuando menos tres de los pozos de exploracin
deben ser productivos. Siendo as, Cul es la probabilidad de que el negocio sea
rentable?

3-30
Dr. Hctor Quevedo Uras

Sugerencia: Usar P(X = 12), P(X = 0), P(X = 1), P(X 3), etc.
Distribucin Hipergeomtrica
La funcin hipergeomtrica es una distribucin discreta de probabilidad, la cual
est estrechamente ligada a la distribucin binomial. La manera ms simple de ver
la diferencia entre las dos distribuciones radica en la forma que se hace el
muestreo. La diferencia entre estas dos distribuciones es que, en la distribucin
binomial, los intentos son independientes, porque hay reemplazo en la seleccin de
la muestra. Sin embargo, en el caso de la distribucin hipergeomtrica, hay
dependencia, porque la seleccin de la muestra se hace sin reemplazo y la
probabilidad de xito cambia de un intento a otro.
El modelo hipergeomtrico es apropiado, cuando el muestreo es sin
reemplazo de una poblacin finita y, cuando se requiere la probabilidad de un
nmero especfico de xitos y/o fracasos.
Suposiciones y propiedades de la distribucin hipergeomtrica
1. Una muestra aleatoria de tamao n se selecciona sin reemplazo de N tems.
2. k de los N tems pueden ser clasificados como xitos y, N k es clasificado
como fracasos.
3. La poblacin o conjunto de la muestra consiste de N individuos, objetos o
elementos (una poblacin finita).
4. Cada individuo puede ser caracterizado como un xito o un fracaso y hay k
xitos en la poblacin.
5. Una muestra de n individuos se selecciona sin reemplazo (hay dependencia, en
contraste con la binomial en la que hay independencia) en forma aleatoria.
Definicin de la distribucin hipergeomtrica
En la distribucin de probabilidad de una variable aleatoria hipergeomtrica X, el

3-31
Dr. Hctor Quevedo Uras

nmero de xitos en una muestra aleatoria de tamao n, seleccionada de N tems,


de los cuales k se llaman xitos y N k se llaman fracasos es:
kCx N-kCn-x
h(X;N,n,k) = x = 0, 1, 2, 3,..., n (3-4)
NCn

Donde:
k = xitos en n intentos, es decir, la cantidad de elementos
identificados como xito en la poblacin
N k = fracasos
n = tamao de la muestra aleatoria o cantidad de elementos en la
poblacin
N = nmero de tems (tamao de la poblacin)
Donde x no puede exceder de k y (n x) no puede exceder de (N k)
Observaciones:
NCn Representa la cantidad de formas en las que se puede
seleccionar una muestra de tamao n de una poblacin de
de tamao N
kCx Representa la cantidad de maneras en las que se puede
seleccionar x xitos de un total de k xitos de la
poblacin
N-kCn-x Representa la cantidad de maneras en las que se puede
seleccionar n x fracasos de un total de N k fracasos en la poblacin
Aplicaciones de la distribucin hipergeomtrica
Las aplicaciones de esta distribucin se encuentran en las pruebas electrnicas;
aseguranza de calidad; seleccin de diamantes industriales, algunos de los cuales

3-32
Dr. Hctor Quevedo Uras

son de calidad superior a los otros; en problemas de muestreos de declaraciones de


impuestos sobre ingresos, donde k entre N declaraciones archivadas contienen
deducciones cuestionables. Igualmene, la distribucin hipergeometrica tiene las
mismas aplicaciones a la ingeniera ambiental, que con la binomial, con la
diferencia que con la hipergeomtrica el muestreo es sin reemplazo.
Caractersticas de la distribucin hipergeomtrica
Si n es relativamente pequeo con respecto a N, la probabilidad para cada intento
cambia ligeramente, lo que indica que se tiene un experimento binomial. Esta
situacin puede aproximarse a la distribucin hipergeomtrica usando la
distribucin binomial con p = k/N. Adems, el promedio y la varianza de la
distribucin hipergeomtrica se pueden aproximar mediante las frmulas:
= np = nk/N (3-5)
2 = npq = n(k/N)(1 k/N) (3.6)

Relacin entre la distribucin hipergeomtrica y la distribucin binomial


Hay una relacin interesante entre la distribucin binomial y la distribucin
hipergeomtrica. Como se dijo antes, si n es pequea comparada con N, la
naturaleza de N tems cambia muy poquito en cada muestreo. Por lo tanto, la
cantidad k/N juega el papel del parmetro p de la distribucin binomial. Como
resultado, la distribucin binomial puede ser vista como una edicin poblacional
grande de la distribucin hipergeomtrica.
As, cuando hay un experimento hipergeomtrico, en el cual no se da el
valor de k directamente, pero si con valores dados de N y de la probabilidad p (o
en trminos de porcentaje), el valor de k se puede calcular usando la relacion p =
k/N.

3-33
Dr. Hctor Quevedo Uras

Ejemplos usando la distribucin hipergeomtrica


Ejemplo #18. Un comit de tamao 5 es seleccionado aleatoriamente, de 3
Qumicos y 5 Fsicos. Encontrar la distribucin de probabilidad para el nmero de
Qumicos en el comit. Hacer una grfica o histograma que vaya en funcin de la
variable aleatoria X y de P(X).
Solucin:
Aqu, N = 8, n = 5, k = 3. Se usa la frmula (3-4) de la distribucin
hipergeomtrica:
kCx N-kCn-x

h(x;N,n,k) = x = 0,1,2,3.,n
NCn

Sustituyendo los valores en la frmula de arriba nos da la forma bsica lista para

sustituir los valores de la variable aleatoria X.

3Cx 8-3C5-x
h(x;8,5,3)=
8C3

Por lo tanto, del espacio muestral x = 0, 1, 2, 3, 4 y sustituyendo estos valores en la


expresin de arriba da los siguientes enunciados:
P(X = 0) = h(0;8,5,3) = 3C0 5C5 / 8C5 = (1)(1)/56 = 1/56 = 0.018
P(X = 1) = h(1;8,5,3) = 3C1 5C4 / 8C5 = (3)(5)/56 = 15/56 = 0.268
P(X = 2) = h(2;8,5,3) = 3C2 5C3 / 8C5 = (3)(10)/56 = 30/56 = 0.536
P(X = 3) = h(3;8,5,3) = 3C3 5C2 / 8C5 = (1)(10)/56 = 10/56 = 0.179
P(X = 4) = h(4;8,5,3) = 3C4 5C1 / 8C5 = (0)(5)/56 = 0

3-34
Dr. Hctor Quevedo Uras

TABLA 3.4. Tabla mostrando la tabulacin de la distribucin hipergeomtrica.


Variable aleatoria X | 0 1 2 3 4
h(x;8,5,3) | 1/56 15/56 30/56 10/56 0

Para hacer el histograma, nicamente se grafican los valores de la variable


aleatoria x = 0, 1, 2, 3, 4 en la abscisa y los valores de h(x;8,5,3) en la ordenada.
Ejemplo #19. Refirindose al problema anterior, calcular las siguientes
probabilidades:
(a) La probabilidad de qu, exactamente, 1 Qumico sea seleccionado.
(b) La probabilidad de qu, cuando menos 1 Qumico sea seleccionado
(c) La probabilidad de qu, entre 1 y 3 (incluso) Qumicos sean seleccionados.
Solucin:
(a) Sustituyendo los valores de N = 8, n = 5, k = 3 en la frmula hipergeomtrica:
P(X = x) = h(x;N,n,k) = kCx N-kCn-x / NCn
P(X = 1) = h(1;8,5,3) = 3C1 5C4 / 8C5
= (3)(5) / 56 = 0.268
(b) P(X 1) = 1 P(X = 0) = 1 [(3C0 5C5)/8C5]
= 1 (1)(1) / 56
= 1 0.018 = 0.982
(c) P(1 X 3) = P(X 3) P(X = 0)
= P(X = 1) + P(X = 2) + P(X = 3)
= H(1;8,5,3) + H(2;8,5,3) + H(3,8,5,3)
= (3C15C4)/56) + (3C25C3)/56) + (3C35C2)/56)
= ((3)(5)/56) + ((3)(10)/56) + ((1)(10)/56)
= (0.268) + (0.536) + (0.179) = 0.983

3-35
Dr. Hctor Quevedo Uras

Ejemplo #20. Un embarque de 20 computadoras contiene 5 que estn defectuosas.


Si 10 de estas computadoras se seleccionan aleatoriamente, para su inspeccin,
Cul es la probabilidad de que 2 de las 10 estn defectuosas?
Solucin:
Aqu, X = 2, n = 10, k = 5 y N = 20. Ahora sustituyendo estos valores en la
frmula hipergeomtrica da:
P(X = 2) = H(2;20,10,5) = 5C2 15C8 / 20C10 = (10)(6435)/184756
= 0.348
Ntese la diferencia entre el uso de la letra mayscula H y la letra minscula h.
Ejemplo #21. Repitamos el ejemplo anterior, pero ahora con un lotes de 100
computadoras, 25 de las cuales estn defectuosas, de la siguiente manera.
(a) Usando la frmula hipergeomtrica
(b) Usando la frmula binomial como una aproximacin a la distribucin
hipergeomtrica.
Solucin:
(a) Sustituyendo x = 2, n = 10, k = 25, N = 100 en la frmula da:
P(X = 2) = H(2;100,10,25) = 25C2 75C8 / 100C10
= (300)(1.687x1010) / 1.731x1013
= 0.292
Aqu vemos que los datos son muy largos y tediosos. Sin embargo, usando la
distribucin binomial, como una aproximacin, basndonos en el hecho de que el
valor de N = 100 es grande con relacin a n = 10, entonces, podemos usar la
binomial como una aproximacin a la hipergeomtrica y da:
Usando x = 2, n = 10, p = k/N = 25/100 = .25. Por lo tanto,
Usando la formula binomial, b(x,n,p) = nCx px qn-x /x!

3-36
Dr. Hctor Quevedo Uras

P(X = 2) = B(2,10,0.25) = 10C2 (0.25)2 (0.75)8


= (45)(0.0625)(0.100) = 0.2813
Nota. Obsrvese que la diferencia entre los dos valores es de solo .01. En general,
es posible demostrar que la distribucin hipergeomtrica, h(x;N,n,k) se aproxima a
la distribucin binomial, b(x;n,p), con p = k/N. Por regla general, puede usarse la
distribucin binomial como una aproximacin a la distribucin hipergeomtrica, si
n < N/10.
Ms ejemplos de problemas de la distribucin binomial usando el programa
de computadora Minitab
Abrir el programa Minitab e irse a:
Calc Probability Distributions Binomial
Esto hace que aparezca la ventana de Binomial Distributions. En esta ventana
puntear Probability. En la ventanilla de Number of Trials poner el valor de n
seleccionado (tamao de la muestra). Asimismo, en la ventanilla de Probability of
Success poner la probabilidad o el porcentaje (en forma decimal) deseado. En la
ventanilla de Input Columns poner la columna C1 o sea la columna con los datos
que se quieran evaluar. En la ventanilla de Optional Storage se pondrn los datos
generales que se almacenaran. Luego poner OK. Enseguida, para generar las
probabilidades acumuladas dentro de la misma ventana de Binomial
Distributions puntear la Cummulative Probability y proceder anlogamente,
como arriba.
Anlogamente, para hacer grficas irse a:
Graph Scatterplot With Connect line, etc.
En la ventana de Scatterplots With Connect Line, poner C2 o C3 en Y y, C1 en
X. (Siempre que se tenga alguna duda, consultar la ventanilla de Help.)

3-37
Dr. Hctor Quevedo Uras

Ejemplo #22. Un fabricante de precipitadores electrostticos afirma qu, el 6% de


este equipo para controlar las partculas contaminantes del aire, est defectuoso. Si
esta afirmacin es correcta, encontrar las probabilidades de que el nmero de
aparatos defectuosos sacados de una muestra de 10 estn en mal estado.
(a) Exactamente dos aparatos estarn defectuosos
(b) Cuando menos dos aparatos estarn defectuosos
(c) Menos que un aparato estar defectuoso
(d) Entre 2 y 5 incluso y excluso
(e) P(S)
(f) Hacer grficas de probabilidad de funcin de masa P(X=x) y de probabilidad
acumulada, P(X x)
Solucin:
Para obtener los resultados apetecidos usar la tabla generada, que incluye la
variable aleatoria X (en la columna C1) y las probabilidades binomiales
individuales y las probabilidades binomiales acumuladas (en las columnas C2 y
C3).
(a) P(X = 2) = 0.0988 (de la columna C2)
(b) P(X 2) = 1 P(X < 2)
(c) P(X < 1) = P(X = 0) = 0.5386
(d) P(2 X 5) = P(X 5) P(X 1)
= P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5)
= 0.1176
P(2 < X < 5) = P(X = 4) + P(X = 3) (de la columna C2)
= 0.0168 + 0.0019
= 0.0187

3-38
Dr. Hctor Quevedo Uras

(e) P(S) = 1 (Este valor se obtiene de la sumatoria de todas las probabilidades de


funcin de masa o probabilidades binomiales individuales), esto es:
P(S) = (0.538615 + 0.343797 + 0.098750 + 0.0116809 + 0.001878 + 0.000144 +
0.000008) 1
(f) Las Figuras 3.4 (a) y (b) muestran los grficos de las probabilidades binomiales
individuales, en funcin de la variable aleatoria X y, las probabilidades binomiales
acumuladas, en funcin de la variable aleatoria X, respectivamente.

TABLA 3.5. Tabla mostrando los valores de la variable aleatoria x (columna C1),
la probabilidades binomiales individuales P(X=x) y la probabilidades binomiales
acumuladas P(X x) (columna C3).
(a) (b)

Figura mostrando la grafica de P(X=x) versus variable aleatoria x Grafica mostrando la probabilidad P(X<=x) vs. variable aleatoria X

1.0 0 1 2 3 4 5 6
0.6 0.6
Probabilidades acumuladas

0.9 0.5 0.5

0.4 0.4
0.8
P(X=x)

0.3 0.3
0.7
0.2 0.2

0.6 0.1 0.1

0.0 0.0
0.5
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Variable aleatoria x Variable aleatoria X

Figura 3.4. Esquemas mostrando los resultados de este ejemplo. La figura (a)
muestra la grfica de P(X=x) vs. variable aleatoria X y, la figura (b), muestra la
grfica de P(X <= x). (Elaboracin propia)

3-39
Dr. Hctor Quevedo Uras

Ejemplos aplicados a la distribucin hipergeomtrica usando el programa de


computadora Minitab
Abrir el programa Minitab e irse a:
Calc Probability Distributions Hypergeometric
Esta maniobra abre la ventana Hypergeometric Distribution. En esta ventana
puntear Probability. Para calcular las probabilidades hypergeomtricas de
funcin de masa en la ventanilla de Population size (N) poner el valor de la
poblacin muestreada (N). En la ventanilla de Success in Population (M) poner
el nmero de xitos (k). En la ventanilla de Simple Size (n) poner la muestra
seleccionada (n). En la ventanilla de Input columns poner los valores que se
vayan a evaluar (x). En la ventanilla de Optional Storage introducir la columna
donde se vayan a almacenar los valores generados.
Ejemplo #23. Asmase que una poblacin de 10 medidores de pH (que miden la
acidez y la alcalinidad de soluciones qumicas) contiene 4 unidades defectuosas
(xitos arbitrariamente). Si una muestra de 3 medidores se selecciona al azar, sin
reemplazo, encontrar las siguientes probabilidades:
(a) Exactamente 1 aparato de pH estar defectuoso
(b) Dos aparatos estarn defectuosos
(c) Tres aparatos de pH resultaran defectuosos de la muestra seleccionada
(d) A lo ms 2 aparatos estarn defectuosos
(e) Hacer grficas para P(X = x) y P(X x)
Solucin:
1. Primero se introducen los valores de la variable aleatoria (x) en la columna C1
2. Enseguida, tenemos que identificar las variables que se introducirn en el
modelo hipergeomtrico. Aqu, k = 4, N = 10, n = 3, x = 0, 1, 2, 3, 4.

3-40
Dr. Hctor Quevedo Uras

3. Ahora, introducir los valores de N, n y k, como se indic arriba y el programa


Minitab genera la TABLA 3.5 de abajo.

TABLA 3.5. Tabla mostrando los valores de las distribuciones hipergeometricas


individuales y acumuladas en funcin de la variable aleatoria X.

4. Para resolver los incisos (a)-(e), esto se puede hacer usando el modelo
hipergeomtrico, h(x:N,n,k) = kCx N-kCn-x / NCn, los datos de la TABLA 3.5 o las
grficas. Por ejemplo si se usa la frmula se sustituyen los valores de k, N y n y
luego se sustituyen los valores de x en la frmula hipergeomtrica:
h(x;10, 3,4) = 4Cx 10-4C3-x / 10C3
Una vez hecho esto se sustituye los valores de x = 0, 1, 2, 3, 4. Este procedimiento,
sin embargo, es muy largo y tedioso. Pero si usamos los valores de la TABLA 3.5
esto se simplifica de sobremanera.
4. Las soluciones son:
(a) P(X = 1) = 4C1 6C2 / 10C3 = 0.500 (o de la columna C2)
(b) P(X = 2) = 4C2 6C1 / 10C3 = 0.300 (o de la columna C2)
(c) P(X = 3) = 4C3 6C0 / 10C3 = 0.033 (o de la columna C2)
2

(d) P(X 2) = h(x;10,3,4) = 0.5000 + 0.1667 + 0.3000 = 0.9667 (o de C3)


x=0

3-41
Dr. Hctor Quevedo Uras

(e) En cuanto a la generacin de las figuras requeridas por el problema, siguiendo


las instrucciones anteriores se generan las Figuras 3.5 (a) y (b) sealadas abajo.

(a) (b)
Figura mostrando la grafica de P(X=x) vs. variable aleatoria x Figura mostrando la grafica de P(X<=x) vs. variable aleatoria x
0.5 1.0

0.9
0.4
0.8

0.7

P(X =< x)
0.3
P(X = x)

0.6

0.5
0.2
0.4

0.1 0.3

0.2

0.0 0.1
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0
Variable aletoria x Variable aletoria x

Figura 3.5. La figura (a) muestra la distribucin hipergeomtrica de variables


individuales P(X=x) vs. variable aleatoria x y la figura (b) muestra las variables
acumuladas de la distribucin hipergeomtrica P(X x) vs. variable aleatoria X.
(Elaboracin propia).

Ejemplo #24. En una encuesta universitaria hecha a 24 estudiantes del ultimo ao


revela que casi el 50% de esa poblacin de estudiantes recomienda tomarse cuando
menos una o dos cervezas diariamente, para estudiar mejor. Si se seleccionan
aleatoriamente 11 de estos estudiantes y se les pregunta que opinan de esto, estimar
lo siguiente:
(a) La probabilidad de que, solamente, 4 estudiantes sean de este parecer.
Solucin:
Usando la distribucin hipergeomtrica con N = 24, n = 11, k = Np = (0.50)(24) =
12 y X = 4 y sustituyendo los valores en la formula hipergeomtrica:
h(x;N,n,k) = kCx N-kCn-x / NCn,

3-42
Dr. Hctor Quevedo Uras

nos da: H(4;24,11,12) = 12C4 24-12C11-4 / 24C11


= (495)(792)/2,496,144
= 0.26
Nota: Hay mtodos para generar tablas de distribuciones binomiales
(acumuladas e individuales) usando el programa computarizado Minitab
Existen mtodos para generar tablas binomiales acumuladas o tablas binomiales
individuales para cualquier tamao de n y de probabilidades p. Esto se hace,
porque es imprctico poner todos los valores de n y de p en las tablas de las
diferentes distribuciones. Usando el Minitab, se pueden generar tablas de
probabilidades binomiales acumuladas para cualquier tamao de n y de p. Para
esto, proceder como:
Calculator Probability Distributions Binomial
En la ventana de Binomial Distribution que aparece puntear Cummulative
probability. (Esto se hace despus de introducir los valores de la variable aleatoria
X en la columna C1). En las ventanillas de Number of trials y Probability of
success poner el tamao de n y el valor de p, respectivamente. Esto generar las
probabilidades binomiales acumuladas, mismas que se almacenern en Optional
storage o en la columna C2.
Anlogamente, se puede generar una tabla de probabilidades binomiales
individuales para cualquier tamao de n o de p. Para esto proceder como:
Calculator Probability Distributions Binomial
En la ventana de Binomial Distribution que aparece, puntear Probability. (Esto
se hace despus de introducir los valores de la variable aleatoria X en la columna
C1). En las ventanillas de Number of trials y Probability of success poner el
tamao deseado de n y de p, respectivamente. Esto generar las probabilidades

3-43
Dr. Hctor Quevedo Uras

binomiales individuales, mismas que se almacenern en Optional storage o en la


columna C3, esto es, si ya se us la columna C2 para el almacenaje de las
probabilidades binomiales acumuladas.
Ejemplo #25. Tericamente, cierta forma de desnutricin ocurre en el 15% de
personas sin que se den cuenta de eso. Esta forma de desnutricin no se debe a que
no se coma lo suficiente, sino a situaciones en que el cuerpo no asimila los
nutrienties, sin importar cuanto o como se coma. Esto es debido a la alteracin
qumica de la sangre por vida antinatural. Siendo as determinar las siguientes
probabilidades para una muestra de 5 personas.
(a) Ninguna persona lo tiene
(b) Cuando menos 2 personas lo tienen
(c) Entre 2 y 4 lo tienen, inclusivamente
Solucin:
Usando el Minitab se genera la tabla de abajo.
TABLA 3.6. Tabla mostrando las probabilidades acumuladas e individuales.
__________________________________________________________________
Variable aleatoria X Probabilidades binomiales acumuladas Probabilidades binomiales individuales.
0 0.59049 0.59049
1 0.91854 0.32805
2 0.99144 0.07290
3 0.99954 0.00810
4 0.99999 0.00045
5 1.00000 0.00001
___________________________________________________________________________________________

(a) P(X = 0) = 0.59049


(b) P(X 2) = 1 0.91854 = 0.0815
(c) P(2 X 4) = 0.9999 - 0.91854 = 0.0815

3-44
Dr. Hctor Quevedo Uras

Ejercicios Captulo 3
3.1. Si la variable aleatoria X tiene una distribucin binomial con n = 10 y p = 0.5,
calcular las siguientes probabilidades:
(a) P(X = 5) (0.246)
(b) P(X 2) (0.055)
(c) P(X 9) (0.011)
(d) P(3 X < 5) (0.549)
3.2. La variable aleatoria X tiene una distribucin binomial con un tamao de 10 y
con p = 0.01. Calcular lo siguiente:
(a) P(X = 5)
(b) P(X 2)
(c) P(X 9)
(d) P(3 X 5)
3.3. Supongamos que 20% de todos los sensores de alto volumen fallen en una
prueba de muestreo de partculas con filtros de cierta porosidad. Sea X el nmero
de entre 15 sensores seleccionados al azar que fallen la prueba. Entonces, si X tiene
una distribucin binomial, con n = 15 y p = 0.2, determinar lo siguiente:
(a) La probabilidad de que a lo sumo 9 muestreadores fallen la prueba. (.999)
(b) La probabilidad de que exactamente 8 fallen. (.003)
(c) La probabilidad de cuando menos 8 muestreadores fallen. (.004)
(d) La probabilidad de que fallen entre 4 y 7 excluso. (.143)
3.4. De acuerdo con la Chemical Engineering Progress (Noviembre de 1990),
aproximadamente, el 30% de todas las fallas de operacin de tuberas en plantas
qumicas son ocasionadas por errores del operador. Siendo as, calcular:

3-45
Dr. Hctor Quevedo Uras

(a) La probabilidad de que de las siguientes 20 fallas al menos 10 fallas se deban al


error del operador.
(b) La probabilidad de qu, no ms de 4 de 20 fallas se deban a error del operador.
3.5. De acuerdo con un reporte publicado en la revista Parade, una encuesta a nivel
nacional de la Universidad de Michigan a estudiantes universitarios del ltimo ao,
revela que casi el 50% fuman marihuana. Si se seleccionan 12 estudiantes
aleatoriamente y se les pide su opinin al respecto, encontrar la probabilidad de
que el nmero que fuman marihuana todos los das sea:
(a) Entre 7 y 9 incluso (0.368)
(b) A lo ms 5 (0.3872)
(c) No menos de 8 (1 - P(X 7))
3.6. En un estudio de higiene industrial y seguridad, se sabe que la probabilidad de
que un operador de las plantas de reactores nucleares sea adicto a las drogas
heroicas es de 0.05. Cul es la probabilidad de que exactamente 5 de los
siguientes 100 operadores sean adictos a los narcticos? Usar la distribucin
binomial y la normal para resolver este importante y delicado problema.
3.7. Un estudio de higiene industrial examin las actitudes de los trabajadores
industriales acerca de los antidepresivos. Esta investigacin revel que,
aproximadamente, el 70% de los trabajadores entrevistados creen que los
antidepresivos, en realidad, no curan nada, sino que solo encubren el problema real
y no ayudan a resolver los problemas de trabajo. De acuerdo a esta investigacin,
Cul es la probabilidad de que al menos 3 de los siguientes 5 trabajadores
seleccionados, aleatoriamente, sean de esta opinin? (.837)
3.8. Con respecto al problema anterior 3.7, si X representa el nmero de
trabajadores de la industria que cree que los antidepresivos no ayudan a resolver

3-46
Dr. Hctor Quevedo Uras

los problemas emocionales del trabajo, sino que dan solamente una solucin
paliativa al problema de las depresiones emocionales; siendo as, entonces,
encontrar el promedio y la varianza, cuando se seleccionan aleatoriamente 5
personas de una muestra de 20.
3.9. En una investigacin de higiene industrial y seguridad, el ingeniero encargado
del departamento de seguridad afirma que, solo el 40% de todos los trabajadores
usan cascos de seguridad cuando almuerzan en el lugar del trabajo. Suponiendo
que esta afirmacin sea correcta, encontrar la probabilidad de que 4 de los
siguientes 6 trabajadores de la industria, elegidos, aleatoriamente, usen los cascos
de seguridad, mientras comen en el lugar del trabajo. (0.138)
3.10. Una compaa constructora de precipitadores electrostticos sabe que, en
promedio, el 29% de este equipo de control de partculas requerirn de
reparaciones despus de un ao de usarse. Si se seleccionan, aleatoriamente, 20
precipitadores electrostticos, de la produccin total, encontrar la probabilidad que:
(a) Al menos 5 precipitadores requieran de reparaciones despus de un ao.
(b) Exactamente 5 de estas unidades de control de la contaminacin atmosfrica
requieran reparacin despus de un ao.
3.11. En un estudio de ahorro de energa, se argumenta que, en el 40% de las
calefacciones activadas con energa solar, la cuenta por servicio baja
considerablemente. De acuerdo a este argumento, Cul es la probabilidad de que
la cuenta de servicio baje, en cuando menos 5 de una muestra de 50 calefacciones?
Hacer este problema usando la distribucin binomial y despus la distribucin
normal. Comparar los resultados. (Binomial = 0.998, normal = 0.9987)
3.12. Hacer el mismo problema (3.11) pero usando 50% con n = 25 y P(X 5).
3.13. Se dan los siguientes datos: n = 15, p = 0.4. Calcular la probabilidad de que el

3-47
Dr. Hctor Quevedo Uras

valor de la variable aleatoria X sea exactamente igual a 4. Hacer esto:


(a) Usando la distribucin binomial. (0.1268)
(b) Usando la distribucin normal como aproximacin. (0.1214)
3.14. Se argumenta que en el 60% de las instalaciones de calefaccin solar la
cuenta por concepto de servicio se reduce en al menos un tercio. En consonancia
con esto, Cules son las probabilidades de que la cuenta de servicio se reduzca en
al menos un tercio en?:
(a) Cuatro de cinco instalaciones.
(b) Al menos cuatro de cinco instalaciones.
3.15. En estudios de ingeniera civil, si la probabilidad de que cierta columna de
ala ancha caiga bajo una carga axial dada es de 0.05, calcular la probabilidad hay
de que entre 16 columnas de ese tipo:
(a) Caigan cuando ms dos? (0.9571)
(b) Caigan al menos cuatro? (.0070)
3.16. La probabilidad de que cierta clase de componente resista una prueba de
choque es de 0.55. Encontrar la probabilidad de que sobrevivan, exactamente, 2 de
los siguientes 4 componentes que se prueben.
3.17. La probabilidad de que un paciente se recupere de un problema cardiaco es
de 0.4. Si se selecciona aleatoriamente una muestra de 15 pacientes con sntomas
de problemas cardacos, Cul es la probabilidad de:
(a) P(X 10) (0.0338)
(b) P(3 X 8) (0.1859)
(c) P(X = 5) (0.1859)
(d) P(3 < X < 8) (0.6964)

3-48
Dr. Hctor Quevedo Uras

3.18. La produccin diaria de 850 partes fabricadas contiene 50 partes que no


cumplen con los requerimientos del cliente. Del lote se escogen 2 partes,
aleatoriamente, sin reemplazo. Sea X el nmero de partes de la muestra que no
cumplen con los requerimientos. Siendo as, Cul es la funcin de la distribucin
acumulada de X ?
3.19. La etapa de una tercera alerta de smog en la ciudad de Mexico ha sido dada,
en la cual se involucra a 50 industrias contaminantes. Un inspector de PROFEPA
visitar 10 industrias seleccionadas aleatoariamente, para inspeccionarlas por las
violaciones a las legislaciones ambientales, que las industrias pudieran estar
cometiendo. Cul es la probabilidad de que 15 de las industrias involucradas estn
violando, cuando menos, una legislacin ambiental? (25CX 50-25C10-X / 50C10)
3.20. Un fabricante de llantas para autos reporta que entre un cargamento de 6,000
llantas de la marca Goodyear remitidas a un distribuidor local, 120 llantas de esta
marca estn un poco defectuosas. Si un motorista compra, al azar, 10 de estas
llantas, Cul es la probabilidad de que 4 de estas llantas estn un poco daadas?
Hacer este problema usando la distribucin hipergeomtrica y la binomial.
3.21. Un fabricante de aparatos de monitoreo ambiental (CO) contiende que solo el
10% de estos aparatos requieren de reparacin dentro del periodo de garanta de un
ao. Si se saca una muestra al azar de 10 de estos aparatos, entonces, siendo as,
calcular los siguientes enunciados:
(a) La probabilidad de que cuando menos 3 de los 10 aparatos requieran de
reparacin dentro del periodo de garanta. (0.0702)
(b) Si 5 de los 10 aparatos requirieron de reparacin en el primer ao, apoyara
esto o refutara la contencin del fabricante? Qu significado tiene la probabilidad
calculada, (en cuanto a la contencin del fabricante de que solo el 10% de los

3-49
Dr. Hctor Quevedo Uras

aparatos requieren de reparacin dentro de un ao), cuando la probabilidad de que


cualquiera de los aparatos requiera de reparacin en el periodo de garanta, es de
0.10? (El resultado es igual a 0.0016 y dado que la probabilidad es muy
pequea se rechaza la contencin del fabricante)
3.22. Este es un ejemplo terico de un problema de desnutricin, que sufriran
muchas personas enfermas, sin darse cuenta que estn desnutridas. Aqu, sin
embargo, el autor de este ejemplo se refiere a un tipo de nutricin defectuosa que
no est relacionado con la desnutricin tradicional debido a la falta de alimentos.
En este contexto, el autor se refiere a un tipo de desnutricin poco conocido por la
medicina tradicional (sino por la naturopata), como en el caso del cncer genrico,
en el cual la persona afectada est desnutrida, no por no comer, sino porque el
organismo no puede asimilar los alimentos, sin importar cuanto o como se coma.
(Esto tal vez se deba a que las personas que sufren de los sntomas del cncer
siempre estn cansadas). De acuerdo a la naturopata, esto ocurre como resultado
de la alteracin qumica de la sangre, ocasionado por vida antinatural. Siendo as,
en este ejemplo vamos a considerar un caso hipottico de desnutricin no
tradicional, relacionado con personas que sufren enfermedades genricas, y que en
este problema, este tipo de desnutricin es del 90%. Siendo as determinar las
probabilidades para los siguientes casos de desnutricin, para un tamao aleatorio
de 30 personas, si:
(a) Todas las personas enfermas tienen problemas de desnutricin.
(b) Cuando menos 27 personas enfermas estn desnutridas.
(c) Bajo estas condiciones ninguna persona est desnutrida.

3-50
Dr. Hctor Quevedo Uras

Sugerencia: Para resolver este problema, generar una tabla de probabilidades


acumuladas e individuales, puesto que los valores de n y de p, de este ejemplo, son
grandes, y no aparecen en las tablas binomiales dadas por los textos de estadstica.
3.23. Una encuesta a cierta universidad, de un pas del hemisferio norte hecha a 20
estudiantes del ltimo ao revela que, casi el 40% de esa poblacin de estudiantes
aprueba el consumo diario de la marihuana. Si se seleccionan al azar 10 de estos
estudiantes y se les pide su opinin al respecto, calcular lo siguiente:
(a) Cul es la probabilidad de qu, solamente, 3 de los estudiantes sean de esta
opinin? (0.24)
(b) Cul es la probabilidad de que cuando menos 1, pero menos de 3 estudiantes
sean de esta opinin? (0.075)

3-51
Dr. Hctor Quevedo Uras

CAPITULO 4

Distribucin de Poisson

Aplicaciones de la distribucin de Poisson.- Condiciones que se requieren para


aplicar la distribucin de Poisson.- Funciones probabilsticas de la funcin de
Poisson.- Aplicacin de la distribucin de Poisson dentro de sus propios
trminos y como una aproximacin a la distribucin binomial.- Propiedades
de la distribucin de Poisson.- Problemas de la distribucin de Poisson usando
el programa Minitab.

La distribucin Poisson es una distribucin de probabilidad discreta, porque se


forma contando algo. La distribucin de Poisson fue desarrollada por el francs
Simeon Denis Poisson, quin la describi en 1837.
La distribucin de Poisson se puede considerar como una lgica de
probabilidad deductiva, en forma anloga a la distribucin binomial, porque en el
clculo de las probabilidades se va del total a la parte. Esto es, porque siempre
conocemos la probabilidad del espacio muestral, la cual siempre es igual a 1 (el
total o conjunto).
La distribucin de Poisson tambin puede ser enfocada como una forma
limitante de la distribucin binomial, es decir, como una aproximacin de la
binomial, esto es, cuando los clculos binomiales son muy largos y tediosos. Pero,
ms importante todava, la distribucin de Poisson, tambin puede ser enfocada
dentro de sus propios trminos o derechos.
La distribucin de Poisson tiene aplicaciones a una gran variedad de
procesos fsicos; como resultado de esto, en la misma forma que la distribucin

4-1
Dr. Hctor Quevedo Uras

normal y la binomial, la distribucin de Poisson es una de las distribuciones ms


usadas. La distribucin de Poisson aplica a la ocurrencia de algn evento aleatorio
X, sobre un intervalo especificado, donde el intervalo puede ser tiempo, distancia,
rea, volumen, etc.
En cuanto a las diferencias entre la distribucin de Poisson y la distribucin
binomial, la distribucin binomial es afectada por el tamao de la muestra n y la
probabilidad p, mientras que, la distribucin de Poisson es afectada por el
promedio . Adems, la distribucin binomial tiene valores posibles de x = 0, 1, 2,
3,..., n, mientras que la Poisson tiene valores posibles de x = 0, 1, 2, 3,....ad
infinitum, es decir sin ningn lmite superior. La Figura 4.0 de abajo muestra la
distribucin de Poisson.

Figura 4.0. Grfica mostrando la distribucin de Poisson. (Elaboracin propia)

4-2
Dr. Hctor Quevedo Uras

Aplicaciones de la distribucin de Poisson

1. Las aplicaciones de la distribucin pueden ser enfocadas a estudiar el nmero de


txicos encontrados en un volumen de aire emitido por una industria
(contaminacin del aire). Otras aplicaciones son en la meteorologa, para encontrar
la frecuencia imprevista de tempestades, ciclones, tornados, granizadas,
inundaciones, fuegos forestales, etc., en ciertas regiones del mundo.
2. Tambin se usa en biologa para contar el nmero de bacterias en un plato de
prueba. Se usa tambin en la fsica para contar el nmero de partculas emitidas de
una sustancia radiactiva, como por ejemplo, cuando una sustancia radiactiva emite
partculas alfa, beta o gamma. Aqu las partculas son emitidas, al azar, sobre un
largo periodo de tiempo, y la ocurrencia de una emisin es independiente de otras
emisiones.
3. Igualmente, la distribucin Poisson se usa para el control estadstico de calidad o
para contar el nmero de tems defectuosos (cuando es difcil usar la distribucin
binomial).
4. Otras aplicaciones importantes de la distribucin de Poisson son para encontrar
el nmero de accidentes, entre los trabajadores, como por ejemplo, en una
industria, en estudios de higiene industrial y seguridad.
5. Adems, otras aplicaciones son las probabilidades de las demandas de un
producto y demandas de servicios. La distribucin de Poisson tambin se usa para
encontrar la probabilidad de que habr un nmero especfico de reclamos de
accidentes de autos, en una compaa de seguros durante un periodo de tiempo.
Esta distribucin es igualmente til para encontrar la probabilidad de un nmero
especfico de ocurrencias que toman lugar por un tiempo dado o en una regin
especfica.

4-3
Dr. Hctor Quevedo Uras

6. Anlogamente, un proceso de produccin continua, que fabrica un cierto objeto


en grandes cantidades, donde un objeto defectuoso ocurre, aleatoriamente, con
probabilidad pequea e independiente, tambin puede ser considerado un proceso
Poisson.
7. Los accidentes en una fbrica grande pueden ocurrir, al azar, con una pequea
probabilidad y ser independientes de cada uno de los otros sobre un tiempo
continuo, en cuyo caso, este proceso sigue a la distribucin Poisson. Adems, esta
distribucin aplica para encontrar el nmero de accidentes en un determinado
tramo carretero durante un periodo digamos de 3 meses.
8. Asimismo, la distribucin de Poisson se usa para saber el patrn de llegadas de
aviones a un aeropuerto; el nmero de defectos sobre la superficie de una mesa; el
nmero de errores de imprenta de un libro, etc.
Condiciones que se requieren para aplicar la distribucin de Poisson
1. Un experimento consiste en contar el nmero de veces de que un cierto evento
ocurra (x), durante una unidad de tiempo o espacio.
2. La probabilidad de que un evento ocurra es la misma para cada unidad de
tiempo o espacio.
3. El nmero de eventos que ocurran en una unidad de tiempo o espacio es
independiente del nmero de eventos que ocurren en las otras susodichas unidades.
4. Tericamente, un nmero infinito de ocurrencias del evento deben ser posibles
en el intervalo.
Funciones probabilsticas de la distribucin Poisson

Cuando la distribucin de Poisson es apropiada, la probabilidad de observar


exactamente x nmero de ocurrencias por unidad de medicin (horas, minutos,
centmetros cbicos, pginas, etc.), es decir, el nmero de resultados que ocurren

4-4
Dr. Hctor Quevedo Uras

en un intervalo de tiempo dado o en una regin especfica, se encuentra usando las


ecuaciones de abajo:
P(X) = f(x) = x e-/x! (4-1)

Donde:
= promedio de ocurrencias por intervalo
= np
Donde: n = tamao de la muestra
p = la probabilidad
e = 2.71828... (Base de los logaritmos Neperianos)
x = 0, 1, 2,....., , es decir, los valores de la variable aleatoria X, esto es, el nmero
de resultados que ocurren en un intervalo de tiempo.
De acuerdo a la frmula de arriba, la distribucin de Poisson tiene un solo
parmetro simbolizado por la letra griega . Si conocemos este valor del promedio
podemos escribir la distribucin de probabilidad completa. Este parmetro
puede ser interpretado como el promedio de las ocurrencias, por intervalo de
tiempo o espacio que caracteriza el proceso generado por la distribucin de
Poisson.
Otra manera de ver la distribucin de Poisson es usando la funcin dada
abajo:

()x e-
p(x;) = (4-2)
x!

Donde:

= np es una constante dada. Es el nmero promedio de

4-5
Dr. Hctor Quevedo Uras

resultados por unidad de tiempo o regin. Aqu, debido a que es positiva para
todos los posibles valores de X, entonces:

p(x; ) = 1, lo cual es la consecuencia del desarrollo de e en la serie infinita de


x=0

Maclaurin dada en todos los textos de clculo, la cual se expresa como:



e = 1 + + 2/2! + 3/3! + + = x/x! (4-2a)
x=0

Esta ecuacin demuestra que la funcin p(x;) satisface la segunda condicin


necesaria para especificar una funcin de probabilidad de masa (pmf).
= np la cual se puede interpretar como el nmero promedio de xitos por el
tamao de la muestra n.
e = 2.71828...
x = nmero de resultados que ocurren en un intervalo de tiempo (0, 1, 2, 3....ad
infinitum)
Aplicacin de la distribucin de Poisson dentro de sus propios trminos y
como una aproximacin a la distribucin binomial
Como se mencion al principio, la distribucin de Poisson puede explicarse desde
dos ngulos: dentro de sus propios derechos y como una aproximacin de la
distribucin bionomial. Esto ocurre, porque muchas veces si se aplica la
distribucin binomial a ciertos problemas, los clculos son muy extensos, en cuyo
caso se puede aplicar la distribucin de Poisson, la cual da los mismos resultados,
pero mucho ms fcil de calcularlos. Por ejemplo, cuando la distribucin de
Poisson se usa como una aproximacin a la distribucin binomial, esto es
aplicable, cuando n es grande y la probabilidad, p es pequea. (Recordando qu,
con la distribucin binomial, la distribucin de Poisson se usa como una
aproximacin a la distribucin normal cuando n es grande y cuando p o q estn

4-6
Dr. Hctor Quevedo Uras

cercanas a 0). La aproximacin de la distribucin de Poisson a la distribucin


binomial es apropiada cuando p 0.05 y n 20. En verdad, el porcentaje de error
de los resultados obtenidos usando la distribucin de Poisson, como una
aproximacin a la distribucin binomial, es de 1 en 270 o cerca de 0.4%. La
TABLA 1.0 muestra las comparaciones de la distribucin binomial y la Poisson.
TABLA 1.0. Tabla mostrando las comparaciones de resultados de ejemplos
aleatorios usando la distribucin binomial y la distribucin de Poisson.
(Elaboracin propia)
__________________________________________________________________
Distribucin Binomial Distribucin Poisson

P(X 1) = 1 F(0) P(X 1) = 1 F(0)


= 1 0.1216 = 0.8784 = 1 0.135 = 0.865
P(X 2) = F(2) = 0.6769 P(X 2) = F(2) = 0.677
P(X 3) = 1 F(2) P(X 3) = 1 F(2)
= 1 0.6769 = 1 0.677
= 0.3231 = 0.323

Por otra parte, cuando la distribucin de Poisson es explicada dentro de sus


propios mritos, esta distribucin resulta de las ocurrencias que pueden ser
descritas por una variable aleatoria discreta. Esta variable denotada por X, puede
tomar valores de x = 0, 1, 2, ... (Donde los puntos suspensivos denotan ad
infinitum), esto, en contraste con la distribucin binomial donde los valores de x
son de 0, 1, 2, 3,...., n.
Ejemplos de la aplicacin de la distribucin de Poisson dentro de sus propios
trminos o derechos y como aproximacin a la distribucin binomial
Ejemplo #1. Asmase que una distribucin de Poisson se da por la funcin de
abajo:

4-7
Dr. Hctor Quevedo Uras

p(x) = [(0.72)x e-0.72] / x!


Encontrar:
(a) p(0)
(b) p(1)
(c) p(2)
(d) p(3)
Solucin:
(a) p(0) = [(0.72)0 e-0.72] / 0! = 0.4868
(b) p(1) = [(.72)1 e-0.72] / 1! = 0.3505
(c) p(2) = [(.72)2 e-0.72] / 2! = 0.1262
(d) p(3) = [(0.72)3 (0.4868] / 3! = 0.030
Ejemplo #2. Un estudio de higiene industrial y seguridad hecho a largo plazo de
los accidentes en una fbrica, llev a la gerencia a concluir que el nmero de
accidentes por trabajador, durante un ao (X) sigue a una distribucin Poisson. Si
el nmero promedio de accidentes por trabajador por ao fue de 0.3, estimar lo
siguiente:
(a) Cul es la probabilidad de que un trabajador seleccionado, aleatoriamente, no
tendr un accidente durante el ao siguiente?
(b) Cul es la probabilidad de que un empleado seleccionado, aleatoriamente,
tendr cuando menos 1 accidente durante el siguiente ao?
(c) Cul es la probabilidad de que un trabajador tendr, exactamente, 1 accidente?
(d) Cul es la probabilidad de que un trabajador seleccionado al azar de la fbrica
tendr entre 2 y 4 accidentes, inclusivamente, el prximo ao?
Solucin:
Este problema se puede resolver usando la ecuacin de Poisson y tambin usando

4-8
Dr. Hctor Quevedo Uras

la tabla de la distribucin Poisson.


Aqu, = 0.3, X = 0
Usando la ecuacin (4-2), p(x;) = x e- / x! y sustituyendo valores da:
(a) p(X) = P(X = 0) = (0.3)0 e-0.3 / 0! = 0.741
Esto dice que, el ao siguiente, de cada 100 trabajadores, 74 no tendrn ningn
accidente y 26 si lo pudieran tener.
Como se dijo anteriormente, este problema tambin se puede resolver
usando la tabla de la distribucin de Poisson. Para esto, buscamos en la tabla de
probabilidades acumuladas o individuales con = 0.3 y con x = 0 y da .740
(b) La probabilidad de que un trabajador tenga cuando menos un accidente se
puede hacer usando las tablas de Poisson.
P(X 1) = 1 - P(X = 0) = 1 - 0.741 = 0.259
(c) La probabilidad de que, el trabajador tenga exactamente, un accidente se puede
hacer usando la frmula o las tablas de probabilidades individuales o acumuladas.
Usando la frmula da (4-1), P(X) = f (x) = x e- / x!, con = 0.3 y X = 1
f(1) = (0.3)1 e-0.3/1!
= 0.2222
Usando la tabla de la distribucin de Poisson de probabilidades individuales nos a:
P(X = 1) = P(X 1) - P(X = 0) = 0.963 - 0.741 = 0.222
(d) La probabilidad de que un trabajador tenga entre 2 y 4 accidentes, incluso, es:
P(2 X 4) = P(2) + p(3) + P(4)
= 0.0333 + .0033 + 0.0002
= 0.0368 (usando las probabilidades individuales
de la distribucin de Poisson)

Ejemplo #3. Para este problema usar la distribucin de Poisson y la binomial.

4-9
Dr. Hctor Quevedo Uras

Siendo as, si el nmero de defectos, por pie cuadrado de la tela de un equipo de


control (filtros) manufacturado por cierta industria sigue a un proceso Poisson, con
= 0.08, entonces, si un pie cuadrado de la tela es inspeccionado de una muestra
aleatoria de 50, cul es la probabilidad de que el nmero de defectos observados
sea?:
(a) Ningn defecto
(b) Cuando menos 1 defecto
(c) Exactamente, 2 defectos
Solucin:
Primeramente, vamos a usar la distribucin de Poisson, como una aproximacin a
la binomial.
(a) Probabilidad de ningn defecto.
Usando la frmula (4-2), con = = .08:
P(X = 0) = x e- / x!
= (.08)0 (e-.08) / 0!
= .923
Alternativamente, podemos sacar el mismo resultado usando la tabla de Poisson
acumulada. Esto se hace buscando el valor de = .08 con X = 0 y da .923
(b) Cuando menos un defecto. Aqu, usando, nuevamente, la frmula (4-2) de
Poisson con = .08 y substituyendo da:
P(X 1) = 1 P(X = 0) = 1 - .923 = .077
(c) Exactamente 2 defectos.
P(X = 2) = (.08)2 e-.08 / 2!
= (0.0064) (0.92) / 2
= 0.00295

4-10
Dr. Hctor Quevedo Uras

Ahora, bien, si se usar la distribucin binomial, esto sera largo y tedioso, porque
n es grande. Sin embargo, para usar la relacin b(x;n,p) = n!/x!(n x)! px qn-x,
necesitamos calcular el valor p, es decir, usando = = np. Con = .08 y n = 50
da: .08 = (50)(p) y p = .0016 ~ .002.
(a) Usando la frmula binomial b(x;n,p) = n!/x!(n x)! px qn-x y sustituyendo los
valores da:
b(x;50,.08) = 50!/x!(50 0)! (.002)x (.998)50-x
B(0;50,.08) = 50!/0!(50 0)! (.002)0 (.998)50-0
= (1) (1) (0.905) = 0.905
B(1;50,.08) = 50!/1!(50 1)! (.002)1 (0.998)50-1
= 49(.002)(0.907) = .098
B(2;50,0.08) = 50!/2!(50 2)! (.002)2 (.998)50-2
= 1225 (.000004)(0.908) = 0.0045
(b) Cuando menos un defecto es:
P(X 1) = 1 P(X = 0) = 1 - 0.905
= 0.095
(c) Exactamente, 2 defectos.
Esto nos lleva a P(X = 2) = B(2;50,0.08)
= 50C2(.002)2(.998)50-2
= (1225) (.000004)(0.91)
= 0.0045
Como se ve arriba, al usar la distribucin binomial, el proceso es largo y
complicado, por lo que es mejor usar la distribucin de Poisson como una
aproximacin a la binomial. En este instante, el lector deber usar la distribucin
Poisson y comparar los resultados obtenidos.

4-11
Dr. Hctor Quevedo Uras

Ejemplo #4. En un estudio de higiene industrial y seguridad, una poblacin de


trabajadores de un grupo de industrias que manejan procesos, donde hay ruido, el
5% sufren de problemas emocionales que interfieren con su trabajo. Si se saca una
muestra aleatoria de 60 trabajadores, Cul es la probabilidad del nmero de
trabajadores, quienes sufren disturbios emocionales? Hacer este problema con la
distribucin binomial y, luego, con la distribucin Poisson como una aproximacin
a la binomial, y comparar resultados.
(a) Ms de 2 trabajadores sufran de disturbios emocionales
(b) Cuando menos 4
(c) 5 o ms
Solucin:
Usando la distribucin binomial con p = .05, n = 60, X > 2
b(x;60,.05) = 60Cx (.05)x (.95)60-x
B(0;60,.05) = 60C0 (.05)0 (.95)60-0
= (1) (1) (0.046)
= 0.0461
B(1;60,.05) = 60C1 (.05)1 (.95)60-1
= 60 (.05)(0.049)
= 0.1455
B(2;60,.05) = 60C2 (.05)2 (0.95)60-2
= (60)(59)/2 (.0025)(0.051)
= 0.2259
B(3;60,.05) = 60C3 (.05)3 (.95)60-3
= (60)(59)(58)/6 (.00013)(.053)
= 0.2298

4-12
Dr. Hctor Quevedo Uras

B(4;60,.05) = 60C4 (.05)4 (.95)60-4


= (60)(59)(58)(57)/24 (.0000063)(0.057)
= 0.1724
Ntese que todos estos valores tambin se pueden sacar usando la tabla de Poisson
de probabilidades individuales, es decir, buscando = 0.05 y X = 0, 1, 2, 3, 4.
(a) Ms de dos trabajadores sufran de disturbios emocionales
P(X > 2) = 1 P(X 2) = 1 P(0) + P(1) + P(2)
= 1 (0.0461 + 0.1455 + 0.2259)
= 0.5825
(b) Cuando menos 4 dice:
P(X 4) = 1 P(X < 4) = 1 P(0) + P(1) + P(2) + P(3)
= 1 - .6535
= 0.3465
(c) 5 o ms dice:

P(X 5) = 1 P(X 4) = 1 P(0) + P(1) + P(2) + P(3) + P(4)


= 1 - .8285
= 0.1715

Ahora, usando la distribucin de Poisson dentro de sus propios derechos


necesitamos calcular , es decir, = np = (60)(.05) = 3.0, pero primero vamos a
calcular las probabilidades para x = 0, 1, 2, 3, 4 antes de calcular el inciso (a).

Usando la funcin (4-1), P(X) = f(x) = x e-/x! y sustituyendo los valores da:

P(X = 0) = 3.00 (e-3.0) / 0! = 0.0498

P(X = 1) = 3.01.0 (0.0498)/1! = 0.1494

P(X = 2) = 3.02.0 (0.0498)/2! = 0.2240

4-13
Dr. Hctor Quevedo Uras

P(X = 3) = 3.03.0 (0.0498)/3! = 0.2240

P(X = 4) = 3.04.0 (0.0498)/4! = 0.1680

(a) Ms de 2 trabajadores sufran disturbios emocionales


P(x) = P(X > 2) = 1 P(X 2) = 1 P(x = 0, 1, 2)
= 1 0.423
= 0.5770
(b) Cuando menos 4 trabajadores
P(X 4) = 1 P(X 3) = 1 0.6472
= 0.3528
(c) 5 o ms trabajadores
P(X 5) = 1 P(X 4) = 1 0.8152
= 0.1848
Ejemplo #5. De los tems producidos por una factora, el 3% estn defectuosos.
Una muestra de 25 tems se selecciona para una inspeccin. Usar la distribucin
binomial y la Poisson y comparar los resultados de los siguientes:
(a) Exactamente 4 tems estarn defectuosos
(b) 3 o ms objetos estarn defectuosos
Solucin:
Usando la distribucin binomial:
(a) 0.0054
(b) 0.038
Usando la distribucin de Poisson:
(a) 0.006
(b) 0.041

4-14
Dr. Hctor Quevedo Uras

Ejemplo #6. Un promedio de 3 autos arriban a la caseta de cobro de una carretera


cada minuto. Si esta tasa es aproximada por un proceso Poisson, cul es la
probabilidad de qu, exactamente, 5 autos arribarn en un periodo de un minuto?
Solucin:
Aqu, = = 3, x = 5
Usando la ecuacin f(x) = x e- / x! y sustituyendo los valores obtenemos:
P(X = 5) = (3)5 (e)-3 / 5! = [(243)(.0498)] / 120 = .1008
El valor de .1008 es la probabilidad de que 5 autos arriben en un minuto
Ntese que este problema tambin se puede resolver usando la tabla de
probabilidades de Poisson, es decir, para valores especficos de y de x que dan
una solucin ms fcil y precisa. Para esto, buscamos el valor de = 3 con x = 5 y
da 0.9161, pero como la tabla da las sumatorias acumuladas, le restamos 1. Por lo
tanto, P(X = 5) = 1 - 0.9161 = .08 ~ .1 (Ver tabla de valores selectos de la
distribucin acumulada de Poisson)
Ejemplo #7. El 10% de las herramientas producidas en cierto proceso de
manufactura son defectuosas. Encontrar la probabilidad de qu, en una muestra de
10 herramientas seleccionadas, aleatoriamente, exactamente, 2 herramientas sean
defectuosas. Hacer esto usando:
(a) La distribucin de Poisson
(b) La distribucin binomial.
Solucin:
Aqu ponemos n = 10 herramientas. Entonces, probabilidad de una herramienta
defectuosa es, p = 10% = 0.10 y np = (10)(0.10) = 1.0, x = 2
(a) Usando la ecuacin de Poisson:
p(x) = (x e-) / x! o bien P(x) = x e- / x!

4-15
Dr. Hctor Quevedo Uras

Donde: p = 0.1, = np = (10)(0.1) = 1.0


Pr{de 2 herramientas defectuosas en 10} = (1.0)2 (e-1) / 2!
= 1/2e = 0.1839
(b) Usando la ecuacin de Bernoulli
P(X = 2) = nCx px qn-x
Donde: n = 10
X=2
p = 0.1
q = 1 - p = 1 - 0.1 = 0.9
P(X = 2) = 10C2 (0.1)2 (0.9)10-2 = 10! / [2!(10-2)!] = 0.19
Ejemplo #8. En este problema aplicar la funcin estadstica ms apropiada. Siendo
as, si el 3.0% de los focos elctricos manufacturados por una compaa estn
defectuosos, entonces, encontrar la probabilidad de qu, en una muestra de 100
focos:
(a) Ningn foco est defectuoso
(b) 1 foco est defectuoso
(c) 2 focos estn defectuosos
(d) 3 focos estn defectuosos
(e) 4 focos estn defectuosos
(f) 5 focos estn defectuosos
Solucin:
Aqu es ms apropiado usar la distribucin de Poisson, porque n es grande. Siendo
as, p = 0.03, n = 100, = np = (100)(0.03) = 3.0, x = 0, 1, 2, 3, 4, 5
(a) Usando la frmula Poisson p(x,) = x e- / x!, con e-3 = 0.04979
p(x,) = x e- / x!

4-16
Dr. Hctor Quevedo Uras

p(0,3) = (3.0)0 (e)-3.0 / 0! = (1)( 0.04979) = 0.04979


(b) P(1,3) = (3)1 (e)-3.0 / 1! = (3)(0.04979)/1 = 0.1494
(c) P(2,3) = (3)2 (e)-3.0 / 2! = (9)(0.04979) / 2 = 0.44811
(d) P(3,3) = (3)3 (e)-3.0 / 3! = (27)(0.04979) / 6 = 0.2241
(e) P(4,3) = (3)4 (e)-3.0 / 4! = (81)(0.04979) / 24 = 0.1680
(f) P(5,3) = (3)5 (e)-3.0 / 5! = (243)(0.04979) / 120 = 0.1008
Propiedades de la distribucin de Poisson
TABLA 4.1. Tabla mostrando algunas propiedades de la distribucin de Poisson.
________________________________________________________________
Promedio =
Varianza 2 =
Desviacin estndar =
Momento del coeficiente del sesgo 3 = 1/
Momento del coeficiente de kurtosis 4 = 3 + 1/
________________________________________________________________
(Fuente: Spiegel, 1961)

Ejemplo #9. La probabilidad de que una persona muera de un arresto cardiaco, por
fumar en exceso, es de 0.002. Encontrar la probabilidad de que menos de 5
personas, de las siguientes 2,000, morirn de un sntoma del corazn. Encontrar,
tambin, el promedio y la varianza.
Solucin:
Primero calculamos el promedio y la varianza. Las frmulas para esto son:
= np = (2000)(0.002) = 4.0
2 = npq = (2,000)(0.002)(0.998) = 3.992

4-17
Dr. Hctor Quevedo Uras

Usando la tabla de Poisson y siguiendo este razonamiento da:


P(X < 5) = P(X 4)
= 0.6288 (de la tabla de Poisson)
Ejemplos ilustrando como graficar los datos de la variable aleatoria X
Ejemplo #10. Supngase que en un estudio de contaminacin ambiental se instala
una red de 3,840 sensores de alto volumen para medir las concentraciones de
partculas atmosfricas, menores que 10 micras. Si la probabilidad de que
cualesquiera de estos muestreadores falle es de .00083 durante un ao, entonces,
determinar las probabilidades de que 0, 1, 2, 3, 4, de los muestreadores fallen
durante el ao en cuestin. Hacer una grfica usando papel semilogaritmo.
Solucin:
Aqu se pudiera usar la distribucin binomial, porque habla de una situacin
binaria, es decir, fallar o no fallar. Sin embargo, debido a que n es muy grande y p
es pequea, la distribucin Poisson es aplicable. Siendo as, primero calculamos el
valor de .
= np = (3840)(0.00083) = 3.2
Enseguida, establecemos nuestro punto de partida con la variable aleatoria X, como
variable independiente.
f(x) = p(x;3.2) = (3.2)x e-3.2 / x!
Luego sustituimos los valores de la variable aleatoria X en la frmula de arriba
p(0;3.2) = 3.20 (0.041)/0! = 0.041
p(1;3.2) = 3.21 (0.041)/1! = 0.130
p(2;3.2) = 3.22 (0.041)/2! = 0.209
p(3;3.2) = 3.23 (0.041)/3! = 0.223
p(4;3.2) = 3.24 (0.041)/4! = 0.178

4-18
Dr. Hctor Quevedo Uras

p(5;3.2) = 3.25 (0.041)/5! = 0.114


p(6;3.2) = 3.26 (0.041)/6! = 0.061
p(7;3.2) = 3.27 (0.041)/7! = 0.028
p(8;3.2) = 3.28 (0.041)/8! = 0.011
p(9;3.2) = 3.29 (0.041)/9! = 0.00397
p(10;3.2) = 3.210 (0.041)/10! = 0.0013
Para graficar los datos de la variable aleatoria X (abscisa) y de la
probabilidad f(x) = p(x;) (ordenada), se usa papel semilogartmico. Por ejemplo,
la Figura 4.1 muestra el uso de papel semilogartmico usado para graficar los
valores de la variable aleatoria X (en la abscisa) y de la probabilidad f(x) = p(x;).
La grfica con estos valores se muestra abajo. De la Figura 4.1 estimar las
siguientes probabilidades. (El estudiante lo deber hacer).
(a) La probabilidad de que fallen (inclusivamente), entre 3 y 9 muestreadores
(b) La probabilidad de que fallen ms de 8 muestreadores
(c) La probabilidad de que fallen (exclusivamente), entre 4 y 6 muestreadores
(d) La probabilidad de que fallen ms de 10 muestreadores
(e) La probabilidad de que fallen todos los muestreadores
(f) La probabilidad de que no falle ningn muestreador

4-19
Dr. Hctor Quevedo Uras

Figura 4.1. Figura mostrando el uso del papel semilogaritmo graficando los valores
de la variable aleatoria X (en la abscisa) y de p(x;) en la ordenada. (Elaboracin
propia)

4-20
Dr. Hctor Quevedo Uras

Problemas de la distribucin de Poisson usando el programa de computadora


Minitab

Ejemplo #11.Supngase que el nmero X de huracanes observados en la regin del


Caribe, durante los ltimos 3 aos tiene una distribucin de Poisson con un
promedio de = = 8. Calcular las siguientes probabilidades:
(a) La probabilidad de que ocurran a lo ms 8 huracanes.
(b) La probabilidad de que ocurran exactamente 8 huracanes.
(c) La probabilidad de que ocurran cuando menos 9 huracanes.
(d) La probabilidad de que ocurran entre 5 y 8 huracanes incluso.
(e) La probabilidad de que ocurran entre 5 y 8 huracanes excluso.
(f) La probabilidad de que ocurran a lo ms 8 huracanes, pero ms de 5.
(g) La probabilidad de que ocurran ms de 2 huracanes.
(h) Hacer grficas de P(X = x) y P(X x) en funcin de x.
Solucion:
Procedimiento: Primeramente, usando el programa Minitab buscamos las
ventanillas sealadas abajo, es decir procediendo como:
Calc > Probability distribution > Poisson..
En la ventana de Poisson distribution para la primera corrida punteamos en
Probabability y, para la segunda corrida ponemos el punto en Cummulative
Probability. En la ventana de Mean ponemos el valor del promedio o igual a
8. En la ventana de Input column ponemos C1 (los valores de la variable
aleatoria x = 0, 1, 2,...n). Aqu, es conveniente instruir al programa de que ponga
los valores de las probabilidades de funcin de masa (probabilidades individuales
P(X = x) en la columna C2. Asimismo, se instruye al programa que ponga las
probabilidades acumuladas P(X x) en la columna C3. Una vez, que se corre el

4-21
Dr. Hctor Quevedo Uras

programa, se genera la tabla de abajo que muestra los resultados.

TABLA 4.2. Tabla mostrando la variable aleatoria x en funcin de la probabilidad,


P(X=x) y de la probabilidad acumulada, P(X x).
Solucin:
(a) P(X 8). Aqu, este problema se puede hacer de dos maneras. Primero, se
puede hacer sumando las probabilidades de funcin de masa P(X = x), es decir, de
P(X = 0) hasta P(X = 8) de los valores de la columna C2 de la tabla. No obstante,
este procedimiento es muy largo e imprctico. Sin embargo, si usamos las
probabilidades acumuladas de la columna C3 o de la Figura 4.3, el resultado es
precisamente 0.59255.
(b) P(X = 8). Este clculo lo hacemos leyendo x = 8 en la columna C2 de la tabla y
da 0.1396.
(c) P(X 9). Este clculo se hace tomando el complemento. Es decir,
P(X 9) = 1 P(X < 9) = 1 0.5925 = 0.4075.
(d) P(5 X 8) = 0.492
(e) P(5 < X < 8) = 0.251

4-22
Dr. Hctor Quevedo Uras

(f) P(5 < X 8) = P(X = 6) + P(X = 7) + P(X = 8) = 0.3159 (de C2)


(g) 1 P(X 2) = 0.9863
(h) Ver Figura 4.2 de abajo. Para esto, usar Graph > plot. En la ventana de Graph
variables poner C3 en Y y C1 en X. En Edit attributable poner dash y, luego,
dash en Line type, etc.

S c a tte r plot of P (X = x) v s X

0.14

0.12

0.10

0.08
P(X=x)

0.06

0.04

0.02

0.00

0 2 4 6 8 10 12 14 16
X

Figura 4.2. Grfica mostrando la probabilidad, P(X = x) en funcin de la variable


aleatoria x.

Scatterplot of P(X<=x) vs X

1.0

0.8

0.6
P(X<=x)

0.4

0.2

0.0

0 2 4 6 8 10 12 14 16
X

Figura 4.3. Grfica mostrando la probabilidad acumulada, P(x X) en funcin de


la variable aleatoria x.

4-23
Dr. Hctor Quevedo Uras

Ejercicios Captulo 4
4.1. Supngase que X tiene una distribucin Poisson con promedio de 4. Calcular
las siguientes probabilidades:
a. P(X = 0) (0.0183)
b. P(X 2) (0.2379)
c. P(X = 4) (0.1953)
d. P(X = 8) (0.1953)
e. P(X 2) (0.9987)
4.2. Si la probabilidad de que un cheque sea devuelto por el banco es de 0.0003 y
10,500 cheques se cambian, entonces, cul es el nmero promedio ( o ) de
cheques fraudulentos?
4.3. La probabilidad de que un individuo sufra de una mala reaccin de una
inyeccin es de .001. Determinar la probabilidad que de 2,000 individuos,
exactamente 3 sufran una mala reaccin. Hacer este problema usando la
distribucin binomial y la Poisson. (Usando la distribucin de Poisson = 0.1893;
usando la distribucin binomial = 0.181)
4.4. El nmero promedio (t) de partculas radiactivas que pasan a travs de un
contador, durante un milisegundo, en un experimento de laboratorio es de 3. Cul
es la probabilidad de que entren 6 partculas en un milisegundo determinado?
Sugerencia: usar p(x;t) = e-t (t)x/x!
4.5. Un estudio en una fbrica de aparatos electrnicos llev al gerente a concluir
que el nmero de accidentes, por persona, durante cierto ao sigue a la distribucin
Poisson. La experiencia demostr que el nmero promedio de accidentes por
persona fue de 0.3. Cul es la probabilidad de que un empleado no tendr un
accidente durante el siguiente ao? (0.7410)

4-24
Dr. Hctor Quevedo Uras

4.6. Con referencia al problema 4.5, Cul es la probabilidad de que, un empleado


seleccionado, aleatoriamente, tendr cuando menos 1 accidente (X 1) en el
siguiente ao?
4.7. Refirindose al problema 4.5:
(a) Cual es la probabilidad de que un empleado tendr, exactamente, un
accidente? (0.2270)
(b) Estimar la probabilidad de que un empleado tendr a lo ms un accidente.
4.8. Asumir que el nmero de autos que arriban a la caseta de cierta autopista sigue
a una distribucin de Poisson. Si el nmero promedio de autos que arriban en 1
hora es de 6, cul es la probabilidad de que en 1 hora dada, no llegue ningn auto?
4.9. Refirindose al problema anterior, Cul es la probabilidad de que,
exactamente, 5 carros lleguen en 1 hora? (0.1760)
4.10. Refirindose al problema anterior, Cual es la probabilidad de que ms de 5
carros (X > 5) arriben en 1 hora?
4.11. En un estudio de contaminacin del aire, en las terminales camiones de carga,
se sabe que el nmero promedio de camiones que llegan diariamente, a una
terminal de camiones de carga es de 3. Para que los complejos habitacionales no se
contaminen con los humos de los camiones, se restringe el nmero de camiones
que arriban y se establece un lmite de no ms de 8 por da. Hacer una grfica con
los resultados y calcular lo siguiente:
(a) La probabilidad de que se les niegue la entrada a los camiones cuando el
nmero exceda 8. (0.39)
(b) La probabilidad de que arriben entre 2 y 4 camiones, incluso. (.0012)
(c) La probabilidad de que no arribe ningn camin. (0.050)
(d) P(X = 0, 1, 2, 3,....., ) (1.000)

4-25
Dr. Hctor Quevedo Uras

(e) Asumiendo que este estudio se hiciera en la poca calurosa, cul sera la
diferencia en los resultados, si el estudio se hiciera en invierno: aumentara o
disminuira la probabilidad?
4.12. Suponiendo que la probabilidad de que cierto tipo de semilla no germine sea
de .04. Si se plantan 25 semillas, Cul es la probabilidad de que 5 o menos
semillas no germinen?
4.13. Asumir que el nmero de autobuses que llegan a una terminal siga a un
proceso Poisson. Si el promedio de autobuses que llegan durante una hora es de 5,
calcular los siguientes enunciados:
(a) La probabilidad de que en 1 hora dada no llegue ningn autobs. (0.007)
(b) La probabilidad de que exactamente 5 llegarn en 1 hora. (0.176)
(c) La probabilidad de qu ms de 5 autobuses llegarn en una hora. (0.384)
4.14. El nmero promedio de carros tanque que arriban cada da a cierto puerto
martimo es de 9. Las facilidades portuarias pueden manejar a lo ms 15 carros
tanques (X 15) por da. Cul es la probabilidad de que en un da dado tengan
que ser regresado los carros tanques cuando el nmero exceda 15?
4.15. En la manufactura de un alambre de cobre, supngase que el nmero de fallas
sigue a una distribucin Poisson, con un promedio de 2.3 fallas por milmetro.
Calcular la probabilidad de:
(a) Tener exactamente 2 fallas en un milmetro del alambre de cobre. (0.2650)
(b) Tener 10 fallas en cinco milmetros de alambre. (0.113)
(c) La probabilidad de tener al menos una falla en dos milmetros. (.899)
4.16. En un estudio de higiene industrial y seguridad estatal, el nmero de baches
en una seccin de una carretera interestatal que requieren de reparacin urgente,

4-26
Dr. Hctor Quevedo Uras

para evitar accidentes, puede modelarse con una distribucin Poisson. Si la


carretera tiene un promedio de 2 baches por milla, entonces:
(a) Cul es la probabilidad de que no haya baches que reparar en un tramo de 5
millas?
(b) Cul es la probabilidad de que sea necesario reparar al menos 1 bache en un
tramo de media milla?
4.17. La probabilidad de que un paciente se recupere de una rara enfermedad es de
0.4. Si se sabe que 15 personas han contrado la enfermedad y asumiendo una
distribucin binomial, Cul es la probabilidad de que?:
(a) Cuando menos 10 pacientes sobrevivan P(X 10). (0.3380)
(b) De 3 a 8 pacientes sobrevivan P(3 X 8)
(c) Exactamente 5 pacientes sobrevivan P(X = 5) (0.1859)
4.18. Si el nmero de llamadas telefnicas que un operador recibe en un intervalo
de 10 minutos sigue a una distribucin Poisson, con = = 1 (un promedio de de
una llamada cada 10 minutos). (Pfaffenberger, et al. 1987). Hacer lo siguiente:
(a) Cul es la probabilidad de que la operadora no recibir ninguna llamada en el
intervalo de 10 minutos?
(b) Cul es la probabilidad de que recibir menos de 4 llamadas?
(c) Cul es el nmero ms probable de llamadas que la operadora recibir?
4.19. Suponiendo que tenemos un proceso de produccin de equipo de control de
ciclones que deben de tener una eficiencia de recoleccin del 75% y sabemos que
la probabilidad de que no cumplan con esta eficiencia es de p = 0.01. Una muestra
aleatoria de 100 ciclones se selecciona. Cul es la probabilidad de que haya n
ciclones que no cumplan con el 75% de eficiencia en esta muestra? Usar la
distribucin binomial y la distribucin de Poisson como una aproximacin. Hacer

4-27
Dr. Hctor Quevedo Uras

una tabla con los resultados de las dos distribuciones y luego hacer una grafica y
comparar los resultados.
Tabla mostrando los resultados usando la distribucin binomial y la distribucin de
Poisson. (Elaboracin propia)
Distribucin binomial Distribucin de Poisson
n b(x;100,0.01) p(x;1)
0 0.366 0.032 0.367 0.879
1 0.369 0.730 0.367 0.879
2 0.184 0.865 0.183 0.940
3 0.060 0.999 0.061 0.313
4 0.014 0.942 0.015 0.328
5 0.002 0.898 0.003 0.066
6 0.000 0.463 0.000 0.511
7 0.000 0.063 0.000 0.073
8 0.000 0.007 0.000 0.009
9 0.000 0.001 0.000 0.001

4.20. Considrese la produccin de hacer cojinetes de rodamiento (elementos que


sirven para soportar y guiar un eje o rbol de transmisin del vehiculo), si la
probabilidad de uno de stos, de ser defectuoso, es de 0.01. Si tenemos una
muestra de 1000 cojinetes, calcular la probabilidad que haya: (Taro Yamane, 1961)
(a) x cojinetes defectuosos
(b) 4 cojinetes defectuosos
(c) cuando menos 3 cojinetes defectuosos.
4.21. El peridico USA Today (noviembre 15, 1993), report que Parkfield,
California, est considerada como la capital del mundo, en cuanto a temblores de
tierra debido a que est situada encima de la falla de San Andrs. Desde 1857,
Parkfield ha tenido temblores de tierra con un promedio de uno cada 22 aos.
(Brase, et al. 1995).

4-28
Dr. Hctor Quevedo Uras

(a) Explicar porque la distribucin de Poisson sera una buena seleccin para r =
nmero de terremotos en un intervalo de tiempo dado
(b) Calcular la probabilidad de que cuando menos un terremoto, de grandes
magnitudes, ocurra en los siguientes 22 aos. Redondear a las centsimas. (.63)
(c) Calcular la probabilidad de que no habr un terremoto de grandes magnitudes
en los siguientes 22 aos. Redondear a las centsimas. (0.37)
(d) Calcular la probabilidad de que ocurra cuando menos un gran terremoto en los
siguientes 50 aos. (1.0)
(e) Calcular la probabilidad de que no ocurra un gran terremoto dentro los
siguientes 50 aos. (0.980)
4.22. En un estudio de higiene industrial y seguridad se sabe que el nmero de
accidentes que pasan en la lnea de ensamblaje tiene un promedio semanal de 3.
Encontrar lo siguiente:
(a) La probabilidad de que una semana, la lnea de ensamblaje no tendr ningn
accidente.
(b) La probabilidad de que, cuando menos 3 accidentes ocurrirn en una semana.
(c) La probabilidad de que ocurran entre 2 y 6 accidentes excluso.
4.23. En una investigacin relacionada con el ahorro de combustible, en el 40% de
los coches no americanos de 4 cilindros, el consumo de gasolina se reduce
considerablemente (con relacin a los coches americanos de 6 u 8 cilindros). Si se
saca una muestra aleatoria de 15 coches de 4 cilindros, calcular la probabilidad que
4 de estos autos de 4 cilindros sean eficientes en el ahorro de gasolina. Hacer este
problema usando la distribucin binomial y la distribucin normal como
aproximacin. (B(4;15,0.04) = 0.1268); P(Z < -.7))

4-29
Dr. Hctor Quevedo Uras

4.24. En un estudio de higiene industrial y seguridad, es decir, en una fbrica de


ensamblamientos de carburadores en la fabricacin de autos, el nmero de
accidentes en esta planta de ensambles tiene un promedio de 5.0 accidentes por
mes. Siendo as, estimar los siguientes enunciados:
(a) Cul es la probabilidad de que ocurran 10 accidentes en un mes dado?
(b) Cul es la probabilidad de que ocurran cuando menos 2 accidentes?
(c) Cul es la probabilidad de que no habrn ms de 25 accidentes en un ao?
4.25. Usando los datos de la tabla de Molina de abajo, para varios valores de X y
de mostrar qu, a medida que el valor de (o ) aumenta, las distribuciones de
Poisson se aproximan a la distribucin normal. Para esto, hacer una grfica
sobrepuesta usando los valores de la tabla de Molina dada abajo.
Tabla de Molina mostrando los datos de este problema.
__________________________________________________________________
Variable aleatoria X Valores de Lambda ()
__________________________________
0.8 1.0 2.0 3.0 7.0
__________________________________________________________________
0 0.45 0.37 0.14 0.05 0.00
1 0.36 0.37 0.27 0.15 0.01
2 0.14 0.18 0.27 0.22 0.02
3 0.04 0.06 0.18 0.22 0.05
4 0.01 0.02 0.09 0.17 0.10
5 0.04 0.10 0.13
6 0.01 0.05 0.15
7 0.02 0.15
8 0.01 0.15
9 0.10
10 0.07
11 0.05
12 0.03
13 0.01
14 0.01
15 0.00
___________________________________________________________________
Fuente: Taro Yamane. Statistics, An Introductory Analysis (1964)

4-30
Dr. Hctor Quevedo Uras

CAPITULO 5

Distribuciones de probabilidad continua.- Funcin de densidad de probabilidad


de la variable aleatoria continua X.- Frmula fundamental del clculo.-
Distribucin normal y sus caractersticas.- Relacin entre la curva normal y la
binomial.- reas bajo la curva normal.- Distribucin exponencial.- Distribucin
Gamma.- Distribucin Weibull.- Intervalos de confianza para .- Estadstica de
inferencia: teora de decisin estadstica y pruebas de hiptesis.- Pruebas de
hiptesis estadsticas. Hiptesis nula (Ho:) e hiptesis alternativas (H1:, H2:, H3:).-
Tipos de errores I (alfa) y II (beta).- Pruebas de hiptesis no tradicionales
usando el valor de la probabilidad p.- Pruebas de hiptesis para uno y dos
promedios poblacionales (1, y 2).- Pruebas de hiptesis para las diferencias de
dos promedios poblacionales (1 2), para muestras grandes (n 30) usando la
distribucin normal, con varianzas conocidas e iguales (21 = 22).- Intervalos de
confianza para dos promedios poblacionales.- Pruebas de hiptesis e intervalos
de confianza para proporciones.

Definicin de variable aleatoria continua


Una variable aleatoria X se dice que es continua si, su conjunto de valores posibles es
un intervalo completo de nmeros, esto es, si por a < b cualquier nmero X entre a y b
es posible. En trminos simples, la variable aleatoria X se define, como la variable
aleatoria que contiene un intervalo finito o infinito de nmeros reales. De esta manera,
una variable que, tericamente, pueda asumir cualesquier valor entre dos valores
dados, es continua; de otra manera es discreta. En general, mediciones dan lugar a
datos continuos, mientras que enumeraciones o conteo da lugar a datos discretos. Por

5-1
Dr. Hctor Quevedo Uras

ejemplo, el nmero de nios en una familia pueden tener valores de 0, 1, 3, 4, pero


no pueden tener valores de 2.5, o 3.842. Por otro lado, ejemplos de variables
continuas son las alturas de un grupo de personas que se pueden expresar como 62,
63.8 pulgadas, 65.83412 pulgadas, etc. Por ejemplo, decir cuales de los siguientes
trminos representan datos discretos o continuos.
(a) Nmero de acciones burstiles vendidos cada da en el mercado burstil.
Solucin: Aqu la variable es aleatoria discreta.
(b) Las temperaturas registradas cada media hora en la oficina de meteorologa.
Solucin: Aqu la variable es aleatoria discreta.
(c) Las longitudes de 1000 tornillos producidos por una fbrica.
Solucin: Aqu la variable es continua.
Funcin de densidad de probabilidad de la variable aleatoria continua X
Una funcin f(x) es una funcin de densidad de probabilidad de la variable aleatoria
cont
inua X para el conjunto de posibles valores de X estn en cualquier intervalo de
nmeros reales [x1, x2]. Esta funcin llena lo siguiente: (Montgomery et al. 1996)
1. fx (x) 0 (5-1)

2. - f(x )dx = 1 (5-2)
x2
3. P (x1 X x2) = x1 fx(u) du (5-3)

Definicin: Dejemos que X sea una variable aleatoria continua, entonces la


distribucin de probabilidad o funcin de densidad de probabilidad de X es una
funcin f(x) de tal manera que, para cualesquier dos nmeros a y b con a b,
entonces:

5-2
Dr. Hctor Quevedo Uras

b
P(a X b) = a f(x) dx (5-4)

Para que la funcin de densidad de probabilidad sea vlida debe de satisfacer las
siguientes dos condiciones:
1. f (x) 0 para todas las xs (5-5)

2. - f (x) dx = rea bajo la grfica completa de f (x) = 1 (5-6)

Frmula fundamental del clculo

Dejemos que f sea una funcin que se define en el intervalo cerrado de [a, b],
b

entonces, el integral definido de f de a a b, denotado por a f(x) dx se da por:


b
a f (x) dx = lim f (wi) xi (5-7)
i
||P||0

Cualquier antiderivada de f(x) puede ser usada para evaluar el integral (5-7).
Entonces, si F es una antiderivada de f, usamos la frmula de abajo:
b
a f (x) dx = F(b) F(a) (5-8)

Para computar la funcin de arriba F(b) F(a) introducimos la relacin:

b b
a f (x) dx = F (x) a = F (b) F (a) (5-9)

Ejemplo #1. Si una variable aleatoria tiene la densidad de probabilidad de:

F (x) {e-2x para x > 0, o para x 0}

5-3
Dr. Hctor Quevedo Uras

Determinar las probabilidades de que la variable aleatoria X adopte un valor de:


(a) Entre 1 y 3
(b) Mayor que 0.5
(c) A lo ms 3
Solucin:
b
Usando P(a X b) = a f(x) dx Intervalo [1, 3]

3
(a) 1 e-2x dx = (-0.5) [e-2 e-6] = 0.067


(b) 0.5 e-2x dx Intervalo [0.5, ]

3
(c) 0 e-2x dx = (-0.5) [e-6 1] = 0.5 Intervalo [0, 3]

Ejemplo #2. Simbolizar con X la cantidad de tiempo de incubacin de bacterias en un

plato de prueba durante 2 horas. Supngase que la variable aleatoria X tiene funcin

de densidad de f (x) = 0.5x, para el conjunto posible de valores de X en el intervalo (0

X 2). Siendo as, calcular las siguientes probabilidades:

(a) P (X 1)

(b P (.5 X 1.5)

(c) P (1.5 < X)

Solucin:

5-4
Dr. Hctor Quevedo Uras

1 1
(a) 0
2
0.5x dx = 0.5 (x /2)0 = 0.5 (0.5 0/2) = 0.25

1.5 1.5
(b) 0.5
2
0.5 x dx = 0.5 (x /2)0.5 = (0.5)(1.125 - .125) = 0.5

2.0 2.0
(c) 1.5
2
0.5 x dx = 0.5(x /2) 1.5 = 0.5(2.0 1.125) = 0.44

Ejemplo #3. Supngase que el error en la reaccin de temperatura, en oC, de una


incubadora de un laboratorio de bacteriologa, para la incubacin de un plato de agar,
es una variable X continua que tiene una densidad de probabilidad de f(x) = x2/3,
donde X puede asumir valores de entre (-1 < X 2). Encontrar la probabilidad de
densidad de que la temperatura est entre 0 oC y 1 oC.
Solucin:

Aqu queremos encontrar P(0 < X 1) en el intervalo [0,1]. Entonces


1 1
P(0 < X 1) = 0
2 3
x /3 dx = x /9 0 = 1/9

Ejemplo #4. La proporcin de industrias que responden a cierto cuestionario


ecolgico (voluntario, pero que, actualmente, va a ser obligatorio) es una variable
aleatoria continua X cuya funcin de densidad es f(x) = 2(x + 2)/5. Esta funcin tiene
una variable aleatoria X puede asumir valores de 0 < X < 1. Hacer lo siguiente:
(a) Mostrar que P(0 < X < 1) = 1
(b) Encontrar la probabilidad de que ms de 25%, pero menos que 50% de las
industrias contactadas respondern voluntariamente a esta solicitacin.
Solucin:

5-5
Dr. Hctor Quevedo Uras

(a) Usando la relacin matemtica de f(x) y g(x) cuyas funciones son continuas y
tienen una antiderivada en el intervalo [a, b], siendo as, entonces, usamos la funcin
(5-10) de abajo y sustituyendo da:

b b b
a [f(x) + g(x)] dx = a f(x) dx + a g(x) dx (5-10)

1 1 1
0 (2x/5 + 4/5) dx = 0 2x/5 dx + 0 4/5 dx = 2x2/(2)(5) + 4x/5
1 1
= x2/50 + 4x/5 0 = [1/5 0] + [4/5 0]
=1

(b) Aqu el intervalo es [0.25 < X < .50]. Esto dice que, a = 0.25 y b = 0.50
.50 .50 .50
Por lo tanto: .25 (2x/5
2
+ 4/5) dx = x /5 .25 + 4x/5 .25

= [(0.5)2 /5 (0.25)2/5] + [4(0.5)/5 4(0.25)/5]


= 19/80

La distribucin normal

La distribucin normal es el ejemplo ms importante de una distribucin de


probabilidad continua. Abraham De Moivre (1667-1754) la inici en 1733.
Desafortunadamente, su trabajo se perdi y, casi 100 aos despus, Karl Gauss (1777-
1855) y Pierre Simon, Marques de Laplace desarrollaron, de manera independiente, la
distribucin normal. Por esta razn, a la distribucin normal tambin se le llama
distribucin Gaussiana.
Caractersticas de la distribucin normal

1. Es simtrica alrededor de su promedio y en forma de campana.

5-6
Dr. Hctor Quevedo Uras

2. El promedio, la mediana y la moda son iguales.


3. El rea total bajo la curva es igual a uno. El 50% de las observaciones estn a la
derecha del promedio y el otro 50% de las observaciones estn a la izquierda del
promedio.
4. La distribucin normal se determina completamente por sus parmetros y .
Cuando = 0 y = 1 la distribucin normal est en su forma estandarizada.
La distribucin normal es realmente una familia de distribuciones distinguida
una de la otra por los valores de y de . Sin embargo, el miembro ms importante de
esta familia de distribuciones es la que tiene un promedio de 0 y una desviacin
estndar de 1. La ecuacin de la distribucin normal estndar se escribe como:
f (z) = 1/ 2 exp -0.5 z 2 -<z<+ (5-11)

Usualmente, se usa la letra minscula z por la variable aleatoria que resulta.

reas bajo la curva normal

La curva de cualquier distribucin continua de probabilidad o funcin de densidad se


constituye de tal modo que, el rea est limitada por los dos puntos x = xi y x = x2 y es
igual a la probabilidad de que la variable aleatoria X asuma un valor entre x = xi y x =
x2. Entonces, el rea para la curva normal se da por la funcin (Walpole et al. 1992):
X2

P(x1 < X < x2) = x1 n (x;,) dx (5-12)


x2
= 1/ 2 x1 exp-(0.5)[(x-)/]2 dx (5-12a)

Sin embargo, es difcil resolver las integrales de las funciones de densidad normal,
debido a que no se pueden integrar en forma cerrada, entre cada par de lmites de a y
b. Debido a esta situacin se hace necesario la tabulacin de las reas de la curva

5-7
Dr. Hctor Quevedo Uras

normal. De cualquier manera, la tabla de la distribucin normal estndar con = 0 y


= 1 y sus entradas son los valores de:
z
F(z) = 1/ 2 exp [-0.5 t2] dt (5-13)

Adems, sera muy difcil hacer una tabla por separado para cada valor de y
. Afortunadamente, es posible transformar todas las observaciones de cualquier
variable aleatoria normal X a nuevo conjunto de observaciones de una variable
aleatoria normal z con promedio de 0 y varianza de 1. Las transformaciones se hacen
usando la frmula de la variable aleatoria normal estandarizada z que se usa para
transformar cualquier variable aleatoria normal X con promedio y desviacin
estndar a la distribucin normal estandarizada. Esta frmula para calcular las
probabilidades de cualquier distribucin normal (no estandarizada) se da como:

X
Z = (5-14)

Su estimador de la muestra es:

z = (X X ) / s (5-15)

Como se dijo arriba, hay tablas que dan los resultados de la integracin, por lo
tanto, no tenemos que hacer la integracin para calcular las probabilidades. En cuanto
a las propiedades de la distribucin normal, stas se dan en la TABLA 5.0 de abajo.

5-8
Dr. Hctor Quevedo Uras

TABLA 5.0. Tabla mostrando las propiedades de la curva normal o Gaussiana.


_________________________________________________________________
Promedio aritmtico
Varianza 2
Desviacin estndar
Momento del coeficiente del sesgo 3 = 0
Momento del coeficiente de kurtosis 4 = 3
Desviacin del promedio aritmtico 2/ = 0.7979
_________________________________________________________________
(Fuente: Spiegel, 1961)

La grfica de la curva normal se muestra en la figura de abajo. De la grfica puede


verse que, la curva es en forma de campana, es simtrica con respecto a la lnea
dibujada perpendicularmente, al eje horizontal en el promedio . La grfica va en
funcin de la frecuencia relativa y las desviaciones estndares. La desviacin estndar
determina el esparcimiento de la curva. A medida que hay ms variacin en una
muestra o en una poblacin, la curva se hace ms achatada. El rea total bajo la curva
es de 100%. Las grficas de abajo muestran la distribucin normal en diferentes
formas.

Figura 5.1. Esquema mostrando las reas bajo la curva normal. (Brase et al. 1995)

De la Figura 5.1, se ve que, aproximadamente, el 68.27% de los valores de los datos

5-9
Dr. Hctor Quevedo Uras

estn dentro de una desviacin estndar a cada lado del promedio; aproximadamente,
el 95.45% de los valores estn dentro de dos desviaciones estndar en cada lado del
promedio; y aproximadamente, el 99.73% de las observaciones estn dentro de tres
desviaciones estndar del promedio.

Figura 5.2 . Esta figura muestra las reas correspondientes a valores de z = 1, z = 2


y z = 3, correspondientes a las probabilidades de 68.27%, 95.45% y 99.73%,
respectivamente. (Elaboracin propia).
De la Figura 5.2, ntese que, en trminos de frecuencia relativa, la probabilidad entre z = 0 y z = +1,
es igual a .3413; la probabilidad entre z = +1 y z = 2 es igual a .1359 y, la probabilidad entre z = +2
y z = +3 es igual a .0228. Por simetra el rea total es 1.

Distribucin normal estndar

Como se dijo anteriormente, la distribucin de una variable aleatoria normal, con


promedio igual a 0 y varianza igual a 1, se llama distribucin normal estndar y se
denota con la variable aleatoria normal estandarizada Z = (X )/. Sin embargo,
cuando se conoce el promedio y la desviacin estndar, se llama distribucin normal
no estandarizada. Aqu, es importante distinguir las diferencias entre la curva normal
estndar y la no estndar.
Ejemplo #5. Dada una distribucin normal estndar, encontrar el rea bajo la curva

5-10
Dr. Hctor Quevedo Uras

que est entre z = -1.97 y z = 0.86.


Solucin:

El rea entre z = -1.97 y z = 0.86 se denota como:

P(-1.97 < z < 0.86) = P(z < 0.86) P(z < -1.97)
= 0.8051 0.0244 = 0.7807 (de la tabla de la distribucin normal)

Los valores de la probabilidad que corresponden a la variable estandarizada z son de z


= 0.86 y z = -1.97 y se encuentran el la tabla de la distribucin normal.
Ejemplo #6. Dada una distribucin normal, con = 50 y = 10. Encontrar la
probabilidad de que X est entre 45 y 62.
Solucin:
Primeramente, aqu estamos hablando de todo el conjunto, no de una muestra. Para
esto transformamos los valores de X a valores de Z usando la frmula de la variable
aleatoria estandarizada (5-14), Z = (X ) / . Los valores de Z correspondientes a X
= 45 y X = 62 se hacen usando esta frmula. Sustituyendo los valores da:
Z45 = (45 50)/10 = -0.5
Y Z62 = (62 50)/10 = 1.2
Por lo tanto: P(45 < X < 62) = P(-0.5 < Z < 1.2)
= P(Z < 1.2) - P(Z < -0.5)
= 0.8849 0.3085
= 0.5764
Ejemplo #7. Se saca una muestra aleatoria de una distribucin normal poblacional y
se calcula un promedio de X = 300 y una desviacin estndar de 50. Encontrar la
probabilidad de que X asuma un valor mayor que 362.
Solucin:

5-11
Dr. Hctor Quevedo Uras

Primeramente, aqu se nota qu, ya no estamos hablando de una poblacin usando ,


como el promedio y como la desviacin estndar. Ahora usamos la variable normal
estandarizada de la muestra de z = (X X )/s, la cual es el estimador de la variable Z =
(X )/. Siendo as, primero transformamos X = 362 al valor correspondiente de z
usando la frmula anterior. (Ntese que en este caso usamos la frmula de la variable
estandarizada z como el estimador de la variable Z poblacional, esto es, z = (X
X )/s).
z362 = (362 300)/50 = 1.24

Por lo tanto, P(X > 362) = P(z > 1.24) = 1 P(z < 1.24)
= 1 0.8925 = 0.1075

La distribucin normal es una distribucin de probabilidad continua (en


contraste con la Poisson, binomial, hipergeomtrica, geomtrica, etc., que son
distribuciones de probabilidad discretas). Esto quiere decir que, los resultados de un
experimento de probabilidad consisten de un innumerable e infinito conteo de
valores. As, una distribucin de probabilidad continua nos permite medir nuestra
variable a cualquier grado de precisin requerida y est asociada con variables
aleatorias continuas. En contraste, las distribuciones de probabilidad discreta son
como la distribucin binomial o de Bernoulli y la Poisson, las cuales estn asociadas
con variables aleatorias discretas.
Las variables discretas son mediciones precisas. Ejemplos de variables
discretas son el tamao de una familia o el nmero de autos que se tienen, o el
nmero de estudiantes de una clase. Todas estas son variables discretas. Esto quiere
decir que, cuando algo se puede medir con precisin, entonces, es una variable
discreta. En contraste, las variables continuas no se pueden medir, precisamente,

5-12
Dr. Hctor Quevedo Uras

cuando incrementamos la precisin de la medicin sacamos un sistema de conteo ms


fino. Una variable continua no viene en paquetes de unidad, sino que mide o
representa un grado de precisin arbitrario, es decir, redondeado. Ejemplos de
variables continuas son los pesos, la temperatura, la altura, las densidades, etc.
Relacin entre la curva normal y la binomial
Si n es grande y, si ni p ni tampoco q estn cercanas a cero, la distribucin binomial
puede aproximarse a la normal, con la variable estandarizada dada por la funcin
estadstica z = (x np)/ npq.
La aproximacin normal a la distribucin binomial es buena si n es bastante
grande con respecto a p. En particular, esto es cierto cuando np > 10 y n(1 - P) > 10.
Para hacer las aproximaciones binomiales usando la distribucin normal, se usa la
variable aleatoria estandarizada z. (Cul versin de la variable aleatoria de z se
usara: la variable aleatoria estandarizada de z poblacional o la variable aleatoria
estandarizada de z muestral?).
Por otra parte, Lapin (1982) recapitula el hecho de que la grfica de la
distribucin binomial tiende a la distribucin normal a medida que n aumenta. Esto
sugiere qu, para muestras de tamaos grandes, la distribucin binomial se aproxima
a la normal. Lapin da las guas aceptadas para usar las aproximaciones normales, de
acuerdo a la regla popular de que la aproximacin normal a la distribucin binomial
es adecuada, siempre y cuando, np 5 y n(1 p) 5. La TABLA 5.1 muestra las
guas comnmente aceptadas para usar la aproximacin normal a la distribucin
binomial. Sin embargo, se argumenta que algunos estadsticos insisten de que
tamaos de muestras ms grandes que los dados en la TABLA 5.1 deben ser usados
antes de que la aproximacin sea aceptable. Esto se debe a que, el sesgo de la
distribucin binomial es tan pronunciado para tamaos de p grandes o pequeos de tal

5-13
Dr. Hctor Quevedo Uras

manera que, la forma de campana se asume por la distribucin binomial, solamente,


para un tamao de n muy grande.
TABLA 5.1. Tabla mostrando las guas ms comnmente aceptadas para usar la
aproximacin normal a la distribucin binomial.
___________________________________________________________________
Siempre que p iguale a: Usar la aproximacin normal, solamente,
si n no es ms pequea que:
___________________________________________________________________
.5 10
.40 o .60 13
.30 o .70 17
.20 o .80 25
.10 o .90 50
.05 o .95 100
.01 o .99 500
.005 o .995 1,000
.001 o .999 5,000
__________________________________________________________________
Fuente: Statistics for Modern Business Decision. Lawrece L. Lapin (1981).

Los siguientes ejemplos calculan las probabilidades para la distribucin normal


estandarizada

Ejemplo #8. Cul es el rea, la probabilidad, proporcin o el porcentaje de encontrar


un valor de z bajo la curva o distribucin normal entre los valores de z = -1.73 y z =
+2.45? Dibujar la grfica.
Solucin:
Delinear el intervalo de la variable aleatoria z, esto es, (-1.73 z 2.45) razonando
de la siguiente manera:
P(-1.73 z 2.45) = P(z 2.45) P(z -1.73)
Buscando z = 2.45 en la tabla de la distribucin normal da una probabilidad de .9929.

5-14
Dr. Hctor Quevedo Uras

Enseguida, se hace lo mismo con el valor de z = -1.73 y da una probabilidad de .0418.


Por lo tanto:
P(-1.73 z 2.45) = P(z 2.45) P(z -1.73)
= .9929 - .0418
= .9511

Figura 5.3. Grfica de la curva normal para el Ejemplo #8. (Elaboracin propia)

Ejemplo #9. Cul es la probabilidad, en la curva normal entre un valor de z = -1.54 y


un valor de z = -.76?
Solucin:
P(-1.54 z -.76) = P(z -.76) P(z -1.54)
= .2236 - .0618 = .1618 (de la tabla de z)
Ejemplo #10. Cul es el rea bajo la curva normal a la izquierda de z = -1.96?
Solucin:
En la tabla de la distribucin normal se busca el valor de la variable aleatoria z = -1.96
y da .025 es decir,
P(z < -1.96) = .0250
Ejemplo #11. Cul es el rea bajo la curva normal a la izquierda de un valor de z =
1.42?

5-15
Dr. Hctor Quevedo Uras

Solucin:
Se busca el valor de z = 1.42 en la tabla de z y da .9222. Esto es lo mismo que, rea
requerida de .5000 + .4222 = .9222.
Ejemplo #12. Encontrar la probabilidad de que la variable Z est entre -05 y 1.25.
Solucin:
P(-0.5 < Z < 1.25) = 1.0 0.3085 0.1056 = 0.5859
La Figura 5.4 muestra esquemticamente esta situacin.

Figura 5.4. Figura mostrando la probabilidad de P(-05 < Z < 1.25). (Elaboracin
propia)

Los siguientes problemas calculan las probabilidades para cualquier variable


normal distribuida usando la variable estandarizada Z = (X - )/ y/o su
estimador estadstico correspondiente, z = (X - X )/s.
Ejemplo #13. Si X es una variable normalmente distribuida, con un promedio
aritmtico de X = 24 y una desviacin estndar de 3, cul es el valor de la variable
normal estandarizada (tipificada), z que corresponde a un valor de X = 19?
Solucin:
Primero transformamos (estandarizamos) el valor de X = 19 a valores de z, es decir:
z19 = (X - X )/s = (19 - 24)/3 = -1.67
Aqu, se nota que, el valor de X = 19 est 1.67 desviaciones estndar abajo del
promedio de 24.

5-16
Dr. Hctor Quevedo Uras

Ejemplo #14. Si X es una variable normalmente distribuida, con un promedio


aritmtico de 150 y una desviacin estndar de 24, cul es el valor de z
correspondiente a un valor de X = 182?
Solucin:
z182 = (182 - 150)/24
= 1.33
Este valor de 182 est a 1.33 desviaciones estndar arriba del promedio de X = 150.
Ejemplo #15. Si X es una variable normalmente distribuida, con un promedio de 100
y una desviacin estndar de 15, calcular la probabilidad de: P(70 < X < 130).
Solucin:
Primero transformamos (estandarizamos) los valores de X = 70 y X = 130 a valores de
la variable aleatoria z. Esto es:
z70 = (70 - 100)/15 = -2.00
z130 = (130 - 100)/15 = 2.00
El valor de z correspondiente al intervalo (70 < X < 130) es de (-2.00 < z < +2.00) y
la probabilidad es:
P(70 X 130) = P(-2.0 z 2.0)
= P(z 2.0) P(z -2.0)
= .9772 - .0228
= 0.9544
Aqu, se puede ver qu, sin consultar la tabla de la z, ya sabemos que, a 2.0 unidades
de z arriba del promedio estn comprendidas el 97.72% de las observaciones.
Similarmente, a -2.0 unidades abajo del promedio estn comprendidas el 2.28% de las
observaciones; por lo tanto, .9772 - .0228 = 0.9544. La Figura 5.5 muestra esto.

5-17
Dr. Hctor Quevedo Uras

Figura 5.5. Grfica mostrando la curva normal para este problema. (Elaboracin
propia).
Ejemplo #16. En una investigacin de higiene industrial y seguridad, relacionada con
un proceso industrial, se requiere una aptitud mental muy alta. Para esto, los
trabajadores se sometieron a una prueba del coeficiente de intelecto (IQ). Si se saca
una muestra al azar que da X = 120 puntos y s = 20 puntos, Cul es la probabilidad
de que un trabajador seleccionado tendr un valor de coeficiente de intelecto que est
entre 80 y 140 puntos?
Solucin:
Aqu estamos buscando la probabilidad de P(80 < X < 140) = P(-2.00 < z < +1.00).
Por lo tanto, el rea total o la probabilidad requerida es igual a 0.8185. Esto dice que,
cerca del 82% de la poblacin tiene un IQ de esta prueba del intelecto que est entre
80 y 140 puntos.
Ejemplo #17. Si una muestra aleatoria de una poblacin normal de intensidades de
viento, en m/segundo, tiene un promedio de 10 m/seg y una varianza de 4:
(a) Qu porcentaje y/o probabilidad de las intensidades del viento caen entre 9 y 14
m/seg.?
(b) Entre 13 y 15?
Solucin:

5-18
Dr. Hctor Quevedo Uras

(a) % = (rea de - a 2) - (rea de - a -.5) = .9772 - .3085


O sea: P(9 X 14) = P(-0.5 z 2) = 0.9772 - 0.3085
= 0.6687 = 66.87%
Aqu, se nota que, si el valor de s es igual a 2, por lo tanto, hay 2 unidades de
desviacin estndar para los valores de X = 14 y X = 9, es decir, a la derecha e
izquierda del promedio.
(b) Aqu estamos diciendo que 13 est a 1.5 unidades abajo del promedio y 15 est a
2.5 unidades arriba del promedio. Esto es:
P(13 X 15) = P(1.5 z 2.5) = .9938 .9332 = 0.06 = 6%
Encontrando los valores de z dando las probabilidades
Ejemplo #18. Un rea de .4370 est bajo la curva normal entre el promedio y un valor
positivo de z. Cul es el valor de z?
Solucin:
Buscando el valor de 0.4370 en la tabla de la z vemos que corresponde a z = +1.53.
Ejemplo #19. Un rea de .4808 est bajo la curva normal entre el promedio y un valor
de z negativo. Cul es el valor de z?
Solucin:
Buscamos el valor de .4808 en la tabla y da z = -2.07.
Ejemplo #20. El 90% de la distribucin de partculas atmosfricas de una curva
normal est a la izquierda de un valor de z en particular. Cul es el valor de z?
Solucin:
El valor de z debe de estar a la derecha del promedio, porque el 50% de la
distribucin est a la izquierda del promedio. Eso deja 0.400 de la curva entre el
promedio y el valor requerido de z. De manera que, ahora tenemos que encontrar el
valor de z que corresponde a una rea de .400 en la tabla de la curva normal (.900 -

5-19
Dr. Hctor Quevedo Uras

.500). Sin embargo, aqu vemos que no hay entrada de 0.4000, no obstante, lo ms
cercano es .3997 que corresponde al valor de z = 1.28.
Encontrando los valores z del punto de expansin para variables normalmente
distribuidas
Ejemplo #21. Calcular dentro de que rango estarn comprendidas el 95% de las
observaciones centrales o de en medio, si el promedio es de 10 y la desviacin
estndar es de 2. Hacer una grfica.
Solucin:
Aqu, vamos a usar la relacin: X = X z (s), con X = 10.0 y s = 2.0, es decir:
10 1.96 (2) = 10 3.92 para dar (6.08 X 13.92). La figura de abajo muestra
esta situacin.

Figura 5.6. Grafica mostrando los resultados de este problema. (Elaboracin propia)
Ejemplo #22. Si X = 10 y s = 2, Dentro de que rango estn comprendidas el 99% de
las observaciones de en medio de la curva normal?
(b) El 90%?
Solucin:

Usando la relacin X = X z.01 (s) y sustituyendo da:

(a) X = X z.01(s) = 10 2.57(2)


= (4.85 X 15.15)

5-20
Dr. Hctor Quevedo Uras

Figura 5.7. Grfica mostrando los resultados del ejemplo #22.

Ejemplo #23. Si X = 20 y s2 = 9, dentro de que rango estn comprendidas:


(a) El 99% de las observaciones de en medio de la curva normal?
(b) El 90%?
(c) El 80%?

Solucin:

Usando la relacin X = X z.01 (s) y sustituyendo da:

(a) X = X z.01(s) = 20 2.57(3)


= 20 7.41
= (12.29 X 27.31)
(b) Usando la relacin X = X z0.1(s) y sustituyendo da:
X = X z0.1(s) = 20 1.645(3)
= 20 4.935
= (21.96 X 24.94)
(c) Usando la relacin X = X z0.05 (s) y sustituyendo da:
X = X z0.20 (s) = 20 1.28 (3)

5-21
Dr. Hctor Quevedo Uras

= 20 3.84
= (16.16 X 23.84)

Problemas ilustrando las aproximaciones normales a la distribucin binomial

Ejemplo #24. Una mquina produce tornillos de los cuales 10% son defectuosos.
Encontrar la probabilidad de que, en una muestra aleatoria de 400 tornillos
producidos por esta mquina:
(a) A lo ms 30 tornillos estarn defectuosos
(b) Entre 30 y 50 estarn defectuosos
(c) Entre 35 y 45 estarn defectuosos
(e) 55 o ms tornillos estarn defectuosos
Solucin:
Primero se calcula el promedio y la desviacin estndar:
= np = (400)(0.1) = 40 y = npq = [(400)(0.1)(.90)]0.5 = 6.0
Enseguida, se calcula el valor de la variable aleatoria Z usando la relacin:
Z = (X ) / .
(a) P(X 30). Para calcular esto, primero se transforma el valor de 30, a valores de Z
usando la funcin de arriba, es decir,
Z30 = (30 40)/6.0 = -1.67
Por lo tanto:

P(X 30) = P(Z -1.59) = 0.0559

(b) P(30 X 50). Para calcular esto, primero transformamos los valores de 30 y
50 a valores de Z, es decir,
Z30 = (30 40) / 6.0 = -1.67; Z50 = (50 40) / 6.0 = 1.67

5-22
Dr. Hctor Quevedo Uras

Por lo tanto,
P(30 X 50) = P(X 50) P(X 30)
= P(Z 1.59) - (Z -1.59)
= .9441 - 0.0559
= .8882
(c) La probabilidad de qu, entre 35 y 45 tornillos estn defectuosos, es, P(35 X
45). Para esto, primero transformamos los valores de X a valores de Z.
Z35 = (35 40)/6.0 = -0.83 y Z45 = (45 40)/6.0 = 0.83.

Por lo tanto, P(35 X 40) = P(-1.59 Z 0.79)


= .7852 - .0559
= 0.7293
(e) Primero estandarizamos el valor de X = 55 a valores de Z.

z55 = (55 40) / 6.0 = 2.50 que corresponde a una probabilidad de .9938. Por lo tanto:

P(X 55) = 1 P(X 55) = 1 - .9938 = .0062

Ejemplo #25. La probabilidad de que X asuma un valor exacto de 4 se da abajo, esto


es, usando la distribucin binomial.
P(X = 4) = B(4;15,0.4) = 0.1268
Siendo as usar la distribucin normal como una aproximacin:
Solucin:
Primero se calcula el valor del promedio, = np y da = (15)(0.4) = 6. La desviacin
estndar es = npq = (15)(0.4)(0.6) = 1.897. Adems, X = 4 puede asumir valores
de 3.5 y 4.5. Enseguida, transformando los valores usando la variable aleatoria normal
Z da:

5-23
Dr. Hctor Quevedo Uras

Z3.5 = (3.5 6) / 1.9 = -1.32 y Z4.5 = (4.5 6) / 1.9 = -0.79


Si X es una variable aleatoria binomial y Z es una variable normal, entonces:
P(X = 4) = B(4;15,0.4) P(-1.32 < Z < -0.79)
= P(Z < -0.79) P(Z < -1.32)
= 0.2148 0.0934 = 0.1214
Este valor sacado usando la distribucin normal como una aproximacin a la
distribucin binomial est muy cercano al de 0.1268 calculado por la distribucin
binomial.
Distribucin exponencial
La distribucin exponencial es una distribucin continua de probabilidad para
describir el tiempo que se tarda en realizar una actividad. Esta distribucin es un caso
especial de la distribucin gamma. Esta funcin se usa para modelar las vidas de las
bateras, de transistores, de valeros, etc. Tambin se usa para modelar la distancia
entre los principales defectos en una carretera, etc. A pesar de que la distribucin
exponencial es continua, esta distribucin est cercanamente relacionada con la
distribucin de Poisson, que es discreta. Esto ocurre en el sentido que, una variable
aleatoria Poisson cuenta el nmero de ocurrencias de un evento durante un intervalo
de tiempo dado. En contraste la variable aleatoria exponencial X que puede ser usada
para medir el tiempo que transcurre antes de la primera ocurrencia de un evento,
donde las ocurrencias del evento siguen a una distribucin Poisson.
Equivalentemente, una variable aleatoria exponencial puede ser usada para medir el
tiempo que transcurre entre las ocurrencias de un evento
Las aplicaciones de la distribucin exponencial, a la ingeniera ambiental son
varias. Por ejemplo, se puede usar para modelar el tiempo que se tardan los pesticidas
en degradarse en la tierra o para medir el tiempo en que se toma en degradarse una

5-24
Dr. Hctor Quevedo Uras

sustancia radiactiva. Igualmente, es til para medir la cintica de la demanda


bioqumica de oxgeno (DBO5). Anlogamente, se puede usar para medir el tiempo
que tardan las partculas atmosfricas en caer a la superficie de la tierra.
Una variable aleatoria continua X se dice que est exponencialmente
distribuida si su funcin de densidad es:
f (x) = e-x para X 0, 0 (5-16)

Donde: es un parmetro de la distribucin, y e una constante igual a 2.71828


2 2
X y s de la variable aleatoria exponencial X son E(X) = 1/ y V(X) = 1/ ,
respectivamente. Se puede demostrar que el promedio y la desviacin estndar de una
distribucin exponencial son iguales el uno al otro, esto es: = = 1/.
Por otro lado, Keller et al. (1990) afirma que, en el caso de una variable
aleatoria exponencial X, se puede demostrarse que la probabilidad de que X pueda
tomar un valor ms grande que un nmero especificado no negativo a, es e-a. Esto se
puede expresar usando clculo integral, es decir:

P(X a) = a e
-x -x
dx = -e | a = e-a (5-16a)

El clculo de las funciones exponenciales involucra la evaluacin de integrales


de probabilidad entre los lmites de a y b. Para esto, se da una tabla de probabilidades
exponenciales. Las siguientes frmulas se usan con esa tabla.
P(a X b) = e-a e-b (5-17a)
P(X a) = 1 e-a (5-17b)
P(X a) = e-a (5-17c)
La distribucin exponencial es una familia de distribuciones modificadas por
un solo parmetro, , las cuales se muestran en la Figura 5.8.

5-25
Dr. Hctor Quevedo Uras

Figura 5.8. Grficas de tres distribuciones exponenciales. Fuente: Devore (2000)


Ejemplo #26. Supongamos que el tiempo promedio que se tarda una sustancia
radiactiva en degradarse es de = 15 y su funcin de densidad es f(x) = 1/15 e-x/15. Si
los valores de la variable aleatoria x son 5, 15, 25, 35, y 45, calcular las siguientes
probabilidades:
(a) A lo ms 6 aos
(b) Entre 6 y 18 aos
Solucin:
(a) Usando (5-17b) con = 1/, es decir, = 1/15 y a = x = 6 y sustituyendo en la
funcin P(X a) = 1 e-a, da:

P(X 6) = 1 e-(6/15) = 0.3297

(b) Usando la funcin (5-17a) y sustituyendo da:

P(Tiempo de cada 6 X 18 aos) = .6988 - .3297 = .3691

Ejemplo #27. Refirindose al Ejemplo #26, Cul es la probabilidad de que la


degradacin de la sustancia radiactiva dure cuando menos 10 aos.
Solucin:
Usando la funcin (5-17c), es decir: P(X a) = e-10/15 = 0.51

5-26
Dr. Hctor Quevedo Uras

Figura 5.9. Grficas mostrando los resultados para (a) y (b), del ejemplo #26.

Ejemplo #28. El tiempo requerido para que ocurra una reaccin qumica est
exponencialmente distribuida con un tiempo esperado de 5 minutos. (a) Qu
proporcin de la sustancia se formar dentro de 1 minuto? (b) En 5 minutos? (c)
Entre 4 y 8 minutos? (d) Si la cantidad de la sustancia qumica es de 5.00 gramos,
cunto es lo que se va formando en cada uno de los intervalos? (El lector lo har)
Solucin:
Usaremos intervalos de 1 minuto para calcular la probabilidad. Por lo tanto, debido
a que la reaccin se hace en 5 minutos en promedio (pensamos de esto
producindose en 5 intervalos continuos de un minuto) el nmero esperado de
produccin en un minuto es 1/5 = .20 = (o sea el nmero esperado de ocurrencias
en 1 minuto). La variable aleatoria X se define como el tiempo, en minutos,
requerido para completar la reaccin. Por lo tanto:
(a) P[X 1] = 1 e-(0.20(1) = 0.8187 = 81.87% (Usando la frmula 5-17b)
(b) P[X 5] = 1 e-(0.20)(5) = 0.3679 = 36.87% (usando la frmula 5-17b)
(c) P[4 < X < 8] = e-(0.20)(4) e-(0.20)(8) = 0.2474 (usando la frmula 5-17a)
(d) 4.09 g., 1.84 y 1.23 g, respectivamente.

5-27
Dr. Hctor Quevedo Uras

Distribucin gamma continua


A pesar de que la distribucin normal puede resolver muchos problemas en
ingeniera, hay otras situaciones que requieren de diferentes tipos de funciones de
densidad. Funciones como stas son la exponencial, la gamma, la Weibull, la beta,
etc. Hay muchas situaciones en que la variable de inters, para el experimentador,
pueda tener una distribucin oblicua. Siendo as, entonces, una familia de
funciones de probabilidad de densidad (pdf) que dan una amplia variedad de
distribuciones sesgadas es la familia de distribuciones gamma.
Como se dijo antes, la distribucin gamma es un caso especial de la
distribucin exponencial. Las funciones exponenciales y la funcin gamma juegan
un papel muy importante en la teora de filas que esperan el orden de su llegada.
La distribucin gamma puede ser vista como una distribucin gamma
estandariza o como una distribucin gamma no estandarizada.
Si una variable aleatoria continua x tiene una distribucin gamma, con
parmetros y , entonces, para cualquier x > 0 la distribucin acumulada de
frecuencia (cdf) de x est dada por:
P(X x) = F(x;,) = F(x/;) (5-18)
Donde:
es el primer parmetro de forma que define la distribucin gamma
es el parmetro de escala que define la distribucin gamma (porque valores
mayores que la comprimen o estiran la funcin de probabilidad de densidad (pdf)
en la direccin de x); F(x/;) es una funcin de gamma incompleta.
En la familia de distribuciones gamma una variable aleatoria continua X se
dice que tiene una distribucin gamma no estandarizada si la pdf de X es:

f(x;,) = {1/ () x-1 e-x/ x 0 (5-19)

5-28
Dr. Hctor Quevedo Uras

o de otra manera
Donde los parmetros y satisfacen > 0 y > 0
Si se pone = 1 la expresin (5-19) se reduce a la forma de de la distribucin
gamma estndar descrita abajo.
x
f (x;) = 0 x-1 e-x / () dx x > 0 (5-20)

La funcin (5-20) se llama funcin de gamma incompleta, cuando no tiene el


denominador con () en el integrador.
Cuando se usan las funciones (5-19) y (5-20) la tarea se facilita usando la
tabla de la distribucin gamma, con valores de = 1, 2, 3,,10 y de x = 1, 2,,15.
El promedio y la varianza de la distribucin gamma son, respectivamente:
E(X) = = (5-21)
y V(X) = 2 = 2 (5-21a)

Figura 5.10. Grficas con distribuciones gamma de densidad con diferentes valores
de y y curvas de densidad gamma estndar. Ntese que cuando = 1, es la
curva exponencial. (Devore 2000).
Ejemplo #29. Supngase que se tiene una distribucin gamma estndar con
parmetro = 3, calcular:

5-29
Dr. Hctor Quevedo Uras

(a) La probabilidad de que X est entre 4 y 5.


(b) La probabilidad de que X sea mayor que 4
Solucin:
Debido a que P(a X b) = F(b) F(a) cuando X es continua, por lo tanto:
(a) P(4 X 5) = F(5;3) F(4;3)
= 0.875 0.762 = 0.113
(b) P(X > 4) = 1 P(X 4) = 1 F(4,3)
= 1 - .762
= 0.238
Ejemplo #30. Este problema involucra un experimento con conejillos de India
seleccionados al azar. Este es un estudio relacionado con el tiempo X de
supervivencia, en semanas. Los animales fueron expuestos a una radiacin de 400
rads (dosis de radiacin absorbida), es decir, de radiacin gamma (energa
radiante). Se asume que esta situacin sigue a una distribucin gamma con
parmetros de escala de = 10 y = 20. Siendo as, hacer los siguientes clculos:
(a) Calcular la media de supervivencia y la varianza.
(b) Calcular la probabilidad de que un conejillo sobreviva entre 80 y 120 das.
(c) La probabilidad de que un animal sobreviva, cuando menos 20 das.
Solucin:
Aqu usamos la distribucin gamma no estandarizada.
(a) El promedio es: E(X) = = = (10)(20) = 200 das.
La varianza es: V(X) = 2 = 2 = (10)(20)2 = 4000 das.
(b) P(80 X 120) = F(120/20;10) F(80/20;10)
= F(6;10) F(4;10)
= 0.084 - 0.008 (de la tabla de la distribucin de gamma)

5-30
Dr. Hctor Quevedo Uras

= 0.076
Esto dice que el valor de 0.076 es la probabilidad de que un conejillo sobreviva
entre 80 y 120 das.
(c) P(X 20) = 1 - P(X < 20)
= 1 - F(20/20;10)
= 0.000 (de la tabla de la distribucin gamma)
Distribucin Weibull
La distribucin Weibull fue introducida por el fsico sueco Waloddi Weibull en
1939. En forma anloga a las distribuciones gamma y exponencial la distribucin
de Weibull tiene aplicaciones relacionadas con tiempo de falla o longitud de vida.
Es decir, para medir la confiabilidad de un componente o producto, como la
probabilidad de que si funcionar apropiadamente, por cuando menos un tiempo
especificado bajo condiciones experimentales especificadas. Esta funcin,
igualmente, se usa en el diseo de sistemas complicados, cuya operacin o
seguridad depende de los varios componentes involucrados en el sistema. Por
ejemplo, una columna de acero puede vencerse. Otra aplicacin es el modelado de
algn aparato sensible al calor que pueda fallar. Otra aplicacin sera el estudio de
componentes idnticos sujetos a condiciones ambientales idnticas, que puedan
fallar a tiempos diferentes e impredecibles.
La funcin de probabilidad de densidad (pdf) de la distribucin Weibull es:
f (x) = x-1 exp-(x/)2 / , x > 0 (5-22)
Donde y son los parmetros condicionados a > 0 y > 0

5-31
Dr. Hctor Quevedo Uras

Figura 5.11. Grfica mostrando la curva de densidad de Weibull. Ntese que cuando
= 1 y = 1, la curva se torna exponencial. (Devore, 2000)

Proposicin: La funcin de distribucin acumulada (cdf) de una variable aleatoria


que tiene parmetros y es:
F(x;,) = {1 exp-(x/) x 0 (5-22a)
Ejemplo #31. Supngase que X tiene una distribucin de Weibull con parmetros =
20 y = 100 (Devore, 2000). Entonces, calcular:
(a) P(X 105)
(b) P(98 X 102)
Solucin:
(a) P(X 105) = F(105;20,100) = 1 exp-(105/100)20
= 1 - .070 = .930
(b) P(98 X 102) = F(102;20,100) F(98;20,100)
= exp-(.98)20 exp-(1.02)20
= .513 - .226 = .287
Intervalos de confianza para con 2 conocida

Se sabe que la estadstica Z = ( X - ) / / n sigue a la distribucin normal, con = 0

5-32
Dr. Hctor Quevedo Uras

y = 1. Si todas las muestras posibles de un tamao n son sacadas de una poblacin y


el valor de Z se calcula para cada muestra, el 95% o 99% de los valores de Z caern
entre z/2 y z/2. Sabemos que la probabilidad de que z est entre z/2 y z/2 es 1 .
Esto se puede expresar como:
P(-z/2 < Z < z/2) = 1 . (5-23)

Para esto se sustituye el valor de Z y se multiplica cada elemento de (5-23) por / n


y luego se le resta X de cada trmino. Despus de esto, se multiplica por -1
(reversando el sentido de las desigualdades) y nos da la funcin de abajo:

P( X - z/2 / n < < X + z/2 / n ) = 1 (5-24)

Donde:

La probabilidad 1 se llama el nivel de confianza


X z/2 / n se llama el lmite de confianza inferior

X + z/2 / n se llama el lmite de confianza superior

TABLA 5.2. Tabla mostrando los niveles de confianza ms comunes (Elaboracin


propia)
___________________________________________________________________
Nivel de confianza 1 /2 z/2
_________________________________________________________________
.95 .05 .025 1.96
.99 .01 .005 2.58
.90 .10 .05 1.645

Ejemplo #32. En una muestra aleatoria de 100 observaciones de concentraciones de


xidos de nitrgeno (NO) atmosfrico sacada de una poblacin normal tiene = 25 y
X = 20, con un tamao de muestra de n = 100. Encontrar el intervalo de confianza

5-33
Dr. Hctor Quevedo Uras

estimado del 95% para el promedio poblacional .


Solucin:
Usando la ecuacin (5-24), con = 25, X = 20 y n = 100, = 0.05 y con regiones
crticas de 1.96 da:
P(20 1.96 (25)/ 100 < < 20 + 1.96 (25)/ 100 ) = 1 -

15.1 < < 24.9

Estadstica inferencial. Teora de decisin estadstica. Pruebas de hiptesis

En la prctica es necesario hacer decisiones acerca de problemas basndose en


muestras estadsticas. Semejantes decisiones se llaman decisiones estadsticas. Las
pruebas de hiptesis se pueden hacer con la distribucin normal para estimar los
parmetros de poblacin , 2, , , , etc., si el tamao de la muestra es n 30
observaciones. Sin embargo, si el tamao de la muestra es n < 30 casos, entonces, se
puede usar lo que se llama teora de muestreo pequeo, usando la distribucin de t de
Estudiante.
En este rengln, para hacer pruebas de hiptesis e intervalos de confianza,
tambin se puede usar la distribucin de la JI cuadrada (2), para estimar los
parmetros poblacionales 2 y . Adems, se puede usar la distribucin F, es decir,
haciendo tablas de anlisis de varianzas, etc.
Pruebas de Hiptesis estadsticas. Hiptesis nula (Ho:) e hiptesis alternativas
Para problemas de pruebas de hiptesis clsicas (se dice que son clsicas, porque se
disearon el siglo antepasado) se contrastan con el nuevo enfoque moderno del
clculo de la probabilidad, p de programas de computadora de la era ciberntica.
Al tratar de alcanzar decisiones estadsticas, es necesario asumir situaciones
acerca de las poblaciones involucradas en trabajos de investigacin. Semejantes

5-34
Dr. Hctor Quevedo Uras

suposiciones, que pueden o no ser verdaderas, se llaman hiptesis nulas. En muchas


ocasiones formulamos una hiptesis estadstica, con el propsito de rechazarla o,
cuando menos, de no aceptarla en base de la evidencia obtenida.
Con la investigacin cientfica la idea detrs de hacer pruebas de hiptesis es la
de tratar de producir evidencia para rechazar la hiptesis. Esto se debe a que, el
rechazo de una hiptesis, en trabajos de investigacin denota diseos experimentales
fuertes, precisos y concisos. Adems, con la ingeniera de manufactura, el propsito
de hacer pruebas de hiptesis es con el objeto de verificar el control de calidad de los
productos producidos por la industria manufacturera. No obstante, si la hiptesis no
se puede rechazar pueda deberse a que la evidencia que pudiera rechazar la hiptesis,
no se puede producir. Esto puede resultar de una muestra pequea o de un error
experimental excesivo (donde hay mucha variacin).
La manera de producir evidencia para rechazar la hiptesis es analizando el
error estndar del promedio, el cual prueba que ambos errores, I (alfa) y II (beta)
pueden ser reducidos aumentando el tamao de la muestra o disminuyendo la
desviacin estndar. Esto lo podemos demostrar analizando el error estndar de la
muestra. Esto es:
X =/ N (5-25)
o su estimador s=s/ n (5-25a)

Aqu, sin embargo, cabe notar que existen varios errores estndares de las
distribuciones estadsticas. Esta informacin se da en la tabla de abajo.

5-35
Dr. Hctor Quevedo Uras

TABLA 5.3. Errores estndares de distribuciones estadsticas. (Elaboracin propia)


___________________________________________________________________
Estadstica Error estndar Observaciones especiales
___________________________________________________________________
Promedios x = / n Esto es verdadero para muestras pequeas o
grandes. La distribucin de la muestra es
normal para n 30, aun si la poblacin no es
normal.

Desviaciones s = / 2 N (1)
estndares s = 4- 2/4N2 (2)

Para N 100 casos, la distribucin de s es


normal. s se da en (1), solamente si hay
normalidad. No obstante, si la poblacin no
es normal, la ecuacin (2) se puede usar.
Ntese que (2) se reduce a (1) cuando 2=
2 y 4 = 34, para poblaciones normales.
Para n 30s =

Varianzas 2s = 2 2 / N (3)

s2 = 4 - 22 / N (4)

Las observaciones hechas para la desviacin estndar aplican aqu tambin. Ntese
que (2) da (1) en el caso de una poblacin normal.
___________________________________________________________________

5-36
Dr. Hctor Quevedo Uras

Tipos de errores I (alfa) y II (beta)

Cualesquiera de las hiptesis que sea correcta, siempre hay la posibilidad de que un
error de muestreo nos incline a cometer lo que se llaman errores I o II. As, podemos
rechazar una hiptesis nula Ho: que es verdadera o podemos aceptar una hiptesis
nula que es falsa. Si se rechaza una hiptesis, cuando debi ser aceptada, se dice que
se cometi el error I. En contraste, si se acepta una hiptesis falsa, cuando debi ser
rechazada, se dice que se cometi el error II. Como se ver, estos dos errores se
pueden evitar aumentando el tamao de la muestra estadstica y/o reduciendo la
desviacin estndar (esto se puede probar a travs del error estndar del promedio,
que es igual a s/ n ).
De cualquier manera, como se asent antes, la idea de una prueba de hiptesis
es tratar de producir evidencia para rechazar la hiptesis nula, Ho: Si no se puede
rechazar la hiptesis nula, esta falta de evidencia puede resultar, ya sea a travs de una
muestra insuficientemente grande o a travs de un error de laboratorio excesivamente
grande (que se refleja en la desviacin estndar, ). Tambin, la aceptacin de una
hiptesis falsa puede deberse a una variacin inherente de la poblacin que estamos
muestreando (como en el caso de las temperaturas a nivel mundial cuyos registros se
estn rompiendo cada ao, por el calentamiento global debido a las emisiones de
bixido de carbono). De cualquier manera de estas tres variables, es la ms sensible.

5-37
Dr. Hctor Quevedo Uras

Figura. 5.12. Distribucin de los promedios de dos muestras de las curvas A y B


ilustrando el tipo de error II o beta con = 50 (en curva A) y = 10, con un nivel de
significancia de = 0.05 y con un tamao de muestra de n = 16. (Li 1964)

Figura 5.13. Grficas mostrando como se reduce la probabilidad de cometer los


errores I y II, al aumentar el tamao de n. (Li 1964).
Niveles de significancia
En la prueba de una hiptesis, la mxima probabilidad con la cual pudiramos
arriesgar el tipo de error I se llama el nivel de significancia de la prueba. Este nivel se

5-38
Dr. Hctor Quevedo Uras

especifica antes de que se saquen las muestras y se haga la prueba de hiptesis, para
que no haya influencia sobre los resultados obtenidos.
La prueba de significancia es cuando se especifica la probabilidad con la cual
estamos dispuestos a arriesgar el rechazo de la hiptesis, acerca del promedio
poblacional, aun cuando es verdadero. Los niveles de significancia ms usados en las
pruebas de hiptesis son el de = 0.05 y = 0.01. Estos valores corresponden a
niveles crticos de 1.96 y 2.58, cuando se usa la distribucin normal z. Por ejemplo,
en pruebas de hiptesis bilaterales, con = 0.05, si la z calculada es z < -1.96 o z >
1.96, se rechaza la hiptesis. Igualmente ocurre si el nivel de significancia es = 0.01,
es decir, cuando z < -2.58 y z > 2.58, entonces, se rechaza la hiptesis. De otra
manera se retiene o se dice que no hubo suficiente evidencia para rechazar Ho: Esta
prueba de significancia nos ayuda a decidir si la diferencia entre el promedio de la
muestra estadstica y el promedio poblacional asumido, se atribuye a la casualidad o
si es estadsticamente significante, esto es, si es muy grande para ser atribuido a la
casualidad. La TABLA 5.4 da los valores crticos ms comunes.
TABLA 5.4. Tabla mostrando las regiones crticas que se definen de acuerdo al valor
del nivel de significancia usado, es decir, si la prueba de hiptesis es bilateral,
unilateral derecha o unilateral izquierda. (Elaboracin propia)

Nivel de significancia 0.10 0.05 0.01 0.005 0.002


Valores crticos de z
para pruebas unilaterales 1.28 1.645 2.33 2.58 2.88
(derecha o izquierda)
Valores crticos de z para 1.645 1.96 2.58 2.81 3.08
pruebas bilaterales
Por ejemplo si usamos un nivel de confianza de 95%, es decir, un nivel de

5-39
Dr. Hctor Quevedo Uras

significancia de = 0.05, para una prueba de hiptesis unilateral izquierda, entonces,


bajo estas condiciones, el valor crtico de z es -1.28. Similarmente, si se usa el nivel
de significancia de = 0.10, para una prueba de hiptesis unilateral derecha,
entonces, el valor crtico de z es de +1.28.
Cabe notar qu, para las pruebas de hiptesis, los valores de los niveles de
significancia ms comunes son los de = 0.05 y de = 0.01. Por ejemplo, para una
prueba bilateral con = 0.05, los valores crticos de z son de 1.96. No obstante, para
una prueba unilateral izquierda con = 0.05, el valor crtico de z sera de de -1.645 y
as sucesivamente.
Cul es la diferencia en la decisin de aceptar o de rechazar una hiptesis nula?
Para ver esta situacin, supongamos que el valor de la hiptesis nula es igual a un
valor esperado de o = 10, esto es, Ho: = 10. Adems, supongamos que X = 12, =
4.5 y n = 25 y, si despus de sustituir los valores en la variable aleatoria normal
calculada por zcalc. = ( X - o) / / n, con = 0.05 con sus valores crticos de 1.96,
entonces, zcalc. = 2.22, y, por lo tanto, 2.22 > 1.96 y se rechaza Ho: Aqu, la
confiabilidad es dictada por el valor de la probabilidad p, esto es, p = 1 - .9861 =
.0139. Esto dice que, la probabilidad de haber hecho una decisin equivocada en
rechazar una hiptesis verdadera es de, aproximadamente, 1 en 100.
Ahora, supongamos que zcalc. = 1.2, con = 8.333 y con las dems variables
constantes. Bajo estas condiciones, 1.2 < 1.96 y, se acepta Ho: con un valor de
probabilidad de p = 1 - .8849 = .12. Aqu, el valor de p dice que, la probabilidad de
haber hecho una decisin errnea, en haber aceptado una hiptesis falsa es de 1
posibilidad en 10. Entonces, de acuerdo al razonamiento expuesto anteriormente, en
cul de las dos situaciones hay ms confiabilidad, es decir, ms certeza en nuestras
decisiones?

5-40
Dr. Hctor Quevedo Uras

Con la ingeniera de manufactura, un rechazo de hiptesis (especialmente, si el


valor de la probabilidad p es mucho muy significante, e.g., p = .001) sugiere que la
lnea de produccin de la fbrica o de la manufactura industrial de herramientas,
artculos, refacciones, etc., est trabajando en forma ptima. En forma anloga, con la
investigacin cientfica, un rechazo de hiptesis, de una muestra de los resultados
obtenidos de laboratorio, indica un diseo experimental conciso y preciso. No
obstante, una aceptacin de hiptesis sugiere que deben de refinarse las tcnicas de
laboratorio o de la produccin. Tambin se puede hacer seleccionando tamaos de
muestras ms grandes (aunque esto es ms costoso).
Componentes de la prueba de hiptesis formal
1. Pruebas de hiptesis clsicas. Estas pruebas tradicionales se disearon el siglo 19.
Estas pruebas de hiptesis nulas se denotan por Ho: y es una afirmacin acerca del
valor del parmetro de poblacin, . Esta prueba de hiptesis nula (Ho:) se denota
usando desigualdades algebraicas, las cuales se describen con los smbolos =, , .
Esto quiere decir que, la prueba de hiptesis nula y, las hiptesis alternativas tienen
tres formas posibles:
(a) Ho: = o (5-26)
Esta relacin quiere decir que es "igual" al valor esperado de o.
(b) Ho: o (5-26a)
Esta relacin con la desigualdad quiere decir "cuando menos" que o "igual o mayor
que" el valor esperado de o)
(c) Ho: o (5-26b)
En esta relacin la desigualdad quiere decir "a lo menos", "noms que" o "igual o
menor que" el valor esperado de o
2. Pruebas alternativas. Estas pruebas se denotan por los smbolos H1:, H2: o H3:.

5-41
Dr. Hctor Quevedo Uras

Estas pruebas alternativas no deben de contener igualdades, como en el caso de usar


los smbolos =, , o , que denotan las hiptesis nulas, sino que deben de tener
desigualdades como > o <. De manera que, para denotar las hiptesis alternativas,
generalmente, existen tres maneras de expresarlas, esto es:
H1: o, si Ho: = o (5-26c)
H1: < o, si Ho: o (5-26d)
H1: > o, si Ho: o (5-26e)
Por ejemplo, si se prueba la hiptesis nula de que el valor esperado poblacional es o
= 50.0, entonces, la prueba de hiptesis nula es Ho: = 50.0, y las hiptesis
alternativas son Ho: 50.0, H1: > 50 y H2: < 50. Adems, si estuviramos
probando las hiptesis nulas de Ho: 50.0, entonces, la hiptesis alternativa es H1:
< 50. De igual manera, si estuviramos probando la hiptesis nula de que Ho: 50,
entonces la hiptesis alternativa debe ser H1: > 50.0
Nota 1. Si estamos haciendo nuestras propias pruebas, deberamos arreglar las
hiptesis nulas y las alternativas de tal manera que, el error ms serio fuera el rechazo
de una prueba de hiptesis verdadera (error I). Aqu, en este texto, estamos asumiendo
que estamos haciendo las pruebas hechas por alguien ms. Idealmente, deberamos
hacer todas las pruebas y reclamos de tal manera que todas fueran hiptesis nulas.
Estas lneas fueron escritas con el entendimiento de que, no todos los reclamos son
como deberan de ser, porque algunos ejercicios involucran reclamos que son pruebas
de hiptesis nulas y otros que involucran hiptesis alternativas. Por ejemplo, si
queremos decidir si un procedimiento es mejor que otro, formulamos la hiptesis de
que no hay diferencias entre los procedimientos. Semejantes hiptesis se denominan
hiptesis nulas y se denotan por Ho. Tambin podemos empezar con hiptesis
alternativas (o hiptesis de investigacin) que difieren de una hiptesis nula

5-42
Dr. Hctor Quevedo Uras

sustentada. En el establecimiento de las hiptesis, esto, sin embargo, debe estar


basado en hechos, pero no en prejuicios. De cualquier manera, si se rechaza la
hiptesis nula, (Ho:) nos inclinamos por la hiptesis alternativa (H1:).
El criterio para rechazar o aceptar Ho: siguiendo el mtodo clsico, es de que si
el valor de la z calculada, es decir, usando la estadstica z = ( X - ) / / n , es mayor
que la z tabulada (z), con su correspondiente valor crtico de , entonces se rechaza
Ho: y se inclina por la hiptesis alternativa H1:. De otra manera, no se rechaza Ho: o se
pospone la decisin.
3. Pruebas de hiptesis no tradicionales. Esta pruebas involucran los clculos de la
probabilidad, p. Estas pruebas son formas no clsicas de hacer pruebas de hiptesis
nulas, Ho: Estas pruebas vienen en todos los programas de computadora y se pueden
hacer con la distribucin de z, con la distribucin de t de Estudiante, con la JI
cuadrada o la distribucin F.
Identificando las pruebas de estadstica de inferencia bilaterales de (con la cola
derecha o con la izquierda) y pruebas bilaterales (con dos colas de las
distribuciones probadas)
Cuando estamos haciendo pruebas de hiptesis, algunas veces es necesario hacer estas
pruebas en forma bilateral o unilateral (unilateral derecha o izquierda). Esto se hace
usando la distribucin normal, la t de Estudiante, la JI cuadrada, la distribucin de
Fisher, etc.
Cuando hacemos nuestras propias pruebas de hiptesis, y sabemos por
experiencia que los valores esperados de o van a ser mayores de ciertos valores (o
cuando decimos que H1: > o), entonces usamos el extremo derecho de la
distribucin y ponemos el nivel de significancia de = 0.05 o 0.01, con Ho: = a cierto
valor. En forma anloga, si los valores esperados van a ser menores de ciertos valores

5-43
Dr. Hctor Quevedo Uras

(o H1: < que cierto valor), usamos el extremo izquierdo de la distribucin y ponemos
el nivel de significancia de = 0.05 o 0.01. Finalmente, si esperamos que los valores
vayan a ser menores o mayores de ciertas cantidades (Ho: = a un determinado valor),
entonces usamos los dos extremos de la distribucin y dividimos , igualmente, entre
dos, para que nos d, = 0.05/2 o = 0.01/2, etc.
Si hacemos las pruebas de otros, por medio del examen de la hiptesis nula,
Ho: podemos deducir si la prueba es de dos colas o de una cola (derecha o izquierda).
Por ejemplo, si Ho: = 98.6, entonces H1: 98.6 y se dice que las pruebas
alternativas son de H1: > 98.6 y H1: < 98.6. No obstante, si la prueba de hiptesis
nula es de Ho: 98.6, entonces, la cola de la hiptesis alternativa (que es lo
contrario de la hiptesis nula Ho:) apunta a la izquierda (como < 98.6), y la prueba
es de la cola izquierda (unilateral izquierda). Sin embargo, si Ho: 98.6, entonces la
prueba es de que > 98.6, y la prueba es de la cola derecha (unilateral derecha).
Resumen en el establecimiento de las pruebas de hiptesis bilaterales (dos colas)
o unilaterales (de la cola derecha o de la izquierda):
Si la prueba de hiptesis nula es Ho: = o, entonces, la prueba es bilateral y las
hiptesis alternativas son: H1: o. H2: > o y H3: < o, donde o es el valor
esperado.
Si la prueba de hiptesis nula es Ho: o, entonces, la prueba es unilateral izquierda
y la hiptesis alternativa es H1: < o.
Si la prueba de hiptesis nula es Ho: o, entonces, la prueba es unilateral derecha y
la hiptesis alternativa es H1: > o.
Definiendo los pasos clsicos en el procedimiento para hacer pruebas de
hiptesis
1. Establecer la prueba de hiptesis nula (Ho:) y el promedio esperado o y las pruebas

5-44
Dr. Hctor Quevedo Uras

de hiptesis alternativas (H1, H2:, H3:). En este rengln, si se usa la distribucin


normal, tambin es necesario hacer ciertas suposiciones de que la muestra es aleatoria,
de que la poblacin muestreada es normal y, de que la desviacin estndar
poblacional, es conocida.
2. Seleccionar el nivel de significancia de deseado (0.05, 0.01, etc., e. g. del 95%,
del 99%, etc.). Aqu, para la prueba de dos colas, es z/2 y para las colas derecha o
izquierda, simplemente .
3. Determinar la prueba estadstica que se va a usar para el promedio, la varianza, las
proporciones, etc., que se van a probar, es decir, usando las distribuciones z, t, 2, F,
etc. De esta manera, si n 30 casos se usa la distribucin de z para el promedio. De
otra manera, si n < 30 se usa lo que se llama teora de muestreo pequeo, como la t de
estudiante, la JI cuadrada, etc.
4. Definir las regiones crticas, es decir, de una cola (izquierda o derecha) o de dos
colas. (Ver resumen de pruebas para dos colas, para la derecha o para la izquierda).
Por ejemplo, si H1: > un valor, se usa la cola derecha. Si < que un valor, se usa la
cola izquierda, pero si es desigual a un valor dado se usan dos colas. Aqu, sin
embargo, es de notarse que estas circunstancias dependen del diseo experimental que
se quiera hacer.
5. Definir la regla de decisin, es decir, de rechazar o de retener o aceptar la hiptesis
nula, Ho: y/o de inclinarse por las hiptesis alternativas, H1:, H2:, etc.
6. Hacer los clculos necesarios de los datos de la muestra y calcular el valor de la
funcin estadstica de las distribuciones de z, de t, de 2, etc., que se vayan a usar. Por
ejemplo, si usamos la distribucin normal de z o la de t de estudiante para el promedio
aritmtico, usamos:
z = ( X - ) / / n o bien t = ( X - ) / s/ n

5-45
Dr. Hctor Quevedo Uras

Ntese que la nica diferencia entre la z y la t es de que en la z se usa y en la t se usa


s para la desviacin estndar.
7. Comparar el valor de la funcin usada con la regla de decisin establecida, y hacer
la decisin estadstica clsica o tradicional (que se dise en el siglo antepasado)
acerca de la hiptesis nula. Aqu tambin se puede hacer la prueba de la probabilidad
de p, que es una prueba no tradicional o moderna de la era ciberntica. As, si el valor
de la estadstica calculada es mayor que la zc o t tabuladas, se rechaza la hiptesis
nula, Ho: y se inclina por la hiptesis alternativa. De otra manera no se rechaza Ho: o
no se hace ninguna decisin. Esta prueba de probabilidad p, se hace para ver, con qu
tanta fidelidad (en trminos de probabilidad) pudiramos estar acertados o
equivocados en haber rechazando la hiptesis nula. Aqu, por ejemplo, si el valor de p
es menor que el valor del nivel de significancia de , se rechaza la hiptesis y se dice
si es significante o muy significante, etc.
Reglas de decisin bajo varias condiciones con las distribuciones z y t
Para la distribucin normal:
Cuando n 30 casos, conocida y, a sabiendas que la distribucin es normal.
Para pruebas bilaterales (dos colas): rechazar Ho: y aceptar H1:, si el valor de la
estadstica z es mayor que la zc tabulada; de otra manera aceptar Ho: o postergar la
decisin.
Para pruebas unilaterales (una sola cola), digamos, la izquierda: rechazar Ho: y aceptar
H1: si el valor de la estadstica z es menor que la zc tabulada. De otra manera, aceptar
o retener Ho:
Para pruebas unilaterales (una sola cola), digamos la derecha: rechazar Ho: y aceptar
H1: si el valor de la estadstica z es mayor que la zc tabulada; de otra manera, aceptar
la Ho:

5-46
Dr. Hctor Quevedo Uras

Para la distribucin de t de Estudiante:


Cuando n 30 casos, desconocida y sabiendo que la poblacin muestreada es
normal.
Para pruebas bilaterales (dos colas): rechazar Ho: y aceptar H1: si el valor de la
estadstica t > +t/2. Hacerlo de igual manera, si el valor de la estadstica t < -t/2; de
otra manera, retener Ho:
Para una sola cola, digamos la izquierda, rechazar Ho: y aceptar H1: si el valor de la
estadstica t < -t; de otra manera aceptar Ho o no hacer ninguna decisin
Para una sola cola, digamos la derecha: rechazar Ho: y aceptar H1: si el valor de la
estadstica t > +t. De otra manera aceptar Ho:
La idea detrs de hacer pruebas de hiptesis
Como se dijo antes, la idea de hacer pruebas de hiptesis es la de acumular evidencia
para rechazar la hiptesis nula. En el campo de la investigacin cientfica, todos los
investigadores siempre estn esperanzados en rechazar las hiptesis nulas de sus
trabajos de investigacin. Cosa similar ocurre con la ingeniera industrial y de
manufactura. Los ingenieros industriales siempre tienen que hacer pruebas de
hiptesis peridicas de los productos manufacturados o de los artculos producidos
por la industria de manufactura. Esto se hace con el objeto de revisar la eficiencia de
la lnea de produccin de la fbrica. Esto se debe a que, al rechazar una hiptesis nula,
esto denota un diseo experimental fuerte y confiable. En la industria de manufactura
los rechazos de hiptesis indican que la lnea de produccin est operando
normalmente.
En las pruebas de hiptesis, el valor de s o de es muy importante, porque ah
se refleja las tcnicas del laboratorio refinadas o defectuosas. Un valor bajo de s
refleja tcnicas de laboratorio muy sofisticadas o refinadas, mientras que un valor alto

5-47
Dr. Hctor Quevedo Uras

de s, refleja lo contrario. Todo esto se explica y se prueba a travs del poder de la


prueba y de los errores estndar del promedio, de la desviacin estndar, etc.
El valor de p en la toma de decisiones
En las pruebas de hiptesis hay otra forma alternativa moderna computarizada de
probar la misma situacin (que se hace con la prueba clsica de hiptesis que se
dise en el siglo antepasado), es decir, el enfoque moderno. En verdad, el valor de p
es la probabilidad, bajo la hiptesis nula (o la probabilidad, si la hiptesis nula es
verdadera), de obtener un valor tan inusual o ms inusual que aqul que obtuvimos de
la muestra, cuando la hiptesis nula es verdadera (una situacin inusitada).
Esta prueba no tradicional se hace usando el valor de la probabilidad p. Por
ejemplo, cuando rechazamos o aceptamos una hiptesis nula Ho: y nos inclinamos por
la hiptesis alternativa, H1:, con un nivel de significancia de = 0.05 o igual a 0.01,
etc., queremos saber, qu tanta confiabilidad podemos poner al hacer nuestras
decisiones estadsticas. Este grado de confiabilidad se da por la probabilidad, p.
En verdad, el concepto filosfico del valor de p es que este valor representa un
decremento en el grado de confiabilidad en un resultado. Este enfoque est diseado
para darnos la alternativa (en trminos de probabilidad), de rechazar o no rechazar la
hiptesis sustentada. As, entre ms bajo sea el valor de p, menos podemos creer en la
hiptesis nula. Especficamente hablando, el nivel de p representa la probabilidad de
error en aceptar los resultados observados como vlidos.
Por ejemplo, con un valor de p = .05 esto significa 1/20, es decir que
pudiramos estar equivocados con una probabilidad de 1 en 20 en la decisin de
rechazar la hiptesis nula, Ho: sustentada. Adems, si p = .01, esto es, 1/100, indica
que pudiramos estar equivocados en nuestra decisin de rechazar la hiptesis con
una probabilidad de 1 en 100. (Aqu, en estos casos, nadie va a argumentar que vamos

5-48
Dr. Hctor Quevedo Uras

a equivocarnos en nuestra decisin, con esta probabilidad tan baja).


En trminos generales, valores grandes de p, digamos > 0.1 apoyan el no
rechazo de la hiptesis (es decir se acepta o se reserva una decisin). Por otro lado,
valores pequeos de p apoyan el rechazo de la hiptesis.
Los tipos de mecanismos que se siguen para establecer las pruebas de hiptesis
1. La hiptesis nula se puede hacer como: Ho: = o. Bajo estas condiciones de
igualdad, las hiptesis alternativas son:
H1: o, H2: < o y H3: > o, donde o es el promedio poblacional que se quiere
probar. Aqu, cabe notar que en este caso, la prueba de hiptesis es bilateral o de dos
colas.
2. Tambin la hiptesis nula se puede hacer como: Ho: o. En este caso, la
hiptesis alternativa es Ho: < o. Aqu, la prueba de hiptesis es unilateral izquierda.
3. Igualmente, la hiptesis nula se puede hacer como: Ho: o. En este caso la
hiptesis alternativa es H1: > o. Aqu, la prueba de hiptesis es unilateral derecha.
4. Seleccionar un nivel de significancia de tamao , esto es, = .05 o = .01 con sus
respectivos niveles de confianza de 95% y 99%. Tambin, se pueden usar otros
niveles de significancia, como el .10, .20, etc., pero los ms comunes son los de 0.05
y .01.
5. Seleccionar la estadstica apropiada (por ejemplo, si n > 30 casos se usa la
distribucin z. Si la muestra es n < 30 casos y la poblacin muestreada no es normal
se usa la distribucin de t, etc.
6. Se establecen las regiones crticas usando niveles de confianza del 95%, 99%, 90%,
80% etc. (95% y 99% los ms comunes)
7. Se estima el valor de la prueba de estadstica de la muestra y se compara con el
valor de la estadstica calculada, es decir, zcalc. o tcalc. (de las regiones crticas) y se

5-49
Dr. Hctor Quevedo Uras

comparan con ztab. o ttab. Si la estadstica calculada es mayor que la estadstica tabulada
(de las regiones crticas) se rechaza la hiptesis nula. De otra manera, se acepta la
hiptesis o no se hace ninguna decisin. De esta manera, si el valor de la estadstica
calculada se mete en las regiones crticas se rechaza la hiptesis nula (o tambin si el
valor de p es menor o igual al nivel de significancia, deseado).
Nota: Aqu es importante recordar que, la prueba de hiptesis nula estadstica se
dise el siglo antepasado. En tiempos modernos de la era ciberntica, existe la
prueba no tradicional relacionada con el valor de la probabilidad p. Tambin es
importante notar que muchos programas de computadora dan nicamente el valor de
p y el investigador o lector tiene que interpretarlo acordemente.
Mecanismos para calcular los valores de la probabilidad p (para la distribucin
normal) cuando se hacen las pruebas de hiptesis no tradicionales (calculando el
valor de p)
1. Para calcular el valor de la probabilidad p, se busca el valor de la z calculada en la
tabla de la distribucin normal, con el valor del nivel de significancia usado. Los
criterios que se siguen se hacen comparando el valor de la p con el valor de .
2. Los criterios que se siguen para interpretar el valor de p son:
P .05 La prueba est en el umbral de la significancia. Aqu casi siempre se
acepta la hiptesis nula. Es un argumento dbil y no convincente en la pruebas de
hiptesis. Nos deja en una situacin de incertidumbre. Nos dice que, tal vez as
sea.
P .01 La prueba es altamente significativa. Se considera un argumento
estadstico muy fuerte en contra de la aceptacin de la hiptesis nula. La
probabilidad de .01 dice que pudiramos habernos equivocado en la
decisin de rechazar la hiptesis nula, con una probabilidad de 1 en 100 de haber

5-50
Dr. Hctor Quevedo Uras

rechazado una hiptesis verdadera, cuando debi ser aceptada.


P .001 La prueba es mucho muy significativa. Se considera un argumento
estadstico mucho muy fuerte, conciso y preciso. Aqu, la probabilidad con la cual
pudiramos habernos equivocado en haber hecho una decisin errnea en el
rechazo de la hiptesis nula es de una milsima, es decir, de 1 en 1000.
Interpretacin matemtica de los valores de la probabilidad p (Pfaffenberg et al.
1987)
Forma I. Valor de p = 2P[X > x], si Ho: = o con H1: > o
Valor de p = 2P[X < x], si H2: < o
Forma II. Valor de p = [X < x], si Ho: o, con H1: < o
Forma III. Valor de p = P[X > x], si Ho: o con H1: > o
Donde: X es , , = , que, el promedio muestral X
Ejemplo #33. Abajo se dan los valores de la z calculada. Calcular el valor de la
probabilidad p, si:
(a) El valor de z = 3.2, con Ho: = o.
(b) El valor de z = 3.0, con Ho: o
(c) El valor de z = -3.2, con Ho: o.
Solucin:
(a) Buscamos el valor de z = 3.2 en la tabla de la distribucin normal y da un valor de
.9993. Entonces, para calcular el valor de la probabilidad p procedemos como sigue:
p = 1 - .9993 = .0007.
Sin embargo, debido a que la prueba es bilateral, este valor de p se multiplica por 2
para dar p = .0014.
(b) Buscamos el valor de z = 3.0 en la tabla de la distribucin normal y nos da .9987.
Entonces, para calcular el valor de la probabilidad, p procedemos como:

5-51
Dr. Hctor Quevedo Uras

p = 1 - .9987 = .0013
Como la prueba es unilateral, as se queda.
(c) Para z = -3.2 con Ho: o. Esta es una prueba unilateral izquierda (porque el
valor de z es negativo). Buscamos este valor en la tabla de la distribucin normal y da
.0007.
Metodologa para calcular los valores de la probabilidad p dependiendo de la
estadstica usada
Para las pruebas de hiptesis no tradicionales, es decir, usando el valor de la
probabilidad p, es necesario hacer interpolaciones de los valores obtenidos. Sin
embargo, en el caso de la distribucin normal, para estimar el valor de la probabilidad
p, no es necesario hacer interpolaciones, porque se puede leer directamente en la tabla
de la distribucin normal el valor de la estadstica z calculada. No obstante, para la
distribucin de t de estudiante, para la distribucin Fisher, para la distribucin de la JI
cuadrada, etc., si es necesario hacer interpolaciones. Esto se hace buscando el valor de
la estadstica calculada en la tabla de la distribucin que se est usando con su
correspondiente valor de grados de libertad y del valor porcentual deseado.

Frmula emprica para hacer interpolaciones y calcular el valor de la


probabilidad p
Aqu vamos a dar un mtodo para hacer interpolaciones usando una frmula emprica
diseada por el autor de este libro, el Dr. Hctor Quevedo Uras (autor de este libro) y
por la Dra. Socorro Arteaga. Esta frmula se da como:
(2 1)/(TR2 TR1) = (2 X)/(TR2 TRcalc.) (5-27)
Donde:
2 = El nivel de confianza ms alto de la tabla de la distribucin usada.

5-52
Dr. Hctor Quevedo Uras

1 = El nivel de confianza ms bajo de la tabla usada.


TR2 = probabilidad de la estadstica usada correspondiente a 2.
TR1 = probabilidad de la estadstica usada correspondiente a 1.
X = valor que se quiere interpolar. Aqu, cuando la prueba es bilateral este valor se
multiplica por 2.
TRcalc. = valor de la estadstica calculada.
Frmulas para calcular el valor de p por medio de interpolaciones para
diferentes distribuciones
Para la distribucin de t de Estudiante (la cual se retomar en el captulo 6):
(2 1) / (t2 t1) = (2 X) / (t2 tcalc.) (5-28)
Para la distribucin de la JI cuadrada:
(2 1) / (22 21) = (2 X) / (22 2calc.) (5-29)
Para calcular la distribucin F:
(2 1) / (F2 F1) = (2 X) / (F2 Fcalc.) (5-30)
Ejemplos mostrando la manera de calcular el valor de la probabilidad p
Ejemplo #34. Supngase qu, si el valor calculado de la estadstica de la distribucin
de z fuera, digamos de z = - 3.4 con una prueba de hiptesis bilateral, entonces,
buscamos este valor en la tabla de la distribucin normal y nos da .0003. Este valor es
precisamente el valor de la probabilidad p. Pero como la prueba es bilateral, se
multiplica por dos y da p = .0006.
Ejemplo #35. Supngase ahora que el valor de la estadstica z fuera digamos z = 3.4
con una prueba bilateral. Entonces buscamos este valor en la tabla de la distribucin
normal y vemos que est al extremo derecho con un valor de .9998. Ahora le
restamos 1 y nos da p = 1 - .9998 = .0002. Nuevamente, como la prueba es bilateral,
el valor lo multiplicamos por dos y da p = .0004.

5-53
Dr. Hctor Quevedo Uras

5-54
Dr. Hctor Quevedo Uras

Prueba de hiptesis para un solo promedio poblacional con varianza 2


conocida usando la distribucin normal
Una hiptesis estadstica es una aseveracin o conjetura con respecto a una o ms
poblaciones. En estadstica, una hiptesis es un enunciado de que algo es verdadero.
En la verdad o falsedad de una hiptesis estadstica siempre hay una incertidumbre,
porque no se puede muestrear toda la poblacin (esto sera imposible). En lugar de
esto, se toma una muestra aleatoria de la poblacin de inters y se usan los datos para
proporcionar evidencia (en trminos de la probabilidad p) para apoyar o refutar la
hiptesis. Por ejemplo, la aceptacin de una hiptesis nula implica que no hay
suficiente evidencia para poder rechazar la hiptesis. No obstante, si se rechaza una
hiptesis hay una evidencia ms fuerte e implica un diseo experimental fuerte,
preciso y conciso. Contrariamente, el no rechazo de una hiptesis implica un diseo
experimental dbil, con una muestra de insuficiente tamao o tcnicas de laboratorio
defectuosas que conllevan mucha variacin.
La estadstica que se usa para hacer pruebas de hiptesis para un solo promedio
poblacional , con varianza conocida usando la distribucin normal, a sabiendas de
que la poblacin muestreada es normal o que n > 30 casos, es:
z = ( X o) / / n (5-31)
Donde:
z = variable aleatoria normal estndar
X = promedio estadstico
o = valor esperado del promedio
= desviacin estndar conocida
n = tamao de la muestra
La tabla de abajo muestra los clculos de las regiones crticas usando diferentes

5-55
Dr. Hctor Quevedo Uras

niveles de significancia.
TABLA 5.5. Tabla mostrando las regiones crticas de acuerdo al valor del nivel de
confianza usado, es decir, si la prueba de hiptesis es bilateral, unilateral derecha o
unilateral izquierda. (Elaboracin propia)
Nivel de confianza (%) 90% 95% 99% 99.5%
Valores crticos de z
para pruebas unilaterales 1.28 1.645 2.33 2.58
(derecha o izquierda) o -1.28 o -1.645 o -2.33 o -2.58
___________________________________________________________________
Valores crticos de z para 1.645 1.96 2.58 2.81
pruebas bilaterales

Por ejemplo si usamos un nivel de confianza de 95%, es decir, un nivel de


significancia de = 0.05, para una prueba de hiptesis unilateral izquierda, entonces,
bajo estas condiciones, el valor crtico de z es -1.645. Similarmente, si se usa el nivel
de significancia de = 0.10, para una prueba de hiptesis unilateral derecha,
entonces, el valor crtico de z es de +1.28.
Cabe notar qu, para las pruebas de hiptesis, los valores de los niveles de
significancia ms comunes son los de = 0.05 y de = 0.01. Por ejemplo, para una
prueba bilateral con = 0.05, los valores crticos de z son de 1.96. No obstante, para
una prueba unilateral izquierda con = 0.05, el valor crtico de z sera de de -1.645 y
as sucesivamente.
Ejemplos de pruebas de hiptesis usando la distribucin normal
Ejemplo #36. Se saca una muestra de 36 anlisis de nitratos (NO3-) para el diseo de
una planta de tratamiento de aguas industriales. Para esto, se calcula un promedio

5-56
Dr. Hctor Quevedo Uras

estadstico de X = 92 mg/L. Estudios previos indican una desviacin estndar


conocida de = 9 mg/L. Probar la hiptesis de que el valor esperado de o es 100
mg/L. Asumir = 0.05 y calcular el valor de la probabilidad p.
Solucin:
1. La hiptesis nula es Ho: = 100.
2. Las hiptesis alternativas son H1:o 100, H2:o > 100, H3:o < 100.
3. Las suposiciones son que la poblacional muestreada es normal, es conocida y, la
muestra es aleatoria.
4. Con el nivel de significancia de = 0.05 (nivel de confianza 95%), las regiones
crticas y los coeficientes crticos son de 1.96.
5. La estadstica usada es la de la distribucin z , z = ( X o) / / n
6. Sustituyendo los valores de X = 92, o = 100, = 9 y n = 36 en la frmula de
arriba da:
z = (92 100) / 9/ 36
= - 5.3
7. Ahora comparando la zcalc. = 5.3 con la z tabulada ztab. Igual a -1.96, se rechaza la
hiptesis y nos inclinamos por H3:o < 100.
8. El valor de la probabilidad p se calcula buscando el valor de 5.3 en la tabla de la
distribucin normal, pero como no est tomamos el valor de .0003. Adems, como la
prueba es bilateral, entonces, multiplicamos .0003 por 2, es decir, (2)(.0003) = .0006.
Este valor es mucho muy significante y da mucha evidencia para apoyar el rechazo de
la hiptesis.
Ejemplo #37. Una muestra aleatoria de 36 concentraciones atmosfricas de xidos de
nitrgeno (NOx), en mg/L, mostr un promedio estadstico o de la muestra de X =

5-57
Dr. Hctor Quevedo Uras

74.0 mg/L. Suponiendo que 2 = 81.0 mg/L, indicara esto que un lmite de
concentraciones de NOx est arriba de 70 mg/L? Usar = 0.05.
Solucin:
1. La prueba de hiptesis nula debe ser Ho: 70, porque la hiptesis alternativa,
dada por el problema, es H1: > 70.
2. Por lo tanto, la prueba de hiptesis es una prueba unilateral derecha.
3. La regin crtica es z = z0.05 = 1.645
4. La estadstica usada es z = ( X o) / / n
Sustituyendo los valores del promedio X = 74, de la desviacin estndar = 9, n =
36 y o = 70 en la funcin estadstica z da:
z = (74 70) / 9/ 36 = 2.66
5. Al comparar el valor de zcalc. = 2.66, con ztab. = 1.645, se rechaza la hiptesis nula y
se dice que, H1: > 70, con un valor de p = 1 - .9961 = .0039, de haber hecho la
decisin equivocada. Aqu, ntese que el valor de p no se multiplica por 2, porque la
prueba es unilateral derecha. Como resultado, la evidencia a favor de H1: es ms
fuerte que la sugerida por un nivel de significancia de 0.05 (porque .0039 <<< 0.05).
Ejemplo #38. En un estudio de la ingeniera ambiental atmosfrica, para evitar la
contaminacin ambiental producida por el consumo excesivo e innecesario de
gasolina, en el diseo de un motor de combustin interna, el departamento de
ingeniera de un constructor de autos, de cierto modelo, afirma que el rendimiento del
millaje de este modelo de auto es de cuando menos 35 millas por galn. El
departamento de control de calidad sugiere que el valor de la desviacin estndar es
de = 4 millas. La Environmental Protection Agency de Estados Unidos de Amrica
quiere probar esta afirmacin para ver si la figura afirmada debera ser ms alta o ms
baja que 35 millas por galn. Para esto, se saca una muestra aleatoria de 50 modelos

5-58
Dr. Hctor Quevedo Uras

de este tipo y se prueban bajo circunstancias iguales. Los resultados dan un promedio
muestral de 33.6 millas por galn. Probar el reclamo del departamento de ingeniera
usando un nivel de significancia de 0.05. Calcular el valor de p.
Solucin:
1. La prueba es bilateral, porque un promedio muestral significantemente, ms alto
que 35 (cola derecha) o menos que 35 (cola izquierda) es una fuerte evidencia contra
la hiptesis nula de = 35.
2. Las regiones crticas son distribuyendo = 0.05 igualmente entre las dos colas para
obtener 0.025 en cada una, con esto, los valores crticos son de 1.96.
3. Usamos la funcin estadstica y sustituimos los valores y da:
z = ( X o) / / n
z = (33.6 35) / 4 50 = -2.47
4. En conclusin, debido a que el valor de -2.47 se introduce en el extremo izquierdo
de la distribucin normal, se rechaza la hiptesis. El valor de p es de .0068, pero
como son dos colas, entonces, este valor se multiplica por 2 y da .0136. Ver figura de
abajo.

X = 33.6
z = -2.47
Figura 5.14. Grfica mostrando los valores crticos para el problema de arriba.

5-59
Dr. Hctor Quevedo Uras

(Elaboracin propia)
Ejemplo #39. El estndar qumico para el agua potable, en cuanto a slidos disueltos
totales (SDT) es de 500 mg/L. Para probar esta aseveracin se saca una muestra
aleatoria de 144 casos y da un promedio aritmtico estadstico de 503 mg/L, con una
desviacin estndar de 15 mg/L. Probar la hiptesis de que el estndar qumico, para
el agua potable es de no ms de 500 mg/L. Para esto, usar = 0.05 y calcular el valor
de p.
Solucin:
1. La prueba de la hiptesis nula es Ho: 500. Esto quiere decir que, la prueba es
unilateral derecha.
2. La hiptesis alternativa es H1: > 500.
3. La regin crtica es unilateral derecha, esto es, z = z0.05 = 1.645.
4. Ahora, sustituyendo los valores correspondientes de X = 503, = s = 15, n = 144 y
o = 500, en la funcin de z nos da:
zcalc. = (503 500) / 15/ 144 = 2.4
5. En conclusin, debido a que el valor de la estadstica se introduce en el extremo
derecho de la distribucin, se rechaza la hiptesis nula y se inclina por la hiptesis
alternativa.
6. El valor de la probabilidad p se calcula buscando el valor de 2.4 en la tabla de la
distribucin normal y da .9918, pero como queremos nicamente el valor de p, le
restamos 1 y nos da p = 1 - .9918 = .0082. Este valor es muy significante.
Ejemplo #40. Se calcula el promedio muestral de 5 ppm de cadmio (Cd), para medir
la calidad del aire, de cierta regin industrial. Esto se hace sacando una muestra de 36
observaciones de Cd atmosfrico. Hacer lo siguiente:
(a) Una prueba de hiptesis con o = 4.85 ppm, con = 0.05 y = 0.01

5-60
Dr. Hctor Quevedo Uras

(b) Adems, calcular el valor de la probabilidad p e interpretarlo acordemente. Otros,


encontrar los intervalos de confianza con los mismos valores de de arriba, para el
promedio poblacional .
Asumir que la desviacin estndar poblacional es de 0.3.
Solucin:
(a) La prueba de hiptesis nula es Ho: = 4.85. Las pruebas alternativas son de H1:
4.85, H2: < 4.85 y H3: > 4.85.
Las regiones crticas con = 0.05 y = 0.01, para una prueba de hiptesis bilateral
son, respectivamente, 1.96 y 2.58.
Usando la estadstica z = ( X o) / / n con X = 5 ppm, o = 4.85, = 0.3 y n = 36
y sustituyendo todos estos valores en la estadstica de arriba nos da:

z = (5.0 4.85) / 0.3/ 36 = 3.0

En conclusin, debido a que el valor de zcalc. = 3.00 es mayor que el valor crtico de
1.96 se rechaza Ho: y nos inclinamos por la hiptesis alternativa de H3: > 3.85. Cosa
similar ocurre con el nivel de significancia de = 0.01, porque el valor de 3.00 es
mayor que el valor crtico de 2.58.
Por otra parte, con respecto a la estimacin del intervalo de confianza del 95%,
que corresponde a un nivel de significancia de = 0.05, los valores crticos son de
1.96. La estimacin puntual de es X = 5.0. Para calcular el intervalo de confianza
de 95%, se sustituyen los valores en ecuacin (5-24) de abajo para dar:
X z/2 / n < < X + z/2 / n

5.0 (1.96)(0.3)/ 36 ) < < 5.0 + (1.96)(0.3/ 36 )


El cual se simplifica a:

5-61
Dr. Hctor Quevedo Uras

4.902 < < 5.098


Por otra parte, el valor correspondiente a un intervalo de confianza del 99%, es
decir, con un nivel de significancia de = 0.01, en este caso los valores crticos son
de 2.575. La estimacin puntual de es X = 5.0. De aqu que el intervalo de
confianza del 99%, es:
5.0 (2.58)(0.3/ 36 ) < < 5.0 + (2.58)(0.3/ 36 )
El cual se simplifica a:
4.871 < < 5.129
Ejemplo #41. En un estudio de higiene industrial y seguridad, las temperaturas del
cuerpo de un grupo de 100 trabajadores industriales, que laboran un frigorfico, se
analizaron. La temperatura promedio fue de 98.2 oF con una desviacin estndar de
0.62 oF. Encontrar el mejor punto estimador del parmetro poblacional de todas las
temperaturas del cuerpo. Para un nivel de confianza de 95%, encontrar, ambos, el
margen de error E y el intervalo de confianza para .
Solucin:
Usando la funcin:
X z/2( n ) < < E + z/2(/ n ) (5-32)
Donde: E = margen de error = z/2(/ n). Ahora, sustituyendo los valores apropiados,
con z/2 = 1.96, = s = 0.62 (porque n > 30), X = 98.2 y n = 100, obtenemos:
98.2 1.96(0.62)/( 100 ) < < 98.2 + 1.96(0.62)/ 100 )
98.2 0.12 < < 98.2 + 0.12
98.08 < < 98.32
El valor del margen de error es E = 1.96(0.62)/( 100 ) = 0.1215.
Este intervalo 98.08 < < 98.32 dice que si furamos a seleccionar muchas muestras

5-62
Dr. Hctor Quevedo Uras

de un tamao de 100 y construyramos un intervalo de confianza, el 95% de estas


muestras contendran el promedio poblacional . Aqu, ntese que el intervalo de
confianza no contiene el valor de 98.6 oF, la cual es la temperatura normal del cuerpo.
Ejemplo #42. Se saca una muestra aleatoria de una poblacin normal. Los valores de
las observaciones son: 22, 24, 22, 25, 30, 28, 29, 28, 24, 23, 25, 27, 26, 23, 24, 21, 22,
21, 25, 21, 23, 24, 21, 20, 21, 20, 22, 28, 27. Hacer los siguientes clculos usando el
programa Minitab.
(a) Calcular la estadstica descriptiva y determinar el 95% del intervalo de confianza
para el promedio poblacional .
(b) Determinar el 95% del intervalo de confianza para la desviacin estndar , y la
mediana.
(c) Hacer una prueba de normalidad usando la estadstica de Kolmogorov-Smirnov.
Solucin:
Para estimar los incisos (a) y (b) usar el programa Minitab de la siguiente manera:
Stat > Basic statistics > Graphical Summary
Esto genera la Figura 5.15 de abajo, la cual incluye histograma con curva normal
sobrepuesta, los intervalos de confianza para el promedio poblacional, la mediana, la
desviacin estndar, la estadstica descriptiva, la prueba de Anderson-Darling, los
cuartiles, etc..

5-63
Dr. Hctor Quevedo Uras

S umma r y for V a lor e s de la s obs e r v a cione s


A n d e rs o n -D a rlin g N o rm a lity T e s t
A -S q u a re d 0 .6 4
P -V a lu e 0 .0 8 5
M ean 2 4 .0 0 0
S tD e v 2 .8 6 6
V a ria n ce 8 .2 1 4
S k e w ness 0.488813
K u rto s is -0 . 8 2 2 3 1 6
N 29
M in im u m 2 0 .0 0 0
1 s t Q u a rtile 2 1 .5 0 0
M e d ia n 2 4 .0 0 0
3 rd Q u a rtile 2 6 .5 0 0
20 22 24 26 28 30 M a xim u m 3 0 .0 0 0
9 5 % C o n f id e n ce I n te rv a l fo r M e a n
2 2 .9 1 0 2 5 .0 9 0
9 5 % C o n f id e n ce I n te rv a l fo r M e d ia n
2 2 .0 0 0 2 5 .0 0 0
9 5 % C o n fid e n c e I n te rv a l f o r S tD e v
9 5 % C o n f id e n c e I n te r v a ls
2 .2 7 4 3 .8 7 6
M e an

M edian

22.0 22.5 23.0 23.5 24.0 24.5 25.0

Figura 5.15. Figura mostrando el histograma de los datos con curva normal
sobrepuesta, los intervalos de confianza para el promedio y la mediana y la estadstica
descriptiva.
Para el inciso (c), es decir, para la prueba de normalidad de los datos esto se hace
usando la estadstica de Kolmogorov-Smirnov, del programa Minitab. Siendo as, se
procede de la siguiente manera:
Basic Statistics Normality Test
En la ventanilla del recuadro de Normality Test introducir las variables y puntear
Kolmogorov-Smirnov. Esto genera la figura de abajo.

5-64
Dr. Hctor Quevedo Uras

Figura mostrando la grafica de los valores.


Normal
99
Mean 24
StDev 2.866
95 N 29
KS 0.085
90
P-Value >0.150
80
70
Percent

60
50
40
30
20

10

1
16 18 20 22 24 26 28 30 32
C1

Figura 5.16. Grfica mostrando la prueba de normalidad usando la funcin de


Kolmogorov-Smirnov.

Como se ve en la Figura 5.16, las probabilidades (o porcentajes en este caso) se


grafican en funcin de los valores estipulados por el problema. Luego el programa
traza una lnea de los cuadrados mnimos, con el objeto de verificar si los puntos estn
dentro de las bandas de confianza. Sin embargo, es de notarse que, en comparacin
con la funcin de Anderson-Darling o de Lilliefors, la prueba de Kolmogorov es
menos precisa que la funcin de Anderson-Darling. Sin embargo, la funcin de
Kolmogorov-Smirnov se sigue usando, tradicionalmente, por muchos investigadores
estadsticos.
Ejemplo #43. Un fabricante de sistemas de aspersin contra incendios, que se instalan
dentro de casas y edificios, argumenta que el promedio poblacional de temperatura de
sus sistemas de aspersin contra incendios es de 54.4 oC. Para esto se saca una
muestra aleatoria de 16 unidades, las cuales, al probarse dan un promedio estadstico

5-65
Dr. Hctor Quevedo Uras

de 55.0 oC, con una desviacin estndar de 1.0 oC. Si se sabe que la distribucin de
los tiempos de activacin de los sistemas de aspersin, contra los incendios, de este
fabricante, es normal, se refutara el argumento del fabricante de que el verdadero
promedio es el que se menciona arriba? Asumir un nivel de significancia de 0.05.
1. Aqu la prueba de hiptesis es Ho: = 54.4 contra la prueba de hiptesis alternativa
de H1: 54.4.
2. Debido a que la prueba de hiptesis llena la condicin de igualdad, la prueba es
bilateral, es decir, z z.025 y z z.025, esto es, z 1.96 o z -1.96.
3. Usamos la distribucin de z, aunque el tamao de la muestra no sea de n > 30
casos. Esto es as, porque sabemos de antemano que la poblacin muestreada es
normal. Tambin se pudiera usar la distribucin de t de estudiante, pero en este caso
es mejor usar la distribucin z porque es mas precisa.
4. Siendo as, el valor de la prueba estadstica es:
z = (55.0 54.4) / 1.0/ 16
= 2.4
5. De acuerdo al inciso (4) el promedio muestral observado se encuentra a 2.4
desviaciones estndar arriba de lo que se hubiera esperado, si Ho: fuera verdadera.
6. En conclusin, debido a que el valor calculado de z cae en la regin crtica derecha,
se rechaza la prueba de hiptesis tradicional.
7. Ahora, para hacer la prueba de hiptesis no tradicional, es decir, calculando el valor
de p, buscamos en la tabla de la distribucin normal el valor de 2.4 y vemos que el
valor de la probabilidad p es p = 2(1 0.9918) = 0.0164.
8. El valor de p = 0.0164 contradice la afirmacin del fabricante de que el verdadero
promedio de sus productos contra incendios es de 54.4 oC.

5-66
Dr. Hctor Quevedo Uras

Pruebas de hiptesis para las diferencias de dos promedios poblacionales (1


2), para muestras grandes (n 30) usando la distribucin normal, con
varianzas conocidas e iguales (21 = 22). Aqu se asume que las dos muestras son
independientes
Hasta ahora, hemos discutido pruebas de hiptesis de una sola muestra aleatoria, es
decir, para un solo promedio. Ahora, vamos a discutir pruebas de hiptesis donde se
involucran 2 muestras provenientes de dos poblaciones. De esta manera, en muchos
problemas prcticos estamos interesados en comparar dos poblaciones con relacin a
alguna caracterstica cuantitativa. Por ejemplo, la comparacin de dos mtodos para
medir el mismo proceso cualitativo o cuantitativo.
En ingeniera ambiental, por ejemplo, se pueden comparar dos mtodos para
medir las concentraciones de arsnico en muestras de agua. Otra aplicacin sera
medir dos mtodos para el cadmio en muestras de agua, y as sucesivamente.
En trminos estadsticos, si se tienen dos poblaciones con medias 1 y 2 y con
varianzas 1 y 2 respectivamente, el estimador puntual de la diferencia de los
promedios (1 - 2) lo da el estadstico ( X 1 X 2). Por lo tanto, para obtener una
estimacin puntual de (1 2) se seleccionan dos muestras aleatorias independientes,
una de cada poblacin de tamaos n1 y n2 y se calcula la diferencia, X 1 X 2. De esta
manera, dejemos que X 1 y X 2 sean los promedios de dos muestras grandes de
tamaos n1 y n2 sacados de dos poblaciones que tienen promedios de 1 y 2 y
desviaciones estndar de 1 y 2, respectivamente. Entonces, si ponemos 1 = 2
estamos diciendo que no hay diferencias entre ambos promedios poblacionales, que
es lo mismo que decir, que dos muestras se sacaron de poblaciones que tienen el
mismo promedio, . La estadstica que se usa para estimar las diferencias entre dos
promedios es:

5-67
Dr. Hctor Quevedo Uras

+
2 2

z = [( X 1 - X 2) - (1 - 2)] / 1 2
(5-33)
n
1 n 2

Donde:
X 1, X 2 = promedios de muestras uno y dos, respectivamente
21, 22 = varianzas de muestras uno y dos respectivamente
( X 1 X 2) = estimador puntual de (1 2)
n1 y n2 = tamaos de muestras uno y dos, respectivamente
z = variable normal estndar
Si se asume que 1 = 2 = , la estadstica de arriba se reduce a:
1 1
z = ( X 1 X 2) (1 2) / + (5-34)
n n 1 2

Las funciones para las pruebas de hiptesis nulas y las alternativas, son:
Ho:1 - 2 = 0 es decir, que 1 = 2
H1: - 2 0 y H2:1 - 2 > y H3:1 - 2 <
Aqu, aunque puede ser cualquier valor constante, muchas veces el valor de es de
0 y se prueba la hiptesis nula de no "diferencia", es decir Ho:1 = 2.
Ejemplo #44. Para medir la calidad del aire de cierta zona industrial, con relacin a
los xidos de azufre, se sacaron dos muestras de tamaos 50 y 75, respectivamente.
Los promedios fueron de 76 mg/L y de 82 mg/L, respectivamente. Asumir que las
varianzas de estas poblaciones son conocidas e iguales a 16. Asumir un nivel de
significancia de = .05. Usando el valor de p, probar que no hay deferencias entre las
dos poblaciones muestreadas, que es lo mismo que 1 = 2, esto es, 1 2 = 0
Solucin:
1. Usamos la funcin de z, porque las muestras son grandes.
2. Las hiptesis nulas y alternativas, son, respectivamente:

5-68
Dr. Hctor Quevedo Uras

Ho:1 2 = 0 y H1:1 2 0
3. Los valores crticos correspondientes a las regiones crticas, con = .05 son de
1.96.
4. Los valores que se substituyen en la frmula (5-34) son:
X 1 = 76, X 2 = 82, n1 = 50, n2 = 75, 1 = 2 = 16. Substituyendo estos valores en la
frmula (5-34) nos dan:
1 1
z = [( X 1 X 2) (1 2)] / +
n n
1 2

1 1
= [(76 82) 0] / 16] + = 2.05
50 75

5. En conclusin, debido a que el valor calculado de z = 2.05 es mayor que la regin


crtica derecha de 1.96, se rechaza la hiptesis y se concluye que los promedios no
son iguales.
6. El valor de la probabilidad p se calcula buscando el valor de z = 2.05 en la tabla de
la distribucin normal y da 0.9798. Por lo tanto, el valor de la probabilidad es p = 2(1
- .9798) = 0.04.
Ejemplo #45. Una compaa farmacutica quiere probar una droga para la fibrosis
pulmonar, la cual es muy comn entre los trabajadores industriales. Para esto se
prueban dos grupos, es decir, el de "control" (que no usan la droga) y el grupo de
"tratamiento" (que si usan la droga). Se toma una muestra de 50 trabajadores a los
cuales se les da la droga y otro grupo ms de 100 personas, al cual no se les da la
droga. La presin arterial se toma para cada sujeto. La compaa de drogas afirma que
la droga no causa ningn efecto secundario, para el grupo de tratamiento. Dicho en
otras palabras, esto dice que el promedio 1 del grupo control y el promedio 2 del
grupo de tratamiento son iguales. Probar el reclamo de la compaa de que no hay

5-69
Dr. Hctor Quevedo Uras

efectos secundarios entre el grupo que toma la droga y el que no la toma. (Nota: En
este problema, de acuerdo al autor de este libro de estadstica, el uso de medicamentos
artificiales siempre causar efectos secundarios. Esto se debe a qu, el cuerpo es una
esencia natural, que no puede aceptar artificialismos, por ser antagnicos al diseo
natural del organismo humano. Adems, el medicamento artificial ataca un efecto
reactivo (el sntoma de la enfermedad), ms no su origen causal (vida antinatural). En
verdad, el efecto secundario es una reaccin orgnica natural, en respuesta a la accin
incompatible del artificialismo mdico. De cualquier manera, para este problema usar
el nivel de significancia de = .05. Los clculos de las variables y sus valores se dan
en la tabla de abajo.
TABLA 5.6. Tabla mostrando los datos del Ejemplo #45.
_________________________________________________________________
Grupo de tratamiento Grupo de control
_________________________________________________________________
n1 = 50 n2 = 100
X 1 = 203.4 X 2 = 189.4
1 = 39.4 2 = 39.0
_________________________________________________________________

Ntese que tambin se pudiera usar s en lugar de , debido a que, el valor de la


muestra n es n >>> 30.
Solucin:
1. El reclamo de la compaa se expresa como 1 = 2. Esto quiere decir que, en
ninguno de los dos grupos hay un efecto secundario de alta presin arterial.
2. Si el reclamo original es falso, entonces 1 2
3. La prueba de hiptesis nula contiene la condicin de igualdad de manera que, las
pruebas de hiptesis nulas y las alternativas son:

5-70
Dr. Hctor Quevedo Uras

Ho:(1 - 2) = 0, H1:(1 - ) 02, H2:(1 - 2) > 0, H3:(1 2) < 0


4. El nivel de significancia es de = .05
5. El problema satisface las suposiciones de normalidad.
6. Usamos la estadstica de z (5-33) que se da abajo y se sustituyen los valores
correspondientes:

+
2 2

z = [( X 1 - X 2) - (1 - 2)] / 1 2

n1 n 2

39.42 39.02
= [(203.4 - 189.4) - (0)] / + = 2.06
50 100

7. Las regiones crticas son de z/2 = 0.05/2 = 1.96


8. Debido a que la estadstica z cae en la regin crtica derecha se rechaza la Ho: 1 =
2 y se dice que los promedios son desiguales.
9. Se concluye que si hay efectos secundarios y la droga si causa alta presin arterial.
Por lo tanto, se rechaza el reclamo de que, ambos grupos tengan el mismo promedio.
De esta manera, se concluye que H2: 1 - 2 > 0.
10. Ahora para calcular el valor de la probabilidad p, se busca el valor de z = 2.06 en
la tabla de la distribucin normal y el valor de la probabilidad correspondiente es de
0.9803. Por lo tanto, el valor de p es de: p = 0.5000 - 0.4803 = 0.0197. Sin embargo,
debido a que la prueba de hiptesis es bilateral, el valor de 0.0197 se debe de
multiplicar por 2.
La Figura 5.17 de abajo muestra toda la informacin requerida por este
problema.

5-71
Dr. Hctor Quevedo Uras

Figura 5.17. Figura mostrando la distribucin de las diferencias de los promedios de


los dos grupos de control y de tratamiento. (Elaboracin propia).

Ejemplo #46. Se quieren probar dos analizadores de CO de diferentes marcas, para


ver si los dos dan los mismos resultados en las mediciones de CO. Llamemos al
primer analizador A y al segundo B. Probar que los resultados de las dos mediciones
de CO provenientes de los dos analizadores son iguales. Asumir = 0.05. Calcular
del valor de la probabilidad p. Los datos se dan abajo.
TABLA 5.7. Tabla mostrando los datos de este problema.
__________________________________________________________________
Muestreador de CO (A) Muestreador de CO (B)
__________________________________________________________________
n1 = 50 n2 = 100
X 1 = 4.53 kgs. X 2 = 4.01 kgs.
1 = 0.80 2 = 0.80
__________________________________________________________________

Solucin:
Los dos promedios son independientes y 1 y 2 son conocidos, por lo tanto, usamos

5-72
Dr. Hctor Quevedo Uras

la distribucin normal. Usamos el nivel de significancia de = 0.05. La prueba


involucra dos colas.
1. Las pruebas de hiptesis son:
Ho:1 = 2 (o 1 - 2 = 0)
H1:1 2 (o 1 - 2 0)
2. Las regiones crticas son de 1.96
3. Una vez que se sustituyen todos los valores en la ecuacin de z (5-33), el resultado
es de z = 4.06.
4. Debido a que 4.06 cae dentro de la regin crtica derecha, se rechaza la hiptesis
nula y se concluye que los promedios poblacionales correspondientes a ambos
muestreadores de CO no son iguales. Tal parece que el muestreador A da resultados
de mediciones de CO, con una probabilidad mucho ms significante que el
muestreador B.
5. Para calcular el valor de p buscamos z = 4.06 en la tabla de la distribucin normal y
vemos que el valor ms cercano es .9997 o sea 1 - .9997 = .0003, lo cual dice que p
<< .0003
Intervalos de confianza para las diferencias de dos promedios poblacionales, (1
- 2), cuando la varianzas 21 y 22 se conocen.
Si X 1 y X 2 son los promedios de dos muestras estadsticas independientes de
tamaos n1 y n2 de poblaciones que tienen varianzas conocidas de 21 y 22, entonces,
el intervalo de confianza se da como:

+ +
2 2 2 2

( X 1 - X 2) - z/2 1 2
< (1 - 2) < ( X 1 - X 2) + z/2 1 2
(5-35)
n1 n
2 n1 n
2

Donde:
z/2 es el valor de z con = 0.05 y 0.01 niveles de significancia

5-73
Dr. Hctor Quevedo Uras

Ejemplo #47. Un experimento para reducir el consumo de gasolina (para que se


contamine menos el medio ambiente, especialmente, con CO2 que est calentando la
tierra y cambiando el clima) se hizo un estudio para comparar dos tipos de mquinas
A y B. El rendimiento, en kilmetros por litro se midi. Para esto se seleccion una
muestra de 50 unidades del tipo mquina A y otra muestra de 50 unidades tipo
mquina B. El promedio de gasolina consumida para la mquina A fue de X 1 = 36
Km. por litro y el promedio para la mquina B fue de X 2 = 42. Las desviaciones
estndar fueron de 6 y 8 Km. para las mquinas A y B, respectivamente. Hacer lo
siguiente:
(a) Encontrar el 95% de intervalo de confianza para (A - B).
(b) Hacer una prueba de hiptesis para decidir si hay diferencia entre los dos
promedios poblacionales.
(c) Calcular el valor de la probabilidad p.
Solucin:
Los promedios aritmticos y las desviaciones estndar son de:
X 1 = 36 Km. y X 2 = 42 Km. con 1 = 6 y 2 = 8, respectivamente. Los tamaos de
las muestras son n1 = n2 = 50
(a) El punto estimador de 1 - 2 es X 1 y X 2. Usando z/2 = z.05/2 nos da el intervalo de
z/2 = 1.96. Ahora, substituyendo todos estos valores en la funcin estadstica del
intervalo de confianza, nos da:
3.43 < (1 - 2) < 8.57
(b) Aqu, usamos una prueba de hiptesis para poblaciones normales con varianzas
conocidas. Se usa la estadstica (5-33) recapitulada anteriormente:

5-74
Dr. Hctor Quevedo Uras

+
2 2

z = [( X 1 X 2) (1 2)] / 1 2

n1 n
2

Sustituyendo los valores apropiados en esta formula:


6 8
z = (36 42) 0 / +
50 50

= 6 / 0.529
= 11.34
Pruebas de hiptesis para proporciones
Las pruebas de hiptesis relacionadas con proporciones (porcentajes) se requieren en
muchas reas de la ingeniera. Por ejemplo, las compaas constructoras estn
interesadas en saber, qu proporcin de sus productos salen defectuosos. Adems, los
polticos estn interesados en saber qu fraccin de los votantes los favorecern.
Por otro lado, en la ingeniera ambiental estamos interesados en saber qu
fraccin de las industrias estn cumpliendo con las legislaciones ambientales.
Tambin, es de inters social saber qu fraccin de los jvenes universitarios
usan determinadas drogas. Igualmente, es de inters saber qu fraccin o proporcin
de personas que puedan estar conscientes de la magnitud del problema de la
contaminacin ambiental, etc.
Las pruebas de hiptesis con la estadstica p (que estima a ) de proporcin
estn basadas en una muestra aleatoria de tamao n de la poblacin muestreada. Si el
tamao de la muestra n es pequeo, con relacin al tamao poblacional, el promedio
X tiene aproximadamente una distribucin binomial. Adems, si n es grande, el

promedio X y el estimador p = X/n posee una distribucin binomial. Pero si n es


grande, se usa la distribucin normal como una aproximacin a la binomial.
Las condiciones para usar la distribucin binomial es tener un nmero fijo de

5-75
Dr. Hctor Quevedo Uras

ensayos independientes, que tengan probabilidades constantes y de que, cada ensayo,


tenga dos resultados clasificados como xito o fracaso.
Sin embargo, si las condiciones de np 5 y nq 5 se satisfacen, la distribucin
binomial se puede aproximar por la normal con = np y = npq , donde, n es el

tamao de la muestra, p es la probabilidad (%) y q es 1 p. En este tpico,


consideraremos nicamente, la distribucin normal como aproximacin a la binomial,
es decir, para muestras grandes.
Pruebas de hiptesis para proporciones con muestras grandes
La estadstica usada para pruebas de hiptesis para proporciones, para muestras
grandes es:
z = (p po) / pq / n = (p po) / p 0 (1 p 0 ) / n (5-36)
Donde:
p = proporcin muestral = promedio/n = fraccin/n
o = proporcin poblacional o valor esperado
q=1p
n = tamao de la muestra
La proporcin muestral algunas veces se da directamente. Por ejemplo, si se da
40%, esto se traduce en p = 0.40 usando la fraccin p = X/n. Por ejemplo, de la
afirmacin 20 de 50 podemos calcular el valor de la proporcin muestral como p =
X/n = 20/50 = 0.40.
Ejemplo #48. Un grupo ambiental afirma que los incidentes de las aves que chocan
con los aviones son muy raros, es decir, como para justificar la matanza de aves en los
aeropuertos. Sin embargo, un grupo de pilotos aviadores afirman que, en el despegue
de los aviones, en el 10% de los casos, las aves chocan contra el avin. Usar = 0.05

5-76
Dr. Hctor Quevedo Uras

para probar esta afirmacin. La muestra es de 150 despegues abortados de aviones, de


los cuales 5 se debieron a choque contra las aves.
Solucin:
1. Se usa la distribucin normal como aproximacin a la binomial, porque np 5 y
nq 5, es decir, (150)(0.10) = 15 y nq = (150)(0.90) = 135.
2. Debido a que el reclamo es del 10%, entonces, la fraccin = p = 0.10. Lo opuesto
del reclamo original es = 0.10.
3. Debido a que = 0.10 contiene la condicin de igualdad, la hiptesis nula y la
alternativa son:
Ho: = 0.10 y H1: 0.10
4. El nivel de significancia es de = 0.05.
5. La estadstica apropiada para probar si p = 5/150 = 0.033 es usando la estadstica z
que se aproxima a la distribucin binomial.
pq (0.1)(0.9)
z = (p po) / = (0.033 0.1) / = -2.79
n 150

6. Los valores crticos con = 0.05 son z = 1.96


7. Debido a que el valor de 2.79 cae en la regin crtica izquierda, se rechaza la
hiptesis.
8. El valor de p es de p = 1 - .9974 = 0.0026
Ejemplo #49. Un activista del medio ambiente afirma que, menos de la mitad de las
industrias, cumplen con los lmites ambientales. Probar esta aseveracin, si un sondeo
dice que 48% de 1998 industrias si cumplen, satisfactoriamente, con los reglamentos
ambientales. Usar un nivel de = 0.05 y calcular el valor de p.
Solucin:
En este problema la hiptesis alternativa se interpreta como H1: < 0.5. Siendo as,

5-77
Dr. Hctor Quevedo Uras

por lo tanto, la hiptesis nula debe ser Ho: 0.5.


2. La regin crtica es la izquierda y con = 0.05 y el valor crtico es 1.645
3. La estadstica usada es la aproximacin de z a la binomial. Aqu, p = 0.48, o = 0.5
y n = 1998. Sustituyendo todos estos valores en la estadstica (5-36) de abajo da:
pq
z = (p - o) /
n

(0.5)(0.5)
= (0.48 0.5) / = -1.79
1998

4. Debido a que el valor de 1.79 < 1.645, se introduce en el extremo izquierdo de la


distribucin, se rechaza Ho:
5. El valor de la probabilidad p es p = 1 - .9636 = 0.036
Intervalo de confianza para proporciones
Si p es la proporcin de xitos en una muestra aleatoria de tamao n y q = 1 p, un
intervalo de confianza aproximado de (1 )100% para el parmetro binomial se da
por la funcin de abajo:
pq pq
p z/2 < < p + z/2 (5-37)
n n

Donde: z/2 es el valor de z dejando un rea de /2 a la derecha


Ejemplo #50. Si p = 2.5, n = 36, q = 7.5 y la regin crtica es de 1.645, estimar el
intervalo de confianza para el parmetro .
Solucin:
Usando la funcin (5-37) y sustituyendo todos los valores, nos da:
2.5 1.645( 0.5208 ) < < 2.5 + 1.645( 0.5208 )
La cual se simplifica a:
0.629 < < 4.371

5-78
Dr. Hctor Quevedo Uras

Ejemplos de problemas usando el programa Minitab para la distribucin


normal, la distribucin exponencial, la distribucin gamma y la distribucin
Weibull, para generar valores de la distribucin normal estndar acumulada:
Calc > Probability distributions > Normal
En la ventana de Cummulative probability puntear cummulative probability. En la
ventana de Input column poner los valores de -4 hasta +4, es decir, en C1. En la
ventana de Optional storage poner C2, para registrar los valores de la probabilidad
acumulada.
Por otro lado, si se quieren hacer las grficas de frecuencia relativa y de
frecuencia acumulada, de la distribucin normal proceder como est abajo y seguir las
instrucciones:
Graph > Plot
Adems, para calcular los valores de la distribucin normal no estandarizada:
Calc > Probability distributions > Normal
En la ventana de Mean y de Estndar deviation poner los valores del promedio y
de la desviacin estandar deseados. En la columna C1 poner los valores de la variable
aleatoria X que se quieran estandarizar. Para las grficas proceder como arriba.
Adems, para calcular los valores de la distribucin exponencial irse a:
Calc > Probability distributions > Exponential..
En la ventana de Exponential distribution puntear Cummulative probability. En la
ventana de Mean poner el promedio deseado.
Para calcular los valores de la distribucin Weibull:
Calc > Probability distributions > Weibull
En la ventana de Weibull distribution puntear Cummulative distribution. En la
ventana de Shape parameter y Scale parameter teclear los valores de y . Para

5-79
Dr. Hctor Quevedo Uras

el resto proceder como arriba. Para las grficas hacer lo mismo que arriba.
Similarmente, para calcular los valores de la distribucin Gamma:
Calc > Probability distributions > Gamma
Proceder en forma anloga a como se hizo con la funcin Weibull
Ejemplo #51. Calcular las siguientes probabilidades bajo la curva normal estndar
usando el paquete de computadora Minitab:
(a) Entre z = -1.5 y z = -1
(b) P(z 2)
(c) Entre z = 1 y z = -1
(d) Hacer una grfica
Solucin:
Abrir el programa Minitab y seguir las instrucciones correspondientes. Esto generar
una tabla de abajo.
TABLA 5.8. Valores de la variable aleatoria X y la cpd. (Elaboracin propia)
___________________________________________________________________
Columnas C1 C2
Variable aleatoria z Distribucin de Probabilidad acumulada
1 -4.0 .000032
2 -3.5 .000233
3 -3.0 .001350
4 -2.5 .006210
5 -2.0 .022750
6 -1.5 .066807
7 -1.0 .158655
8 0.0 .500000
9 1.0 .841345
10 1.5 .933193
11 2.0 .977250
12 2.5 .993790
13 3.0 .998650
14 3.5 .999767
15 4.0 .999968

(a) P(-1.5 z -1.0) = 0.1587 0.0668 = 0.0919 (de la tabla de arriba)

5-80
Dr. Hctor Quevedo Uras

(b) P(z -2) = 1 P(z -2.5) = 1 0.0062 = 0.9938


(c) P(1 z -1) = 0.6827 (sin consultar la tabla. Por qu?)

Ejemplo #52. Calcular la distribucin de las probabilidades acumuladas para los


valores de la variable aleatoria X = 2.5, 2.6, 2.7, 2.8, 2.9, 3.0, 3.1, 3.2, 3.3, 3.4.
Adems, calcular los siguientes enunciados:
(a) P(X 2.9)
(b) P(2.6 X 3.2)
(c) El valor de X es de cuando menos 3.4
Solucin:
Usando el programa Minitab, primeramente calculamos el promedio y la desviacin
estndar, de los valores de la variable aleatoria X, y da los resultados de la estadstica
descriptiva de abajo.
Figura 5.17. Resultados de la estadstica descriptiva usando el Minitab.
__________________________________________________________________
Estadstica Descriptiva: Variable aleatoria x
Variable N Promedio Error estndar s s2 Coef. de Var.
Variable aleatoria 10 2.9500 0.0957 0.3028 0.0917 10.26
Variable Q1 Mediana Q3 Maximum Sesgo Kurtosis
Variable aleatoria 2.6750 2.9500 3.2250 3.4000 0.00 -1.20
__________________________________________________________________
Despus, tableando los valores de X en C1 con X = 2.95 y s = 0.3028, en sus
ventanas respectivas, se genera la tabla de abajo.

TABLA 5.9. Tabla mostrando la variable aleatoria X y probabilidades acumuladas.


(Elaboracin propia)

5-81
Dr. Hctor Quevedo Uras

__________________________________________________________________
Columnas C1 C2
Variable aleatoria X Probabilidad acumulada
1 2.5 0.068622
2 2.6 0.123865
3 2.7 0.204508
4 2.8 0.310167
5 2.9 0.434423
6 3.0 0.565577
7 3.1 0.689833
8 3.2 0.795492
9 3.3 0.876135
10 3.4 0.931378

Ahora, para resolver los incisos pedidos por el problema se procede como:
(a) P(X 2.9) = 1 0.3102 = 0.6890 (de la tabla de arriba)
(b) P(2.6 X 3.2) = 0.795492 0.068622 = 0.7269
(c) P(X 3.4) (para resolverse por el lector)
Ejemplo #53. Supongamos que el tiempo promedio que se tarda una sustancia
radiactiva (un istopo radiactivo que tiene el mismo nmero atmico pero diferente
peso molecular) en descomponerse es de = 15 aos; siendo as:
(a) Hacer una tabla con los valores de la funcin exponencial de densidad para los
valores de la variable aleatoria X = 0, 5, 10, 15, 20, 25, 30, 35, 40, 45 y 50 aos.
(b) Graficar las probabilidades individuales y las probabilidades acumuladas en
funcin del tiempo en aos.
(c) Cul es la probabilidad que el istopo tarde en degradarse a lo ms en 5 aos?
(d) La probabilidad de que el istopo tarde en oxidarse en cundo menos 20 aos?
(e) La probabilidad de que el istopo tarde en degradarse entre 20 y 50 aos?
(f) Cunta radiactividad qued despus de 40 aos?

5-82
Dr. Hctor Quevedo Uras

(g) Cunta energa se liber despus de 40 aos?


(h) Qu cantidad del istopo radiactivo qued despus de 50 aos?
TABLA 5.10. Tabla mostrando los valores generados de la probabilidad acumulada y
la probabilidad individual. (Elaboracin propia)
__________________________________________________________________

Solucin:

(a) Ver TABLA 5.10


(b) Para este inciso, las grficas de abajo muestran esta situacin.
Scatterplot of Radiactividad restante vs Tiempo en aos
0.07

0.06
Radiactividad restante

0.05

0.04

0.03

0.02

0.01

0.00
0 10 20 30 40 50
Tiempo en aos

Figura 5.18. Grfica mostrando la radiactividad restante, en funcin del tiempo en


aos. (Elaboracin propia)

5-83
Dr. Hctor Quevedo Uras

Scatterplot of Energia liberada vs Tiempo en aos


1.0

0.8

Energia liberada
0.6

0.4

0.2

0.0

0 10 20 30 40 50
Tiempo en aos

Figura 5.19. Grfica mostrando la energa liberada (o la cantidad de la sustancia


ejercida) del istopo radiactivo, en funcin del tiempo en aos. (Elaboracin propia)
(c) P(X 5) = 0.2835 (de la Tabla 5.10 de la probabilidad acumulada)
(d) P(X 20) = 1 P(X 15) = 1 0.6321 = 0.3679
(e) P(20 X 50) = 0.3322
(f) P(X > 40) (resolverse por el lector)
(g) (Resolverse por el lector)
(h) (Resolverse por el lector)
En forma anloga para hacer grficas de probabilidad para las diferentes
distribuciones como la Lognormal, gamma, Weibull, Logstica, etc., irse a:
Graph Probability Plot
Haciendo esto aparece la ventana de Probability Plots y luego poner OK, lo que
lleva a la ventana de Probability Plot Single. Despus de irse a Distribution y
aparece la ventana con la lista de todas las distribuciones como normal, lognormal,
Weibull, logstica, gamma, exponencial, etc. Se le pide al lector hacer un ejercicio
haciendo grficas de probabilidad para las distribuciones continuas.

5-84
Dr. Hctor Quevedo Uras

Ejercicios Captulo 5
5.1. En un muestreo de partculas atmosfricas, el promedio de la muestra fue de 72
micras y la desviacin estndar fue de 15 micras. Determinar las unidades de
desviacin estndar de las partculas que tuvieron valores de:
(a) 60 (-0.80)
(b) 93 (1.4)
(c) 72 micras (0)
5.2. Refirindose al problema anterior, encontrar los valores de la variable aleatoria
normal z correspondientes a:
(a) z = -1
(b) z = 1.6
5.3. En un estudio independiente, dos industrias contaminantes fueron informadas de
que recibieron evaluaciones ecolgicas de variables aleatorias normales estndares de
z de 0.7 y -0.5, respectivamente. Si sus resultados (evaluaciones) fueron de 90 y 74,
respectivamente, y asumiendo que s = 13.32, encontrar el promedio aritmtico, para
ambos casos. ( X = 80.67, X = 60.67) 5.4. Encontrar el rea o la
proporcin de la valores de la variable aleatoria z de la curva normal entre z = 0 y z =
1.2.
5.5. Encontrar el rea entre z = 0.81 y z = 1.94. (0.1828)
5.6. Encontrar la probabilidad de que una z observada se encuentre a la derecha de z =
2.05 y a la izquierda de z = -1.44.
5.7. Determinar el valor o los valores de z cuando:
(a) La probabilidad entre 0 y z es de 0.3770 (1.16)
(b) La probabilidad a la izquierda de z es de 0.8621 (1.09)
5.8. El peso promedio de residuos txicos peligrosos generados por 500 industrias es

5-85
Dr. Hctor Quevedo Uras

de 151 toneladas mtricas, con una desviacin estndar de 15 toneladas. Si los pesos
de los residuos txicos generados por estas industrias estn normalmente distribuidos,
encontrar todo lo siguiente:
(a) Cuntas industrias generan entre 120 y 155 toneladas, inclusive.
(b) Cuntas generan ms de 185 toneladas
(c) Cuntas generan cuando menos 128 toneladas
(d) Cuntas generan igual a 128 toneladas
(e) Cuntas generan ms de 75, pero menos de 100 toneladas
5.9. Si los dimetros de unas chumaceras de una maquinaria estn normalmente
distribuidos, con un promedio de 0.6140 pulgadas y una desviacin estndar de .0025
pulgadas, determinar la probabilidad de que las chumaceras tengan dimetros de:
(a) Entre .610 y .618 pulgadas inclusivamente (0.8904)
(b) > .617 pulgadas (0.1151)
(c) < .608 pulgadas (.0207)
(d) Igual a .615 pulgadas
5.10. Si una muestra aleatoria de anlisis de las concentraciones de demanda
bioqumica de oxgeno de 5 das (DBO5) est normalmente distribuidas, qu
probabilidad hay de que stas difieran del promedio por?
(a) Ms de la mitad de la desviacin estndar
(b) Menos que 0.75 de la desviacin estndar.
5.11. Dada una distribucin normal de precipitaciones pluviales con promedio de 50
mm y s = 10 mm. Encontrar la probabilidad de que X asuma un valor entre 45 mm y
62 mm de lluvia. (0.5764)
5.12. Si el X y s son el promedio y la desviacin estndar de una muestra aleatoria de
anlisis de aguas residuales de concentraciones de nitratos, en mg/L, Cul es la

5-86
Dr. Hctor Quevedo Uras

probabilidad de que las concentraciones estn?


(a) Dentro del rango ( X 2s)
(b) Afuera del rango ( X 1.2s)
(c) Mayor que ( X - 1.5 s)
5.13. Dada una distribucin normal de valores, en partes por milln, de CO
atmosfrico, con X = 300 y s = 50. Encontrar la probabilidad de que X asuma un
valor mayor que 362. (0.1075)
5.14. Dada una distribucin normal con = 40 y = 6, encontrar el valor de X que
tenga:
(a) 45% del rea a la izquierda
(b) 14% del rea a la derecha.
5.15. La tela de fibra de vidrio del equipo de control para partculas atmosfricas dura
un promedio de 3.0 aos, con una desviacin estndar de 0.5 aos. Si las duraciones
de las telas estn normalmente distribuidas, encontrar la probabilidad de que una tela
de un filtro dure menos de 2.3 aos. (0.0808)
5.16. Una compaa fabrica electrodos para los precipitadores electrostticos (equipo
de control para partculas contaminantes en aire), cuya duracin est normalmente
distribuida, con un promedio igual a 800 horas y una desviacin estndar de 40 horas.
Encontrar la probabilidad de que un electrodo se funda entre 778 y 834 horas.
5.17. En un proceso industrial el dimetro de un balero se establece en sus
especificaciones como 3.0 0.01 cm. En la manufactura de estos valeros, la
implicacin es que no se acepta ningn balero que se salga de esta medida. Se saca
una muestra de 100 valeros al azar y se calcula el promedio aritmtico de 3.0 cm., con
una desviacin estndar de 0.005 cm. En promedio, cuntos valeros fabricados se
descartarn? ( 5 valeros)

5-87
Dr. Hctor Quevedo Uras

5.18. Se utilizan medidores para rechazar todo los componentes cuyas dimensiones no
se encuentren dentro del la especificacin dada de 1.50 d. Sin embargo, se sabe que
esta dimensin est normalmente distribuida con un promedio de 1.50 Y una
desviacin estndar de 0.2. Determinar el valor de d para que la especificacin cubra
el 90% de las mediciones.
5.19. Cul es la probabilidad de que:
(a) P(-0.5 < z < 1.25) (0.5859)
(b) El valor de z no est entre estos dos valores? (0.4144)
5.20. En un estudio de ingeniera de higiene industrial y seguridad, el supervisor de
produccin encuentra que, los trabajadores, en promedio, completan una tarea en 10
minutos cuando estn expuestos a altas concentraciones de gases. Los tiempos
requeridos para completar la tarea son aproximadamente normales con una desviacin
estndar de 3 minutos. Encontrar lo siguiente:
(a) La proporcin de empleados que completan la tarea en menos de 4 minutos.
(b) El % de empleados que requieren ms de 5 minutos en completar la tarea.
(c) La probabilidad de que un empleado, quien acaba de ser asignado a la tarea, la
completar dentro de 3 minutos.
5.21. Se llev a cabo un muestreo y un anlisis de las concentraciones de nitratos
(NO-3) de un sistema de tratamiento de aguas industriales. Las concentraciones de
nitratos se reportaron en mg/L. Los siguientes datos se dan en mg/L en la tabla de
abajo:

5-88
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema. (Elaboracin propia)


___________________________________________________________________
6.9 7.8 8.9 5.2 7.7 9.6 8.7 6.7 4.8 8.0 10.1 8.5
6.5 9.2 7.4 6.0 6.1 6.3 5.6 5.2 5.4 7.3 8.2 8.3
7.2 7.5 6.1 6.0 9.4 5.4 7.6 8.1 7.9
___________________________________________________________________

Hacer los siguientes clculos corriendo una estadstica descriptiva que incluya:
(a) El promedio muestral, la varianza, la desviacin estndar y el rango. ( X = 7.26,
s2 = 2.02, s = 1.42, rango = 5.3)
(b) Encontrar el error estndar, el sesgo, la kurtosis, el valor mximo y el valor
mnimo. (0.25, 0.08, -.088, 10.1, 4.8)
(c) Evidenciar la simetra de los datos.
(d) Si el lmite de las concentraciones de nitratos en el efluente es de 8.5 mg/L, de
acuerdo a la legislacin ambiental de aguas, hacer una prueba de hiptesis con un
nivel de significancia de = .05 y calcular la probabilidad p e interpretarla
acordemente. (P <<< .0003)
(e) Hacer un intervalo de confianza para el promedio . (6.76, 7.76)
(f) Hacer un intervalo de confianza para la mediana. (6.39, 7.95)
(g) Hacer un intervalo de confianza con nivel de confianza de 95% para la desviacin
estndar poblacional, . (1.14, 1.88)
(h) Encontrar el primer cuartil (6.05)
(i) Encontrar el tercer cuartil. (8.25)
5.22. En un estudio de meteorologa de precipitacin pluvial, el promedio de lluvia
registrado, a la centsima de un centmetro, para el mes de marzo fue de 9.22
centmetros. Asumiendo que estos valores estn normalmente distribuidos con una
desviacin estndar conocida de 2.83 cm., encontrar la probabilidad de que el

5-89
Dr. Hctor Quevedo Uras

siguiente mes de marzo del ao entrante, se reciban:


(a) Menos de 1.84 cm. de lluvia.
(b) Ms de 5 cm. de lluvia.
(c) Cuando menos 13.8 cm. de lluvia.
(d) A lo ms 10.0 cm. de lluvia.
(e) Igual a 5 cm. de lluvia, e.g., P(4.5 X 5.5)
(f) Hacer una grfica para cada inciso.
5.23. Supngase que la funcin de densidad de cierto experimento de mediciones de
oxgeno disuelto (OD) es f(x) = ex. Si suponemos que la variable aleatoria continua
asuma valores entre X = 2.0 y X = 5.0, encontrar las siguientes probabilidades.
(a) P(0 < X < 4) (e4 1)
(b) P(X < 4) (e2) (c)
P(2 < X < 5) (e3) (d)
P(0 < X < 3) (e3 1) 5.24.
Dar el dominio de cada una de las siguientes variables y decir si las variables son
continuas o discretas.
(a) El nmero de litros de agua en un radiador de automvil.
(b) El nmero de libros en el estante de una librera.
(c) El dimetro D de una esfera.
5.25. Sea z una variable aleatoria normal estndar, entonces, calcular las siguientes
probabilidades, dibujando las grficas.
(a) P(0 z 2.17) (0.4850)
(b) P(0 z 1) (0.3413)
(c) P(-2.5 z 0) (0.4938)
(d) P(-2.5 z 2.5)

5-90
Dr. Hctor Quevedo Uras

(e) P(1.5 z) (1 - 0.9332)


(f) P(|z| 2.50)
5.26. Si X es una variable aleatoria normal con promedio de 80 y desviacin estndar
de 10, entonces, calcular las siguientes probabilidades, mediante estandarizacin.
(a) P(X 100)
(b) P(65 X 100)
(c) P(85 X 95)
(d) P(70 X)
(e) P(90 X 100)
(f) P(80 X 110)
(g) P(2 < z < -2)
5.27. La vida promedio de una partcula en la atmsfera, sigue a la ley de Stoke. sta
va en funcin del dimetro de sedimentacin, misma que va en funcin de la densidad
de la partcula, la densidad del medio, la viscosidad absoluta del medio, la aceleracin
de la gravedad (981 cm/sec2), etc. Con esto, se puede modelar la cada de la partcula
usando la funcin exponencial. Suponiendo que la vida promedio en la atmsfera de
esa partcula sea de 12 aos, entonces calcular las siguientes probabilidades:
(a) Cul es la probabilidad de que la vida de residencia atmosfrica de la partcula
sea de a lo ms 6 aos. (0.3934)
(b) Cul es la probabilidad de que la vida de residencia atmosfrica de la partcula
sea entre 5 y 10 aos? (0.2244)
Sugerencia: Usar las siguientes relaciones:
P(x xo) = 1 e-x/ y P(x xo) = P(X 10) P(X 5)
5.28. La vida (en horas) de un dispositivo electrnico es una variable aleatoria con la
siguiente distribucin exponencial de probabilidad: f(x) = 1/50 e-x/50 para x 0

5-91
Dr. Hctor Quevedo Uras

(a) Cul es la vida promedio del dispositivo?


(b) Cul es la probabilidad de que el dispositivo funcione 10 o menos horas antes de
que falle?
(c) Cul es la probabilidad de que el dispositivo dure entre 40 y 60 horas?
(d) Hacer una grfica con valores de x = 5, 10, 20, 30, 40, 50, 60 con sus
probabilidades correspondientes f(x).
5.29. La demanda bioqumica de oxgeno (DBO5) de 5 das (porqu de 5 das?) de
una muestra de materia orgnica sigue a una distribucin exponencial de probabilidad
con un promedio de 80 mg/L de DBO5: f (x) = 1/80 e-x/80
(a) Hacer una grfica con esta funcin usando x = 1, 2, 3, 4, 5 das.
(b) Calcular la cantidad de DBO (en mg/L) que qued entre 1 y 2 das. Expresarlo en
la grfica. (0.0245)
(c) Calcular la concentracin de DBO (mg/L) que qued entre 1 y 3 das. Expresarlo
en la grfica. (0.0368)
(d) Calcular la concentracin de DBO (mg/L) que qued entre 1 y 5 das. (.060)
(e) Calcular la cantidad de DBO que se ejerci (cantidad de materia orgnica
oxidada) en a lo ms 4 das. Expresarlo en la grfica. (0.0488)
(f) Calcular la concentracin de DBO que qued despus de 5 das. (0.0606)
(g) Qu porcentaje de DBO se ejerci, a lo ms en 5 das? (0.6006)

5-92
Dr. Hctor Quevedo Uras

Tabla mostrando los resultados del DBO que va quedando y el DBO oxidado o
ejercido. (Elaboracin propia)
X DBO restante DBO oxidado
(Das) (Prob. individual) (Prob. acumulada)
1 .0123 .0124
2 .0122 .0247
3 .0120 .0368
4 .0119 .0488
5 .0117 .0606

5.30. Se da la tabla de abajo con los porcentajes de DBO oxidado en funcin del
tiempo y de la constante de desoxigenacin k. Si el DBO5 ltimo o total es de Lo =
300 mg/L (derivado de la ecuacin monomolecular y = Lo(1 10-kt), hacer lo
siguiente:
(a) Una grfica para ver el efecto de la velocidad de la constante k para un nivel dado
de Lo de la ecuacin monomolecular.
(b) Una grfica que indique el DBO que va quedando y la cantidad de DBO que se
va ejerciendo, para cada uno de los 20 das y para cada una de las tasas k.
(c) Cul es la probabilidad de que la concentracin de DBO est entre 3 y 6 das
inclusivamente, para k = 0.15? A qu concentracin de DBO ascendi esto?
(d) Calcular la concentracin de DBO que qued entre 3 y 5, para k = 0.10.

5-93
Dr. Hctor Quevedo Uras

Tabla mostrando la tasa de reaccin de la variable k en el DBO vs. tiempo.


Tiempo (das) Porcentaje del total de DBO ejercido

k = 0.05 k = 0.10 k = 0.15 k = 0.20 k = 0.25
1 10.9 20.6 29.2 36.9 43.8
2 20.6 37.0 50.0 60.0 68.0
3 29.0 50.0 64.0 75.0 82.0
4 37.0 60.0 75.0 84.0 90.0
5 44.0 68.0 82.0 90.0 94.0
6 50.0 75.0 87.0 94.0 97.0
7 55.0 80.0 91.0 96.0 98.0
10 68.0 90.0 97.0 99.0 99.0
20 90.0 99.0 99.0+ 99.0+ 99.0+

(Fuente: Sawyer et al. 1967)

5.31. Supngase que, el tiempo en horas, requeridas para reparar una bomba de calor
es una variable aleatoria X que tiene un distribucin gamma con parmetros = 2 y
= 0.5.
(a) Encontrar el promedio, la varianza y la desviacin estndar. ( = 1.0, 2 = 0.5)
(b) Cul es la probabilidad de que el siguiente servicio requerir a lo ms una hora
para reparar la bomba?
(c) La probabilidad de que se requieran cuando menos 2 horas para reparar la bomba.
(0.0916)
5.32. En cierta ciudad, el consumo diario de electricidad, en millones de kilowatt-
horas, es una variable aleatoria X que sigue a una distribucin gamma con = 6 y 2
= 12. Encontrar:
(a) Los valores de y .
(b) Encontrar la probabilidad de que en un da dado el consumo diario de electricidad
exceder 12 millones de kilowatt-horas.

5-94
Dr. Hctor Quevedo Uras

5.33. Se sabe que la distribucin de Weibull es ampliamente usada en problemas de


estadstica relacionados con el envejecimiento y deterioro de materiales slidos
aislantes sujetos a voltajes AC. Los valores de los parmetros dependen del voltaje y
de la temperatura. Basado en esto, supngase que = 2.5 y = 200. Siendo as,
calcular lo siguiente:
(a) Cul es la probabilidad de que la vida de uno de estos aparatos sea a lo ms de
200? (.632)
(b) Menos que 200 (0.6275)
(c) Ms de 300 (0.064) (d)
Entre 100 y 200 (0.243)
5.34. En un estudio de meteorologa, despus de analizar una muestra de 106
temperaturas ambientales, un ingeniero ambiental afirma que el promedio de
temperatura es menor que 98.6 oF. Hacer lo siguiente:
(a) Identificar la hiptesis nula Ho:
(b) Identificar la hiptesis alternativa H1:
(c) Identificar si esta prueba es de dos colas, de la cola izquierda o de la cola derecha.
5.35. La afirmacin de que el promedio poblacional del peso de las tabletas de
aspirina es probada con un nivel de significacin de = .05. Las condiciones son de
que se puede usar la distribucin normal porque n > 30. Encontrar las regiones
crticas o los valores crticos de z, si la prueba es de:
(a) Dos colas. (ztab. = 1.96)
(b) De la cola izquierda. (z.05 = -1.655)
(c) De la cola derecha. (ztab. = 1.645)
5.36. Contestar las preguntas en los ejercicios del 1 al 6.
1. El promedio del coeficiente de los instructores de estadstica es de 185.

5-95
Dr. Hctor Quevedo Uras

2. El promedio del peso del papel descartado cada semana en un estudio de reciclaje
de papel es menor que 10 kilogramos.
3. El tiempo promedio requerido para los estudiantes puedan adquirir su ttulo es
mayor que 5 aos.
4. El promedio anual de ingresos de los mdicos es de $300,000 dlares.
5. El promedio de la edad de los aviones comerciales es de cuando menos 10 aos.
6. La tasa del promedio de consumo de los automviles Chevrolet es de no ms de 17
millas/galn.
Para cada uno de estos ejemplos del 1 al 6, contestar lo siguiente:
(a) Identificar la hiptesis nula, Ho:
(b) Identificar la hiptesis alternativa, H1:
(c)Identificar la prueba si es bilateral, o unilateral izquierda o derecha.
(g) Asumir que la conclusin es de rechazar la hiptesis nula. Declarar la conclusin
en trminos no tcnicos. Asegurarse de enlistar el reclamo original.
(h) Asumir que la conclusin es la de fallar en rechazar la hiptesis nula. Declarar la
conclusin en trminos no tcnicos. Asegurarse de enlistar el reclamo original.
5.37. Calcular el valor de la probabilidad p con niveles de significacin de = 0.05 y
= 0.01. Se dan los siguientes valores: n = 50, X = 31.8 y = 0.75. Probar la
hiptesis nula Ho: 32 contra H1: < 32. (z = -1.89, p = .0294)
5.38. Una muestra aleatoria de 36 casos de anlisis de aguas conteniendo cloratos
(mg/L de ClO3-), se usa el mtodo argentomtrico de titulaciones (Estndar Methods
for the Examination of Water and Wastewater, 1971). Probar la hiptesis de que el
promedio poblacional es igual a 145 mg/L. Se calcula el promedio estadstico y nos
da X = 138.84 con una desviacin estndar de 20. Probar la hiptesis de Ho: = 145
con los niveles de significancia de 0.05 y 0.01. Tambin calcular el valor de p. 5.39.

5-96
Dr. Hctor Quevedo Uras

El promedio de una muestra aleatoria de 100 anlisis de sulfatos (SO4-2) es de 1570


mg/L, con una desviacin estndar de 120 mg/L. Si es el promedio de todos los
casos de sulfatos, probar la hiptesis nula de Ho: = 1600 mg/L, contra la hiptesis
alternativa de H1: 1600 mg/L usando los niveles de significacin de 0.05 y 0.01.
Calcular el valor de la probabilidad, p. (z = -2.5, p = .0062)
5.40. En un estudio de oceanografa (el estudio fsico, qumico y biolgico de las
aguas de los ocanos), supngase que un oceangrafo, al revisar la profundidad
promedio del ocano, en cierta parte encuentra que es de 62.3 brazas. Esto lo hace
para ver la factibilidad de hacer ciertos anlisis biolgicos. Este investigador decidi
usar niveles de significancia de 0.05 y 0.01. Para esto, tom una muestra de sondeos
de profundidad en 40 localizaciones marinas y encontr que el promedio de la
muestra estadstica era de 64.8 brazas, con una desviacin estndar de 5.1. Decir si se
rechaza Ho: y calcular el nivel de probabilidad.
5.41. Este es un estudio relacionado con el anlisis de aguas industriales de calcio
(mg/L) usando el mtodo gravimtrico. Para esto, se saca una muestra de 48 anlisis y
se calcula un promedio estadstico de 76.4 mg/L con una desviacin estndar de 3.6.
Usando un nivel de significancia de 0.05 probar la hiptesis de que el promedio
poblacional es mayor que 75 mg/L y calcular el valor de p. (z = 2.69, p = .0036)
5.42. Una muestra aleatoria de 16 observaciones de anlisis de cobre, en el agua, se
sacaron de una poblacin normal. Se calcula un promedio de X = 49.75 y una
desviacin estndar de 10. Asumir una prueba bilateral. La muestra de los resultados
de los anlisis se da abajo:

5-97
Dr. Hctor Quevedo Uras

Tabla mostrando los datos. (Elaboracin propia)


___________________________________________________________________
62 43 60 49 72 56 45 46 37 56 41 43 36 45 56 49

Usar el nivel de significancia de .05 y probar las siguientes hiptesis nulas:


(a) Ho: = 40
(b) Ho: = 49
(c) Ho: = 50
(d) Ho: = 51
(e) Ho: = 60
Debido a que X = 49.75 si puede determinar si una conclusin es correcta o errnea.
Para cada uno de los cinco incisos decir si la conclusin es correcta o si el error I o el
error II se han hecho cometido. Este ejercicio se hace para demostrar que el tipo de
error II se puede cometer si el promedio poblacional hipottico est cercano al
verdadero promedio poblacional.
Tabla mostrando los datos. (Elaboracin propia)
_________________________________________________________________
Inciso o X - o z Ho: Regin crtica Tipo de error
________________________________________________________________
a 40 9.75 3.90 rechazar 1.96 ninguno
b 49 0.75 0.30 aceptar " II
c 50 -0.25 -0.10 aceptar " II
d 51 -1.25 -0.50 aceptar " II
e 60 -10.25 -4.10 rechazar " ninguno
__________________________________________________________________

5.43. Una muestra aleatoria de 2500 observaciones de temperaturas, expresadas en


grados Fahrenheit (oF), se sacaron y se calcul un promedio de igual a 49.9, con una
desviacin estndar de 9.92. Usar las mismas hiptesis nulas que en el problema

5-98
Dr. Hctor Quevedo Uras

anterior a un nivel de significacin de = 0.01. La intencin de este ejercicio es para


demostrar que la probabilidad de cometer ambos errores tipo I y tipo II se pueden
reducir, al mismo tiempo, aumentando el tamao de la muestra. Los datos pertinentes
se dan en la tabla de abajo.
Tabla mostrando los datos. (Elaboracin propia)
_________________________________________________________________
Inciso o X - o z Ho: Regin critica Tipo de error
________________________________________________________________
a 40 9.9 49.5 2.58 rechazar ninguno
b 49 0.9 4.5 " " "
c 50 -0.1 -0.5 " " "
d 51 -1.1 -5.5 " " "
e 60 -10.1 -50.5 " " "

5.44. Suponiendo que se observa un valor de z = 1.87 con un nivel de significacin de


= 0.05 y con Ho: = 10, entonces, calcular el valor de la probabilidad, p.
5.45. Si el valor de la variable aleatoria es de z = 2.73, = 0.05 y Ho: = 10,
encontrar el valor de p. (0.0032)
5.46. En un estudio de higiene industrial y seguridad, (seguridad para los motoristas),
con la cooperacin del departamento de polica, se requiere que los surtidores de
llantas tengan un vida promedio de cuando menos 30,000 millas. Para asegurarse de
este impedimento, el departamento de polica prueba una muestra aleatoria de 36
llantas y obtiene un promedio estadstico de 25,800 millas con una desviacin
estndar de 8,000 millas. Permitiendo una probabilidad de .05 del tipo error I, usar los
datos para probar la hiptesis nula de que el verdadero promedio es de cuando menos
30,000 millas.
5.47. Se dan los siguientes datos procedentes de un estudio de precipitacin pluvial en

5-99
Dr. Hctor Quevedo Uras

mediciones de milmetros de lluvia: Ho: = 0.340 mm, H1: 0.340, donde 0.34 = o,
= .05, X = 0.343 mm., = .01, n = 35. (Ntese que aqu es una prueba de 2 colas,
porque Ho: = 0.340 rene la condicin de igualdad). Las regiones crticas son
1.96, porque = 0.05. Ver tabla de abajo. (z = 1.77. Se retiene Ho: con p = .0768)
Tabla mostrando los datos. (Elaboracin propia)
________________________________________________________________
Hiptesis alternativas Rechazar Ho: = 0.340 si:
__________________________________________________________________
H1: < o = 0.3430 z < - z
H1: > o = 0.343 z > + z
H1: o = .0.343 z < - z/2 o z > z/2
__________________________________________________________________

5.48. Una empresa de camiones de carga sospecha de la afirmacin de que el ciclo de


vida de ciertos neumticos es de al menos 28,000 millas ( 28,000). Para verificar
este argumento, la empresa instala 40 de esas llantas en sus camiones y obtiene un
ciclo de vida promedio de 27,463 con = 1348 millas. Qu se puede concluir, si la
probabilidad de un error tipo alfa se fija en 0.01? Asumir una prueba de hiptesis
unilateral izquierda.
5.49. Para un anlisis de pesticidas clorinados hidrocarbonados en aguas residuales
(usando cromatografa de gas), se dio una muestra conteniendo este pesticida a dos
laboratorios. Los tamaos de las muestras fueron de 40 y 50 casos, respectivamente.
Si las muestras tienen promedios de X 1 = 74 con desviacin estndar de 1 = 8, y de
promedio de X 2 = 78 con una desviacin estndar de 2 = 7, decir si hay una
diferencia significante entre los resultados de los dos laboratorios. Asumir niveles de
significancia de = .05 y = .01. (z = -2.49, p = .0064)

5.50. Una muestra aleatoria de 100 muertes en E. U. mostr una vida promedio de

5-100
Dr. Hctor Quevedo Uras

71.8 aos con una desviacin estndar de 8.9 aos. Pudiera esto indicar que la vida
promedio de hoy en da es mayor que 70 aos? Usar = .05.
5.51. Un fabricante de cables de acero afirma que su producto tiene una resistencia de
ruptura de 8.0 Kg. Probar la hiptesis nula de que Ho: = 8.0 Kg., contra la prueba
alternativa de que H1: 8.0 Kg. Para esto, se sac una muestra aleatoria de 50
cables y se encuentra que tiene una resistencia promedio de X = 7.8 Kg., con una
desviacin estndar de 0.5 Kg. Para esta prueba usar = .05 y = .01. (p = .0046)
5.52. En un estudio de la aplicacin del pH (potencial hidrgeno que tiene una escala
de 0 a 14, donde 7 es neutral y abajo de 7 es cido y arriba de 7 es alcalino) para
medir la alcalinidad y la acidez de soluciones, un cientfico, dedicado al estudio de la
contaminacin ambiental, asegura que dos muestras de soluciones (A y B) provienen
del mismo lugar de un ro, donde supuestamente hubo un descarga industrial de cido
clorhdrico (HCl). Si esto fuera cierto, entonces el pH de las dos muestras de
soluciones seran iguales. Asumiendo que las observaciones provienen de
poblacionales normales, probar la hiptesis nula de igualdad de los promedios de pH.
Asumir = 0.05. Hacer las siguientes estimaciones:
(a) Hacer estos clculos usando la distribucin normal y la distribucin de t de
Estudiante.
(b) Tambin, calcular el valor de la probabilidad p en ambos casos y ver que
diferencias hay.
(c) Hacer intervalos de confianza usando las frmulas para la distribucin z y para la t
de Estudiante.
(d) Desaprueban los datos la afirmacin del cientfico? La tabla de abajo muestra la
informacin requerida para este problema.

5-101
Dr. Hctor Quevedo Uras

Tabla mostrando los datos de las mediciones del pH. (Elaboracin propia)

Mediciones del pH de solucin A Mediciones del pH de solucin B


___________________________________________________________________
6.24 6.27
6.31 6.25
6.28 6.33
6.30 6.27
6.25 6.24
6.26 6.31
6.24 6.28
6.29 6.29
6.22 6.34
6.28 6.27
___________________________________________________________________

5.53. Una compaa est en el proceso de decidirse si va a producir un nuevo


componente electrnico. En la planta hay dos mquinas que pueden ser adaptadas
para hacer este componente. Para esto, se hace una prueba en la mquina 1 y se mide
el tiempo de produccin por componente y da un promedio de X 1 = 5.23 minutos
para una muestra de 100 componentes. En la mquina 2 el promedio de tiempo fue de
X 2 = 5.37 minutos para una muestra de 64 componentes. En pasadas experiencias, se
sabe que las desviaciones estndar fueron de 0.15 y 0.10 minutos, respectivamente
Asumir = 0.05. Hacer los siguientes clculos:
(a) Probar la hiptesis de que no hay diferencias entre las dos poblaciones de
componentes muestreadas. (z = -2.55 se rechaza Ho:)
(b) Hacer un intervalo de confianza para el verdadero promedio .

(c) Calcular el valor de p. (p = 0.011)


5.54. En una investigacin relacionada con las concentraciones de plomo (Pb), se

5-102
Dr. Hctor Quevedo Uras

sabe que el plomo es un veneno muy peligroso, en el cual el cuerpo se adapta


crnicamente a las acumulaciones de este metal pesado. La presencia de Pb en el agua
potable puede venir de descargas industriales, de minas y de fundiciones de metales.
Hay algunos mtodos para determinar las concentraciones de Pb en el agua. Uno de
ellos es el mtodo de absorcin atmica espectromtrico (mtodo A) y el mtodo
calorimtrico (mtodo B). En esta investigacin se pretende comparar los resultados
de los mtodos de absorcin atmica y el de ditizone. El mtodo de absorcin atmica
espectromtrica consiste en aspirar la muestra preparada en una flama y
atomizndola. El mtodo ditizone consiste en extraer en tetracloruro de carbono
(CCl4), el Pb en una solucin ligeramente bsica. Los datos debajo dan las
concentraciones (en mg/L) de dos muestras de mtodo A y mtodo B. Asumir un
nivel de significacin de 0.05. Tambin, asumir que las poblaciones muestreadas son
normales. Hacer los siguientes clculos:
(a) Probar que no hay diferencia entre las dos poblaciones analizadas.
(b) Calcular el valor de p.
(c) Hacer un intervalo de confianza con = 0.05
La tabla de abajo muestra los resultados de las concentraciones de los dos mtodos.
Tabla mostrando las mediciones de Pb. (Elaboracin propia)
Mtodo A | .055, .051, .052, .053, .055, .053, .055, .049, .048, .049, .05, .053, .052, .054, .056, .054, .057, .049,
.048, .05, .057, .059, .040, .042, .043, .046, .055, .03, .07, .075, .08, .086, .056, .078, .076, .077
Mtodo B |.057, .06, .07, .057, .059, .059, .049, .06, .07, .075, .06, .067, .068, .064, .069, .078, .07,
.079, .074, .05, .06, .07, .08, .081, .072, .082, .079, .087, .04, .04, .04, .043, .044, .046, .081, .083

5.55. Dos astrnomos registraron observaciones de cierta estrella en el firmamento.


Se obtuvieron 12 observaciones por el primer astrnomo y dio un promedio de 1.20
mediciones. El segundo astrnomo sac una muestra de 8 observaciones y obtuvo un

5-103
Dr. Hctor Quevedo Uras

promedio de 1.15 mediciones. La experiencia pasada indic que estos astrnomos


obtuvieron mediciones con varianzas de 0.40 mediciones. Asumir que la poblacin
muestreada es normal. Usar el nivel de significacin de 0.05 y probar las hiptesis:
Ho:1 - 2 = 0 contra las hiptesis alternativas de H2: > 0 y H3: < 0. (z = 0.17)
5.56. Decir de cuntas colas se harn las siguientes pruebas de hiptesis y decir las
pruebas alternativas:
(a) Si la prueba de hiptesis nula es de Ho: = 14.00, entonces las pruebas
alternativas son de:
(b) Si la prueba de hiptesis nula es de Ho: 14.00, entonces las pruebas
alternativas son de:
(c) Si la prueba de hiptesis es de Ho: 14.00, entonces las pruebas alternativas
son de:
5.57. Una muestra de 49 observaciones de anlisis de ruidos (en decibeles, dB) se us
para probar la hiptesis nula de que el promedio poblacional es de = 145 dB. Se
calcul un promedio muestral de X = 138.00 dB con una desviacin estndar de 20.
Hacer los siguientes clculos:
(a) Establecer las pruebas alternativas. (H1: 145)
(b) Si el nivel de significancia es = 0.05 establecer la regin crtica.(tcrtica = 1.96)
(c) Si se rechaza la hiptesis nula, calcular el valor de p. (p = .0142)
5.58. Despus de analizar las temperaturas de 50 trabajadores de un frigorfico, el
mdico de la empresa afirma que, la temperatura promedio poblacional del cuerpo, es
igual a 98.6 oF. El promedio estadstico de este grupo fue de X = 98.2 oF con una
desviacin estndar de = 0.62. Hacer lo siguiente:
(a) Identificar la hiptesis nula Ho:
(b) Identificar la o las hiptesis alternativas H1:

5-104
Dr. Hctor Quevedo Uras

(c) Establecer las regiones crticas usando el nivel de significacin de = 0.05 y =


0.01.
(d) Calcular el valor de la estadstica z.
(e) Si se rechaza la hiptesis nula, calcular el valor de la probabilidad, p.
5.59. Si se usa el valor significante de = 0.01 encontrar los valores crticos de z
(ztab.) si se usa:
(a) Prueba bilateral, es decir de dos colas. (2.33)
(b) Prueba bilateral con = 0.10. (1.28)
(c) Prueba bilateral con = 0.005. (2.81)
5.60. Se dan los siguientes datos: Promedio aritmtico, X = 31.8, = 0.25, n = 50,
Ho: 32. Hacer los siguientes clculos:
(a) Decir cul es la prueba de hiptesis alternativa
(b) Establecer las regiones crticas usando = 0.05 y = 0.01
(c) Calcular el valor de la estadstica z (zcalc ).
(d) Si se rechaza la hiptesis en cualquiera de los dos niveles de significacin de 0.05
y/o 0.01, calcular el valor de la probabilidad p.
5.61. Se saca un valor de n = 25 de una poblacin normal, con s2 = 3. Usar = .05.
Hacer lo siguientes:
(a) Calcular 2. (2 = 9.6)
(b) Estimar las regiones crticas 2/2;n-1 y 21-/2;n-1 (12.4 y 39.4)
(c) Probar Ho:2 = 75, y H1:2 75 (se rechaza Ho:)
(d) Calcular el valor de p. (p 0.01)
5.62. En un estudio ambiental hecho en varios lagos de Noruega, acerca del pH del
agua, en respuesta a la preocupacin de los efectos de la precipitacin pluvial cida,
se hicieron dos muestreos hechos en los aos de 1976 y 1981. Se quiere saber si hubo

5-105
Dr. Hctor Quevedo Uras

diferencias en las dos mediciones de pH de esos aos 1976 y 1981. Los datos se dan
en la tabla de abajo. Asumir que las varianzas de las dos poblaciones son iguales.
Usar un nivel de significacin de 0.05 y calcular el valor de la probabilidad p en la
toma de decisiones. (Statistics for Environmental Sciences and Management, por
Bryan Manly, p. 8).

5-106
Dr. Hctor Quevedo Uras

Tabla mostrando las mediciones de pH para 1975 y 1981.


No. de lago pH (1975) pH (1981)
1 4.59 4.63
2 4.97 4.98
3 4.32 4.49
4 4.97 5.21
5 4.98 5.00
6 4.58 4.94
7 4.72 4.90
8 4.53 4.54
9 4.96 5.69
10 4.96 5.75
11 5.31 5.43
12 5.42 5.19
13 5.60 5.70
14 5.37 5.38
15 4.87 4.90
16 5.87 6.02
17 6.20 6.25
18 6.67 6.67
19 6.06 6.09
20 5.38 5.51
21 5.60 5.98
22 5.60 5.66
23 5.37 5.67
24 5.07 5.18
25 6.23 6.29
26 6.24 6.37
27 5.15 5.68
28 4.82 5.45
29 5.42 5.54
30 4.99 5.25
31 5.31 5.55
32 5.99 6.13
33 4.63 4.92
34 4.47 4.50
35 4.60 4.66
36 4.88 4.92
37 4.60 4.84
38 4.85 4.86
39 5.06 5.11
40 5.97 6.17
41 5.47 5.82
(Fuente: Statistics for Environmental Science and Management. Manly, 2001)

5-107
Dr. Hctor Quevedo Uras

Sugerencia: Usar la funcin estadstica para pruebas de hiptesis para las diferencias
de dos promedios.
5.63. El presidente de cierta compaa fabricante de partes de automvil afirma qu,
el nmero promedio de partes vendidas, diariamente, es de 1500. El director general
de toda la cadena de establecimientos quiere comprobar esta afirmacin. Para esto, se
toma una muestra aleatoria consistente en 36 das, la cual mostr un promedio de
1450 partes. Asumir que se conoce el valor de = 120 partes. Usar = 0.05. Calcular
el valor de la prueba no tradicional, es decir, usando el valor de p. Qu se puede
concluir acerca de esta situacin? (z = -2.5 y se rechaza Ho:)
5.64. Jay Devore autor del libro Probabilidad y Estadstica para Ingeniera y
Ciencias (2201) discute el problema relacionado con el anlisis de una muestra
aleatoria de n1 = 20 especimenes de acero laminado en fro, para determinar su
resistencia, dando, como resultado, una resistencia promedio muestral de X 1 = 29.8
ksi. Una segunda muestra aleatoria de n2 = 25 especimenes de acero galvanizado de
dos lados dio una resistencia promedio muestral de X 2 = 34.7 ksi. Si se supone que
las dos distribuciones de resistencia de los aceros son normales con 1 = 4.0 y 2 = 5.0
ksi (sugeridas por una grfica en el artculo Sinc-Coated Sheet Steel: An Overview,
Automotive Engr., diciembre de 1984, pp. 39-43).
(a) Significan estos datos que las verdaderas resistencias promedio 1 y 2 son
diferentes?
(b) Calcular el valor de p.
(c) Tambin hacer un intervalo de confianza para los dos promedios poblacionales.
Realizar la prueba de hiptesis con = 0.01.
5.65. En un estudio de higiene industrial y seguridad en carreteras estatales, al
seleccionar un concreto de azufre para construir una carretera, es importante escoger

5-108
Dr. Hctor Quevedo Uras

un concreto con bajo valor de conductividad trmica, para reducir al mnimo los
daos ocasionados por cambios de temperatura y, as, evitar accidentes
automovilsticos en las carreteras. Supngase que hay dos tipos de concreto, uno es
un agregado escalonado y el otro no tiene agregados finos considerados para cierta
carretera. La tabla de abajo resume los datos de un experimento realizado para
comparar los dos tipos de concreto. Sugiere esta informacin que el verdadero
promedio de conductividad del concreto, con agregado escalonado supera al del
concreto sin agregado fino? ( Probabilidad y Estadstica para Ingeniera y Ciencias,
J. L.Devore, 2000). (3.36, p = .0004)

Tipo de concreto Tamao Promedio muestral Desviacin


muestral de conductividad estndar
Escalonado 42 .486 .187
Sin agregados finos 42 .359 .158
(Fuente: Devore, 2000)

5.66. El gerente de una cadena de hoteles est considerando construir un motel a lo


largo de una autopista. El dueo que est vendiendo el terreno al gerente, para la
construccin del motel, asegura qu, por ah pasan 1100 vehculos por da. Sin
embargo, el gerente de la cadena de hoteles dice que, una cifra mayor que 1100
vehculos, sera adecuada para la construccin del motel en ese sitio. Para esto se
toma una muestra aleatoria durante 18 das. Los resultados reafirman o desaprueban
la afirmacin del dueo del terreno? La tabla de abajo da la informacin requerida:

5-109
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema. (Elaboracin propia).

Da | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
No. de vehculos |1150 1225 1195 1195 1210 1100 1150 1195 1105 1205 1121 1190 1195 1192 1100 1201 1090 1095

5.67. Encontrar las siguientes probabilidades:


(a) P(-1.0 < Z < 2.0) (0.8185)
(b) La probabilidad de que la variable aleatoria Z no se encuentre entre estos dos
valores. (0.1815)
(c) Si X = 4 y s = 1, encontrar los valores de la variable aleatoria X para el intervalo
del inciso (a). (X = 6)
5.68. La vida promedio de un pesticida rgano clorado depositado en la tierra es una
variable aleatoria con la siguiente distribucin de probabilidad:
f (x) = 1/60 e-x/60 para x 0
(a) Dar el promedio del pesticida en cuestin.
(b) Estimar la probabilidad de que el pesticida, en cuestin, dure 100 das.
5.69. Se sac una muestra al azar de 49 anlisis de aguas residuales y se calcul X =
800 mg/L con s = 60.0 mg/L. Probar la hiptesis nula de que el verdadero promedio
es de 850 mg/L. Asumir = 0.05. Calcular el valor de p. (z = -5.83, p = .0003).
5.70. Se sac una muestra aleatoria de SO3 atmosfrico en unidades de ppm
provenientes de un complejo industrial. Probar que = 52. Se sabe que la poblacin
muestreada es normal. Calcular el valor de p con = 0.01.
Tabla mostrando los datos. (Elaboracin propia)
___________________________________________________________________
SO3 (ppm) | 50 52 56 57 55 55 54 55 56 57 56 54
___________________________________________________________________

5-110
Dr. Hctor Quevedo Uras

5.71. En un estudio relacionado con el ahorro de combustible, se sabe que el 40% de


los coches no americanos de 4 cilindros, el consumo de gasolina se reduce
considerablemente, es decir, con relacin a los coches americanos de 6 u 8 cilindros.
Si se saca una muestra aleatoria de 15 coches de 4 cilindros, calcular la probabilidad
de que 4 de estos coches sean eficientes en el ahorro de combustible. Hacer esto
usando la distribucin binomial y la normal. Comparar los resultados. (Usando la
distribucin normal da 0.1214; usando la distribucin binomial da 0.1268)
5.72. Supngase que el tiempo de reaccin X a cierto estmulo en un individuo
seleccionado aleatoriamente, tiene una distribucin gamma estndar con = 2s
(Devore, 2001). Sugerencia: usar la relacin P(a X b) = F(b) F(a). Usar la tabla
de la funcin de gamma incompleta.
5.73. Este es un problema que involucra el uso de la distribucin gamma en donde
aparecen distribuciones que no son estndar. Este problema dice as (Devore 2001, p.
171): Supngase que el tiempo X de supervivencia, en semanas, de un ratn macho,
seleccionado al azar y expuesto a 240 rads de radiacin gamma, tiene una distribucin
gamma con = 8 y = 15. El tiempo esperado de supervivencia es de E(X) = (8)(15)
= 120 semanas, en tanto que, V(X) = (8)(15)2 = 1800 y x = 1800 = 42.43 semanas.
Siendo as, encontrar la probabilidad de que un ratn sobreviva:
(a) Entre 60 y 120 semanas. (.496)
(b) Por lo menos 30 semanas. (.999)
5.74. Sea X la resistencia final a la tensin (ksi) a -200 oF de un tipo de metal que
presenta problemas de resistencia a temperaturas bajas. Supngase que X tiene una
distribucin Weibull con parmetros = 20 y = 100. Calcular lo siguiente:
(a) La probabilidad de que la resistencia final a la tensin (ksi) a -200 oF se de a lo
ms 105. (.930)

5-111
Dr. Hctor Quevedo Uras

(b) Entre 98 y 102


5.75. El encargado de la caseta de cobro de una carretera ha observado que los
vehculos llegan aleatoria e independientemente, con un promedio de 300 vehculos
por hora. Sugerencia: usar P(X a) = e-a para (a) y p(x) = e-x/x! para (b). Siendo as,
resolver los siguientes enunciados:
(a) Usar la funcin exponencial para calcular la probabilidad de cuando menos 1
minuto pasar antes de que el siguiente motorista llegue. (P(X 1.0) = e-5(1))
(b) Usar la distribucin de Poisson para comparar el valor de la probabilidad obtenida
en (a).
5.76. La duracin de cierta refaccin para automviles sigue a una distribucin
Weibull con una tasa de falla A(t) = 1/ t. Siendo as, encontrar las siguientes
probabilidades:
(a) La probabilidad de que la refaccin en cuestin se deteriore antes de 4 aos.
(b) La probabilidad de que la refaccin no se desgaste despus de 4 aos.
5.77. Una batera solar tiene una vida promedio que est exponencialmente
distribuida con un promedio de vida de 10 horas. Usando clculo integral, determinar
las siguientes probabilidades:
(a) La mediana de las vidas de las bateras. (6.93 horas)
(b) La probabilidad de que la vida de una batera est entre 8 y 12 horas. (0.148
horas)
(c) La probabilidad de que la vida de una batera exceder 15 horas. (0.777 horas)
(d) La probabilidad de que la vida de una batera solar est entre 60 y 120 minutos.
5.78. Decir cul de las siguientes afirmaciones es correcta:
(a) A medida que el tamao de la muestra, n disminuye y la desviacin estndar, s
aumenta, el valor de la probabilidad, p disminuye.

5-112
Dr. Hctor Quevedo Uras

(b) A medida que n disminuye y s disminuye, el valor del error estndar aumenta y,
por lo tanto, el valor de p disminuye.
(c) A medida que n aumenta y las tcnicas del laboratorio se refinan causando una
varianza pequea, el error estndar del promedio baja y, por consiguiente, el valor
de p aumenta y la hiptesis nula se rechaza.
(d) A medida que el error estndar del promedio disminuye por tamaos de
muestra grandes, con pequeas variaciones, esto conlleva a un valor pequeo de p
mucho muy significante, lo cual nos lleva a retener la hiptesis nula.
(e) A medida que la varianza disminuye, con n constante, el valor de p disminuye y
la hiptesis nula se rechaza.
(f) A medida que n aumenta y las tcnicas del laboratorio se refinan causando una
varianza pequea, el error estndar baja y, por consiguiente, el valor de p
disminuye y se retiene Ho:
(g) A medida que n aumenta y las tcnicas del laboratorio se refinan causando una
varianza pequea, el error estndar baja y, por consiguiente, el valor de p
disminuye y se acepta HA:
(h) los incisos (d), (e) y (f) son correctos
(i) Los incisos (e) y (g) son correctos
5.79. Actualmente, hay mucho debate, por saber si las emisiones de campos
electromagnticos producidos por telfonos mviles (celulares) y sus estaciones de
antenas base puedan estar afectando la salud. Con ms de 500 millones de
telfonos mviles en todo el mundo, de acuerdo a al artculo Examining the effects
of electromagnetic fields emitted by GSM mobile phones on human event-related
potentials and performance during an auditory task publicado en Clinical
Neurophysiology 115 (204) 171- 178 (http://www.wow-com.com/industry/stats),

5-113
Dr. Hctor Quevedo Uras

el desmesurado incremento del uso de la telefona celular y sus consiguientes


efectos en las funciones cognitivas y fisiolgicas debido a las radiaciones
electromagnticas (RE), es una situacin que est causando preocupacin entre las
personas conocedoras de este problema. Se han hecho muchas investigaciones con
relacin a los efectos en la salud producidos por la radiacin de microondas
debidas a la proximidad de los telfonos celulares a la cabeza del usuario y de la
proximidad a las estaciones de antenas base de telefona celular, a estaciones
elctricas, a lneas de de alta tensin, hornos de microondas, etc. La mayora de
estas investigaciones coinciden en que los efectos de estos tipos de RE estn
afectando el cerebro y al sistema nervioso en mayor o menor grado. Hay estudios
que han relacionado las emisiones electromagnticas con casos de cncer en el
cerebro, efectos en la actividad enzimtica y espermtica, efectos visuales y
auditorios, prevaleca de dolores de cabeza entre los usuarios de telfonos mviles,
problemas con el sueo, efectos en las clulas linfticas humanas, mutaciones, etc.,
de las personas expuestas. En cuanto a la proximidad de las antenas base de
telefona mvil, y sus efectos en la salud, algunos pases han estipulado, como un
criterio seguro, el establecimiento de las antenas de microondas a distancias
mnimas de 600 metros de complejos habitacionales. Siendo as, se disea un
ejemplo hipottico relacionado con las mediciones de radiacin electromagntica y
la proximidad a la fuente emisora, es decir, de mediciones a diferentes distancias
de las antenas base de telefona celular. Para este ejemplo, en particular, se calculan
los promedios de una muestra de 30 mediciones de radiacin electromagntica,
para cada una de las siguientes distancias: 25, 50, 100, 200, 300, 400, 500 y 600
metros de la antena base de telfonos mviles. Los promedios de la radiacin
electromagntica para cada distancia son: 950 MHz, 800 MHz, 550 MHz, 400

5-114
Dr. Hctor Quevedo Uras

MHz, 195 MHz, 80,000 Hz, 30,000 Hz y 500 Hz, respectivamente. Sus respectivas
desviaciones estndares fueron 50 MHz, 40 MHz, 35 MHz, 80 MHz, 100 MHz,
20,000 Hz, 10,000 Hz y 100 Hz. El estudio se llev a cabo durante todo un ao, en
un esfuerzo por evaluar variables, como la distancia, la altura, poca del ao,
factores meteorolgicos (como temperatura, presin atmosfrica, intensidad y
direccin del viento, humedad relativa), contaminacin del aire por partculas y
gases, etc., que pudieran afectar el poder de la densidad de la radiacin
electromagntica emitida. Para resolver este problema estimar el modelo
matemtico que mejor ajuste los datos. Una vez que se evale el modelo
acordemente, predecir la radiacin de microondas a una distancia de 10 y 1000
metros de la antena base. Si hubiese valores atpicos extremos, enlistar tres
posibles factores que puedan explicar estas situaciones.

5-115
Dr. Hctor Quevedo Uras

CAPITULO 6
Distribuciones de t de Estudiante, JI cuadrada y F
Propiedades de la distribucin de t de Estudiante.- Intervalos de confianza para
el promedio poblacional .- Prueba de hiptesis para .- Prueba de t pareada
para detectar diferencias entre dos tratamientos.- Prueba de t para probar la
hiptesis de dos promedios, cuando las varianzas son iguales.- Prueba de t para
probar la hiptesis de dos promedios cuando las varianzas son desiguales.-
Mecanismos para calcular el valor de p cuando se hacen pruebas de hiptesis no
tradicionales.- Intervalos de confianza y pruebas de hiptesis con la JI cuadrada,
(2).- Aplicacin de la JI cuadrada en cuanto a la prueba de bondad de ajuste
comparando las frecuencias observadas y las frecuencias tericas.- Distribucin
F y su aplicacin en la comparacin de varianzas muestrales.-
Aqu, discutiremos la distribucin de t de Estudiante, que est relacionada con la
teora de muestreo pequeo. Tambin, discutiremos la distribucin de JI cuadrada y
la distribucin de F.
En los captulos anteriores hicimos hincapi de que, para muestras que fueran
30 casos, se usa la distribucin normal. Sin embargo, para muestras menores que
30 observaciones se usa lo que se llama teora de muestreo pequeo, que est
relacionada con la distribucin de t de Estudiante, con la JI cuadrada o con la
distribucin F. La distribucin de t se nombr despus de W.S. Gosset, quien us el
seudnimo de estudiante.
Por ejemplo, cuando usamos la distribucin normal siempre se conoce el valor
de , el tamao de la muestra es > 30 y se sabe que la distribucin muestreada es
normal. Pero cuando usamos la distribucin de t de Estudiante, no se conoce y el
tamao de la muestra es menor que 30 casos, sin saber si la distribucin muestreada

6-1
Dr. Hctor Quevedo Uras

es normal o no. Estas situaciones se explican usando las frmulas de la distribucin


normal y la de t de Estudiante.
Del Captulo 5, ya sabemos que, para aplicar la distribucin normal se usa la
variable aleatoria normal estandarizada z, dada como z = ( X - ) / /n. Sin
embargo, esta funcin tiene un uso limitado, porque la varianza 2 de la poblacin
rara vez se conoce y porque la poblacin muestreada debe ser normal o
aproximadamente normal. La distribucin de t de Estudiante no tiene esta limitacin,
porque an, para muestras de n < 30 casos, se asume que = s. As sustituyendo el
valor de por s la funcin de t de Estudiante nos da:
t = ( X - ) / s/n (6-1)
Donde:
X = promedio muestral
= promedio poblacional que se quiere probar
s = desviacin estndar muestral
n = tamao de la muestra
s/ n = error estndar del promedio
Propiedades de la distribucin de t de Estudiante
La distribucin de t de Estudiante es una familia de distribuciones, cada una
caracterizada por el nmero de grados de libertad . Es similar a la distribucin de z
normal, con promedio igual a cero y es simtrica en forma de campana. Su forma
depende en el tamao de la muestra. Con tamaos de muestras pequeas, la forma de
esta curva es menos picuda que la normal, pero a medida que n llega a 30 casos o se
va a infinito, s2 se aproxima a 2 y la t de Estudiante se aproxima a la distribucin
normal. La grfica de abajo muestra la distribucin de t de Estudiante, con diferentes
grados de libertad.

6-2
Dr. Hctor Quevedo Uras

Figura 6.0. Grfica mostrando familias de curvas de la distribucin de t de Estudiante


con diferentes grados de libertad , demostrando cmo, a medida que , la
distribucin t se aproxima a la distribucin normal.

Diferencias entre la distribucin de t de Estudiante y la distribucin normal


La distribucin de t se usa en lugar de la distribucin normal, cuando el tamao de la
muestra es menor que 30 casos. Cuando hablamos de la distribucin normal, sta
requiere que la muestra sea de n 30 observaciones o que, la poblacional muestreada
sea normal. Este tamao de muestra se considera como una muestra grande. Pero
cuando la muestra de casos es n < 30 observaciones, no se puede usar la curva normal
y tenemos que usar lo que se llama "teora de muestreo pequeo." Para tales efectos
se usa la distribucin de t de Estudiante, la JI cuadrada o la distribucin, F. La
estadstica t se usa para comparar los promedios de dos distribuciones, mientras que la
prueba de F se usa para comparar las varianzas de dos distribuciones.
De hecho, las diferencias entre la distribucin de t y la distribucin normal son
que la distribucin t no necesita el parmetro de poblacin, , mientras que la normal
si lo requiere. Adems, la funcin t no requiere de muestras grandes. Otros, la

6-3
Dr. Hctor Quevedo Uras

varianza, 2 > 1 y, solamente, cuando n entonces, ambas distribuciones son


iguales (prcticamente, cuando n 30 casos).
Funciones usadas con la distribucin de t de Estudiante
1. Se usa para hacer intervalos de confianza para .
2. Se usa para probar la hiptesis de que tiene un valor determinado, como por
ejemplo, Ho: = o.
3. Se usa para probar diferencias entre dos tratamientos deliberadamente emparejados,
esto es, Ho:1 - 2 = 0. Aqu, los tamaos de distribuciones deben ser iguales.
4. Se aplica para probar diferencias entre dos promedios usando el mtodo de
seleccin completamente al azar (aleatorio), y con varianzas iguales. Aqu los
tamaos de las distribuciones pueden ser iguales o desiguales.
5. Se aplica para selecciones completamente aleatorias (al azar) con varianzas
desiguales. El tamao del las distribuciones puede ser igual o desigual.
Aplicaciones de la distribucin de t de Estudiante
Las aplicaciones de la t de Estudiante son varias. Por ejemplo, puede usarse para el
control de la calidad industrial. Tambin es muy til para el control de la calidad de
un sistema de tratamiento de aguas residuales en el campo de la ingeniera ambiental.
Por otra parte, otra aplicacin muy importante de la t de Estudiante, es la
distribucin pareada. Esto es, para comparar el promedio de dos distribuciones o
tratamientos, como, por ejemplo, para probar la hiptesis nula de Ho:1 = 2, es decir,
que no hay diferencias entre los dos promedios. Aqu, pudiramos estimar dos tipos
de anlisis usando dos mtodos y tratamientos, digamos de oxgeno disuelto (OD) o
la comparacin de dos mtodos en la ingeniera del agua como el mtodo Winkler y
el de electrodos y ver si hay diferencias entre los dos mtodos usando la prueba de t
apareadas. Tambin se puede usar para comparar dos distribuciones seleccionadas,

6-4
Dr. Hctor Quevedo Uras

aleatoriamente, y, con varianzas iguales o desiguales. Aqu, cabe notar que, si se trata
de comparar los promedios de ms de 2 distribuciones, entonces se usa el anlisis de
varianza simple o mltiple.
Descripcin de las funciones usadas con la distribucin de t de Estudiante
Estadstica descriptiva:
n

Promedio: X = Xi / n (6-2)
x=0

Varianza muestral: s2 = [ X 2 (X)2 /n ] / n - 1 (6-3)


Desviacin estndar: s = s2 (6-3a)
Intervalos de confianza para el promedio poblacional :
Prob{ X - t[1 - /2;] s/n < < X + t[1 - /2;} s/n} = 1 - (6-4)
Donde:
X = promedio muestral
t[1/2;] = valor porcentual de t con un nivel de significancia , con grados de
libertad
s = desviacin estndar
n = tamao de la muestra
s/ n = error estndar del promedio
Prueba de hiptesis para el promedio poblacional
t = ( X o) / s/ n (6-5)
Donde:
X = promedio muestral
o = promedio poblacional que se desea probar
s = desviacin estndar de la muestra

6-5
Dr. Hctor Quevedo Uras

Prueba de t para observaciones pares, para detectar diferencias entre dos


tratamientos
t = ( D - d ) / (s d /n) (6-6)
Donde:
D = Promedio de la muestra de las diferencias de las observaciones del par de
distribuciones
s d = Desviacin estndar de las diferencias de las observaciones del par de
distribuciones
n = nmero de observaciones
d = 0
Prueba de hiptesis para la diferencia entre dos promedios poblacionales. Esta
funcin tambin aplica cuando las varianzas de las dos distribuciones son iguales
y normales.

( X 1 - X 2) - (1 - 2)
t = (6-7)
s2p (1/n1 + 1/n2)

Donde:
X 1, X 2 = promedios aritmticos de las dos distribuciones
n1, n2 = tamaos de las dos muestras
1, 2 = parmetros de poblacin uno y dos a estimarse
s2p = (1 s12 + 2 s22) / (1 + 2)
Donde:
s2p = la varianza combinada de las dos muestras
1, 2 = grados de libertad de muestras uno y dos

6-6
Dr. Hctor Quevedo Uras

s12, s22 = varianzas de muestras uno y dos, respectivamente


Funcin de t para la misma situacin que la funcin anterior, pero aplicndola
cuando las varianzas de las dos distribuciones son desiguales y asumiendo que
las poblaciones son normales
( X 1 - X 2) - (1 - 2)
t = (6-8)
(s12 / n1) + (s22 / n2)

Para calcular los grados de libertad, se usa la frmula:


= (s21/n1 + s22/n2)2 / [(s21/n1)2/n-1 + (s22/n2)2/n-1] (6-9)
Donde:
s21 y s22 = varianzas de las muestras uno y dos
n1 y n2 = tamaos de las muestras uno y dos

Nota importante: las diferencias entre las funciones de t (6-6), (6-7), y (6-8) se basan
en el mtodo de la seleccin al azar que se sigue. Por ejemplo, en la funcin (6-6), el
mtodo de seleccin en el emparejamiento de los pares de las observaciones de las
distribuciones es deliberado. Sin embargo, en el caso de las funciones (6-7) y (6-8),
con relacin a la funcin (6-6), la seleccin es completamente aleatoria, sin hacer
emparejamientos. Adems, las diferencias entre el uso de las funciones (6-6), (6-7), y
(6-8) es de que en el caso de la (6-6), el tamao de las muestras pares debe de ser
igual. En contraste, las funciones (6-7) y (6-8) pueden usarse con tamaos de
muestras desiguales. Tambin, con respecto a la uso de las funciones (6-7) y (6-8),
stas estn relacionadas con la condicin de igualdad o desigualdad de las varianzas.
La funcin (6-7) requiere que las varianzas sean iguales y la funcin (6-8) no. Ahora
bien, para hacer un decisin sobre cual de las dos funciones, (6-7) o (6-8) se vaya a

6-7
Dr. Hctor Quevedo Uras

usar, la manera de saber si las varianzas son iguales o desiguales, se puede deducir
haciendo una prueba de igualdad de varianzas con la distribucin F, esto es, usando la
funcin de F = s21 /s22.
Tipos de criterios que se siguen para establecer las pruebas de hiptesis
(anlogos a los de la distribucin normal)
1. La hiptesis nula se puede hacer como: Ho: = o. Bajo estas condiciones de
igualdad, las hiptesis alternativas son:
H1: o, H2: < o y H3: > o. Donde o es el promedio poblacional que se quiere
probar. Aqu, cabe notar que en este caso, la prueba de hiptesis es bilateral o de dos
colas.
2. Tambin la hiptesis nula se puede hacer como: Ho: o. En este caso, la
hiptesis alternativa es Ho: < o. Aqu, la prueba de hiptesis es unilateral izquierda.
3. Igualmente, la hiptesis nula se puede hacer como: Ho: o. En este caso la
hiptesis alternativa es H1: > o. Aqu, la prueba de hiptesis es unilateral derecha.
4. Seleccionar un nivel de significacin de tamao , esto es, = .05 o = .01 con sus
respectivos niveles de confianza de 95% y 99%. Tambin, se pueden usar otros
niveles de significacin, como el .10, .20, etc., pero los ms comunes son los de 0.05
y .01.
5. Seleccionar la estadstica apropiada (por ejemplo, si n > 30 casos se usa la
distribucin z. Si la muestra es n < 30 casos y la poblacin muestreada no es normal
se usa la distribucin de t de Estudiante, la distribucin de Ji cuadrada, la distribucin
F, etc.
6. Se establecen las regiones crticas usando niveles de confianza del 95%, 99%, 90%,
80% etc. (95% y 99% los ms comunes)
7. Se estima el valor de la prueba de estadstica de la muestra y se compara con el

6-8
Dr. Hctor Quevedo Uras

valor de la estadstica calculada, es decir, zcalc. o tcalc. (De las regiones crticas) y se
comparan con ztab. o ttab. Si la estadstica calculada es mayor que la estadstica tabulada
(de las regiones crticas) se rechaza la hiptesis nula). De otra manera, se acepta la
hiptesis o no se hace ninguna decisin. De esta manera, si el valor de la estadstica
calculada se mete en las regiones crticas se rechaza la hiptesis nula (o tambin si el
valor de p es menor o igual al nivel de significacin, deseado).
Nota: Aqu es importante recordar que, la prueba de hiptesis nula estadstica se
dise el siglo antepasado. En tiempos modernos de la era ciberntica, existe la
prueba no tradicional relacionada con el valor de la probabilidad p. Tambin es
importante notar que muchos programas de computadora dan nicamente el valor de
p y el investigador tiene que interpretarlo acordemente.
Mecanismos que se siguen para calcular el valor de la probabilidad p usando las
tablas de las distribuciones de t de Estudiante, la JI cuadrada o la distribucin F
Aqu, para calcular el valor de la probabilidad p se puede hacer usando la funcin t es
decir, haciendo interpolaciones aplicando una frmula emprica diseada por el autor
de este libro, el Dr. Hctor Quevedo Uras y auxiliado por la Dra. Socorro Arteaga.
(2 1) / (t2 t1) = (2 - X) / (t2 tcalc.) (6-10)
Donde:
2 = el nivel de confianza ms alto de la tabla de la t de Estudiante
1 = el nivel de confianza ms bajo de la tabla de la distribucin de t
t1 = la probabilidad correspondiente a 1
t2 = la probabilidad correspondiente a 2
X = valor desconocido de
tcalc.= valor de la estadstica de la distribucin de t, con el nivel significante deseado,
e.g., = .05 o = .01

6-9
Dr. Hctor Quevedo Uras

Donde: (n - 1) = = grados de libertad


Nota: si se usa la distribucin de JI cuadrada o la de Fisher, nicamente se substituye t
por 2 o por F, respectivamente.
Ejemplo #1. Supongamos que queremos hacer la prueba de hiptesis no tradicional
con la funcin t, es decir, usando el valor de la probabilidad p. Entonces, si el valor de
la tcalc. = 2.83 con 4 grados de libertad, con = 0.05 para Ho: = o buscamos el valor
de 2.83 en la tabla, pero no lo encontramos. Sin embargo, vemos que est entre 2.776
y 3.747, con sus respectivos valores de de .99 y .975. Entonces para encontrar X,
procedemos usando la frmula (6-10) de arriba, donde los valores correspondientes
son:
2 = .99, 1 = .975, t2 = 3.747, t1 = 2.776, tcalc. = 2.83.
Ahora, sustituyendo estos valores en la frmula de interpolacin y sustituyendo:
((2 - 1) / (t2 t1) = (2 X) / (t2 tcalc.)
(.99 - .975) / (3.747 2.776) = (.99 X) / (3.747 2.83)
Resolviendo por X da X = 0.976. Por lo tanto, p = 1 0.976 = 0.024, pero como son
dos colas, entonces, multiplicamos ese valor por 2 y da p = .048.

6-10
Dr. Hctor Quevedo Uras

Ejemplo #2. Se saca una muestra aleatoria de 8 observaciones de pH cuyos valores


son: 5, 4, 6, 5, 4, 6, 5, 5. Probar la hiptesis nula de que el valor esperado del pH es de
cuando menos 6.5 usando = 0.05. Calcular el valor de la probabilidad p.
Solucin:
1. La hiptesis nula es Ho: 6.5; y la hiptesis alternativa es H1: < 6.5. Esto dice
que la prueba es unilateral izquierda.
2. Usamos la estadstica: t = ( X o) / s/ n
= (5.0 6.5) / 0.756/ 8
= - 5.6
3. La regin crtica izquierda es t[;] = t[0.05;7] = - 1.895
4. Debido a que tcalc.= - 5.6 < ttab. = - 1.895, se rechaza la hiptesis y nos inclinamos
por la hiptesis alternativa.
5. El valor de la probabilidad p se calcula buscando |-5.6| con = 7 en la tabla de la
distribucin t y se sustituyen los valores de 2 = .99975, t2 = 7.885, 1 = .9995 t1 =
5.408 y tcalc. = -5.61 en la frmula de interpolacin y resolviendo por la variable X da:
(.99975 - .9995)/(7.885 5.408) = (.99975 X)/(7.8885 5.6)
El valor de la probabilidad es p = 0.00048, el cual es mucho, muy significante
Ejemplo #3. Un fabricante de cigarrillos afirma qu, el promedio de nicotina de sus
productos es de cuando mucho 5 miligramos por cigarrillo fumado. Para comprobar
esta aseveracin, se sac una muestra aleatoria de 25 cigarrillos y se encontr un
promedio estadstico de X = 5.5 miligramos de nicotina por cigarro fumado, con una
desviacin estndar de s = 0.5. Probar la aseveracin del fabricante que el verdadero
promedio es de a lo ms 5 miligramos por cigarrillo fumado. Asumir un

6-11
Dr. Hctor Quevedo Uras

valor significante de = 0.05.


Solucin:
1. La prueba de hiptesis nula es: Ho: 5.0. La prueba de hiptesis alternativa es: y
H1: > 5.0.
2. La regin crtica es t0.05;24 = 1.711.
3. Usando la funcin de t y sustituyendo los valores da:
t = (5.5 5.0) / 0.5/5 = 5.0
4. Debido a que 5.0 > 1.711 se rechaza la hiptesis nula.
5. No obstante, esta prueba de hiptesis tradicional no da una idea de la fuerza de
conviccin de que la decisin tomada es, en verdad, correcta. Sin embargo, usando la
prueba de hiptesis no tradicional del valor de p, este valor si determina, qu tan
verosmil es muestrear un valor del parmetro que sea igual o menor que X = 5.5,
cuando = 5.0.
6. El valor calculado de p es de aproximadamente .00002.
Ejemplo #4. Se dan los siguientes datos de una muestra aleatoria de 15 mediciones de
partculas atmosfricas en ppm: 33.38, 32.15, 33.99, 34.10, 33.97, 34.34, 33.95,
33.85, 34.23, 32.73, 33.46, 34.13, 34.45, 34.19, 34.05. Hacer los siguientes clculos
de estadstica descriptiva.
(a) Estimar el tamao de la muestra n
~
(b) Estimar el promedio X , la mediana X y la moda X
(c) Estimar la varianza y la desviacin estndar muestrales
(d) El valor mximo, mnimo, el rango y el error estndar
(e) El sesgo
(f) El nmero de grados de libertad,

6-12
Dr. Hctor Quevedo Uras

(g) El intervalo de confianza del 95%, es decir, el nivel de significancia de = .05)


para el promedio poblacional .
Tambin, hacer los siguientes clculos de estadstica de inferencia:
(a) Probar la hiptesis nula de Ho: = 34.5 contra la hiptesis alternativa de H1:
34.5. Calcular el valor de la probabilidad p.
(b) Probar la hiptesis de Ho: 34.5 contra la hiptesis alternativa de H1: < 34.5.
Calcular el valor de p.
(c) Probar la hiptesis nula de Ho: 33.2 contra H1: > 33.2.
(d) Calcular el valor de la probabilidad p
Solucin:
Los clculos de la estadstica descriptiva son:
(a) El tamao de la muestra es n = 15
(b) El promedio aritmtico, la mediana y la moda son:
X = X / n = (33.38 + 32.15 +...+ 34.05)/15 = 33.8
La mediana es: 33.99. La moda no existe.
(c) La varianza = s2 = [X 2 (X) 2/n]/n-1
= [17,125.76 (506.76)2/15] / 15-1
= 0.38
La desviacin estndar = s = s2 = 0.38 = 0.62
(d) El valor mximo, mnimo y el rango son:
Valor mximo = 34.45. Valor mnimo = 32.15
Rango = valor mximo valor mnimo = 2.3
El error estndar del promedio es:
Error estndar = / n = 0.62/ 15 = 0.16

6-13
Dr. Hctor Quevedo Uras

(e) El sesgo denota la simetra de la distribucin y en este caso es de 2.55, el cual


comparado con el sesgo de la distribucin normal estandarizada, que es de 0, indica
que la distribucin de los datos es oblicua a la derecha o con sesgo positivo.
(f) El nmero de grados de libertad son: = n 1 = 15 1 = 14
(g) El intervalo de confianza del 95% o = .05, corresponde a los valores crticos de
2.145, con = 14 grados de libertad.
X t[1-/2;] (s/ n) < < X + t[1-/2;] (s/ n)
33.8 t[.975;14] (0.16) < < 33.8 + t[.975;14] (0.16)
33.8 - 2.145 (0.16) < < 33.8 + 2.145 (0.16)
33.45 < < 34.15
Los clculos de la estadstica de inferencia son:
(a) Esta es una prueba de hiptesis bilateral con regiones crticas de ttab. = t[.975;14] =
2.145 con 14 grados de libertad, con un nivel de significancia de = .05 (de la tabla
de la distribucin de t). La estadstica usada es la funcin t de abajo:
tcalc. = ( X - o) / s/ n
= (33.8 34.5) / 0.63/ 15
= - 4.3
Ahora se compara la t calculada con la t tabulada, es decir, con los valores crticos. El
criterio que se sigue es de que si la t calculada se introduce en las regiones crticas,
entonces, se rechaza la hiptesis sustentada de que Ho: = 34.5 y se inclina por la
hiptesis alternativa. En conclusin vemos que 4.3 < - 2.145, es decir, se introduce
en el extremo izquierdo de la curva. El valor de la probabilidad p se calcula usando la
frmula de interpolacin (6-10) :
(2 1)/(t2 t1) = (2 X) / (t2 tcalc.)

6-14
Dr. Hctor Quevedo Uras

Donde:
2 = .99975, t2 = 4.499, 1 = .9995, t1 = 4.14, tcalc. = -4.3 (aqu en este caso, se toma
el valor absoluto), X igual a valor buscado el cual corresponden a la interpolacin
de t = -4.3 con = 14 g.l.
Sustituyendo los valores en la frmula de arriba da:
(.99975 .9995)/(4.499 4.14) = (.99999 - X)/(4.499 4.3)
X = 0.99987 y el valor de p es p = 2(1 - .99999) = 0.00002. Este valor es mucho muy
significativo y apoya, muy contundentemente, la contencin de que el promedio no es
mayor que 34.5.
(b) Probando la hiptesis nula de Ho: 34.5 contra H1: < 34.5
La t calculada es la misma que en la parte (a), es decir, - 4.3. Esta es una prueba
unilateral izquierda con = 0.5 con el valor porcentual de t.95;14 = - 1.761 o sea que la
regin crtica izquierda es 1.761 (de la tabla de la distribucin de t). Para hacer una
decisin de rechazar o de aceptar Ho: se compara el valor de t.95;14 = 1.761 con tcalc. =
4.3 y vemos, nuevamente, que se introduce en el extremo izquierdo de la
distribucin, por lo tanto, se rechaza la hiptesis. El valor de la probabilidad p se
calcula buscando el valor absoluto de |-4.3| en la tabla con = 0.05 y vemos que est
entre 4.499 y 4.14 con sus respectivos valores de igual a .99975 y .9995. Es decir
que el valor de p est entre .00025 < p < .0005, con un valor de p .0002.
(c) Para probar la hiptesis de Ho: 33.2 contra la hiptesis alternativa de H1: >
33.2, se usa la estadstica de t de Estudiante, es decir:
t = (33.8 33.2)/0.63/3.87 = 3.68
La regin crtica derecha es t.95;14 = 1.76 y vemos que 3.68 es mayor que este valor y
se rechaza la hiptesis nula. Bajo estas condiciones, el valor de la probabilidad p es
0.001.

6-15
Dr. Hctor Quevedo Uras

Ejemplo #5. Un fabricante de llantas afirma qu, la vida promedio de cierto tipo de
neumtico, es mayor que 25,000 kilmetros, bajo condiciones normales de manejo y,
para vehculos de cierto peso. Para esto, se saca una muestra aleatoria de 15 llantas y
se calcula un promedio aritmtico y una desviacin estndar de 27,000 y 3,000,
kilmetros, respectivamente. Asumir que = 0.05 y que la poblacin de llantas est
normalmente distribuida Se puede concluir de esta informacin que la contencin
del fabricante de llantas es legtima? Para resolver este problema hacer lo siguiente:
(a) Establecer las pruebas de hiptesis nula y alternativa
(b) Establecer la(s) regin(es) crtica(s)
(c) Calcular el valor de la estadstica
(d) Calcular y graficar el valor de p.
Solucin:
(a) El problema est preguntando si se puede concluir que es mayor que 25,000
kilmetros. Por lo tanto, una afirmacin de este efecto deber ir en la prueba de
hiptesis alternativa. Las hiptesis apropiadas son:
Ho: 25,000 y H1: > 25,000
(b) La regin crtica con = 0.05 es: t0.95;14 = 1.7613
(c) El valor calculado de la estadstica t con X = 27,000, error estndar = 774.61, n =
15 y o = 25,000 es:
t = (27,000 25,000) / 3000/15
= 2.58
(d) Para encontrar el valor de la probabilidad p se procede de la siguiente manera: Se
busca t = 2.58 en la tabla de la distribucin de t con = 14 grados de libertad, y
vemos que este valor est entre 2.624 y 2.1448, con sus respectivos percentiles de
0.10 y 0.025. De esta manera, si la hiptesis nula Ho: es cierta, entonces, la

6-16
Dr. Hctor Quevedo Uras

probabilidad de obtener un valor de t tan grande o ms grande que 2.1448 es 0.025.


Similarmente, la probabilidad de obtener un valor tan grande o ms grande que 2.624
es de 0.10. Por lo tanto, si Ho: es verdadera, la probabilidad de obtener un valor de t
tan grande o ms grande que t = 2.58 est entre 0.010 y 0.025, es decir, 0.10 < p <
0.025. Las figuras de abajo muestran esta situacin.

Figura 6.1. Figuras (a) y (b) mostrando el intervalo de la probabilidad p y el valor de


la probabilidad p, respectivamente.

Ejemplo #6. Para probar la eficiencia de una planta de tratamiento lodos activados se
midi la concentracin del DBO5 en la entrada y en el efluente (salida). Se requiere
saber qu tan eficiente es este sistema de tratamiento del drenaje.

6-17
Dr. Hctor Quevedo Uras

TABLA 6.0. Tabla mostrando las concentraciones de DBO. (Elaboracin propia)


Concentraciones de Concentraciones de Diferencias de las
DBO en la entrada DBO en el efluente concentraciones
(mg/L) (mg/L) (mg/L)
170.5 140.4 30.1
207.4 174.7 32.7
215.9 170.2 45.7
209.0 174.6 34.4
171.6 154.6 17.0
201.2 185.0 16.2
209.9 118.9 91.0
213.3 169.8 43.5
184.1 174.7 9.4
220.4 176.7 43.7
__________________________________________________________________

Solucin:
Usando los valores de la TABLA 6.0 sacamos las diferencias entre las
concentraciones en la entrada y en el efluente. Esto se muestra en la tercera columna
de la tabla. Una vez hecho esto, se calcula el promedio aritmtico de las diferencias
(que es igual a D ) y la desviacin estndar (que es igual sd), el error estndar, etc.
1. Usando un paquete de computadora se calcula el valor del promedio D = X =
36.37, la desviacin estndar que es igual a sd = 22.95, n = 10, error estndar = 7.26
2. La prueba de hiptesis nula es de Ho: = 0 o sea que no hay diferencias entre el

6-18
Dr. Hctor Quevedo Uras

DBO de la entrada y del efluente. La hiptesis alternativa es H1: 0.


3. El nivel de significancia es = 0.05. La regin crtica es del extremo derecho y es
igual a t.95;9 = 2.262, es decir, con 9 grados de libertad.
4. Se usa la funcin (6-6) para emparejamiento deliberado, y sustituyendo los valores
da:
t = ( D o) / sd/ n
t = (36.37 0)/7.26
= 5.01
5. Al comparar el valor de tcalc. = 5.01 con el valor de la t crtica de t.95;9 = 2.262, se
rechaza la hiptesis nula y decimos que s hay diferencias entre las concentraciones de
la entrada y de la salida del drenaje.
6. Para calcular el valor de la probabilidad p usamos la frmula de interpolacin. Para
esto buscamos 5.01 en la tabla de la t de Estudiante y vemos que est entre los valores
porcentuales de 2 = .99975 con t2 = 5.291 y 1 = .9995 con t1 = 4.781. Ahora usando
la frmula de interpolacin y sustituyendo todos los valores da:
(.99975 - .9995)/(5.291 4.781) = (.99975 X)/(5.291 5.01)
Resolviendo por X da X = .9996, por lo tanto, p = 1 - .9996 = .00039.
Este valor de p es mucho muy significante y apoya, en forma muy contundente, la
decisin de haber rechazado la hiptesis, de que no hay diferencias entre las
concentraciones de la entrada a la planta y de la salida.
6. En conclusin rechazamos la hiptesis Ho: = 0, esto es, de que no hay diferencias
entre las concentraciones de la entrada y del efluente (en verdad si hay mucha
diferencia, al juzgar por el valor de la probabilidad p).

6-19
Dr. Hctor Quevedo Uras

Ejemplo #7. Este es un ejemplo de ingeniera ambiental (ingeniera sanitaria)


relacionado con el uso de la distribucin t, cuando las varianzas de las distribuciones
son desiguales, asumiendo que las poblaciones son normales. Aplicando este
concepto, en un estudio se sabe que, el deterioro de muchas redes de tubera
municipal de agua y drenaje en todo el pas es un asunto que preocupa cada vez ms a
las autoridades. Unas de las tecnologas propuestas para la rehabilitacin de las
tuberas consisten en usar un forro flexible alrededor del tubo existente. El artculo
Effect of Welding on a High Density Polyethylene Liner (J. of Materials in Civil
Engineering, 1996, pp. 94-100), informa los datos siguientes de resistencia a la
tensin, en lbs/in2 (psi), o sea libras por pulgada cuadrada, de especimenes de forro,
tanto en el caso en que cierto proceso de fusin se usa, como cuando no se usa. La
tabla de abajo da los datos crudos y procesados. Usar = .05. Para esto hacer los
siguientes clculos:
(a) Establecer la prueba de hiptesis nula y la prueba de hiptesis alternativa. Esto es,
haciendo una prueba de hiptesis nula de que no hay diferencias en las resistencias a
la tensin para los dos tratamientos.
(b) Establecer la regin crtica.
(c) Usar la estadstica ms apropiada para elaborar este problema.
(d) Hacer una decisin estadstica usando el criterio tradicional, es decir, de rechazar
o de retener la hiptesis nula.
(e) Hacer una prueba de hiptesis no tradicional, es decir, calculando el valor del nivel
de p.

6-20
Dr. Hctor Quevedo Uras

TABLA 6.1. Tabla mostrando los datos del problema. (Elaboracin propia)
Sin fusin (en libras por pulgada cuadrada)
2748 2700 2655 2822 2511 3149 3257 3213 3220 2753
2
n1 = 10 X 1 = 2902.8 s1 = 277.2 s 1 = 76,875.99
__________________________________________________________________
Con fusin (en libras por pulgada cuadrada)
3027 3356 3359 3297 3125 2910 2889 2902
n2 = 8 X 2 = 3108.1 s2 = 205.9 s22 = 42382.41.
__________________________________________________________________

Solucin:
(a) La prueba de hiptesis nula es: Ho: = 0 o sea que no hay diferencias entre las
tensiones, para los dos tratamientos.
Las pruebas de hiptesis alternativas son H1: > 0 y H2: < 0.
(b) La regin crtica es unilateral izquierda es igual a -1.75
(c) Se usa la funcin estadstica de t para varianzas desiguales. Es decir, cuando se
usan dos muestras aleatorias independientes de poblaciones normales, con varianzas
desiguales. Esta estadstica de la funcin de t, algunas veces se llama prueba de
Smith-Satterthwaaie abajo mostrada. (Miller et al. 1976, p. 261)
Sustituyendo los valores en la ecuacin (6-7) da:
3108.10 2925.33
t =
(277.3)2/10 + (205.9)2/8

= - 1.86

6-21
Dr. Hctor Quevedo Uras

Ahora, usando la frmula de los grados de libertad, relacionada con la funcin de t


que tiene varianzas desiguales (Li, 1964), es decir:
(s21/n1 + s22/n2)2
= (6-11)
[(s21/n1)2/(n1-1)] + [s22/n2)2/(n2-1)]

Y sustituyendo todos los valores de: s21 = 76,875.96, n1 = 10, s22 = 42,382.41, n2 = 8
da:
[(76,875.96)/(10) + 42,382.41/(8)]2
=
[(76,875.96)/10)2/9) + (42,382.41/8)2/7]

= 16 grados de libertad
(d) Conclusin: se rechaza la prueba de hiptesis nula de no diferencias en las
resistencias a la tensin debido a que el valor de la estadstica t = -1.86 es menor que
la regin crtica izquierda de -1.75.
(e) Para hacer la prueba de hiptesis no tradicional se busca el valor absoluto de la t
calculada, es decir, |-1.86| en la tabla de la distribucin de t de Estudiante con 16
grados de libertad y vemos que los valores percentiles son de 0.025 y 0.05 con sus
puntos porcentuales de 1.746 y 2.120. Entonces, el razonamiento que se sigue para
calcular el valor de p es como sigue. Si Ho: es verdadera, la probabilidad de obtener
un valor de t tan grande o ms grande que 1.746 es 0.025. Adems, la probabilidad de
obtener un valor tan grande o ms grande que 2.120 es de 0.05. Por lo tanto, si Ho: es
verdadera, la probabilidad de obtener un valor tan grande o ms grande que el valor
de -1.86 est entre 0.025 y .05. Para esta prueba en particular, 0.05 > p > 0.025.
Ejemplo #8. Supngase que se saca una muestra de 8 mediciones de nitratos (NO3-) y
se calcula un valor de t = - 3.62, con un nivel de significancia de = 0.05. Probar la

6-22
Dr. Hctor Quevedo Uras

hiptesis nula de Ho: = 32.0. Calcular el valor de la probabilidad p.


Solucin:
Aqu la prueba es bilateral. Las regiones crticas son de t[.05;7] = 2.365. El valor de la t
calculada es de t = -3.62. Se usa la funcin de P para dos colas dada como:
P = P(t.025 < -|t|) + P(t.025 > |t|) (6-12)
2. Estamos buscando la probabilidad de sacar un valor de t que exceda 3.62 con = 7
grados de libertad, pero vemos que este valor no est en la tabla de la distribucin t.
Entonces tenemos que interpolar este valor y lo buscamos en la tabla y vemos que
est entre 2 = .9975 con t2 = 4.029 y 1 = .995 con t1 = 3.499. Adems, sabemos que
t[.05;7] = -2.375 (porque es de la cola izquierda). Ahora se sustituyen todos estos
valores en la frmula de interpolacin (5-27) recapitulada abajo:
P = (2 1) / (t2 t1) = (2 X) / (t2 tcalc.)
Enseguida sustituyendo los valores de arriba da:
p = [(.9975 - .995)/(4.029 3.499) = (.9975 X)/(4.029 3.62)]
= (.0025)/(0.53) = (.9975 X)/(0.409)
= .99785.
La probabilidad p es 1 - .99785 = .002. Sin embargo, debido a que la prueba
involucra dos extremos, por lo tanto, el valor de la probabilidad p se multiplica por 2
para dar p = .0043. Este valor es mucho muy significativo. Las figuras de abajo
muestran esta situacin.

6-23
Dr. Hctor Quevedo Uras

Figura 6.2. Figuras mostrando las regiones crticas. (Elaboracin propia)


La distribucin de JI cuadrada (2)
La distribucin de JI cuadrada est relacionada con la varianza. Esta distribucin se
usa para hacer intervalos de confianza para la varianza poblacional y pruebas de
hiptesis para la varianza poblacional. Esta estadstica de 2 tambin se usa para
hacer pruebas de bondad de ajuste. Esto se hace para ver si los datos provienen de
una poblacin que sigue alguna distribucin especificada, como discreta o
continua, es decir, comparando los datos tericos con los observados. Finalmente,
la JI cuadrada tambin se usa para hacer pruebas de independencia, etc.
La distribucin de JI cuadrada est crticamente condicionada a muestreos de
poblaciones normales, porque de otra manera puede conducir a errores muy
grandes. Adems, un tamao de muestra grande, no garantiza una prueba confiable.

6-24
Dr. Hctor Quevedo Uras

Propiedades de la distribucin de JI cuadrada (2)


1. La distribucin de JI cuadrada no es simtrica, como la distribucin normal o la
distribucin de t. Los valores de la JI cuadrada pueden ser de cero o positivos, pero
no negativos.
3. La distribucin de JI cuadrada es una familia de curvas y hay una distribucin
diferente para cada nmero de grados de libertad, . Pero, a medida que el nmero
de grados de libertad aumenta, la distribucin de la JI cuadrada se aproxima a la
distribucin normal.

Figura 6.3. Distribucin de JI cuadrada (2) con varios grados de libertad, en


funcin f (2) = [(2)/(2-1) e-2/2] / {2/2 [ - 2) / 2]!}. (Dunn et al. 1974)

Ejemplos para determinar las regiones crticas de la JI cuadrada usando los


valores porcentuales de 2p y de 2[,].
Ejemplo #9. Encontrar los valores crticos de 2 que determinen las regiones
crticas que contengan un rea de 0.025 en cada cola. Asumir que n = 10, por lo
tanto, los grados de libertad son de = 10 1 = 9.
Solucin:

6-25
Dr. Hctor Quevedo Uras

La figura de abajo muestra una prueba bilateral. Para encontrar el valor crtico
izquierdo, se refiere a la tabla de la JI cuadrada y se busca = 9 en la columna
izquierda de la tabla y se va hasta la columna 0.975, porque el rea total a la
derecha de este valor es 0.975 que lo sacamos restando 0.025 de 1 y nos da 2 =
2.700. Similarmente, para la regin crtica derecha, se localiza el valor de = 9 y
nos movemos hacia el valor de 0.025 y da 2 = 19.023. La Figura 6.4 de abajo
muestra esta situacin.


20.975;9 = 2.70 20.025;9 = 19.023

Figura 6.4. Grfica mostrando los valores crticos de la distribucin, con un rea de
0.025 en cada cola, con n = 10 y = n 1 = 10 1 = 9. Fuente: Triola (1995)

Por ejemplo, recapitulando el razonamiento anterior, de la Figura 6.4, se puede ver


que, para obtener el valor crtico o lmite izquierdo de 2.70, hay que localizar 9 en
la columna izquierda de grados de libertad y luego localizar 0.975 arriba de la
tabla. El rea total a la derecha de este valor crtico es 0.975, el cual se estima de 1
0.025. Similarmente, para obtener el valor crtico de 19.023, localizar 9 en la
columna de grados de libertad y luego localizar 0.025 arriba de la tabla.

6-26
Dr. Hctor Quevedo Uras

Ejemplo #10. Encontrar los valores crticos de 2 por los cuales el rea del extremo
derecho de la distribucin es de 0.05, si:
(a) = 15
(b) = 21
Solucin:
(a) El valor de la cola derecha de la distribucin de JI cuadrada se busca en la tabla
de esta distribucin y es: 2;n-1 = 2.05;16-1 = 2.05;15 = 24.996
(b) El valor de la cola derecha es de 2.05;21 = 32.7
Ejemplo #11. Para una distribucin de JI cuadrada con 12 grados de libertad,
encontrar el valor de 2 de tal manera que:
(a) El rea a la derecha de 2 es .05,
(b) El rea a la izquierda de 2 es .99
Solucin:
(a) 2.05;12 = 21.026
(b) 2.01;12 = 26.22
Ejemplo #12. Encontrar los valores crticos de 2 por los cuales el rea a la derecha
de la distribucin es de = .01, si = 5:
Solucin:
Si el rea sombreada sobre la derecha es .010, el rea a la izquierda de 22 es .99 y
22 representa el 99avo percentil, 2.99, el cual es igual a 15.1.
Intervalos de confianza y pruebas de hiptesis usando la distribucin de JI
cuadrada 2
El intervalo de confianza 1 para la varianza poblacional, 2 se da como:
(n 1) s2 / 2[1-/2;n-1] < 2 < (n 1)s2 / 2[/2;n-1] (6-14)
Ejemplo #13. Si una muestra aleatoria estadstica de 17 mediciones tiene una

6-27
Dr. Hctor Quevedo Uras

varianza de s2 = 196.38, encontrar el intervalo de confianza para 2 usando los


niveles de confianza son de:
(a) = 0.05
(b) = 0.01
Solucin:
(a) Se requiere la funcin P(21-/2 < 2 < 2/2) = 1 . Se calculan los lmites
superiores e inferiores y luego se sustituyen los valores correspondientes.
Para el lmite superior: 2[1-/2;n-1] = 2[1-.05/2;17-1] = 2.975;16 = 6.91
Para el lmite inferior: 2[/2;n-1] = 2.05/2;17-1 = 2.025;16 = 28.8
Ahora, sustituyendo estos valores en la funcin (6-14) nos da:
(17 1)(196.38) / 6.91 < 2 < (17 1)(196.38 / 28.8)
454.7 < 2 < 109.1
La cual se simplifica a: 453.7 > 2 > 109.1
(b) Para calcular los superiores e inferiores, con un nivel de significancia de 0.01 se
procede como sigue:
Para el lmite inferior: 2[/2;n-1] = 2[.01/217-1] = 2.005;16 = 34.13
Para el lmite superior: 2[1-/2;n-1] = 2[1-.01/2;17-1] = 2.995;16 = 5.14
Enseguida, usando la frmula del intervalo y sustituyendo da:
(17 1)196.38 / 5.14 < 2 < (17 1)196.38 / 34.13
Que se simplifica a:
92.06 < 2 < 611.3
Este intervalo dice que estamos confiados en un 95% de que la varianza
poblacional est entre 92.06 y 611.3.
El intervalo de confianza para se calcula sacando la raz cuadrada, lo cual
da (10.45, 21.32) y (9.59, 24.72), para = .05 y = .01, respectivamente.

6-28
Dr. Hctor Quevedo Uras

Ejemplos de pruebas de hiptesis para la varianza usando la distribucin de


la JI cuadrada, 2 asumiendo que la poblacin muestreada es normal
La funcin estadstica usada para hacer pruebas de hiptesis para la varianza es la
funcin (6-15) descrita abajo:
2 = (n 1)s2 / 2 (6-15)
Donde:
2 = estadstica de la distribucin de la JI cuadrada
s2 = varianza muestral
2 = varianza poblacional (la dada en la hiptesis nula)
n = tamao muestra
Ejemplo # 14. Un fabricante de medidores de CO afirma que la desviacin estndar
poblacional de estos aparatos es menor que 3 ppt. Se saca una muestra aleatoria de
10 aparatos, y se calcula la desviacin estndar muestral de 1.6. Existe suficiente
evidencia con = 0.05 para apoyar la contencin del fabricante?
Solucin:
1. Primeramente, debido a que ser requiere determinar si la desviacin estndar es
menor o menos que 3 ppt, la prueba de hiptesis alternativa es H1:2 < 9. Por lo
tanto, la prueba de hiptesis nula debe ser Ho:2 = 9
2. La regin de rechazo es 2 < 21-;n-1 o sea 2 < 2.95;9 o sea 2 < 3.33
3. La estadstica a usarse es: 2 = (n 1)s2 / 2
4. Los clculos son: 2 = 9(1.6)2 / 9 = 2.56
5. En conclusin, se rechaza la hiptesis nula y se dice que si hay suficiente evidencia
para apoyar la contencin del fabricante.
6. El valor de p se hace buscando 2.56 en la tabla de la distribucin de JI cuadrada
con = 9 y vemos que es (.025 < p < .01). Usando la funcin (5-29), y sustituyendo

6-29
Dr. Hctor Quevedo Uras

los valores da: (0.025 0.01)/(2.7 2.09) = (0.025 X)/(2.7 2.56) y la


probabilidad es p = 0.022. La figura de abajo muestra esta situacin.

Figura 6.5. Grfica mostrando el valor de la estadstica 2, la regin de rechazo, la


regin crtica y el valor de la probabilidad p, para el Ejemplo #13..

Ejemplo #15. En un estudio de ahorro de energa elctrica (lo que ocasionara que
hubiera menos contaminacin del medio ambiente) se observa qu, la varianza
(poblacional) del consumo es de 28.0 kWh. Se decide poner focos fluorescentes y
apagar las luces cuando no se usen, para ver si hay una reduccin en la variacin
del consumo. Para esto se saca una muestra aleatoria de 26 consumos de energa, y
se estima una varianza muestral de 16.0 kWh. Usar un nivel de significancia de =
0.05, y probar que la varianza del consumo de energa se ha reducido, bajo las
condiciones dadas. Tambin hacer una prueba de hiptesis no tradicional
calculando el valor de la probabilidad p e interpretarla, acordemente.
Solucin:
1. La prueba de hiptesis nula es Ho:2 = 28.0. La prueba de hiptesis alternativa es

6-30
Dr. Hctor Quevedo Uras

H1:2 < 28.0.


2. La regin crtica se calcula buscando el numero de grados de libertad = 26 en
la tabla de la distribucin de la JI cuadrada con 2.05;26 y da 15.379 (probabilidades
de la cola inferior o izquierda).
3. Usando la estadstica de la distribucin de la JI cuadrada 2 para la prueba de
hiptesis (6-15), esto es, 2 = (n - 1)s2 / 2, y sustituyendo los valores da:
2calc. = (26 1)(16.0) / 28.0 = 14.29
4. Ahora, comparando el valor de 2calc. = 14.29 con la regin crtica izquierda de
15.38, es decir, 2calc. = 14.29 < 2.05;26 = 15.38, se rechaza la hiptesis Ho:2 = 28.0
y se inclina por la hiptesis alternativa.
5. El valor de p se hace buscando 14.29 en la tabla de la JI cuadrada con = 26 y
vemos que est entre 2 = .05 con 22 = 15.379 y 1 = .025 con 21 = 13.844.
Sustituyendo los valores en la funcin (5-29) y resolviendo por X da:
(2 1)/(22 21) = (2 X)/(22 2calc.)
(.05 - .025)/(15.4 13.8) = (.05 X)/(15.4 14.29)
La probabilidad es de p = .029. Por lo tanto, si la hiptesis nula es verdadera,
esperaramos de tener un valor de 2 ms grande que, o igual que 14.29, con una
probabilidad de .03.
Aplicacin de la JI cuadrada, 2 en cuanto a la prueba de bondad de ajuste
comparando las frecuencias observadas (lo prctico o los resultados de
laboratorio) y las frecuencias tericas (lo esperado)
La prueba de bondad de ajuste se usa para probar la hiptesis de que una
frecuencia observada est de acuerdo con algunas distribuciones tericas, o que
hay consistencia entre una distribucin hipottica (como la distribucin normal, la
binomial, etc.) qu encaje con una distribucin emprica o muestral.

6-31
Dr. Hctor Quevedo Uras

Aqu se nota qu, las pruebas de hiptesis nulas son siempre unilaterales
derechas. Tambin, es de notarse que se puede usar la prueba de Kolmogorov-
Smirnov en las pruebas de bondad de ajuste.
Descripcin de la estadstica de 2 usada para la prueba de bondad de ajuste
2 = (o1 e1)2 / e1 + (o2 e2)2 / e2 +...+ (ok ek) / ek (6-16)
k
2 = (oj ej)2 / ej (6-17)
j=1

Donde:
2 = estadstica usada para la prueba de bondad de ajuste
o = frecuencias observada
e = frecuencia esperada
k = nmero de categoras diferentes de un resultado
n = nmero total de casos o tamao de la muestra
= k 1 = nmero de grados de libertad
Nota: En algunas ocasiones, si se van a acomodar los datos por distribuciones
tericas, como la binomial, se usa la relacin = k 1 m (Spiegel, 1961).
Cuando se usa la prueba de bondad de ajuste, el criterio para rechazar o
retener la hiptesis nula es que, si 2 = 0, entonces, las observaciones tericas y las
observadas son iguales. Pero, si 2 > 0, entonces, las frecuencias tericas y las
observadas no son iguales. Esto quiere decir que, si el valor de la estadstica 2calc. >
2tab., entonces, se rechaza la hiptesis nula; de otra manera, se retiene Ho:.
Suposiciones para hacer las pruebas de bondad de ajuste
1. Los datos muestrales consisten de conteos de frecuencia de diferentes categoras, k
de muestras aleatorias.
2. Para cada una de las categoras k, la frecuencia esperada es de cuando menos 5.

6-32
Dr. Hctor Quevedo Uras

f(2)

0 2
Figura 6.6. Regla de decisin estadstica mostrando la regin crtica y la regin de
aceptacin, para la prueba de bondad de ajuste, es decir, usando la distribucin de
JI cuadrada. (Elaboracin propia)

Ejemplo #16. En un estudio de seguridad municipal, se analiza el nmero de


accidentes por das de la semana. Probar la hiptesis nula de que los accidentes
ocurren con iguales frecuencias en los 5 das de la semana. Para esto usar un nivel
de significancia de = 0.05 y calcular el valor de p. Los datos se dan en la TABLA
6.3 de abajo.

TABLA 6.3. Frecuencias observadas y esperadas. (Elaboracin propia)

Da de la semana | Lunes Martes Mircoles Jueves Viernes

Accidentes observados| 31 42 18 25 31

Accidentes esperados | 29.4 29.4 29.4 29.4 29.4

6-33
Dr. Hctor Quevedo Uras

Solucin:
Los datos calculados y los resultados de la prueba de hiptesis se dan abajo.
TABLA 6.5. Clculos para la prueba de bondad de ajuste. (Elaboracin propia)

Categora Frecuencia Frecuencia (o e) (o e)2 (o e)2/e


observada esperada

Lunes 31 29.4 1.6 2.56 0.0871


Martes 42 29.4 12.6 158.76 5.4000
Mircoles 18 29.4 -11.4 129.56 4.4204
Jueves 25 29.4 -4.4 19.36 0.6585
Viernes 31 29.4 1.6 2.56 0.0871

5
2 = (o e)2 / e = (0.0871) + (5.400) + (4.4204) + (0.6585) + (0.8711) = 10.65
j=1

La prueba de hiptesis nula dice que no hay diferencias entre las frecuencias
observadas y las esperadas (los accidentes si ocurren con la misma frecuencia). La
regin crtica es del extremo derecho, con = k 1 = 5 1 = 4 grados de libertad.
La estadstica tabulada es de 2; = 2.05;4 = 9.49. En conclusin, debido a que el
valor de 2 = 10.65 > 2tab. = 9.49, se rechaza la hiptesis nula, y se dice que si hay
diferencias entre las frecuencias observadas y las esperadas. Ahora usando la
frmula de interpolacin para la JI cuadrada, con 2 = .025, 1 = .05, 22 = 11.14,
21 = 9.488 y 2calc.= 10.65 y sustituyendo todos los valores da:
(0.025 0.05)/(11.14 9.488) = (0.025 X)/(11.14 10.65)
Resolviendo por el valor a interpolarse da X = 0.015 = p = 0.015.
Ejemplos con la t de Estudiante usando el programa Minitab
Para usar el programa Minitab en las pruebas de hiptesis con la distribucin de t se

6-34
Dr. Hctor Quevedo Uras

procede como:
Stat > Basic Statistics > 1-sample t
Procedimiento:
En la ventana de Variables poner los datos del problema en la columna C1. En la
ventana de Test mean poner el promedio probado. En la ventana de Options en la
ventanilla de Alternative poner la hiptesis alternativa deseada y luego presionar la
tecla de OK.
Ejemplo #17. Este problema est relacionado con el ejemplo de la seccin de los
mecanismos usados para calcular el valor de p. Usando los datos de ese ejemplo #4
correspondientes a esa seccin y aplicando la funcin de arriba del programa Minitab,
probar:
(a) Ho: = 34.5 vs. H1: 34.5
(b) Ho: 34.5 vs. H1: < 34.5
(c) Ho: 33.2 vs. H1: > 33.2
Despus de sustituir todos los valores, el programa Minitab da los resultados
mostrados en la tabla de abajo.

6-35
Dr. Hctor Quevedo Uras

TABLA 6.4. Tabla mostrando los clculos hechos por el Minitab. (Elaboracin
propia).
________________________________________________________________

Ejemplos de problemas de la t de Estudiante usando el programa de Excel


Este es un ejemplo relacionado con un problema de observaciones pares. Tambin se
dan las instrucciones para probar las diferencias entre dos promedios poblacionales,
cuando las varianzas son iguales. Finalmente se dan las instrucciones para resolver
problemas cuando las varianzas son desiguales.
Por ejemplo, para el uso de la funcin de t de Estudiante usada para
emparejamientos deliberados se procede de la siguiente manera:
Tools > Data analysis > t-Test Paired Two Simples for Means
Ejemplo #17. Este es un ejemplo sacado del texto de Probabilidad y Estadstica de
Walpole et al. (1999). Esta investigacin est relacionada con el desarrollo de lo
llamado ectomycorrhizal, una relacin simbitica entre las races de los rboles y un
hongo en la que se transfieren minerales del hongo a los rboles y azcares de los

6-36
Dr. Hctor Quevedo Uras

rboles a los hongos. Este experimento consisti en aplicar nitrgeno a la mitad de los
rboles y a la otra mitad o sea el grupo de control al cual no se le aplic el nitrgeno.
Los pesos de los rboles se registraron en gramos al final del experimento. Probar que
no hay diferencias entre los pesos de las dos poblaciones de rboles. Asumir un
pareamiento en este problema. Asumir = 0.05. Los datos se dan en la tabla de abajo.
TABLA 6.5. Tabla mostrando los datos del problema. (Walpole et al. 1999)
Sin nitrgeno | 0.32 0.53 0.28 0.37 0.47 0.43 0.36 0.42 0.38 0.43
Con nitrgeno | 0.26 0.43 0.47 0.49 0.52 0.75 0.79 0.86 0.62 0.46
Solucin:
El programa Excel da los resultados en la tabla de abajo.
TABLA 6.6. Tabla mostrando los resultados del programa Minitab. (Elaboracin
propia).

Como se ve en la TABLA 6.6, el valor de la estadstica t es de -2.74. Las regiones


crticas para una y dos colas son de 1.83 y 2.26, respectivamente. Adems, los valores
de la probabilidad p son de 0.01 y de 0.02 para una y dos colas, respectivamente. En

6-37
Dr. Hctor Quevedo Uras

conclusin, la hiptesis nula de no diferencias se rechaza en ambos casos y se


concluye que si hay diferencias entre los pesos de las dos muestras de rboles.
Probando las diferencias entre dos promedios poblacionales, cuando las
varianzas son iguales:
Tools > Data Analysis > t-Test Two Simples Assuming Equal Variances
Similarmente, para la funcin de t de Estudiante cuando las varianzas son
desiguales se procede como:
Tools > Data Analysis > t-Test Two Simple Assuming Unequal Variances
Se recomienda al lector usar estas dos ltimas funciones de la t de Estudiante con el
programa Minitab.
Funcin probabilstica de densidad de la distribucin F y su aplicacin en la
comparacin de varianzas muestrales
La distribucin F tiene mucha aplicacin en la comparacin de varianzas
muestrales. Esta distribucin F se encuentra en problemas que involucran dos a
ms muestras. Debido a que, la estadstica F se define como una relacin, la
distribucin F de probabilidad tiene dos parmetros representados por 1 y 2,
donde estos valores son enteros positivos. El parmetro 1 se llama nmero de
grados de libertad del numerador y 2 se llama el nmero de grados de libertad del
denominador. Para estimar los grados de libertad 1 y 2 se usa la tabla de la
distribucin F dada en el apndice de este libro.
La distribucin de F es similar a la distribucin de t de Estudiante y de JI
cuadrada (2), porque es una familia de distribuciones. Cada par de valores de 1 y
2 especifican una distribucin de F diferente. Otros, F es una variable aleatoria
continua que vara de cero hasta infinito. Debido a que las varianzas en ambos, el
numerador y denominador de la relacin F, estn elevadas al cuadrado, el valor de

6-38
Dr. Hctor Quevedo Uras

F es siempre positivo. La forma de la curva F es asimtrica y sesgada hacia la


derecha. Sin embargo, la distribucin F tiende hacia la simetra, a medida que 1 y
2 aumentan. No obstante, la prueba de F es extremadamente sensible a
distribuciones que no son normales y esta falta de robustez no se mejora con
muestras grandes (More et al. 1993). La Figura 6.7 muestra varias curvas de
densidad de la distribucin de F para diferentes grados de libertad.
La distribucin de F se usa en situaciones con dos muestras para sacar
inferencias acerca de ms de dos varianzas poblacionales, como en el caso de
problemas de anlisis de varianza. Por ejemplo, si s21 y s22 son las varianzas de
muestras aleatorias independientes de tamao n1 y n2 tomadas de poblaciones
normales con varianzas poblacionales 21 y 22, respectivamente, entonces la
relacin de abajo:
F = s21/21 / s22/22 = 22 s21 / 21 s22 (6-18)
tiene una distribucin de F con 1 = n1 1 y 2 = n2 1 grados de libertad
La funcin (6-18) es ampliamente usada para hacer pruebas de hiptesis,
para ver si las varianzas son iguales o desiguales. Una aplicacin de la funcin (6-
18) est enfocada en el uso, por ejemplo, de las funciones (6-7) o (6-8), es decir,
para decidir si las varianzas son iguales o desiguales.
Para probar por varianzas iguales poblacionales se usa el siguiente criterio
para pruebas unilaterales y pruebas bilaterales. Esta informacin se da en la tabla
de abajo (McClave et al. 1982).

6-39
Dr. Hctor Quevedo Uras

Tabla 6.7. Diagrama mostrando los criterios que se siguen para pruebas de
hiptesis con la distribucin F.
__________________________________________________________________
Prueba unilateral Prueba bilateral
Ho: 21 = 22 Ho: 21 = 22
Ha: 21 < 22 Ha: 21 22
(o Ha: 21 > 22)
Prueba estadstica: Prueba estadstica:
F = s22/s21 F = Varianza muestral grande/varianza muestral pequea
(o F = s21/s22 cuando Ha: 21 > 22) = s21/s22 cuando s21 > s22
(o s22/s21 cuando s22 > s21)
Regin de rechazo: Regin de rechazo:
Fcalc. > Ftab. Fcalc. > F/2 cuando s21 > s22
donde Ftab. est basada en 1 = n2 -1 donde F/2 se basa en 1 = n2 -1
y 2 = n1 1 grados de libertad. y 2 = n1 1 grados de libertad
(o Fcalc. > Ftab. donde Ha: 21 > 22 (o Fcalc. > F/2 cuando s21 > s22
donde Ftab. se basa en 1 = n1 1 donde F/2 se basa 1 = n1 1
y 2 = n2 1 grados de libertad) y 2 = n2 1 grados de libertad)
Fuente: McClave et al. (1982)

6-40
Dr. Hctor Quevedo Uras

. Frecuencia relativa

Figura 6.7. Grfica mostrando una familia de distribuciones de F con diferentes


grados de libertad. Ntese que para la curva con 1 = 30 y 2 = 30 grados de
libertad, la regin crtica es igual a 4.28.

Figura 6.8. Figura mostrando la distribucin F, con el valor crtico de F igual a


4.26, con = 0.05.

Ejemplo #18. Este ejemplo est encaminado a encontrar los valores crticos usando
la distribucin F. Siendo as, encontrar:

6-41
Dr. Hctor Quevedo Uras

(a) F0.05 con 1 = 6 y 2 = 10


Solucin:
Los grados de libertad del numerador son 1 = 6 y los grados de libertad del
denominador son 2 = 10. Con un valor de significancia de = 0.05 de la tabla se
lee 3.22. Por lo tanto, F0.05;6,10 = 3.22
(b) F0.01 con 1 = 6 y 2 = 10
Solucin:
Nuevamente se busca = 0.01 en la tabla de F con 1 = 6 y 2 = 10 y da F0.01;6,10 =
5.39
(c) Si el tamao de una muestra es de n1 = 3 y el tamao de otra muestra es de n2 =
10, encontrar la regin crtica con = 0.05 y 0.01. Dibujar una grfica sealando la
regin crtica cuando = 0.05.
Solucin:
F0.05;2,9 = 4.26 y F0.01;2,9 = 8.02
La Figura 6.8 muestra la regin crtica y su valor correspondiente con un nivel de
significancia de 5%.
Ejemplo #19. Este problema est encaminado a estimar el valor de la probabilidad
p para pruebas de F. Por ejemplo, con = 0.05, para una prueba de hiptesis con n1
= 5 y n2 = 7 y con un valor de Fcalc. = 5.70 la regin crtica es F0.05;4,6 = 4.53.
Entonces, al comparar el valor de Fcalc. = 5.70 con F0.05;4,6 = 4.53 se rechaza la
hiptesis. Sin embargo, esta prueba de hiptesis tradicional no dice, qu tanta
fidelidad se le puede dar a el resultado obtenido. Para esto, se hace una prueba de
hiptesis no tradicional usando el valor de la probabilidad p. Siendo as, se busca
en la tabla de la distribucin F el valor de Fcalc. = 5.70, con 4 y 6 grados de libertad
y con = 0.05, pero vemos que no est explcitamente mostrado. Sin embargo,

6-42
Dr. Hctor Quevedo Uras

vemos que est entre 4.53 y 9.15 con sus valores respectivos de = 0.50 y .010,
por lo tanto la probabilidad es .01 < p < .05. Ahora, para obtener un valor de p ms
especifico se usa la frmula de interpolacin (5-30) :
(2 1)/(F2 F1) = (2 X)/(F2 Fcalc.)
Donde 2 = valor porcentual ms alto que el valor de Fcalc., 1 = valor porcentual
ms bajo que Fcalc., F2 = valor de la distribucin F correspondiente a 2, F1 = valor
de la distribucin F correspondiente a 1, X valor que se quiere interpolar y Fcalc. =
valor calculado.
Ahora con 2 = 0.05, 1 = 0.01, F2 = 4.53, F1 = 9.15 y Fcalc. = 5.70 y sustituyendo y
resolviendo por X da:
(0.05 0.01)/(4.53 9.15) = (0.05 X)/(4.53 5.70)
X = p = 0.04
Ejemplo #20. Supngase que un ingeniero ambiental saca dos muestras aleatorias
de dos sitios diferentes a lo largo de una corriente de agua y mide las
concentraciones de DBO5. Para la prueba de hiptesis el ingeniero quiere usar =
.10. La primera muestra consiste de n1 = 25 concentraciones de DBO5, cuyo
promedio es de X 1 = 25 mg/L con una desviacin estndar de s1 = 75 mg/L.
Similarmente, la segunda muestra consiste de n2 = 25, X 2 = 125 mg/L con s2 = 46.
Para esto, se tiene que hacer una decisin si se va a usar la distribucin (6-7) de t
de Estudiante que requiere de varianzas iguales y/o la distribucin (6-8) que no
requiere de varianzas iguales. Para resolver este problema hacer lo siguiente:
(a) Probar la hiptesis nula de que las varianzas de las dos muestras son iguales.
(b) Adems, calcular el valor de p.
Solucin:
1. Debido a que se quiere detectar una diferencia en las varianzas poblacionales,

6-43
Dr. Hctor Quevedo Uras

tendremos que estimar, ya sea 21 > 22, o bien, 22 > 21.


2. Por lo tanto, la hiptesis alternativa es Ha:21 22.
3. La prueba es bilateral, es decir: Ho:21/22 = 1 y Ha:21/22.
4. La prueba estadstica es:
F = varianza muestral grande/varianza muestra pequea = s21/s22
5. Las suposiciones son de que las muestras tienen frecuencias relativas que son
aproximadamente normales. Adems, se supone que las muestras son aleatorias e
independientes.
6. La decisin estadstica se basar en comparar la regin crtica de 1.98, con el
valor estadstico, esto es: Fcalc. > Ftab. = F.05;24,24 = 1.98
Donde 1 = n1 1 = 24 y 2 = n2 1 = 24 grados de libertad
7. Ahora se calcula la prueba estadstica (6-18) y se sustituyen los valores:
F = s21/s22 = (76)2/(46)2 = 2.73
8. Debido a que, 2.73 > 1.98, por lo que se rechaza Ho: de varianzas iguales.
9. Usando = .10 esto dice qu, solamente una vez en diez, esta prueba estadstica
nos llevara a concluir errneamente que las varianzas 21/22 fueran diferentes,
cuando de hecho fueran iguales.
10. Para calcular p se busca el valor de 2.73 en la tabla F con 1 = 24 y 2 = 24 y
est entre .100 y .050. Esto es: .050 < p < .100.
No obstante, si se deseara ms precisin se puede usar la frmula de interpolacin
(5-30), con 2 = .100, 1 = .050, con F2 = 1.98, F1 = 2.41 y Fcalc. = 2.73
Sustituyendo todos los valores en (5-30) da: p = 0.013(2) = .02. (Ntese que aqu
se multiplica por 2 porque la prueba es bilateral).

6-44
Dr. Hctor Quevedo Uras

Ejercicios Captulo 6
6.1. Encontrar los valores crticos de t por los cuales el rea del extremo derecho de la
distribucin de t es de = 0.05, y de = 0.01, si:
(a) = 16 (t[;] = t[.95;16] = 1.75, t[.99;16] = 2.583)
b) n = 28 (t[;] = t[.95;16] = 1.70, t[.99;28] = 1.701
(c) = (t[;] = t[.95;] = 2.33, t[99;] = 2.33)
6.2. Hacer el problema 6.1, pero bilateralmente.
6.3. Para mantener el control de la calidad industrial, un fabricante de sistemas de
control de partculas (ciclones), supone que la produccin de estos sistemas para el
control de partculas < 10 micras, tienen un eficiencia promedio de 32%. Para probar
esta aseveracin se tom una muestra de 8 ciclones y se midieron las eficiencias de
cada uno para ese tamao de partculas. Las eficiencias (%) fueron: 29.4, 30.8, 30.6,
31.5, 32.1, 31.7, 30.3, y 30.8%, respectivamente. Hacer las siguientes estimaciones:
(a) Establecer un intervalo de confianza para , con = 0.05. (30.18 < < 31.62)
(b) Hacer una prueba de hiptesis bilateral al 95%. (t = -3.62)
(c) Calcular el valor de la probabilidad, p. (0.009)
6.4. En una prueba para medir la acumulacin de plomo atmosfrico (Pb) en la
sangre, se realiz un experimento con 15 voluntarios. La prueba consisti en exponer
los sujetos en un sitio aledao a una planta de fundicin de metales y de exaltar el
metabolismo, esto es, corriendo. Despus de que los sujetos terminaron de correr, se
les sac sangre y se medi la concentracin de Pb, es decir, antes de correr y despus
de correr. Para esto usar la estadstica de t ms apropiada para resolver este problema
y sacar las conclusiones apropiadas. La tabla de abajo muestra la informacin
requerida para este experimento.
Tabla mostrando los datos del problema. (Elaboracin propia)

6-45
Dr. Hctor Quevedo Uras

___________________________________________________________________
No. sujeto Concentracin de Pb antes de correr Concentracin de Pb despus de correr
1 2.76 7.02
2 5.18 3.10
3 2.68 5.44
4 3.05 3.99
5 4.10 5.21
6 7.05 10.26
7 6.60 13.91
8 4.79 18.53
9 7.39 7.91
10 7.30 4.85
11 11.78 11.10
12 3.90 3.74
13 26.00 94.03
14 67.48 94.03
15 17.04 41.70
__________________________________________________________________

6.5. En una prueba para disear un equipo de control para partculas emitidas por una
fuente industrial, se hicieron dos pruebas para saber cual de los dos sistemas de
control eran ms eficientes. La primera prueba consisti en instalar un filtro de vidrio
(baghouse). La otra prueba consisti en agregar al sistema de control del baghouse, un
cicln. Probar la hiptesis, al 95% de nivel de confianza de qu, con el equipo
adicional, no hubo diferencia en las reducciones de contaminantes. Calcular el valor
de la probabilidad, p. La tabla de abajo muestra los resultados de los dos equipos de
control. Asmase que el muestreo de seleccin fue completamente al azar, sin
emparejamiento y asumir que las poblaciones son normales. (t = 3.54, p = 0.028)

6-46
Dr. Hctor Quevedo Uras

Tabla mostrando las concentraciones de partculas para ambas situaciones.


(Elaboracin propia)
___________________________________________________________________
Concentracin de partculas con Concentracin de partculas con el sistema
el sistema de control agregado de control, al cual se le agreg el cicln
___________________________________________________________________
Microgramos/m3 Microgramos/m3
___________________________________________________________________
421 207
462 17
400 412
378 74
413 116
___________________________________________________________________

Observaciones y clculos sugeridos:


Antes de comenzar, tenemos que hacer una decisin sobre cual prueba de t es la ms
apropiada. Pudiramos usar la versin de t para observacin pares donde hay un
aparejamiento deliberado, esto es usando la funcin (6-6). Tal vez pudiramos usar la
funcin de t que asume que las varianzas de las poblaciones son iguales y con
muestras del mismo tamao (funcin (6-7)). La tercera opcin, sera usar la versin de
t para varianzas desiguales y usando la funcin (6-8). Sin embargo, si asumimos que
se us el mtodo de seleccin completamente aleatorio, sin emparejamiento, y si
analizamos a simple vista los datos de la tabla de arriba, podemos ver que hay mucha
variacin en las observaciones (tambin se puede hacer una prueba de hiptesis con el
objeto de ver si las varianzas son iguales), lo que nos inclinara a usar la tercera
opcin, esto es, la funcin (6-8). No obstante, antes de decidirse por el uso de esta
funcin es conveniente hacer una prueba con la funcin estadstica F = s21/s22.

6.6. Para saber si una droga experimental puede curar los sntomas de la leucemia

6-47
Dr. Hctor Quevedo Uras

(porque la llamada leucemia no es una enfermedad en particular de la sangre, sino un


sntoma que acusa que todo el cuerpo est enfermo, no nicamente la sangre. De no
pensarse as, entonces, se dira que la sangre es una parte independiente del cuerpo),
10 sujetos con el sntoma avanzado, fueron sometidos a una prueba. Cinco de ellos
recibieron el tratamiento experimental y cinco de ellos no. El tiempo de
supervivencia, en aos, se midi en cada uno de los sujetos. Probar con = 0.05 que
esta droga experimental fue efectiva. Asumir que las dos distribuciones son normales
y con varianzas iguales. Los datos se dan abajo.
Tabla mostrando los datos. (Elaboracin propia)
__________________________________________________________________
Supervivencia en aos
_______________________
Sujetos tratados 2.1 5.3 1.4 4.6 2.9
__________________________________________________________________
Sujetos sin tratamiento 1.9 1.5 2.8 3.1 2.0
__________________________________________________________________

6.7. En un estudio de ingeniera del agua de anlisis de oxgeno disuelto (OD) varios
laboratorios se avocaron a hacer estos anlisis usando el mtodo de Winkler (MW)
(titulacin) y el mtodo de electrodos (ME). Usar una t estadstica de muestras
pareadas y probar que no hay diferencias entre los dos mtodos. Usar = .05.
Calcular el valor de p. Los datos se dan en la tabla de abajo. La tabla de abajo muestra
los datos de oxgeno disuelto (OD) de varios laboratorios usando el mtodo de
Winkler y el mtodo de electrodos. Las concentraciones del oxgeno disuelto (OD), se
expresan en mg/L son en mg/L. Sugerencia: Usar el programa de computadora
Minitab o Excel. (t = -2.49, p = .01)

6-48
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema. (Elaboracin propia)

Mtodo de | 1.2 1.4 1.4 1.3 1.2 1.3 1.4 2.0 1.9 1.1 1.8 1.0 1.1 1.4
Winkler

Mtodo de | 1.6 1.4 1.9 2.3 1.7 1.3 2.2 1.4 1.3 1.7 1.9 1.8 1.8 1.8
Electrodos

6.8. Este es un experimento relacionado con higiene industrial y seguridad, para


reducir el nmero de hombre-horas perdidas, como resultado de los accidentes
industriales. Para esto se instal un nuevo equipo de seguridad. En una prueba para
medir la eficiencia del equipo de seguridad instalado, se examin una muestra
aleatoria en varios departamentos de esta industria. El nmero de horas-hombre
perdido en el mes antes de la instalacin del equipo y el siguiente mes despus de
instalar el equipo, el nmero de horas perdidas por accidentes industriales se registr.
La tabla de abajo muestra los datos de la muestra aleatoria que se sac.
Tabla mostrando los datos de horas-hombre perdidas antes y despus de instalar el
equipo de seguridad.
___________________________________________________________________
Horas perdidas por departamento

_______________________________________
Mes 1 2 3 4 5 6
___________________________________________________________________
Antes de instalar el equipo 18 26 43 17 29 30
Despus de instalar el equipo 15 20 31 17 25 27
___________________________________________________________________

Hacer los siguientes clculos:


(a) Realmente vali la pena la inversin en la instalacin del equipo de seguridad?

6-49
Dr. Hctor Quevedo Uras

6.9. Se coleccionaron los siguientes datos de una muestra aleatoria de xidos de


azufre (SO2), en ppm, provenientes de una fundicin. Asumir que los datos provienen
de una poblacin normal de xidos de azufre. Usar = 0.05. La tabla de abajo da la
informacin.
Tabla mostrando los datos del problema. (Elaboracin propia)
xidos de azufre (ppm) | 56 58 58 59 57 57 56 57 58

Hacer los siguientes clculos:


(a) Estimar el intervalo de confianza del 95%. Incluir todos los pasos necesarios e
interpretarlo acordemente. (57.33 0.768)
(b) Probar la hiptesis nula de que el promedio poblacional es de 58.5 ppm.
Establecer todos los pasos que requiere este problema. Hacer una grfica mostrando
las regiones de rechazo y aceptacin.
(c) Hacer una prueba de hiptesis no tradicional e interpretarla acordemente. Hacer
una grfica con las probabilidades. (t = -3.19)
(d) Si no se pudiera rechazar la hiptesis nula, mencionar tres factores que pudieran
haber afectado el resultado de este experimento.
6.10. Hacer el mismo problema 6.9 de los xidos de azufre y probar la hiptesis nula
de que el valor del promedio poblacional es de no ms de 56.1 ppm. Usar un nivel de
significancia de 0.05. Adems, estimar la hiptesis no tradicional (el valor de p) e
interpretarla acordemente. Hacer una grfica mostrando la probabilidad.
6.11. Hacer el mismo problema 6.10 de los xidos de azufre y proceder de la
siguiente manera:
(a) Probar la hiptesis de que es de cuando menos 58.5 usando el nivel de
significancia de 0.05. (t = -3.51, se rechaza Ho:)

6-50
Dr. Hctor Quevedo Uras

(b) Calcular el valor de p. (p = 0.0002)


(c) Graficar los resultados.
6.12. Un fabricante de fusibles afirma que con una sobrecarga de 25%, los fusibles se
fundirn en 14.00 minutos, en promedio. Para probar esta afirmacin, se tomo una
muestra aleatoria de 20 fusibles y se someti a una carga de 20% y los tiempos que
tardaron en fundirse tuvieron un promedio de 10.63 minutos, con una desviacin
estndar de 2.48 minutos. Asumiendo que la poblacin muestreada es normal, hacer
una prueba de hiptesis para refrendar o rechazar la afirmacin del fabricante de
fusibles. Asumir = .05. Tambin, calcular el valor de p.
6.13. En un estudio de seguridad en los caminos carreteros, hecho para evitar los
accidentes, la polica federal de caminos cree que la velocidad promedio de los
motoristas, que manejan sobre cierta zona carretera, exceden el lmite de velocidad de
110 kilmetros por hora. Para esto, se tom una muestra aleatoria de 20 vehculos con
sus respectivas velocidades, en kilmetros por hora registrada por el radar. Los
resultados en kilmetros por hora de cada uno de los 20 vehculos fueron: 113.6,
115.0, 117.0, 118.0, 115.9, 84.0, 87.0, 90.0, 110.0, 95.0, 98.0, 99.0, 118.0, 120.0,
121.0, 119.0, 118.0, 111.0, 112.0, 112.6. Usar = 0.05. Hacer las siguientes
estimaciones:
(a) Proveen estos datos suficiente evidencia para apoyar la aseveracin de la polica
federal de caminos de que los motoristas estn violando el reglamento del lmite de
velocidad de 110 kilmetros por hora? (No hay evidencia de que se est violando a
lmite de velocidad de 110 kilmetros por hora)
(b) Estimar el intervalo de confianza con = 0.05 y con = 0.1 para el promedio
poblacional de velocidad. (103.14 < < 113.18)
6.14. En un estudio de ingeniera de manufactura, en un esfuerzo por establecer el

6-51
Dr. Hctor Quevedo Uras

tiempo estndar para realizar determinada tarea en el ensamble de partes de


carburadores para automviles, el ingeniero de produccin selecciona, aleatoriamente,
a 16 trabajadores experimentados para realizar esta faena. El tiempo promedio
requerido por los 16 trabajadores fue de 13 minutos con una varianza de 9 minutos. El
ingeniero de produccin desea construir un intervalo de confianza de 99% para la
longitud de tiempo del verdadero promedio requerido para realizar la faena. Hacer
un intervalo de confianza con un nivel de significancia de 0.05. Como se comparan
los dos intervalos? Cul es ms amplio y porqu?
6.15. En un estudio hipottico de consumo de gasolina, el kilometraje de gasolina
dado por los autos de ciertos modelos es de 10.4 kilmetros por litro con una
desviacin estndar de 1.6 kilmetros por litro. Se calcula el promedio de rendimiento
en kilmetros por litro para muestras de este tipo de modelos de autos. Cul es la
probabilidad de que el promedio de rendimiento de gasolina sea de 12 kilmetros por
litro, si se saca una muestra aleatoria de 20 autos? Asumir un nivel significante de =
0.01. (p .00098)
6.16. El ingreso promedio mensual, de cierto grupo de profesionistas es como sigue:
30,000, 32,000, 31,000, 29,000, 29,500, 33,000, 31,500, 30,500, 29,800, 29,900.
Cul es la probabilidad de que el verdadero promedio sea de 31,200 pesos? Cules
seran los factores que pudieran afectar el valor de la probabilidad p?
6.17. En un estudio estadstico, para demostrar que la prueba de t de estudiante es
independiente de las unidades de medicin, se sacaron muestras de las temperaturas
de hornos de ladrilleras medidas en grados Celsius (oC) y en grados Fahrenheit (oF).
La hiptesis es que el promedio de la temperatura del horno es de 50 oC. Hacer la
misma prueba, pero ahora con el promedio en oF. La tabla de abajo muestra los
resultados de las temperaturas de los hornos en oC. Convertir estas temperaturas a oF

6-52
Dr. Hctor Quevedo Uras

completar la tabla de abajo y comparar los resultados de las dos pruebas de hiptesis.
Son los resultados de la t de estudiante y de la probabilidad p, iguales o diferentes?
Tabla mostrando las temperaturas. (Elaboracin propia).
Temperaturas oC | 47 55 68 55 51 50 49 45 53 47 48 51
___________________________________________________________________
Temperaturas oF |
___________________________________________________________________

6.18. Encontrar los valores crticos de 2, por los cuales el rea de la cola derecha
de la distribucin es de 0.05 (2.95), si los grados de libertad son de:
(a) = 15
(b) 21
(c) = 50.
6.19. Para este problema, se dan los siguientes datos obtenidos de una muestra de
concentraciones (en mg/L) de nitratos (NO3-) tomados del efluente de una planta de
tratamiento de aguas residuales industriales. Construir un intervalo de confianza
para el verdadero valor de la varianza, es decir, la varianza poblacional 2, usando
un nivel significante de = 0.01. (0.21 < 2 < 1.31)

Tabla mostrando los datos del problema. (Elaboracin propia)


37.61 38.61 37.69 37.72 36.75 38.61
38.88 38.19 37.88 38.00 37.20 37.20
37.53 38.21 38.11 37.40 37.40 39.39

6.20. Si una muestra de partculas de cadmio atmosfrico de un tamao de 17 micras


tiene una varianza de s2 = 196.38, encontrar el intervalo de confianza para la varianza

6-53
Dr. Hctor Quevedo Uras

poblacional, si los niveles significantes son de:


(a) 0.05
(b) 0.01.
6.21. Si tenemos un tamao de muestra de n = 20 y un nivel de = .05, entonces,
encontrar los valores crticos de la distribucin de la JI cuadrada si:
(a) La prueba es unilateral izquierda (10.117)
(b) Si la prueba es bilateral (8.907, 31.41)
(c) Si se asume una prueba de bondad de ajuste (30.14)
6.22. En un estudio de ahorro de energa elctrica (que contribuira a menos
contaminacin ambiental. Porque?) se enlist el consumo de energa elctrica (en
kWh) durante 7 aos diferentes. Usando un nivel de confianza de 95% probar la
afirmacin de que la desviacin estndar para todos esos aos es de 1,000,000.
Tabla mostrando los datos del problema. (Elaboracin propia)
11,943 11,463 10,789 9907 9012 9942 11,153

6.23. El libro Elementary Statistics del auto Mario Triola (1995) da un ejemplo de
un radiador de un auto que contiene 3785 mL de anticongelante. Asumiendo que
las fluctuaciones son inevitables, el manejador de control de calidad quiere estar
seguro de que la desviacin estndar sea menos que 30 mL. De otra manera,
algunos radiadores se derramaran, mientras que otros, que no tendran suficiente
anticongelante, no. Para esto se selecciona una muestra aleatoria cuyos resultados
se dan abajo. Usar estos datos para construir un intervalo de confianza del 99%
para el verdadero valor de 2. Sugiere este intervalo de confianza que las
fluctuaciones estn en un nivel aceptable? Asmase que las distribuciones de los
llenados de los radiadores con el anticongelante estn normalmente distribuidas.

6-54
Dr. Hctor Quevedo Uras

(38.2 < < 95.7)


Tabla enlistando la muestra de los llenados de anticongelante.
__________________________________________________________________
3761 3861 3769 3772 3675 3861
3888 3819 3788 3800 3720 3748
3753 3821 3811 3740 3749 3839
(Fuente: Triola, 1995)

6.24. Una muestra aleatoria de 700 trabajadores de la industria particip en una


prueba para determinar, cunto tiempo necesitaban para su proteccin personal
haciendo determinada faena. Esto se hizo despus de tomar un curso de
entrenamiento de higiene industrial y seguridad. Asmase una prueba de bondad de
ajuste. Asumir n = 8. Hacer lo siguiente
(a) Probar la hiptesis nula de Ho: y revisar si la poblacin muestreada es normal o
aproximadamente normal. (2 = 20.36, 2crtica = 15.51, se rechaza Ho:)
(b) Calcular el valor de p. (.05 < p < .005)

6.25. Un ingeniero ambiental mide la cantidad de DBO5 procedentes de 15 lugares a


lo largo de una corriente, la cual est contaminada por a una descarga industrial. El
ingeniero reporta las concentraciones en mg/L. Como informacin inicial se sabe que
la suma de los cuadrados es igual a 508.1 mg/L. Construir un intervalo de confianza
del 95% para la varianza poblacional. (90.2 > 2 > 19.46)

6-55
Dr. Hctor Quevedo Uras

CAPITULO 7
Anlisis de Varianza
Diseos de anlisis de varianza completamente aleatorizados.- Mtodo de
comparaciones mltiples para saber cuales poblaciones son iguales y cuales
son desiguales.- Anlisis de varianza de diseo de bloques aleatorizados.-
Suposiciones del modelo de bloques aleatorios completos.- Anlisis de
varianza en dos sentidos.- Interaccin con ANOVA de dos factores.- Anlisis
de varianza de tres sentidos: diseo completamente aleatorio.- Interaccin con
ANOVA de diseos factoriales de tres clasificaciones.- Ejemplos de anlisis de
varianza usando el programa Minitab.-
El mtodo para comparar varios promedios se llama anlisis de varianza o
simplemente ANOVA. En su ms simple forma, el anlisis de varianza compara
varios tratamientos para determinar la igualdad de los promedios. En contraste con
la prueba de t de estudiante, que estudia la igualdad de dos poblaciones (Ho: 1 =
2), el anlisis de varianza estudia ms de 2 distribuciones, y usa la estadstica F.
Especficamente, el modelo ANOVA simple estudia las igualdades de ms de 2
promedios, esto significa que estudia los efectos de ms de dos "tratamientos," es
decir, de la hiptesis nula Ho: 1 = 2 = 3 = ..... = n, esto es, de que las varianzas
de los promedios son igual a cero (2 = 0). A pesar de que este anlisis de varianza
estudia los promedios, analiza, de hecho, la varianza de las poblaciones.
Las propiedades y suposiciones en el anlisis de varianza (ANOVA) son:

1. Para las pruebas del anlisis de varianza se usa la distribucin de F. Esta


distribucin F no es simtrica, sino sesgada, es decir, oblicua hacia la derecha.
2. Los valores de F pueden ser de cero o positivos, pero no

7-1
Dr. Hctor Quevedo Uras

pueden ser negativos.


3. La prueba de hiptesis es siempre unilateral derecha.
4. Hay una distribucin de F diferente para cada par de grados de libertad, (g.l.).
La Figura 7.1 muestra esta situacin. Para denotar los grados de libertad para el
numerador se usa la anotacin, 1 y para los grados de libertad el denominador se
usa la anotacin, 2.
5. Las poblaciones tienen distribuciones normales.
6. Las poblaciones tienen la misma varianza o desviacin estndar. Si esta
condicin no puede ser cumplida, la prueba de F no es vlida. En este caso se debe
de usar una prueba de hiptesis diferente.
7. Las muestras son aleatorias e independientes una de la otra.
Nota: Cuando no se pueden cumplir las condiciones de normalidad o de
independencia de los datos, uno se tiene que remitir a la pruebas no paramtricas,
que no requieren de estas suposiciones.

Figura 7.1. Grfica mostrando la distribucin F. Hay una distribucin diferente de


F para cada par de grados de libertad del numerador, 1 y del denominador, 2.
(Elaboracin propia).

7-2
Dr. Hctor Quevedo Uras

Diseos de anlisis de varianza completamente aleatorizados


Existen dos tipos bsicos de anlisis de varianza: el diseo completamente
aleatorizado y el diseo de bloque completamente aleatorizado.
En el caso del diseo completamente aleatorizado, conocido por anlisis de
varianza en un sentido (ANOVA de una clasificacin), se asignan los tratamientos
aleatoriamente a las unidades experimentales. En este diseo se sacan las muestras
independientemente, por lo tanto, la seleccin de una muestra no afecta la
seleccin de cualquier otra muestra. Para cada muestra se puede calcular el
promedio, X j y la varianza s2j. Por ejemplo, supngase que se quieran probar
cuatro marcas de neumticos, 1, 2, 3 y 4, para determinar si hay diferencias con
respecto a la duracin. Para esto se pueden asignar, aleatoriamente, una muestra de
10 neumticos de cada marca, a digamos 25 vehculos y probar su desgastamiento.
Una vez probadas las marcas de los neumticos, se usa el anlisis de varianza, para
ver si las marcas difieren con respecto a su duracin.
Por otra parte, en el caso de ANOVA de diseo de bloques completamente
aleatorios, este enfoque se usa cuando el error experimental es grande, lo que
conlleva al no rechazo de hiptesis debido a que hay mucha variacin. De manera
que, al bloquear las observaciones se reduce la variacin. El trmino bloque se
deriva de diseos experimentales aplicados a la agricultura, en los cuales las
parcelas de tierras de cultivos se refieren como bloques. Por ejemplo, en el caso
del diseo de bloque aleatorio, los tratamientos (como fertilizantes) se asignan
aleatoriamente a unidades dentro de cada bloque, es decir, de parcelas que tengan
suelos parecidos.
Una suposicin importante del modelo para un diseo de bloques completos
aleatorizados es que los efectos de tratamiento y de bloqueo se asume que son

7-3
Dr. Hctor Quevedo Uras

aditivos. Por ejemplo, para ilustrar esta situacin, si se grafican los promedios
poblacionales versus tratamientos, digamos de bloque 1 y 2 y, si las grficas son
paralelas, se dice que los efectos de tratamiento y de bloques son aditivos o que no
interactan. Sin embargo, si las lneas se cruzan entre si, se dice que hay
interaccion o no aditividad.
El formato de la tabla de ANOVA de un sentido completamente aleatorizado
se da abajo. La TABLA 7.1 da una descripcin de todos los componentes de
clasificaciones unilaterales o de diseos completamente aleatorizados.
TABLA 7.1. Anlisis de varianza de un sentido de diseos completamente
aleatorizados.
Fuente de la Suma de (SS) Grados de Cuadrado (MSa) Fcalc. Ftab. Valor
variacin los cuadrados libertad medio de p
Tratamientos SSa a1 MSa = SSa/(a 1) F1 = MSa/s2 F[1-;a-1,a(n-1)]
Error SSe a(n 1) s2e = SSe/[a(n 1)]
Total SSt an 1

Donde:
a
SSa = n ( y i. - y .. )2 (7-1)
i=1

a n
SSe = (yij y i.)2 = SSt SSa (7-2)
i=1 j=1

a n
SSt = (yij y ..)2 (7-3)
i=1 j=1

a = nmero de tratamientos
n = tamao de la muestra

7-4
Dr. Hctor Quevedo Uras

Para denotar los simbolismos usados en la TABLA 7.1, estos se dan en la tabla de
abajo.
TABLA 7.2. Tabla mostrando los simbolismos usados en la TABLA 7.1. (Walpole
et al. 1999)
Tratamiento: 1 2 i k
y11 y11 yi1 yk1
y12 y22 yi2 yk2
. . . .
. . . .
y1n y2n . yin .. ykn

Total T1. T2. . Ti. . Tk. T..

Promedio y 1. y 2. . y i. . y k. y ..

Donde: yij = j-sima observacin del i-simo tratamiento


y i. = promedio de todas las observaciones para el i-simo tratamiento

y .. = promedio de todas las an observaciones o promedio de los

promedios
Ti. = Total de todos los promedios
Ejemplo #1. Este es un ejemplo relacionado con el uso de ANOVA unilateral o de
diseo completamente aleatorizado. Para esto se coleccionaron las concentraciones
atmosfricas de SO2 (en ppm) provenientes de 5 muestreadores localizados a
diferentes distancias (aleatoriamente asignadas), de una fuente industrial emisora.
Probar la hiptesis nula de que las 5 poblaciones de SO2 son iguales, es decir, Ho:
1 = 2 = 3 = 4 = 5. Calcular el valor de p. Los datos se dan en la tabla de abajo.
Usar un paquete de computadora para procesar los datos.

7-5
Dr. Hctor Quevedo Uras

TABLA 7.3. Tabla mostrando los datos del problema.


Nmero de muestreador | 1 2 3 4 5
500 550 648 720 890
510 540 630 700 900
490 500 620 710 920
530 520 600 736 880

Solucin:
Si se usa el programa Excel irse a: ANOVA Single factor.
Usando este programa, los resultados se dan abajo:
TABLA 7.4. Tabla mostrando los resultados de este problem usando el programa
de Excel.
ANOVA: Un solo factor

RESUMEN
Grupos Conteo Suma Promedio Varianza
Columna 1 4 2030 507.5 291.6667
Columna 2 4 2110 527.5 491.6667
Columna 3 4 2498 624.5 401
Columna 4 4 2866 716.5 235.6667
Columna 5 4 3590 897.5 291.6667

Tabla de ANOVA
Fuente de
Variacin SS gl MS Fcalc. Valor-p Fcrit.
Entre los grupos 406123.2 4 101530.8 296.5846 4.4E-14 3.055568
Dentro de los
grupos 5135 15 342.3333

Total 411258.2 19

7-6
Dr. Hctor Quevedo Uras

Si se usa el programa Minitab irse a: Stat ANOVA One way (unstacked).


Los resultados de este problema usando el Minitab se dan en la tabla de abajo.
TABLA 7.5. Tabla mostrando los resultados usando el Minitab.
One-way ANOVA: Muestreador 1, Muestreador 2, Muestreador 3, Muestreador 4,
Muestreador 5

Source DF SS MS F P
Factor 4 406123 101531 296.58 0.000
Error 15 5135 342
Total 19 411258

s = 18.50 R-Sq = 98.75% R-Sq(adj) = 98.42%

Ntese que cada uno de estos paquetes de computadora tiene sus ventajas y
desventajas. De cualquier manera, al juzgar por el valor de F = 296.58 >>>> Fcrtica
= 3.06, la hiptesis nula de igualdad de poblaciones de SO2 se rechaza de una
manera mucho muy significante. Esta decisin es contundentemente apoyada por
el valor tan pequeo de p = 4.4x10-14.
Ejemplo #2. Se da la siguiente informacin en la tabla de abajo relacionada con
cierto estudio ecolgico. Asmase un diseo completamente aleatorizado. Sacar las
conclusiones adecuadas.
TABLA 7.6. Tabla mostrando los datos del problema. (Elaboracin propia)

6
Tratamiento Observaciones yij y i.
J=1

1 99 40 61 72 76 84 432 72
2 96 84 82 104 99 105 570 95
3 63 57 81 59 64 72 396 66
4 79 92 91 87 78 71 498 83

Solucin:

7-7
Dr. Hctor Quevedo Uras

Usando un paquete de programa de computadora da:


TABLA 7.7. Tabla de anlisis de varianza. (Elaboracin propia)

Grupos Conteo Suma Promedio Varianza


Tratamiento 1 6 432 72 406.8
Tratamiento 2 6 570 95 97.6
Tratamiento 3 6 396 66 80.8
Tratamiento 4 6 498 83 69.2

Tabla de ANOVA
Fuente de
Variacion SS gl MS Fcalc. Valor-p Fcrit.
Entre los Grupos 2940 3 980 5.99022 0.004387 3.098391
Dentro de los
grupos 3272 20 163.6

Total 6212 23

El valor de la probabilidad de p es de 0.0044. Este valor tambin se puede calcular


manualmente buscando el valor de la Fcalc. = 5.99 en la tabla de la distribucin F e
interpolando entre el valor ms alto y el ms bajo usando la relacin (7-4) de abajo:
(2 1) / (F2 F1) = (2 X) / (F2 Fcalc.) (7-4)
Donde:
2 = valor porcentual de F ms alto que el valor de Fcalc.
1 = valor porcentual de F ms bajo que el valor de Fcalc.
F2 = valor de la distribucin F correspondiente a 2
F1 = valor de la distribucin F correspondiente a 1
X = valor que se quiere interpolar
Fcalc. = valor calculado usando la tabla de la distribucin F.
Nota: El mecanismo que se sigue para interpolar es buscando el valor de la Fcalc. =

7-8
Dr. Hctor Quevedo Uras

5.99 en la tabla de la distribucin F con 1 = 3 (numerador) y 2 = 20


(denominador) y vemos que 5.99 est entre 2 = .001 con F2 = 8.10 (valor ms alto)
y 1 = .01 con F1 = 4.94 (valor ms bajo). Enseguida, sustituimos el valor de la
Fcalc. = 5.99 y los dems valores en la frmula de interpolacin (7-4) para dar:
(.001 - .01)/(8.10 4.94) = (.001 X)/(8.10 5.99)
Resolviendo por X = .005= p = .005. Este valor est muy de acuerdo al valor de
.0044 de la TABLA 7.7. En conclusin, el valor de p = .0044 indica un diseo
experimental preciso y conciso.
Ejemplo #3. Los nitratos (NO-3) representan la fase ms oxidada en el ciclo del
nitrgeno. Generalmente, esto ocurre en muy pequeas cantidades en las
superficies de los almacenamientos de agua, pero puede existir en grandes
cantidades en algunas aguas subterrneas. En cantidades excesivas, los nitratos
pueden ocasionar una enfermedad infantil llamada metemeglobinemia. (Mtodos
Estndares para el examen del agua y de las aguas residuales, 1971). Por esta
razn, el lmite es de 45 mg/L para el agua potable. Para los anlisis de los nitratos,
existen varios mtodos. Por ejemplo, un mtodo es el del cido fenoldisulfnico;
otro es el mtodo de la reduccin de cadmio; otro ms es el mtodo de cido
cromotrpico y, otro ms es el mtodo de brucina (alcaloide txico). Para esto, se
hizo un estudio estadstico para comparar los resultados de los cuatro mtodos
mencionados arriba para analizar los nitratos. Los siguientes datos se dan abajo.
Para esto, llamemos tratamiento (1) al mtodo del cido fenoldisulfnico,
tratamiento (2) al mtodo de la reduccin del cadmio, tratamiento (3) al mtodo de
cido cromotrpico, y tratamiento (4) al mtodo de brucina. La tabla de abajo da
los resultados en mg/L. Asumir un nivel de significancia de 0.05. Hacer los

7-9
Dr. Hctor Quevedo Uras

siguientes clculos:

(a) Enlistar las suposiciones implicadas por el modelo de ANOVA.


(b) Hacer una tabla de anlisis de varianza y probar que no hay diferencias entre
los 4 mtodos.
(c) Estimar el valor de la probabilidad p y sacar las conclusiones apropiadas.

TABLA 7.8. Tabla con los datos. (Elaboracin propia)


Tratamiento Resultados de los seis anlisis en mg/L
(1) 99 40 61 72 76 84
(2) 96 84 82 104 99 105
(3) 63 57 81 59 64 72
(4) 79 92 91 87 78 71

Solucin:
(a) Las suposiciones implicadas por el modelo de anlisis de varianza de una sola
clasificacin son:
1. Las cuatro poblaciones de los nitratos estn normalmente distribuidas.
2. Las varianzas de las cuatro poblaciones de nitratos son iguales.
3. Las 24 observaciones (anlisis) son independientes, es decir, que las muestras
fueron seleccionadas aleatoriamente.
(b) Usando el programa Minitab irse a:
Stat ANOVA One way (unstacked) da los iguientes resultados mostrados en
la Tabla 7.9.

7-10
Dr. Hctor Quevedo Uras

TABLA 7.9. Tabla de ANOVA para los resultados de ejemplo de arriba usando el
Minitab. (Elaboracin propia)
One-way ANOVA: Tratamiento 1, Tratamiento 2, Tratamiento 3, Tratamiento 4

Source DF SS MS F P
Factor 3 2940 980 5.99 0.004
Error 20 3272 164
Total 23 6212

MS = 164 = s = 12.81 R-Sq = 47.33% R-Sq(adj) = 39.43%

Por otra parte, un mtodo corto para hacer anlisis de varianza de un sentido, es
decir, manualmente, se da usando el formato de la tabla de abajo.

TABLA 7.10. Tabla de anlisis de varianza (ANOVA) para una clasificacin, con
muestras de tamaos iguales usando el mtodo abreviado. (Elaboracin propia).

Fuente de Suma de los g.l. Cuadrado del Fcalc. Ftab. Valor


Variacin cuadrados promedio de p

Debido al SSa = T2/n G2/an a1 MSa = SSa/(a-1) MSa/s2e F[1-;a-1,a(n-1)] Estimado


tratamiento
Residuo SSr = X2 - T2/n a(n-1) s2e = SSr/a(n-1)

Total SSt = X2 G2/an na-1

Donde:
T2 = cuadrado de los totales
g.l. = = grados de libertad
n = tamao de la muestra
G = gran total
a = nmero de muestras

7-11
Dr. Hctor Quevedo Uras

Ejemplo #4. La tabla de abajo muestra los datos de los anlisis de demanda
qumica de oxgeno (DQO) hechos por 3 laboratorios diferentes. Se tomaron 3
muestras de 5 observaciones cada una. Asumir que las 3 muestras vienen de
poblaciones normales aleatorias y que tienen la misma varianza. Asumir un nivel
de significancia de = 0.05. Hacer lo siguiente:
(a) Una tabla con un anlisis de varianza para el DQO.
(b) Establecer la regin crtica.
(c) Probar la hiptesis nula de Ho: 1 = 2 = 3, o sea que 2 = 0, es decir, que los
promedios de las tres poblaciones de DQO son iguales. Adems, establecer la
hiptesis alternativa apropiada.
(d) Si se rechaza Ho: calcular el valor de la probabilidad p.
Se da la tabla de abajo con algunos clculos preliminares:
TABLA 7.11. Tabla mostrando los clculos preliminares. (Elaboracin propia)
Nmero de muestra (1) (2) (3) Combinacin
Observacin 3 9 1
7 12 2
7 11 6
6 8 4
2 5 7
__________________________________________________________________
Totales 25 45 20 G = 90
Promedio X 5 9 4 X =6

Solucin:
Usando las estadsticas de la TABLA 7.10, los clculos son:

7-12
Dr. Hctor Quevedo Uras

G = T = X = T1 + T2 + T3 +...+ Tk = 25 + 45 + 20 = 90, an = (3)(5) = 15


Promedio general o promedio de los promedios = X = G / an = 90 / 15 = 6
Tambin, X = ( X 1 + X 2 + X 3) / a = (5 + 9 + 4) / 3 = 6
X 2 = 688, n = 5, a = 3, T2 / n = 3,050 / 5 = 610
SS(entre las muestras) = (T2 / n) - (T)2 / an = T2 / n - G2/an
= (252 + 452 + 202)/5 - [(25 + 45 + 20)2] / [(3)(5)] = 70.0
Nota 1: la suma de los cuadrados SSa = SS(entre las muestras) mide la variacin entre los
promedios muestrales a.
SS(dentro de las muestras) = X 2 - T2/n = (X - X )2 = 688 - 610 = 78
Nota 2: SSr = SS(dentro de las muestras) mide la variacin de las observaciones dentro de
los promedios muestrales.
SS(total) = SS(entre las muestras) + SS(dentro de las muestras)
= X 2 - G2/an = (X - X )2
Nota 3. SS(total) mide la variacin total de las observaciones an.
La varianza de los promedios muestrales es:
s2 x = cuadrado del promedio de SS(entre las muestras) = (X - X )2 / a-1
= [(5 - 6)2 + (9 - 6)2 + (4 - 6)2]/3 - 1
= (-12 + 32 - 22)/2
= 7.0
s2e = cuadrado del promedio de SS(dentro de las muestras)
= (X - X )2 / a (n - 1)
= SS(dentro de las muestras) / a (n - 1)
= 78 / 3(5 - 1)
= 6.5

7-13
Dr. Hctor Quevedo Uras

Mtodo de comparaciones mltiples para saber cuales poblaciones son iguales


y cuales son desiguales
Una vez que se prueban las hiptesis de que los promedios son iguales, o
desiguales, entonces, necesitamos saber cuales promedios son desiguales y cuales
son iguales. Para esto, se usa lo que se llaman comparaciones mltiples explicados
por Walpole et al. 1993.
El anlisis de varianza es un procedimiento poderoso para probar la
homogeneidad de un grupo de promedios. Sin embargo, si rechazamos la hiptesis
de igualdad (Ho:1 = 2 = 3 = n), y nos inclinamos por la hiptesis alternativa de
qu, cuando menos dos de los promedios son iguales, todava no sabemos cuales
de los promedios son iguales y cuales son desiguales. El uso del mtodo de
comparaciones mltiples implica hacer varias comparaciones emparejadas entre
los tratamientos o promedios.
Por ejemplo, las comparaciones emparejadas son pruebas como la de abajo
las cuales dicen que son iguales o que no hay diferencia:
Ho:i - j = 0 (7-5)
H1:i - j 0 (7-5a)
Para hacer estas pruebas emparejadas usamos la versin de t de Estudiante de la
forma de:
Xi- Xj
t = _ (7-6)
s 2/n
Donde:
X i = unos de los promedios que se quiera comparar

X j = otro de los promedios que se quiera comparar

7-14
Dr. Hctor Quevedo Uras

s = desviacin estndar combinada o la raz cuadrada del cuadrtico


promedio del error MS
n = tamao de la muestra de cada tratamiento
Ejemplo #5. El libro Probabilidad y Estadstisca de Walpole et al. (1993) da un
ejemplo del uso de las comparaciones mltiples. La tabla de abajo da los datos
relacionados con este problema. Asumir un nivel de significancia de = 0.05.
Estimar de valor de la probabilidad p.
TABLA 7.12. Tabla mostrando los datos del problema.
Nmero de Agregados
1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679

Resolver los siguientes enunciados:


(a) Correr un anlisis de varianza usando en paquete de computadora.
(b) Probar la hiptesis nula de que la poblacin del agregado 1 es igual a la
poblacin del agregado 5, es decir, Ho:1 = 5 contra la hiptesis alternativa de
H1:1 5.
(c) Probar la hiptesis nula de que la poblacin del agregado 4 es igual a la
poblacin del agregado 5, es decir, Ho:4 5 = 0, contra H1:4 - 5 0.

7-15
Dr. Hctor Quevedo Uras

Solucin:
Usando un programa de computadora como EXCEL da los siguientes resultados.
(a) La tabla de abajo muestra los resultados obtenidos usando el paquete de
computadora.
TABLA 7.13. Resultados usando anlisis de varianza de un solo factor.
Anlisis de varianza de un solo factor

Resumen
Grupos Conteo Suma Promedios Varianzas
Agregado 1 6 3320 553.3333 12133.87
Agregado 2 6 3416 569.3333 2302.667
Agregado 3 6 3663 610.5 3593.5
Agregado 4 6 2791 465.1667 3318.567
Agregado 5 6 3664 610.6667 3455.467

ANOVA
Fuente de Variacin SS gl MS F calc. Valor-p F crit.
Entre los grupos 85356.47 4 21339.12 4.301536 0.008752 2.75871
Dentro de los grupos 124020.3 25 4960.813

Total 209376.8 29

Al juzgar por los resultados obtenidos se rechaza los hiptesis de igualdad de


promedios, es decir, Ho:1 = 2 = 3 = 4 = 5, con una probabilidad de p = 0.009.
(b) Ahora bien, para probar la hiptesis de que la poblacin del agregado 1 es igual

a la poblacin del agregado 5, se usa la relacin: Ho:1 = 5 y H1: 1 5. Usando


la funcin (7-6) y sustituyendo los valores de 1 = 553.33, 5 = 610.67, desviacin
estandar combinada = s = 4960.813 = 70.43 y n = 6 da:
Xi- Xj
t =
s 2/n

7-16
Dr. Hctor Quevedo Uras

t = (553.33 610.67) / [(70.43) ( 2/6)] = -1.41


Para calcular el valor de la probabilidad p se busca el valor absoluto, |-1.41| en la
tabla de la distribucin de t de Estudiante y est entre 0.05 y 0.10 y por
interpolacin da p = 0.17. Este valor no es significante y, por lo tanto, se dice que
tal vez 1 = 5.
(c) Aqu se quiere probar la hiptesis nula de que no hay diferencias entre las
poblaciones de los agregados 4 y 5, esto es, Ho:4 = 5. Para esto, se procede en
forma anloga al inciso (b) usando los valores de 4 = 465.17, 5 = 610.67, s =
70.43 y tamao de muestra de n = 6. Sustituyendo todos estos valores en la funcin
(7-6) da:
t = (465.17 610.67) / [(70.43)( 2/6) = -3.58
Para calcular el valor de la probabilidad p se consulta la tabla de la
distribucin de t con 25 grados de libertad y vemos que el valor p correspondiente
a 3.58 est entre .0005 < p < 0.001. Por interpolacin, el valor calculado de p es
igual a 0.0008. Este valor apoya, definitivamente, la hiptesis alternativa de H1:4
5.
Anlisis de varianza de diseo de bloques completamente aleatorizados
Como se dijo anteriormente, el diseo de bloques completamente aleatorios se usa
para reducir el error experimental, ya sea debido a muestras pequeas o debido a
variacin inherente de las observaciones. Con este tipo de diseo por bloques
completos es posible controlar la variacin dentro de las muestras (residual)
generada por algun factor indeseable. De manera qu, al bloquear las
observaciones, se reduce la variacin, que tal vez no se pueda controlar cuando se
usan diseos completamente aleatorizados.
El diseo de bloques aleatorizados tambin se refiere como ANOVA con

7-17
Dr. Hctor Quevedo Uras

dos factores, en el sentido de que se usa I para representar el nmero de niveles del
primer factor A y J para representar el nmero de niveles del segundo factor B
(bloques). Siendo as, hay IJ posibles combinaciones que constan de un nivel de
factor A y otro de factor B. Cada una de estas combinaciones se llama tratamiento,
por lo que hay IJ diferentes tratamientos. Aqu, en el diseo de bloques, el nmero
de observaciones hechas en el tratamiento IJ se representan con Kij = 1, el cual es
un caso especial del diseo de bloques aleatorizados, donde un solo factor A es de
inters principal, y el otro factor (B) bloques es incluido para reducir el error
experimental. En la siguiente discusin de ANOVA de dos factores, nos
centraremos en el caso de Kij = K > 1, para diferenciarlo del diseo de bloques
aleatorios con Kij = 1.
De cualquier manera, el trmino bloque se deriva de diseos
experimentales agrcolas, en los cuales las parcelas de tierras de cultivos se refieren
como bloques. Por ejemplo, en el caso del diseo de bloques aleatorios, los
tratamientos se asignan aleatoriamente a unidades dentro de cada bloque con
caractersticas de suelos semejantes. De no ser as, las parcelas a las que se le
aplica fertilizante, no todas pudieran tener el mismo tipo de tierra, nutrientes o
humedad, (lo que puediera causar variaciones en los rendimientos agrcolas). Al
agrupar las parcelas por caractersticas similares de suelos, minerales, nutrientes,
humedad, etc., el error experimental se reduce.
Otro ejemplo, es el relacionado con experimentos mdicos. Por ejemplo, si
los tratamientos son 3 drogas y hay 24 pacientes, usando el diseo completamente
aleatorizado, 8 pacientes son asignados aleatoriamente a cada uno de los
tratamientos. Pero puede ocurrir que el historial clnico de los 24 pacientes no sea
el mismo, lo cual puede afectar su comportamiento a las drogas (lo que puede

7-18
Dr. Hctor Quevedo Uras

causar un error o residual grande). Sin embargo, agrupando los pacientes por
historiales clnicos similares, edades, sexo, pesos, fumadores, tomadores,
orientaciones sexuales, etc., se controla esta variacin.
En el caso de la ingeniera ambiental, usando modelos de contaminacin
atmosfrica, se esperara que las concentraciones de los contaminantes
disminuyeran en funcin de la distancia (siempre y cuando las alturas de los
muestreadores fueran iguales, las condiciones metereolgicas fueran uniformes y
el tipo terreno por donde est pasando la pluma fuera similar). Al controlar estos
factores, las concentraciones de los contaminantes disminuyen exponencialmente,
en funcin de la distancia de la fuente emisora, sin producir mucha variacin.
La tabla de abajo da el ANOVA para el diseo de bloques completos.
TABLA 7. 14. ANOVA de un diseo aleatorizado por bloques completos.
Fuente de Suma de los Grados de Cuadrado Fcalc. Ftab. Valor de
variacin cuadrados libertad medio p
Debido a los SSa a1 MSa = SSa/(a 1) MSa/s21 F[1-;a-1,(a-1)(b-1)] Calculada
tratamientos
Debido a los SSb b1 MSb = SSb/(b 1) MSb/s22 F[1-;b-1,(a-1)(b-1)]
bloques
Residual (Error) SSe (a 1)(b 1) MSe = SSe/[(a 1)(b - 1)]
Total SSt ab 1
____________________________________________________________________________________
Donde:
a
SSa = b ( y i. y .. )2 Suma de cuadrados de tratamientos (7-7)
i=1

b
SSb = a ( y .j y .. )2 Suma de cuadrados de bloques (7-8)
J=1

7-19
Dr. Hctor Quevedo Uras

a b
SSe = (yij y i. y .j + y .. )2 Suma de cuadrados del error (7-9)
i=1 j=1

a b
SSt = (yij y ..)2 Suma total de los cuadrados (7-10)
i=1 j=1

Donde:
y i. = promedio de las observaciones para el i-simo tratamiento

y .j = promedio de las observaciones para el j-simo bloque

y .. = promedio de todas las ba observaciones o el promedio de los promedios

yij = j-sima observacin del i-simo tratamiento


Suposiciones del modelo de bloques aleatorios completos
El modelo o diseo de bloques aleatorios completos asume cuatro suposiciones
(Dunn et al. 1974) :
1. La respuesta al i-simo tratamiento en el j-simo bloque proviene de una
distribucin normal.
2. Los promedios de las distribuciones normales ab pueden expresarse en la forma
de + + . Esta propiedad usualmente se llama aditividad o no interaccin.
3. Las varianzas de las poblaciones ab son todas iguales. Esto se llama
homoscedasticidad. Este trmino se discutir, nuevamente, en el captuo de
regresin y correlacin.
4. Las deviaciones de los promedios ij son independientes. Por ejemplo, si se sabe
que 11 es grande, no se puede esperar que 12 sea pequea o grande.
Una suposicin importante del modelo para un diseo de bloques completos
aleatorizados es que los efectos de tratamiento y de bloqueo se asumen que son
aditivos. Por ejemplo, para ilustrar esta situacin, si se grafican los promedios

7-20
Dr. Hctor Quevedo Uras

poblacionales versus tratamientos, digamos de los bloques 1 y 2 y, si las grficas


son paralelas, se dice que los efectos de tratamiento y de bloques son aditivos o
que no interactan. Sin embargo, si las lneas de la grfica se cruzan entre si, se
dice que hay interaccin. En este rengln, si no se cumple la condicin de
aditividad, esto conduce a conclusiones errneas.
El diseo completamente aleatorio, tiene muchas aplicaciones en la
produccin industrial y en a modelos educativos. Para esto vamos a usar un
ejemplo para ilustrar esta situacin.
Ejemplo #6. Supngase que 4 diferentes mquinas son manejadas por 4 operadores
diferentes. Se quiere saber si los operadores difieren con respecto a la
productividad de tiempo, cuando son asignados a variados tipos de maquinarias.
Aplicar el anlisis de varianza ms apropiado para este problema, usando = 0.05.
Sacar conclusiones al respecto usando un paquete de computadora. Los datos se
dan en la tabla de abajo:
TABLA 7.15. Tabla mostrando la productividad por tiempo de los diferentes
operadores asignados aleatoriamente a 4 tipos de mquinas diferentes.
Operadores
Mquinas 1 2 3 4
A 68.5 79.2 83.8 87.5
B 72.2 80.6 89.3 95.3
C 73.3 80.2 88.0 94.1
D 81.1 88.8 95.2 100.5

Solucin:

7-21
Dr. Hctor Quevedo Uras

Usando un paquete de computadora como Excel, se procede como:


Tools Data Analysis Analysis Tools Anova: Two Factors Without
Replication (Aqu, sin embargo, hay que instalar el mdulo de Data Analysis)
Las pruebas de hiptesis para los operadores y las mquinas se establecen de la
siguiente manera:
Ho: Los operadores no difieren con respecto al promedio de productividad por
tiempo, contra H1: Los operadores si difieren con respecto al promedio de
productividad por tiempo
Ho: Las mquinas no difieren con respecto al promedio de productividad por
tiempo, contra H1: Las mquinas si difieren con respecto a la productividad
Usando el programa Excel da los siguientes resultados mostrados abajo.
TABLA 7.16. Tabla mostrando el anlisis de varianza con dos factores.
Anova con dos factores

RESUMEN Conteo Suma Promedio Varianza


Mquina A 4 319 79.75 67.77667
Mquina B 4 337.4 84.35 102.03
Mquina C 4 335.6 83.9 82.3
Mquina D 4 365.6 91.4 70.03333

Operador 1 4 295.1 73.775 28.0625


Operador 2 4 328.8 82.2 19.70667
Operador 3 4 356.3 89.075 22.1825
Operador 4 4 377.4 94.35 28.57

Tabla de ANOVA
Fuente de variacin SS gl MS Fcalc. Valor de p Fcrtica
Maquinaria 280.26 3 93.42 54.93499 .00000414 3.862548
Operadores 951.115 3 317.0383 186.4322 .00000002 3.862548
Error 15.305 9 1.700556

Total 1246.68 15

7-22
Dr. Hctor Quevedo Uras

Conclusin:
Con respecto a la maquinaria, debido a que el valor de la Fcalc. = 54.9 >>> Fcrtica se
rechaza Ho: Esta decisin es mucho muy significativa, al juzgar por el valor de p =
.000004. Las mquinas s difieren muy significantemente, con respecto a la
productividad. Con respecto a los operadores, debido a que el valor de Fcalc. = 186.4
>>>> Fcrtica se rechaza Ho: Esta decisin es mucho, mucho muy significante al
juzgar por el valor de p = 2x10-8. Los operadores s difieren muy
significantemente, con respecto a la productividad de tiempo. Esto es apoyado,
muy contundentemente, por el valor tan bajo de la probabilidad p.
Ejemplo #7. Este es un ejemplo relacionado con un experimento de bloques
aleatorios completos para determinar los efectos corrosivos de cuatro sustancias
qumicas diferentes, v.g., HCl, H2SO4, HNO3 y HF. Es decir, cidos gaseosos que
entran en el flujo de aire (flujo transportador que entra al equipo de control, el cual
se genera de un procesamiento industrial), que pasan por los filtros, es decir, en las
telas usadas en los filtros o baghouses (hechas de fibra de vidrio, asbestos, dacron,
niln, polietileno), para controlar la contaminacin del aire. Para tales fines se
seleccionan cinco muestras de telas y se aplica un diseo aleatorio por bloques
completos, por medio de probar cada sustancia qumica, en un orden aleatorio,
sobre cada una de las muestras de las telas. Sacar las conclusiones debidas. Los
datos se dan en la tabla de abajo. Hacer lo siguiente:
(a) Probar la hiptesis nula de igualdad de promedios
(b) Hacer una tabla de anlisis de varianza de diseo aleatorizado por bloques
completos. Sacar las conclusiones apropiadas

7-23
Dr. Hctor Quevedo Uras

TABLA 7. 17. La respuesta de los ndices de corrosividad de las cuatro sustancias


qumicas en las muestras de telas. (Elaboracin propia)
Tipos de telas
_________________________________________
Sustancias qumicas Vidrio asbestos dacron niln polietileno
HCl 1.8 2.1 1.1 1.7 1.6
H2SO4 2.7 2.9 0.8 2.5 2.5
HNO3 2.3 2.3 1.1 2.0 1.8
HF 4.4 4.8 2.5 4.4 3.9

Los resultados usando el paquete de Excel se dan abajo.


TABLA 7.18. Resultados de las resistencias a la corrosin de las telas usando un
diseo aleatorizado de bloques completos.
Anova de dos factores sin replicaciones

Resumen Conteo Suma Promedio Varianza


HCl 5 8.4 1.68 0.157
H2SO4 5 11.4 2.28 0.712
HNO3 5 9.5 1.9 0.245
HF 5 19 3.8 0.605

Vidrio 4 11.2 2.8 1.273333


Asbestos 4 11.2 2.8 0.54
Dacron 4 5.5 1.375 0.5825
Niln 4 10.6 2.65 1.47
Polietileno 4 9.8 2.45 1.083333

Tabla de ANOVA
Valor de
Fuente de variacin SS gl MS Fcalc. p Fcritica
Debido a los cidos 13.7095 3 4.569833 48.18805 5.75E-07 3.490295
Debido a las telas 5.738 4 1.4345 15.12654 0.000123 3.259167
Error 1.138 12 0.094833

Total 20.5855 19

Debido a que el valor de la Fcalc. = 48.19 > F0.05,3,12 = 3.49 se rechaza la hiptesis

7-24
Dr. Hctor Quevedo Uras

nula de igualdad de tratamientos, y se dice que hay una diferencia muy


significativa en la accin de los cidos, en cuanto el efecto que tienen sobre la
resistencia promedio de las telas. Esta contencin est muy bien sustentada por el
valor tan pequeo de p = 5.75x10-7.
Por otra parte, en cuanto a modelos estadsticos para controlar la variacin,
existe otro tipo de diseo para reducir el error experimental llamado cuadrados
latinos. An, cuando el diseo en bloques aleatorizados es muy efectivo para
reducir el error experimental (residual), al eliminar una fuente de variacin, los
cuadrados latinos son muy tiles para reducir dos fuentes de variacin, mientras se
reduce el nmero de combinaciones. Este diseo, sin embargo, no se discutir en
este texto.
Clasificaciones cruzadas: Anlisis de varianza en dos sentidos
El anlisis de varianza en dos direcciones o de dos clasificaciones o de dos
sentidos es til para estudiar dos tipos diferentes de tratamientos. La caracterstica
del diseo factorial en dos sentidos es que, cada nivel de un factor, se usa en
combinacin con cada nivel del otro factor. Por ejemplo, considrese el caso de n
rplicas de las combinaciones del tratamiento que se determinan por a niveles del
factor A y b niveles del factor B. En este aspecto, las observaciones se estructuran
por medio de un arreglo rectangular, donde los renglones representan los niveles
del factor A y las columnas representan los niveles del factor B. Siendo as, hay ab
celdas, cada una de las cuales contenienen n observaciones (tamao de la muestra).
Por ejemplo, si un ingeniero agrnomo investiga el comportamiento de dos
tipos de semillas, por medio de variar el nivel del fertilizante, digamos, a tres
niveles, alto, mediano y bajo, un factor sera el tipo de semilla y el segundo factor
sera el nivel de fertilizante. Este sera un ejemplo factorial con dos factores, el

7-25
Dr. Hctor Quevedo Uras

cual consistira en usar seis tratamientos formados por medio de usar cada tipo de
semilla con cada nivel de fertilizante.
Otro ejemplo, de ANOVA de dos factores est relacionado con la medicin
de las concentraciones de contaminates del aire emitidos por una fuente industrial.
Aqu para un factor se pueden seleccionar diferentes niveles distancias de la fuente
emisora y, para el otro factor, se pueden seleccionar diferentes alturas donde estn
situados los muestreadotes (porque la altura afecta las concentraciones).
Interaccin con ANOVA de dos factores
Cuando se estudian experimentos factoriales es importante determinar si los
factores principales tienen una influencia en la respuesta, sino tambin analizar lo
que se llama interaccin (no aditividad) entre los factores. El texto de Dunn et al.
(1974) aplica un experimento de dos clasificaciones, para explicar el concepto de
la interaccin. Por ejemplo, en la Figura 7.2, en un experimento que involucra tres
niveles de agua y tres niveles de fertilizante, las lneas son paralelas, lo que indica
que no hay interaccin, o sea que hay independencia en los datos. Sin embargo, en
la Figura 7.3 se observa qu, en ambas grficas hay una respuesta promedio con
interaccin, es decir, que hay dependencia. Por ejemplo, en la primera grfica un
nivel alto de fertilizante interacciona positivamente con un nivel alto de agua;
mientras que en la segunda grfica niveles altos de agua y fertilizante resultan en
una respuesta baja, en comparacin con la respuesta a niveles bajos y medianos de
agua. En trminos simples, se dice que hay interaccin entre dos factores (digamos
A y B), si el cambio en uno de los factores (digamos factor B) produce un cambio
en respuesta a un nivel (digamos nivel 1) del otro factor (digamos A) diferente de
aqul producido en los otros niveles (digamos nivel 2) de este segundo factor A,
donde un nivel es uno de los tratamientos dentro de un factor.

7-26
Dr. Hctor Quevedo Uras

Figura 7.2. Grfica indicando una respuesta promedio sin interaccin (aditividad),
o sea que hay independencia en los datos. (Dunn et al. 1974).

Figura 7.3. Grficas indicando una respuesta promedio con interaccin (no
aditividad) o sea que hay dependencia entre los datos. (Dunn et al. 1974).
Cuando ocurre una interaccin en algn experimento es importante
investigar porque ocurri. Por ejemplo, cuando se establece la tabla de anlisis de
varianza, se estudian los comportamientos de los efectos principales y tambin, la
posible interaccin entre los dos factores bajo estudio. En trminos estadsticos, si
la F calculada es mayor que la F crtica eso indica que los factores estn

7-27
Dr. Hctor Quevedo Uras

interactuando. No obstante, la interaccin puede ocurrir por mera casualidad. Pero


tambin la interaccin puede ocurrir, causalmente, debido a algn valor extremo o
a algn factor que no se ha podido controlar. La interaccin, tambin se puede
deber a algn problema en los datos o a una respuesta errnea. De cualquier
manera cuando los datos obtenidos indican que existe una interaccin grande, los
efectos principales correspondientes sern de poca utilidad.
De esta manera, en el ejemplo #7 de abajo, hay interacciones entre las
alturas y las distancias. Cuando se modelan las emisiones de contaminantes
atmosfricos, hay muchas variables que pueden afectar los resultados. En este
ejemplo, tal vez hubo cambios metereolgicos imprevistos, emisiones fugitivas o
diferencias en los tipos de terreno por donde pasa la pluma de la chimenea. Esto
pudo contribuir a la interaccin de los dos factores estudiados en ese ejemplo.
Situaciones similares pueden ocurrir en estudios de agricultura. Por ejemplo,
si el ingeniero agrnomo desea estudiar los rendimientos agrcolas usando dos
factores, como el tipo de semilla y la cantidad de fertilizante aplicado, tiene que
analizar si hubo interaccin entre los factores semilla-fertilizante. Si hay
interaccin entre estos dos factores, esto pudo deberse a que, en las parcelas
seleccionadas para los cultivos experimentales, no haba uniformidad de variables
como humedad, tipos de suelos, o de cantidad de nutrientes. Para remediar esta
situacin se tendra que hacer un experimento por bloques aleatorizados, es decir,
teniendo cuidado de que las parcelas agrcolas fueran todas uniformes en las
variables anteriormente descritas.
De cualquier manera, la tabla de abajo muestra el formato que se usa para
experimentos factoriales en dos sentidos o con dos tratamientos.

7-28
Dr. Hctor Quevedo Uras

La TABLA 7.19 de abajo muestra el formato que se sigue para los anlisis de
varianza en dos sentidos.
TABLA 7. 19. Tabla de anlisis de varianza en dos sentidos. (Elaboracin propia)
Fuente de SS g.l. MS Fcalc. Ftab.
variacin
Efecto principal

Debido a A SSa a-1 MSa= SSa/(a-1) F1 = MSa/s2e F[1-;a-1,ab(n-1)]

Debido a B SSb b-1 MSb = SSb/(b-1) F2 = MSb/s2e F[1-;b-1,ab(n-1)]

Interaccin de
dos factores

Debido a AB SSab (a-1)(b-1) MSab = SSab/(a-1)(b-1) F3 = MSab/s2e F[1-;(a-1)(b-1),ab(n-1)]

Residual SSe ab(n-1) s2e=SSe/[ab(n-1)]

Total SSt abn-1

Donde:

a
( y i.. - y )2
SSa = bn i=1 (7-11)

b
( y .j. - y ... )2
SSb = an J=1 (7-12)

a b
SSab = n i=1 ( y ij. - y i.. - y .j. + y )2
j=1 (7-13)

a b n
SSe = i=1
(yijk - y ij.)2
j=1 k=1
(7-14)

a b n
SSt = i=1
(yijk y )2
j=1 k=1
(7-15)

7-29
Dr. Hctor Quevedo Uras

A = variacin debido al primer factor A


B = variacin debido al segundo factor B
AB = interaccin entre el factor A y B (interaccin que ocurre cuando no hay
aditividad)
s21, s22, s23 y s2e son la formacin de los cuadrados medios y se obtienen
dividindolos entre sus correspondientes grados de libertad
y = suma de las observaciones en la (ij)-sima celda
ijk

y i.. = promedio de las observaciones para el i-simo nivel del factor A

y = promedio de todas las abn observaciones


y .j. = promedio de las observaciones para el j-simo nivel del factor B
y ij. = promedio de las observaciones en la (ij)-sima celda

yijk = k-sima observacin en el i-simo nivel del factor A y el nivel j-simo nivel
del factor B
a = nmero de muestras del primer factor
b = nmero de muestras del segundo factor
n = nmero total de casos

En el anlsis de varianza de dos sentidos, para el modelo bajo estudio se


divide cada observacin yijk en cuatro partes y la quinta en las desviaciones de las
observaciones del promedio poblacional (Dunn et al. 1974). Esto es:
yijk = + i +j + ()ij + ijk para i = 1,. , a; j = 1,., b; k = 1,..., n, (7-16)
Donde:
a b a b
i = j = ()ij = ()ij = 0 (7-17)
i=1 j=1 i=1 j=1

Y donde:

7-30
Dr. Hctor Quevedo Uras

= respuesta promedio del conjunto o la respuesta promedio de las poblaciones


ab; i = el efecto del isimo nivel del factor A promediado sobre b niveles del
factor B; j = efecto jsimo nivel del factor B; ()ij = interaccin entre el isimo
nivel del factor A y el jsimo nivel del factor B y; ijk = desviacin de las
observaciones yijk de la respuesta del promedio poblacional para la ij-sima
poblacin.
Aqu, es importante recapitular las suposiciones del model de ANOVA en
dos direcciones, es decir:
1. Los errores ijk deben ser independientes
2. Los residuales ijk deben estar normalmente distribuidos
3. Los residuales ijk deben de venir de una poblacin con la misma varianza
De no cumplirse con estas suposiciones, el diseo ser incierto.
Ejemplo #8. Para estudiar los efectos de la altura y la distancia en las
concentraciones de contaminantes atmosfricos (SO2) emitidos por una chimena
industrial se instalaron tres muestreadores, a tres alturas diferentes (3 niveles de A)
y, a cuatro distancias diferentes (4 niveles de B) viento abajo de la fuente emisora.
Para esto se dan los siguientes avances informativos: SSa = 7.00, SSb = 20.00, SSe
= 7.0 y SSt = 45.00. Asumiendo un nivel de significancia de = 0.05, resolver los
siguientes enunciados:
(a) Establecer una tabla de anlisis de varianza.
(b) Hacer pruebas de F para demostrar que ninguno de los valores de F para
interacciones de la altura y la distancia es significativo. Probar la hiptesis nula
Ho: de que no hay diferencias en las concentraciones promedio de SO2 en las
distancias, cuando se usan tres alturas diferentes, en las cuales fueron situados los
muestredores que estn midiendo las concentraciones del bixido de azufre.

7-31
Dr. Hctor Quevedo Uras

Adems, probar la hiptesis nula Ho: de que no hay diferencia en las


concentraciones promedio en las cuatro distancias a las que se situaron los
sensores. Finalmente, probar la hiptesis nula Ho: de que no hay interaccion
entre las diferentes alturas y las diferentes distancias de los sensores.
(c) Ver cuales efectos principales son significativos.
(d) Calcular los valores de p.
Solucin:
(a) La tabla de ANOVA con los valores sustituidos se da abajo.
TABLA 7.20. Tabla de ANOVA para el problema de los efectos de la altura y la
distancia en las concentraciones de contaminantes del aire.
__________________________________________________________________
Fuente de Suma de los g.l. Cuadrado medio Fcalc. Ftab. Valor p
variacin cuadrados (SS) (MS)
______________________________________________________________________________
Debido a la 7.00 2 3.50 6.03 3.89 .001 < p < .01
altura (A)
Debido a la 20.00 3 6.67 11.50 3.49 p << .001
distancia (B)
Debido a la 11.00 6 1.83 3.16 3.00 .01 < p < .05
interaccin de AB
Debido al error 7.00 12 0.58
Total 45.00 23
____________________________________________________________________________
(b) Las tres pruebas de hiptesis nulas se establecen de la siguiente manera:
Ho:1 = 2 = 3 = 0 (no hay diferencias en las concentraciones promedio de SO2
cuando se sitan los sensores a las diferentes alturas)
Ho: 1 =2 = 3 = 4 = 0 (no hay diferencias en las concentraciones de SO2, en las

7-32
Dr. Hctor Quevedo Uras

cuatro distancias de la fuente emisora)


Ho: ()11 = ()12 = .. = ()24 = 0 (no hay interaccin entre las diferentes
alturas y las diferentes distancias
Las pruebas de hiptesis alternativas son:
H1: Cuando menos una de las concentraciones i (por la altura) difiere de cero
H1: Cuando menos una de las concentraciones i (por la distancia) difiere de cero
H1: Cuando menos una de las ()ij (interaccin altura-distancia) difiere de cero
Conclusin: Se rechaza Ho: y se concluye que las concentraciones de SO2 por el
efecto de la altura son diferentes, a aqullas debidas al efecto de la distancia. Esta
contencin es apoyada por el valor de p = .022. Anlogamente, Ho: tambin se
rechaza con un valor muy significativo de p << .001. La interaccin entre la altura
y la distancia, es decir, Fcalc. = 3.16 > Ftab. = 3.00 est en el umbral de la
interaccin, con un valor de p = .05. Esto indica que la interaccin debe de
considerarse. Esto quiere decir que tienen que considerarse variables como el tipo
de terreno, cambios imprevistos en las condiciones meteorolgicas, sensores mal
situados, mal funcionmiento del equipo, emisiones fugitivas, cuerpos de agua, y asi
sucesivamente.
(c) y (d) explicados por el inciso (a). De acuerdo a la tabla todos los efectos son
significativos, especialmente, debido a la distancia.
Ejemplo #9. El libro Applied Statistics: Anlisis of Variance and Regresin de
Dunn, et al. (1974) hace un estudio de ANOVA de dos clasificaciones relacionado
con el rendimiento de cebada. En este experimento se involucran dos tipos de
semillas (1 y 2), cada uno de estos factores usados en tres niveles de fertilizantes,
es decir, bajos, medianos y altos. La tabla de abajo muestra la informacin
requerida para este problema.

7-33
Dr. Hctor Quevedo Uras

TABLA 7.21. Produccin de cebada en fanegas por acre. (Dunn et al. 1974)
Nivel de fertilizante
Tipo de semilla Bajo Mediano Alto
1 14.3 18.1 17.6
14.5 17.6 18.2
11.5 17.1 18.9
13.6 17.6 18.2
y 11. = 13.475 y 12. = 17.600 y 13. = 18.225 y 1.. = 16.433
----------------------------------------------------------------------------------------------------
2 12.6 10.5 15.7
11.2 12.8 17.5
11.0 8.3 16.7
12.1 9.1 16.6
y 21. = 11.725 y 22. = 10.175 y 23. = 16.625 y 2.. = 12.842

y .1. = 12.600 y .2. = 13.888 y .3. = 17.425 y = 14.638

Con a = 2, b = 3 y n = 4
2
SSa = bn ( y i.. - y )2 = (3)(4)[16.443 - 14.638)2 + (12.842 - 14.638)2]
i=1

= (12)[3.258 + 3.226] = 77.80


3
SSb = an ( y .j. - Y )2 = (2)(4)[(12.600 - 14.638)2 + (13.89 - 14.638)2
j=1

+ (17.43 - 14.638)2 ]

= (8)[4.153 + 0.550 + 7.795) = 99.9


2 3
SSab = n ( Y ij. - Y i.. - Y .j. + Y ...)2
i=1 j=1

= (4) {[(13.475 - 16.433 - 12.600 + 14.638)2 + (17.600 - 16.433 - 13.888 + 14.638)2


+ (18.225 - 16.433 - 17.425 + 14.638)2] + [(11.725 -12.842 - 12.60 + 14.638)2
+ (10.175 - 12.842 - 13.888 + 14.638)2 + (16.625 - 12.842 - 17.425 + 14.638)2]}
= (4)(0.8464 + 3.706 + 0.990 + 0.848 + 3.675 + 0.992) = 44.229

7-34
Dr. Hctor Quevedo Uras

a b n
SSe = i=1
(yijk - y ij.)2
j=1 k=1

= {[(14.3 13.475)2 + (14.5 13.475)2 + (11.5 13.475)2 + (13.6 13.475)2]


+ [(18.1 17.600)2 + (17.6 17.600)2 + (17.1 17.600)2 + (17.6 17.600)2]
+ [(17.6 18.225)2 + (18.2 18.225)2 + (18.9 18.225)2 + (18.2 18.225)2]
+ [(12.6 11.725)2 + (11.2 11.725)2 + (11.0 11.725)2 + (12.1 11.725)2]
+ [(10.5 10.175)2 + (12.8 10.175)2 + (8.3 - 10.175)2 + (9.1 10.175)2]
+ [(15.7 16.625)2 + (17.5 16.625)2 + (16.7 16.625)2 + (16.6 16.625)2}
= (3.900 + 0 + 0.5 + 0.141 + 11.668 + 1.629) 22.0
a b n
SSt = i=1
(yijk y )2 = SSa + SSb + SSab + SSe = 243.93
j=1 k=1

Ahora, se sustituyen todos los clculos hechos manualmente, para obtener la tabla
de debajo de dos clasificaciones cruzadas o de doble sentido.
TABLA 7.22. Tabla de anlisis de varianza para el experimento agrcola de dos
tipos de semillas con tres niveles diferentes de fertilizantes. (Dunn et al. 1974)

Fuente de variacin SS g.l. MS Fcalc. Ftab. Valor de p


Debido a las semillas (A) 77.80 1 77.8 64.8 4.41 <<<< .001
Debido a los niveles (B) 99.90 2 49.9 41.6 3.55 <<< .001
del fertilizante
Interaccin de semilla 44.23 2 22.1 18.4 3.55 << .001
y fertilizante (AB)
Residual 22.0 18 1.2
Total 243.93 23

En conclusin, debido a que la Fcalc. es mucho mayor que la Ftab., es decir, 64.8 >>
4.41 se rechaza la hiptesis de que no hay diferencia entre las semillas, y nos
inclinamos por la hiptesis alternativa, es decir, H1:1 2 3 4. Esta

7-35
Dr. Hctor Quevedo Uras

decisin es apoyada por un valor de p muy sigificativo. Situacin similar ocurre


con los niveles de fertilizantes. Sin embargo, en cuanto a la interaccin se ve que
los factores semilla y niveles de fertilizante estn interactuando, esto es debido a
que 18.4 > 3.55. Por lo tanto, se concluye que hay interaccin entre el tipo de
semilla y el nivel de fertilizante. En este caso la interaccin pudo ocurrir por mera
casualidad, pero tambin pudo ocurrir por algun valor extremo o por algn
problema relacionado con el diseo experimental.
Anlisis de varianza de tres sentidos: diseo completamente aleatorio
Por otra parte, cuando se habla de anlisis de varianza con clasificaciones cruzadas
o diseos factoriales, hay tambin experimentos que involucran ms de dos
factores, lo cual nos lleva a anlisis de varianza de clasificaciones en tres sentidos.
Aqu, es necesario decir, que en el caso de modelos de ANOVA factoriales en tres
clasificaciones pueden ser los tres fijos, los tres aleatorios, uno aleatorizado y dos
fijos, o dos aleatorizados y el otro fijo. Sin embargo, aqu se considerarn
unicamente experimentos con tres factores fijos A, B y C, en los niveles a, b y c,
respectivamente en diseos experimentales completamente aleatorizados.
Los nmeros de los niveles de los tres factores estn representados por I, J y
K, respectivamente, y Lijk es igual al nmero de observaciones hechas con el factor
A al nivel i, factor B al nivel j y factor C al nivel k. Aqu, sin embargo, es necesario
afirmar que el anlisis factorial es muy complicado cuando los valores de Lijk no
son todos iguales, por lo tanto, en este estudio esto se limitar a Lijk = L.
En el experimento de la produccin de cebada, tenamos dos niveles, es
decir, el factor semilla y el factor fertilizante, pero si este experimento se hiciera
con un anlisis de varianza de tres sentidos, se le pudiera agregar otro factor ms,
es decir, dos niveles de agua. Bajo estas condiciones hubiera 12 combinaciones de

7-36
Dr. Hctor Quevedo Uras

tratamientos, y se asumira que 48 parcelas fueran asignadas aleatoriamente a los


12 combinaciones de tratamientos.
Otro experimento relacionado con la ingeniera ambiental atmosfrica sera
usando tres factores para medir las concentraciones de gases y partculas
contaminantes, como por ejemplo, SO2, NO2, Pb, Cd, etc. Es decir, para ver los
efectos que tendran factores como diferentes elevaciones, diferentes distancias y
diferentes tipos de sensores, diferentes tipos de terrenos o condiciones
metereolgicas. Las clasificaciones cruzadas con tres factores, tradicionalmente, se
disearon para experimentos agrcolas, pero tambin tienen muchas aplicaciones
en otras reas. La TABLA 7.23 muestra el formato usado para experimentos
factoriales de tres factores fijos.
TABLA 7.23. Tabla de ANOVA con tres factores fijos. (Elaboracin propia)
Fuente de SS g.l. Cuadrado Fcalc. Ftab.
variacin medio
Efectos principales
A SSa a1 MSa = SSa/(a-1) MSa/s21 F1[1-;a-1,abc(n-1)]
B SSb b1 MSb = SSb/(b-1) MSb/s22 F2[1-;b-1,abc(n-1)]
C SSc c1 MSc = SSc/(c-1) MSc/s23 F3[1-;c-1,abc(n-1)]
Interaccin de
dos factores
AB SSab (a-1)(b-1) MSab = SSab/(a-1)(b-1) MSab/s24 F4[1-;(a-1)(b-1),abc(n-1)]
AC SSac (a-1)(c-1) MSac = SSac/(a-1)(c-1) MSac/s25 F5[1-;(a-1)(c-1),abc(n-1)]
2
BC SSbc (b-1)(c-1) MSbc = SSbc/(b-1)(c-1) MSbc/s 6 F6[1-;(b-1)(c-1),abc(n-1)]
Interaccin de
tres factores
ABC SSabc (a-1)(b-1)(c-1) MSabc = SSabc/[(a-1)(b-1)(c-1)] MSabc/s27 F7[1-;(a-1)(b-1)(c-1),abc(n-1)]
Residual SSe abc(n-1) s2e = SSe/[abc(n-1)]
Total SSt abcn-1
_____________________________________________________________________________________

7-37
Dr. Hctor Quevedo Uras

Donde:
a
SSa = bcn ( y i... y ....)2 (7-18)
i=1

b
SSb = acn ( y .j.. y .)2 (7-19)
j=1

c
SSc = abn ( y ..k. y ....)2 (7-20)
k=1

a b
SSab = cn ( y ij.. y i - y .j.. + y .)2 (7-21)
i=1 j=1

a c
SSac = bn ( y i.k. y i - y ..k. + y .)2 (7-22)
i=1 k=1

b c
SSbc = an ( y .jk. y .j.. y ..k. + y .)2 (7-23)
j=1 k=1

a b c
SSabc = n ( y ijk. y ij.. y i.k. y .jk. + y i + y .j.. + y ..k. y .)2 (7-24)
i=1 j=1 k=1

a b c n
SSe = (yijkl y ijk.) (7-25)
i=1 j=1 k=1 l=1

a b c n
SSt = (yijkl y ....) (7-26)
i=1 j=1 k=1 l=1

La simbologa usada en las frmulas anteriores se define de la siguiente manera:


y i = promedio de las observaciones para el i-simo nivel del factor A

y .... = promedio de todas las abcn observaciones

y .j.. = promedio de las observaciones para el j-simo nivel del tratamiento B

y ..k. = promedio de las observaciones para el k-simo nivel del tratamiento C

7-38
Dr. Hctor Quevedo Uras

y ij.. = promedio de los casos para el i-simo nivel del factor A y el j-simo nivel del

factor B
yijkl = denota la l-sima observacin de la combinacin del tratamiento ijk-simo
Los investigadores estadsticos Dunn et al. (1974) proporcionan el modelo
para el anlisis de varianza en tres sentidos, esto es:
yijkl = + i + j + ()ij + ()ik + ()jk + ()ijk + ijkl (7-27)
Donde:
= promedio total de los tres tratamientos abc
i = efecto promedio del nivel i-simo del factor A
j = efecto promedio del nivel j-simo del factor B
k = efecto promedio del nivel k-simo del factor C
()ij = interaccin de los factores A y B, es decir, del nivel i-simo del factor A con
el nivel j-simo del factor B
()ik = interaccin de los factores A y C, es decir, del nivel i-simo del factor A
con el nivel k-simo del factor C
()jk = interaccin de los factores B y C, es decir, del nivel j-simo del factor B
con el nivel k-simo del factor C
()ijk = interaccin de los factores A, B y C, es decir, las interacciones entre el
nivel i-simo del factor A con el nivel j-simo del factor B y con el nivel k-simo
del factor C
Interaccin con ANOVA de diseos factoriales de tres clasificaciones
En cuanto al impacto de interacciones, cuando se disean anlisis de varianza en
tres sentidos, es importante estar consciente de esta situacin, porque la interaccion
puede impactar la interpretacin que se hace con respecto a los efectos principales.

7-39
Dr. Hctor Quevedo Uras

Adems, la presencia de interaccin puede descubrir situaciones importantes que


pueden ayudar a modificar el diseo experimental original, para hacerlo ms
representativo. Las interacciones usualmente ocurren cuando los efectos
principales son muy grandes, pero pueden desaparecer cuando el investigaor
estadstico aminora las diferencias entre los niveles de un tratamiento, haciendo,
con esto, que los efectos principales sean menos pronunciados (Dunn et al. 1976)
Con relacin a las mediciones de la contaminacin del aire usando modelos
de difusin atmosfrica, es decir, para validar estudios de difusin atmosfrica, o
para hacer estudios de impacto ambiental, una aplicacin sera medir las
concentraciones que ocurren a lo largo de la pluma. Para un diseo factorial con
tres tratamientos, se puede agregar otro factor ms al ejemplo de la difusin
atmosfrica con dos tratamientos, explicado anteriormente. En este caso, adems
de los factores distancia y altura, le podemos agregar un tercer factor relacionado
con diferentes marcas de muestreadores.
En cuanto el efecto de interaccin, en estudios de impacto ambiental usando
modelos de difusin atmosfrica, la interaccin de los factores, bajo estudio, puede
descubrir situaciones que puedan afectar el estudio. Aunque si bien, los modelos de
difusin atmosfrica asumen condiciones climatolgicas uniformes, no obstante,
emisiones fugitivas o las diferencias en los tipos de terrenos como arena, arcilla,
piedras, agua, tipo de vegetacin, etc., por donde pasa la pluma de la chimenea
pueden ocasionar que los factores bajo estudio, interacten.
Situaciones similares pueden ocurrir con diseos factoriales aplicados a la
agricultura cuando se aplican dos factores como tipos de semilla y niveles de
fertilizantes. Aqu se le puede agregar otro factor ms, digamos, el nivel de agua
para hacer un diseo factorial, es decir, con tres factores. Sin embargo, si hay

7-40
Dr. Hctor Quevedo Uras

interaccin, tal vez los tipos de suelos de las parcelas no tienen las mismas
caractersticas, es decir, de humedad, de tipos de suelos, tipos de temperaturas,
tipos de nutrientes, etc., en cuyo caso hay que remitirnos a los diseos de bloques
completamente aleatorizados.
Ejemplo #10. En un estudio hipottico de difusin atmosfrica, es decir, usando un
modelo de difusin atmosfrica, se hicieron mediciones en cuatro distancias
diferentes a lo largo de la pluma (500, 1000, 1200 y 1500 metros), en dos alturas
diferentes, (500 y 800 metros), con cuatro marcas diferentes de sensores, y con
tamaos de muestras de 3 observaciones para cada una de las combinaciones de
niveles de los tres factores. Para esto se da una avanzada de los valores en la
siguiente forma: Suma de los cuadrados del factor A = SSa = 1.50, suma de los
cuadrados del factor B = SSb = 19.35, suma de los cuadrados del factor C = SSc =
147.00, suma de los cuadrados de la interaccin de factores A y B = SSab = 0.006,
suma de los cuadrados de la interaccin de factores A y C = SSac = 4.83, suma de
los cuadrados de la interaccion de B y C = SSbc = 2.64, suma de los cuadrados de la
interaccin de los factores A, B y C = SSabc = 0.75, suma total de los cuadrados =
SSt = 183.70. Asumir un nivel de significancia de 0.05. Probar las hiptesis de los
efectos principales, slo si todas las interacciones no son significativas. Hacer lo
siguiente:
(a) Asignar los simbolismos apropiados para cada uno de los componentes de la
fuente de variacin
(b) Hacer una tabla de anlisis de varianza que incluya la F crtica y los valores de
p
(c) Hacer pruebas de significancia sobre los efectos principales
(d) Hacer una prueba de significancia sobre todas las interacciones.

7-41
Dr. Hctor Quevedo Uras

Solucin:
(a) La distancia de los muestreadores situados a lo largo de la pluma, es decir,
viento abajo, es el factor A con i = 4. Las alturas a las que estn situado los
muestreadores es el factor B con j = 2. Finalmente, los muestreadores son el factor
C con k = 4. El nmero de casos es n = 3. Por lo tanto el nmero de
combinaciones es 4x2x4 = 32 y el nmero total de observaciones es 32x3 = 96.
(b) La tabla de anlisis de varianza se da abajo.
TABLA 7.24. Tabla mostrando los datos y el llenado de los faltantes en la tabla, de
acuerdo a los datos proporcionados por el problema. (Elaboracin propia).
Fuente de SS g.l. Cuadrado del Fcalc. Ftab. Valor p
Variacin promedio
__________________________________________________________________
Efectos principales
Debido a A 1.50 3 .50 4.17 2.76 .009
Debido a B 19.40 1 19.40 161.17 3.94 p <<< .001
Debido a C 147.00 3 49.00 408.33 2.76 p <<< .001
Interaccin de dos factores
Debido a AB 0.006 3 0.002 0.02 2.76 p > .100
Debido a AC 4.83 9 0.54 4.50 1.97 p < .001
Debido a BC 2.64 3 0.88 7.33 2.76 p < .001
Interaccin de tres factores
Debido a ABC 0.75 9 0.08 0.67 1.97 p > .100*
Error 7.59 64 0.12
Total 183.72 95
__________________________________________________________________

7-42
Dr. Hctor Quevedo Uras

(c) Conclusin: los efectos principales son significantes sustentados con valores de
p muy pequeos de .009 y p <<< .001. Al juzgar por estos valores de p, existen
efectos principales muy fuertes de distancia, altura y sensores. Por otro lado,
debido a que F7 = MSabc/s27 = 0.67 < F7[0.05;9,64] = 1.97, las interacciones entre los
factores distancia, altura y sensores no son de importancia. Sin embargo, las
interacciones AC y BC son variables importantes del experimento.
En el tpico de anlisis de varianza, tambin hay lo que se llama diseos
factoriales con todos los factores a dos niveles. Aqu se incluyen tpicos como
combinaciones ortogonales lineales, diseos de replicaciones fraccionales, diseos
anidados o jerrquicos, cuadrados latinos, etc. Estas funciones, sin embargo, no se
discutiran aqu.
El anlisis de varianza, tambin se puede aplicar a problemas de regresin
lineal y mltiple para evaluar la significancia total de la ecuacin de regresin, es
decir, probando la hiptesis nula de que todos los coeficientes poblacionales del
modelo de regresin son iguales a cero. Este tema, sin embargo, se discute en el
captulo dedicado a regresin mltiple.
Ejemplo #11. Este es un problema relacionado con un experimento factorial con
dos factores de efectos fijos (A y B) y con tamaos de muestras iguales. Por
ejemplo, el factor A tiene a niveles, mientras que el factor B tiene b niveles. Este
experimento est relacionado con un estudio de difusin atmosfrica para medir las
concentraciones del contaminante del aire SO2 provenientes de una fuente emisora
industrial. Para tales fines se situaron dos sensores, al azar a cuatro diferentes
distancias viento abajo de la chimenea industrial, es decir, a 500, 1000, 1500 y
2000 metros y a dos alturas diferentes, es decir, a 100 y 200 metros. Usar un

7-43
Dr. Hctor Quevedo Uras

paquete de computadora, para tales fines. La tabla de abajo proporciona los datos
pertinentes. Usar un nivel de significancia de = 0.05 y hacer lo siguiente:
(a) Construir una tabla de anlisis de varianza fijo en dos clasificaciones
(b) Analizar los efectos principales de la distancia y la altura
(c) Analizar el efecto de interaccin y dar explicaciones al respecto
(d) Hacer un anlisis residual para evaluar lo apropiado del modelo de ANOVA
(e) Hacer estudios objetivistas de estadstica para evaluar la fidelidad del modelo
de ANOVA

TABLA 7.26. Tabla mostrando las concentraciones de SO2 (en ppm) en funcin de
cuatro distancias viento abajo de la chimenea y de las alturas de los sensores.
(Elaboracin propia)
Distancias viento abajo de la fuente emisora
__________________________________________________
Alturas de los sensores 500 m 1000 m 1500 m 2000 m
_______________________________________________________________________
100 m 500 300 180 90
510 305 185 91
495 320 179 89
499 299 190 88

200 m 450 290 170 70


449 270 160 70
438 260 155 69
455 275 165 68
____________________________________________________________________________

7-44
Dr. Hctor Quevedo Uras

Solucin:
Usando el programa Minitab se procede a disear la matriz o la entrada de los
datos mostrada en la tabla de abajo.
TABLA 7.26. Tabla mostrando la matriz o disposicin ordenada de los datos en la
pgina del Minitab para la informacin de este problema.
_____________________________________________________________
Concentracin de SO2 (ppm) Distancias (m) Alturas (m)
(Columna C1) (Columna C2) (Columna C3)
_____________________________________________________________
500 500 m 100 m
510 500 m 100 m
495 500 m 100 m
499 500 m 100 m
300 1000 m 100 m
305 1000 m 100 m
320 1000 m 100 m
299 1000 m 100 m
180 1500 m 100 m
185 1500 m 100 m
179 1500 m 100 m
190 1500 m 100 m
90 2000 m 100 m
91 2000 m 100 m
89 2000 m 100 m
88 2000 m 100 m
450 500 m 200 m
449 500 m 200 m
438 500 m 200 m
455 500 m 200 m
290 1000 m 200 m
270 1000 m 200 m
260 1000 m 200 m
275 1000 m 200 m
170 1500 m 200 m
160 1500 m 200 m
155 1500 m 200 m
165 1500 m 200 m
70 2000 m 200 m
70 2000 m 200 m
69 2000 m 200 m
68 2000 m 200 m

7-45
Dr. Hctor Quevedo Uras

Despus de ingresar los datos de arriba a la pgina del Minitab procede como:
Stat ANOVA Two-Way
En la ventana que aparece de Two-Way Anlisis of Variance y dentro de la
ventanilla de Response poner, en la columna C1, todos los valores de la variable
de respuesta, es decir, en este caso, las concentraciones de SO2. Enseguida, en la
ventanilla de Row factor del factor A (renglones), poner los valores de las
distancias y meter en la ventanilla de Column factor la informacin del factor B
(columnas), es decir, las alturas. Esta informacin se da en la Tabla 7.26.
Una vez que se introducen todos los trminos siguiendo las instrucciones
anteriores, irse a: Stat ANOVA Two-Way, y el programa generar la tabla
de debajo de ANOVA correspondiente a la pregunta del inciso (a).
TABLA 7.27. Tabla mostrando los resultados de ANOVA dados por el Minitab.
(Elaboracin propia)
Two-way ANOVA: Conc. SO2 (ppm) versus Distancias (m), Alturas (m)
Source DF SS MS F P Ftab.
Distancias (m) 3 695696 231899 4501.07 0.000 3.01
Alturas (m) 1 8001 8001 155.30 0.000 4.26
Interaccin 3 1399 466 9.05 0.000 3.01
Error 24 1237 52
Total 31 706333
__________________________________________________________________
s = 7.178 R-Sq = 99.82% R-Sq(adj) = 99.77%

(b) De acuerdo a la tabla de ANOVA de arriba, los efectos principales del factor A
(distancias) y el factor B (alturas) son mucho muy significantes.

7-46
Dr. Hctor Quevedo Uras

(c) Existe una interaccin significante entre los factores A (distancia) y B (alturas).
La interaccin en este caso, pudo ocurrir por mera casualidad o tal vez pudo
deberse a algn problema en los datos, es decir, en trminos de causa y efecto.
Fsicamente hablando, algn factor que no se pudo controlar pudo ocasionar la
interaccin entre los dos factores. Por ejemplo, pudo ocurrir algn mal
funcionamiento de los sensores, que no midieron bien las concentraciones de SO2
en un momento dado. Otras razones pudieron relacionarse con algn cambio
meteorolgico inusitado (aunque el modelo de difusin asume condiciones
meteorolgicas constantes), emisiones fugitivas, terreno no uniforme por donde
pasa la pluma, etc. Estadsticamente hablando, las interacciones tambin pueden
ocurrir cuando los efectos principales son muy grandes (como el factor A en este
caso, aunque si bien, esto se puede corregir aminorando las diferencias entre los
niveles de un tratamiento, para hacer los efectos principales menos acentuados).
(d) Las grficas de abajo muestran los resultados para este inciso.

Residuals Versus the Order of the Data Residuals Versus the Fitted Values
(response is Concentracion de SO2 (m))
(response is Concentracion de SO2 (m))
20
20

15 15

10 10
Residual

5
Residual

0 0

-5 -5

-10 -10

-15 -15
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 100 200 300 400 500
Observation Order Fitted Value

Figura 7.10. Graficas mostrando los valores residuales en funcin del nmero de
observacin y de los valores ajustados.

7-47
Dr. Hctor Quevedo Uras

Normal Probability Plot of the Residuals Individual Value Plot of Conc. SO2 (ppm) vs Distancias (m), Alturas (m)
(response is Concentracion de SO2 (m))
99
500

95
90 400

Conc. SO2 (ppm)


80
70
Percent

60 300
50
40
30
20 200

10

5
100

1
-15 -10 -5 0 5 10 15 20 Alturas (m) 100 m 200 m 100 m 200 m 100 m 200 m 100 m 200 m
Residual Distancias (m) 1000 m 1500 m 2000 m 500 m

Figura 7.11. Figuras mostrando la prueba de normalidad y la grfica de las


concentraciones versus alturas y distancias

(e) Los anlisis objetivistas estadsticos indican un coeficiente de determinacin


muy alto, es decir, R2 = 99.82% con s = 7.18, lo que sugiere un buen ajuste de los
datos. Adems, La Figura 7.10 muestra, aproximadamente, el mismo nmero de
casos positivos y negativos, lo cual indica que el modelo es apropiado.
Similarmente, la Figura 7.11 muestra un buen ajuste de los datos con la prueba de
normalidad. Finalmente, la Figura 7.11 con la grfica de las concentraciones versus
las distancias y las alturas muestra las interacciones que ocurren cuando Fcalc. > Ftab.
Ejemplo #12. Este es un ejercicio relacionado con un experimento de anlisis de
varianza de tres sentidos. Este ejemplo est encaminado a ilustrar, cmo se
estructura una matriz con los datos, que se introducen en el programa Minitab, para
construir una tabla de ANOVA de tres clasificaciones o tres sentidos y sus grficas
correspondientes. Asumir un nivel de significancia de + 0.05. Sacar
conclusiones. Los datos se dan en la tabla de abajo.

7-48
Dr. Hctor Quevedo Uras

TABLA 7.29. Tabla mostrando la informacin para este ejercicio.


_____________________________________________________________
Factor B1 Factor B2
_________________________________________________
Factor C1 Factor C2 Factor C1 Factor C2
_________________________________________________

Factor A1 20.0 11.0 13.0 13.0


20.0 12.0 12.0 12.0
17.0 10.0 12.0 13.0
19.0 12.0 13.0 13.0

Factor A2 20.0 16.0 14.0 11.0


20.0 19.0 17.0 10.0
19.0 17.0 12.0 8.0
20.0 18.0 13.0 8.0

Factor A3 17.0 22.0 20.0 14.0


18.0 22.0 22.0 15.0
18.0 22.0 21.0 14.0
18.0 21.0 21.0 16.0
_____________________________________________________________

Solucin:
Aqu, el factor A tiene tres niveles (i = 1,, a = 3); el factor B tiene dos niveles (j
= 1,, b = 2) y el factor C tiene dos niveles (k = 1,, c = 2) o sea 3x2x2 = 12
combinaciones de tratamientos. Adems hay l = 1,, n = 4 observaciones en cada
uno de las abc combinaciones de tratamientos (celdas) o sea abcn = 3x2x2x4 = 48
observaciones.

7-49
Dr. Hctor Quevedo Uras

Procedimiento para construir una tabla de ANOVA de tres factores o en tres


sentidos usando el programa Minitab
1. Primeramente, se definen claramente los tratamientos (en columnas y
renglones), es decir el factor A, y los factores B y C con sus correspondientes
niveles de cada uno de estos factores, como se describi arriba. Adems, hay que
determinar n o sea el nmero de datos en cada celda.
2. Una vez hecho lo anterior, hay que generar la matriz de datos que se introducir
en la hoja del Minitab. Para hacer esto, irse a:
Calc Make Patterned Data Simple Set of Numbers
Haciendo esto aparece una ventana que se llena as:
En la ventanilla de Store Patterned Data in poner A (o sea el factor A)
En la ventanilla From First Value poner 1 (el punto de partida de la secuencia)
En la ventanilla To Last Value poner 3 (a = 3 niveles del factor A)
En la ventanilla In Steps of poner 1
En la ventanilla List Each Value poner 1
En la ventanilla de List the Whole Sequence poner 16 (o sea el producto de bcn
= 2x2x4 = 16)
Enseguida, poner OK y presionar la tecla f3 para borrar todo lo anterior y proseguir
con el siguiente paso.
2. Ahora, irse a:
Calc Make Patterned Data Simple Set of Numbers.
Haciendo esto aparece una ventana y se llena as:
En la ventanilla de Store Patterned Data In poner B (el factor B)
En la ventanilla de From First Value poner 1 (punto de partida)
En la ventanilla To Last Value poner 2 (b = 2 niveles de B)

7-50
Dr. Hctor Quevedo Uras

En la ventanilla In Steps of poner 1


En la ventanilla List Each Value poner 3 (a = 3)
En la ventanilla de List the Whole Sequence poner 8 (o sea el producto de cn =
2x4 = 8)
Poner OK y luego presionar la tecla f3 para borrar todo lo anterior y proseguir con
el siguiente paso.
3. Ahora, irse a:
Calc Make Patterned Data Simple Set of Numbers
Haciendo esto aparece una ventana y se llena as:
En la ventanilla de Store Patterned Data In poner: C (el factor C)
En la ventanilla de From First Value poner: 1 (punto de partida)
En la ventanilla To Last Value poner: 2 (c = 2 niveles de C)
En la ventanilla In Steps of poner: 1
En la ventanilla List Each Value poner: 6 (el producto de ab = 3x2 = 6)
En la ventanilla de List the Whole Sequence poner 4 (n = 4)
Poner OK y presionar la tecla f3 para borrar todo lo anterior y proseguir con el
siguiente paso.
4. Despus de todo lo anterior, una vez que ya estn llenas las columnas C1, C2 y
C3 (Factores A, B y C, respectivamente), se trata de meter los datos de la variable
de respuesta, Y (Columna C4). Esto se puede hacer manualmente poniendo cada
valor de Y, (usando los datos de la TABLA 7.29) en su correspondiente posicin
de A, B y C, como se muestra en la tabla de abajo.

7-51
Dr. Hctor Quevedo Uras

La TABLA 7.30. Tabla mostrando los datos.


____________________________
A B C Y
____________________________
1 1 1 20.0
2 1 1 20.0
3 1 1 17.0
1 2 1 13.0
2 2 1 14.0
3 2 1 20.0
1 1 2 11.0
2 1 2 16.0
3 1 2 22.0
1 2 2 13.0
2 2 2 11.0
3 2 2 14.0
1 1 1 20.0
2 1 1 20.0
3 1 1 18.0
1 2 1 12.0
2 2 1 17.0
3 2 1 22.0
1 1 2 12.0
2 1 2 19.0
3 1 2 22.0
1 2 2 12.0
2 2 2 10.0
3 2 2 15.0
1 1 1 17.0
2 1 1 19.0
3 1 1 18.0
1 2 1 12.0
2 2 1 12.0
3 2 1 21.0
1 1 2 10.0
2 1 2 17.0
3 1 2 22.0
1 2 2 13.0
2 2 2 8.0
3 2 2 14.0
1 1 1 19.0
2 1 1 20.0
3 1 1 18.0
1 2 1 13.0
2 2 1 13.0
3 2 1 21.0
1 1 2 12.0
2 1 2 18.0
3 1 2 21.0
1 2 2 13.0
2 2 2 8.0
3 2 2 16.0
_____________________________

5. Una vez introducidos los datos de Y mostrados en la TABLA 7.18, irse a:

7-52
Dr. Hctor Quevedo Uras

Stat ANOVA General Linear Model


Esta orden genera la ventana General Linear Model.
En la ventanilla de Responses poner: Y
En la ventanilla de Model poner: ABC A*B A*C B*C A*B*C
En la ventana de General Linear Model Comparisons puntear: Pairwise
Comparisons o Tukey, etc.
En la ventana de General Linear Model Results puntear: In addition
Coefficients for all Terms, etc.
En la ventana de General Linear Model-Factor entrar en la ventanilla de Main
Plot Effects y poner: A B C
En la ventanilla de Interaction Plots poner: A B C, etc.
Todos estos movimientos generaran la Tabla 7.31 de ANOVA y las grficas.
TABLA 7.31. Tabla mostrando los resultados de ANOVA de tres sentidos.
General Linear Model: Y versus A, B, C
Factor Type Levels Values
A fixed 3 1, 2, 3
B fixed 2 1, 2
C fixed 2 1, 2

Analysis of Variance for Y (Respuesta), using Adjusted SS for Tests.

Source DF Seq SS Adj SS Adj MS F P Fcrtica


_____________________________________________________________________________
A 2 210.875 210.875 105.438 87.76 0.000 3.23
B 1 172.521 172.521 172.521 143.60 0.000 4.08
C 1 93.521 93.521 93.521 77.84 0.000 4.08
A*B 2 62.542 62.542 31.271 26.03 0.000 3.23
A*C 2 16.792 16.792 8.396 6.99 0.003 3.23
B*C 1 7.521 7.521 7.521 6.26 0.017 4.08
A*B*C 2 167.792 167.792 83.896 69.83 0.000 3.23
Error 36 43.250 43.250 1.201
Total 47 774.813
_____________________________________________________________________________

7-53
Dr. Hctor Quevedo Uras

s = 1.09608 R-Sq = 94.42% R-Sq(adj) = 92.71%

Term Coef SE Coef T P


Constant 15.9375 0.1582 100.74 0.000
A
1 -2.0625 0.2237 -9.22 0.000
2 -0.8125 0.2237 -3.63 0.001
B
1 1.8958 0.1582 11.98 0.000
C
1 1.3958 0.1582 8.82 0.000
A*B
11 -0.6458 0.2237 -2.89 0.007
21 1.6042 0.2237 7.17 0.000
A*C
11 0.4792 0.2237 2.14 0.039
21 0.3542 0.2237 1.58 0.122
B*C
11 -0.3958 0.1582 -2.50 0.017
A*B*C
111 2.3958 0.2237 10.71 0.000
211 -0.2292 0.2237 -1.02 0.313

Graficas de los efectos principales A, B y C


A B
19.5

18.0

16.5
Mean of Y (respuesta)

15.0

1 2 3 1 2
C
19.5

18.0

16.5

15.0

1 2

Figura 7.12. Grfica mostrando los efectos principales de A, B y C.

7-54
Dr. Hctor Quevedo Uras

Grafica de las interacciones de los factores A,B,C


1 2
20
A
1
2
16
A 3

12
20
B
1
2
16
B

12
20
C
1
2
16
C

12

1 2 3 1 2

Figura 7.13. Grficas mostrando los efectos de interaccin entre los factores A, B y
C. Se le pide al lector interpretar estas interacciones.

7-55
Dr. Hctor Quevedo Uras

Residual Plots for Y


Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99

Standardized Residual
90 2
Percent

50
0

10
-2
1
-3.0 -1.5 0.0 1.5 3.0 10 15 20
Standardized Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


16
Standardized Residual

12 2
Frequency

8
0

4
-2
0
-2 -1 0 1 2 3 1 5 10 15 20 25 30 35 40 45
Standardized Residual Observation Order

Figura 7.14. Grficas mostrando la prueba de normalidad, los residuales


estandaraizados, en funcin de los valores ajustados, histograma de los residuales y
los residuales en funcion de los rdenes observados. Aqu es de notarse que, de
acuerdo a estos grficos subjetivos, el modelo ajusta bien los datos.

7-56
Dr. Hctor Quevedo Uras

Ejercicios Captulo 7
7.1. Los siguientes datos se obtuvieron de un muestreo atmosfrico de xidos de
azufre (SO2) proveniente de 4 lugares diferentes. Hacer un anlisis de varianza con
un nivel de significancia de = 0.05. Ver si hay diferencias entre los 4 sitios. Usar
la prueba de comparaciones mltiples para ver cuales son iguales y cuales son
desiguales si es que as es.
Tabla mostrando los datos del SO2. (Elaboracin propia)
__________________________________________________________________

Sitio #1 Sitio #2 Sitio #3 Sitio # 4


__________________________________________________________________
20 25 28 31
17 25 31 15
18 26 34 12
10 14 17 24

Tabla mostrando los resultados usando un paquete de computadora como EXCEL.


Llenar los faltantes de la tabla. (Elaboracin propia)
__________________________________________________________________
Fuente de SS g. l. Cuadrado del Fcalc. Ftab. Valor de p
variacin promedio
Debido al 261.69 3 1.93
tratamiento
Residual 543.75 45.31
(Error experimental)
Total 15

7.2. Un investigador desea estudiar el efecto de cuatro fertilizantes diferentes para


ver sus efectos en la produccin de maz. Para esto, se dividi una zona agrcola en
24 parcelas del mismo tamao y forma. Usar un nivel de significancia de 0.05.

7-57
Dr. Hctor Quevedo Uras

Probar que no hay diferencia entre los cuatro tratamientos. Usar el programa
Minitab.
Tabla mostrando la produccin de maz bajo cuatro diferentes tratamientos de
fertilizantes. (Elaboracin propia)
__________________________________________________________________
Tratamientos Rendimientos
Sin aplicacin de fertilizante (1) 99 40 61 72 76 84
Con aplicacin de fertilizante (2) 96 84 82 104 99 105
Con aplicacin de fertilizante (3) 63 57 81 59 64 72
Con aplicacin de fertilizante (4) 79 92 91 87 78 71

Las suposiciones son que las 4 poblaciones del rendimiento de maz estn
normalmente distribuidas, con las varianzas de las poblaciones iguales y con las
observaciones independientes.
7.3. Para comparar la efectividad de 3 muestreadores de gases, es decir, usando
mtodos A, B y C se seleccionaron muestras de tamao cuatro y se registraron los
siguientes resultados en ppm.
Tabla mostrando la informacin requerida. (Elaboracin propia)

Mtodo A Mtodo B Mtodo C


__________________________________________________________________
71 90 72
75 80 77
65 86 76
69 84 79

Probar la hiptesis de que no hay diferencias entre los tres promedios


poblacionales con = 0.05. Usar los programas de EXCEL, NCSS o SAS y
completar los faltantes de la tabla.

7-58
Dr. Hctor Quevedo Uras

Tabla de anlisis de varianza. (Elaboracin propia)


Fuente de g.l. Suma de los Cuadrado del Fcalc. Ftab. Valor p
variacin cuadrados (SS) promedio
Debido al tratamiento 2 228.0 15.78
(variacin entre
los grupos)
Residual (error) 130.0 14.4
(variacin dentro de
los grupos)
Total 11 586.0

0 Ftab. = 4.3 Fcalc. = 15.78

Grfica mostrando las reas de aceptacin y rechazo para el problema de arriba.


(Elaboracin propia)
7.4. Supngase que cuatro laboratorios ambientales estn analizando una muestra
de un filtro con partculas de plomo atmosfrico provenientes de un complejo
industrial. Para esto, se quiere saber la efectividad entre los mtodos de anlisis
usados por estos cuatro laboratorios diferentes. Hacer los siguientes clculos:

7-59
Dr. Hctor Quevedo Uras

(a) Probar la hiptesis nula Ho:1 = 2 = 3 = 4 es decir que no hay diferencias en


los promedios poblacionales de los resultados de los anlisis de los 4 mtodos
diferentes usados por los laboratorios. Establecer la hiptesis alternativa de este
problema.
(b) Calcular el valor de la probabilidad p.
La tabla de abajo muestra los valores obtenidos por los 4 laboratorios por los tres
mtodos usados por estos cuatro laboratorios. Este es un ejemplo de anlisis de
varianza con dos factores.
Tabla mostrando las estimaciones de los clculos de los 12 resultados por los 3
mtodos diferentes usados por los cuatro laboratorios distintos. (Elaboracin
propia)

Mtodo de anlisis Suma de los renglones


Laboratorio 1 2 3 Ti

1 16 19 24 59
2 21 20 21 62
3 18 21 22 61
4 13 20 25 58
Suma de las 68 80 92 240
columnas (Tj)

Sacar las conclusiones debidas de la hiptesis para los tres mtodos de anlisis y
decir si se rechaza o se retiene la hiptesis.
7.5. La tabla de abajo muestra una informacin que se recab de un muestreo de un
contaminante atmosfrico (ozono) proveniente de 5 muestreadores localizados en
cinco lugares diferentes. Hacer los siguientes clculos.

7-60
Dr. Hctor Quevedo Uras

(a) Probar la hiptesis nula de que no hay diferencias entre las 5 poblaciones
muestreadas, Ho: 1 = 2 = 3 = 4 = 5, con un nivel significante de = 0.05.
(b) Hacer una tabla de ANOVA.
(c) Calcular el valor de la probabilidad p.
Tabla con los datos de ozono con los nmeros de los muestreadores. (Elaboracin
propia)

1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679

7.6 Supngase que 15 personas han sido seleccionados aleatoriamente de una


poblacin de obesos y han sido separados al azar dentro tres grupos. Cada grupo de
obesos fue alimentado con tres tipos de comidas diferentes para perder peso, es
decir, alimentos (1), (2) y (3). Despus de algn tiempo, los pesos que perdieron
los participantes de los tres grupos se registraron. Los pesos se dan en la tabla de
abajo:
Tabla mostrando los pesos perdidos (gramos) de los participantes. (Elaboracin
propia)
Tipos de comidas
__________________________________________________________________
Tipo (1) Tipo (2) Tipo (3)
42 112 70
96 96 17
81 88 49
95 135 24
76 119 40

7-61
Dr. Hctor Quevedo Uras

Estos datos estn en conformidad con un factor de un diseo completamente


aleatorio. Un factor es el alimento dado a los obesos. Esto es un diseo
completamente aleatorio, porque las unidades experimentales, de los 15 sujetos,
han sido asignadas aleatoriamente a los tres tipos de comidas. Probar la hiptesis
nula de Ho: 1 = 2 = 3 y la hiptesis alternativa de que, cuando menos uno de los
promedios es diferente de los otros. H1:1 2 3. Si la hiptesis nula es cierta,
entonces las tres poblaciones de los pesos perdidos por los obesos son iguales.
Sugerencia: para estimar el promedio del cuadrado dentro de los tratamientos o del
error experimental usar las relaciones:
k n
s P = (Xij - X i)2 / k(n - 1)
2
i=1 j=1

Hacer la tabla del anlisis de varianza para los obesos y sacar conclusiones al
respecto. Adems, revertir este problema a un diseo de bloques aleatorios y ver si
hay alguna mejora en el error experimental.
7.7. Los datos de abajo representan el nmero de horas de alivio paliativo dado por
5 tabletas diferentes A, B, C, D, E, para el dolor de cabeza, que se les
administraron a 25 sujetos quienes experimentaban dolores de cabeza (migraas).
Hacer un anlisis de varianza para probar la hiptesis al nivel de significancia de
0.05 de que el nmero promedio de horas de alivio paliativo dado por las tabletas
es el mismo para las cinco tabletas usadas. Calcular el valor de la probabilidad p.
Los datos se dan en la tabla de abajo. Calcular la tabla de anlisis de varianza.

7-62
Dr. Hctor Quevedo Uras

Tabla mostrando las horas de alivio con las 5 tabletas de aspirinas. (Elaboracin
propia)
Tipos de tabletas

A B C D E

5 9 3 2 7
4 7 5 3 6
8 8 2 4 9
6 6 3 1 4
3 9 7 4 7

7.8. En un estudio de contaminacin de corrientes, con el objeto de revisar que no


hubiera descargas industriales, previo a un proyecto de dilucin, se analiz la
demanda bioqumica de oxgenos de 5 das (DBO)5 en mg/L y se obtuvieron los
siguientes datos (mostrados en la tabla de abajo) del muestreo que se hizo a lo
largo de la corriente, es decir, en 4 lugares diferentes. Hacer un anlisis de varianza
usando un nivel de significancia de 0.05. Ver si hay diferencias entre las
concentraciones de DBO de los cuatro lugares muestreados (De acuerdo a
estudios de contaminacin de corrientes, con qu objeto se tendra que hacer esto?)
Adems, usar la prueba de comparaciones mltiples para ver cuales sitios de
muestreo son iguales y cuales son desiguales, si es que esto es as. Sugerencia:
Usar el paquete de EXCEL o el programa MINITAB para resolver este problema.

7-63
Dr. Hctor Quevedo Uras

Tabla mostrando los resultados del muestreo del DBO en mg/L. (Elaboracin
propia).

Sitio #1 Sitio #2 Sitio #3 Sitio #4

20 25 28 31
17 25 31 15
18 26 34 12
10 14 17 24

7.9. Se dan los siguientes datos mostrados en la tabla de abajo.


Hacer una tabla de ANOVA y sacar todas las conclusiones debidas.(Fcalc. = 4.39,
Ftab. = 3.89)
Tabla mostrando las temperaturas del cuerpo (oF) clasificadas por edades.
(Elaboracin propia)
18 a 20 aos 21 a 29 aos Mayores que 30 aos
__________________________________________________________________
98.0 99.6 98.6
98.4 99.5 98.6
97.7 99.0 98.0
98.5 98.8 97.7
97.1 97.9 97.5

7.10. Se hace un estudio entre el nivel de acidez en trminos de pH (Factor A) y la


concentracin de cloro (factor B) en el agua. Aqu se asume un anlisis de varianza
de dos vas con un diseo aleatorio completamente aleatorizado. Los datos se dan

7-64
Dr. Hctor Quevedo Uras

en la tabla de abajo. Hacer una tabla de anlisis de varianza y sacar las


conclusiones debidas.
Tabla mostrando los datos de este problema del pH y la concentracin de cloro.
__________________________________________________________________
Nivel del pH
_________________________________________
pH = 7.0 pH = 7.2 pH = 7.4 pH = 7.6
Nive de concentracin de cloro
____________________________________________________________________
Baja 22 17 8 6
Mediana 9 11 7 4
Alta 8 8 6 5

7.11. En un estudio de ingeniera del aire, en un esfuerzo por proteger el medio


ambiente (entre menos combustible consuma un auto, menos se deteriora el
ambiente), se estudiaron cuatro modelos de autos (A, B, C, D), para probar el
consumo de gasolina. Para cada auto, exactamente, un galn de gasolina se puso en
el tanque y el auto se manej hasta que se consumi toda la gasolina. Las
distancias en millas dadas por cada coche se dan en la tabla de abajo. Con un nivel
de significancia de 0.01 probar que todos los promedios poblacionales son iguales.
Calcular el valor de la probabilidad p. Si Usted quisiera proteger nuestros recursos
naturales o ser activista el medio ambiente Sera, para Usted igual que se
seleccionara cualquiera de los 4 modelos? (Fcalc. = 23.5, Fcrtica = 2.87, p = 1.3x10-8)

7-65
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema. (Elaboracin propia)


Modelos A B C D

Millas 14 3 17 16
16 5 20 18
18 12 22 20
14 8 24 17
22 7 26 21
9 6 18 16
6 9 22 17
4 11 21 22
7 11 20 19
16 9 18 16

7.12. Se estudia el deterioro causado a 4 tipos de telas (1, 2, 3, 4) usadas en el


equipo de control de filtros. Los filtros o baghouses, para el control de partculas se
tienen que sacudir peridicamente, cuando hay cada de presin debido a la
obstruccin de los orificios de las telas. Si no se hace esto, cuando hay mucha
cada de presin, la tela se deteriora prematuramente, esto es, dependiendo del tipo
de partculas y dems variables manejadas.
Tabla mostrando los datos de este problema. (Elaboracin propia).

Tipo de tela Cada de presin (libras por pulgada cuadrada)


(1) 3129 3000 2865 2890
(2) 3200 3300 2975 3150
(3) 2800 2900 2985 3050
(4) 2600 2700 2600 2765

Hacer los siguientes clculos:


(a) Probar la hiptesis nula de Ho:1 = 2 = 3 = 4, contra la hiptesis alternativa
de H1:1 2 3 4, es decir, de que no hay diferencias entre los promedios
poblacionales de las 4 telas usadas. Usar un nivel significante de = 0.5

7-66
Dr. Hctor Quevedo Uras

(b) Hacer una tabla de anlisis de varianza que incluya los valores de la F
calculada, la F tabulada y el valor de p.
7.13. El libro de Montgomery et al. Probabilidad y Estadstica Aplicadas a la
Ingeniera discute una investigacin para determinar el consumo de gasolina (en
millas por litro) de 4 coches. Para esto, se agrupan los 4 tipos de autos tratando de
homogenizar o de control las variables que pudieran afectar el consumo de
gasolina (bloqueo para eliminar las variables no deseables). Las variables
controladas son caballajes del motor, mismo rodaje de llantas, mismo tipo de
carburador, mismo tipo de aceite, mismo tipo de mantenimiento, mismo peso,
mismas temperaturas ambientales, mismo millaje, edad del motor, tamao del
motor, etc. Probar la hiptesis de que no hay diferencias en el millaje de los coches
probados usando = 0.01. Calcular el valor de p. (Montgomery, 1996).
Tabla de datos de los millajes por litro de los 4 coches probados.
Millaje Totales por Promedios por
Coche no. tratamiento tratamiento
1 2 3 4 5 Yi. Yi.

(1) 1.3 1.6 0.5 1.2 1.1 5.7 1.14

(2) 2.2 2.4 0.4 2.0 1.8 8.8 1.76

(3) 1.8 1.7 0.6 1.5 1.3 6.9 1.38

(4) 3.9 4.4 2.0 4.1 3.4 17.8 3.56


_________________________________________________________________
(Fuente: Montgomery et al. 1996)
7.14. El libro de Montgomery et al. Probabilidad y Estadstica Aplicadas a la
Ingeniera (1996) de la pgina 672, cita un artculo publicado en el American

7-67
Dr. Hctor Quevedo Uras

Industrial higiene Association Journal (vol. 37, 1976, pags. 418-422), la cual
describe una prueba de campo para detectar la presencia de arsnico en muestras
de orina. La prueba ha sido propuesta para su uso entre trabajadores forestales
debido al uso cada vez mayor de arsnicos orgnicos en dicha industria. El
experimento compara los resultados obtenidos con la prueba al ser efectuada por
un inexperto y un entrenador experimentado con el anlisis efectuado en un
laboratorio remoto. Para la prueba se escogen cuatro sujetos, los cuales son
considerados como bloques. La variable de respuesta es el contenido de arsnico
(en ppm) en la orina del sujeto. Los datos son los siguientes:
Tabla mostrando los datos del problema.

Sujeto
___________________________________________________
Prueba 1 2 3 4
__________________________________________________________________
Inexperto 0.05 0.05 0.04 0.15
Experto 0.05 0.05 0.04 0.17
Laboratorio 0.04 0.04 0.03 0.10
__________________________________________________________________
Fuente: Montgomery et al. Probabilidad y Estadstica Aplicadas a la Ingeniera
(1996)

(a) Existe diferencia alguna en el procedimiento de prueba de arsnico?


(b) Analizar los residuos de este experimento
7.15. Cuatro niveles de fertilizantes fueron usados en un experimento agrcola con
dos niveles de agua, es decir frugal y abundante. Los ocho tratamientos fueron
asignados aleatoriamente a ocho parcelas. La respuesta es en toneladas por
hectrea. La tabla de abajo da la informacin requerida.

7-68
Dr. Hctor Quevedo Uras

Tabla mostrando los datos de este problema.

Nivel de fertilizante
_______________________________________
Nivel de agua Nada Bajo Mediano Alto
__________________________________________________________________
Poca agua 3.0 3.3 3.7 3.1
Mucha agua 2.3 4.0 4.3 5.0
__________________________________________________________________

(a) Usar el modelo ms apropiado de ANOVA.


(b) Hacer una tabla de anlisis de varianza
(c) Decir si hay efectos significativos en los fertilizantes y los niveles de agua
(d) Decir si hay una interaccin significante
7.16. Se hace un estudio hipottico de difusin atmosfrica situando los sensores
para medir la calidad del aire con respecto a SO2 a tres diferentes distancias y a tres
diferentes alturas. Los datos se dan abajo. Asumiendo = 0.05 hacer lo siguiente:
(a) Usar el modelo de ANOVA ms apropiado para este problema
(b) Analizar la grfica de los datos para estudiar la interaccin posible que pudiera
ocurrir entre las distancias y las alturas.
Tabla mostrando las concentraciones (ppm) de SO2 para este problema.
_________________________________________________________________
Distancias en metros
__________________________________________
Alturas 1000 1500 2000
_________________________________________________________________
A nivel del mar 350 250 100
300 metros 280 210 90
500 metros 250 190 70
________________________________________________________________

7-69
Dr. Hctor Quevedo Uras

7.17. En un estudio de anlisis de varianza de tres vas se dan los siguientes datos:
SSa = 22.63, SSb = .003, SSc = .40, SSab = .40, SSac = .07, SSbc = .0.063, SSe =
.001 y SSt = .90. Para el factor A se usaron cuatro niveles, para el factor B se
usaron dos niveles y para el factor C se usaron 2 niveles. Asumir dos muestras con
cada nivel. Usando = 0.05, hacer lo siguiente:
(a) Construir una tabla de ANOVA
(b) Identificar las interacciones significativas e interpretarlas acordemente
7.18. Este es un estudio del texto de Applied Statistics: Anlisis of Variance and
Regression de Dunn y Clark. Esta investigacin est relacionada con un estudio de
la inteligencia de los nios con sntomas cardiacos de tipos acianticos y
cianticos. Para esto, los cambios en el coeficiente de inteligencia se midieron, es
decir, despus de operarse y antes de operarse. Los resultados se dan como sigue:
Tabla mostrando los resultados de los cambios en el coeficiente de inteligencia.
_________________________________________________________________
Operacin Acianticos Cianticos
_________________________________________________________________
No 9 2
-1 1
-10 -4
3 -5
-2 0

Si -7 5
-7 10
-12 9
-13 2
-12 15
__________________________________________________________________(
a) Usar el modelo de ANOVA ms apropiado para este estudio

7-70
Dr. Hctor Quevedo Uras

(b) Construir una tabla de ANOVA y analizar los resultados


(c) Sacar todas las conclusiones al respecto
7.19. En un experimento agrcola se estudi el rendimiento de trigo usando tres
niveles diferentes de fertilizantes fosfatados, es decir, bajo, mediano y alto. Como
segundo factor se usaron tres variedades diferentes de semillas de trigo (1, 2, 3)
haciendo, con esto, un total de 9 combinaciones de tratamientos. De esta manera
cada combinacin de tratamiento se asign aleatoriamente a una de las 27 parcelas
(de extensiones de dos hectreas), de tal manera que tres parcelas recibieron cada
tratamiento. Los rendimientos de trigo, en toneladas mtricas se dan abajo.
Tabla mostrando el rendimiento de la cosecha de trigo en toneladas mtricas.
________________________________________________________________
Nivel del fertilizante
___________________________________________
Variedad de la semilla Bajo Mediano Alto
________________________________________________________________
1 7 10 12
10 10 14
9 12 12

2 8 12 17
10 14 16
8 13 17

3 9 14 16
10 14 18
12 16 21
__________________________________________________________________
Aplicar la funcin de ANOVA ms apropiada para este experimento y sacar las
conclusiones debidas.

7-71
Dr. Hctor Quevedo Uras

7.20. Este estudio est encaminado para que el lector adquiera destreza en el
cumplimiento del llenado de tablas de anlisis de varianza. Para esto completar la
siguiente tabla de ANOVA y decir que diseo se us.
Tabla mostrando los datos del problema.
__________________________________________________________________
Fuente de SS g.l. MS Fcalc. Ftab. Valor p
Variacin
__________________________________________________________________
Debido a los 2000 10
tratamientos
Debido a las 1200
columnas
Debido a los 7400 5
renglones
Residual 25
_________________________________________________________________
Total 12000 40

7.21. Completar la siguiente tabla de ANOVA y decir qu diseo se us.


_________________________________________________________________
Fuente de SS g.l. MS Fcalc. Ftab. Valor p
Variacin
_________________________________________________________________
Debido a A 12.0 2
Debido a B 19.5
Interaccin AB 8.5 7
Tratamientos 39.7 12
Residual 11
Total 84.7 35
____________________________________________________________
7.22. Se realiza un diseo de dos factores en un diseo completamente
aleatorizado, en el cual se aplican cuatro niveles del factor A y tres niveles del
factor B. Los datos dados son SSa = 15.00, SSb = 41.00, SSab = 23.05, SSt = 92.8 y

7-72
Dr. Hctor Quevedo Uras

n = 2. Con esta informacin hacer una tabla de anlisis de varianza y sacar las
conclusiones debidas.
7.23. Se hace un estudio hipottico relacionado con la medicin de concentraciones
de partculas atmosfricas emitidas por una fuente industrial, esto es, usando un
modelo de difusin atmosfrica. Para tales fines se seleccionaron dos tipos
diferentes de muestreadores, cuatro diferentes alturas y cuatro diferentes distancias
viento abajo de la fuente emisora. Por ejemplo, llamemos las cuatro distancias el
factor A (es decir I = 4 distancias de 500, 1000, 1500 y 2000 metros). Las
concentraciones se midieron con dos tipos marcas diferentes de sensores, cuyo
factor lo llamaremos B (es decir, J = 2). Adems, se seleccionaron cuatro alturas
diferentes cuyo factor lo denominaremos C (K = 4 alturas de 100, 200, 300 y 500
metros). Para todo esto, se hicieron L= 3 observaciones para cada una de las 32
combinaciones de niveles de los tres factores (4 x 2 x 4) y para un total de 96
observaciones. La tabla de abajo muestra los resultados de las mediciones. Asumir
= 0.05. Para esto, hacer los siguientes clculos:
(a) Establecer el modelo apropiado con las suposiciones
(b) Hacer pruebas de significancia sobre los factores principales, v.g., distancia,
marcas de sensores y posicin de los sensores
(c) Hacer pruebas de significancia sobre todas las interacciones

7-73
Dr. Hctor Quevedo Uras

Tabla mostrando las concentraciones de partculas atmosfricas (en ppm) emitidas


por la chimenea industrial, en funcin de la distancia, altura y marcas de sensores.
(Elaboracin propia)
_________________________________________________________________
Muestreador marca B1 Muestreador marca B2

Alturas 100 m 200 m 300 m 500 m 100 m 200 m 300m 500 m


__________________________ __________________________
Distancias
500 m 450 300 295 290 465 301 297 288
459 307 290 279 470 310 291 280
460 310 285 260 470 300 285 270

1000 m 350 280 278 200 345 275 255 250


346 256 270 186 334 265 250 210
339 256 268 159 300 259 257 210

1500 m 300 270 262 198 310 250 230 200


289 263 256 160 300 243 225 195
299 260 265 179 305 260 245 180

2000 m 160 167 150 141 155 145 138 139


160 145 140 134 150 137 134 129
148 139 152 124 147 152 130 125
__________________________________________________________________________________

7.24. El texto Applied Linear Statistical Models de los autores Kutner, Nachtsheim,
Meter y Li explica un problema relacionado con un fabricante de automviles,
quien desea estudiar los efectos entre diferentes conductores de autos (factor A, i =

7-74
Dr. Hctor Quevedo Uras

4) y las diferencias entre autos (factor B, j = 5) relacionado con el consumo de


gasolina. Para esto, se seleccionaron cuatro conductores aleatoriamente. De la
misma manera se seleccionaron aleatoriamente cinco autos del mismo modelo con
transmisin manual. Cada conductor manej cada auto dos veces en una prueba de
40 millas y las millas por galn dadas se registraron. Asumiendo un modelo de
ANOVA aleatorio y tamaos de muestras iguales, procesar los datos de la tabla de
abajo.
Tabla mostrando la descripcin de los dos factores usados en el estudio.
_________________________________________________________________
Factor B (autos)
______________________________________________
Factor A (choferes) j=1 j=2 j=3 j=4 j=5
________________________________________________________________
i=1 25.3 28.9 24.8 28.4 27.1
25.2 30.0 25.1 27.9 26.6

i=2 33.6 36.7 31.7 35.6 33.7


32.9 36.5 31.9 35.0 33.9

i=3 27.7 30.7 26.9 29.7 29.2


28.5 30.4 26.3 30.2 28.9

i=4 29.2 32.4 27.7 31.8 30.3


29.3 32.4 28.9 30.7 29.9
_________________________________________________________________
Fuente: Kutner et al. 2002

(a) Construir una tabla de ANOVA


(b) Revisar los efectos de los factores A y B.
(c) Analizar la interaccin de los factores A y B

7-75
Dr. Hctor Quevedo Uras

7.25. Este es un problema adaptado del libro Probabilidad y Estadstica para


Ingenieros de los autores Walpole et al. (1998) el cual da un ejemplo que incluye
tres factores denominados factor A, factor B y factor C, con todos los efectos fijos.
Asumir = 0.05. La tabla de abajo muestra la informacin requerida para este
problema.
Tabla mostrando los datos pertinentes para este problema.
________________________________________________________________
C1 C2 C3
______________
B1 B2 B3 B1 B2 B3 B1 B2 B3
________________________________________________________________
A1 15.0 14.8 15.9 16.8 14.2 13.2 15.8 15.5 19.2
18.5 13.6 14.8 15.4 12.9 11.6 14.3 13.7 13.5
22.1 12.2 13.6 14.3 13.0 10.1 13.0 12.6 11.1

A2 11.3 17.2 16.1 18.9 15.4 12.4 12.7 17.3 7.8


14.6 15.5 14.7 17.3 17.0 13.6 14.2 15.8 11.5
18.2 14.2 13.4 16.1 18.6 15.2 15.9 14.6 12.2
__________________________________________________________________
Fuente: Walpole et al. (1998)
(a) Generar la matriz de datos, introducirlos al programa Minitab y construir una
tabla de anlisis de varianza y hacer pruebas de significancia sobre los efectos
principales (Factores A, B y C)
(b) Hacer pruebas de significancia sobre todas las interacciones
(c) Explicar porque una interaccin significativa encubre el efecto del factor C
Respuestas:
(a) A: F = 0.54; no significativa. B: F = 6.85; significativa. C: F = 2.15; no
significativa.

7-76
Dr. Hctor Quevedo Uras

(b) AB: F = 3.83; significativa. AC: F = 3.79; significativa. BC: F 1.31; no


significativa. ABC: F = 1.63; no significante.
7.26. En los accidentes industriales, cada ao se pierden muchos miles de millones
de dlares debido a accidentes de trabajo. Por lo tanto, la industria invierte mucho
dinero en programas relacionados con higiene industrial y seguridad. Una
compaa desarroll dos nuevos programas de higiene industrial y seguridad, para
entrenar a sus trabajadores en sistemas de seguridad. Para determinar la eficiencia
de estos programas, se ensamblaron tres grupos de obreros. Cada grupo de obreros
tom un programa de entrenamiento diferente. Despus, los trabajadores fueron
asignados a tareas idnticas. El nmero horas-hombre mensuales perdidas, como
resultado de accidentes laborales, se registr para los siguientes 12 meses. Esta
data se muestra en la tabla de abajo.

Tabla mostrando las Horas-hombre perdidas mensualmente. (Elaboracin propia)


Programas de entrenamiento de higiene industrial y seguridad
_________________________________________________
Meses 1 2 3
Enero 28 28 30
Febrero 35 26 28
Marzo 32 27 26
Abril 12 10 6
Mayo 16 10 12
Junio 9 12 10
Julio 15 9 11
Agosto 18 15 16
Septiembre 22 13 11
Octubre 27 20 18
Noviembre 27 17 19
Diciembre 31 23 21

Sacar conclusiones acerca de la efectividad de estos tres programas

7-77
Dr. Hctor Quevedo Uras

7.27. Este es un problema que involucra un experimento de ANOVA de dos


sentidos, en el cual se usaron seis niveles para el factor A y cinco niveles para el
factor B. Para esto se da una avanzada de los datos: SSa = 79, SSb = 66 y SSt = 184.
Construir una tabla de ANOVA y sacar todas las conclusiones pertinentes.
7.28. Se da la tabla de ANOVA de abajo llenar todos los faltantes y decir si hay
interacciones y, si stas son importantes. A qu niveles estn cada uno de los
factores?
Tabla de anlisis de varianza incompleta. Llenar los faltantes. (Elaboracin propia)
_________________________________________________________________
Fuente de Suma de los Grados de Promedio de los Fcalc. Ftab. Valor de p
variacin cuadrados libertad cuadrados
____________________________________________________________________________
Factor A 46.0 1
Factor B 11.0 5.5
Factor C 3.0
AB 8.0 1
AC 0.1 1
BC 1.6 1
ABC 5.0 0.83
Residual 6
Total 94.0 15
_____________________________________________________________________________

7.29. Este es un problema adaptado del texto Statistics for Environmental


Engineers de Berthoux y Brown (1994). Este ejercicio es un anlisis de varianza de
4 clasificaciones, y est relacionado con la operacin de un incinerador municipal,
en el cual se utilizaron dos tipos diferentes de muestreadores que tomaron muestras
simultneas durante cuatro periodos de 3.5 horas sobre un periodo de tres das.
Cada muestreador fue analizado para cinco grupos de sustancias txicas peligrosas,
es decir, pesticidas (hidrocarburos hetercclicos los cuales ocurren como impurezas
txicas persistentes en herbicidas) y de lquidos inflamables (C4H4O) usados en

7-78
Dr. Hctor Quevedo Uras

sntesis orgnicas. Las especies de cada grupo fueron clorinadas a grados


diferentes, es decir, con 4, 5, 6, 7 y 8 tomos de cloro por molcula. Asumir =
0.05. En este anlisis de varianza se usaron cuatro factores, como sigue:
1. Dos tipos de muestreadores (S)
2. Cuatro periodos de muestreo (P)
3. Dos grupos de sustancias txicas (DF), como las descritas arriba
4. Cinco niveles de clorinacin dentro de cada uno de los dos grupos (Cl).
Esto da un total de n = 2x4x2x5 = 80 mediciones.
La tabla de abajo muestra la informacin requerida.
Tabla mostrando las emisiones de las 10 sustancias txicas, enumeradas abajo, en
unidades de ng/m3 de gas seco normal en porcentajes reales de CO2.
__________________________________________________________________
Periodos de muestreo 1 2 3 4
___________ ____________ ___________ ____________
Muestreador A B A B A B A B
_____________________________________________________________________________
Pesticidas
Sum TCDD 0.4 1.9 0.5 1.7 0.3 0.7 1.0 2.0
Sum PeCDD 1.8 28 3.0 7.3 2.7 5.5 7.0 11
Sum HxCDD 2.5 24 2.6 7.3 3.8 5.1 4.7 6.0
Sum HpCDD 17 155 16 62 29 45 30 40
OCDD 7.4 55 7.3 28 14 21 12 17

Lquidos
Inflamables
Sum TCDF 4.9 26 7.8 18 5.8 9 13 13
Sum PeCDF 4.2 31 11 22 7.0 12 17 24
Sum HxCDF 3.5 31 11 28 8.0 14 18 19
Sum HpCDF 9.1 103 32 80 32 41 47 62
OCDF 3.8 19 6.4 18 6.6 7.0 6.7 6.7
______________________________________________________________________________
Fuente: Berthouex, P. Mac y L. C. Brown. Statistics for Environmental Engineers
Lewis Publishers. CRC Press, Inc. (1994).

7-79
Dr. Hctor Quevedo Uras

(a) Generar una matriz con los datos de la tabla de arriba e introducirlos en el
programa Minitab.
(b) Hacer una tabla de anlisis de varianza
(c) Hacer pruebas de significancia sobre los cuatro factores principales, v.g.,
periodos de tiempo, muestreadores, grupos de sustancias txicas y niveles de
clorinacion
(d) Hacer pruebas de significancia sobre todas las interacciones
(e) Sacar todas las conclusiones pertinentes

7.30 Se hace un estudio del control de la contaminacin del aire, es decir, usando
sistemas de control de partculas para hornos de cemento. Para esto se usan
diferentes tipos de precipitadores electrostticos (factor A), es decir, precipitadores
de placa de alambre, precipitadores de placa plana y precipitadores tubulares.
Adems se usaron enfriadores de aspersin y colectores mecnicos (factor B). La
finalidad de este experimento factorial fue para ver la eficiencia de coleccin de las
partculas usando los anteriores factores. Construir una tabla de anlisis de
varianza tomando en consideracin la siguiente informacin: Cuadrado medio del
primer factor fue igual a 2.30; el cuadrado medio del segundo factor medio fue
igual a 5.00; cuadrado medio de la interaccin fue de 0.12; cuadrado medio del
error fue de 0.075. Asumir = 0.05. Completar la tabla de ANOVA de abajo
calculando los siguientes valores.
(a) Los valores de Fcalc. para los efectos principales y para el efecto de interaccin
(b) Los valores de Ftab. para los dos factores principales y para la interaccin
(c) Los valores de p para cada uno de los factores principales y para la interaccin
(d) Decir si los efectos principales afectan la eficiencia de los factores A y B

7-80
Dr. Hctor Quevedo Uras

(e) Decir si hay interaccin entre los factores bajo consideracin y, si la hay,
explicar porque ocurri as.
Tabla de anlisis de varianza para el experimento de los precipitadores
electrostticos.
Fuente de g. l. Suma de Cuadrado Fcalc. Ftab. Valor
variacin cuadrados medio de p
Primer factor 2.30
Segundo factor 5.00
Interaccin 0.12
Error 12 0.075
Total

7-81
Dr. Hctor Quevedo Uras

CAPITULO 8
Regresin lineal simple y mltiple
Suposiciones del modelo de regresin lineal.- Ecuaciones normales para
calcular el intercepto en la ordenada a y la pendiente b de la curva o lnea de
regresin.- Coeficiente de determinacin mltiple R2 de la muestra que estima
a 2 el coeficiente de determinacin poblacional.- Coeficiente de correlacin R
de la muestra que estima a , el coeficiente de correlacin poblacional.-
Intervalo de confianza para el coeficiente poblacional componente de la
lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea.-
Intervalo de confianza para el parmetro poblacional , el intercepto de la
ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a.- Hiptesis
nula de Ho: = o contra las hiptesis alternativas de H1: < 1 y H2: > 1.-
Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: o, H2:
> o, y de H3: < o.- Intervalo de confianza para Y|X de la lnea de regresin
poblacional estimada por Y.- Regresin y correlacin mltiple.- Mtodos para
validar el modelo de regresin lineal simple y mltiple: a travs de estadstica de
inferencias y a travs del anlisis grfico de los residuales estandarizados.
Procedimiento de regresin mltiple usando el programa Minitab.-
El objetivo de estudiar regresin lineal simple es para obtener el modelo de
regresin ms apropiado, es decir, una ecuacin de regresin lineal simple o
mltiple para fines de prediccin y estimacin. Los componentes de esta ecuacin
de regresin lineal, con solo una variable independiente, tambin llamado modelo
lineal de primer orden, son la variable dependiente Y o funcin de respuesta y, la
variable independiente X. El modelo de esta ecuacin, que describe la relacin de
la variable X con la variable Y, se llama la ecuacin de regresin de Y sobre X y, la
grfica de esta funcin, se llama la curva de regresin.
8-1
Dr. Hctor Quevedo Uras

El modelo de regresin lineal poblacional que describe la relacin entre la


respuesta o variable dependiente Y y, la variable independiente o regresora X es:
Y = o + 1x1 + i = 1, 2, ., n (8-1)

Donde:
Y = variable dependiente poblacional (tambin se usa la anotacin y)
o = intercepto en la ordenada
1 = pendiente de la lnea
x1 = variable independiente
= error aleatorio con promedio de 0 y varianza 2 constante. Este valor de es la
diferencia entre el valor terico de Yi y el valor de Y calculado u observado. Las
condiciones de son de que este parmetro debe estar normalmente distribuido; sus
valores deben de ser independientes uno del otro y la varianza de es Var() = 2
n = nmero de (x, y) pares de observaciones
La ecuacin de la lnea de regresin muestral que estima a modelo de regresin
poblacional (8-1) de arriba se da como:
Y = a + bx + e (8-2)
Donde:
Y = valor de la variable dependiente de la muestra
a = intercepto en la ordenada
b = pendiente de la lnea
e = error o residual de la muestra denotado por ei = yi - Yi. Esta estadstica es la
estimadora del parmetro

8-2
Dr. Hctor Quevedo Uras

Suposiciones del modelo de regresin lineal


1. Los valores de Y son independientes uno del otro, es decir, no deben de estar
correlacionados.
2. Las distribuciones condicionales de probabilidad de Y dado X son normales.
3. La varianza del error es 2 y es constante.
4. Los coeficientes o y 1 son desconocidos y deben de estimarse.
Para estimar la ecuacin de regresin lineal simple y mltiple se usa lo que
se llama el mtodo de los cuadrados mnimos que ajusta los datos de la muestra a
la lnea de regresin. Esta es una de las tcnicas ms usadas en investigaciones
cientficas, para encontrar la relacin entre dos o ms variables que estn
casualmente relacionadas.
En esta seccin veremos el problema de regresin lineal de una variable
dependiente (Y) otra independiente (X), con fines de prediccin y estimacin. Sin
embargo, una vez que se obtiene la ecuacin de regresin lineal, sta se tiene que
evaluar o validar para ver qu tanta confiabilidad se le puede poner al modelo para
usos de prediccin. Esto se hace usando enfoques objetivos y subjetivos. Por
ejemplo, el enfoque objetivo se hace haciendo pruebas estadsticas de inferencia.
Este enfoque se complementa usando enfoques subjetivos, es decir, analizando las
grficas de los residuales estandarizados o no estandarizados, a travs de
inspecciones visuales.
Por ejemplo, las condiciones o suposiciones requeridas para validar el
modelo, subjetivamente, se hace a travs de los anlisis de los residuos crudos o
estandarizados (para diferenciarlos de los residuos estandarizados). Los llamados
residuos se definen como las diferencias entre el valor actual de Y y el valor
pronosticado de Y por el modelo de regresin estimado. Los residuos se denotan
por ei, esto es, ei = Yi Yi. En verdad, las grficas de los residuos dan informacin

8-3
Dr. Hctor Quevedo Uras

muy importante, acerca de la naturaleza y fuerza de la relacin entre las variables.


La figura de abajo muestra los residuos que son las diferencias entre los valores de
Y1, Y2, Y3,,Yk y los valores observados de Y1, Y2, Y3,,Yk de la lnea de
regresin de la muestra. Por otra parte, los residuos estandarizados se obtienen
dividindolos por sus respectivas desviaciones estndares.

Figura. 8.0. Grfica mostrando los residuos de un ejemplo. (Elaboracin propia)

Las suposiciones de los valores residuales son:


(a) Los residuales ei estn normalmente distribuidos (i estn normalmente
distribuidos).
(b) Los residuos tienen la misma varianza (i son constantes).
(c) Los residuales ei no estn correlacionados, es decir, son independientes.
Otro mtodo menos popular que el anlisis de los residuos, para evaluar la
ecuacin de regresin es comparando el diagrama esparcido de los puntos, con
respecto a la lnea de regresin, con la grfica de los puntos con respecto al
promedio de y . Esto se debe a qu, sin importar el valor de X, el promedio y
siempre permanece constante (lnea horizontal trazada en el diagrama esparcido de
la grfica). De esta manera, si la dispersin de los puntos con relacin a la lnea de
8-4
Dr. Hctor Quevedo Uras

regresin es mucho menor, que la dispersin de los puntos con respecto a la lnea
horizontal de y , entonces, se puede concluir que la ecuacin de la lnea de
regresin da un buen ajuste para los datos de la muestra (Daniel et al. 1989).
Como se dijo antes, el enfoque objetivista es la otra manera que se usa para
evaluar el modelo de regresin lineal, esto es, a travs de anlisis estadsticos. Para
esto, se pueden usar las siguientes funciones estadsticas:
(a) Coeficiente de determinacin lineal R2 (o r2), el coeficiente de correlacin lineal
R, s y PRESS.
(b) Anlisis de varianza simple (ANOVA), para probar los coeficientes del modelo
de regresin (), para , etc.
(c) Intervalos de confianza para 2, para o, i, y|x, etc.
Tipos de correlacin lineal
1. Correlacin simple que consiste de dos variables, una dependiente (Y) y la otra
independiente (X). Dentro de esta categora tenemos:
(a) Correlacin directa. Esta correlacin consiste en el incremento en una variable la
cual es acompaada por el incremento de otra variable (correlacin positiva).
(b) Correlacin inversa. Esta correlacin consiste en el incremento de una variable la
cual es acompaada por el incremento de otra (correlacin negativa).
(c) Correlacin no lineal. En esta correlacin no hay ninguna asociacin entre las dos
variables.
2. Correlacin mltiple. Aqu, hay ms de dos variables. Una variable es
dependiente (Y), mientras que las otras son independientes X1, X2,, Xk, etc.
Las figuras de abajo representan varios tipos de correlaciones.

8-5
Dr. Hctor Quevedo Uras

Fig. 8.1. Diagramas esparcidos con lneas de cuadrados mnimos. La Figura (a)
representa una lnea recta con X fija; la Figura (b) representa lnea no recta con X fija;
la Figura (c) representa una distribucin adjunta con lnea recta; la Figura (d)
representa una distribucin adjunta con lnea no recta; la Figura (e) representa un
diagrama donde no hay asociacin entre las dos variable y; la Figura (f) representa
una relacin causal. Las otras dos grficas representan correlaciones perfectas.
(Elaboracin propia)

8-6
Dr. Hctor Quevedo Uras

Tipos de curvas ms comunes

Figura 8.2. La figura (a) representa la funcin exponencial; la figura (b) representa la
funcin de potencia, la figura (c) representa una funcin recproca y, la figura (d)
representa una funcin hiperblica. (Elaboracin propia)

8-7
Dr. Hctor Quevedo Uras

Ecuaciones normales para calcular el intercepto en la ordenada a y la pendiente


b de la curva o lnea de regresin
Las variables a y b se obtienen de las ecuaciones normales de abajo, es decir,
resolvindolas simultneamente:
Y = a n + b X (8-3)
XY = a X + b X (8-4)
Al resolverse simultneamente dan el intercepto, a en la ordenada y, la pendiente de
la lnea, b:
Intercepto = a = Y b X (8-5)
Pendiente = b = [n XY (X)(Y)] / [n X 2 (X)2 ] (8-6)
= xy / x2 (8-7)
Donde:
xy y x2 se dan por las ecuaciones (8-8) y (8-9) de abajo.
Nota 1. Las siguientes ecuaciones son muy importantes.
x2 = Sxx = X 2 (X)2 / n (8-8)
xy = Sxy = XY XY / n (8-9)
y2 = Syy = Y 2 (Y)2 / n (8-10)
Nota 2. Es muy importante notar las diferencias entre el uso de las variables
minsculas y las maysculas en las ecuaciones de arriba.
Coeficiente de determinacin R2 de la muestra que estima a 2 el coeficiente de
determinacin poblacional
El clculo del coeficiente de determinacin mltiple R2 es una prueba objetivista
de estadstica. Esta es una funcin estadstica muy importante, para validar el
modelo de regresin lineal. Este coeficiente R2 mide la proporcin de variacin en
la variable dependiente Y explicada por la variable independiente X. Los valores de
R2 varan de 0 a 1. Por ejemplo, un valor cercano a 0 indica que no hay una

8-8
Dr. Hctor Quevedo Uras

relacin lineal entre Y y X, mientras que un valor cercano a uno indica un ajuste
lineal perfecto. Aqu, sin embargo, es necesario aclarar que, un valor alto de R2, no
necesariamente indica un buen ajuste del modelo de regresin, sino hasta que se
hacen todas las pruebas objetivistas y subjetivas. La funcin que calcula R2 es:
R2 = (xy)2 / x2y2 (8-11)
= 1 SSe / SSt (8-12)
Donde xy, x2 y y2 se dan por las ecuaciones (8-8), (8-8) y (8-10) descritas para
la ecuacin (8-11). Adems, para la ecuacin (8-12) SSe es la suma de los
cuadrados del error o residual y SSt es la suma de los cuadrados del total, mismos
que se describen en el formato de la tabla de ANOVA.
Tambin hay el llamado coeficiente R2 de determinacin ajustado. Esta es
una versin ajustada de R2, el cual busca remover la distorsin debida a un tamao
de muestra pequeo. Se define como:
R2ajustada = 1 [(1 R2) (n 1)/(n 2)] (8-13)
Donde R2 ya se defini y n es el tamao de la muestra
Coeficiente de correlacin R de la muestra que estima a , el coeficiente de
correlacin poblacional
El coeficiente de correlacin R, que estima a , tambin se llama coeficiente de
correlacin de Pearson. Este coeficiente es un ndice de la fuerza de la asociacin
lineal entre las variables X e Y. El coeficiente de correlacin R es:

R= xy (8-14)
x y
2 2

Donde: xy, x2 y y2 se dan por las ecuaciones (8-8), (8-9) y (8-10)


Nota: El coeficiente de correlacin R explica el grado de asociacin entre las
variables X e Y. Este coeficiente R vara de 1 a 0, si la correlacin es negativa, es

8-9
Dr. Hctor Quevedo Uras

decir, con pendiente negativa. Pero, si la correlacin es positiva, entonces, R vara


de 0 a 1. As, a medida que R se aproxima a 1, mejor asociacin habr entre las
variables X e Y. Ntese que, en caso de la regresin lineal mltiple, tenemos lo que
se llaman coeficientes parciales de regresin usados para medir la relacin lineal
entre la variable dependiente y la variable independiente especificada.
Intervalo de confianza para el coeficiente poblacional componente de la
lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea.

x x
2 2
b t[1-/2;n-2] s / < < b + t[1-/2;n-2] s / (8-15)

Donde:
b = xy / x2
t[1-/2;n-2] = valor de la distribucin de t de Estudiante
x2 = X2 (X)2 / n

( y b xy )
2

s= (8-16)
n2

y ( y )
2 2

= SSE/(n 2) = - (bXY - XY/n)] / n-2


n

La ecuacin de la varianza es: s2 = (y2 bxy) / (n 2) (8-17)


= coeficiente poblacional de la pendiente de la lnea, el cual es estimado por b =
xy / x2 o sea el coeficiente de la lnea de regresin muestral.
Intervalo de confianza para el parmetro poblacional , el intercepto de la
ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a

(8-18)
Donde:

8-10
Dr. Hctor Quevedo Uras

a ya se defini anteriormente
t[1-/2;n-2] = a un valor usando la distribucin de t de estudiante con = n 2 grados
de libertad
s = de la ecuacin (8-16)

Sxx = xy (de la ecuacin (8-9))

Hiptesis nula Ho: = o contra las hiptesis alternativas H1: < 1 y H2: > 1.
Para esta prueba tambin se usa la distribucin de t de Estudiante con = n 2
grados de libertad, es decir:
t = (b o) / s/x2 (8-19)
Donde:
t = la estadstica de la distribucin de t de Estudiante
o = un valor dado
b = pendiente de la lnea
Hiptesis nula Ho: = o contra las hiptesis alternativas H1: o, H2: > o,
y H3: < o
Aqu, nuevamente, se usa la distribucin de t de Estudiante con grados de libertad,
= n 2. Para esto se usa la frmula de abajo:

(8-20)

8-11
Dr. Hctor Quevedo Uras

Donde:

o = un valor dado

s = ya definida anteriormente

a ya se defini anteriormente

Intervalo de confianza para Y|X de la lnea poblacional estimada por Y


El intervalo de confianza para el valor de Y|X se hace es usando la frmula (8-21) de
abajo:
1 1
Yo t[/2;] s + (Xo - X )2/x2 < Y|X < Yo+ t[/2;] s + (Xo - X )2/x2 (8-21)
n n

Donde:
Yo = a + b Xo = valor de la lnea de regresin con un valor de Xo dado (8-22)
t[/2;n-2] = valor de la distribucin de t con un nivel de significancia de = .05 o bien
0.01 con = n 2 grados de libertad
a = ya definida anteriormente
s = ya definida anteriormente

Xo = un valor dado
X = promedio de la muestra
Hiptesis nula Ho: = 0 contra las hiptesis alternativas H1: > 0 y H2: < 0
Para hacer esta prueba usamos la distribucin de t de Estudiante con = n 2 grados
de libertad. La funcin estadstica usada para tales fines es:

x
2
t = (b bo) / s / (8-23)

Donde:
s = ya definida anteriormente

8-12
Dr. Hctor Quevedo Uras

b = intercepto en la ordenada Y
bo = un valor dado
y2 = Y2 (Y)2/n
xy = XY XY/n
o = 0
Aqu, tambin se tienen que calcular las regiones crticas usando la distribucin
de t, es decir, t[1-/2;], donde es el nivel de significancia deseado y, es el nmero de
grados de libertad, es decir, n - 1. Despus de esto, se compara el valor de tcalc., con el
valor crtico de ttab. y se sigue el mismo procedimiento para cualquier prueba de
hiptesis.
Hiptesis nula de Ho: = o contra las hiptesis alternativas H1: > 0 y H2: < 0
Para hacer esta prueba de hiptesis se usa la estadstica de t de Estudiante mostrada
abajo:

(8-24)

Donde:
s = ya definida anteriormente
Donde:
y2 = Y2 (Y)2/n
xy = XY XY/n
b = ya definida anteriormente
Aqu, tambin se tiene que establecer las regiones crticas usando la distribucin de t
de Estudiante. Estas regiones crticas son: t[1-/2;], donde es el nivel de significancia
usado.

8-13
Dr. Hctor Quevedo Uras

Pruebas de hiptesis Ho: = 0, contra la hiptesis alternativas H1: 0, para el


coeficiente de correlacin poblacional estimado por R. (Dunn et al. 1974)
Para estos fines se usa la estadstica de t de Estudiante:
2
t= R/ 1 R (8-25)
Donde:

x y
2 2
R = xy / (8-26)

= n 2 grados de libertad
Aqu, nuevamente, para calcular las regiones crticas se usa la t de Estudiante, es
decir, t[/2;n-2].
Ejemplos de problemas usando regresin y correlacin lineal simple
Ejemplo #1. Este problema est relacionado con un estudio acerca de la cantidad de
precipitacin pluvial y la cantidad de contaminacin atmosfrica.
TABLA 8.0. Tabla mostrando los datos. (Elaboracin propia)
___________________________________________________________________
Lluvia (0.026) | 18 7 14 31 21 5 11 16 26 29
Remocin de contaminacin | 55 17 36 85 62 18 33 41 63 87

Hacer las siguientes estimaciones:


(a) Identificar la variable dependiente y la variable independiente. Hacer una grfica
que vaya en funcin de la variable dependiente Y, y la variable independiente X.
(b) Calcular los valores de la estadstica descriptiva de los datos.
(c) Obtener la ecuacin de regresin lineal simple y trazarla en la grfica.
(d) Validar la confiabilidad del modelo de regresin, es decir, a travs de la emisin
de un juicio subjetivo analizando los valores de los residuos estandarizados, de la
siguiente manera:
1. Hacer una grfica que muestre la prueba de normalidad.

8-14
Dr. Hctor Quevedo Uras

2. Hacer una grfica con los residuales estandarizados versus valores ajustados de Y .
(El valor predecido o ajustado de Y i es el valor de Y que se esperara cuando se usa la
lnea de regresin. En otras palabras, los valores ajustados de Y 1, Y 2,.., Y n se obtienen
sustituyendo, sucesivamente, x1, x2, .., xn en la ecuacin de la lnea de regresin
estimada: Y i = o + 1xi, .., o + 1xn.
3. Hacer un histograma de residuales.
4. Hacer una grafica que muestre los residuales estandarizados versus renglones.
(e) Complementar la evaluacin del modelo con inferencias estadsticas, como:
1. Clculo del coeficiente de determinacin R2 y el coeficiente de correlacin R.
2. Hacer una tabla de anlisis de varianza (ANOVA).
3. Hacer una tabla con los coeficientes, los errores estndares, las pruebas de t, los
valores de p, y los intervalos de confianza para el intercepto y la pendiente.
Solucin:
(a) La variable dependiente es la remocin de contaminantes (Y) y la variable
independiente es la cantidad de lluvia (X). La figura de abajo muestra esta solucin:

Figura 8.3. Grfica mostrando Y versus X, con una lnea recta horizontal
correspondiente al valor del promedio de Y = 49.7000. (Elaboracin propia)
(b) Los valores de la estadstica descriptiva son:
X = 17.8000, Y = 49.7000. Los valores mximos y mnimos de los valores de Y son

8-15
Dr. Hctor Quevedo Uras

87.000 y 17.000, respectivamente. Los valores mximos y mnimos de los valores de


X son 31.000 y 5.0000, respectivamente. Cuadrado medio del error = s2y|x = 26.667;
error cuadrtico medio es sy|x = 5.164
(c) Usando un programa de computadora se estiman los valores del intercepto en la
ordenada y la pendiente. Estos son: intercepto = a = 1.0213, pendiente de la lnea = b
= 2.7348. Sustituyendo estos valores dan la lnea de regresin muestral (misma que se
ve en la Figura 8.3), da.
Y = a + bX
Y = 1.0213 + 2.7348(X)
(d) Para este inciso la Figura 8.4 muestra la informacin requerida.

Residual Plots for Remocion de contaminatnes (Y)


Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99
5
90
Residual
Percent

0
50

-5
10

1 -10
-10 -5 0 5 10 20 40 60 80
Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


3
5
Frequency

2
Residual

1 -5

0 -10
-8 -4 0 4 1 2 3 4 5 6 7 8 9 10
Residual Observation Order

Figura 8.4. Grficas mostrando las respuestas para el inciso (d).


Como se ve en la Figura 8.4 la figura superior izquierda muestra la prueba de
normalidad con todos los puntos formando una linea recta. Esto indica que la
8-16
Dr. Hctor Quevedo Uras

distribucin de los datos es normal. Igualmente, la figura superior derecha muestra


los residuales en funcin de los valores ajustados de Y. Aqu, hay aleatoriedad en
la distribucin de los puntos con la misma cantidad de puntos negativos y
positivos, lo que indica que no hay correlacion de los datos. La figura inferior
izquierda muestra la frecuencia versus los residuales. Finalmente, la figura inferior
derecha muestra los residuales en funcin de los rdenes de las observaciones.
Aqu, en esta figura hay aleatoriedad y el mismo numero de puntos positivos y
negativos, lo que sugiere que no hay colinealidad o correlacion en serie de la
informacin suministrada.
(e) Para complementar el estudio objetivista, esto se hace haciendo pruebas
estadsticas de inferencia.
(1) Como se dijo antes, el coeficiente de determinacin R2 es un enfoque objetivista,
que sirve para validar el modelo de regresin. Este coeficiente de determinacin R2,
mide la fuerza relativa de la relacin lineal entre X e Y (mide la proporcin de
variacin en Y que puede ser explicada por la variacin en X) es dado por la ecuacin
(8-11) y por las ecuaciones (8-6), (8-7) y (8-8), respectivamente:
R2 = 0.9620
El clculo del coeficiente de correlacin R es:
R= R 2 = 0.9808
(2) Para el anlisis de varianza (ANOVA), que tambin sirve para validar el modelo
de regresin, es una funcin estadstica objetivista que prueba la hiptesis nula de que
la pendiente es igual a 0. Aqu se ver que, un valor grande de F indica que el modelo
de regresin seleccionado es util. Sin embargo, es necesario analizar todos los dems
criterios antes de emitir un juicio final. La tabla de ANOVA de abajo da los
resultados.

8-17
Dr. Hctor Quevedo Uras

TABLA 8.1. Tabla de anlisis de varianza (ANOVA) para el ejemplo.


(Elaboracin propia)
__________________________________________________________________
Fuente de Suma de los g.l. Cuadrado del Fcalc. Ftab. Valor de p
variacin cuadrados promedio
__________________________________________________________________
Debido al 5,396.77 1 5,396.77 202.38 5.32 0.00001
tratamiento
Residual (error) 213.33 8 26.67
___________________________________________________________________
Total 5,610.1 9

El valor de Ftab. se saca consultando la tabla de la distribucin de F, esto es F;1,2, el


cual da F.95;1,8 = 5.32. Aqu, debido a que el valor de Fcalc. = 202.38 >>> 5.32, se
rechaza la hiptesis sustentada de que Ho:1 = 0 y se inclina por Ho:1 0. La
conclusin es de que la pendiente de la lnea no es igual a 0 u horizontal.
(3) La tabla de abajo muestra los valores del intercepto en la ordenada, el gradiente
de la lnea de regresin, los errores estndar, la pruebas de hiptesis usando la t de
estudiante, los valores de la probabilidad p y los intervalos de confianza (95%) para
o (intercepto) y 1 (pendiente).
TABLA 8.2. Tabla mostrando los valores del intercepto, pendiente, pruebas de t de
Estudiante, valor del nivel de p y sus intervalos. (Elaboracin propia)
__________________________________________________________________
Coeficiente Error Prueba t Valor p Lmite Lmite
estndar inferior superior
___________________________________________________________________
Intercepto 1.02 3.79 0.27 0.79 -7.772 9.76
___________________________________________________________________P
endiente 2.73 0.19 14.23 5.8x10-7 2.29 3.18
__________________________________________________________________

Aqu, ntese que el intervalo de confianza para el intercepto es muy amplio y la


hiptesis no se puede rechazar, puesto que el valor de t es muy pequeo y el valor de

8-18
Dr. Hctor Quevedo Uras

p = 0.79 es grande. Esto es apoyado por el valor de 0.79 de p y por un error estndar
de 3.79, relativamente grande; lo contrario ocurre con las pruebas estadsticas de la
pendiente, cuyo valor de t es grande y cuyo valor de p es muy pequeo.
Ejemplo #2. En un estudio de microbiologa ambiental, en muestras de agua, se
dieron los siguientes datos de la tabla de abajo. Estos datos se refieren al crecimiento
de una colonia de bacterias en un medio de cultivo.
TABLA 8.3. Tabla mostrando los datos. (Elaboracin propia)
Tiempo en das de | 3 6 9 12 15 18
inoculacin (X)
__________________________________________________________________
No. bacterias (Y) | 115,000 147,000 189,000 235,600 257,900 286,400

Hacer los siguientes clculos:


(a) Calcular la lnea de regresin.
(b) Calcular el coeficiente de determinacin R2 y el coeficiente de correlacin R.
(c) Con la ecuacin de regresin, estimar el nmero de bacterias despus de 20 das
(d) Encontrar los intervalos de confianza para y usando el paquete de EXCEL.
(e) Usar el programa Minitab y estimar los valores residuales y analizarlos
subjetivamente, para revisar por la calidad del modelo de regresin.
Solucin:
(a) La ecuacin de la lnea de regresin es:
Y = 81,520.00 + 11,774.29 X
(b) El coeficiente de determinacin lineal mltiple R2 es igual a 0.9880. El coeficiente
de correlacin R es igual a 0.9940.
(c) Cuando X = 20 das, el nmero de bacterias es de:
Y = 81,520 + 11,774.29 (20) 317,006 bacterias
(d) En cuanto a los intervalos de confianza para y , el programa de computadora de

8-19
Dr. Hctor Quevedo Uras

EXCEL arroja los siguientes resultados:


Intervalo de confianza de 95% para : 61,259.45 < < 101,780.6; valor de la
probabilidad p = 0.0004; Intervalo de confianza de 95% para es: 10040.14 < <
13508.43, con un valor de la probabilidad p = 0.000046
(e). Las figuras de abajo muestran las grficas que tratan de validar el modelo de
regresin lineal, con del nmero de bacterias en funcin del tiempo de incubacin.

Figura 8.5. Figuras mostrando los resultados del nmero de bacterias versus el tiempo
de incubacin. La grfica (a) muestra la relacin entre Y y X, con la lnea recta de Y ;
la grfica (b) muestra los residuos crudos versus X; la grfica (c) muestra los residuos
crudos versus los renglones y, la grfica (d) muestra los residuos crudos versus
residuos rezagados (Elaboracin propia).
8-20
Dr. Hctor Quevedo Uras

Todas estas grficas sugieren, subjetivamente, que el modelo de regresin lineal es


confiable. Por qu?
Ejemplo #3. En un estudio de agricultura, relacionado con la siembra de algodn, en
cierto estado de la Unin Americana, la precipitacin anual y el rendimiento de la
cosecha de algodn son como sigue.
TABLA 8.4. Tabla mostrando los datos. (Elaboracin propia)
Precipitacin | 7.12 63.54 47.38 45.92 8.68 50.86 44.46
en pulgadas
(X)
Rendimiento de | 1037 380 416 427 619 388 321
la cosecha en
libras/acre
(Y)

Hacer los siguientes clculos:


(a) Calcular los valores del intercepto a y la pendiente b.
(b) Escribir la ecuacin de la lnea de regresin.
(c) Calcular el coeficiente de determinacin R2 y el coeficiente de correlacin R.
(d) Predecir el rendimiento de la cosecha de algodn, si la precipitacin es de 30
pulgadas.
(e) Hacer una tabla de anlisis de varianza.
Solucin:
(a) Usando un paquete de computadora como el Excel da:
Intercepto en la ordenada = a = 880.40
Pendiente de la lnea = b = -9.61
(b) Por lo tanto, la ecuacin de la lnea de regresin es:
Y = 880.40 9.61 (X)
(c) El coeficiente de determinacin = R2 = 0.6991

8-21
Dr. Hctor Quevedo Uras

El coeficiente de correlacin = R = 0.8361


(d) Cuando la precipitacin de lluvia es de 30 pulgadas, el rendimiento de la
cosecha se calcula usando el modelo de regresin obtenido, es decir sustituyendo el
valor de X = 30. De esta manera, usando la ecuacin de regresin dada arriba y
sustituyendo el valor de X = 30 nos da:
Y = 880.4 9.61 (30) = 592.1
(e) La tabla de anlisis de varianza dada por el paquete Excel se da abajo.
TABLA 8.5. Tabla de anlisis de varianza (ANOVA). (Elaboracin propia)
Fuente de variacin g.l. SS MS Fcalc. Ftab. Valor de p
Debido a la Regresin 1 260,628.2 260,628.2 11.62 5.32 0.019
Residuo 5 112,165.5 22,433.11
Total 6 372793.7

En conclusin, al comparar el valor de la estadstica calculada F con el valor crtico de


F se rechaza la hiptesis sustentada con un valor de p igual a 0.019.
Ejemplo #4. El libro Applied Statistics: Anlisis of Variance and Regression de Dunn
y Clark (1974) describe un estudio de fsica, es decir, de ptica, donde se obtuvieron
los datos de abajo que muestran los dimetros de las fibras pticas (en micras) en
funcin de la fuerza de rompimiento de stas. Para este problema hacer los siguientes
clculos
(a) Hacer todos los calculos preliminares y calcular la ecuacin de la lnea de
regresin muestral que estima a la ecuacin de regresin poblacional Y|X = + X.
(b) Usando un paquete de computadora, encontrar el intervalo de confianza para el
coeficiente de regresin poblacional (intercepto en Y), que estima a a.
(c) En forma anloga que con en el inciso (b), encontrar el intervalo de confianza para
el coeficiente de regresin (la pendiente de la lnea) cuyo estimador es b.
8-22
Dr. Hctor Quevedo Uras

(d) Probar la hiptesis nula de Ho: = o, es decir, = 0 contra la hiptesis alternativa


de H1: > 0 y H2: < 0. Calcular el valor de la probabilidad p.
(e) Hacer un intervalo de confianza para Y|Xo.
(f) Calcular los criterios evaluadores del modelo de regresion, v. g., R2, PRESS y s.
(g) Hacer una prueba de hiptesis para el coeficiente de correlacin poblacional .
(h) Graficar los datos y trazar la ecuacin de la lnea de regresin sobre la grfica y
trazar la lnea horizontal correspondiente al valor del promedio Y .
(i) Emitir un juicio subjetivo que ayude a validar el uso del modelo de regresin.
La tabla de abajo muestra los datos.
TABLA 8.6. Tabla mostrando el dimetro de fibras vs. fuerza de rompimiento.
Dimetro de la fibra (X) Log de la fuerza de rompimiento (Y)
22.5 .19
28.0 .62
27.5 .51
25.5 .53
22.0 .24
30.5 .87
23.0 .25
25.0 .25
23.5 .37
27.0 .32
21.5 .13
22.0 .35
29.0 .53
20.5 .22
27.0 .65
(Fuente: Dunn et al. 1974. Applied Statistics: Analysis of Variance and Regression)

Solucin:
(a) Los clculos preliminares son:

8-23
Dr. Hctor Quevedo Uras

n = 15, X = 374.5, (X)2/n = 9,350.0, Y = 6.03, (Y)2/n = 2.42, XY = 158.25, X


2
= 9,482.75, Y 2 = 3.03, (XY)/n = 2,258.24/15 = 150.55, X = 24.97, Y = 0.402,
x2 = X 2 (X)2/n = 9,482.75 9,350.0 = 132.75, xy = XY XY/n = 158.25
150.55 = 7.70, y2 = Y 2 (Y)2/n = 3.03 (6.03)2/15 = .6074
Para calcular la lnea de regresin de la muestra, primero calculamos manualmente,
los coeficientes a y b de la lnea de regresin muestral que estiman a y .
b = xy/x2 = 7.70/132.75
= .058
a = Y b X = 0.402 (0.058)(24.97) = -1.046
Por lo tanto, la lnea de regresin muestral es:
y = a + b(X)
y = -1.046 + 0.058(X)
(b) El intervalo de confianza para es usando la funcin (8-18) o usando un paquete
de computadora como Excel procediendo como: Tools Data anlisis Regression
y OK. Enseguida, despus de que los datos se introdujeron en las columnas A y B de
la hoja de Excel irse a la ventanilla de Input Y Range y Input X Range, lo que
genera la TABLA 8.7 de abajo.
TABLA 8.7. Tabla mostrando el valor del intercepto, la pendiente, los valores de t y p
y los intervalos de confianza para y .

Por lo tanto, el intervalo de confianza para el intercepto () se lee de la tabla como:


-1.5706 < < -0.5224
(c) En forma anloga el intervalo de confianza para se lee de la TABLA 8.7 como:
8-24
Dr. Hctor Quevedo Uras

0.0788 > > 0.0371


(d) Para probar la hiptesis nula Ho: = o es decir, = 0, contra H1: > 0 y H2: < 0
usamos la distribucin de t de estudiante con = n 2 = 15 2 = 13 g.l. La frmula
es: t = (b o) / s/ x2. Sustituyendo todos los valores de o = 0 y dems valores en
la frmula de arriba da:
t = (0.058 0) / 0.12/ 132.73
= 5.8
Las regiones crticas son: t = 2.16.
En conclusin: debido a que tcalc. = 5.8 > ttab. = 2.16, se rechaza la hiptesis nula de
Ho: = 0 y se inclina por H1: > 0. El valor de la probabilidad se calcula usando la
frmula de interpolacin (6-10): (2 1)/(t2 t1) = (2 X)/(t2 tcalc.)
Sustituyendo los valores apropiados de la tabla de t nos da:
(.00001 - .00002)/(6.287 5.607) = (.00001 X)/(6.287 5.8)
Lo que da X = p = .00002. Pero como la prueba es bilateral, lo multiplicamos por 2 y
da p = .00004. Este valor apoya, muy contundente, la hiptesis alternativa de H1: >
0.
(e) El intervalo de confianza para la variable dependiente de la lnea de regresin
poblacional, Y|X estimada por Y, con nivel de significancia de = 0.05, dar varios
valores a Xo. Para hacer esto, se usa la funcin de abajo:
1 1
Yo - t[/2;n-2] s +(Xo X )2/x2 < Y|X < Y + t[/2;n-2] s +(Xo X )2/x2 (8-28)
n n

Donde:
X = promedio
t[/2;n-2] = valor de t con = n 2 g.l.
t[.025;13] = 2.16
Xo = los diferentes valores que se le den a Xo para construir los lmites o bandas de

8-25
Dr. Hctor Quevedo Uras

confianza para Y|X


Ahora bien, con los valores de: a = -1.047, X = 24.97, x2 = 132.73, s = 0.12, t.0.25;13
= 2.16 y asignndole valores a Xo, digamos de 19, 28, 30.0, etc., se procede de la
siguiente manera:
Para Xo = 19.0; Yo = -1.047 + 0.058(19.0) = 0.055, etc.
Enseguida, usando la frmula (8-28) y sustituyendo los valores, es decir, para Xo = 19
da:

.0552.16(0.12) 1 +(19.0-24.97)2/132.73 < < .055+2.16(0.12) 1 +(19.0-24.97)2/132.73


Y|19
15 15

El cual se simplifica a: 0.335 > Y|19 > 0.299

As se puede continuar dando diferentes valores de Xo y sustituyndolos, como se


hizo arriba, para, finalmente, hacer las bandas de confianza para Y|X.
(f) Para calcular los valores de R, R2, s y PRESS se pueden hacer con un paquete de
computadora. Por ejemplo, si se hace manualmente, el coeficiente R se calcula usando
la ecuacion (8-14), etc. De otra manera, si se usa el Mintab proceder como:
Stat Regression Regression
En la ventana de Response poner la variable dependiente, y en la ventana de
Predictors poner la variable independiente. Tambin se pueden usar las ventanas de
Graphs, Options y Results para obtener informacin adicional. Por ejemplo los
valores de las estadsticas objetivistas de inferencia dadas por el programa son:
R2 = 73.6%, R = 0.858, s = 0.1112, PRESS = 0.2204. Por ejemplo, el valor de R =
0.8576 indica indica una correlacin positiva que va de acuerdo con la pendiente
positiva de la curva de .058. Los valores tan pequeos de s y de PRESS indican un
buen ajuste de los datos al modelo de regresin.
(g) Para la prueba de hiptesis Ho: = 0, es decir, para el coeficiente de correlacin
poblacional, con = 0.05, contra la hiptesis alternativa de H1: 0, esto es, H2: > 0
8-26
Dr. Hctor Quevedo Uras

y H3: < 0 se usan las siguientes estadsticas:


(1) Usando la estadstica de t de Estudiante (8-25):
2
t= n 2 R / 1 R

Donde:

R = ya definida
Para calcular las regiones crticas se usa la distribucin de t, es decir, t[/2;n-2] = t.025;13 =
2.16
Entonces, usando la frmula de abajo y sustituyendo los valores da:

x y
2 2
R = xy / = 7.701 / (132.73)(0.6074) = 0.86
y R2 = 0.7396

Ahora, usando la estadstica de abajo y sustituyendo da

2
t= n2 R/ 1 R
t = 13 (0.86) / .2604
= 6.07
Si se desea sacar el valor de p se busca 6.07 en la tabla de la distribucin de t con =
13 y con = .05, lo que da .025 < p < .05.

(h) Para graficar los datos aunados a la ecuacin de la lnea de regresin con una lnea
horizontal correspondiente al valor del promedio Y se hace usando un paquete de
computadora.

8-27
Dr. Hctor Quevedo Uras

Figura 8.6. Grfica mostrando la fuerza de rompimiento (log10) en funcin del


dimetro de la fibra, con la ecuacin de la linea de regresin Y = -1.046 + 0.058(X) y
con el promedio Y = 0.402. (Elaboracin propia).
(i) Emitir un juicio subjetivo que ayude a validar el uso del modelo de regresin. Para
responder a esta pregunta se hacen los siguientes grficos:

Residuals Versus the Order of the Data


(response is Log fuer)

1
Standardized Residual

-1

-2

2 4 6 8 10 12 14

Observation Order

Figura 8.7a. Grfica mostrando los residuos estandarizados versus el orden de la


observacin. Esta es una grfica que muestra todos los residuales en el orden en el
cual los datos fueron coleccionados. Aqu hay el mismo nmero de datos positivos
y negativos. Esta grfica tambin sirve para encontrar errores no aleatorios,
especialmente, en efectos relacionados con el tiempo.

8-28
Dr. Hctor Quevedo Uras

Residuals Versus the Fitted Values


(response is Log fuer)

1
Standardized Residual

-1

-2

0.1 0.2 0.3 0.4 0.5 0.6 0.7

Fitted Value

Figura 8.7b. Est grfica muestra los residuales versus valores ajustados. Para que
el modelo de regresin sea aceptable, se requiere que: los puntos en la grfica sean
aleatorios en ambos lados de 0; no debe haber series de puntos que aumenten o
disminuyan; no debe haber predominancia de residuales positivos o negativos, ni
tampoco debe haber patrones de residuales que aumenten con valores ajustados
que aumenten. Como se ve, todas estas condiciones estn bien sustentadas.
Normal Probability Plot of the Residuals
(response is Log fuer)

1
Normal Score

-1

-2

-2 -1 0 1 2

Standardized Residual

Figura 8.7c. Grfica mostrando la prueba de normalidad. Los datos deben formar
una lnea recta si los residuales estn normalmente distribuidos (situacin que
ocurre aqu). De otra manera, la suposicin de normalidad se invlida.

8-29
Dr. Hctor Quevedo Uras

Como se observa en estas grficas, la emision de un juicio subjetivo es aceptable,


porque el modelo de regresin seleccionado ajusta bien los datos. Esto se debe a que,
en la Figura 8.7a hay aleatoridad en los datos, es decir, con el mismo nmero de
valores positivos y negativos. Adems, en la Figura 8.7b la descripcin de sta,
sugiere un modelo de regresin representativo de la informacin dada. Situacin
similar ocurre con la descripcin de la Figura 8.7c.
Ejemplo #5. En un estudio de ingeniera del agua relacionado con las reducciones de
los slidos suspendidos, en funcin de la demanda qumica de oxgeno (DQO), se
sac una muestra aleatoria, cuyos datos se dan en la tabla de abajo. Para lo siguiente:
(a) Identificar la variable dependiente y la independiente y hacer una grfica de DQO
versus reduccin de slidos.
(b) Calcular la ecuacin de la lnea de regresin.
(c) Hacer una tabla de anlisis de varianza que incluya la F crtica y el valor de p.
(d) Validar el modelo candidato, a travs de estadsticas como R2, PRESS, s y de la
estadstica de Durbin-Watson (para la prueba de autocorrelacin de residuales).
(e) Evaluar la utilidad del modelo a travs de grficos subjetivos:
TABLA 8.8. Tabla mostrando las mediciones de slidos y la demanda qumica de
oxgeno. (Elaboracin propia)
__________________________________________________________________
Slidos supendidos DQO
___________________________________________________________________
30 29 33 37 25 32 29 27 31 36 25 31
30 30 33 30 35 31 29 28 32 29 30 30
29 30 34 30 36 30 28 29 34 29 34 29
34 31 36 29 31 30 33 30 35 28 30 28
28 31 36 28 33 32 26 30 34 28 30 31
27 32 36 27 31 32 27 32 34 26 29 31

Solucin:

8-30
Dr. Hctor Quevedo Uras

(a) La variable dependiente es DQO y la variable independiente es reduccin de


slidos suspendidos. La figura 8.8 de abajo muestra las concentraciones de DQO
versus reduccin de slidos suspendidos.

Figura mostrando la grafica de DQO y solidos suspendios.

35
DQO (Y)

30

25

27 32 37
Solidos suspendidos (X)

Figura 8.8. Grfica mostrando el DQO versus reduccin de slidos.


(Elaboracin propia)

(b) La ecuacin de la lnea de regresin es:


DQO (Y) = 1.53 + 0.909 X(slidos suspendidos)
La pendiente es igual a 0.909 y el intercepto es 1.53
(c) La tabla de abajo muestra la informacin de ANOVA.

TABLA 8.9. Tabla de ANOVA de slidos suspendidos y DQO.


Fuente de SS g.l. MS Fcalc. Fcrtica Valor de p
Variacin
Entre los grupos 32.00 1 32.00 4.35 3.98 0.04
Residual (error) 515.44 70 7.35
Total 546.44 71
__________________________________________________________________

(d) s = 0.9039 R2 = 88.8% R2(ajustada) = 88.5%


PRESS = 31.8928 R2(predecida) = 87.13% Durbin-Watson statistic = 1.67

8-31
Dr. Hctor Quevedo Uras

Aqu, el coeficiente de determinacion R2, mide, qu tan bien el modelo de


regresin ajusta los datos. Anlogamente, el estadstico PRESS (suma de
cuadrados de error de prediccin) mide la calidad del modelo de regresin. En
cuanto a la estadstica Durbin-Watson, si est cercana a 2 no hay autocorrelaciones
en series positivas o negativas. La variacin de los datos la da la estadstica s.
(e) La Figura 8.9 da la informacin subjetiva para la evaluacin del modelo.
(a)
Residuals Versus the Fitted Values
(response is DQO (Y))

1
Standardized Residual

-1

-2

-3

-4

25 30 35

Fitted Value

(b)
Normal Probability Plot of the Residuals
(response is DQO (Y))

1
Normal Score

-1

-2

-4 -3 -2 -1 0 1 2

Standardized Residual

Figura 8.9. La figura (a) prueba por la autocorrelacin o falta de independencia de los
datos. Adems, la figura (b) prueba por la normalidad de los datos.

8-32
Dr. Hctor Quevedo Uras

Regresin y correlacin lineal mltiple


Muchas aplicaciones del anlisis de regresin involucran situaciones donde se tiene
ms de una variable independiente. En la mayor parte de los problemas de
investigacin se necesitan varias variables independientes para ver el efecto en la
variable dependiente. La variable dependiente o de respuesta (Y) puede estar
relacionada con muchas variables independientes o regresoras X1, X2, etc.
En el estudio de regresin lineal mltiple se pueden usar el enfoque matricial.
Tambin se pueden hacer pruebas de hiptesis, intervalos de confianza, anlisis
subjetivos (anlisis de los grficos) y anlisis objetivos (estadstica de inferencia),
como los clculos de los coeficientes de determinacin (R2) o de correlacin (R),
como en el caso de la regresin lineal simple. Sin embargo, en este caso, se puede
calcular el coeficiente de correlacin general y coeficientes de correlacin parciales,
es decir, en forma anloga a como se hace con los coeficientes o, 1, etc.
Cuando hablamos de regresin lineal mltiple tenemos las siguientes
situaciones:
1. Modelo de primer orden con dos variables regresoras o independientes.
2. Modelo de primer orden con ms de dos variables independientes.
Modelo de regresin mltiple generalizado
Cuando este modelo general es lineal en los coeficientes se denomina modelo de
regresin mltiple. Por ejemplo, para el caso de k variables independientes x1, x2,
x3,..., xk, el promedio est dado por Y|x1, x2, x3,..., xk y se da por el modelo de
regresin mltiple poblacional:
Y = Y|x1, x2, x3,..., xk = o + 1x1 + 2x2 + ...+ kxk + k (8-29)
Este modelo, tambin se puede expresar con otra anotacin como:
Y j = o + 1X1j + 2X2j + . + kXkj + j (8-29a)
Los parmetros j, j = 0, 1, 2, 3,.., k se conocen como coeficientes de regresin

8-33
Dr. Hctor Quevedo Uras

poblacionales. Por ejemplo, el parmetro j representa el cambio esperado en la


respuesta Y, por unidad de cambio en xj, cuando todos los dems pronosticadores xi
se mantienen constantes. Adems, i y ei son los errores aleatorios o residuos de
poblacin y de la estadstica asociados con la respuesta Yi.
El modelo de regresin lineal mltiple de la muestra que estima al modelo
poblacional de arriba es:
Y = bo + b1X1 + b2x2 + ... + bkXk + e (8-30)
Donde cada coeficiente de regresin parcial i es estimado por bi. Esto se debe a
qu, cada coeficiente parcial i mide el cambio esperado en Y por unidad de cambio
en x1, cuando x2 se mantiene constante, y 2 mide el cambio esperado en Y por
unidad de cambio en x2 cuando x1 se mantiene constante.
El modelo de primer orden con dos variables independientes es:
Yi = o + 1Xi1 + 2Xi2 + (8-31)
Donde Yi, la variable dependiente que denota la respuesta en las -simas tentativas;
Xi1 y Xi2 son las dos variables independientes de la -sima tentativa; o, 1, 2 son los
coeficientes de regresin y, es el error o residuo.
Modelo de regresin mltiple con ms de dos variables independientes
Yi = o + 1Xi1 + 2Xi2 + + p-1Xi,p-1 + (8-32)
Cuando hablamos de regresin lineal mltiple, el principal objetivo es la obtencin
de la ecuacin de la lnea de regresin muestral, para prediccin y estimacin, la
cual emula a la ecuacin poblacional. Sin embargo, antes de poder usar el modelo
de regresin calculado, ste se tiene que evaluar, para ver qu tanta confiabilidad se
le pueda dar. La evaluacin o validacin del modelo de regresin estimado se hace
a travs de anlisis objetivos y subjetivos, en forma anloga como en la regresin
lineal simple. Por ejemplo, los anlisis objetivistas se hacen a travs de funciones
estadsticas de inferencia. Posteriormente, para que la validacin del modelo sea

8-34
Dr. Hctor Quevedo Uras

completa, el procedimiento se complementa usando enfoques subjetivistas, a travs


de anlisis de las grficas de los valores residuales. Si la validacin no es
satisfactoria, se procede con remediacin del modelo, ya sea haciendo
transformaciones de los ejes o probando otros modelos ms apropiados, como
cuadrticos o cbicos, etc.
Aplicacin de anlisis subjetivos y objetivos para la evaluacin del modelo de
regresin
Como se ha estado mencionando anteriormente, se sugieren dos maneras de revisar
la utilidad del modelo obtenido. Estas maneras son: (1) anlisis de grficas de
residuos y, (2) pruebas estadsticas de inferencia.
Por ejemplo, para validar el modelo de regresin aplicando anlisis
subjetivos, es decir, a travs de los grficos de los residuos (ei), stos se describen
como las diferencias entre los puntos y la lnea de regresin. Siendo as, las
suposiciones son de que los residuos deben ser independientes y normalmente
distribuidos, con promedio igual a cero y con varianzas constantes. Ms
explcitamente, las descripciones de las suposiciones son:
1. Los valores de la variable aleatoria estadstica ei deben estar normalmente
distribuidos. Para lograr esto, se grafican los residuos (crudos o estandarizados) de
la variable dependiente en funcin de los valores de z o normales esperados. Para
que se rena la condicin de normalidad de los datos, todos los puntos deben de
estar dentro de las bandas de confianza y deben de estar muy cercanos a la lnea de
regresin. Adems, si los trminos del error ei estn normalmente distribuidos, los
residuales estandarizados o crudos debern estar, aproximadamente, de acuerdo
con las reglas del 68%, 94% y 99%. Esto quiere decir qu, el 68% de los residuos
debern estar entre z = 1; el 95% debern estar entre z = 2 y, finalmente, el 99%
de los residuos debern estar entre z = 3.

8-35
Dr. Hctor Quevedo Uras

2. Los valores de la variable aleatoria ei deben ser independientes uno del otro. No
debe haber colinialidad o correlacin en serie. Esto se revisa graficando los
residuos (estandarizados o crudos) en funcin de los renglones. Si no hay,
aproximadamente, los mismos residuos positivos y negativos en la grfica,
entonces, el modelo lineal calculado no es el apropiado y tendrn que buscarse
otras alternativas (como funciones polinomiales, cuadrticas, cbicas, etc.). Aqu
cabe notar que la suposicin de independencia es la ms importante que se pueda
violar, porque es la base para las pruebas estadsticas como la R2, el error de lo
estimado (s dado por el programa Minitab), ANOVA, etc.
3. Los valores de la variable aleatoria ei deben de tener la misma varianza. Esto se
llama homoscedasticidad. Esto se puede revisar visualmente graficando los
residuales estandarizados o no estandarizados (crudos) contra cada valor de las
variables independientes (Xi). Aqu, nuevamente, tiene que haber la misma
cantidad de valores positivos y negativos expresados en la grfica. Aqu, sin
embargo, existen otros mtodos para revisar por el problema de
heteroscedasticidad que se retomarn en el captulo de regresin polinomial.
Otros investigadores estadsticos (Devore, 2000) sugieren cuatro grficos de
diagnstico subjetivo, para la validacin del modelo de regresin mltiple. Estos
grficos de diagnstico son:
1. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores de Xi en la abscisa.
2. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores pronosticados (en la abscisa) por el programa de computadora usado.
3. El grfico de los valores pronosticados en la ordenada versus los valores de Yi en
la abscisa.
4. Grfico de normalidad de los residuos estandarizados versus los percentiles de z

8-36
Dr. Hctor Quevedo Uras

(valores de z).
5. Histogramas.
Aplicacin de anlisis objetivos para la evaluacin del modelo de regresin
Por otro lado, en cuanto al enfoque objetivista (estadstica inferencial) para la
validacin del modelo de regresin, ste est relacionado con el uso de estadsticas
como el coeficiente de determinacin mltiple R2 (o r2), el coeficiente de
determinacin ajustado R2ajustada, el error estndar de lo estimado, s, tablas de
anlisis de varianza, pruebas de t de Estudiante, intervalos de confianza, el criterio
de Mallow de Cp, PRESS, etc.
De esta manera, cuando se habla de coeficientes en el modelo de regresin
mltiple, existen cuatro tipos de coeficientes:
(1) El coeficiente de determinacin mltiple (R2)
(2) El coeficiente de correlacin mltiple (R)
(3) El coeficiente de determinacin ajustado (R2ajustada)
(4) El coeficiente parcial de correlacin mltiple (Rij.k)
Por ejemplo, el coeficiente de determinacin mltiple R2 es, tal vez, la
medida estadstica ms popular usada para medir, qu tan bien encaja el modelo de
regresin en los datos de la muestra. En realidad el uso de R2 es una tcnica para
medir la adecuacin de un modelo de regresin lineal mltiple. Esta estadstica se
puede definir como una proporcin o como un porcentaje. Como proporcin, sus
valores varan de cero a uno. Por ejemplo, si el valor de R2 est cercano a cero, esto
indica que no hay una relacin lineal entre Y y las Xs, mientras que, un valor
cercano a uno, indica una ajuste perfecto. Sin embargo, el valor de R2 no debe de
interpretarse ligeramente, sin el apoyo del error estndar de lo estimado (s), el
residual (PRESS), el criterio de Mallow (Cp) o los factores de variacin inflados
(variance inflation factors, VIF). Adems la validacin del modelo debe estar

8-37
Dr. Hctor Quevedo Uras

apoyada por los anlisis de los grficos subjetivos.


De acuerdo a la lgica del programa de NCSS, los siguientes enunciados dan
algunas calificaciones de la interpretacin de R2.
1. El valor de R2 puede incrementarse agregando ms variables independientes,
pero esto puede causar un aumento en el error del cuadrado medio, especialmente,
cuando la muestra es pequea.
2. La magnitud de R2 est influenciada por el rango de cada variable independiente.
R2 aumenta a medida que el rango de las Xs aumenta y viceversa.
3. El valor de R2 no mide la magnitud de las pendientes.
4. La magnitud de R2 no mide la aptitud del modelo lineal; mide la fuerza lineal del
componente del modelo.
5. Un valor grande de R2 no necesariamente significa una prediccin grande. Lo
opuesto tambin es correcto. Todo esto tiene que ser complementado o
corroborado por otras funciones estadsticas y por el anlisis grfico subjetivo.
6. El valor de R2 es altamente sensible al nmero de observaciones. Entre ms
grande sea el tamao de la muestra, ms alto ser el valor de R2. Ms adelante, hay
lo que se llama el valor ajustado del coeficiente de determinacin mltiple ajustado
(R2ajustada). Este coeficiente de determinacin mltiple ajustado R2ajustada es una
versin ajustada de R2 la cual busca remover la distorsin causada por un tamao
de muestra pequeo. Igualmente, tambin hay lo que se llama PRESS (predicted
sum of squares) que se usa para validar el modelo de regresin en trminos de
prediccin. Aqu, entre ms pequeo sea el valor de PRESS, mejor ser el modelo
candidato.
En forma anloga, tambin hay lo que se llama el coeficiente de correlacin
mltiple R. Este coeficiente R mide la fuerza de la relacin lineal entre la variable
dependiente Y y las variables independientes X1, X2, X3,, Xk. En contraste con el

8-38
Dr. Hctor Quevedo Uras

coeficiente de correlacin lineal simple, el rango de este coeficiente de correlacin


mltiple es de 0 R 1. Esto se debe a que R no indica la pendiente de la
ecuacin de regresin debido a que no es posible indicar los signos de todos los
coeficientes de regresin que relacionan la variable dependiente Y a las variables
independiente Xi. As como en el caso de la correlacin lineal, la medicin de R2 es
ms fcil de interpretar que el coeficiente de correlacin mltiple, R.
Otro tipo de correlacin relacionado con regresin y correlacin mltiple es
lo que se llama coeficiente parcial de correlacin mltiple. Este coeficiente mide la
fuerza de la relacin lineal entre la variable dependiente Y y las variables
independientes X1, X2, X3,, Xk. Este coeficiente se puede expresar como Rij.k el
cual es el estimador del coeficiente de correlacin mltiple poblacional ij.k. Rij.k se
puede usar para ver la relacin causal entre Y y una de las variables independientes,
manteniendo las dems constantes. Este coeficiente, tambin se puede usar para ver
la relacin entre dos variables independientes.
Ms adelante, dentro de la categora de anlisis objetivos de estadstica
inferencial relacionados con regresin mltiple, tenemos lo que se llama anlisis de
varianza (ANOVA) discutido en captulos anteriores. En forma anloga como el
uso de R2, este anlisis es un mtodo complementario para revisar las suposiciones
del modelo de regresin. La confiabilidad de los resultados del ANOVA est
mancomunada a la suposicin de que los residuales estn normalmente
distribuidos. El uso de ANOVA prueba los promedios poblacionales donde se
analiza la variacin total. ANOVA evala la utilidad del modelo de regresin
probando la hiptesis nula de que todos los coeficientes (i) de la ecuacin de
regresin (pendientes) son igual a cero. Los componentes del anlisis de varianza o
de ANOVA, son parecidos a los del anlisis de varianza simple explicados en
captulos anteriores. Los componentes son la fuente de variacin, los grados de

8-39
Dr. Hctor Quevedo Uras

libertad, la suma de los cuadrados, el cuadrado del promedio, la prueba de F y el


nivel de probabilidad. Por ejemplo, la fuente de variacin representa las particiones
de la variacin en Y. Hay cuatro fuentes de variacin es decir, el intercepto, el
modelo, el residuo o error y, el total ajustado. La prueba de inferencia con la
estadstica F se usa para probar la hiptesis de todas las i = 0.
Ms importante todava, es el clculo del nivel de probabilidad p. El valor de
p es la probabilidad de obtener un estadstico de prueba, al menos tan
contradictorio o ms extremo para Ho:, como el valor observado que se obtuvo,
asumiendo que Ho: es verdadera. Si el valor de p es menor qu, digamos = 0.05,
la hiptesis nula se rechaza; de otra manera se retiene. Entre ms pequeo sea el
valor de p, menos credibilidad tendr la hiptesis nula.
Otros estadsticos objetivistas para validar el modelo de regresin son las
pruebas individuales de t de estudiante para probar la hiptesis de que 1, 2, 3, k
son iguales a cero. Adems se pueden usar los intervalos de confianza. Por
ejemplo, en regresin mltiple el valor de t de estudiante se usa para probar la
hiptesis de que uno de los coeficientes es igual a cero, despus de remover la
influencia de los otros. Los investigadores Paffenberger et al. (1987) dan la funcin
para el intervalo de confianza para i. Sin embargo, si se concluye que 1 o k no
son igual a cero esto, no necesariamente, dice que el modelo de regresin es til
para prediccin. En verdad, para determinar si el modelo es apropiado, en lugar de
probar que 1 = 0 y 2 = 0, separadamente (usando la prueba de t), se usa una
prueba conjunta como el anlisis de varianza (ANOVA). De cualquier manera, la
prueba de hiptesis bilateral para probar los coeficientes individuales i se usa el
siguiente formato dado en la tabla de abajo.

8-40
Dr. Hctor Quevedo Uras

TABLA 8.10. Tabla mostrando los mecanismos para una prueba de hiptesis
bilateral para los coeficientes individuales i incluidos en el modelo de regresin
mltiple. (Elaboracin propia)
Hiptesis nula: Ho:i = 0, hiptesis alternativa: H1:i 0
Valor del estadstico: t = bi / sbi
Regla de decisin:
Rechazar Ho: si t > t/2;n-(k+1) o bien si t < -t/2;n-(k+1).
No rechazar Ho: si t/2;n-(k+1) t t/2;n-(k+1)
Donde: i son los coeficientes de regresin individuales.
bi = estimadores de i
sbi = errores estndar
= nivel de significancia deseado
n = nmero de observaciones
k = nmero de variables independientes
t = funcin estadstica de t de Estudiante
Ejemplos aplicando la regresin y correlacin mltiple
Ejemplo #6. En la adsorcin de tierra y sedimento, la magnitud de la acumulacin
en forma condensada de los productos qumicos en la superficie es una
caracterstica importante que influye en la eficiencia de insecticidas y varios otros
productos qumicos. El artculo Adsorption of Phosphate, Arsenate,
Methanearsonate and Cacodylate by Lake and Stream Sediments: Comparison with
Soils (J. of Environ. Qual., 1984, pp. 499-504) presenta los siguientes datos en la
tabla de abajo. Aqu se toma Y como la variable dependiente, la cual denota el
ndice de adsorcin de fosfato, X1 es una de las variables independientes
denotando la cantidad de hierro extrable y, X2 es otra de las variables
independientes denotando la cantidad de aluminio extrable. (Devore, 2000)
8-41
Dr. Hctor Quevedo Uras

TABLA 8.11. Tabla mostrando los datos del ejemplo.


_________________________________________________________________

Observacin X1 (Hierro extrable) X2 (Aluminio extrable) Y (ndice de adsorcin)


__________________________________________________________________
1 61 13 4
2 175 21 18
3 111 24 14
4 124 23 18
5 130 64 26
6 173 38 26
7 169 33 21
8 169 61 30
9 160 39 28
10 244 71 36
11 257 112 65
12 333 88 62
13 199 54 40
________________________________________________________________

(Fuente: Devore, 2000)


Hacer los clculos pertinentes.
Solucin:
Usando un paquete de computadora da: bo = -7.351, desviacin estndar = 3.485,
b1 = 0.11273, desviacin estndar = 0.02969, b2 = 0.34900, s = 0.07131
La ecuacin de la lnea de regresin lineal mltiple es:
Y = -7.351 + (0.11273)(X1) + (0.34900)(X2)
Enseguida, para ver, qu tan confiable es el modelo de regresin calculado,
primero procedemos a efectuar el anlisis subjetivo, es decir, el anlisis de las
grficas de los residuos.

8-42
Dr. Hctor Quevedo Uras

Figura 8.10 Figura mostrando las grficas de los residuos estandarizados versus
valores esperados de z (1); grfica mostrando el residuo estandarizado versus la
variable independiente X1 (2); grfica mostrando el residuo estandarizado versus la
variable independiente X2 (3); grfica mostrando el residuo estandarizado versus el
valor de Y pronosticado (4) y, finalmente, grfica de Y pronosticada versus
adsorcin (5). (Elaboracin propia)

8-43
Dr. Hctor Quevedo Uras

Figura 8.11 Esta grfica muestra un enfoque un poco diferente al de la figura


anterior, es decir usando los residuos no estandarizados en contraste con la figura
8.10 que usa los residuos estandarizados. Grfica mostrando la prueba de
normalidad (1). Grfica mostrando la prueba de independencia de residuos versus
renglones (2). Grfica mostrando los residuos versus valores pronosticados (3).
Grfica mostrando los residuos versus variable independiente de hierro (4). Grfica
mostrando los residuos versus variable independiente aluminio (5). (Elaboracin
propia)
8-44
Dr. Hctor Quevedo Uras

El valor del coeficiente de determinacin mltiple es: R2 = 0.9480


El coeficiente de determinacin ajustado es: R2ajustada = 0.9380
El coeficiente de correlacin mltiple es: R = 0.9736
Los coeficientes parciales se pueden estimar si se desea saber la relacin
entre el ndice de adsorcin y el aluminio extrable, poniendo la variable
independiente, hierro constante. Tambin, si se deseara saber la relacin entre el
ndice de adsorcin y el hierro extrable, se pondra la variable aluminio constante.
Similarmente, si se deseara saber la relacin entre las variables aluminio y la
variable del hierro, se pondra la variable ndice de adsorcin fija.
TABLA 8.12. Tabla mostrando los coeficientes de regresin, valores de t de
Estudiante, niveles de p y decisiones tomadas en Ho: (Elaboracin propia)
_________________________________________________________________
Variable Coeficiente Valor de t Nivel Decisin
independiente de regresin de p (5%)
_________________________________________________________________
Intercepto -7.35066 -2.1094 0.0611 Aceptar
Hierro 0.11273 3.7969 0.0035 Rechazar
Aluminio 0.34900 4.8944 0.0006 Rechazar
_________________________________________________________________

TABLA 8.13. Tabla de anlisis de varianza. (Elaboracin propia)


_________________________________________________________________
Fuente de g.l. Suma de los Cuadrado Fcalc. Valor Poder de
Variacin cuadrados medio de p la prueba
_________________________________________________________________
Intercepto 1 11580.31 11580.31
Regresin 2 3259.90 1764.95 92.03 0.000 1.0000
Error 10 191.79 19.18
_________________________________________________________________
Total 12 3721.69 310.14

8-45
Dr. Hctor Quevedo Uras

TABLA 8.14. Tabla mostrando el reporte de residuos. (Elaboracin propia)


_________________________________________________________________
Rengln Valor Valor Residuo Error estndar
actual pronosticado
_________________________________________________________________
1 4 4.0630 -6.3052 5.0077
2 18 19.7066 -1.7066 4.9511
3 14 13.5387 0.4612 4.7055
4 18 14.6552 3.3447 4.6862
5 26 29.6406 -3.6406 5.1051
6 26 25.4141 0.5858 4.5996
7 21 23.2182 -2.2182 4.6488
8 30 32.9902 -2.9902 4.6623
9 28 24.2976 3.7024 4.5671
10 36 44.9352 -8.9352 4.7012
11 65 60.7097 4.2902 5.4250
12 62 60.9014 1.0986 5.4195
13 40 33.9292 6.0707 4.5649
_________________________________________________________________

TABLA 8.15. TABLA mostrando los intervalos de confianza para este problema.
(Elaboracin propia)
_________________________________________________________________
Variable Lmite inferior (95%) Lmite superior (95%)
independiente
_________________________________________________________________
Intercepto -15.1149 0.4137
Hierro (X1) 0.0467 0.1789
Aluminio (X2) 0.1901 0.5079
__________________________________________________________________

8-46
Dr. Hctor Quevedo Uras

TABLA 8.16. Tabla mostrando la estadstica descriptiva. (Elaboracin propia)


_________________________________________________________________
Variable Conteo Promedio Desviacin Valor Valor
estndar mnimo mximo
_________________________________________________________________
Hierro (X1) 13 177.31 70.10 61 333
Aluminio (X2) 13 49.31 29.19 13 112
ndice de (Y) 13 29.85 17.61 4 65
adsorcin
_________________________________________________________________

Conclusiones: El modelo de regresin obtenido es vlido para prediccin y


estimacin. Los datos encajan bien con un modelo lineal mltiple. Esta contencin
est basada en el anlisis subjetivo de las grficas de los residuos. Por ejemplo, en
la figura 8.10 y 8.11 la prueba de normalidad es buena, porque todos los puntos
estn dentro de las bandas, y muy cercanos a la lnea de regresin. Adems, los
puntos estn de acuerdo con la regla del 68%, 95% y 99%, es decir, el 68% de los
puntos estn dentro de z = 1, el 95% estn dentro de z = 2, etc. En la figura 8.11
de los residuos versus los renglones, esto satisface la suposicin de independencia,
porque hay el mismo nmero de residuos positivos y negativos. Adems, las
grficas de los residuos versus las variables independientes no violan la suposicin
de no linealidad, porque no hay tendencias definidas. Finalmente, la grfica de
residuos versus valores pronosticados estn de acuerdo con la suposicin de
varianzas iguales (homoscedasticidad).
En cuanto a los anlisis objetivistas, es decir, usando pruebas estadsticas,
nuevamente, presuponen un buen ajuste del modelo de regresin estimado. Esto se
debe a qu, el valor del coeficiente de determinacin mltiple R2 est muy cercano
a uno. Adems, el valor de R = 0.9736 indica muy buena correlacin entre la
variable dependiente y las variables independientes. Con respecto a la tabla del
anlisis de varianza, el valor de F es mucho menor que el valor crtico y esto est
8-47
Dr. Hctor Quevedo Uras

demostrado por el valor de la probabilidad p el cual es mucho muy significante.


Las pruebas de t de estudiante, tambin son muy aceptables y demuestran que las
pendientes de i no son iguales a cero. Los intervalos de confianza dan resultados
similares y sugieren que el modelo de regresin es buen pronosticador. Se pueden
seguir haciendo pruebas de hiptesis para todos los parmetros poblacionales y, sin
lugar a dudas, stas tambin apoyaran la contencin de que, el modelo de
regresin, es aplicable.
Ejemplo #7. Considerar los datos de la tabla de abajo. Usando el programa de
computadora Minitab obtener el modelo de regresin ms apropiado, es decir, un
modelo mltiple lineal (Modelo 1); modelo con transformacin en el eje vertical
(Modelo 2) y un modelo con transformaciones de los ejes horizontales y del eje
vertical (Modelo 3).
TABLA 8.17. Tabla mostrando los datos bivariados de regresin. (Elaboracin
propia)

X1 | 4 4 4 6 3 6 3 2

X2 | 3 4 3 4 2 4 2 2

Y | 3 2 7 6 5 6 7 4

Solucin:
Abajo se dan los resultados de los tres modelos. Al juzgar por los resultados, se le
pide al lector que decida cual modelo es el ms apropiado.

8-48
Dr. Hctor Quevedo Uras

TABLA 8.18. Resultados mostrando el resumen de los tres modelos.


(Elaboracin propia)
_______________________________________________________________
Regression Analysis: Y versus X1, X2 (Modelo 1)
The regression equation is: Y = 6.00 + 2.00X1 3.00X2

Predictor Coef SE Coef T P


Constant 6.0000 1.803 3.33 0.021
X1 2.0000 0.7746 2.58 0.049
X2 -3.0000 1.183 -2.54 0.052

s = 1.414 R-Sq = 58.3% R-Sq(adj) = 41.7%


PRESS = 0.1274 R-Sq(pred) = 51.62%

Analysis of Variance

Source DF SS MS F P
Regression 2 14.000 7.000 3.50 0.112
Residual Error 5 10.000 2.000
Total 7 24.000

Regression Analysis: Log Y versus X1, X2 (Modelo 2)


The regression equation is: Log Y = 0.810 + =.225X1 0.348X2

Predictor Coef SE coef T P


Constant 0.8101 0.1622 4.99 0.004
X1 0.2248 0.0697 3.23 0.023
X2 -0.3479 0.1065 -3.27 0.022

s = 0.1272 R-Sq = 69.3% R-Sq(adj) = 57.0%


PRESS = 0.1274 R-Sq(pred) = 51.62%

Analysis of Variance

Source DF SS MS F P
Regression 2 0.1824 0.0912 5.63 0.052
Residual Error 5 0.0809 0.0162
Total 7 0.2634

Regression Analysis: Log Y vs Log X1, Log X2 (Modelo 3)


The regression equation is: Log Y = 0.595 + 1.83 Log X1 2.16 Log X2

Predictor Coef SE Coef T P


Constant 0.5949 0.2095 2.84 0.036
Log X1 1.8342 0.7288 2.52 0.053
Log X2 -2.1573 0.8332 -2.59 0.049

s = 0.1483 R-Sq = 58.2% R-Sq(adj) = 41.5%


PRESS = 0.3005 R-Sq(pred) = 0.00%

Analysis of Variance

Source DF SS MS F P
Regression 3 0.1533 0.0767 3.48 0.113
Residual Error 5 0.1100 0.0220
Total 7 0.2634

8-49
Dr. Hctor Quevedo Uras

TABLA 8.19. Tabla mostrando los datos originales del problema. (Elaboracin
propia)
___________________________________________________________________________
C1 C2 C3 C4 C5 C6
___________________________________________________________________________
Y X1 X2 Log Y Log X1 Log X2
___________________________________________________________________________
1 3 4 3 0.477121 0.602060 0.477121
___________________________________________________________________________
2 2 4 4 0.301030 0.602060 0.602060
___________________________________________________________________________
3 7 4 3 0.845098 0.602060 0.477121
___________________________________________________________________________
4 6 6 4 0.778151 0.778151 0.060206
___________________________________________________________________________
5 5 3 2 0.698970 0.477121 0.301030
___________________________________________________________________________
6 6 6 4 0.778151 0.778151 0.602060
___________________________________________________________________________
7 7 3 2 0.845098 0.477121 0.301030
___________________________________________________________________________
8 4 2 2 0.602060 0.301030 0.301030
___________________________________________________________________________

Ejemplo #8. En estudios de qumica analtica, el uso del anlisis de fluorescencia


de rayos X se usa como una herramienta para estimar los porcentajes de los
ingredientes de muchas mezclas. A menudo, la estimacin de las concentraciones
depende en la habilidad para ajustar modelos de regresin. En una investigacin
intitulada Corrections for Matrix Effects in X-rays fluorescent Analisis Using
Multiple Regression Methods, publicado por Analytical Chemistry (Vol. 37,
1965) mezclas contiendo 4 ingredientes (Xi) fueron preparadas. Las
concentraciones de los componentes variaron en las mezclas para producir tipos
estndares de calibracin (Yi). (Walpole, 1992, p. 421). Los datos de este problema
se dan abajo.

8-50
Dr. Hctor Quevedo Uras

TABLA 8.20. Tabla mostrando los datos del problema de arriba.

Yi X1 X2 X3 X4

0.5514 1.1240 0.8980 0.8219 0.9906


0.4426 0.9285 0.8872 0.9308 0.9944
0.5631 1.1214 0.8030 0.7668 1.1221
0.5624 1.1635 0.8706 0.9272 0.9832
0.4505 0.9415 0.8064 0.9026 1.1127
0.5290 1.0712 0.8404 0.8662 1.0836
0.4702 0.9561 0.8731 0.8206 1.0290
0.5001 1.0186 0.8431 0.8346 1.0591
0.4425 0.9039 0.8314 0.7596 1.0994
(Fuente: Walpole et al. 1992)
(a) Ajustar un modelo lineal de regresin mltiple a los datos de la tabla.
Enseguida, estimar las concentraciones del ingrediente A para una mezcla cuya
tasa de intensidades de rayos-X sean, respectivamente, X1 = 1.10, X2 = 0.900, X3 =
0.800 y X4 = 0.995.
Solucin:
(a) Usando un paquete de computadora y asumiendo un modelo de regresin lineal
mltiple se obtiene la ecuacin de regresin.
Y = -0.3004 + 0.5387X1 + 0.1770X2 0.0704X3 + 0.1506X4
Sustituyendo las variables independientes, se obtiene el valor de la respuesta Y, es
decir:
Y = -0.3004 + 0.538(1.10) + 0.1770(0.90) 0.0704(0.80) + 0.1506(0.995)
= 0.50
Ejemplo #9. Montgomery y Peck (1992) describen el uso de un modelo de
regresin para relacionar la cantidad de tiempo que requiere un vendedor para dar
servicio a una mquina expendedora de artculos y el nmero de empaques
contenidos en la mquina y la distancia del vehculo (pies) de servicio del sitio

8-51
Dr. Hctor Quevedo Uras

donde se encuentra la mquina. Este modelo de regresin mltiple fue utilizado


para disear la ruta, los horarios y la salida de los vehculos. La tabla de abajo
muestra 25 observaciones del tiempo de suministro, nmero de empaques y la
distancia, del vehculo.
TABLA 8.21. Tabla mostrando los datos de suministro.
No. de observacin Tiempo de suministro No. de envases Distancia del vehculo
1 9.45 2 50
2 24.45 8 110
3 31.75 11 120
4 35.00 10 550
5 25.02 8 295
6 16.86 4 200
7 14.38 2 375
8 9.60 2 375
9 24.35 9 100
10 27.50 8 300
11 17.08 4 412
12 37.00 11 400
13 41.95 12 500
14 11.66 2 360
15 21.65 4 205
16 17.89 4 400
17 69.00 20 600
18 10.30 1 585
19 34.93 10 540
20 46.59 15 250
21 44.88 15 290
22 54.12 16 510
23 56.23 17 590
24 22.13 6 100
25 21.15 5 400

(Fuente: Montgomery et al. 1992)

8-52
Dr. Hctor Quevedo Uras

Para este problema calcular los siguientes enunciados:


(a) El modelo de regresin lineal mltiple poblacional.
(b) El modelo de regresin lineal mltiple de la muestra que estima al modelo
poblacional.
(c) Predecir el tiempo de suministro para pares de valores de las variables de
regresin, nmero de empaques (x1) y distancia (x2), cuando x1 = 1 empaque y la
distancia es igual a x2 = 25 pies.
(d) Evaluar el modelo de regresin obtenido usando tcnicas objetivistas y
sujetivistas, como las descritas en este captulo.
Discutir el razonamiento que se sigue en la validacin subjetiva de los grficos.
Solucin:
(a) El modelo de regresin mltiple, para 2 variables independientes es:
Y|x1,x2| = o + 1x1 + 2x2 +
(b) El correspondiente modelo de regresin lineal mltiple muestral es:
Y = bo + b1X1 + b2X2 + e
Donde:
Y = tiempo de suministro
X1 = no de envases
X2 = distancia del vehculo
El modelo de regresin de la muestra es:
Y = 1.74 + 2.78 (X1) + 0.013 (X2)
(c) Para predecir el tiempo de suministro (Y) en relacin con el nmero de envases,
cuando X1 = 1 y con la distancia del vehculo, cuando X2 = 25 pies se obtiene
sustituyendo los valores en la ecuacin de regresin, es decir:
Y = 1.74 + 2.78(1) + 0.013(25) = 4.85
(d) Los resultados objetivistas estadsticos son: R2 = 98.1%; R2ajustada = 97.9%; s =

8-53
Dr. Hctor Quevedo Uras

2.32; PRESS = 159.89.


TABLA 8.22. Tabla mostrando los valores de T y de P. (Elaboracin propia).
Predictor Coeficiente SE coeficiente T P
Constante 1.743 1.155 1.51 0.145
No. de envases 2.790 0.092 30.09 0.000
Distancia del vehculo 0.013 0.003 4.33 0.000
_________________________________________________________________
TABLA 8.23. Tabla de anlisis de varianza. (Elaboracin propia)
Fuente de g.l. SS MS F p
Variacin
Debido a la 2 5984.8 2992.4 555.2 0.000
Regresin
Error 22 118.6 5.4

Total 24

Para la validacin subjetiva del modelo de regresin, analizando las grficas


de los residuos estandarizados, deben existir, aproximadamente, el mismo nmero
de residuos positivos y negativos. Adems, en la prueba de normalidad, todos los
puntos deben estar dentro de las bandas de confianza. El estudiante deber hacer
los diagnsticos subjetivos para complementar la refrendacin o confiabilidad del
modelo de regresin.
Procedimiento de regresin mltiple usando el programa Minitab
Procedimiento:
1. Irse a: Stat Regression Regression
2. En la ventana de Regression aparecen las entradas de la variable
dependendiente (Y) y de las variables independientes X1, X2, en sus columnas
respectivas relacionadas con el problema
8-54
Dr. Hctor Quevedo Uras

3. En la ventanilla de Response (de esta ventana de Regression) entrar la variable


dependiente y, en la ventanilla de Predictors, entrar las variables independientes
(que se copiaron en las columnas del programa).
4. Debajo de esta venta de Regression estn las ventanillas de Graphs, Options,
Results y Storage. Por ejemplo si se desea usar Graphs se pueden seleccionar los
residuales regulares o los estandarizados. En la ventanilla de Option residual
plots, puntear las grficas de las cuatro opciones, para el anlisis subjetivista.
5. En la ventana de Regression-Options puntear las funciones deseadas, v.g.,
variance Inflation factors, Durbin-Watson statistics, PRESS, etc.
6. En la ventana de Regression-Results puntear las funciones deseadas de las
cuatro enlistadas, v.g., In addition de sequential sum..
Ejemplo #10. Este es un ejemplo del libro Applied Statistics: Anlisis of Variance
and Regresion de los autores Dunn y Clark. Esta es una investigacin relacionada
con la temperatura, tomada como la variable de respuesta, en funcin de variables
regresoras como la altitud, longitud y latitud. La tabla de abajo muestra los
resultados. Usando el programa Minitab:
(a) Encontrar el modelo de regresin ms apropiado
(b) Validar el modelo usando metodos estadsticos, es decir, estimando el
coeficiente de determinacin mltiple R2, R2 ajustada, s, PRESS, tabla de ANOVA,
y grficas subjetivistas, como residuos versus rdenes, residuos versus valores
ajustados y pruebas de normalidad.
(c) Hacer comentarios acerca de los resultados

8-55
Dr. Hctor Quevedo Uras

TABLA 8.24. Tabla mostrando los valores de la temperatura en oF (Y), Altitud en


pies (X1), Longitud en grados (X2) y Latitud en grados (X3).
Temperatura (Y) Altitud (X1) Longitud (X2) Latitud (X3)
55.7 1083 112 33
37.8 457 86 38
56.4 312 118 34
51.0 305 90 32
34.5 5221 105 40
34.0 2842 116 44
36.7 807 94 41
33.4 4260 112 41
32.6 815 83 40
49.1 3920 106 32
46.6 1054 84 34
36.3 4397 120 39
18.2 830 93 45
36.7 465 90 39
13.3 1162 92 47
30.1 787 82 41
__________________________________________________________________
Solucin:
(a) Se assume un modelo de regresin lineal
(b) La utilidad del modelo se da por los valores de R2, s, PRESS, etc. mostrados
por las Figuras 8.12 (a), (b) y (c).

Regression Analysis: (Y) Temperatura versus (X1) Altitud, (X2) Longitud (X3)
The regression equation is: (Y) Temperatura = 99.2 - 0.00138 (X1) Altitud + 0.299 (X2)
Longitud - 2.29 (X3) Latitud

Predictor Coef SE Coef T P VIF


Constant 99.24 10.79 9.20 0.000
(X1) Altitud -0.0013780 0.0005968 -2.31 0.040 1.7
(X2) Longitud 0.29877 0.07736 3.86 0.002 1.7
(X3) Latitud -2.2900 0.1779 -12.87 0.000 1.0

8-56
Dr. Hctor Quevedo Uras

s = 3.12166, R-Sq = 94.6%, R-Sq(adj) = 93.2%, PRESS = 214.855, R-Sq(pred) = 90.08%

Analysis of Variance Table

Source DF SS MS F F crtica P
Regression 3 2048.54 682.85 70.07 F.05;3,12 = 3.49 <<< 0.001
Residual Error 12 116.94 9.74
Total 15 2165.48

Durbin-Watson statistic = 1.53384

(a) (b) (c)


Residuals Versus the Order of the Data Residuals Versus the Fitted Values Normal Probability Plot of the Residuals
(response is (Y) Temperatura) (response is (Y) Temperatura) (response is (Y) Temperatura)

2 2 99

95
90
1
Standardized Residual

1
Standardized Residual

80
70

Percent
60
0 0 50
40
30
20
-1 -1
10

-2 -2 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 20 30 40 50 60 -3 -2 -1 0 1 2 3
Observation Order Fitted Value Standardized Residual

Figura 8.12. La Figura (a) muestra los residuales vs. rdenes; la figura (b) muestra
los residuales vs. los valores ajustados y la figura (c) da la prueba de normalidad.
(c) En conclusin, de acuerdo a los valores del coeficiente de determinacion R2 =
95.6% hay un buen ajuste del modelo. El valor de F de la ANOVA rechaza la
hiptesis de igualdad de promedios (de altitud, longitud y latitud), con un valor de
p muy significativo. Las pruebas de T son significantes, lo que sugiere que no hay
problemas de multicolinealidad. Anlogamente, los valores bajos de VIF sugieren
indican que no hay problemas de multicolinealidad. Esto, aunado, a los signos de
las variables regresoras de la ecuacin de regresin, los cuales si estn de acuerdo a
una lgica a posteriori. El valor de la funcin de Durbin-Watson Statistic o de
correlacin en serie igual a 1.53384 indica que no hay problemas de
autocorrelacin (aunque aqu, esto se puede ignorar porque el problema no
involucra series de tiempo). En cuanto a la Figura 8.12 la grfica (a) muestra los
residuales versus los rdenes, en la cual hay aleatoriedad de los datos.
Anlogamente, la grfica de residuales vs. valores ajustados (b) indica alateoridad
8-57
Dr. Hctor Quevedo Uras

o independencia de los datos, sin problemas de heteroscedasticidad (errores de


varianzas no constantes), etc. Finalmente, la grfica de la prueba de normalidad (c)
indica que los datos estn normalmente distribuidos (porque todos los puntos estn
dentro de las bandas de confianza), aunque con sesgo positivo.
Nota: Cree usted qu, eventualmente, el calentamiento global, debido a las
emisiones de gases de invernadero, generados por emisiones vehiculares e
industriales va a modificar las temperaturas que van en funcin de la latitud?
Ejemplo #11. Este es un ejemplo hiptetico mostrando la relacin entre las
concentraciones de ozono artificial, a nivel del suelo (ppm) y las temperaturas (oF).
Este ejercicio est encaminado a calcular, manualmente, los residuales y de hacer
una grfica mostrando los residuales crudos. Los datos se dan en la tabla de abajo.
TABLA 8.25 mostrando los datos de este problema.
__________________________________________________________________
Concentraciones de O3 (y)| 75 80 86 94 99 107
__________________________________________________________________
Temperatura (oF) (x) | 65 71 79 85 93 100

Hacer los siguientes clculos:


(a) Calcular el modelo de regresin y medir su adecuacin estimando R2, R2(ajust.),
s, PRESS y la estadstica Durbin-Watson
(b) Hacer una tabla mostrando el valor de la desviacin entre los datos y el ajuste,
es decir, de los residuales regulares o crudos ei = yi y i.
(c) Hacer una grfica de O3 (y) y temperaturas (x) mostrando los residuales crudos
Solucin:
(a) Usando un paquete de computadora da la ecuacin de regresin:
Concentracin de ozono ( y ) = 15.4 + 0.909 Temperatura (x)
s = 1.101, R2 = 99.3%, R2(ajust.) = 99.2%, PRESS = 9.42837, estadstica Durbin-Watson = 3.33
(b) La TABLA 8.26 muestra los valores ajustados ( y i), los residuales y SSE.

8-58
Dr. Hctor Quevedo Uras

TABLA 8.26. Tabla mostrando los datos del problema.


____________________________________________________________________________________________
Residual crudo Suma de los cuadrados del error
i xi yi y i = 15.44 + 0.909 x ei = yi - y i SSE = (yi - y i)2
_________________________________________________________________________________________________________________________________________

1 65 75 y 1 = 74.53 75 74.53 = 0.48


0.2304
2 71 80 y 2 = 79.98 80 79.98 = 0.02
0.0004
3 79 86 y 3 = 87.25 86 87.25 = -1.25
1.5625
4 85 94 y 4 = 92.71 94 92.71 = 1.30
1.6900
5 93 99 y 5 = 99.98 99 99.98 = -0.98
0.9604
6 100 107 y 6 = 106.34 107 106.34 = 0.66
0.4356
(yi - y i) = 4.8793
2

__________________________________________________________________________________________

(c) La Figura 8.13 de abajo muestra las concentraciones de ozono en funcin de las
temperaturas con los valores de los residuales ei.

8.13. Figura mostrando la medicion de cada uno de los valores residuales con la
lnea de regresin. (Elaboracin propia).

8-59
Dr. Hctor Quevedo Uras

Ejercicios Captulo 8

8.1. Los datos de abajo muestran las emisiones de xidos de nitrgeno (NOx)
provenientes de calderas de plantas elctricas.
Tabla mostrando los datos para el problema. (Elaboracin propia)
__________________________________________________________________
MBtu/hr-ft2 (X) |100 125 125 150 150 200 200 250 250 300 300 350 400 400

NOx (Y) |150 140 180 210 190 320 280 400 430 440 390 600 610 570

(a) Calcular la ecuacin de regresin de la muestra que estima a la verdadera ecuacin


poblacional. (Y = -24.2 + 1.59X)
(b) Calcular el coeficiente de correlacin R2 y R que estiman a . (R2 = 0.95)
(c) Cul es la estimacin esperada de la emisin de NOx cuando la tasa de liberacin
es de 225 MBtu/hr-ft2? (333.67)
(d) Usar el programa de computadora de Minitab y analizar las grficas de los
residuos para la prueba de normalidad y de los residuos en funcin del valor de X. (El
lector lo deber hacer)
8.2. Este es un ejemplo del libro de Introduccin al Analisis de Regresin Lineal de
Mongomery et al. (2001), donde habla de un ejemplo relacionado con las
concentraciones de ozono de debido al calor. As, Davidson (Update on Ozone
Trenes in Californias South COSAT Basin, Air and Waste, 43, 226, 1993) estudio
las concentraciones de ozono en la cuenca area de la costa sur de California, durante
los aos 1976 a 1991. Se cree que la cantidad de das en que las concentraciones de
ozono fueron mayores que 0.20 ppm depende del ndice metereolgico estacional,
que es el promedio estacional de la temperatura con 850 milibares. La siguiente
informacin muestra los datos.
8-60
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema.


___________________________________________________________________
Ao No. de Das (y) ndice meteorolgico
___________________________________________________________________
1976 91 16.7
1977 105 17.1
1978 106 18.2
1979 108 18.1
1980 88 17.2
1981 91 18.2
1982 58 16.0
1983 82 17.2
1984 81 18.0
1985 65 17.2
1986 61 16.9
1987 48 17.1
1988 61 18.2
1989 43 17.3
1990 33 17.5
1991 36 16.6
__________________________________________________________________
Fuente: Montgomery et al. 2001
(a) Estimar la ecuacin de regresin
(b) Qu tanta confiabilidad se le puede dar al modelo seleccionado? Usar enfoques
estadsticos y grficos para justificar esta pregunta.
8.3. En un estudio agrcola, para ver los efectos de los cambios climticos globales
relacionado, con los patrones pluviales alterados debido al calentamiento global, por
las emisiones de CO2, se estudi la precipitacin pluvial anual y el rendimiento de la
cosecha de gramneas. La tabla de abajo da los datos.

8-61
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema. (Elaboracin propia)


Precipitacin pluvial Rendimiento de la cosecha
en pulgadas (X) en libras por acre (Y)
7.12 1037
63.54 380
47.38 416
45.92 427
8.68 619
50.86 388
44.86 321
___________________________________________________________________

Ver cul modelo de regresin encaja mejor en los datos, al juzgar por las estadsticas
y por los anlisis grficos, es decir, usando una aproximacin lineal, una logartmica
y una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln(a) + b(LnX).
(a) Usar una aproximacin lineal como Y = a + bX y, adems, calcular el coeficiente
de determinacin R2. (Y = 880.4 9.6 (X), R2 = 0.699)
(b) Usar una aproximacin logartmica como Y = a + b Ln (X) y adems, calcular el
valor de R2. (Y = 1331.08 557.03 Lg X)
(c) Usando una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln (a)
+ b (Ln X) y, adems, calcular R2 (R2 = 0.829)
8.4. En un estudio de qumica analtica, en la tabla de abajo se da la relacin entre la
temperatura y la molaridad (en moles por litro) de una sustancia. Para esto hacer los
siguientes:
(a) Estimar el modelo de regresin ms apropiado basado en anlisis estadsticos de
R2, R2ajustada, PRESS, s, y Cp y en anlisis grficos subjetivos de los valores
8-62
Dr. Hctor Quevedo Uras

residuales.
Tabla mostrando la informacin requerida.
_________________________________________________________________
Temperatura oC | 4.3 4.5 4.8 5.5 5.7 5.9 6.4 6.7 7.5 7.9
_________________________________________________________________
Molaridad | 12.1 12.5 12.9 13.0 13.1 14.0 14.2 14.8 15.0 15.5
_________________________________________________________________

8.5. El aluminio es el tercer elemento ms abundante que ocurre en minerales, rocas


y barros. El aluminio se puede analizar con el mtodo de absorcin atmica
espectromtrica (mtodo A), el cual est exento de interferencias como fluoruros y
fosfatos. El aluminio tambin se puede analizar por medio del mtodo de
calorimetra de cianuro de Eriocromo R (mtodo B), el cual es ms simple que el
anterior. La tabla de abajo muestra los resultados de los anlisis (en mg/L) de los dos
mtodos usados. Hacer los siguientes clculos usando el programa de computadora
de Minitab o SAS.
(a) Calcular e interpretar el coeficiente de determinacin R2 y el coeficiente de
correlacin R. (R2 = 0.9922, R = 0.9961)
Tabla mostrando los datos del ejemplo. (Elaboracin propia)

Mtodo A | 5 6 6 8 10 10 11 11

Mtodo B | 8 9 9 11 13 13 14 14

8.6. El berilio (Be) y sus compuestos son extremadamente venenosos y capaces de


causar la muerte en concentraciones altas. La inhalacin del Be causa una seria
afeccin llamada beriliosis. El berilio tambin puede causar dermatitis, conjuntivitis,
neumona aguda y beriliosis pulmonar crnica. Este elemento qumico se usa en los
reactores atmicos, aviones, cohetes y en combustibles para msiles. Hay dos

8-63
Dr. Hctor Quevedo Uras

mtodos para el anlisis (en g/L) del berilio, es decir, el mtodo espectromtrico de
absorcin atmica (mtodo 1) y el mtodo aluminon (mtodo 2). Los resultados de
los anlisis de los dos mtodos se dan en la tabla de abajo. Hacer los siguientes
clculos:
(a) Hacer un estudio estadstico objetivista, es decir, estimando los valores de R2,
R2ajustada, PRESS, s y tablas de ANOVA. Complementar el estudio haciendo anlisis
subjetivistas.
Tabla mostrando los resultados de los mtodos 1 y 2 para la medicin del berilio.
(Elaboracin propia)
Mtodo 1 | 0 3 4 5 9 12 15 17 20 20
Mtodo 2 | 1 7 11 19 24 31 31 35 41 41

8.7. En investigaciones de toxicologa existen estudios que han demostrado que la


probabilidad de qu, un fumador de 40 aos de edad, quien ha sido fumador los
ltimos 10 aos contraiga el cncer pulmonar en los prximos 20 aos es alta
(asumiendo que contine fumando al mismo ritmo). Esta relacin va en funcin del
nmero promedio de cigarrillos que fuma. Asumir un modelo de regresin lineal. La
tabla de abajo presenta los datos de esta investigacin de toxicologa.

8-64
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema. (Elaboracin propia)


Nmero de cigarrillos Probabilidad de cncer
fumados por da pulmonar
5 .100
10 .113
20 .225
30 .300
40 .450
50 .540
60 .700
80 .860
Hacer los siguientes clculos:
(a) Identificar la variable dependiente y la variable independiente.
(b) Describir la ecuacin de regresin que mejor encaje en los datos. (Y = 0.0981
0.00002(X) + 0.0003(X 2))
(c) Calcular R2, R2ajustada, s, y PRESS. (R2 = 0.996, R2ajustada = 0.995 s = 0.019,
PRESS = 0.0038)
(d) Analizar e interpretar los componentes de la tabla de ANOVA como Fcalc., Fcrtica
y el valor de p.
(e) Discutir la relacin existente entre R2, s, PRESS, Fcalc., y el valor de p.
(f) Validar el modelo de regresin subjetivamente, es decir, analizando los grficos
de los residuos estandarizados.
8.8. Se realiz un estudio de qumica ambiental y se registraron las cantidades de
cloruro de sodio (NaCl), el cual, cuando se disolvi en 100 gramos de agua destilada,
a diferentes temperaturas (oC) dio los siguientes resultados:

8-65
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema. (Elaboracin propia)


___________________________________________________________________
Temperatura (X) NaCl disuelto en gramos de agua (Y)
0 8 6 8
15 12 10 14
30 25 21 24
45 31 33 28
60 44 39 42
75 48 51 44

Calcular los siguientes enunciados:


(a) Graficar los datos.
(b) Encontrar la lnea de regresin y ponerla en la grfica.
(c) Estimar la cantidad de NaCl que se disolver a una temperatura de 300 K.
(d) A sabiendas de que, a medida que aumenta la temperatura, la disolucin de las
sustancias, como las sales de sodio, aumenta proporcional al incremento de la
temperatura, entonces, siendo as, verificar de que hay una correlacin casi perfecta
entre ambas variables.
(e) Hacer una prueba de hiptesis para el coeficiente de correlacin muestral R, para
verificar que si existe una asociacin lineal significante entre las dos variables.
Sugerencia: usar la estadstica de t de Estudiante dada abajo:
t= R 2
con = n - 2 grados de libertad.
1 R n 2

(f) Tericamente, la disolucin de muchas sales va en funcin directa a la


temperatura y, en teora, el valor del coeficiente de determinacin, R2 debera de ser
de 1.0. Siendo as, enlistar 2 factores (en el laboratorio de qumica) que pudieran
afectar la disolucin de las sales y de no dar un valor menor que 1.0.
8.9. En un estudio de meteorologa entre la cantidad de lluvia y la remocin de

8-66
Dr. Hctor Quevedo Uras

contaminantes atmosfricos, se dio la siguiente informacin:


Tabla mostrando los datos. (Elaboracin propia)

Precipitacin (X) Remocin de partculas (Y)


(0.01 cm./da) (g/m3)
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108

(a) Calcular la remocin de contaminantes (Y) cuando el valor de la precipitacin


pluvial es de X = 8.0. (102.44)
(b) Validar el modelo de regresin objetiva y subjetivamente.
8.10. En un estudio para evaluar la capacidad de los sistemas de flujo fretico
(wetlands), usados para la degradacin de la materia orgnica de las aguas residuales
se uso el parmetro de la demanda bioqumica de oxgeno (DBO) y varios otros
componentes qu
micos. Este estudio dio como resultado los siguientes datos. Estos
resultados estn relacionados con la carga de masa de DBO (en Kg./hectrea/da), la
cual se us como la variable independiente (X) y, la degradacin de la concentracin
de masa carbonosa de DBO5 (en Kg./ha/da), la cual se uso como la variable
dependiente (Y). (Fuente de informacin es Surface Floor Wetlands: A Performance
Evaluation. Water Environ. Res., 1995, pp.244-247).

8-67
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema.

(X) | 3 8 10 11 13 16 27 30 35 37 38 44 103 142

(Y) | 4 7 8 8 10 11 16 26 21 9 31 30 75 90

(Fuente: Water Environ. Res., 1995)

Calcular los siguientes enunciados:

(a) Graficar los datos


(b) Establecer el modelo de regresin ms apropiado para este problema. Hacer los
mismos clculos que el problema anterior.
(c) Validar el modelo de regresin seleccionado, objetivistamente, usando los
siguientes criterios o diagnsticos:
(1) Clculo del coeficiente de determinacin R2
(2) Clculo del coeficiente de determinacin ajustado, R2ajustado
(3) El coeficiente de correlacin R
(4) La estadstica PRESS
(5) El error estndar de lo estimado, s (Util para medir la utilidad del modelo. Se
selecciona el modelo que tenga el valor de s ms pequeo)
(d) Evaluar el modelo candidato a travs de los siguientes criterios grficos:
(1) Prueba de normalidad
(2) Residuales en funcin de los ordenes
(3) Residuales en funcin de los valores ajustados
(e) Una vez que se haya seleccionado el modelo ms apropiado, calcular la
remocin del DBO despus de que el agua residual se degrad en el wetland cuando
la carga fue de 50 Kg./ha/da.

8-68
Dr. Hctor Quevedo Uras

Nota: Los sistemas de flujo fretico (reas pantanosas) se usan como sistemas de
tratamiento natural, porque tienen la capacidad de degradar las concentraciones
carbonosas de DBO actuando como especie de lagunas de oxidacin. En Minatitln
y Coatzacoalcos, Veracruz, se usan estos tipos de tratamientos naturales.
Solucin:
De acuerdo a la tabla de arriba se le pide al lector decidir, cul modelo es superior.
8.11. El texto de Daniel, W.W., James C. Terrell Business Statistics (1989), p. 257
mencionan el problema del envenenamiento del ganado vacuno, por los insecticidas
el cual es un problema muy serio, porque los pesticidas tienen la facultad de
acumularse en los tejidos de los animales y, de ah se pasan a aquellas personas que
los consumen. As, en aos recientes, los ambientalistas se han preocupado mucho
por los efectos, en el medio ambiente, debido al uso indiscriminado de insecticidas.
Es verdad que los insecticidas matan los insectos, pero tambin matan todo lo dems.
De esta manera, los insecticidas contaminan los frutos de las plantas, a los animales y
tambin a la gente. Los investigadores Mount y Oehmet estudiaron los efectos de los
insecticidas en las ovejas relacionada con la actividad enzimtica en el cerebro.
Adems, de otros anlisis estadsticos, estos cientficos derivaron una lnea de
regresin que describe las relacin entre la actividad enzimtica en el cerebro de las
ovejas (Y) y el tiempo, en horas, despus de que las ovejas has sido expuestas a los
insecticidas (X). La funcin de la lnea de regresin estimada por estos cientficos se
da abajo.
Y = 27.32 + 1.36 X
Basando el criterio en esta ecuacin, estimar lo siguiente:
(a) Si despus de que han pasado 30 horas, cuando las ovejas han sido expuestas a
los insecticidas, Cul sera el valor de la actividad enzimtica? (68.12)
(b) Si el coeficiente de correlacin muestral se da como R = 0.86 y, el coeficiente de

8-69
Dr. Hctor Quevedo Uras

determinacin es R2 = 0.74 (el que mide la fuerza de la relacin lineal entre X e Y, es


decir, el % de asociacin entre las dos variables), entonces, hacer una prueba de
hiptesis con Ho: = 0, contra H1: 0 (que es lo mismo que decir que no hay
asociacin lineal entre X e Y). Asumir que el tamao de la muestra es de n = 16 y el
nivel significante de = 0.05.
Para esto, seguir las siguientes sugerencias:
Usar la distribucin de t con = n 2 grados de libertad y usar las regiones crticas
dadas por t[1-/2;].
8.12. En estudios de qumica, la presin de un gas que corresponde a varios
volmenes (de acuerdo a la ley de los gases de Boyle) se da en la tabla de abajo.
Asumir que el volumen del gas es (X) y la presin es (Y). Hacer los siguientes
clculos:
(a) Hacer una grfica con los datos.
(b) Estimar la lnea de regresin de la muestra.
(c) Estimar el coeficiente de determinacin R2 y el coeficiente de correlacin R.
Interpretar los resultados.
(d) Predecir la presin del gas, cuando el volumen es .001 m3
(e) Predecir la presin del gas, en libras por pulgada cuadrada (lbs/in2) y, en
atmsferas (atm), cuando el volumen del gas es de 0.0528 cuartos (.05 L).
(f) En teora, debido a que la relacin entre el volumen del gas y la presin es
inversamente proporcional, el coeficiente de correlacin debera ser de R = -1.0. Sin
embargo, si R difiriera del valor de -1.0, enlistar 3 factores que pudieran intervenir
para explicar esta situacin.

8-70
Dr. Hctor Quevedo Uras

Tabla mostrando los volmenes y las presiones del gas. (Elaboracin propia)

Volumen en cm3 | 50.0 60.0 70.0 90.0 100.0

Presin en Kg./cm2 | 64.7 51.3 40.5 25.9 7.8

Sugerencias: Se dan los siguientes factores de conversin: 1 atm = 14.7 lbs/in2 = 760
torr = 1.0668 kg/cm2; 1 cm2 = 0.16 in2; 1.0567 cuartos = 1 L; 1 pulgada cuadrada =
6.25 cm2; 1 m3 = 1000 L. = 106 cm3.
8.13. Se coleccion una muestra de 33 casos de una descarga de aguas residuales
municipales. Esta muestra se analiz para la demanda bioqumica de oxgeno de 5
das (DBO5), en libras por da, y la demanda qumica de oxgeno, DQO (en libras por
da). La tabla de abajo muestra la informacin requerida.
Tabla mostrando las mediciones de DBO5 y DQO. (Elaboracin propia)
Demanda qumica de oxgeno Demanda bioqumica de oxgeno
(lbs/da) (lbs/da)

494 486 216 202


444 556 200 240
528 600 238 280
396 428 164 184
532 440 230 194
308 291 116 134
350 490 150 215
456 545 190 246
440 582 190 292
544 368 248 177
309 386 120 193
538 400 226 165
480 347 200 160
500 278 222 125
396 304 176 137

8-71
Dr. Hctor Quevedo Uras

Hacer lo siguiente:
(a) Ver su existe una correlacin significante usando los valores R del DBO5 y el
DQO. (R = 0.9677, R2 = 0.9360)
(b) Interpretar el valor del coeficiente de correlacin R y el coeficiente de
determinacin R2. Usar el programa Minitab o EXCEL para hacer el clculo pedido.

Nota. La demanda bioqumica de oxgeno de 5 das (DBO5) mide la concentracin,


en mg/L o en libras por da de la materia carbonosa del agua residual. De hecho el
DBO mide la fraccin biodegradable del drenaje, o del agua residual industrial o
domstica, en trminos del carbono. Usualmente, las unidades son en mg/L. Sin
embargo, esto se debe a que, anteriormente, se usaba indiscriminadamente las
unidades de ppm y mg/L. Despus, se vio que, con los residuos txicos, la gravedad
especfica era diferente a la de los residuos carbonosos. Por esta razn es mejor usar
las unidades de mg/L. Por otra parte, la prueba del DBO es de 5 das, para evitar la
nitrificacin. En cambio, la prueba de la demanda qumica de oxgeno mide los
compuestos orgnicos biodegradables y los compuestos orgnicos txicos. Esto
quiere decir que, la demanda qumica de oxgeno (DQO) oxida la cantidad de
materiales totales oxidables presentes en el agua residual y vara con la composicin
del agua, la temperatura, el periodo de contacto y otros factores ms.

8.14. Considerar los datos de abajo relacionados con el peso del vehculo y el
rendimiento de gasolina. El peso del auto se da en toneladas y, el rendimiento del
combustible se da en millas galn. Los datos se dan abajo.

8-72
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del los modelos vehiculares en funcin del peso en
toneladas (X), y de millas por galn (Y).
________________________________________________________________
Modelo vehicular Peso (toneladas) Millas/galn

Buick Estate Wagon 4.36 16.9


Ford Country Squire Wagon 4.05 15.5
Chevy Malibu Wagon 3.61 19.2
Chrysler Le Baron Wagon 3.94 18.5
Toyota Corona 2.56 27.5
Datsun 510 2.30 27.2
Dodge Omni 2.23 30.9
Audi 5000 2.83 20.3
Volvo 99 GLE 3.14 17.0
Saab 99 GLE 2.80 21.6
Peugot 694 SL 3.41 16.2
Buick Century Special 3.38 20.6
Mercury Zephyr 3.07 20.8
Dodge Aspen 3.62 18.6
AMC Concord D/L 3.41 18.1
Chevy Caprice Classic 3.84 17.0
Ford LTD 3.73 17.6
Mercury Grand Marquis 3.96 16.5
Ford Mustang 2.59 26.5
Mazda GLC 1.98 34.1
Dodge Colt 1.92 35.1
VW Scirocco 1.99 31.5
Honda Accord LX 2.14 29.5
Buick Skylark 2.67 28.4
Chevy Citation 2.60 28.8
Oldsmobile Omega 2.70 26.8
Plymouth Horizon 2.20 34.2
Datsun 210 2.02 31.8
VW Dasher 2.19 30.5
Datsun 810 2.82 22.0
BMW 3210 2.60 21.5
VW Rabbit 1.93 31.9

(Fuente: Probabilidad y Estadistica Aplicadas a la Ingenieria. Montgomery et al.


1996)
Hacer los siguientes clculos usando el programa Minitab.
(a) Estimar la lnea de regresin entre las variables peso del vehculo y el

8-73
Dr. Hctor Quevedo Uras

rendimiento de gasolina.
(b) Estimar el coeficiente de correlacin de la muestra R (llamado tambin
coeficiente de correlacin de producto-momento de Pearson) y el coeficiente de
determinacin muestral R2.
(c) Hacer una grfica que vaya en funcin de Y y X, trazarla en la grfica y tambin
trazar la lnea horizontal usando el valor del promedio de Y.
(d) Hacer una tabla de ANOVA.
(e) Estimar los intervalos de confianza para y las probabilidades
correspondientes para cada uno de stos.
(f) Qu otros factores tendran que considerarse, para que el modelo de regresin
fuera ms confiable?
8.15. Los metales pesados como el Hg, Cr, Pb, etc., pueden interferir con el
tratamiento biolgico en las plantas municipales de aguas residuales domsticas. En
este estudio se hicieron mediciones mensuales en una planta modelo de tratamiento
de las concentraciones de cromo, Cr, en mg/L, tanto en el efluente como en la
entrada. Los resultados de las concentraciones de Cr se dan en la tabla de abajo.
Tabla mostrando los datos. (Elaboracin propia)
Entrada (X) | 250 290 270 100 300 410 110 130 1100
(g/L)
Efluente (Y) | 19 10 17 11 70 60 18 30 180
(g/L)

Hacer los siguientes clculos:


(a) Hacer un diagrama de dispersin en papel aritmtico.
(b) Hacer un diagrama esparcido en papel semilogaritmo y logaritmo completo
(transformacin de los ejes).
(c) Calcular los modelos de regresin para las partes (a) y (b).
(Y = -9.06 + 0.17X; Y = -1.96 + 0.97X)
8-74
Dr. Hctor Quevedo Uras

(d) Estimar Y cuando X = 350 en incisos (a) y (b).


(e) Calcular el coeficiente de correlacin para (a) y (b). (R2 = 0.9425, R = 0.7469)
(f) Comentar sobre lo apropiado de Y y de R en cada caso.
8.16. En un estudio de microbiologa ambiental relacionado con el cultivo de una
muestra de agua se dan los siguientes datos.
Tabla mostrando los datos. (Elaboracin propia)
Tiempo en das desde | 3 6 9 12 15 18
la inoculacin (X)
___________________________________________________________________
No. de bacterias (Y) | 115,000 14,700 23,900 35,600 57,900 86,400

Hacer los siguientes clculos:


(a) Trazar una curva Ln Yi versus Xi para ver qu tan bien se puede ajustar una curva
exponencial a los datos.
(b) Trazar una curva Yi versus Xi para ver que tambin se puede ajustar una lnea
recta a los datos.
(c) Por interpolacin, usando ambas grficas estimar el nmero de bacterias despus
de 20 das. Cuantificar las diferencias en ambos casos.
8.17. En el libro de J. L Devore, Probabilidad y Estadstica para Ingeniera y
Ciencias se da una investigacin relacionada con la temperatura (oC) y la
profundidad de la nieve acumulada en el suelo. Para esto se la tabla de abajo:
Tabla mostrando los datos del problema.
_______________________________________________________________
Temperatura (oF) | -62 -41 -36 26 -33 -56 -50 -66
_______________________________________________________________
Profundidad de la | 21 13 12 3 6 22 14 19
capa de nieve
_______________________________________________________________
(Fuente: Devore 2001) .

(a) Identificar la variable dependiente (Y) y la variable independiente (X).


8-75
Dr. Hctor Quevedo Uras

(b) Estimar un modelo de regresin lineal. (Y = 5.71 0.202(X), R2 = 0.741, s =


3.759, PRESS = 409.02, F = 17.8, p = 0.006)
(c) Estimar un modelo cuadrtico. (Y = 3.3 0.0943(X) + 0.0029(X 2), s = 0.019, R2
= 0.996, PRESS = 0.0038, F = 14.98, p = .008)
(d) Estimar un modelo cbico. (Y = 9.96 0.139(X) + 0.0189(X 2) + 0.00022(X 3),
R2 = 0.914, s = 2.656, PRESS = 8007.75, F = 14.14, p = 0.14)
(e) De acuerdo a los resultados estadsticos, Cul de los tres modelos es superior?
8.19. La tasa de flujo en m3/min en un muestreador de alto volumen para medir la
calidad del aire, es decir, para partculas atmosfricas, depende de la cada de
presin, en pulgadas de agua, a travs del filtro del muestreador. Siendo as,
supngase que se coleccion una muestra de 15 valores de cada de presin y la tasa
de flujo del aire a travs del filtro del sensor. Los datos se dan en la tabla de abajo.
Tabla mostrando los datos para este problema. (Elaboracin propia)
Tasa de flujo del aire con Cada de presin despus de
3
las partculas (m /min) algn tiempo (pulgadas de agua)
2.00 5.0
1.99 6.0
1.88 7.0
1.76 7.8
1.68 8.4
1.57 9.6
1.46 9.9
1.40 10.6
1.39 11.7
1.20 14.0
1.15 15.9
1.07 19.0
1.01 24.0
1.00 28.0
0.95 35.0

(a) Calcular el modelo de regresin muestral que estime a la verdadera lnea


8-76
Dr. Hctor Quevedo Uras

poblacional. Para esto, identificar, primeramente, la variable dependiente y la


variable regresora. (Y = 1.95 0.0364 (X))
(b) Validar el modelo de regresin estimado en (a) usando enfoques subjetivos, es
decir, a travs de grficas con residuos estandarizados versus valores de cada de
presin. Tambin hacer otra grfica de residuos estandarizados versus los renglones.
Hacer otra grfica ms con los valores residuales versus los valores de z para la
prueba de normalidad.
(c) Complementar la validacin del modelo de regresin usando mtodos estadsticos
objetivistas. Para esto, estimar el coeficiente de determinacin R2, el error estndar
de lo estimado (s dado por el Minitab) y PRESS. Usar el programa Minitab para
estos clculos. (R2 = 76.0%, s = 0.1869, PRESS = 0.7405)
8.21. Se hace un estudio sobre la concentracin de cadmio atmosfrico, en ppm, yi y
su relacin con Xi = la altura de los muestreadores y X2 = distancia de la fuente
emisora. La tabla de abajo muestra los datos. Hacer los siguientes clculos:
(a) Ajustar el modelo de regresin que pueda ajustar a los datos del problema de la
concentracin de Cd. (Y = 350.99 1.27X1 0.154X2)
(b) Validar el modelo usando enfoques de diagnstico de estadstica de inferencia
(objetivistas) y de anlisis grfico (subjetivistas).
(c) Usar el modelo de regresin lineal mltiple para predecir el la concentracin de
cadmio, cuando la altura del muestreador es de X1 = 25 metros y la distancia de la
fuente emisora, es X2 = 851 metros. (188.2 ppm de Cd)
La tabla de abajo muestra los datos requeridos por este problema.

8-77
Dr. Hctor Quevedo Uras

Tabla mostrando los datos. (Elaboracin propia)


y (concentracin de Cd) | 193 230 172 91 113 125
X1 (Altura del muestreador) | 1.6 15.5 22.0 43.0 33.0 40.0
X2 (Distancia) | 851 816 1058 1201 1357 1115

8.22. El texto Applied Statistics: Analysis de Variance and Regression de los


investigadores Olive Dunn y Virginia Clark, discuten un ejemplo para predecir el
rendimiento de la cosecha de cebada, en funcin de la precipitacin pluvial X1 y la
temperatura X2. Para esto, hacer los siguientes clculos:
(a) Enlistar el modelo de regresin lineal mltiple que mejor ajuste a los datos.
(b) Estimar la ecuacin de los cuadrados mnimos que ajuste el rendimiento de trigo
(Y) a la precipitacin pluvial (X1) y la temperatura (X2).
(c) Probar la hiptesis de Ho: 2 = 0 con = 0.05.
(d) Estimar el coeficiente de correlacin parcial 2y.1 y probar Ho: 2y.1 = 0
(e) Validar el modelo de regresin derivado para ver, qu tanta confiabilidad se le
puede acreditar. Hacer esto, a travs de juicios objetivistas, como los diagnsticos R2,
R2ajustada, R2predecida, s, PRESS y Cp. Complementar la evaluacin del modelo usando
tcnicas subjetivistas, como los anlisis de los grficos de residuales estandarizados y
estudiantizados, prueba de normalidad, etc.

8-78
Dr. Hctor Quevedo Uras

Tabla mostrando los rendimientos de cebada como variable dependiente de la


precipitacin pluvial y la temperatura.
Rendimiento de cebada (yi) Precipitacin (x1) Temperatura (x2)
(fanegas/acre) (pulgadas) (oF)
21.0 45 54.1
20.0 47 61.6
21.0 33 50.8
24.0 39 52.1
20.0 30 50.2
12.5 28 57.1
19.0 41 55.7
23.0 44 57.6
23.0 31 50.1
19.0 29 38.0
21.0 34 56.2
12.0 27 51.5
21.0 42 54.1
27.0 35 46.7
17.5 43 60.8
26.0 39 56.9
11.0 31 60.3
24.0 42 54.6
26.0 43 53.5
18.5 47 64.0
15.5 25 45.7
(Fuente: Dunn et al. 1974. Applied Statistics: Analysis de Variance and Regression)

8.23. El texto Applied Statistics: Analysis de Variance and Regression de Dunn et al.
1974) hace un estudio mdico relacionado con el cambio de la hemoglobina de la
sangre de operaciones de la glndula tiroides, el cual est relacionado con la duracin
de la operacin quirrgica y el cambio en el porcentaje de la hemoglobina de la
sangre. Los datos se dan en la tabla de abajo.

8-79
Dr. Hctor Quevedo Uras

Tabla mostrando los datos.


________________________________________________________________
No. de paciente | 1 2 3 4 5 6 7 8
Prdida de sangre (x1) | 105 80 86 112 109 100 96 120
Duracin en minutos (x2) | 503 490 471 505 482 490 513 464
% de cambio de
hemoglobina (y1) | -1.7 -4.6 -9.8 -1.1 -4.1 -3.3 0.4 -2.9
________________________________________________________________
Fuente: Dunn et al. 1974
Hacer los siguientes clculos:
(a) Encontrar el modelo de regresin mltiple para predecir el porcentaje del cambio
de la hemoglobina (y) en funcin de las variables independientes, es decir, duracin
de la operacin (x1) y de la prdida de sangre (x2). (y = -84.002 + 0.129x2
+ 0.138x2)
(b) Predecir el % del cambio en la hemoglobina, cuando la duracin en minutos de la
operacin es de 80 y la prdida de sangre es de 350 ml. (25.38%)
(c) Discutir, qu tanta fidelidad se le puede otorgar al modelo de regresin mltiple
obtenido en este problema?
(d) Calcular el coeficiente de determinacin mltiple. (R2 = 0.813)
(e) Calcular el coeficiente parcial de correlacin, es decir, entre y y x1, con x2
constante. (0.793)
8.24. El libro de Jay L. Devore intitulado Probabilidad y Estadstica para Ingeniera
y Ciencias discute el diseo eficiente de ciertos incineradores de desperdicios
municipales, los cuales requieren de informacin acerca del contenido energtico de
los desperdicios. Acordemente, los autores del artculo Modelling the Energy
Content of Municipal Solid Waste Using Multiple Regression Techniques (J. of the
Air and Waste Mgmt. Assoc., 1996, pp. 650-656) proporcionaron los siguientes datos
acerca de Y = contenido energtico (Kcal/Kg.), en funcin de regresores % de

8-80
Dr. Hctor Quevedo Uras

plsticos en peso, % de papel en peso, % de basura en peso y % de humedad de peso.

Tabla mostrando los datos de este problema.


_______________________________________________________________________________________________
Obs. % Plstico (x1) % Papel (x2) % Basura (x3) % Humedad Contenido energtico (y)
_______________________________________________________________________________________________
1 18.69 15.65 45.01 58.21 947
2 19.43 23.51 39.69 43.61 1407
3 19.24 24.23 43.16 46.63 1452
4 22.64 22.20 35.76 45.85 1553
5 16.54 23.56 41.20 55.14 989
6 21.44 23.65 35.56 42.24 1162
7 19.53 24.45 40.18 47.20 1466
8 23.97 19.39 44.11 43.82 1656
9 21.45 23.84 35.41 51.01 1254
10 20.34 26.50 34.21 49.06 1336
11 17.03 23.46 32.45 53.23 1097
12 21.03 26.99 38.19 51.78 1266
13 20.49 19.87 41.35 46.69 1401
14 20.45 23.01 43.59 53.57 1223
15 18.81 22.62 42.20 52.98 1216
16 18.28 21.87 41.50 47.44 1334
17 21.41 20.47 41.20 54.68 1155
18 25.11 22.59 37.02 48.74 1453
19 21.04 26.27 38.66 53.22 1278
20 17.99 28.22 44.18 53.17 1153
21 18.73 29.39 34.77 51.06 1225
22 18.49 26.58 37.55 50.66 1237
23 22.08 24.88 37.07 50.72 1327
24 14.28 26.27 35.80 48.24 1229
25 17.74 23.61 37.36 49.92 1205
26 20.54 26.58 35.40 53.58 1221
27 18.25 13.77 51.32 51.38 1138
28 19.01 25.62 39.54 50.13 1295
29 21.25 20.63 40.72 48.67 1392
30 21.62 22.71 36.22 48.19 1372
_____________________________________________________________________________________________
Fuente: Jay L. Devore. Probability and Statistics for Engineering and the Sciences
(2000)
(a) Obtener el modelo de regresin y validarlo acordemente, es decir, usando
diagnsticos subjetivos y despus complementar la tarea usando diagnsticos
objetivos.
8.25. Treinta muestras del efluente de una planta de tratamiento se analizaron para la

8-81
Dr. Hctor Quevedo Uras

medicin del DBO5 y la demanda bioqumica de oxgeno (DQO). Los datos se


muestran en la tabla de abajo. Hacer lo siguiente:
(a) Calcular el promedio, s y el error estndar del DBO y del DQO. ( X DBO = 440.6,
s = 93.18, error estndar = 17.01; X DQO = 194.4, s = 45.3, error estndar = 8.27)
(b) Graficar los datos en papel de probabilidad.
(c) Determinar el DBO5 y el DQO que se exceder el 50% de las veces. (El DBO5
exceder 195 lbs/da el 50% de las veces. El DQO exceder 440 lbs/da el 50% del
tiempo)
(d) Determinar el DBO5 y el DQO que se exceder el 90% del tiempo.
Tabla mostrando las concentraciones de DQO y de DBO5. (Elaboracin propia)
DQO | 494 494 528 396 532 308 350 456 440 544
(lbs/da) | 310 538 480 500 396 486 556 600 428 440
| 291 490 546 582 368 386 400 347 278 304
DBO5 | 216 200 238 164 230 116 150 190 190 248
(lbs/da) | 120 226 200 222 176 202 240 280 184 194
| 134 215 246 292 177 193 165 160 125 137

8.26. El director de la oficina de personal de una firma constructora desea saber si


la destreza, en determinado tipo de trabajo, dentro de la empresa, puede ser
pronosticada usando como pronosticadores las variables edad y experiencia de los
empleados. La tabla de abajo da la informacin de una muestra aleatoria de 15
empleados. (Adaptacin del libro Business Statistics de Daniel et al. 1989, p. 577).

8-82
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema.


________________________________________________________________
Nivel de (y) Experiencia (x1) Edad (x2)
Destreza

15 0 21
15 0 18
21 0 22
28 1 24
30 1 25
35 1 25
40 1 26
35 2 34
30 2 25
45 2 38
50 3 44
60 3 51
45 4 39
60 4 54
50 5 55
________________________________________________________________
Fuente: Daniel et al. 1989. Business Statistics
Hacer los siguientes clculos:
(a) Encontrar la ecuacin de regresin de los cuadrados mnimos.
(b) Computar R2y.12.
(c) Probar Ho:1 = 0 y Ho:2 = 0. Dejar que = 0.05 y calcular el valor de p para
cada prueba.
(d) Computar el 95% de intervalo de confianza para 2.
(e) Dejar que x1 = 2 y x2 = 25 y calcular y.
(f) Encontrar el intervalo de 95% para y.
8.27. La capacidad de los ecologistas para identificar regiones de mxima riqueza
de las plantas podra tener un impacto sobre la preservacin de la diversidad
gentica. Esto es uno de los objetivos de los ecologistas quienes estn preocupados

8-83
Dr. Hctor Quevedo Uras

por el medio ambiente. El artculo Prediction of Rarities from Habitat Variables:


Coastal Plain Plants on Nova Scotian Lakeshores (Ecology, 1992, pp. 1852-1859)
us una muestra de 37 lagos y se obtuvo la ecuacin de regresin de abajo. Este
problema se sac del libro del investigador J. L. Devore (2001).
y = 3.89 + .033x1 + .024x2 + .023x3 - .0080x4 - .13x5 - .72x6
Donde:
y = riqueza de especies de plantas
x1 = rea de la cuenca
x2 = ancho de la playa
x3 = mal drenado (%)
x4 = color del agua
x5 = % de arena
x6 = alcalinidad.
El estudio report un coeficiente de determinacin mltiple de R2 = 0.83. Realizar
una prueba de la utilidad del modelo de regresin. Sugerencia: usar la funcin
estadstica: F = [R2/k] / [(1 - R2)/(n - (k + 1))], con regin de rechazo para una
prueba de nivel de F F,k,n-(k+1), donde k es el nmero de pronosticadores usados.
Usar la tabla de la distribucin F. Valorar la utilidad del modelo de acuerdo al
valor de la probabilidad p.
8.28. Este es ejercicio que involucra la seleccin de un modelo de regresin con 9
variables independientes o predictoras, es decir, x1, x2, x3, x4, x5, x6, x7, x8 y x9.
Basando el criterio en los diagnsticos R2, MSE y Cp (criterio de Mallow), decir
cul modelo de regresin es el ms apropiado. Esto es, seleccionando los mejores
subconjuntos posibles. Los datos se dan abajo.

8-84
Dr. Hctor Quevedo Uras

Tabla mostrando los datos. (Elaboracin propia)


________________________________________________________________
Subconjunto de predictores

1 2 3 4 5 6 7 8 9
Criterios _________________________________________________________

R2k | .354 .453 .511 .550 .562 .570 .572 .575 .575

MSEk | 2295 1948 1742 1607 1566 1541 1535 1530 1532

Cpk | 314 173 89.6 35.7 19.9 11.0 9.4 8.2 10.0
__________________________________________________________________

8.29. En un estudio de laboratorio para ver la relacin entre los slidos


suspendidos y las concentraciones de DBO se sac una muestra con los datos que
se muestran en la tabla de abajo.
Tabla mostrando los datos. (Elaboracin propia)

Slidos suspendidos| 18 7 14 31 21 5 11 16 26 29
DBO5 | 55 17 36 85 62 18 33 41 63 87

(a) Hacer una grfica que vaya en funcin de la variable dependiente y de la


variable independiente.

(b) Obtener el modelo de la ecuacin de regresin y trazarla en la grfica. (Slidos


suspendidos Y = 0.32 + 0.352 (X)
(c) Validar el modelo de regresin objetivamente, calculando el coeficiente de
determinaron R2, s y PRESS. (R2 = 0.962, s = 0.957, s = 1.85, PRESS = 42.38)
(d) Hacer una tabla de ANOVA que incluya el valor de F y p. (Completar la tabla
de abajo.

8-85
Dr. Hctor Quevedo Uras

Tabla de ANOVA. (Elaboracin propia)


__________________________________________________________________
Fuente g.l. SS MS Fcalc. Ftab. Valor p
__________________________________________________________________
Debido a la 1 694.16
regresin
Error 27.44 3.43
Total 9 721.60
__________________________________________________________________

(e) Hacer un diagnstico grfico para validar la autenticidad del modelo de


regresin seleccionado. Sugerencia: usar el programa Minitab.
8.30. Treinta casos del efluente de una planta de tratamiento se analizaron para el
DBO y el DQO. Los datos se muestran en la tabla de abajo. Hacer los siguientes
clculos:
Tabla mostrando los datos del problema. (Elaboracin propia)

DQO (lbs/Da)| 494 444 528 396 532 308 350 456 440 544 310 538
| 480 500 396 486 556 600 428 440 291 490 546 582
| 368 386 400 347 278 304
DBO (lbs/Da | 216 200 238 164 230 116 150 190 190 248 120 226
| 200 222 176 202 240 280 184 194 134 215 246 292
| 177 193 165 160 125 137
__________________________________________________________________
(a) Determinar R2 y R. (R2 = 0.9350, R = 0.967)
(b) Graficar los datos en papel de probabilidad y determinar lo siguiente:
(1) Determinar los valores de DBO y el DQO que excedern el 50% y el 90% de
las veces. (195 lbs/Da y 440 lbs/Da)
(2) Determinar los valores de DBO y del DQO que se lograrn el 90% de las veces.

8-86
Dr. Hctor Quevedo Uras

(3) Determinar los valores de DBO y del DQO que puedan ser excedidos el 10% de
las veces. (260 lbs/Da y 580 lbs/Da)
(4) Calcular el promedio y la desviacin estndar del DBO y del DQO.
(c) Evaluar el modelo de regresin aplicando enfoques subjetivistas, es decir, con
grficas de los valores residuales en funcin de valores ajustados (para la prueba de
independencia), pruebas de normalidad, etc.
8.31. Este es un problema adaptado del libro Introduccin al Anlisis de Regresin
Lineal de los autores Montgomery, Peck y Vining (2001). Este proyecto est
relacionado con un estudio de energa solar en el Tecnolgico de Georgia, Estados
Unidos. El proyecto involucra datos de pruebas de energa trmica con una
variable dependiente (y), que relaciona al flujo total de calor (Kwatts) y cinco
variables independientes que estn relacionadas con la insolacin (watts/m2), la
posicin del foco en direccin del este (en pulgadas), la posicin del foco en
direccin del sur (en pulgadas), la posicin del foco en direccin norte (en
pulgadas) y la hora del da. Para esto, estimar los siguientes enunciados:
(a) Probar el modelo de regresin que mejor ajuste a los datos.
(b) Evaluar el modelo de regresin seleccionado, es decir, a travs de criterios
estadsticos y complementar la decisin usando grficos subjetivistas.
La tabla de abajo muestra la informacin requerida para solucin todos los
enunciados requeridos por este problema.

8-87
Dr. Hctor Quevedo Uras

Tabla mostrando los datos de las pruebas de energa solar trmica.


__________________________________________________________________________________
y x1 x2 x3 x4 x5
__________________________________________________________________________________
271.8 783.35 33.53 40.55 16.66 13.20
264.0 748.45 36.50 30.19 16.46 14.11
238.8 684.45 34.66 37.31 17.66 15.68
230.7 827.80 33.13 32.52 17.50 10.53
251.6 860.45 35.75 33.71 16.40 11.00
257.9 875.15 34.46 34.14 16.28 11.31
263.9 909.45 34.60 34.85 16.06 11.96
266.1 905.55 35.38 35.89 15.93 12.58
229.1 756.00 35.85 33.53 16.60 10.66
239.3 769.35 35.68 33.79 16.41 10.85
258.0 793.50 35.35 34.72 16.17 11.41
257.6 801.65 35.04 35.22 15.92 11.91
267.3 819.65 34.07 36.50 16.04 12.85
267.0 808.55 32.20 37.60 16.19 13.58
259.6 774.95 34.32 37.89 16.62 14.21
240.4 711.85 31.08 37.71 17.37 15.56
227.2 694.85 35.73 37.00 18.12 15.83
196.0 638.10 34.11 36.76 18.53 16.41
278.7 774.55 34.79 34.62 15.54 13.10
272.3 757.90 35.77 35.40 15.70 13.63
267.4 753.35 36.44 35.96 16.45 14.51
254.5 704.70 37.82 36.26 17.62 15.38
224.7 666.80 35.07 36.34 18.12 16.10
181.5 568.55 35.26 35.90 19.05 16.73
227.5 653.10 35.56 31.84 16.51 10.58
253.6 704.05 35.73 33.16 16.02 11.28
263.0 709.60 36.46 33.83 15.89 11.91
265.8 726.90 36.26 34.89 15.83 12.65
263.8 697.15 37.20 36.27 16.71 14.06
___________________________________________________________________________________________
y = Flujo total de calor (kwatts); x1 = Insolacin (watts/m2); x2 = Posicin del foco en direccin este (pulgadas); x3 = Posicin
del foco en direccin sur (pulgadas); x4 = Posicin del foco en direccin norte (pulgadas); x5 = Hora del da

Fuente: Introduccin al Anlisis de Regresin Lineal. Montgomery et al. 2001.

8-88
Dr. Hctor Quevedo Uras

8.32. La intencin de este ejercicio es la de hacer una grfica, con la variable de


respuesta (Y) y con cuatro variables regresivas (X1, X2, X3, X4) usando el programa
Minitab. Siendo as, de la configuracin de los puntos esparcidos obtenida
predecir, qu tipo de funcin de regresin estadstica encajara mejor en los datos.
Adems, evaluar el modelo de regresin candidato o superior usando mtodos
estadsticos y grficos. Sugerencia: para hacer la grfica pedida, usar el programa
Mintab procediendo de la siguiente manera: Irse a Graph Draftsman Plot. Esto
lleva al recuadro de Draftsman Plot. Enseguida, en la ventanilla de Y variable
poner la variable dependiente (Y) y, en la ventanilla de X variable poner las
variables independientes (X).

Tabla mostrando los datos de este problema. (Elaboracin propia).


______________________________________________________________________________
Variable de respuesta (Y) Variable regresiva X1 Variable regresiva X2 Variable regresiva X3 Variable regresiva X4

235 20 19 86 95
231 27 17 85 90
285 40 20 83 105
270 55 20 82 83
296 60 20 87 90
312 68 21 89 94
295 75 20 83 92
292 80 20 81 92
263 70 20 58 105
271 50 15 79 100
283 40 15 80 90
256 30 15 79 88

8.33. Este es un problema adaptado del texto de Jay L. Devore (2001), en el cual se
da la informacin requerida para la seleccin del modelo de regresin superior,
basado en la inclusin del nmero de variables regresoras, seleccionado entre
8-89
Dr. Hctor Quevedo Uras

cuatro modelos candidatos. El ejemplo est relacionado con el calor acumulado del
endurecimiento del cemento tomado como la variable dependiente, en funcin de
los predictores x1 = % de aluminato de tricalcio, x2 = % de silicato de tricalcio, x3 =
% ferrato de aluminio y x4 = silicato de dicalcio. Se da un tamao de muestra igual
a 13 observaciones y, donde la suma de los cuadrados del total es igual a 2,715.76.
Para esto, se pide al lector llenar los faltantes de la tabla de abajo y decidir cual es
el modelo superior que tiene el nmero adecuado de variables regresoras.
Tabla mostrando la informacin. Llenar los faltantes.
No. de regresores k Regresor (es)k SSEk R2k R2(ajustada)k Cpk F(calc.)k
1 x4 880.85 0.676 0.647 138.2
2 x1, x2 58.01 2.7
3 x1, x2, x3 0.982 0.876 3.2
4 x1, x2, x3, x4 0.982 4.0

8-90
Dr. Hctor Quevedo Uras

CAPITULO 8
Regresin lineal simple y mltiple
Suposiciones del modelo de regresin lineal.- Ecuaciones normales para
calcular el intercepto en la ordenada a y la pendiente b de la curva o lnea de
regresin.- Coeficiente de determinacin mltiple R2 de la muestra que estima
a 2 el coeficiente de determinacin poblacional.- Coeficiente de correlacin R
de la muestra que estima a , el coeficiente de correlacin poblacional.-
Intervalo de confianza para el coeficiente poblacional componente de la
lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea.-
Intervalo de confianza para el parmetro poblacional , el intercepto de la
ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a.- Hiptesis
nula de Ho: = o contra las hiptesis alternativas de H1: < 1 y H2: > 1.-
Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: o, H2:
> o, y de H3: < o.- Intervalo de confianza para Y|X de la lnea de regresin
poblacional estimada por Y.- Regresin y correlacin mltiple.- Mtodos para
validar el modelo de regresin lineal simple y mltiple: a travs de estadstica de
inferencias y a travs del anlisis grfico de los residuales estandarizados.
Procedimiento de regresin mltiple usando el programa Minitab.-
El objetivo de estudiar regresin lineal simple es para obtener el modelo de
regresin ms apropiado, es decir, una ecuacin de regresin lineal simple o
mltiple para fines de prediccin y estimacin. Los componentes de esta ecuacin
de regresin lineal, con solo una variable independiente, tambin llamado modelo
lineal de primer orden, son la variable dependiente Y o funcin de respuesta y, la
variable independiente X. El modelo de esta ecuacin, que describe la relacin de
la variable X con la variable Y, se llama la ecuacin de regresin de Y sobre X y, la
grfica de esta funcin, se llama la curva de regresin.
8-1
Dr. Hctor Quevedo Uras

El modelo de regresin lineal poblacional que describe la relacin entre la


respuesta o variable dependiente Y y, la variable independiente o regresora X es:
Y = o + 1x1 + i = 1, 2, ., n (8-1)

Donde:
Y = variable dependiente poblacional (tambin se usa la anotacin y)
o = intercepto en la ordenada
1 = pendiente de la lnea
x1 = variable independiente
= error aleatorio con promedio de 0 y varianza 2 constante. Este valor de es la
diferencia entre el valor terico de Yi y el valor de Y calculado u observado. Las
condiciones de son de que este parmetro debe estar normalmente distribuido; sus
valores deben de ser independientes uno del otro y la varianza de es Var() = 2
n = nmero de (x, y) pares de observaciones
La ecuacin de la lnea de regresin muestral que estima a modelo de regresin
poblacional (8-1) de arriba se da como:
Y = a + bx + e (8-2)
Donde:
Y = valor de la variable dependiente de la muestra
a = intercepto en la ordenada
b = pendiente de la lnea
e = error o residual de la muestra denotado por ei = yi - Yi. Esta estadstica es la
estimadora del parmetro

8-2
Dr. Hctor Quevedo Uras

Suposiciones del modelo de regresin lineal


1. Los valores de Y son independientes uno del otro, es decir, no deben de estar
correlacionados.
2. Las distribuciones condicionales de probabilidad de Y dado X son normales.
3. La varianza del error es 2 y es constante.
4. Los coeficientes o y 1 son desconocidos y deben de estimarse.
Para estimar la ecuacin de regresin lineal simple y mltiple se usa lo que
se llama el mtodo de los cuadrados mnimos que ajusta los datos de la muestra a
la lnea de regresin. Esta es una de las tcnicas ms usadas en investigaciones
cientficas, para encontrar la relacin entre dos o ms variables que estn
casualmente relacionadas.
En esta seccin veremos el problema de regresin lineal de una variable
dependiente (Y) otra independiente (X), con fines de prediccin y estimacin. Sin
embargo, una vez que se obtiene la ecuacin de regresin lineal, sta se tiene que
evaluar o validar para ver qu tanta confiabilidad se le puede poner al modelo para
usos de prediccin. Esto se hace usando enfoques objetivos y subjetivos. Por
ejemplo, el enfoque objetivo se hace haciendo pruebas estadsticas de inferencia.
Este enfoque se complementa usando enfoques subjetivos, es decir, analizando las
grficas de los residuales estandarizados o no estandarizados, a travs de
inspecciones visuales.
Por ejemplo, las condiciones o suposiciones requeridas para validar el
modelo, subjetivamente, se hace a travs de los anlisis de los residuos crudos o
estandarizados (para diferenciarlos de los residuos estandarizados). Los llamados
residuos se definen como las diferencias entre el valor actual de Y y el valor
pronosticado de Y por el modelo de regresin estimado. Los residuos se denotan
por ei, esto es, ei = Yi Yi. En verdad, las grficas de los residuos dan informacin

8-3
Dr. Hctor Quevedo Uras

muy importante, acerca de la naturaleza y fuerza de la relacin entre las variables.


La figura de abajo muestra los residuos que son las diferencias entre los valores de
Y1, Y2, Y3,,Yk y los valores observados de Y1, Y2, Y3,,Yk de la lnea de
regresin de la muestra. Por otra parte, los residuos estandarizados se obtienen
dividindolos por sus respectivas desviaciones estndares.

Figura. 8.0. Grfica mostrando los residuos de un ejemplo. (Elaboracin propia)

Las suposiciones de los valores residuales son:


(a) Los residuales ei estn normalmente distribuidos (i estn normalmente
distribuidos).
(b) Los residuos tienen la misma varianza (i son constantes).
(c) Los residuales ei no estn correlacionados, es decir, son independientes.
Otro mtodo menos popular que el anlisis de los residuos, para evaluar la
ecuacin de regresin es comparando el diagrama esparcido de los puntos, con
respecto a la lnea de regresin, con la grfica de los puntos con respecto al
promedio de y . Esto se debe a qu, sin importar el valor de X, el promedio y
siempre permanece constante (lnea horizontal trazada en el diagrama esparcido de
la grfica). De esta manera, si la dispersin de los puntos con relacin a la lnea de
8-4
Dr. Hctor Quevedo Uras

regresin es mucho menor, que la dispersin de los puntos con respecto a la lnea
horizontal de y , entonces, se puede concluir que la ecuacin de la lnea de
regresin da un buen ajuste para los datos de la muestra (Daniel et al. 1989).
Como se dijo antes, el enfoque objetivista es la otra manera que se usa para
evaluar el modelo de regresin lineal, esto es, a travs de anlisis estadsticos. Para
esto, se pueden usar las siguientes funciones estadsticas:
(a) Coeficiente de determinacin lineal R2 (o r2), el coeficiente de correlacin lineal
R, s y PRESS.
(b) Anlisis de varianza simple (ANOVA), para probar los coeficientes del modelo
de regresin (), para , etc.
(c) Intervalos de confianza para 2, para o, i, y|x, etc.
Tipos de correlacin lineal
1. Correlacin simple que consiste de dos variables, una dependiente (Y) y la otra
independiente (X). Dentro de esta categora tenemos:
(a) Correlacin directa. Esta correlacin consiste en el incremento en una variable la
cual es acompaada por el incremento de otra variable (correlacin positiva).
(b) Correlacin inversa. Esta correlacin consiste en el incremento de una variable la
cual es acompaada por el incremento de otra (correlacin negativa).
(c) Correlacin no lineal. En esta correlacin no hay ninguna asociacin entre las dos
variables.
2. Correlacin mltiple. Aqu, hay ms de dos variables. Una variable es
dependiente (Y), mientras que las otras son independientes X1, X2,, Xk, etc.
Las figuras de abajo representan varios tipos de correlaciones.

8-5
Dr. Hctor Quevedo Uras

Fig. 8.1. Diagramas esparcidos con lneas de cuadrados mnimos. La Figura (a)
representa una lnea recta con X fija; la Figura (b) representa lnea no recta con X fija;
la Figura (c) representa una distribucin adjunta con lnea recta; la Figura (d)
representa una distribucin adjunta con lnea no recta; la Figura (e) representa un
diagrama donde no hay asociacin entre las dos variable y; la Figura (f) representa
una relacin causal. Las otras dos grficas representan correlaciones perfectas.
(Elaboracin propia)

8-6
Dr. Hctor Quevedo Uras

Tipos de curvas ms comunes

Figura 8.2. La figura (a) representa la funcin exponencial; la figura (b) representa la
funcin de potencia, la figura (c) representa una funcin recproca y, la figura (d)
representa una funcin hiperblica. (Elaboracin propia)

8-7
Dr. Hctor Quevedo Uras

Ecuaciones normales para calcular el intercepto en la ordenada a y la pendiente


b de la curva o lnea de regresin
Las variables a y b se obtienen de las ecuaciones normales de abajo, es decir,
resolvindolas simultneamente:
Y = a n + b X (8-3)
XY = a X + b X (8-4)
Al resolverse simultneamente dan el intercepto, a en la ordenada y, la pendiente de
la lnea, b:
Intercepto = a = Y b X (8-5)
Pendiente = b = [n XY (X)(Y)] / [n X 2 (X)2 ] (8-6)
= xy / x2 (8-7)
Donde:
xy y x2 se dan por las ecuaciones (8-8) y (8-9) de abajo.
Nota 1. Las siguientes ecuaciones son muy importantes.
x2 = Sxx = X 2 (X)2 / n (8-8)
xy = Sxy = XY XY / n (8-9)
y2 = Syy = Y 2 (Y)2 / n (8-10)
Nota 2. Es muy importante notar las diferencias entre el uso de las variables
minsculas y las maysculas en las ecuaciones de arriba.
Coeficiente de determinacin R2 de la muestra que estima a 2 el coeficiente de
determinacin poblacional
El clculo del coeficiente de determinacin mltiple R2 es una prueba objetivista
de estadstica. Esta es una funcin estadstica muy importante, para validar el
modelo de regresin lineal. Este coeficiente R2 mide la proporcin de variacin en
la variable dependiente Y explicada por la variable independiente X. Los valores de
R2 varan de 0 a 1. Por ejemplo, un valor cercano a 0 indica que no hay una

8-8
Dr. Hctor Quevedo Uras

relacin lineal entre Y y X, mientras que un valor cercano a uno indica un ajuste
lineal perfecto. Aqu, sin embargo, es necesario aclarar que, un valor alto de R2, no
necesariamente indica un buen ajuste del modelo de regresin, sino hasta que se
hacen todas las pruebas objetivistas y subjetivas. La funcin que calcula R2 es:
R2 = (xy)2 / x2y2 (8-11)
= 1 SSe / SSt (8-12)
Donde xy, x2 y y2 se dan por las ecuaciones (8-8), (8-8) y (8-10) descritas para
la ecuacin (8-11). Adems, para la ecuacin (8-12) SSe es la suma de los
cuadrados del error o residual y SSt es la suma de los cuadrados del total, mismos
que se describen en el formato de la tabla de ANOVA.
Tambin hay el llamado coeficiente R2 de determinacin ajustado. Esta es
una versin ajustada de R2, el cual busca remover la distorsin debida a un tamao
de muestra pequeo. Se define como:
R2ajustada = 1 [(1 R2) (n 1)/(n 2)] (8-13)
Donde R2 ya se defini y n es el tamao de la muestra
Coeficiente de correlacin R de la muestra que estima a , el coeficiente de
correlacin poblacional
El coeficiente de correlacin R, que estima a , tambin se llama coeficiente de
correlacin de Pearson. Este coeficiente es un ndice de la fuerza de la asociacin
lineal entre las variables X e Y. El coeficiente de correlacin R es:

R= xy (8-14)
x y
2 2

Donde: xy, x2 y y2 se dan por las ecuaciones (8-8), (8-9) y (8-10)


Nota: El coeficiente de correlacin R explica el grado de asociacin entre las
variables X e Y. Este coeficiente R vara de 1 a 0, si la correlacin es negativa, es

8-9
Dr. Hctor Quevedo Uras

decir, con pendiente negativa. Pero, si la correlacin es positiva, entonces, R vara


de 0 a 1. As, a medida que R se aproxima a 1, mejor asociacin habr entre las
variables X e Y. Ntese que, en caso de la regresin lineal mltiple, tenemos lo que
se llaman coeficientes parciales de regresin usados para medir la relacin lineal
entre la variable dependiente y la variable independiente especificada.
Intervalo de confianza para el coeficiente poblacional componente de la
lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea.

x x
2 2
b t[1-/2;n-2] s / < < b + t[1-/2;n-2] s / (8-15)

Donde:
b = xy / x2
t[1-/2;n-2] = valor de la distribucin de t de Estudiante
x2 = X2 (X)2 / n

( y b xy )
2

s= (8-16)
n2

y ( y )
2 2

= SSE/(n 2) = - (bXY - XY/n)] / n-2


n

La ecuacin de la varianza es: s2 = (y2 bxy) / (n 2) (8-17)


= coeficiente poblacional de la pendiente de la lnea, el cual es estimado por b =
xy / x2 o sea el coeficiente de la lnea de regresin muestral.
Intervalo de confianza para el parmetro poblacional , el intercepto de la
ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a

(8-18)
Donde:

8-10
Dr. Hctor Quevedo Uras

a ya se defini anteriormente
t[1-/2;n-2] = a un valor usando la distribucin de t de estudiante con = n 2 grados
de libertad
s = de la ecuacin (8-16)

Sxx = xy (de la ecuacin (8-9))

Hiptesis nula Ho: = o contra las hiptesis alternativas H1: < 1 y H2: > 1.
Para esta prueba tambin se usa la distribucin de t de Estudiante con = n 2
grados de libertad, es decir:
t = (b o) / s/x2 (8-19)
Donde:
t = la estadstica de la distribucin de t de Estudiante
o = un valor dado
b = pendiente de la lnea
Hiptesis nula Ho: = o contra las hiptesis alternativas H1: o, H2: > o,
y H3: < o
Aqu, nuevamente, se usa la distribucin de t de Estudiante con grados de libertad,
= n 2. Para esto se usa la frmula de abajo:

(8-20)

8-11
Dr. Hctor Quevedo Uras

Donde:

o = un valor dado

s = ya definida anteriormente

a ya se defini anteriormente

Intervalo de confianza para Y|X de la lnea poblacional estimada por Y


El intervalo de confianza para el valor de Y|X se hace es usando la frmula (8-21) de
abajo:
1 1
Yo t[/2;] s + (Xo - X )2/x2 < Y|X < Yo+ t[/2;] s + (Xo - X )2/x2 (8-21)
n n

Donde:
Yo = a + b Xo = valor de la lnea de regresin con un valor de Xo dado (8-22)
t[/2;n-2] = valor de la distribucin de t con un nivel de significancia de = .05 o bien
0.01 con = n 2 grados de libertad
a = ya definida anteriormente
s = ya definida anteriormente

Xo = un valor dado
X = promedio de la muestra
Hiptesis nula Ho: = 0 contra las hiptesis alternativas H1: > 0 y H2: < 0
Para hacer esta prueba usamos la distribucin de t de Estudiante con = n 2 grados
de libertad. La funcin estadstica usada para tales fines es:

x
2
t = (b bo) / s / (8-23)

Donde:
s = ya definida anteriormente

8-12
Dr. Hctor Quevedo Uras

b = intercepto en la ordenada Y
bo = un valor dado
y2 = Y2 (Y)2/n
xy = XY XY/n
o = 0
Aqu, tambin se tienen que calcular las regiones crticas usando la distribucin
de t, es decir, t[1-/2;], donde es el nivel de significancia deseado y, es el nmero de
grados de libertad, es decir, n - 1. Despus de esto, se compara el valor de tcalc., con el
valor crtico de ttab. y se sigue el mismo procedimiento para cualquier prueba de
hiptesis.
Hiptesis nula de Ho: = o contra las hiptesis alternativas H1: > 0 y H2: < 0
Para hacer esta prueba de hiptesis se usa la estadstica de t de Estudiante mostrada
abajo:

(8-24)

Donde:
s = ya definida anteriormente
Donde:
y2 = Y2 (Y)2/n
xy = XY XY/n
b = ya definida anteriormente
Aqu, tambin se tiene que establecer las regiones crticas usando la distribucin de t
de Estudiante. Estas regiones crticas son: t[1-/2;], donde es el nivel de significancia
usado.

8-13
Dr. Hctor Quevedo Uras

Pruebas de hiptesis Ho: = 0, contra la hiptesis alternativas H1: 0, para el


coeficiente de correlacin poblacional estimado por R. (Dunn et al. 1974)
Para estos fines se usa la estadstica de t de Estudiante:
2
t= R/ 1 R (8-25)
Donde:

x y
2 2
R = xy / (8-26)

= n 2 grados de libertad
Aqu, nuevamente, para calcular las regiones crticas se usa la t de Estudiante, es
decir, t[/2;n-2].
Ejemplos de problemas usando regresin y correlacin lineal simple
Ejemplo #1. Este problema est relacionado con un estudio acerca de la cantidad de
precipitacin pluvial y la cantidad de contaminacin atmosfrica.
TABLA 8.0. Tabla mostrando los datos. (Elaboracin propia)
___________________________________________________________________
Lluvia (0.026) | 18 7 14 31 21 5 11 16 26 29
Remocin de contaminacin | 55 17 36 85 62 18 33 41 63 87

Hacer las siguientes estimaciones:


(a) Identificar la variable dependiente y la variable independiente. Hacer una grfica
que vaya en funcin de la variable dependiente Y, y la variable independiente X.
(b) Calcular los valores de la estadstica descriptiva de los datos.
(c) Obtener la ecuacin de regresin lineal simple y trazarla en la grfica.
(d) Validar la confiabilidad del modelo de regresin, es decir, a travs de la emisin
de un juicio subjetivo analizando los valores de los residuos estandarizados, de la
siguiente manera:
1. Hacer una grfica que muestre la prueba de normalidad.

8-14
Dr. Hctor Quevedo Uras

2. Hacer una grfica con los residuales estandarizados versus valores ajustados de Y .
(El valor predecido o ajustado de Y i es el valor de Y que se esperara cuando se usa la
lnea de regresin. En otras palabras, los valores ajustados de Y 1, Y 2,.., Y n se obtienen
sustituyendo, sucesivamente, x1, x2, .., xn en la ecuacin de la lnea de regresin
estimada: Y i = o + 1xi, .., o + 1xn.
3. Hacer un histograma de residuales.
4. Hacer una grafica que muestre los residuales estandarizados versus renglones.
(e) Complementar la evaluacin del modelo con inferencias estadsticas, como:
1. Clculo del coeficiente de determinacin R2 y el coeficiente de correlacin R.
2. Hacer una tabla de anlisis de varianza (ANOVA).
3. Hacer una tabla con los coeficientes, los errores estndares, las pruebas de t, los
valores de p, y los intervalos de confianza para el intercepto y la pendiente.
Solucin:
(a) La variable dependiente es la remocin de contaminantes (Y) y la variable
independiente es la cantidad de lluvia (X). La figura de abajo muestra esta solucin:

Figura 8.3. Grfica mostrando Y versus X, con una lnea recta horizontal
correspondiente al valor del promedio de Y = 49.7000. (Elaboracin propia)
(b) Los valores de la estadstica descriptiva son:
X = 17.8000, Y = 49.7000. Los valores mximos y mnimos de los valores de Y son

8-15
Dr. Hctor Quevedo Uras

87.000 y 17.000, respectivamente. Los valores mximos y mnimos de los valores de


X son 31.000 y 5.0000, respectivamente. Cuadrado medio del error = s2y|x = 26.667;
error cuadrtico medio es sy|x = 5.164
(c) Usando un programa de computadora se estiman los valores del intercepto en la
ordenada y la pendiente. Estos son: intercepto = a = 1.0213, pendiente de la lnea = b
= 2.7348. Sustituyendo estos valores dan la lnea de regresin muestral (misma que se
ve en la Figura 8.3), da.
Y = a + bX
Y = 1.0213 + 2.7348(X)
(d) Para este inciso la Figura 8.4 muestra la informacin requerida.

Residual Plots for Remocion de contaminatnes (Y)


Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99
5
90
Residual
Percent

0
50

-5
10

1 -10
-10 -5 0 5 10 20 40 60 80
Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


3
5
Frequency

2
Residual

1 -5

0 -10
-8 -4 0 4 1 2 3 4 5 6 7 8 9 10
Residual Observation Order

Figura 8.4. Grficas mostrando las respuestas para el inciso (d).


Como se ve en la Figura 8.4 la figura superior izquierda muestra la prueba de
normalidad con todos los puntos formando una linea recta. Esto indica que la
8-16
Dr. Hctor Quevedo Uras

distribucin de los datos es normal. Igualmente, la figura superior derecha muestra


los residuales en funcin de los valores ajustados de Y. Aqu, hay aleatoriedad en
la distribucin de los puntos con la misma cantidad de puntos negativos y
positivos, lo que indica que no hay correlacion de los datos. La figura inferior
izquierda muestra la frecuencia versus los residuales. Finalmente, la figura inferior
derecha muestra los residuales en funcin de los rdenes de las observaciones.
Aqu, en esta figura hay aleatoriedad y el mismo numero de puntos positivos y
negativos, lo que sugiere que no hay colinealidad o correlacion en serie de la
informacin suministrada.
(e) Para complementar el estudio objetivista, esto se hace haciendo pruebas
estadsticas de inferencia.
(1) Como se dijo antes, el coeficiente de determinacin R2 es un enfoque objetivista,
que sirve para validar el modelo de regresin. Este coeficiente de determinacin R2,
mide la fuerza relativa de la relacin lineal entre X e Y (mide la proporcin de
variacin en Y que puede ser explicada por la variacin en X) es dado por la ecuacin
(8-11) y por las ecuaciones (8-6), (8-7) y (8-8), respectivamente:
R2 = 0.9620
El clculo del coeficiente de correlacin R es:
R= R 2 = 0.9808
(2) Para el anlisis de varianza (ANOVA), que tambin sirve para validar el modelo
de regresin, es una funcin estadstica objetivista que prueba la hiptesis nula de que
la pendiente es igual a 0. Aqu se ver que, un valor grande de F indica que el modelo
de regresin seleccionado es util. Sin embargo, es necesario analizar todos los dems
criterios antes de emitir un juicio final. La tabla de ANOVA de abajo da los
resultados.

8-17
Dr. Hctor Quevedo Uras

TABLA 8.1. Tabla de anlisis de varianza (ANOVA) para el ejemplo.


(Elaboracin propia)
__________________________________________________________________
Fuente de Suma de los g.l. Cuadrado del Fcalc. Ftab. Valor de p
variacin cuadrados promedio
__________________________________________________________________
Debido al 5,396.77 1 5,396.77 202.38 5.32 0.00001
tratamiento
Residual (error) 213.33 8 26.67
___________________________________________________________________
Total 5,610.1 9

El valor de Ftab. se saca consultando la tabla de la distribucin de F, esto es F;1,2, el


cual da F.95;1,8 = 5.32. Aqu, debido a que el valor de Fcalc. = 202.38 >>> 5.32, se
rechaza la hiptesis sustentada de que Ho:1 = 0 y se inclina por Ho:1 0. La
conclusin es de que la pendiente de la lnea no es igual a 0 u horizontal.
(3) La tabla de abajo muestra los valores del intercepto en la ordenada, el gradiente
de la lnea de regresin, los errores estndar, la pruebas de hiptesis usando la t de
estudiante, los valores de la probabilidad p y los intervalos de confianza (95%) para
o (intercepto) y 1 (pendiente).
TABLA 8.2. Tabla mostrando los valores del intercepto, pendiente, pruebas de t de
Estudiante, valor del nivel de p y sus intervalos. (Elaboracin propia)
__________________________________________________________________
Coeficiente Error Prueba t Valor p Lmite Lmite
estndar inferior superior
___________________________________________________________________
Intercepto 1.02 3.79 0.27 0.79 -7.772 9.76
___________________________________________________________________P
endiente 2.73 0.19 14.23 5.8x10-7 2.29 3.18
__________________________________________________________________

Aqu, ntese que el intervalo de confianza para el intercepto es muy amplio y la


hiptesis no se puede rechazar, puesto que el valor de t es muy pequeo y el valor de

8-18
Dr. Hctor Quevedo Uras

p = 0.79 es grande. Esto es apoyado por el valor de 0.79 de p y por un error estndar
de 3.79, relativamente grande; lo contrario ocurre con las pruebas estadsticas de la
pendiente, cuyo valor de t es grande y cuyo valor de p es muy pequeo.
Ejemplo #2. En un estudio de microbiologa ambiental, en muestras de agua, se
dieron los siguientes datos de la tabla de abajo. Estos datos se refieren al crecimiento
de una colonia de bacterias en un medio de cultivo.
TABLA 8.3. Tabla mostrando los datos. (Elaboracin propia)
Tiempo en das de | 3 6 9 12 15 18
inoculacin (X)
__________________________________________________________________
No. bacterias (Y) | 115,000 147,000 189,000 235,600 257,900 286,400

Hacer los siguientes clculos:


(a) Calcular la lnea de regresin.
(b) Calcular el coeficiente de determinacin R2 y el coeficiente de correlacin R.
(c) Con la ecuacin de regresin, estimar el nmero de bacterias despus de 20 das
(d) Encontrar los intervalos de confianza para y usando el paquete de EXCEL.
(e) Usar el programa Minitab y estimar los valores residuales y analizarlos
subjetivamente, para revisar por la calidad del modelo de regresin.
Solucin:
(a) La ecuacin de la lnea de regresin es:
Y = 81,520.00 + 11,774.29 X
(b) El coeficiente de determinacin lineal mltiple R2 es igual a 0.9880. El coeficiente
de correlacin R es igual a 0.9940.
(c) Cuando X = 20 das, el nmero de bacterias es de:
Y = 81,520 + 11,774.29 (20) 317,006 bacterias
(d) En cuanto a los intervalos de confianza para y , el programa de computadora de

8-19
Dr. Hctor Quevedo Uras

EXCEL arroja los siguientes resultados:


Intervalo de confianza de 95% para : 61,259.45 < < 101,780.6; valor de la
probabilidad p = 0.0004; Intervalo de confianza de 95% para es: 10040.14 < <
13508.43, con un valor de la probabilidad p = 0.000046
(e). Las figuras de abajo muestran las grficas que tratan de validar el modelo de
regresin lineal, con del nmero de bacterias en funcin del tiempo de incubacin.

Figura 8.5. Figuras mostrando los resultados del nmero de bacterias versus el tiempo
de incubacin. La grfica (a) muestra la relacin entre Y y X, con la lnea recta de Y ;
la grfica (b) muestra los residuos crudos versus X; la grfica (c) muestra los residuos
crudos versus los renglones y, la grfica (d) muestra los residuos crudos versus
residuos rezagados (Elaboracin propia).
8-20
Dr. Hctor Quevedo Uras

Todas estas grficas sugieren, subjetivamente, que el modelo de regresin lineal es


confiable. Por qu?
Ejemplo #3. En un estudio de agricultura, relacionado con la siembra de algodn, en
cierto estado de la Unin Americana, la precipitacin anual y el rendimiento de la
cosecha de algodn son como sigue.
TABLA 8.4. Tabla mostrando los datos. (Elaboracin propia)
Precipitacin | 7.12 63.54 47.38 45.92 8.68 50.86 44.46
en pulgadas
(X)
Rendimiento de | 1037 380 416 427 619 388 321
la cosecha en
libras/acre
(Y)

Hacer los siguientes clculos:


(a) Calcular los valores del intercepto a y la pendiente b.
(b) Escribir la ecuacin de la lnea de regresin.
(c) Calcular el coeficiente de determinacin R2 y el coeficiente de correlacin R.
(d) Predecir el rendimiento de la cosecha de algodn, si la precipitacin es de 30
pulgadas.
(e) Hacer una tabla de anlisis de varianza.
Solucin:
(a) Usando un paquete de computadora como el Excel da:
Intercepto en la ordenada = a = 880.40
Pendiente de la lnea = b = -9.61
(b) Por lo tanto, la ecuacin de la lnea de regresin es:
Y = 880.40 9.61 (X)
(c) El coeficiente de determinacin = R2 = 0.6991

8-21
Dr. Hctor Quevedo Uras

El coeficiente de correlacin = R = 0.8361


(d) Cuando la precipitacin de lluvia es de 30 pulgadas, el rendimiento de la
cosecha se calcula usando el modelo de regresin obtenido, es decir sustituyendo el
valor de X = 30. De esta manera, usando la ecuacin de regresin dada arriba y
sustituyendo el valor de X = 30 nos da:
Y = 880.4 9.61 (30) = 592.1
(e) La tabla de anlisis de varianza dada por el paquete Excel se da abajo.
TABLA 8.5. Tabla de anlisis de varianza (ANOVA). (Elaboracin propia)
Fuente de variacin g.l. SS MS Fcalc. Ftab. Valor de p
Debido a la Regresin 1 260,628.2 260,628.2 11.62 5.32 0.019
Residuo 5 112,165.5 22,433.11
Total 6 372793.7

En conclusin, al comparar el valor de la estadstica calculada F con el valor crtico de


F se rechaza la hiptesis sustentada con un valor de p igual a 0.019.
Ejemplo #4. El libro Applied Statistics: Anlisis of Variance and Regression de Dunn
y Clark (1974) describe un estudio de fsica, es decir, de ptica, donde se obtuvieron
los datos de abajo que muestran los dimetros de las fibras pticas (en micras) en
funcin de la fuerza de rompimiento de stas. Para este problema hacer los siguientes
clculos
(a) Hacer todos los calculos preliminares y calcular la ecuacin de la lnea de
regresin muestral que estima a la ecuacin de regresin poblacional Y|X = + X.
(b) Usando un paquete de computadora, encontrar el intervalo de confianza para el
coeficiente de regresin poblacional (intercepto en Y), que estima a a.
(c) En forma anloga que con en el inciso (b), encontrar el intervalo de confianza para
el coeficiente de regresin (la pendiente de la lnea) cuyo estimador es b.
8-22
Dr. Hctor Quevedo Uras

(d) Probar la hiptesis nula de Ho: = o, es decir, = 0 contra la hiptesis alternativa


de H1: > 0 y H2: < 0. Calcular el valor de la probabilidad p.
(e) Hacer un intervalo de confianza para Y|Xo.
(f) Calcular los criterios evaluadores del modelo de regresion, v. g., R2, PRESS y s.
(g) Hacer una prueba de hiptesis para el coeficiente de correlacin poblacional .
(h) Graficar los datos y trazar la ecuacin de la lnea de regresin sobre la grfica y
trazar la lnea horizontal correspondiente al valor del promedio Y .
(i) Emitir un juicio subjetivo que ayude a validar el uso del modelo de regresin.
La tabla de abajo muestra los datos.
TABLA 8.6. Tabla mostrando el dimetro de fibras vs. fuerza de rompimiento.
Dimetro de la fibra (X) Log de la fuerza de rompimiento (Y)
22.5 .19
28.0 .62
27.5 .51
25.5 .53
22.0 .24
30.5 .87
23.0 .25
25.0 .25
23.5 .37
27.0 .32
21.5 .13
22.0 .35
29.0 .53
20.5 .22
27.0 .65
(Fuente: Dunn et al. 1974. Applied Statistics: Analysis of Variance and Regression)

Solucin:
(a) Los clculos preliminares son:

8-23
Dr. Hctor Quevedo Uras

n = 15, X = 374.5, (X)2/n = 9,350.0, Y = 6.03, (Y)2/n = 2.42, XY = 158.25, X


2
= 9,482.75, Y 2 = 3.03, (XY)/n = 2,258.24/15 = 150.55, X = 24.97, Y = 0.402,
x2 = X 2 (X)2/n = 9,482.75 9,350.0 = 132.75, xy = XY XY/n = 158.25
150.55 = 7.70, y2 = Y 2 (Y)2/n = 3.03 (6.03)2/15 = .6074
Para calcular la lnea de regresin de la muestra, primero calculamos manualmente,
los coeficientes a y b de la lnea de regresin muestral que estiman a y .
b = xy/x2 = 7.70/132.75
= .058
a = Y b X = 0.402 (0.058)(24.97) = -1.046
Por lo tanto, la lnea de regresin muestral es:
y = a + b(X)
y = -1.046 + 0.058(X)
(b) El intervalo de confianza para es usando la funcin (8-18) o usando un paquete
de computadora como Excel procediendo como: Tools Data anlisis Regression
y OK. Enseguida, despus de que los datos se introdujeron en las columnas A y B de
la hoja de Excel irse a la ventanilla de Input Y Range y Input X Range, lo que
genera la TABLA 8.7 de abajo.
TABLA 8.7. Tabla mostrando el valor del intercepto, la pendiente, los valores de t y p
y los intervalos de confianza para y .

Por lo tanto, el intervalo de confianza para el intercepto () se lee de la tabla como:


-1.5706 < < -0.5224
(c) En forma anloga el intervalo de confianza para se lee de la TABLA 8.7 como:
8-24
Dr. Hctor Quevedo Uras

0.0788 > > 0.0371


(d) Para probar la hiptesis nula Ho: = o es decir, = 0, contra H1: > 0 y H2: < 0
usamos la distribucin de t de estudiante con = n 2 = 15 2 = 13 g.l. La frmula
es: t = (b o) / s/ x2. Sustituyendo todos los valores de o = 0 y dems valores en
la frmula de arriba da:
t = (0.058 0) / 0.12/ 132.73
= 5.8
Las regiones crticas son: t = 2.16.
En conclusin: debido a que tcalc. = 5.8 > ttab. = 2.16, se rechaza la hiptesis nula de
Ho: = 0 y se inclina por H1: > 0. El valor de la probabilidad se calcula usando la
frmula de interpolacin (6-10): (2 1)/(t2 t1) = (2 X)/(t2 tcalc.)
Sustituyendo los valores apropiados de la tabla de t nos da:
(.00001 - .00002)/(6.287 5.607) = (.00001 X)/(6.287 5.8)
Lo que da X = p = .00002. Pero como la prueba es bilateral, lo multiplicamos por 2 y
da p = .00004. Este valor apoya, muy contundente, la hiptesis alternativa de H1: >
0.
(e) El intervalo de confianza para la variable dependiente de la lnea de regresin
poblacional, Y|X estimada por Y, con nivel de significancia de = 0.05, dar varios
valores a Xo. Para hacer esto, se usa la funcin de abajo:
1 1
Yo - t[/2;n-2] s +(Xo X )2/x2 < Y|X < Y + t[/2;n-2] s +(Xo X )2/x2 (8-28)
n n

Donde:
X = promedio
t[/2;n-2] = valor de t con = n 2 g.l.
t[.025;13] = 2.16
Xo = los diferentes valores que se le den a Xo para construir los lmites o bandas de

8-25
Dr. Hctor Quevedo Uras

confianza para Y|X


Ahora bien, con los valores de: a = -1.047, X = 24.97, x2 = 132.73, s = 0.12, t.0.25;13
= 2.16 y asignndole valores a Xo, digamos de 19, 28, 30.0, etc., se procede de la
siguiente manera:
Para Xo = 19.0; Yo = -1.047 + 0.058(19.0) = 0.055, etc.
Enseguida, usando la frmula (8-28) y sustituyendo los valores, es decir, para Xo = 19
da:

.0552.16(0.12) 1 +(19.0-24.97)2/132.73 < < .055+2.16(0.12) 1 +(19.0-24.97)2/132.73


Y|19
15 15

El cual se simplifica a: 0.335 > Y|19 > 0.299

As se puede continuar dando diferentes valores de Xo y sustituyndolos, como se


hizo arriba, para, finalmente, hacer las bandas de confianza para Y|X.
(f) Para calcular los valores de R, R2, s y PRESS se pueden hacer con un paquete de
computadora. Por ejemplo, si se hace manualmente, el coeficiente R se calcula usando
la ecuacion (8-14), etc. De otra manera, si se usa el Mintab proceder como:
Stat Regression Regression
En la ventana de Response poner la variable dependiente, y en la ventana de
Predictors poner la variable independiente. Tambin se pueden usar las ventanas de
Graphs, Options y Results para obtener informacin adicional. Por ejemplo los
valores de las estadsticas objetivistas de inferencia dadas por el programa son:
R2 = 73.6%, R = 0.858, s = 0.1112, PRESS = 0.2204. Por ejemplo, el valor de R =
0.8576 indica indica una correlacin positiva que va de acuerdo con la pendiente
positiva de la curva de .058. Los valores tan pequeos de s y de PRESS indican un
buen ajuste de los datos al modelo de regresin.
(g) Para la prueba de hiptesis Ho: = 0, es decir, para el coeficiente de correlacin
poblacional, con = 0.05, contra la hiptesis alternativa de H1: 0, esto es, H2: > 0
8-26
Dr. Hctor Quevedo Uras

y H3: < 0 se usan las siguientes estadsticas:


(1) Usando la estadstica de t de Estudiante (8-25):
2
t= n 2 R / 1 R

Donde:

R = ya definida
Para calcular las regiones crticas se usa la distribucin de t, es decir, t[/2;n-2] = t.025;13 =
2.16
Entonces, usando la frmula de abajo y sustituyendo los valores da:

x y
2 2
R = xy / = 7.701 / (132.73)(0.6074) = 0.86
y R2 = 0.7396

Ahora, usando la estadstica de abajo y sustituyendo da

2
t= n2 R/ 1 R
t = 13 (0.86) / .2604
= 6.07
Si se desea sacar el valor de p se busca 6.07 en la tabla de la distribucin de t con =
13 y con = .05, lo que da .025 < p < .05.

(h) Para graficar los datos aunados a la ecuacin de la lnea de regresin con una lnea
horizontal correspondiente al valor del promedio Y se hace usando un paquete de
computadora.

8-27
Dr. Hctor Quevedo Uras

Figura 8.6. Grfica mostrando la fuerza de rompimiento (log10) en funcin del


dimetro de la fibra, con la ecuacin de la linea de regresin Y = -1.046 + 0.058(X) y
con el promedio Y = 0.402. (Elaboracin propia).
(i) Emitir un juicio subjetivo que ayude a validar el uso del modelo de regresin. Para
responder a esta pregunta se hacen los siguientes grficos:

Residuals Versus the Order of the Data


(response is Log fuer)

1
Standardized Residual

-1

-2

2 4 6 8 10 12 14

Observation Order

Figura 8.7a. Grfica mostrando los residuos estandarizados versus el orden de la


observacin. Esta es una grfica que muestra todos los residuales en el orden en el
cual los datos fueron coleccionados. Aqu hay el mismo nmero de datos positivos
y negativos. Esta grfica tambin sirve para encontrar errores no aleatorios,
especialmente, en efectos relacionados con el tiempo.

8-28
Dr. Hctor Quevedo Uras

Residuals Versus the Fitted Values


(response is Log fuer)

1
Standardized Residual

-1

-2

0.1 0.2 0.3 0.4 0.5 0.6 0.7

Fitted Value

Figura 8.7b. Est grfica muestra los residuales versus valores ajustados. Para que
el modelo de regresin sea aceptable, se requiere que: los puntos en la grfica sean
aleatorios en ambos lados de 0; no debe haber series de puntos que aumenten o
disminuyan; no debe haber predominancia de residuales positivos o negativos, ni
tampoco debe haber patrones de residuales que aumenten con valores ajustados
que aumenten. Como se ve, todas estas condiciones estn bien sustentadas.
Normal Probability Plot of the Residuals
(response is Log fuer)

1
Normal Score

-1

-2

-2 -1 0 1 2

Standardized Residual

Figura 8.7c. Grfica mostrando la prueba de normalidad. Los datos deben formar
una lnea recta si los residuales estn normalmente distribuidos (situacin que
ocurre aqu). De otra manera, la suposicin de normalidad se invlida.

8-29
Dr. Hctor Quevedo Uras

Como se observa en estas grficas, la emision de un juicio subjetivo es aceptable,


porque el modelo de regresin seleccionado ajusta bien los datos. Esto se debe a que,
en la Figura 8.7a hay aleatoridad en los datos, es decir, con el mismo nmero de
valores positivos y negativos. Adems, en la Figura 8.7b la descripcin de sta,
sugiere un modelo de regresin representativo de la informacin dada. Situacin
similar ocurre con la descripcin de la Figura 8.7c.
Ejemplo #5. En un estudio de ingeniera del agua relacionado con las reducciones de
los slidos suspendidos, en funcin de la demanda qumica de oxgeno (DQO), se
sac una muestra aleatoria, cuyos datos se dan en la tabla de abajo. Para lo siguiente:
(a) Identificar la variable dependiente y la independiente y hacer una grfica de DQO
versus reduccin de slidos.
(b) Calcular la ecuacin de la lnea de regresin.
(c) Hacer una tabla de anlisis de varianza que incluya la F crtica y el valor de p.
(d) Validar el modelo candidato, a travs de estadsticas como R2, PRESS, s y de la
estadstica de Durbin-Watson (para la prueba de autocorrelacin de residuales).
(e) Evaluar la utilidad del modelo a travs de grficos subjetivos:
TABLA 8.8. Tabla mostrando las mediciones de slidos y la demanda qumica de
oxgeno. (Elaboracin propia)
__________________________________________________________________
Slidos supendidos DQO
___________________________________________________________________
30 29 33 37 25 32 29 27 31 36 25 31
30 30 33 30 35 31 29 28 32 29 30 30
29 30 34 30 36 30 28 29 34 29 34 29
34 31 36 29 31 30 33 30 35 28 30 28
28 31 36 28 33 32 26 30 34 28 30 31
27 32 36 27 31 32 27 32 34 26 29 31

Solucin:

8-30
Dr. Hctor Quevedo Uras

(a) La variable dependiente es DQO y la variable independiente es reduccin de


slidos suspendidos. La figura 8.8 de abajo muestra las concentraciones de DQO
versus reduccin de slidos suspendidos.

Figura mostrando la grafica de DQO y solidos suspendios.

35
DQO (Y)

30

25

27 32 37
Solidos suspendidos (X)

Figura 8.8. Grfica mostrando el DQO versus reduccin de slidos.


(Elaboracin propia)

(b) La ecuacin de la lnea de regresin es:


DQO (Y) = 1.53 + 0.909 X(slidos suspendidos)
La pendiente es igual a 0.909 y el intercepto es 1.53
(c) La tabla de abajo muestra la informacin de ANOVA.

TABLA 8.9. Tabla de ANOVA de slidos suspendidos y DQO.


Fuente de SS g.l. MS Fcalc. Fcrtica Valor de p
Variacin
Entre los grupos 32.00 1 32.00 4.35 3.98 0.04
Residual (error) 515.44 70 7.35
Total 546.44 71
__________________________________________________________________

(d) s = 0.9039 R2 = 88.8% R2(ajustada) = 88.5%


PRESS = 31.8928 R2(predecida) = 87.13% Durbin-Watson statistic = 1.67

8-31
Dr. Hctor Quevedo Uras

Aqu, el coeficiente de determinacion R2, mide, qu tan bien el modelo de


regresin ajusta los datos. Anlogamente, el estadstico PRESS (suma de
cuadrados de error de prediccin) mide la calidad del modelo de regresin. En
cuanto a la estadstica Durbin-Watson, si est cercana a 2 no hay autocorrelaciones
en series positivas o negativas. La variacin de los datos la da la estadstica s.
(e) La Figura 8.9 da la informacin subjetiva para la evaluacin del modelo.
(a)
Residuals Versus the Fitted Values
(response is DQO (Y))

1
Standardized Residual

-1

-2

-3

-4

25 30 35

Fitted Value

(b)
Normal Probability Plot of the Residuals
(response is DQO (Y))

1
Normal Score

-1

-2

-4 -3 -2 -1 0 1 2

Standardized Residual

Figura 8.9. La figura (a) prueba por la autocorrelacin o falta de independencia de los
datos. Adems, la figura (b) prueba por la normalidad de los datos.

8-32
Dr. Hctor Quevedo Uras

Regresin y correlacin lineal mltiple


Muchas aplicaciones del anlisis de regresin involucran situaciones donde se tiene
ms de una variable independiente. En la mayor parte de los problemas de
investigacin se necesitan varias variables independientes para ver el efecto en la
variable dependiente. La variable dependiente o de respuesta (Y) puede estar
relacionada con muchas variables independientes o regresoras X1, X2, etc.
En el estudio de regresin lineal mltiple se pueden usar el enfoque matricial.
Tambin se pueden hacer pruebas de hiptesis, intervalos de confianza, anlisis
subjetivos (anlisis de los grficos) y anlisis objetivos (estadstica de inferencia),
como los clculos de los coeficientes de determinacin (R2) o de correlacin (R),
como en el caso de la regresin lineal simple. Sin embargo, en este caso, se puede
calcular el coeficiente de correlacin general y coeficientes de correlacin parciales,
es decir, en forma anloga a como se hace con los coeficientes o, 1, etc.
Cuando hablamos de regresin lineal mltiple tenemos las siguientes
situaciones:
1. Modelo de primer orden con dos variables regresoras o independientes.
2. Modelo de primer orden con ms de dos variables independientes.
Modelo de regresin mltiple generalizado
Cuando este modelo general es lineal en los coeficientes se denomina modelo de
regresin mltiple. Por ejemplo, para el caso de k variables independientes x1, x2,
x3,..., xk, el promedio est dado por Y|x1, x2, x3,..., xk y se da por el modelo de
regresin mltiple poblacional:
Y = Y|x1, x2, x3,..., xk = o + 1x1 + 2x2 + ...+ kxk + k (8-29)
Este modelo, tambin se puede expresar con otra anotacin como:
Y j = o + 1X1j + 2X2j + . + kXkj + j (8-29a)
Los parmetros j, j = 0, 1, 2, 3,.., k se conocen como coeficientes de regresin

8-33
Dr. Hctor Quevedo Uras

poblacionales. Por ejemplo, el parmetro j representa el cambio esperado en la


respuesta Y, por unidad de cambio en xj, cuando todos los dems pronosticadores xi
se mantienen constantes. Adems, i y ei son los errores aleatorios o residuos de
poblacin y de la estadstica asociados con la respuesta Yi.
El modelo de regresin lineal mltiple de la muestra que estima al modelo
poblacional de arriba es:
Y = bo + b1X1 + b2x2 + ... + bkXk + e (8-30)
Donde cada coeficiente de regresin parcial i es estimado por bi. Esto se debe a
qu, cada coeficiente parcial i mide el cambio esperado en Y por unidad de cambio
en x1, cuando x2 se mantiene constante, y 2 mide el cambio esperado en Y por
unidad de cambio en x2 cuando x1 se mantiene constante.
El modelo de primer orden con dos variables independientes es:
Yi = o + 1Xi1 + 2Xi2 + (8-31)
Donde Yi, la variable dependiente que denota la respuesta en las -simas tentativas;
Xi1 y Xi2 son las dos variables independientes de la -sima tentativa; o, 1, 2 son los
coeficientes de regresin y, es el error o residuo.
Modelo de regresin mltiple con ms de dos variables independientes
Yi = o + 1Xi1 + 2Xi2 + + p-1Xi,p-1 + (8-32)
Cuando hablamos de regresin lineal mltiple, el principal objetivo es la obtencin
de la ecuacin de la lnea de regresin muestral, para prediccin y estimacin, la
cual emula a la ecuacin poblacional. Sin embargo, antes de poder usar el modelo
de regresin calculado, ste se tiene que evaluar, para ver qu tanta confiabilidad se
le pueda dar. La evaluacin o validacin del modelo de regresin estimado se hace
a travs de anlisis objetivos y subjetivos, en forma anloga como en la regresin
lineal simple. Por ejemplo, los anlisis objetivistas se hacen a travs de funciones
estadsticas de inferencia. Posteriormente, para que la validacin del modelo sea

8-34
Dr. Hctor Quevedo Uras

completa, el procedimiento se complementa usando enfoques subjetivistas, a travs


de anlisis de las grficas de los valores residuales. Si la validacin no es
satisfactoria, se procede con remediacin del modelo, ya sea haciendo
transformaciones de los ejes o probando otros modelos ms apropiados, como
cuadrticos o cbicos, etc.
Aplicacin de anlisis subjetivos y objetivos para la evaluacin del modelo de
regresin
Como se ha estado mencionando anteriormente, se sugieren dos maneras de revisar
la utilidad del modelo obtenido. Estas maneras son: (1) anlisis de grficas de
residuos y, (2) pruebas estadsticas de inferencia.
Por ejemplo, para validar el modelo de regresin aplicando anlisis
subjetivos, es decir, a travs de los grficos de los residuos (ei), stos se describen
como las diferencias entre los puntos y la lnea de regresin. Siendo as, las
suposiciones son de que los residuos deben ser independientes y normalmente
distribuidos, con promedio igual a cero y con varianzas constantes. Ms
explcitamente, las descripciones de las suposiciones son:
1. Los valores de la variable aleatoria estadstica ei deben estar normalmente
distribuidos. Para lograr esto, se grafican los residuos (crudos o estandarizados) de
la variable dependiente en funcin de los valores de z o normales esperados. Para
que se rena la condicin de normalidad de los datos, todos los puntos deben de
estar dentro de las bandas de confianza y deben de estar muy cercanos a la lnea de
regresin. Adems, si los trminos del error ei estn normalmente distribuidos, los
residuales estandarizados o crudos debern estar, aproximadamente, de acuerdo
con las reglas del 68%, 94% y 99%. Esto quiere decir qu, el 68% de los residuos
debern estar entre z = 1; el 95% debern estar entre z = 2 y, finalmente, el 99%
de los residuos debern estar entre z = 3.

8-35
Dr. Hctor Quevedo Uras

2. Los valores de la variable aleatoria ei deben ser independientes uno del otro. No
debe haber colinialidad o correlacin en serie. Esto se revisa graficando los
residuos (estandarizados o crudos) en funcin de los renglones. Si no hay,
aproximadamente, los mismos residuos positivos y negativos en la grfica,
entonces, el modelo lineal calculado no es el apropiado y tendrn que buscarse
otras alternativas (como funciones polinomiales, cuadrticas, cbicas, etc.). Aqu
cabe notar que la suposicin de independencia es la ms importante que se pueda
violar, porque es la base para las pruebas estadsticas como la R2, el error de lo
estimado (s dado por el programa Minitab), ANOVA, etc.
3. Los valores de la variable aleatoria ei deben de tener la misma varianza. Esto se
llama homoscedasticidad. Esto se puede revisar visualmente graficando los
residuales estandarizados o no estandarizados (crudos) contra cada valor de las
variables independientes (Xi). Aqu, nuevamente, tiene que haber la misma
cantidad de valores positivos y negativos expresados en la grfica. Aqu, sin
embargo, existen otros mtodos para revisar por el problema de
heteroscedasticidad que se retomarn en el captulo de regresin polinomial.
Otros investigadores estadsticos (Devore, 2000) sugieren cuatro grficos de
diagnstico subjetivo, para la validacin del modelo de regresin mltiple. Estos
grficos de diagnstico son:
1. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores de Xi en la abscisa.
2. El grfico de los residuos estandarizados y/o crudos en la ordenada versus los
valores pronosticados (en la abscisa) por el programa de computadora usado.
3. El grfico de los valores pronosticados en la ordenada versus los valores de Yi en
la abscisa.
4. Grfico de normalidad de los residuos estandarizados versus los percentiles de z

8-36
Dr. Hctor Quevedo Uras

(valores de z).
5. Histogramas.
Aplicacin de anlisis objetivos para la evaluacin del modelo de regresin
Por otro lado, en cuanto al enfoque objetivista (estadstica inferencial) para la
validacin del modelo de regresin, ste est relacionado con el uso de estadsticas
como el coeficiente de determinacin mltiple R2 (o r2), el coeficiente de
determinacin ajustado R2ajustada, el error estndar de lo estimado, s, tablas de
anlisis de varianza, pruebas de t de Estudiante, intervalos de confianza, el criterio
de Mallow de Cp, PRESS, etc.
De esta manera, cuando se habla de coeficientes en el modelo de regresin
mltiple, existen cuatro tipos de coeficientes:
(1) El coeficiente de determinacin mltiple (R2)
(2) El coeficiente de correlacin mltiple (R)
(3) El coeficiente de determinacin ajustado (R2ajustada)
(4) El coeficiente parcial de correlacin mltiple (Rij.k)
Por ejemplo, el coeficiente de determinacin mltiple R2 es, tal vez, la
medida estadstica ms popular usada para medir, qu tan bien encaja el modelo de
regresin en los datos de la muestra. En realidad el uso de R2 es una tcnica para
medir la adecuacin de un modelo de regresin lineal mltiple. Esta estadstica se
puede definir como una proporcin o como un porcentaje. Como proporcin, sus
valores varan de cero a uno. Por ejemplo, si el valor de R2 est cercano a cero, esto
indica que no hay una relacin lineal entre Y y las Xs, mientras que, un valor
cercano a uno, indica una ajuste perfecto. Sin embargo, el valor de R2 no debe de
interpretarse ligeramente, sin el apoyo del error estndar de lo estimado (s), el
residual (PRESS), el criterio de Mallow (Cp) o los factores de variacin inflados
(variance inflation factors, VIF). Adems la validacin del modelo debe estar

8-37
Dr. Hctor Quevedo Uras

apoyada por los anlisis de los grficos subjetivos.


De acuerdo a la lgica del programa de NCSS, los siguientes enunciados dan
algunas calificaciones de la interpretacin de R2.
1. El valor de R2 puede incrementarse agregando ms variables independientes,
pero esto puede causar un aumento en el error del cuadrado medio, especialmente,
cuando la muestra es pequea.
2. La magnitud de R2 est influenciada por el rango de cada variable independiente.
R2 aumenta a medida que el rango de las Xs aumenta y viceversa.
3. El valor de R2 no mide la magnitud de las pendientes.
4. La magnitud de R2 no mide la aptitud del modelo lineal; mide la fuerza lineal del
componente del modelo.
5. Un valor grande de R2 no necesariamente significa una prediccin grande. Lo
opuesto tambin es correcto. Todo esto tiene que ser complementado o
corroborado por otras funciones estadsticas y por el anlisis grfico subjetivo.
6. El valor de R2 es altamente sensible al nmero de observaciones. Entre ms
grande sea el tamao de la muestra, ms alto ser el valor de R2. Ms adelante, hay
lo que se llama el valor ajustado del coeficiente de determinacin mltiple ajustado
(R2ajustada). Este coeficiente de determinacin mltiple ajustado R2ajustada es una
versin ajustada de R2 la cual busca remover la distorsin causada por un tamao
de muestra pequeo. Igualmente, tambin hay lo que se llama PRESS (predicted
sum of squares) que se usa para validar el modelo de regresin en trminos de
prediccin. Aqu, entre ms pequeo sea el valor de PRESS, mejor ser el modelo
candidato.
En forma anloga, tambin hay lo que se llama el coeficiente de correlacin
mltiple R. Este coeficiente R mide la fuerza de la relacin lineal entre la variable
dependiente Y y las variables independientes X1, X2, X3,, Xk. En contraste con el

8-38
Dr. Hctor Quevedo Uras

coeficiente de correlacin lineal simple, el rango de este coeficiente de correlacin


mltiple es de 0 R 1. Esto se debe a que R no indica la pendiente de la
ecuacin de regresin debido a que no es posible indicar los signos de todos los
coeficientes de regresin que relacionan la variable dependiente Y a las variables
independiente Xi. As como en el caso de la correlacin lineal, la medicin de R2 es
ms fcil de interpretar que el coeficiente de correlacin mltiple, R.
Otro tipo de correlacin relacionado con regresin y correlacin mltiple es
lo que se llama coeficiente parcial de correlacin mltiple. Este coeficiente mide la
fuerza de la relacin lineal entre la variable dependiente Y y las variables
independientes X1, X2, X3,, Xk. Este coeficiente se puede expresar como Rij.k el
cual es el estimador del coeficiente de correlacin mltiple poblacional ij.k. Rij.k se
puede usar para ver la relacin causal entre Y y una de las variables independientes,
manteniendo las dems constantes. Este coeficiente, tambin se puede usar para ver
la relacin entre dos variables independientes.
Ms adelante, dentro de la categora de anlisis objetivos de estadstica
inferencial relacionados con regresin mltiple, tenemos lo que se llama anlisis de
varianza (ANOVA) discutido en captulos anteriores. En forma anloga como el
uso de R2, este anlisis es un mtodo complementario para revisar las suposiciones
del modelo de regresin. La confiabilidad de los resultados del ANOVA est
mancomunada a la suposicin de que los residuales estn normalmente
distribuidos. El uso de ANOVA prueba los promedios poblacionales donde se
analiza la variacin total. ANOVA evala la utilidad del modelo de regresin
probando la hiptesis nula de que todos los coeficientes (i) de la ecuacin de
regresin (pendientes) son igual a cero. Los componentes del anlisis de varianza o
de ANOVA, son parecidos a los del anlisis de varianza simple explicados en
captulos anteriores. Los componentes son la fuente de variacin, los grados de

8-39
Dr. Hctor Quevedo Uras

libertad, la suma de los cuadrados, el cuadrado del promedio, la prueba de F y el


nivel de probabilidad. Por ejemplo, la fuente de variacin representa las particiones
de la variacin en Y. Hay cuatro fuentes de variacin es decir, el intercepto, el
modelo, el residuo o error y, el total ajustado. La prueba de inferencia con la
estadstica F se usa para probar la hiptesis de todas las i = 0.
Ms importante todava, es el clculo del nivel de probabilidad p. El valor de
p es la probabilidad de obtener un estadstico de prueba, al menos tan
contradictorio o ms extremo para Ho:, como el valor observado que se obtuvo,
asumiendo que Ho: es verdadera. Si el valor de p es menor qu, digamos = 0.05,
la hiptesis nula se rechaza; de otra manera se retiene. Entre ms pequeo sea el
valor de p, menos credibilidad tendr la hiptesis nula.
Otros estadsticos objetivistas para validar el modelo de regresin son las
pruebas individuales de t de estudiante para probar la hiptesis de que 1, 2, 3, k
son iguales a cero. Adems se pueden usar los intervalos de confianza. Por
ejemplo, en regresin mltiple el valor de t de estudiante se usa para probar la
hiptesis de que uno de los coeficientes es igual a cero, despus de remover la
influencia de los otros. Los investigadores Paffenberger et al. (1987) dan la funcin
para el intervalo de confianza para i. Sin embargo, si se concluye que 1 o k no
son igual a cero esto, no necesariamente, dice que el modelo de regresin es til
para prediccin. En verdad, para determinar si el modelo es apropiado, en lugar de
probar que 1 = 0 y 2 = 0, separadamente (usando la prueba de t), se usa una
prueba conjunta como el anlisis de varianza (ANOVA). De cualquier manera, la
prueba de hiptesis bilateral para probar los coeficientes individuales i se usa el
siguiente formato dado en la tabla de abajo.

8-40
Dr. Hctor Quevedo Uras

TABLA 8.10. Tabla mostrando los mecanismos para una prueba de hiptesis
bilateral para los coeficientes individuales i incluidos en el modelo de regresin
mltiple. (Elaboracin propia)
Hiptesis nula: Ho:i = 0, hiptesis alternativa: H1:i 0
Valor del estadstico: t = bi / sbi
Regla de decisin:
Rechazar Ho: si t > t/2;n-(k+1) o bien si t < -t/2;n-(k+1).
No rechazar Ho: si t/2;n-(k+1) t t/2;n-(k+1)
Donde: i son los coeficientes de regresin individuales.
bi = estimadores de i
sbi = errores estndar
= nivel de significancia deseado
n = nmero de observaciones
k = nmero de variables independientes
t = funcin estadstica de t de Estudiante
Ejemplos aplicando la regresin y correlacin mltiple
Ejemplo #6. En la adsorcin de tierra y sedimento, la magnitud de la acumulacin
en forma condensada de los productos qumicos en la superficie es una
caracterstica importante que influye en la eficiencia de insecticidas y varios otros
productos qumicos. El artculo Adsorption of Phosphate, Arsenate,
Methanearsonate and Cacodylate by Lake and Stream Sediments: Comparison with
Soils (J. of Environ. Qual., 1984, pp. 499-504) presenta los siguientes datos en la
tabla de abajo. Aqu se toma Y como la variable dependiente, la cual denota el
ndice de adsorcin de fosfato, X1 es una de las variables independientes
denotando la cantidad de hierro extrable y, X2 es otra de las variables
independientes denotando la cantidad de aluminio extrable. (Devore, 2000)
8-41
Dr. Hctor Quevedo Uras

TABLA 8.11. Tabla mostrando los datos del ejemplo.


_________________________________________________________________

Observacin X1 (Hierro extrable) X2 (Aluminio extrable) Y (ndice de adsorcin)


__________________________________________________________________
1 61 13 4
2 175 21 18
3 111 24 14
4 124 23 18
5 130 64 26
6 173 38 26
7 169 33 21
8 169 61 30
9 160 39 28
10 244 71 36
11 257 112 65
12 333 88 62
13 199 54 40
________________________________________________________________

(Fuente: Devore, 2000)


Hacer los clculos pertinentes.
Solucin:
Usando un paquete de computadora da: bo = -7.351, desviacin estndar = 3.485,
b1 = 0.11273, desviacin estndar = 0.02969, b2 = 0.34900, s = 0.07131
La ecuacin de la lnea de regresin lineal mltiple es:
Y = -7.351 + (0.11273)(X1) + (0.34900)(X2)
Enseguida, para ver, qu tan confiable es el modelo de regresin calculado,
primero procedemos a efectuar el anlisis subjetivo, es decir, el anlisis de las
grficas de los residuos.

8-42
Dr. Hctor Quevedo Uras

Figura 8.10 Figura mostrando las grficas de los residuos estandarizados versus
valores esperados de z (1); grfica mostrando el residuo estandarizado versus la
variable independiente X1 (2); grfica mostrando el residuo estandarizado versus la
variable independiente X2 (3); grfica mostrando el residuo estandarizado versus el
valor de Y pronosticado (4) y, finalmente, grfica de Y pronosticada versus
adsorcin (5). (Elaboracin propia)

8-43
Dr. Hctor Quevedo Uras

Figura 8.11 Esta grfica muestra un enfoque un poco diferente al de la figura


anterior, es decir usando los residuos no estandarizados en contraste con la figura
8.10 que usa los residuos estandarizados. Grfica mostrando la prueba de
normalidad (1). Grfica mostrando la prueba de independencia de residuos versus
renglones (2). Grfica mostrando los residuos versus valores pronosticados (3).
Grfica mostrando los residuos versus variable independiente de hierro (4). Grfica
mostrando los residuos versus variable independiente aluminio (5). (Elaboracin
propia)
8-44
Dr. Hctor Quevedo Uras

El valor del coeficiente de determinacin mltiple es: R2 = 0.9480


El coeficiente de determinacin ajustado es: R2ajustada = 0.9380
El coeficiente de correlacin mltiple es: R = 0.9736
Los coeficientes parciales se pueden estimar si se desea saber la relacin
entre el ndice de adsorcin y el aluminio extrable, poniendo la variable
independiente, hierro constante. Tambin, si se deseara saber la relacin entre el
ndice de adsorcin y el hierro extrable, se pondra la variable aluminio constante.
Similarmente, si se deseara saber la relacin entre las variables aluminio y la
variable del hierro, se pondra la variable ndice de adsorcin fija.
TABLA 8.12. Tabla mostrando los coeficientes de regresin, valores de t de
Estudiante, niveles de p y decisiones tomadas en Ho: (Elaboracin propia)
_________________________________________________________________
Variable Coeficiente Valor de t Nivel Decisin
independiente de regresin de p (5%)
_________________________________________________________________
Intercepto -7.35066 -2.1094 0.0611 Aceptar
Hierro 0.11273 3.7969 0.0035 Rechazar
Aluminio 0.34900 4.8944 0.0006 Rechazar
_________________________________________________________________

TABLA 8.13. Tabla de anlisis de varianza. (Elaboracin propia)


_________________________________________________________________
Fuente de g.l. Suma de los Cuadrado Fcalc. Valor Poder de
Variacin cuadrados medio de p la prueba
_________________________________________________________________
Intercepto 1 11580.31 11580.31
Regresin 2 3259.90 1764.95 92.03 0.000 1.0000
Error 10 191.79 19.18
_________________________________________________________________
Total 12 3721.69 310.14

8-45
Dr. Hctor Quevedo Uras

TABLA 8.14. Tabla mostrando el reporte de residuos. (Elaboracin propia)


_________________________________________________________________
Rengln Valor Valor Residuo Error estndar
actual pronosticado
_________________________________________________________________
1 4 4.0630 -6.3052 5.0077
2 18 19.7066 -1.7066 4.9511
3 14 13.5387 0.4612 4.7055
4 18 14.6552 3.3447 4.6862
5 26 29.6406 -3.6406 5.1051
6 26 25.4141 0.5858 4.5996
7 21 23.2182 -2.2182 4.6488
8 30 32.9902 -2.9902 4.6623
9 28 24.2976 3.7024 4.5671
10 36 44.9352 -8.9352 4.7012
11 65 60.7097 4.2902 5.4250
12 62 60.9014 1.0986 5.4195
13 40 33.9292 6.0707 4.5649
_________________________________________________________________

TABLA 8.15. TABLA mostrando los intervalos de confianza para este problema.
(Elaboracin propia)
_________________________________________________________________
Variable Lmite inferior (95%) Lmite superior (95%)
independiente
_________________________________________________________________
Intercepto -15.1149 0.4137
Hierro (X1) 0.0467 0.1789
Aluminio (X2) 0.1901 0.5079
__________________________________________________________________

8-46
Dr. Hctor Quevedo Uras

TABLA 8.16. Tabla mostrando la estadstica descriptiva. (Elaboracin propia)


_________________________________________________________________
Variable Conteo Promedio Desviacin Valor Valor
estndar mnimo mximo
_________________________________________________________________
Hierro (X1) 13 177.31 70.10 61 333
Aluminio (X2) 13 49.31 29.19 13 112
ndice de (Y) 13 29.85 17.61 4 65
adsorcin
_________________________________________________________________

Conclusiones: El modelo de regresin obtenido es vlido para prediccin y


estimacin. Los datos encajan bien con un modelo lineal mltiple. Esta contencin
est basada en el anlisis subjetivo de las grficas de los residuos. Por ejemplo, en
la figura 8.10 y 8.11 la prueba de normalidad es buena, porque todos los puntos
estn dentro de las bandas, y muy cercanos a la lnea de regresin. Adems, los
puntos estn de acuerdo con la regla del 68%, 95% y 99%, es decir, el 68% de los
puntos estn dentro de z = 1, el 95% estn dentro de z = 2, etc. En la figura 8.11
de los residuos versus los renglones, esto satisface la suposicin de independencia,
porque hay el mismo nmero de residuos positivos y negativos. Adems, las
grficas de los residuos versus las variables independientes no violan la suposicin
de no linealidad, porque no hay tendencias definidas. Finalmente, la grfica de
residuos versus valores pronosticados estn de acuerdo con la suposicin de
varianzas iguales (homoscedasticidad).
En cuanto a los anlisis objetivistas, es decir, usando pruebas estadsticas,
nuevamente, presuponen un buen ajuste del modelo de regresin estimado. Esto se
debe a qu, el valor del coeficiente de determinacin mltiple R2 est muy cercano
a uno. Adems, el valor de R = 0.9736 indica muy buena correlacin entre la
variable dependiente y las variables independientes. Con respecto a la tabla del
anlisis de varianza, el valor de F es mucho menor que el valor crtico y esto est
8-47
Dr. Hctor Quevedo Uras

demostrado por el valor de la probabilidad p el cual es mucho muy significante.


Las pruebas de t de estudiante, tambin son muy aceptables y demuestran que las
pendientes de i no son iguales a cero. Los intervalos de confianza dan resultados
similares y sugieren que el modelo de regresin es buen pronosticador. Se pueden
seguir haciendo pruebas de hiptesis para todos los parmetros poblacionales y, sin
lugar a dudas, stas tambin apoyaran la contencin de que, el modelo de
regresin, es aplicable.
Ejemplo #7. Considerar los datos de la tabla de abajo. Usando el programa de
computadora Minitab obtener el modelo de regresin ms apropiado, es decir, un
modelo mltiple lineal (Modelo 1); modelo con transformacin en el eje vertical
(Modelo 2) y un modelo con transformaciones de los ejes horizontales y del eje
vertical (Modelo 3).
TABLA 8.17. Tabla mostrando los datos bivariados de regresin. (Elaboracin
propia)

X1 | 4 4 4 6 3 6 3 2

X2 | 3 4 3 4 2 4 2 2

Y | 3 2 7 6 5 6 7 4

Solucin:
Abajo se dan los resultados de los tres modelos. Al juzgar por los resultados, se le
pide al lector que decida cual modelo es el ms apropiado.

8-48
Dr. Hctor Quevedo Uras

TABLA 8.18. Resultados mostrando el resumen de los tres modelos.


(Elaboracin propia)
_______________________________________________________________
Regression Analysis: Y versus X1, X2 (Modelo 1)
The regression equation is: Y = 6.00 + 2.00X1 3.00X2

Predictor Coef SE Coef T P


Constant 6.0000 1.803 3.33 0.021
X1 2.0000 0.7746 2.58 0.049
X2 -3.0000 1.183 -2.54 0.052

s = 1.414 R-Sq = 58.3% R-Sq(adj) = 41.7%


PRESS = 0.1274 R-Sq(pred) = 51.62%

Analysis of Variance

Source DF SS MS F P
Regression 2 14.000 7.000 3.50 0.112
Residual Error 5 10.000 2.000
Total 7 24.000

Regression Analysis: Log Y versus X1, X2 (Modelo 2)


The regression equation is: Log Y = 0.810 + =.225X1 0.348X2

Predictor Coef SE coef T P


Constant 0.8101 0.1622 4.99 0.004
X1 0.2248 0.0697 3.23 0.023
X2 -0.3479 0.1065 -3.27 0.022

s = 0.1272 R-Sq = 69.3% R-Sq(adj) = 57.0%


PRESS = 0.1274 R-Sq(pred) = 51.62%

Analysis of Variance

Source DF SS MS F P
Regression 2 0.1824 0.0912 5.63 0.052
Residual Error 5 0.0809 0.0162
Total 7 0.2634

Regression Analysis: Log Y vs Log X1, Log X2 (Modelo 3)


The regression equation is: Log Y = 0.595 + 1.83 Log X1 2.16 Log X2

Predictor Coef SE Coef T P


Constant 0.5949 0.2095 2.84 0.036
Log X1 1.8342 0.7288 2.52 0.053
Log X2 -2.1573 0.8332 -2.59 0.049

s = 0.1483 R-Sq = 58.2% R-Sq(adj) = 41.5%


PRESS = 0.3005 R-Sq(pred) = 0.00%

Analysis of Variance

Source DF SS MS F P
Regression 3 0.1533 0.0767 3.48 0.113
Residual Error 5 0.1100 0.0220
Total 7 0.2634

8-49
Dr. Hctor Quevedo Uras

TABLA 8.19. Tabla mostrando los datos originales del problema. (Elaboracin
propia)
___________________________________________________________________________
C1 C2 C3 C4 C5 C6
___________________________________________________________________________
Y X1 X2 Log Y Log X1 Log X2
___________________________________________________________________________
1 3 4 3 0.477121 0.602060 0.477121
___________________________________________________________________________
2 2 4 4 0.301030 0.602060 0.602060
___________________________________________________________________________
3 7 4 3 0.845098 0.602060 0.477121
___________________________________________________________________________
4 6 6 4 0.778151 0.778151 0.060206
___________________________________________________________________________
5 5 3 2 0.698970 0.477121 0.301030
___________________________________________________________________________
6 6 6 4 0.778151 0.778151 0.602060
___________________________________________________________________________
7 7 3 2 0.845098 0.477121 0.301030
___________________________________________________________________________
8 4 2 2 0.602060 0.301030 0.301030
___________________________________________________________________________

Ejemplo #8. En estudios de qumica analtica, el uso del anlisis de fluorescencia


de rayos X se usa como una herramienta para estimar los porcentajes de los
ingredientes de muchas mezclas. A menudo, la estimacin de las concentraciones
depende en la habilidad para ajustar modelos de regresin. En una investigacin
intitulada Corrections for Matrix Effects in X-rays fluorescent Analisis Using
Multiple Regression Methods, publicado por Analytical Chemistry (Vol. 37,
1965) mezclas contiendo 4 ingredientes (Xi) fueron preparadas. Las
concentraciones de los componentes variaron en las mezclas para producir tipos
estndares de calibracin (Yi). (Walpole, 1992, p. 421). Los datos de este problema
se dan abajo.

8-50
Dr. Hctor Quevedo Uras

TABLA 8.20. Tabla mostrando los datos del problema de arriba.

Yi X1 X2 X3 X4

0.5514 1.1240 0.8980 0.8219 0.9906


0.4426 0.9285 0.8872 0.9308 0.9944
0.5631 1.1214 0.8030 0.7668 1.1221
0.5624 1.1635 0.8706 0.9272 0.9832
0.4505 0.9415 0.8064 0.9026 1.1127
0.5290 1.0712 0.8404 0.8662 1.0836
0.4702 0.9561 0.8731 0.8206 1.0290
0.5001 1.0186 0.8431 0.8346 1.0591
0.4425 0.9039 0.8314 0.7596 1.0994
(Fuente: Walpole et al. 1992)
(a) Ajustar un modelo lineal de regresin mltiple a los datos de la tabla.
Enseguida, estimar las concentraciones del ingrediente A para una mezcla cuya
tasa de intensidades de rayos-X sean, respectivamente, X1 = 1.10, X2 = 0.900, X3 =
0.800 y X4 = 0.995.
Solucin:
(a) Usando un paquete de computadora y asumiendo un modelo de regresin lineal
mltiple se obtiene la ecuacin de regresin.
Y = -0.3004 + 0.5387X1 + 0.1770X2 0.0704X3 + 0.1506X4
Sustituyendo las variables independientes, se obtiene el valor de la respuesta Y, es
decir:
Y = -0.3004 + 0.538(1.10) + 0.1770(0.90) 0.0704(0.80) + 0.1506(0.995)
= 0.50
Ejemplo #9. Montgomery y Peck (1992) describen el uso de un modelo de
regresin para relacionar la cantidad de tiempo que requiere un vendedor para dar
servicio a una mquina expendedora de artculos y el nmero de empaques
contenidos en la mquina y la distancia del vehculo (pies) de servicio del sitio

8-51
Dr. Hctor Quevedo Uras

donde se encuentra la mquina. Este modelo de regresin mltiple fue utilizado


para disear la ruta, los horarios y la salida de los vehculos. La tabla de abajo
muestra 25 observaciones del tiempo de suministro, nmero de empaques y la
distancia, del vehculo.
TABLA 8.21. Tabla mostrando los datos de suministro.
No. de observacin Tiempo de suministro No. de envases Distancia del vehculo
1 9.45 2 50
2 24.45 8 110
3 31.75 11 120
4 35.00 10 550
5 25.02 8 295
6 16.86 4 200
7 14.38 2 375
8 9.60 2 375
9 24.35 9 100
10 27.50 8 300
11 17.08 4 412
12 37.00 11 400
13 41.95 12 500
14 11.66 2 360
15 21.65 4 205
16 17.89 4 400
17 69.00 20 600
18 10.30 1 585
19 34.93 10 540
20 46.59 15 250
21 44.88 15 290
22 54.12 16 510
23 56.23 17 590
24 22.13 6 100
25 21.15 5 400

(Fuente: Montgomery et al. 1992)

8-52
Dr. Hctor Quevedo Uras

Para este problema calcular los siguientes enunciados:


(a) El modelo de regresin lineal mltiple poblacional.
(b) El modelo de regresin lineal mltiple de la muestra que estima al modelo
poblacional.
(c) Predecir el tiempo de suministro para pares de valores de las variables de
regresin, nmero de empaques (x1) y distancia (x2), cuando x1 = 1 empaque y la
distancia es igual a x2 = 25 pies.
(d) Evaluar el modelo de regresin obtenido usando tcnicas objetivistas y
sujetivistas, como las descritas en este captulo.
Discutir el razonamiento que se sigue en la validacin subjetiva de los grficos.
Solucin:
(a) El modelo de regresin mltiple, para 2 variables independientes es:
Y|x1,x2| = o + 1x1 + 2x2 +
(b) El correspondiente modelo de regresin lineal mltiple muestral es:
Y = bo + b1X1 + b2X2 + e
Donde:
Y = tiempo de suministro
X1 = no de envases
X2 = distancia del vehculo
El modelo de regresin de la muestra es:
Y = 1.74 + 2.78 (X1) + 0.013 (X2)
(c) Para predecir el tiempo de suministro (Y) en relacin con el nmero de envases,
cuando X1 = 1 y con la distancia del vehculo, cuando X2 = 25 pies se obtiene
sustituyendo los valores en la ecuacin de regresin, es decir:
Y = 1.74 + 2.78(1) + 0.013(25) = 4.85
(d) Los resultados objetivistas estadsticos son: R2 = 98.1%; R2ajustada = 97.9%; s =

8-53
Dr. Hctor Quevedo Uras

2.32; PRESS = 159.89.


TABLA 8.22. Tabla mostrando los valores de T y de P. (Elaboracin propia).
Predictor Coeficiente SE coeficiente T P
Constante 1.743 1.155 1.51 0.145
No. de envases 2.790 0.092 30.09 0.000
Distancia del vehculo 0.013 0.003 4.33 0.000
_________________________________________________________________
TABLA 8.23. Tabla de anlisis de varianza. (Elaboracin propia)
Fuente de g.l. SS MS F p
Variacin
Debido a la 2 5984.8 2992.4 555.2 0.000
Regresin
Error 22 118.6 5.4

Total 24

Para la validacin subjetiva del modelo de regresin, analizando las grficas


de los residuos estandarizados, deben existir, aproximadamente, el mismo nmero
de residuos positivos y negativos. Adems, en la prueba de normalidad, todos los
puntos deben estar dentro de las bandas de confianza. El estudiante deber hacer
los diagnsticos subjetivos para complementar la refrendacin o confiabilidad del
modelo de regresin.
Procedimiento de regresin mltiple usando el programa Minitab
Procedimiento:
1. Irse a: Stat Regression Regression
2. En la ventana de Regression aparecen las entradas de la variable
dependendiente (Y) y de las variables independientes X1, X2, en sus columnas
respectivas relacionadas con el problema
8-54
Dr. Hctor Quevedo Uras

3. En la ventanilla de Response (de esta ventana de Regression) entrar la variable


dependiente y, en la ventanilla de Predictors, entrar las variables independientes
(que se copiaron en las columnas del programa).
4. Debajo de esta venta de Regression estn las ventanillas de Graphs, Options,
Results y Storage. Por ejemplo si se desea usar Graphs se pueden seleccionar los
residuales regulares o los estandarizados. En la ventanilla de Option residual
plots, puntear las grficas de las cuatro opciones, para el anlisis subjetivista.
5. En la ventana de Regression-Options puntear las funciones deseadas, v.g.,
variance Inflation factors, Durbin-Watson statistics, PRESS, etc.
6. En la ventana de Regression-Results puntear las funciones deseadas de las
cuatro enlistadas, v.g., In addition de sequential sum..
Ejemplo #10. Este es un ejemplo del libro Applied Statistics: Anlisis of Variance
and Regresion de los autores Dunn y Clark. Esta es una investigacin relacionada
con la temperatura, tomada como la variable de respuesta, en funcin de variables
regresoras como la altitud, longitud y latitud. La tabla de abajo muestra los
resultados. Usando el programa Minitab:
(a) Encontrar el modelo de regresin ms apropiado
(b) Validar el modelo usando metodos estadsticos, es decir, estimando el
coeficiente de determinacin mltiple R2, R2 ajustada, s, PRESS, tabla de ANOVA,
y grficas subjetivistas, como residuos versus rdenes, residuos versus valores
ajustados y pruebas de normalidad.
(c) Hacer comentarios acerca de los resultados

8-55
Dr. Hctor Quevedo Uras

TABLA 8.24. Tabla mostrando los valores de la temperatura en oF (Y), Altitud en


pies (X1), Longitud en grados (X2) y Latitud en grados (X3).
Temperatura (Y) Altitud (X1) Longitud (X2) Latitud (X3)
55.7 1083 112 33
37.8 457 86 38
56.4 312 118 34
51.0 305 90 32
34.5 5221 105 40
34.0 2842 116 44
36.7 807 94 41
33.4 4260 112 41
32.6 815 83 40
49.1 3920 106 32
46.6 1054 84 34
36.3 4397 120 39
18.2 830 93 45
36.7 465 90 39
13.3 1162 92 47
30.1 787 82 41
__________________________________________________________________
Solucin:
(a) Se assume un modelo de regresin lineal
(b) La utilidad del modelo se da por los valores de R2, s, PRESS, etc. mostrados
por las Figuras 8.12 (a), (b) y (c).

Regression Analysis: (Y) Temperatura versus (X1) Altitud, (X2) Longitud (X3)
The regression equation is: (Y) Temperatura = 99.2 - 0.00138 (X1) Altitud + 0.299 (X2)
Longitud - 2.29 (X3) Latitud

Predictor Coef SE Coef T P VIF


Constant 99.24 10.79 9.20 0.000
(X1) Altitud -0.0013780 0.0005968 -2.31 0.040 1.7
(X2) Longitud 0.29877 0.07736 3.86 0.002 1.7
(X3) Latitud -2.2900 0.1779 -12.87 0.000 1.0

8-56
Dr. Hctor Quevedo Uras

s = 3.12166, R-Sq = 94.6%, R-Sq(adj) = 93.2%, PRESS = 214.855, R-Sq(pred) = 90.08%

Analysis of Variance Table

Source DF SS MS F F crtica P
Regression 3 2048.54 682.85 70.07 F.05;3,12 = 3.49 <<< 0.001
Residual Error 12 116.94 9.74
Total 15 2165.48

Durbin-Watson statistic = 1.53384

(a) (b) (c)


Residuals Versus the Order of the Data Residuals Versus the Fitted Values Normal Probability Plot of the Residuals
(response is (Y) Temperatura) (response is (Y) Temperatura) (response is (Y) Temperatura)

2 2 99

95
90
1
Standardized Residual

1
Standardized Residual

80
70

Percent
60
0 0 50
40
30
20
-1 -1
10

-2 -2 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 20 30 40 50 60 -3 -2 -1 0 1 2 3
Observation Order Fitted Value Standardized Residual

Figura 8.12. La Figura (a) muestra los residuales vs. rdenes; la figura (b) muestra
los residuales vs. los valores ajustados y la figura (c) da la prueba de normalidad.
(c) En conclusin, de acuerdo a los valores del coeficiente de determinacion R2 =
95.6% hay un buen ajuste del modelo. El valor de F de la ANOVA rechaza la
hiptesis de igualdad de promedios (de altitud, longitud y latitud), con un valor de
p muy significativo. Las pruebas de T son significantes, lo que sugiere que no hay
problemas de multicolinealidad. Anlogamente, los valores bajos de VIF sugieren
indican que no hay problemas de multicolinealidad. Esto, aunado, a los signos de
las variables regresoras de la ecuacin de regresin, los cuales si estn de acuerdo a
una lgica a posteriori. El valor de la funcin de Durbin-Watson Statistic o de
correlacin en serie igual a 1.53384 indica que no hay problemas de
autocorrelacin (aunque aqu, esto se puede ignorar porque el problema no
involucra series de tiempo). En cuanto a la Figura 8.12 la grfica (a) muestra los
residuales versus los rdenes, en la cual hay aleatoriedad de los datos.
Anlogamente, la grfica de residuales vs. valores ajustados (b) indica alateoridad
8-57
Dr. Hctor Quevedo Uras

o independencia de los datos, sin problemas de heteroscedasticidad (errores de


varianzas no constantes), etc. Finalmente, la grfica de la prueba de normalidad (c)
indica que los datos estn normalmente distribuidos (porque todos los puntos estn
dentro de las bandas de confianza), aunque con sesgo positivo.
Nota: Cree usted qu, eventualmente, el calentamiento global, debido a las
emisiones de gases de invernadero, generados por emisiones vehiculares e
industriales va a modificar las temperaturas que van en funcin de la latitud?
Ejemplo #11. Este es un ejemplo hiptetico mostrando la relacin entre las
concentraciones de ozono artificial, a nivel del suelo (ppm) y las temperaturas (oF).
Este ejercicio est encaminado a calcular, manualmente, los residuales y de hacer
una grfica mostrando los residuales crudos. Los datos se dan en la tabla de abajo.
TABLA 8.25 mostrando los datos de este problema.
__________________________________________________________________
Concentraciones de O3 (y)| 75 80 86 94 99 107
__________________________________________________________________
Temperatura (oF) (x) | 65 71 79 85 93 100

Hacer los siguientes clculos:


(a) Calcular el modelo de regresin y medir su adecuacin estimando R2, R2(ajust.),
s, PRESS y la estadstica Durbin-Watson
(b) Hacer una tabla mostrando el valor de la desviacin entre los datos y el ajuste,
es decir, de los residuales regulares o crudos ei = yi y i.
(c) Hacer una grfica de O3 (y) y temperaturas (x) mostrando los residuales crudos
Solucin:
(a) Usando un paquete de computadora da la ecuacin de regresin:
Concentracin de ozono ( y ) = 15.4 + 0.909 Temperatura (x)
s = 1.101, R2 = 99.3%, R2(ajust.) = 99.2%, PRESS = 9.42837, estadstica Durbin-Watson = 3.33
(b) La TABLA 8.26 muestra los valores ajustados ( y i), los residuales y SSE.

8-58
Dr. Hctor Quevedo Uras

TABLA 8.26. Tabla mostrando los datos del problema.


____________________________________________________________________________________________
Residual crudo Suma de los cuadrados del error
i xi yi y i = 15.44 + 0.909 x ei = yi - y i SSE = (yi - y i)2
_________________________________________________________________________________________________________________________________________

1 65 75 y 1 = 74.53 75 74.53 = 0.48


0.2304
2 71 80 y 2 = 79.98 80 79.98 = 0.02
0.0004
3 79 86 y 3 = 87.25 86 87.25 = -1.25
1.5625
4 85 94 y 4 = 92.71 94 92.71 = 1.30
1.6900
5 93 99 y 5 = 99.98 99 99.98 = -0.98
0.9604
6 100 107 y 6 = 106.34 107 106.34 = 0.66
0.4356
(yi - y i) = 4.8793
2

__________________________________________________________________________________________

(c) La Figura 8.13 de abajo muestra las concentraciones de ozono en funcin de las
temperaturas con los valores de los residuales ei.

8.13. Figura mostrando la medicion de cada uno de los valores residuales con la
lnea de regresin. (Elaboracin propia).

8-59
Dr. Hctor Quevedo Uras

Ejercicios Captulo 8

8.1. Los datos de abajo muestran las emisiones de xidos de nitrgeno (NOx)
provenientes de calderas de plantas elctricas.
Tabla mostrando los datos para el problema. (Elaboracin propia)
__________________________________________________________________
MBtu/hr-ft2 (X) |100 125 125 150 150 200 200 250 250 300 300 350 400 400

NOx (Y) |150 140 180 210 190 320 280 400 430 440 390 600 610 570

(a) Calcular la ecuacin de regresin de la muestra que estima a la verdadera ecuacin


poblacional. (Y = -24.2 + 1.59X)
(b) Calcular el coeficiente de correlacin R2 y R que estiman a . (R2 = 0.95)
(c) Cul es la estimacin esperada de la emisin de NOx cuando la tasa de liberacin
es de 225 MBtu/hr-ft2? (333.67)
(d) Usar el programa de computadora de Minitab y analizar las grficas de los
residuos para la prueba de normalidad y de los residuos en funcin del valor de X. (El
lector lo deber hacer)
8.2. Este es un ejemplo del libro de Introduccin al Analisis de Regresin Lineal de
Mongomery et al. (2001), donde habla de un ejemplo relacionado con las
concentraciones de ozono de debido al calor. As, Davidson (Update on Ozone
Trenes in Californias South COSAT Basin, Air and Waste, 43, 226, 1993) estudio
las concentraciones de ozono en la cuenca area de la costa sur de California, durante
los aos 1976 a 1991. Se cree que la cantidad de das en que las concentraciones de
ozono fueron mayores que 0.20 ppm depende del ndice metereolgico estacional,
que es el promedio estacional de la temperatura con 850 milibares. La siguiente
informacin muestra los datos.
8-60
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema.


___________________________________________________________________
Ao No. de Das (y) ndice meteorolgico
___________________________________________________________________
1976 91 16.7
1977 105 17.1
1978 106 18.2
1979 108 18.1
1980 88 17.2
1981 91 18.2
1982 58 16.0
1983 82 17.2
1984 81 18.0
1985 65 17.2
1986 61 16.9
1987 48 17.1
1988 61 18.2
1989 43 17.3
1990 33 17.5
1991 36 16.6
__________________________________________________________________
Fuente: Montgomery et al. 2001
(a) Estimar la ecuacin de regresin
(b) Qu tanta confiabilidad se le puede dar al modelo seleccionado? Usar enfoques
estadsticos y grficos para justificar esta pregunta.
8.3. En un estudio agrcola, para ver los efectos de los cambios climticos globales
relacionado, con los patrones pluviales alterados debido al calentamiento global, por
las emisiones de CO2, se estudi la precipitacin pluvial anual y el rendimiento de la
cosecha de gramneas. La tabla de abajo da los datos.

8-61
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema. (Elaboracin propia)


Precipitacin pluvial Rendimiento de la cosecha
en pulgadas (X) en libras por acre (Y)
7.12 1037
63.54 380
47.38 416
45.92 427
8.68 619
50.86 388
44.86 321
___________________________________________________________________

Ver cul modelo de regresin encaja mejor en los datos, al juzgar por las estadsticas
y por los anlisis grficos, es decir, usando una aproximacin lineal, una logartmica
y una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln(a) + b(LnX).
(a) Usar una aproximacin lineal como Y = a + bX y, adems, calcular el coeficiente
de determinacin R2. (Y = 880.4 9.6 (X), R2 = 0.699)
(b) Usar una aproximacin logartmica como Y = a + b Ln (X) y adems, calcular el
valor de R2. (Y = 1331.08 557.03 Lg X)
(c) Usando una aproximacin de funcin de potencia de la forma de Ln (Y) = Ln (a)
+ b (Ln X) y, adems, calcular R2 (R2 = 0.829)
8.4. En un estudio de qumica analtica, en la tabla de abajo se da la relacin entre la
temperatura y la molaridad (en moles por litro) de una sustancia. Para esto hacer los
siguientes:
(a) Estimar el modelo de regresin ms apropiado basado en anlisis estadsticos de
R2, R2ajustada, PRESS, s, y Cp y en anlisis grficos subjetivos de los valores
8-62
Dr. Hctor Quevedo Uras

residuales.
Tabla mostrando la informacin requerida.
_________________________________________________________________
Temperatura oC | 4.3 4.5 4.8 5.5 5.7 5.9 6.4 6.7 7.5 7.9
_________________________________________________________________
Molaridad | 12.1 12.5 12.9 13.0 13.1 14.0 14.2 14.8 15.0 15.5
_________________________________________________________________

8.5. El aluminio es el tercer elemento ms abundante que ocurre en minerales, rocas


y barros. El aluminio se puede analizar con el mtodo de absorcin atmica
espectromtrica (mtodo A), el cual est exento de interferencias como fluoruros y
fosfatos. El aluminio tambin se puede analizar por medio del mtodo de
calorimetra de cianuro de Eriocromo R (mtodo B), el cual es ms simple que el
anterior. La tabla de abajo muestra los resultados de los anlisis (en mg/L) de los dos
mtodos usados. Hacer los siguientes clculos usando el programa de computadora
de Minitab o SAS.
(a) Calcular e interpretar el coeficiente de determinacin R2 y el coeficiente de
correlacin R. (R2 = 0.9922, R = 0.9961)
Tabla mostrando los datos del ejemplo. (Elaboracin propia)

Mtodo A | 5 6 6 8 10 10 11 11

Mtodo B | 8 9 9 11 13 13 14 14

8.6. El berilio (Be) y sus compuestos son extremadamente venenosos y capaces de


causar la muerte en concentraciones altas. La inhalacin del Be causa una seria
afeccin llamada beriliosis. El berilio tambin puede causar dermatitis, conjuntivitis,
neumona aguda y beriliosis pulmonar crnica. Este elemento qumico se usa en los
reactores atmicos, aviones, cohetes y en combustibles para msiles. Hay dos

8-63
Dr. Hctor Quevedo Uras

mtodos para el anlisis (en g/L) del berilio, es decir, el mtodo espectromtrico de
absorcin atmica (mtodo 1) y el mtodo aluminon (mtodo 2). Los resultados de
los anlisis de los dos mtodos se dan en la tabla de abajo. Hacer los siguientes
clculos:
(a) Hacer un estudio estadstico objetivista, es decir, estimando los valores de R2,
R2ajustada, PRESS, s y tablas de ANOVA. Complementar el estudio haciendo anlisis
subjetivistas.
Tabla mostrando los resultados de los mtodos 1 y 2 para la medicin del berilio.
(Elaboracin propia)
Mtodo 1 | 0 3 4 5 9 12 15 17 20 20
Mtodo 2 | 1 7 11 19 24 31 31 35 41 41

8.7. En investigaciones de toxicologa existen estudios que han demostrado que la


probabilidad de qu, un fumador de 40 aos de edad, quien ha sido fumador los
ltimos 10 aos contraiga el cncer pulmonar en los prximos 20 aos es alta
(asumiendo que contine fumando al mismo ritmo). Esta relacin va en funcin del
nmero promedio de cigarrillos que fuma. Asumir un modelo de regresin lineal. La
tabla de abajo presenta los datos de esta investigacin de toxicologa.

8-64
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema. (Elaboracin propia)


Nmero de cigarrillos Probabilidad de cncer
fumados por da pulmonar
5 .100
10 .113
20 .225
30 .300
40 .450
50 .540
60 .700
80 .860
Hacer los siguientes clculos:
(a) Identificar la variable dependiente y la variable independiente.
(b) Describir la ecuacin de regresin que mejor encaje en los datos. (Y = 0.0981
0.00002(X) + 0.0003(X 2))
(c) Calcular R2, R2ajustada, s, y PRESS. (R2 = 0.996, R2ajustada = 0.995 s = 0.019,
PRESS = 0.0038)
(d) Analizar e interpretar los componentes de la tabla de ANOVA como Fcalc., Fcrtica
y el valor de p.
(e) Discutir la relacin existente entre R2, s, PRESS, Fcalc., y el valor de p.
(f) Validar el modelo de regresin subjetivamente, es decir, analizando los grficos
de los residuos estandarizados.
8.8. Se realiz un estudio de qumica ambiental y se registraron las cantidades de
cloruro de sodio (NaCl), el cual, cuando se disolvi en 100 gramos de agua destilada,
a diferentes temperaturas (oC) dio los siguientes resultados:

8-65
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema. (Elaboracin propia)


___________________________________________________________________
Temperatura (X) NaCl disuelto en gramos de agua (Y)
0 8 6 8
15 12 10 14
30 25 21 24
45 31 33 28
60 44 39 42
75 48 51 44

Calcular los siguientes enunciados:


(a) Graficar los datos.
(b) Encontrar la lnea de regresin y ponerla en la grfica.
(c) Estimar la cantidad de NaCl que se disolver a una temperatura de 300 K.
(d) A sabiendas de que, a medida que aumenta la temperatura, la disolucin de las
sustancias, como las sales de sodio, aumenta proporcional al incremento de la
temperatura, entonces, siendo as, verificar de que hay una correlacin casi perfecta
entre ambas variables.
(e) Hacer una prueba de hiptesis para el coeficiente de correlacin muestral R, para
verificar que si existe una asociacin lineal significante entre las dos variables.
Sugerencia: usar la estadstica de t de Estudiante dada abajo:
t= R 2
con = n - 2 grados de libertad.
1 R n 2

(f) Tericamente, la disolucin de muchas sales va en funcin directa a la


temperatura y, en teora, el valor del coeficiente de determinacin, R2 debera de ser
de 1.0. Siendo as, enlistar 2 factores (en el laboratorio de qumica) que pudieran
afectar la disolucin de las sales y de no dar un valor menor que 1.0.
8.9. En un estudio de meteorologa entre la cantidad de lluvia y la remocin de

8-66
Dr. Hctor Quevedo Uras

contaminantes atmosfricos, se dio la siguiente informacin:


Tabla mostrando los datos. (Elaboracin propia)

Precipitacin (X) Remocin de partculas (Y)


(0.01 cm./da) (g/m3)
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108

(a) Calcular la remocin de contaminantes (Y) cuando el valor de la precipitacin


pluvial es de X = 8.0. (102.44)
(b) Validar el modelo de regresin objetiva y subjetivamente.
8.10. En un estudio para evaluar la capacidad de los sistemas de flujo fretico
(wetlands), usados para la degradacin de la materia orgnica de las aguas residuales
se uso el parmetro de la demanda bioqumica de oxgeno (DBO) y varios otros
componentes qu
micos. Este estudio dio como resultado los siguientes datos. Estos
resultados estn relacionados con la carga de masa de DBO (en Kg./hectrea/da), la
cual se us como la variable independiente (X) y, la degradacin de la concentracin
de masa carbonosa de DBO5 (en Kg./ha/da), la cual se uso como la variable
dependiente (Y). (Fuente de informacin es Surface Floor Wetlands: A Performance
Evaluation. Water Environ. Res., 1995, pp.244-247).

8-67
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema.

(X) | 3 8 10 11 13 16 27 30 35 37 38 44 103 142

(Y) | 4 7 8 8 10 11 16 26 21 9 31 30 75 90

(Fuente: Water Environ. Res., 1995)

Calcular los siguientes enunciados:

(a) Graficar los datos


(b) Establecer el modelo de regresin ms apropiado para este problema. Hacer los
mismos clculos que el problema anterior.
(c) Validar el modelo de regresin seleccionado, objetivistamente, usando los
siguientes criterios o diagnsticos:
(1) Clculo del coeficiente de determinacin R2
(2) Clculo del coeficiente de determinacin ajustado, R2ajustado
(3) El coeficiente de correlacin R
(4) La estadstica PRESS
(5) El error estndar de lo estimado, s (Util para medir la utilidad del modelo. Se
selecciona el modelo que tenga el valor de s ms pequeo)
(d) Evaluar el modelo candidato a travs de los siguientes criterios grficos:
(1) Prueba de normalidad
(2) Residuales en funcin de los ordenes
(3) Residuales en funcin de los valores ajustados
(e) Una vez que se haya seleccionado el modelo ms apropiado, calcular la
remocin del DBO despus de que el agua residual se degrad en el wetland cuando
la carga fue de 50 Kg./ha/da.

8-68
Dr. Hctor Quevedo Uras

Nota: Los sistemas de flujo fretico (reas pantanosas) se usan como sistemas de
tratamiento natural, porque tienen la capacidad de degradar las concentraciones
carbonosas de DBO actuando como especie de lagunas de oxidacin. En Minatitln
y Coatzacoalcos, Veracruz, se usan estos tipos de tratamientos naturales.
Solucin:
De acuerdo a la tabla de arriba se le pide al lector decidir, cul modelo es superior.
8.11. El texto de Daniel, W.W., James C. Terrell Business Statistics (1989), p. 257
mencionan el problema del envenenamiento del ganado vacuno, por los insecticidas
el cual es un problema muy serio, porque los pesticidas tienen la facultad de
acumularse en los tejidos de los animales y, de ah se pasan a aquellas personas que
los consumen. As, en aos recientes, los ambientalistas se han preocupado mucho
por los efectos, en el medio ambiente, debido al uso indiscriminado de insecticidas.
Es verdad que los insecticidas matan los insectos, pero tambin matan todo lo dems.
De esta manera, los insecticidas contaminan los frutos de las plantas, a los animales y
tambin a la gente. Los investigadores Mount y Oehmet estudiaron los efectos de los
insecticidas en las ovejas relacionada con la actividad enzimtica en el cerebro.
Adems, de otros anlisis estadsticos, estos cientficos derivaron una lnea de
regresin que describe las relacin entre la actividad enzimtica en el cerebro de las
ovejas (Y) y el tiempo, en horas, despus de que las ovejas has sido expuestas a los
insecticidas (X). La funcin de la lnea de regresin estimada por estos cientficos se
da abajo.
Y = 27.32 + 1.36 X
Basando el criterio en esta ecuacin, estimar lo siguiente:
(a) Si despus de que han pasado 30 horas, cuando las ovejas han sido expuestas a
los insecticidas, Cul sera el valor de la actividad enzimtica? (68.12)
(b) Si el coeficiente de correlacin muestral se da como R = 0.86 y, el coeficiente de

8-69
Dr. Hctor Quevedo Uras

determinacin es R2 = 0.74 (el que mide la fuerza de la relacin lineal entre X e Y, es


decir, el % de asociacin entre las dos variables), entonces, hacer una prueba de
hiptesis con Ho: = 0, contra H1: 0 (que es lo mismo que decir que no hay
asociacin lineal entre X e Y). Asumir que el tamao de la muestra es de n = 16 y el
nivel significante de = 0.05.
Para esto, seguir las siguientes sugerencias:
Usar la distribucin de t con = n 2 grados de libertad y usar las regiones crticas
dadas por t[1-/2;].
8.12. En estudios de qumica, la presin de un gas que corresponde a varios
volmenes (de acuerdo a la ley de los gases de Boyle) se da en la tabla de abajo.
Asumir que el volumen del gas es (X) y la presin es (Y). Hacer los siguientes
clculos:
(a) Hacer una grfica con los datos.
(b) Estimar la lnea de regresin de la muestra.
(c) Estimar el coeficiente de determinacin R2 y el coeficiente de correlacin R.
Interpretar los resultados.
(d) Predecir la presin del gas, cuando el volumen es .001 m3
(e) Predecir la presin del gas, en libras por pulgada cuadrada (lbs/in2) y, en
atmsferas (atm), cuando el volumen del gas es de 0.0528 cuartos (.05 L).
(f) En teora, debido a que la relacin entre el volumen del gas y la presin es
inversamente proporcional, el coeficiente de correlacin debera ser de R = -1.0. Sin
embargo, si R difiriera del valor de -1.0, enlistar 3 factores que pudieran intervenir
para explicar esta situacin.

8-70
Dr. Hctor Quevedo Uras

Tabla mostrando los volmenes y las presiones del gas. (Elaboracin propia)

Volumen en cm3 | 50.0 60.0 70.0 90.0 100.0

Presin en Kg./cm2 | 64.7 51.3 40.5 25.9 7.8

Sugerencias: Se dan los siguientes factores de conversin: 1 atm = 14.7 lbs/in2 = 760
torr = 1.0668 kg/cm2; 1 cm2 = 0.16 in2; 1.0567 cuartos = 1 L; 1 pulgada cuadrada =
6.25 cm2; 1 m3 = 1000 L. = 106 cm3.
8.13. Se coleccion una muestra de 33 casos de una descarga de aguas residuales
municipales. Esta muestra se analiz para la demanda bioqumica de oxgeno de 5
das (DBO5), en libras por da, y la demanda qumica de oxgeno, DQO (en libras por
da). La tabla de abajo muestra la informacin requerida.
Tabla mostrando las mediciones de DBO5 y DQO. (Elaboracin propia)
Demanda qumica de oxgeno Demanda bioqumica de oxgeno
(lbs/da) (lbs/da)

494 486 216 202


444 556 200 240
528 600 238 280
396 428 164 184
532 440 230 194
308 291 116 134
350 490 150 215
456 545 190 246
440 582 190 292
544 368 248 177
309 386 120 193
538 400 226 165
480 347 200 160
500 278 222 125
396 304 176 137

8-71
Dr. Hctor Quevedo Uras

Hacer lo siguiente:
(a) Ver su existe una correlacin significante usando los valores R del DBO5 y el
DQO. (R = 0.9677, R2 = 0.9360)
(b) Interpretar el valor del coeficiente de correlacin R y el coeficiente de
determinacin R2. Usar el programa Minitab o EXCEL para hacer el clculo pedido.

Nota. La demanda bioqumica de oxgeno de 5 das (DBO5) mide la concentracin,


en mg/L o en libras por da de la materia carbonosa del agua residual. De hecho el
DBO mide la fraccin biodegradable del drenaje, o del agua residual industrial o
domstica, en trminos del carbono. Usualmente, las unidades son en mg/L. Sin
embargo, esto se debe a que, anteriormente, se usaba indiscriminadamente las
unidades de ppm y mg/L. Despus, se vio que, con los residuos txicos, la gravedad
especfica era diferente a la de los residuos carbonosos. Por esta razn es mejor usar
las unidades de mg/L. Por otra parte, la prueba del DBO es de 5 das, para evitar la
nitrificacin. En cambio, la prueba de la demanda qumica de oxgeno mide los
compuestos orgnicos biodegradables y los compuestos orgnicos txicos. Esto
quiere decir que, la demanda qumica de oxgeno (DQO) oxida la cantidad de
materiales totales oxidables presentes en el agua residual y vara con la composicin
del agua, la temperatura, el periodo de contacto y otros factores ms.

8.14. Considerar los datos de abajo relacionados con el peso del vehculo y el
rendimiento de gasolina. El peso del auto se da en toneladas y, el rendimiento del
combustible se da en millas galn. Los datos se dan abajo.

8-72
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del los modelos vehiculares en funcin del peso en
toneladas (X), y de millas por galn (Y).
________________________________________________________________
Modelo vehicular Peso (toneladas) Millas/galn

Buick Estate Wagon 4.36 16.9


Ford Country Squire Wagon 4.05 15.5
Chevy Malibu Wagon 3.61 19.2
Chrysler Le Baron Wagon 3.94 18.5
Toyota Corona 2.56 27.5
Datsun 510 2.30 27.2
Dodge Omni 2.23 30.9
Audi 5000 2.83 20.3
Volvo 99 GLE 3.14 17.0
Saab 99 GLE 2.80 21.6
Peugot 694 SL 3.41 16.2
Buick Century Special 3.38 20.6
Mercury Zephyr 3.07 20.8
Dodge Aspen 3.62 18.6
AMC Concord D/L 3.41 18.1
Chevy Caprice Classic 3.84 17.0
Ford LTD 3.73 17.6
Mercury Grand Marquis 3.96 16.5
Ford Mustang 2.59 26.5
Mazda GLC 1.98 34.1
Dodge Colt 1.92 35.1
VW Scirocco 1.99 31.5
Honda Accord LX 2.14 29.5
Buick Skylark 2.67 28.4
Chevy Citation 2.60 28.8
Oldsmobile Omega 2.70 26.8
Plymouth Horizon 2.20 34.2
Datsun 210 2.02 31.8
VW Dasher 2.19 30.5
Datsun 810 2.82 22.0
BMW 3210 2.60 21.5
VW Rabbit 1.93 31.9

(Fuente: Probabilidad y Estadistica Aplicadas a la Ingenieria. Montgomery et al.


1996)
Hacer los siguientes clculos usando el programa Minitab.
(a) Estimar la lnea de regresin entre las variables peso del vehculo y el

8-73
Dr. Hctor Quevedo Uras

rendimiento de gasolina.
(b) Estimar el coeficiente de correlacin de la muestra R (llamado tambin
coeficiente de correlacin de producto-momento de Pearson) y el coeficiente de
determinacin muestral R2.
(c) Hacer una grfica que vaya en funcin de Y y X, trazarla en la grfica y tambin
trazar la lnea horizontal usando el valor del promedio de Y.
(d) Hacer una tabla de ANOVA.
(e) Estimar los intervalos de confianza para y las probabilidades
correspondientes para cada uno de stos.
(f) Qu otros factores tendran que considerarse, para que el modelo de regresin
fuera ms confiable?
8.15. Los metales pesados como el Hg, Cr, Pb, etc., pueden interferir con el
tratamiento biolgico en las plantas municipales de aguas residuales domsticas. En
este estudio se hicieron mediciones mensuales en una planta modelo de tratamiento
de las concentraciones de cromo, Cr, en mg/L, tanto en el efluente como en la
entrada. Los resultados de las concentraciones de Cr se dan en la tabla de abajo.
Tabla mostrando los datos. (Elaboracin propia)
Entrada (X) | 250 290 270 100 300 410 110 130 1100
(g/L)
Efluente (Y) | 19 10 17 11 70 60 18 30 180
(g/L)

Hacer los siguientes clculos:


(a) Hacer un diagrama de dispersin en papel aritmtico.
(b) Hacer un diagrama esparcido en papel semilogaritmo y logaritmo completo
(transformacin de los ejes).
(c) Calcular los modelos de regresin para las partes (a) y (b).
(Y = -9.06 + 0.17X; Y = -1.96 + 0.97X)
8-74
Dr. Hctor Quevedo Uras

(d) Estimar Y cuando X = 350 en incisos (a) y (b).


(e) Calcular el coeficiente de correlacin para (a) y (b). (R2 = 0.9425, R = 0.7469)
(f) Comentar sobre lo apropiado de Y y de R en cada caso.
8.16. En un estudio de microbiologa ambiental relacionado con el cultivo de una
muestra de agua se dan los siguientes datos.
Tabla mostrando los datos. (Elaboracin propia)
Tiempo en das desde | 3 6 9 12 15 18
la inoculacin (X)
___________________________________________________________________
No. de bacterias (Y) | 115,000 14,700 23,900 35,600 57,900 86,400

Hacer los siguientes clculos:


(a) Trazar una curva Ln Yi versus Xi para ver qu tan bien se puede ajustar una curva
exponencial a los datos.
(b) Trazar una curva Yi versus Xi para ver que tambin se puede ajustar una lnea
recta a los datos.
(c) Por interpolacin, usando ambas grficas estimar el nmero de bacterias despus
de 20 das. Cuantificar las diferencias en ambos casos.
8.17. En el libro de J. L Devore, Probabilidad y Estadstica para Ingeniera y
Ciencias se da una investigacin relacionada con la temperatura (oC) y la
profundidad de la nieve acumulada en el suelo. Para esto se la tabla de abajo:
Tabla mostrando los datos del problema.
_______________________________________________________________
Temperatura (oF) | -62 -41 -36 26 -33 -56 -50 -66
_______________________________________________________________
Profundidad de la | 21 13 12 3 6 22 14 19
capa de nieve
_______________________________________________________________
(Fuente: Devore 2001) .

(a) Identificar la variable dependiente (Y) y la variable independiente (X).


8-75
Dr. Hctor Quevedo Uras

(b) Estimar un modelo de regresin lineal. (Y = 5.71 0.202(X), R2 = 0.741, s =


3.759, PRESS = 409.02, F = 17.8, p = 0.006)
(c) Estimar un modelo cuadrtico. (Y = 3.3 0.0943(X) + 0.0029(X 2), s = 0.019, R2
= 0.996, PRESS = 0.0038, F = 14.98, p = .008)
(d) Estimar un modelo cbico. (Y = 9.96 0.139(X) + 0.0189(X 2) + 0.00022(X 3),
R2 = 0.914, s = 2.656, PRESS = 8007.75, F = 14.14, p = 0.14)
(e) De acuerdo a los resultados estadsticos, Cul de los tres modelos es superior?
8.19. La tasa de flujo en m3/min en un muestreador de alto volumen para medir la
calidad del aire, es decir, para partculas atmosfricas, depende de la cada de
presin, en pulgadas de agua, a travs del filtro del muestreador. Siendo as,
supngase que se coleccion una muestra de 15 valores de cada de presin y la tasa
de flujo del aire a travs del filtro del sensor. Los datos se dan en la tabla de abajo.
Tabla mostrando los datos para este problema. (Elaboracin propia)
Tasa de flujo del aire con Cada de presin despus de
3
las partculas (m /min) algn tiempo (pulgadas de agua)
2.00 5.0
1.99 6.0
1.88 7.0
1.76 7.8
1.68 8.4
1.57 9.6
1.46 9.9
1.40 10.6
1.39 11.7
1.20 14.0
1.15 15.9
1.07 19.0
1.01 24.0
1.00 28.0
0.95 35.0

(a) Calcular el modelo de regresin muestral que estime a la verdadera lnea


8-76
Dr. Hctor Quevedo Uras

poblacional. Para esto, identificar, primeramente, la variable dependiente y la


variable regresora. (Y = 1.95 0.0364 (X))
(b) Validar el modelo de regresin estimado en (a) usando enfoques subjetivos, es
decir, a travs de grficas con residuos estandarizados versus valores de cada de
presin. Tambin hacer otra grfica de residuos estandarizados versus los renglones.
Hacer otra grfica ms con los valores residuales versus los valores de z para la
prueba de normalidad.
(c) Complementar la validacin del modelo de regresin usando mtodos estadsticos
objetivistas. Para esto, estimar el coeficiente de determinacin R2, el error estndar
de lo estimado (s dado por el Minitab) y PRESS. Usar el programa Minitab para
estos clculos. (R2 = 76.0%, s = 0.1869, PRESS = 0.7405)
8.21. Se hace un estudio sobre la concentracin de cadmio atmosfrico, en ppm, yi y
su relacin con Xi = la altura de los muestreadores y X2 = distancia de la fuente
emisora. La tabla de abajo muestra los datos. Hacer los siguientes clculos:
(a) Ajustar el modelo de regresin que pueda ajustar a los datos del problema de la
concentracin de Cd. (Y = 350.99 1.27X1 0.154X2)
(b) Validar el modelo usando enfoques de diagnstico de estadstica de inferencia
(objetivistas) y de anlisis grfico (subjetivistas).
(c) Usar el modelo de regresin lineal mltiple para predecir el la concentracin de
cadmio, cuando la altura del muestreador es de X1 = 25 metros y la distancia de la
fuente emisora, es X2 = 851 metros. (188.2 ppm de Cd)
La tabla de abajo muestra los datos requeridos por este problema.

8-77
Dr. Hctor Quevedo Uras

Tabla mostrando los datos. (Elaboracin propia)


y (concentracin de Cd) | 193 230 172 91 113 125
X1 (Altura del muestreador) | 1.6 15.5 22.0 43.0 33.0 40.0
X2 (Distancia) | 851 816 1058 1201 1357 1115

8.22. El texto Applied Statistics: Analysis de Variance and Regression de los


investigadores Olive Dunn y Virginia Clark, discuten un ejemplo para predecir el
rendimiento de la cosecha de cebada, en funcin de la precipitacin pluvial X1 y la
temperatura X2. Para esto, hacer los siguientes clculos:
(a) Enlistar el modelo de regresin lineal mltiple que mejor ajuste a los datos.
(b) Estimar la ecuacin de los cuadrados mnimos que ajuste el rendimiento de trigo
(Y) a la precipitacin pluvial (X1) y la temperatura (X2).
(c) Probar la hiptesis de Ho: 2 = 0 con = 0.05.
(d) Estimar el coeficiente de correlacin parcial 2y.1 y probar Ho: 2y.1 = 0
(e) Validar el modelo de regresin derivado para ver, qu tanta confiabilidad se le
puede acreditar. Hacer esto, a travs de juicios objetivistas, como los diagnsticos R2,
R2ajustada, R2predecida, s, PRESS y Cp. Complementar la evaluacin del modelo usando
tcnicas subjetivistas, como los anlisis de los grficos de residuales estandarizados y
estudiantizados, prueba de normalidad, etc.

8-78
Dr. Hctor Quevedo Uras

Tabla mostrando los rendimientos de cebada como variable dependiente de la


precipitacin pluvial y la temperatura.
Rendimiento de cebada (yi) Precipitacin (x1) Temperatura (x2)
(fanegas/acre) (pulgadas) (oF)
21.0 45 54.1
20.0 47 61.6
21.0 33 50.8
24.0 39 52.1
20.0 30 50.2
12.5 28 57.1
19.0 41 55.7
23.0 44 57.6
23.0 31 50.1
19.0 29 38.0
21.0 34 56.2
12.0 27 51.5
21.0 42 54.1
27.0 35 46.7
17.5 43 60.8
26.0 39 56.9
11.0 31 60.3
24.0 42 54.6
26.0 43 53.5
18.5 47 64.0
15.5 25 45.7
(Fuente: Dunn et al. 1974. Applied Statistics: Analysis de Variance and Regression)

8.23. El texto Applied Statistics: Analysis de Variance and Regression de Dunn et al.
1974) hace un estudio mdico relacionado con el cambio de la hemoglobina de la
sangre de operaciones de la glndula tiroides, el cual est relacionado con la duracin
de la operacin quirrgica y el cambio en el porcentaje de la hemoglobina de la
sangre. Los datos se dan en la tabla de abajo.

8-79
Dr. Hctor Quevedo Uras

Tabla mostrando los datos.


________________________________________________________________
No. de paciente | 1 2 3 4 5 6 7 8
Prdida de sangre (x1) | 105 80 86 112 109 100 96 120
Duracin en minutos (x2) | 503 490 471 505 482 490 513 464
% de cambio de
hemoglobina (y1) | -1.7 -4.6 -9.8 -1.1 -4.1 -3.3 0.4 -2.9
________________________________________________________________
Fuente: Dunn et al. 1974
Hacer los siguientes clculos:
(a) Encontrar el modelo de regresin mltiple para predecir el porcentaje del cambio
de la hemoglobina (y) en funcin de las variables independientes, es decir, duracin
de la operacin (x1) y de la prdida de sangre (x2). (y = -84.002 + 0.129x2
+ 0.138x2)
(b) Predecir el % del cambio en la hemoglobina, cuando la duracin en minutos de la
operacin es de 80 y la prdida de sangre es de 350 ml. (25.38%)
(c) Discutir, qu tanta fidelidad se le puede otorgar al modelo de regresin mltiple
obtenido en este problema?
(d) Calcular el coeficiente de determinacin mltiple. (R2 = 0.813)
(e) Calcular el coeficiente parcial de correlacin, es decir, entre y y x1, con x2
constante. (0.793)
8.24. El libro de Jay L. Devore intitulado Probabilidad y Estadstica para Ingeniera
y Ciencias discute el diseo eficiente de ciertos incineradores de desperdicios
municipales, los cuales requieren de informacin acerca del contenido energtico de
los desperdicios. Acordemente, los autores del artculo Modelling the Energy
Content of Municipal Solid Waste Using Multiple Regression Techniques (J. of the
Air and Waste Mgmt. Assoc., 1996, pp. 650-656) proporcionaron los siguientes datos
acerca de Y = contenido energtico (Kcal/Kg.), en funcin de regresores % de

8-80
Dr. Hctor Quevedo Uras

plsticos en peso, % de papel en peso, % de basura en peso y % de humedad de peso.

Tabla mostrando los datos de este problema.


_______________________________________________________________________________________________
Obs. % Plstico (x1) % Papel (x2) % Basura (x3) % Humedad Contenido energtico (y)
_______________________________________________________________________________________________
1 18.69 15.65 45.01 58.21 947
2 19.43 23.51 39.69 43.61 1407
3 19.24 24.23 43.16 46.63 1452
4 22.64 22.20 35.76 45.85 1553
5 16.54 23.56 41.20 55.14 989
6 21.44 23.65 35.56 42.24 1162
7 19.53 24.45 40.18 47.20 1466
8 23.97 19.39 44.11 43.82 1656
9 21.45 23.84 35.41 51.01 1254
10 20.34 26.50 34.21 49.06 1336
11 17.03 23.46 32.45 53.23 1097
12 21.03 26.99 38.19 51.78 1266
13 20.49 19.87 41.35 46.69 1401
14 20.45 23.01 43.59 53.57 1223
15 18.81 22.62 42.20 52.98 1216
16 18.28 21.87 41.50 47.44 1334
17 21.41 20.47 41.20 54.68 1155
18 25.11 22.59 37.02 48.74 1453
19 21.04 26.27 38.66 53.22 1278
20 17.99 28.22 44.18 53.17 1153
21 18.73 29.39 34.77 51.06 1225
22 18.49 26.58 37.55 50.66 1237
23 22.08 24.88 37.07 50.72 1327
24 14.28 26.27 35.80 48.24 1229
25 17.74 23.61 37.36 49.92 1205
26 20.54 26.58 35.40 53.58 1221
27 18.25 13.77 51.32 51.38 1138
28 19.01 25.62 39.54 50.13 1295
29 21.25 20.63 40.72 48.67 1392
30 21.62 22.71 36.22 48.19 1372
_____________________________________________________________________________________________
Fuente: Jay L. Devore. Probability and Statistics for Engineering and the Sciences
(2000)
(a) Obtener el modelo de regresin y validarlo acordemente, es decir, usando
diagnsticos subjetivos y despus complementar la tarea usando diagnsticos
objetivos.
8.25. Treinta muestras del efluente de una planta de tratamiento se analizaron para la

8-81
Dr. Hctor Quevedo Uras

medicin del DBO5 y la demanda bioqumica de oxgeno (DQO). Los datos se


muestran en la tabla de abajo. Hacer lo siguiente:
(a) Calcular el promedio, s y el error estndar del DBO y del DQO. ( X DBO = 440.6,
s = 93.18, error estndar = 17.01; X DQO = 194.4, s = 45.3, error estndar = 8.27)
(b) Graficar los datos en papel de probabilidad.
(c) Determinar el DBO5 y el DQO que se exceder el 50% de las veces. (El DBO5
exceder 195 lbs/da el 50% de las veces. El DQO exceder 440 lbs/da el 50% del
tiempo)
(d) Determinar el DBO5 y el DQO que se exceder el 90% del tiempo.
Tabla mostrando las concentraciones de DQO y de DBO5. (Elaboracin propia)
DQO | 494 494 528 396 532 308 350 456 440 544
(lbs/da) | 310 538 480 500 396 486 556 600 428 440
| 291 490 546 582 368 386 400 347 278 304
DBO5 | 216 200 238 164 230 116 150 190 190 248
(lbs/da) | 120 226 200 222 176 202 240 280 184 194
| 134 215 246 292 177 193 165 160 125 137

8.26. El director de la oficina de personal de una firma constructora desea saber si


la destreza, en determinado tipo de trabajo, dentro de la empresa, puede ser
pronosticada usando como pronosticadores las variables edad y experiencia de los
empleados. La tabla de abajo da la informacin de una muestra aleatoria de 15
empleados. (Adaptacin del libro Business Statistics de Daniel et al. 1989, p. 577).

8-82
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema.


________________________________________________________________
Nivel de (y) Experiencia (x1) Edad (x2)
Destreza

15 0 21
15 0 18
21 0 22
28 1 24
30 1 25
35 1 25
40 1 26
35 2 34
30 2 25
45 2 38
50 3 44
60 3 51
45 4 39
60 4 54
50 5 55
________________________________________________________________
Fuente: Daniel et al. 1989. Business Statistics
Hacer los siguientes clculos:
(a) Encontrar la ecuacin de regresin de los cuadrados mnimos.
(b) Computar R2y.12.
(c) Probar Ho:1 = 0 y Ho:2 = 0. Dejar que = 0.05 y calcular el valor de p para
cada prueba.
(d) Computar el 95% de intervalo de confianza para 2.
(e) Dejar que x1 = 2 y x2 = 25 y calcular y.
(f) Encontrar el intervalo de 95% para y.
8.27. La capacidad de los ecologistas para identificar regiones de mxima riqueza
de las plantas podra tener un impacto sobre la preservacin de la diversidad
gentica. Esto es uno de los objetivos de los ecologistas quienes estn preocupados

8-83
Dr. Hctor Quevedo Uras

por el medio ambiente. El artculo Prediction of Rarities from Habitat Variables:


Coastal Plain Plants on Nova Scotian Lakeshores (Ecology, 1992, pp. 1852-1859)
us una muestra de 37 lagos y se obtuvo la ecuacin de regresin de abajo. Este
problema se sac del libro del investigador J. L. Devore (2001).
y = 3.89 + .033x1 + .024x2 + .023x3 - .0080x4 - .13x5 - .72x6
Donde:
y = riqueza de especies de plantas
x1 = rea de la cuenca
x2 = ancho de la playa
x3 = mal drenado (%)
x4 = color del agua
x5 = % de arena
x6 = alcalinidad.
El estudio report un coeficiente de determinacin mltiple de R2 = 0.83. Realizar
una prueba de la utilidad del modelo de regresin. Sugerencia: usar la funcin
estadstica: F = [R2/k] / [(1 - R2)/(n - (k + 1))], con regin de rechazo para una
prueba de nivel de F F,k,n-(k+1), donde k es el nmero de pronosticadores usados.
Usar la tabla de la distribucin F. Valorar la utilidad del modelo de acuerdo al
valor de la probabilidad p.
8.28. Este es ejercicio que involucra la seleccin de un modelo de regresin con 9
variables independientes o predictoras, es decir, x1, x2, x3, x4, x5, x6, x7, x8 y x9.
Basando el criterio en los diagnsticos R2, MSE y Cp (criterio de Mallow), decir
cul modelo de regresin es el ms apropiado. Esto es, seleccionando los mejores
subconjuntos posibles. Los datos se dan abajo.

8-84
Dr. Hctor Quevedo Uras

Tabla mostrando los datos. (Elaboracin propia)


________________________________________________________________
Subconjunto de predictores

1 2 3 4 5 6 7 8 9
Criterios _________________________________________________________

R2k | .354 .453 .511 .550 .562 .570 .572 .575 .575

MSEk | 2295 1948 1742 1607 1566 1541 1535 1530 1532

Cpk | 314 173 89.6 35.7 19.9 11.0 9.4 8.2 10.0
__________________________________________________________________

8.29. En un estudio de laboratorio para ver la relacin entre los slidos


suspendidos y las concentraciones de DBO se sac una muestra con los datos que
se muestran en la tabla de abajo.
Tabla mostrando los datos. (Elaboracin propia)

Slidos suspendidos| 18 7 14 31 21 5 11 16 26 29
DBO5 | 55 17 36 85 62 18 33 41 63 87

(a) Hacer una grfica que vaya en funcin de la variable dependiente y de la


variable independiente.

(b) Obtener el modelo de la ecuacin de regresin y trazarla en la grfica. (Slidos


suspendidos Y = 0.32 + 0.352 (X)
(c) Validar el modelo de regresin objetivamente, calculando el coeficiente de
determinaron R2, s y PRESS. (R2 = 0.962, s = 0.957, s = 1.85, PRESS = 42.38)
(d) Hacer una tabla de ANOVA que incluya el valor de F y p. (Completar la tabla
de abajo.

8-85
Dr. Hctor Quevedo Uras

Tabla de ANOVA. (Elaboracin propia)


__________________________________________________________________
Fuente g.l. SS MS Fcalc. Ftab. Valor p
__________________________________________________________________
Debido a la 1 694.16
regresin
Error 27.44 3.43
Total 9 721.60
__________________________________________________________________

(e) Hacer un diagnstico grfico para validar la autenticidad del modelo de


regresin seleccionado. Sugerencia: usar el programa Minitab.
8.30. Treinta casos del efluente de una planta de tratamiento se analizaron para el
DBO y el DQO. Los datos se muestran en la tabla de abajo. Hacer los siguientes
clculos:
Tabla mostrando los datos del problema. (Elaboracin propia)

DQO (lbs/Da)| 494 444 528 396 532 308 350 456 440 544 310 538
| 480 500 396 486 556 600 428 440 291 490 546 582
| 368 386 400 347 278 304
DBO (lbs/Da | 216 200 238 164 230 116 150 190 190 248 120 226
| 200 222 176 202 240 280 184 194 134 215 246 292
| 177 193 165 160 125 137
__________________________________________________________________
(a) Determinar R2 y R. (R2 = 0.9350, R = 0.967)
(b) Graficar los datos en papel de probabilidad y determinar lo siguiente:
(1) Determinar los valores de DBO y el DQO que excedern el 50% y el 90% de
las veces. (195 lbs/Da y 440 lbs/Da)
(2) Determinar los valores de DBO y del DQO que se lograrn el 90% de las veces.

8-86
Dr. Hctor Quevedo Uras

(3) Determinar los valores de DBO y del DQO que puedan ser excedidos el 10% de
las veces. (260 lbs/Da y 580 lbs/Da)
(4) Calcular el promedio y la desviacin estndar del DBO y del DQO.
(c) Evaluar el modelo de regresin aplicando enfoques subjetivistas, es decir, con
grficas de los valores residuales en funcin de valores ajustados (para la prueba de
independencia), pruebas de normalidad, etc.
8.31. Este es un problema adaptado del libro Introduccin al Anlisis de Regresin
Lineal de los autores Montgomery, Peck y Vining (2001). Este proyecto est
relacionado con un estudio de energa solar en el Tecnolgico de Georgia, Estados
Unidos. El proyecto involucra datos de pruebas de energa trmica con una
variable dependiente (y), que relaciona al flujo total de calor (Kwatts) y cinco
variables independientes que estn relacionadas con la insolacin (watts/m2), la
posicin del foco en direccin del este (en pulgadas), la posicin del foco en
direccin del sur (en pulgadas), la posicin del foco en direccin norte (en
pulgadas) y la hora del da. Para esto, estimar los siguientes enunciados:
(a) Probar el modelo de regresin que mejor ajuste a los datos.
(b) Evaluar el modelo de regresin seleccionado, es decir, a travs de criterios
estadsticos y complementar la decisin usando grficos subjetivistas.
La tabla de abajo muestra la informacin requerida para solucin todos los
enunciados requeridos por este problema.

8-87
Dr. Hctor Quevedo Uras

Tabla mostrando los datos de las pruebas de energa solar trmica.


__________________________________________________________________________________
y x1 x2 x3 x4 x5
__________________________________________________________________________________
271.8 783.35 33.53 40.55 16.66 13.20
264.0 748.45 36.50 30.19 16.46 14.11
238.8 684.45 34.66 37.31 17.66 15.68
230.7 827.80 33.13 32.52 17.50 10.53
251.6 860.45 35.75 33.71 16.40 11.00
257.9 875.15 34.46 34.14 16.28 11.31
263.9 909.45 34.60 34.85 16.06 11.96
266.1 905.55 35.38 35.89 15.93 12.58
229.1 756.00 35.85 33.53 16.60 10.66
239.3 769.35 35.68 33.79 16.41 10.85
258.0 793.50 35.35 34.72 16.17 11.41
257.6 801.65 35.04 35.22 15.92 11.91
267.3 819.65 34.07 36.50 16.04 12.85
267.0 808.55 32.20 37.60 16.19 13.58
259.6 774.95 34.32 37.89 16.62 14.21
240.4 711.85 31.08 37.71 17.37 15.56
227.2 694.85 35.73 37.00 18.12 15.83
196.0 638.10 34.11 36.76 18.53 16.41
278.7 774.55 34.79 34.62 15.54 13.10
272.3 757.90 35.77 35.40 15.70 13.63
267.4 753.35 36.44 35.96 16.45 14.51
254.5 704.70 37.82 36.26 17.62 15.38
224.7 666.80 35.07 36.34 18.12 16.10
181.5 568.55 35.26 35.90 19.05 16.73
227.5 653.10 35.56 31.84 16.51 10.58
253.6 704.05 35.73 33.16 16.02 11.28
263.0 709.60 36.46 33.83 15.89 11.91
265.8 726.90 36.26 34.89 15.83 12.65
263.8 697.15 37.20 36.27 16.71 14.06
___________________________________________________________________________________________
y = Flujo total de calor (kwatts); x1 = Insolacin (watts/m2); x2 = Posicin del foco en direccin este (pulgadas); x3 = Posicin
del foco en direccin sur (pulgadas); x4 = Posicin del foco en direccin norte (pulgadas); x5 = Hora del da

Fuente: Introduccin al Anlisis de Regresin Lineal. Montgomery et al. 2001.

8-88
Dr. Hctor Quevedo Uras

8.32. La intencin de este ejercicio es la de hacer una grfica, con la variable de


respuesta (Y) y con cuatro variables regresivas (X1, X2, X3, X4) usando el programa
Minitab. Siendo as, de la configuracin de los puntos esparcidos obtenida
predecir, qu tipo de funcin de regresin estadstica encajara mejor en los datos.
Adems, evaluar el modelo de regresin candidato o superior usando mtodos
estadsticos y grficos. Sugerencia: para hacer la grfica pedida, usar el programa
Mintab procediendo de la siguiente manera: Irse a Graph Draftsman Plot. Esto
lleva al recuadro de Draftsman Plot. Enseguida, en la ventanilla de Y variable
poner la variable dependiente (Y) y, en la ventanilla de X variable poner las
variables independientes (X).

Tabla mostrando los datos de este problema. (Elaboracin propia).


______________________________________________________________________________
Variable de respuesta (Y) Variable regresiva X1 Variable regresiva X2 Variable regresiva X3 Variable regresiva X4

235 20 19 86 95
231 27 17 85 90
285 40 20 83 105
270 55 20 82 83
296 60 20 87 90
312 68 21 89 94
295 75 20 83 92
292 80 20 81 92
263 70 20 58 105
271 50 15 79 100
283 40 15 80 90
256 30 15 79 88

8.33. Este es un problema adaptado del texto de Jay L. Devore (2001), en el cual se
da la informacin requerida para la seleccin del modelo de regresin superior,
basado en la inclusin del nmero de variables regresoras, seleccionado entre
8-89
Dr. Hctor Quevedo Uras

cuatro modelos candidatos. El ejemplo est relacionado con el calor acumulado del
endurecimiento del cemento tomado como la variable dependiente, en funcin de
los predictores x1 = % de aluminato de tricalcio, x2 = % de silicato de tricalcio, x3 =
% ferrato de aluminio y x4 = silicato de dicalcio. Se da un tamao de muestra igual
a 13 observaciones y, donde la suma de los cuadrados del total es igual a 2,715.76.
Para esto, se pide al lector llenar los faltantes de la tabla de abajo y decidir cual es
el modelo superior que tiene el nmero adecuado de variables regresoras.
Tabla mostrando la informacin. Llenar los faltantes.
No. de regresores k Regresor (es)k SSEk R2k R2(ajustada)k Cpk F(calc.)k
1 x4 880.85 0.676 0.647 138.2
2 x1, x2 58.01 2.7
3 x1, x2, x3 0.982 0.876 3.2
4 x1, x2, x3, x4 0.982 4.0

8-90
Dr. Hctor Quevedo Uras

CAPITULO 9

Regresin polinomial
Modelos polinomiales de segundo orden (k = 2) con una variable independiente.-
Modelo de polinomios de tercer orden (k = 3), con una variable independiente.-
Modelo de segundo orden (cuadrtico) con interaccin.- Modelo polinomial (de
segundo orden o cuadrtico), con tres variables independientes con interaccin.-
Evaluacin de los modelos de regresin.- Prueba estadstica para comparar la
suma de los cuadrados del error (SSE) de cada modelo probado, para saber cual
modelo es superior.- Modelos de regresin no lineales y de regresin logstica.-
Modelos de regresin exponenciales paramtricos, con una sola variable
independiente.- Procedimientos para la identificacin de valores atpicos
extremos. Diagnstico y mitigacin de multicolinealidad.- Medidas para corregir
multicolinealidad severa.- Ejemplos de problemas de regresin polinomial
usando el programa de computadora Minitab.- Autocorrelacin en datos de
series de tiempo.- Heteroscedasticidad y homoscedasticidad.- Prueba de White
para el problema de heteroscedasticidad.-
La regresin polinomial es un caso especial de la regresin lineal simple o mltiple.
Hay modelos polinomiales de segundo o tercer orden. Con la regresin polinomial
existen modelos con una variable independiente, con ecuaciones cuadrticas, cbicas
o con rdenes ms altos que k = 3. Tambin hay modelos polinomiales con dos o ms
variables independientes, con ecuaciones de segundo, tercer orden, etc. Igualmente,
puede haber modelos de segundo orden o tercer orden con interaccin. Sin embargo,
los modelos polinmicos que tienen tres o ms variables independientes, con valores
de k > 3 son aplicaciones muy dificultosas y raras.

9-1
Dr. Hctor Quevedo Uras

Dentro del tpico de regresin, tambin hay modelos de regresin no lineal,


como los modelos de regresin exponenciales, en los cuales los parmetros no son
lineales.
El modelo de regresin polinomial paramtrico o poblacional es:
y = o + 1x + 2 x2 + + k xk +
El estimador o modelo de regresin estadstico es:
y = bo + b1x + b2 x2 + + bk xk + e
Modelos polinomiales de segundo orden (k = 2) con una variable independiente
El modelo polinmico de segundo orden (k = 2), con una variable independiente,
llamada funcin de respuesta cuadrtica es:
y = o + 1x + 11x2 + (9-1)
Que tambin se puede expresar con diferente anotacin como:
y = o + 1x + 2 x2 + (9-1a)
Donde:
y = variable dependiente o funcin de respuesta
o = intercepto en la ordenada. Este coeficiente de regresin representa la respuesta
promedio de y, cuando x = 0
1 = coeficiente de efecto lineal
11 o 2 es el coeficiente de efecto cuadrtico
x = variable independiente
= trmino de error o residuo
La funcin de respuesta para este modelo de regresin (Neter et al. 1996) es:
E{Y} = o + 1x + 11x2 (9-1b)
Esta funcin es la forma bsica de una parbola convexa, es decir, cuando 2 < 0. Sin
embargo, cuando 2 > 0, la parbola es cncava. Estas situaciones se ven en la Figura
9.0(a) y en la Figura 9.0 (b). El coeficiente o representa el intercepto en la ordenada.

9-2
Dr. Hctor Quevedo Uras

Los coeficientes 1 y 2 controlan la parbola, relativo a la ordenada. Por ejemplo, si 1


= 0, la parbola es simtrica y centrada alrededor de y = 0. No obstante, si 1 y 2 tienen
el mismo signo, la parbola se desva hacia la izquierda, pero si 1 y 2 tienen signos
opuestos, la parbola se desva hacia la derecha. Adems, el coeficiente 2 describe la
curvatura. Por otra parte, si 2 = 0, no hay curvatura. Esto se ve en la Figura 9.0(c).
Entre ms grande sea el valor de 2, mayor ser la tasa de curvatura. Sin embargo, entre
ms pequeo sea el valor de 2, menor ser la curvatura (Keller et al. 1990). Todas estas
situaciones se ven en estas grficas.
Modelo de polinomios de tercer orden (k = 3), con una variable independiente
y = o + 1x + 11x2 + 111x3 + (9-2)
Donde:
y = variable dependiente
1 = coeficiente de efecto lineal
11 = coeficiente de efecto cuadrtico
111 = coeficiente de efecto cbico.
Las Figuras 9.0 (d) y (e) de abajo muestran este tipo de ecuacin. Como se ve, cuando
3 < 0, sobre el rango de x, el valor de y disminuye, pero cuando 3 > 0, el valor de y
aumenta. Sin embargo, las aplicaciones del modelo cbico son muy pocas.

9-3
Dr. Hctor Quevedo Uras

Figura 9.0. Figuras mostrando las grficas del modelo cuadrtico y cbico. Por
ejemplo, grfica (a) muestra el modelo de segundo orden, con 2 < 0; la grfica (b)
muestra el modelo con 2 > 0 y con varios valores de 2. La grfica (c) muestra los
modelos de tercer orden con 3 < 0 y, (d), con 3 > 0. (Fuente: Keller et al. 1990)

9-4
Dr. Hctor Quevedo Uras

Los modelos polinomiales de poderes ms altos que k = 3 deben de usarse con


precaucin. Esto se debe a que, la interpretacin de los coeficientes es difcil, y las
interpolaciones pueden ser peligrosas. Adems, cuando hablamos de modelos con
valores de k = 4, o k = 5, el comportamiento de semejantes modelos es extrao y de
aplicaciones raras y, por lo tanto, no se discutirn aqu.
Modelo de segundo orden con ms de dos variables independientes con
interaccin
Antes de discutir estos modelos de regresin hay que definir el trmino interaccin.
Interaccin significa que, el efecto de x1 sobre y, es influenciado por el valor de x2, que
tambin significa que, el efecto de x2 sobre y, es influenciado por x1.
Para ver el efecto de interaccin, supngase que la ecuacin de la lnea de
regresin muestral es y = 6 + 4x1 + 5x2 3x1x2. Para explicar este efecto supngase que
le demos valores a x2 de 1, 2, y 3. Al sustituir los valores de x2 = 1, 2, y 3, en la ecuacin
muestral de arriba, se producen las siguientes ecuaciones: y = 5 + x1, con x2 = 1; y =
10 2x1 con x2 = 2 y, adems, y = 15 5x1, con x2 = 3. Analizando estas tres ecuaciones
modificadas vemos que el intercepto y los coeficientes de x1 tambin varan. Aqu se ve
que el efecto de x1 sobre y es influenciado por el valor de x2. Al graficar estas tres
ecuaciones vemos que las tres lneas rectas se cruzan entre si. Esto se ve en la Figura
9.1 (b). En esta grfica, claramente, se ve que hay interaccin, es decir, cuando las
lneas rectas se cruzan entre si.
Modelo de segundo orden (cuadrtico) con interaccin
Si un investigador cree que en sus datos existe una relacin cuadrtica entre la variable
dependiente (y) y cada una de las variables independientes x1 y x2, es decir, cuando las
variables independientes interaccionan entre si (decisin que se logr despus de
analizar las grficas con tres curvas interaccionando entre si), entonces, se

9-5
Dr. Hctor Quevedo Uras

debe de inclinar por el modelo de segundo orden con interaccin.


El modelo polinomial con dos variables independientes con interaccin se da
como:
y = o + 1x1 + 2 x2 + 3 x21 + 4 x22 + 5 x1x2 + (9-3)
Este modelo, tambin se puede expresar con diferentes anotaciones, como las
sealadas abajo:
y = o + 1x1 + 2 x2 + 12 x21 + 22 x22 + 12 x1x2 + (9-3a)
Donde:
12 = coeficiente de efecto de interaccin, donde x1 y x2 representan la interaccin entre
los pronosticadores o variables independientes x1 y x2.
Aqu, ntese que, la diferencia entre la ecuaciones (9-2) y (9-3), es el ltimo trmino de
la derecha, el cual denota el efecto de la interaccin.
Modelo polinomial (de segundo orden o cuadrtico) con tres variables
independientes sin interaccin
El modelo de segundo orden con tres variables independientes, cuando estas variables
no interaccionan entre si, es:
y = o + 1x1 + 2 x2 + 3 x3 + 11 x21 + 22 x22 + 33 x23 + (9-4)
Modelo polinomial (de segundo orden o cuadrtico), con tres variables
independientes con interaccin
El modelo de segundo orden con tres variables independientes, con interaccin
(Neter et al. 1996) es:
y = o + 1x1 + 2x2 + 3x3 + 11x21 + 22x22 + 33x23 + 12x1x2 + 13x1x3 + 23x2x3 + (9-5)
Donde:
y = variable dependiente o funcin de respuesta
o = intercepto en la ordenada

9-6
Dr. Hctor Quevedo Uras

12, 13, 23 = los coeficientes del efecto de interaccin entre los pares de variables
de prediccin x1x2, x1x3 y x2x3 x1x2, x1x3, x2x3 representan la interaccin entre las
variables independientes x1, x2, x3,x1, x2, x3 = variables independientes
En la solucin de problemas relacionados con modelos de regresin lineal,
mltiple o de regresin polinomial, con una o ms variables independientes es siempre
conveniente graficar los datos y examinar el diagrama esparcido. Esto se hace con el
objeto de analizar, visualmente, el diagrama esparcido y ver el tipo de curva mostrado
y, por consiguiente, el modelo de regresin o funcin que pueda encajar mejor en los
datos.

Figura 9.1. Grficas mostrando modelos polinomiales de primero y segundo orden, con
dos variables independientes. La grfica (a) muestra la ecuacin y = 6 + 4x1 + 5x2.
Cuando x2 = 1, 2 y 3, las ecuaciones modificadas se ven en la grfica en cada uno de sus
casos.

9-7
Dr. Hctor Quevedo Uras

En estas figuras se ve que no hay interaccin (las lneas no se cruzan, porque es un


modelo aditivo). La grfica (b) muestra la ecuacin y = 6 + 4x1 + 5x2 3x1x2. Cuando
x2 = 1, 2 y 3, la grfica muestra las ecuaciones modificadas. Aqu se ve que, la ecuacin
polinomial de primer orden tiene interaccin. Finalmente, las grficas (c) y (d)
muestran los modelos de regresin polinomial de segundo orden, sin interaccin y, con
efecto de interaccin de inferencia, respectivamente. Esto se vera despus de que se
sustituyeran los valores de x2 = 1, 2 y 3 a una ecuacin muestral que emular al modelo
(9-6). (Keller et al. 1990).
Evaluacin de los modelos de regresin
La regresin polinomial es un caso especial de los modelos de regresin lineal simple
y mltiple. La validacin de estos modelos es anloga a la de los modelos de regresin
lineal. Sin embargo, antes de estar totalmente seguros acerca de la utilidad del modelo
de regresin seleccionado, para fines de prediccin y estimacin, hay que ver que el
modelo represente adecuadamente la relacin entre las variables. Esto se puede hacer
a travs de estadstica de inferencia y de anlisis de grficos.
Para la evaluacin de los modelos se puede proceder, jerrquicamente, ajustando
modelos de segundo y tercer orden, con interaccin y sin interaccin y, luego se
explora la posibilidad de ajustar un modelo de orden ms bajo como modelos de
regresin lineal mltiple, pero, nuevamente, con interaccin y sin interaccin.
De cualquier manera, como se dijo antes, para evaluar los modelos de regresin
se procede explorando los criterios estadsticos, como el coeficiente de determinacin
mltiple (R2), el error estndar de lo estimado (s), el coeficiente de determinacin
mltiple (R2), el criterio Cp de Mallow, PRESS (la sigla de suma de cuadrados de error
de prediccin) o, los valores de t, etc. Adems, se revisan los valores de VIF (factores
de varianza inflada; en donde valores grandes de VIFs indican grandes diferencias
entre los coeficientes de regresin estimados y los estandarizados), para ver posibles

9-8
Dr. Hctor Quevedo Uras

problemas de colinealidad. Tambin, se puede usar la estadstica de Durbin-Watson


para revisar problemas de autocorrelacin de los residuos en series de tiempo. Aqu,
para regresin mltiple, de acuerdo a la lgica del programa NCSS, sta dice que, si
esta funcin est cercana a 2, no hay autocorrelacin, pero si es muy diferente de 2,
entonces, si la hay. Anlogamente, se pueden usar otros mtodos como Regresin por
Pasos o Todas las Regresiones Posibles, que seleccionan los modelos ptimos
basndose en los criterios arriba citados, es decir, agregando y/o eliminando las
variables independientes o de respuesta.
Finalmente, todo esto se puede complementa usando un anlisis subjetivo, es
decir, analizando los grficos de los residuos estandarizados o no estandarizados, esto
es, examinando la prueba de normalidad, residuos versus valores ajustados, de los
rdenes, etc.
A. Anlisis de estadstica de inferencia (objetivo) para complementar la validacin del
modelo
1. Clculo del coeficiente de determinacin R2. Este criterio indica, qu proporcin de
la variacin total en la respuesta Y se explica con el modelo ajustado. En trminos
simples, esto dice que R2 indica la proporcin de variacin explicada por las variables
independientes x1, x2, x3, ., xk. Este coeficiente de determinacin R2 ya se describi
anteriormente, es decir:
R2 = (xy)2 / x2y2 (9-6)
Donde: xy = XY XY/n, x2 = X 2 (X)2/n y y2 = Y 2 (Y)2/n, las cuales
se definen por las ecuaciones (8-8), (8-9) y (8-10) dadas en el captulo 8.
2. El error estndar de lo estimado:
SSE
s = = (y y p)2/(n 2) (9-7)
n 1 k

Donde, SSE = e2i se refiere a la suma de los cuadrados del error o residuo, y p es lnea

9-9
Dr. Hctor Quevedo Uras

de regresin, n es el tamao de muestra y, k, es el nmero de coeficientes i probados


en el modelo de regresin polinomial. Un valor pequeo de SSE, indica un buen ajuste
del modelo. La funcin SSE es un diagnstico muy importante.
3. Criterio Cp. Este diagnstico est relacionado con el error cuadrtico medio de un
valor ajustado. En general, se prefieren valores pequeos de Cp. El modelo ptimo
tiene un valor de Cp cercano a (p + 1), donde, p es el nmero de variables
independientes. Un Cp mayor que (p + 1) indica que el modelo de regresin contiene
variables innecesarias que puedan dar problemas de colinialidad, pero si el Cp es
menor que (p + 1), esto indica que se han omitido variables importantes.
4. Anlisis de ANOVAS y pruebas de t de Estudiante para ver cual modelo de
regresin ajusta mejor los datos.
B. Anlisis grfico (subjetivo). Para hacer la evaluacin, subjetivamente, de la bondad
de ajuste de los modelos usados se analizan los siguientes grficos:
1. Prueba de normalidad. Para que exista normalidad, los residuos debern formar una
lnea recta o estar dentro de las bandas de confianza. Si no es as, la suposicin de
normalidad es invlida.
2. Histogramas de residuos. Esta grfica deber asemejarse a una distribucin normal.
3. Grfica de residuos versus valores ajustados de Y para la prueba de independencia.
Aqu, debe haber aleatoriedad de los residuos. No debe haber tendencias crecientes o
decrecientes. Adems, debe haber el mismo nmero de residuos positivos y negativos.
De no ser as, se violan las suposiciones del modelo.
4. Autocorrelacin (valores de fijos). Para diagnosticar la autocorrelacin en series de
tiempo, grficar residuos vs. tiempo. Usar prueba de Durbin-Watson para ver si existe
autocorrelacin de primer orden. Se mitiga haciendo transformaciones del eje Y.
5. Anlisis de grficos para diagnosticar colinialidad (correlacin o dependencia casi
lineal entre las variables de regresin). Para mitigar esto hacer transformaciones como

9-10
Dr. Hctor Quevedo Uras

Y= Log Y, Y = Y 2, Y = Y e Y = 1/Y.
6. Prueba de heteroscedasticidad (hetero- = desigual; -scedasticidad = esparcido) o de
residuales no uniformes (implica error de varianza de 2 no constante en todos los
casos, en contraste con homoscedasticidad, la cual implica error de varianza 2
constante). Para diagnosticar el problema de heteroscedasticidad graficar los residuales
versus valores predecidos, Y. Anlogamente, para diagnosticar este problema de
heteroscedasticidad se puede hacer aplicando las pruebas de White y de
Breusch-Pagan. Para mitigar el problema de la falta de homoscedasticidad, esto se
puede hacer por medio de transformaciones, como en el incio (5). Tambin se puede
hacer probando otros modelos que ajusten mejor los datos.
Resumen de los modelos de regresin usados
A. Modelo de regresin lineal simple (de primer orden), con una variable
independiente
y = o + 1x1 +
B. Modelo de regresin lineal mltiple, con dos variables independientes, sin
interaccin
y = o + 1x1 + 2 x2 +
C. Modelo de regresin lineal mltiple, con dos variables independientes, con
interaccin
y = o + 1x1 + 2 x2 + 12 x1x2 +
D. Modelo cuadrtico, con una variable independiente
y = o + 1x1 + 2 x22 +

9-11
Dr. Hctor Quevedo Uras

F. Modelo cbico, con una variable independiente


y = o + 1x1 + 2x22 + 3x33 +
F. Modelo de segundo orden (cuadrtico), con 2 variables independientes, sin
interaccin
y = o + 1x1 + 2 x2 + 11 x21 + 22 x22 +
G. Modelo cuadrtico con dos variables independientes con interaccin
y = o + 1x1 + 2 x2 + 11 x21 + 22 x22 + 12 x1x2 +
H. Modelo de segundo orden con 3 variables independientes, sin interaccin
y = o + 1x1 + 2 x2 + 3 x3 + 11 x21 + 22 x22 + 33 x23 +
I. Modelo cuadrtico con 3 variables independientes con interaccin
y = o + 1x1 + 2x2 + 3x3 + 11x21 + 22x22 + 33x23 + 12x1x2 + 13x1x3 + 23x2x3 +
Ejemplo #1. En un artculo del J. Agricultural Eng. Research, 1975 (p. 353-361) se
reportan los datos con el nmero de das despus de la floracin (x), el rendimiento de
la cosecha, en Kg./ha (y). (Devore, 2001). La tabla de abajo muestra los datos.
TABLA 9.1. Tabla mostrando los datos del problema.
x | 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46

y | 2508 2518 3304 3423 3507 3190 3500 3883 3823 3646 3708 3333 3517 3241 3103 2776

(Fuente: Devore, 2001)


Hacer los siguientes clculos:
(a) Hacer una grfica que vaya en funcin de (y) y de los das de floracin (x).
(b) Ajustar el modelo de regresin ms apropiado.
(c) Hacer una relacin de los clculos de los coeficientes de la desviacin estndar y de
una tabla de anlisis de varianza.
(d) Estimar el valor del coeficiente de determinacin mltiple R2.
(e) Hacer una prueba de hiptesis Ho:2 = 0 versus H1:2 0. Hacer otra prueba ms

9-12
Dr. Hctor Quevedo Uras

con Ho:1 = 0 versus H1:1 0.


Solucin:
(a) La grfica de abajo indica que, una funcin polinomial cuadrtica, con < 0, sera
la ms apropiada.

Figura 9.2. Diagrama esparcido de los datos del rendimiento de la cosecha (y) y el
nmero de das de floracin (x). (Fuente: Devore, 2001).

(b) La tabla de abajo muestra los resultados. (Elaboracin propia)


___________________________________________________________________
Pronosticador Coeficiente Desviacin estndar Valor de t Valor de p
___________________________________________________________________
Constante -1070.4 617.3 -1.73 0.107
1 293.48 42.18 6.96 0.000
2 -4.5358 0.6744 -6.73 0.000

SSE = 203.9 R2 = 0.794 R2ajustada = 0.762


___________________________________________________________________

Los niveles crticos para una prueba bilateral, con un nivel significante de = 0.05 son:

-2.16 t[.025;13] 2.160

(c) Los resultados obtenidos de este inciso se muestran en la tabla de abajo.

9-13
Dr. Hctor Quevedo Uras

TABLA 9.0. Tabla de anlisis de varianza. (Elaboracin propia)


_________________________________________________________________
Fuente de g.l. SS MS Fcalc. Valor de p
Variacin
_________________________________________________________________
Debido a la 2 2,084,779 1,042,389 25.08 0.0000
regresin
Error 13 540,388 41,568
________________________________________________________________
Total 15 2,625,167

Conclusin: Debido a que Fcalc. = 25.08 >>> Fcrtica = 3.81, se rechaza la hiptesis nula
Ho:2 = 0 y, por lo tanto, se inclina por la hiptesis alternativa de H1:2 0.
(d) La estimacin del coeficiente de determinacin es:
R2 = 1 SSerror/SStotal
= 1 540,388/2,625,167
= 0.794
(e) Para la prueba de hiptesis nula Ho:2 = 0 y la hiptesis alternativa H1:2 0,
usamos los datos de arriba. Por ejemplo, 2 = -4.5358 y la desviacin estndar es de s2
= 0.6744. La prueba de Ho:2 = 0 es lo mismo que decir que el modelo polinomial
cuadrtico no aplica a los datos y, H1:2 0 dice que si aplica. La funcin de t usada
es:
t = 2 / s2 (9-8)

Sustituyendo los valores correspondientes nos da:


t = -4.5358 / 0.6744
= -6.73

La prueba est basada en n - (k + 1) grados de libertad (), es decir, con n = 16 y k = 2.


Por lo tanto, = 13. Las regiones crticas son: -2.160 t.025;13 2.160.
En conclusin, debido a que la tcalc. = -6.73 < tcrtica = -2.160, se rechaza la hiptesis nula

9-14
Dr. Hctor Quevedo Uras

de Ho:2 = 0 y se inclina por la prueba de hiptesis alternativa de H1:2 0. No


obstante, si se rechaza la hiptesis nula, se dice que el modelo cuadrtico si encaja bien
en los datos; de otra manera se acepta la hiptesis nula. Para hacer la prueba de
hiptesis nula de Ho:1 = 0 versus H1:1 0, se procede en forma similar.
(f) Para las grficas de los residuos estandarizados, en funcin de las observaciones,
estas grficas se pueden formular usando la informacin dada en la tabla de abajo.
Prueba estadstica para comparar la suma de los cuadrados del error (SSE) de
cada modelo probado, para saber cual modelo es superior
Los autores Keller et al. (1990) del libro Statistics for Management and Economics dan
una prueba estadstica que mide las diferencias de la suma de los cuadrados del error
(SSE), para probar la superioridad de cada modelo probado. Esto se debe a que SSE
mide, qu tan bien encajan los datos en el modelo. Esta prueba se hace comparando la
suma de los cuadrados del error (SSE1) del modelo simple o abreviado y, la suma de los
cuadrados del error (SSE2) del modelo completo o complejo. Esto se hace, porque
siempre es conveniente usar modelos simples (el uso de modelos complejos no
necesariamente los hace superiores). La prueba estadstica para medir la relacin entre
SSE1 y SSE2 es:
(SSE1 SSE2)/(k2 k1)
F = (9-9)
SSE2 / (n k2 1)
Donde:
F = distribucin de Fisher, con 1 = k2 k1 y 2 = n k2 1 grados de libertad.
Donde: n k2 1 = nmero de grados de libertad asociados con el modelo completo.
Donde: k2 = nmero de coeficientes (i) probados del modelo completo
k1 = nmero de coeficientes (i) probados del modelo simple.
n = tamao de la muestra
SSE1 = suma de los cuadrados del error del modelo simple probado

9-15
Dr. Hctor Quevedo Uras

SSE2 = suma de los cuadrados del modelo completo probado


Nota: Si el ajuste del modelo completo no es significantemente mejor que el modelo
simple o abreviado, el valor de SS1 ser pequeo. Por ende, la relacin SS1 SS2 ser
pequea y, por lo tanto, el valor de F ser pequeo y no se podr rechazar la hiptesis
nula. Sin embargo, si el ajuste del modelo completo es bueno, el valor de SS2 ser
pequeo y la relacin SS1 SS2 ser grande y, por consiguiente, el valor de F ser
grande y se rechazar la hiptesis nula.
La regin de rechazo para la ecuacin de arriba (9-9) es dada por la siguiente funcin
estadstica:
F > F[;k2-k1,n-k2-1] (9-9a)
Donde:
F = el valor de la estadstica F calculada
= nivel significante de 0.05 o 0.01 de la distribucin de F
k2 = nmero de coeficientes i del modelo superior
k1 = nmero de coeficientes i del modelo abreviado
n = tamao de la muestra
Ejemplo #2. El libro Statistics for Management and Economics de Keller et al. (1990)
da un ejemplo, para determinar el modelo de regresin ms apropiado. Para esto, se
saca una muestra de 25 reas (casos). Cada rea consiste en, aproximadamente, 5,000
viviendas. Se registra la ganancia anual total de las ventas, el ingreso promedio anual
de las viviendas y la edad promedio de los nios de este problema.
Hacer los siguientes clculos:
(a) Probar un modelo de regresin cuadrtico, con interaccin. En este caso, lo
llamaremos modelo superior o modelo completo.
(b) Despus, probar un modelo de regresin cuadrtico, sin interaccin. El este caso, lo
llamaremos modelo abreviado.

9-16
Dr. Hctor Quevedo Uras

(c) Finalmente, probar un modelo de regresin lineal mltiple, sin interaccin. Este
modelo, lo llamaremos modelo lineal simple.
(d) Describir las ecuaciones de los modelos de regresin poblacionales de los incisos
(a), (b) y (c).
(e) Para decidir cual modelo es mejor, hacer una tabla con los resultados de los tres
modelos, basndose en los diagnsticos objetivistas como las estadsticas R2, R2ajustada,
s, PRESS, ANOVA, etc.
(f) Hacer una prueba de hiptesis para ver si el efecto de interaccin es viable. Adems,
usar la ecuacin 9-9, para seleccionar el modelo de regresin ms apropiado.

9-17
Dr. Hctor Quevedo Uras

TABLA 9.2. Tabla mostrando los datos para este problema.


Ingreso anual Ingreso promedio Edad promedio
de ventas anual de los nios
___________________________________________________________________
rea (y) (x1) (x2)
1 1,128 23.5 10.5
2 1,005 17.6 7.2
3 1,212 26.3 7.6
4 893 16.5 5.9
5 1,073 22.3 6.6
6 1,179 26.1 6.3
7 1,109 24.3 12.1
8 1,019 20.9 14.9
9 1,228 27.1 8.9
10 812 15.6 3.4
11 1,193 25.7 10.6
12 983 30.5 6.0
13 1,281 26.5 8.6
14 1,156 25.7 11.6
15 1,032 21.8 13.7
16 856 33.6 5.8
17 978 17.9 10.3
18 1,017 18.3 5.3
19 1,091 30.1 6.3
20 1,048 29.8 5.3
21 1,192 28.5 10.4
22 1,256 27.5 8.7
23 1,215 26.8 9.5
24 1,233 24.3 8.3
25 950 17.8 6.1
__________________________________________________________________
(Fuente: Statistics for Management and Economics de Keller et al., 1990)
Solucin:

9-18
Dr. Hctor Quevedo Uras

Figura 9.3. Figura mostrando los resultados usando el programa Minitab de los tres
modelos probados. (Elaboracin propia)
(a) Primero, se prueba el modelo de regresin polinomial cuadrtico, con interaccin,
es decir, el modelo completo.
The Regression Equation is:
(y) = -1135 + 173(X1) + 23.6(X2) 3.73(X21) 3.8(X22) + 1.97(X1X2)

Predictor Coef SE Coef T p


Constant -1134.7 319.8 -3.55 0.002
(X1) 173.24 28.19 6.15 0.000
(X2) 23.62 32.21 0.73 0.472
(X1SQR) -3.7270 0.5420 -6.88 0.000
(X2SQR) -3.8720 1.1790 -3.28 0.004
(X1X2) 1.9671 0.9424 2.09 0.051

s = 44.68 R-Sq = 90.7% R-Sq(adj) = 88.2%


PRESS = 72380.6 R-Sq(pred) = 82.18%

Analysis of Variance Table

Source DF SS MS F p
Due to regression 5 368162 73632 36.88 0.000
Residual Error 19 37934 1097
Total 24 406096

Nota: Aqu, la regin crtica de F, con = 0.05 y con 5 y 19 grados de libertad, es 2.74.
(b) Enseguida se prueba el modelo de regresin cuadrtico, sin interaccin, es decir, el
modelo abreviado. El programa Minitab arroja los siguientes resultados:
The Regression Equation is:
(y) = -1558 + 198(X1) + 70.8(X2) 3.98(X21) 4.12(X22)

Predictor Coef SE Coef T p


Constant -1558.30 267.1 -5.83 0.000
(X1) 198.07 27.62 7.17 0.000
(X2) 70.76 24.83 2.85 0.010
(X1SQR) -3.997 0.5709 -6.97 0.000
(X2SQR) -4.117 1.268 -3.25 0.004

s = 48.29 R-Sq = 88.5% R-Sq(adj) = 86.2%


PRESS = 78054 R-Sq(pred) = 80.78%

9-19
Dr. Hctor Quevedo Uras

Analysis of Variance Table

Source DF SS MS F p
Due to Regression 4 359463 89866 38.54 0.000
Residual Error 20 46633 2832
Total 24 406096

(c) Finalmente, se prueba el modelo de regresin lineal sin interaccin, es decir, el


modelo simple. El programa Minitab arroja los siguientes resultados:
The Regression Equation is:
(y) = 668 + 11.4(X1) + 16.8(X2)

Predictor Coef SE Coef T p


Constant 667.8 132.2 5.05 0.000
(X1) 11.425 4.676 2.44 0.023
(X2) 16.829 7.988 2.11 0.047

s = 111.6 R-Sq = 32.6% R-Sq(adj) = 26.4%


PRESS = 392674 R-Sq(pred) = 3.31%

Analysis of Variance

Source DF SS MS F p
Due to regression 2 132253 66126 5.31 0.013
Residual Error 22 273844 12447
Total 24 406096

Nota: Para probar que los coeficientes son iguales, en cuanto al anlisis de varianza, la
funcin de ANOVA prueba la longitud total de la utilidad del modelo.
(d) La descripcin de los tres modelos poblacionales, a estimarse, por los modelos de
regresin estadstica son:
1. El modelo cuadrtico con interaccin o completo es:
y = o + 1x1 + 2 x2 + 3 x21 + 4 x22 + 5 x1x2 +
2. El modelo cuadrtico sin interaccin o abreviado es:
y = o + 1x1 + 2 x2 + 3 x21 + 4 x22 +
3. El modelo de regresin lineal mltiple es:
y = o + 1x1 + 2 x2 +

9-20
Dr. Hctor Quevedo Uras

(e) El resumen de los resultados de los tres modelos se da en la tabla de abajo.


TABLA 9.3. Tabla mostrando los resultados de las estadsticas de los tres modelos de
regresin probados. (Elaboracin propia)
Tipo de modelo R2 s PRESS R2(ajustada)
Modelo completo 90.7% 44.7 72,380.6 88.2%
Modelo abreviado 88.5% 48.3 78,054.0 86.2%
Modelo lineal simple 32.6% 111.6 392,674.0 26.4%

Al juzgar por los resultados, tal parece que los mejores modelos candidatos son el
modelo completo y el abreviado. (Para hacer una decision final usar la funcin (9-9).
(f) Ahora se va a inquirir si existe suficiente evidencia, para concluir que, el modelo
cuadrtico, con interaccin, es el modelo ptimo. Esto se debe a qu, si a los modelos
de regresin se les agregan variables innecesarias, que pudieran dar un mejoramiento
pequeo, no es recomendable. Bajo estas condiciones, la adicin de variables
innecesarias conlleva a problemas de colinealidad (correlacin entre las variables
regresoras). Por esta razn, es conveniente dejar el modelo de regresin, lo ms simple
posible, a menos de que existan buenas razones estadsticas para agregarle variables
adicionales.
Una manera de revisar, si el efecto de interaccin es necesario, se prueba 5 (el
coeficiente de interaccin) haciendo una prueba de hiptesis, como sigue:
La prueba de hiptesis nula es: Ho:5 = 0
La prueba de hiptesis alternativa es: H1:5 0
Con un nivel significante de = 0.05, la regin de rechazo es:
|t| > t/2;n-k-1; > t0.05/2;25-6-1; > t.025;19; > 2.093
De la Figura 9.3, en la columna de las pruebas de t, se ve que, para el efecto de

9-21
Dr. Hctor Quevedo Uras

interaccin de (x1x2) el valor de T es igual a 2.09 con p = .051. Por consiguiente, debido
a que T = 2.09 es menor que la T crtica de 2.093, esto indica que, la inclusin del
trmino de interaccin 5x1x2 no mejora al modelo completo, es decir, al incluir el
factor de interaccin. Esta decisin nos lleva al modelo cuadrtico, sin interaccin,
como el mejor modelo para este problema.
Otra forma de comprobar lo mismo que arriba, se puede hacer usando la
ecuacin (9-9). Esta estadstica dada por Keller et al. (1990) est relacionada con la
suma de los cuadrados SS, la cual mide, qu tan bien encajan los datos en el modelo.
Como se dijo antes, este procedimiento consiste en comparar la suma de los cuadrados
SS1 del modelo abreviado y SS2 del modelo completo. Por ejemplo, si SS2 es
significativamente ms pequea que SS1, se concluye que el modelo completo es
superior al modelo abreviado; de otra manera, se concluira que, el modelo completo no
sera, realmente, superior. Para tales fines se usa la estadstica (9-9) y se procede a
sustituir los siguientes valores sacados de la Figura 9.3 es decir, SS1 = 46633, SS2 =
37934, k2 = 5, k1 = 4, n = 25.
La prueba de hiptesis nula es: Ho:3 = 4 = 5 = 0. La prueba de hiptesis
alternativa es que los coeficientes de regresin no son igual a 0 o, cuando menos, uno
de los coeficientes 3, 4 y 5 no es igual a 0. Si el modelo completo (con interaccin en
este caso) es mejor que el abreviado (sin interaccin en esta instancia), el valor de SSE2
ser ms pequeo que SSE1, el valor de F ser grande, y se rechazar Ho:, y se concluir
que si hay evidencia para afirmar que el modelo completo, con interaccin, es mejor
que el modelo sin interaccin. Sin embargo, si el modelo completo no es
significantemente mejor que el modelo abreviado, entonces, la relacin SSE1 SSE2,
ser, aproximadamente, igual a cero. Por consiguiente, el valor de F ser pequeo y no
se rechazar la hiptesis nula Ho: Bajo estas condiciones se concluir que, el modelo
abreviado (sin interaccin), es mejor.

9-22
Dr. Hctor Quevedo Uras

La regin crtica, con = 0.05, es usando la distribucin F.


F > F[(k2-k1),(n-k2-1)]
> F[0.05(1),(19)]
> 4.38
Ahora usando la ecuacin (9-9) y sustituyendo los valores da:
(46,633 37,934)/(5 4)
F = = 4.35
37,934/(25 5 1)

En conclusin, debido a que la Fcalc. = 4.35 < Fcrtica = 4.38, se dice que no hay evidencia
para afirmar que el modelo de regresin con interaccin es superior al modelo
abreviado.
Ejemplo #3. El desarrollo de microorganismos sigue a un crecimiento exponencial
matemtico. Para esto decidi usar un modelo cbico, donde Y es el conteo de
microorganismos y X es el nmero de horas que han pasado. Usar el programa Minitab
para tales propsitos.
Solucin:
La ecuacin es: Y = -8.10 + 12.7X 0.905(X 2) + 2.14(X 3)
s = 41.845 R2 = 0.998 R2(ajustada) = 99.8%
TABLA 9.4. Tabla de anlisis de varianza. (Elaboracin propia)
Fuente de variacin g.l. SS MS Fcalc.
Debido a la regresin 3 12,331,818 4,110,606 1370202
Residuo (error) 13 22,760 1,751
Total 16 12,354,578

9-23
Dr. Hctor Quevedo Uras

Modelos de regresin no lineales y de regresin logstica


Dentro de esta categora, hay modelos de regresin exponencial y modelos de
regresin logstica. El modelo de regresin exponencial se usa en estudios relacionados
con el crecimiento de algn proceso, donde la tasa de crecimiento, a un tiempo X dado,
es proporcional a la cantidad de crecimiento que queda, a medida que el tiempo se
incrementa. Otro uso es el estudio de la relacin entre la concentracin de una sustancia
(y), en funcin del tiempo transcurrido (X). En forma anloga, los modelos de regresin
logstica se usan en estudios poblacionales, para relacionar el nmero de especies (Y)
en funcin del tiempo (X). Estos modelos tambin se pueden usar cuando la variable
dependiente es cualitativa; sin embargo, estos modelos no se discutirn en este texto,
como en el caso de los modelos exponenciales.
Modelos de regresin exponenciales paramtricos, con una sola variable
independiente (Neter et al. 1996)
Yi = o exp(1Xi) + i (9-10)
Un modelo ms generalizado de regresin exponencial no lineal es:
Yi = o + 1 exp(2Xi) + i (9-11)
Donde:
Yi es la funcin de respuesta o variable dependiente
o, 1, 2 = los parmetros a estimarse por a, b y c
Xi = variables constantes
i = error o residuo normalmente distribuido y con varianza constante
El correspondiente estimador estadstico es:
y = a + b exp(-cx) + ei (9-12)
Donde:
a, b, c = estimadores estadsticos de o,1 y 2, respectivamente
ei = el error o residual estadstico.

9-24
Dr. Hctor Quevedo Uras

Los modelos exponenciales se usan en ejemplos de crecimiento que va en


funcin del tiempo (como el crecimiento de bacterias en un plato de agar, o para
describir el crecimiento exponencial de los gases de invernadero como el CO2, en
funcin del tiempo, que estn ocasionando el calentamiento global y la corrupcin del
clima del planeta).
Con relacin a los modelos de regresin logsticos, la funcin poblacional que
describe estos modelos se da como (Neter et al. 1996):
o
Yi = + (9-13)
1 + 1 exp(2Xi)
Donde:
Yi = funcin de respuesta
o = parmetro a estimarse por sus estadstica correspondiente
1 = parmetro a estimarse por su estadstica
2 = parmetro a estimarse por sus estadstica
La evaluacin y estimacin de los parmetros de regresin no lineal se hacen
igual que con la regresin lineal. Por ejemplo, para el diagnstico subjetivo, se analizan
las grficas para la prueba de normalidad, los grficos de los residuos en funcin del
tiempo, y tambin en funcin de los valores ajustados, etc. Sin embargo, en la
interpretacin de las grficas de los residuales de la regresin no lineal hay que recordar
que, los residuales, no necesariamente, suman a cero. Tambin, se pueden hacer
transformaciones de las variables para hacer un mejor ajuste del modelo superior. En
cuanto a las inferencias estadsticas, con la regresin no lineal, se basan en la teora de
muestreo grande, esto es, con tamaos de muestras grandes. Las funciones de modelos
de regresin exponencial, tambin se pueden tratar dentro del

9-25
Dr. Hctor Quevedo Uras

tpico de series de tiempo.


Ejemplo #4. Este es un problema sacado del libro Statistics for Management and
Economics de Keller (1990), Warrack y Bartel relacionado con el ajustamiento y
anlisis de modelos de regresin no lineales relacionado con datos estadsticos del
SIDA en los Estados Unidos de Norteamrica, en funcin del tiempo.
Nota: Independientemente de los datos dados por el autor de este problema, a juicio del
del autor de este libro de estadstica, el nombre mdico convencional del acrnimo
SIDA (AIDS en las siglas del ingls, es decir, acquired inmunodeficiency sndrome)
est diciendo que el llamado SIDA es una enfermedad o una deficiencia, en particular,
del sistema inmune del cuerpo. Esto no es posible, porque el sistema inmunolgico del
cuerpo es una parte dependiene de todo el organismo, como unidad independiente. Si
este trmino SIDA fuera correcto, entonces, se tendra que decir que el sistema
inmune del cuerpo es una parte independiente del resto del organismo, y no una parte
dependiente de todo el cuerpo como unidad independiente. En trminos ms simples,
esto significa qu, el organismo humano est compuesto por rganos, partes o sistemas
contingentes, cuya funcin, en turno, depende de todo el cuerpo entero, como unidad
independiente, es decir, cuando el organismo est en un estado de salud perfecto. De
acuerdo a este razonamiento, el llamado SIDA es un sntoma de enfermedad (pero no
de una enfermedad en particular), que acusa que todo el cuerpo est enfermo (toda la
unidad orgnica distorsionada por vida antinatural), no nicamente, el sistema
inmunolgico, como comnmente se cree. De manera qu, para curar los sntomas de
este mal, es necesario curar todo el complejo orgnico, a travs de artes mdicas
naturales. La lgica siempre aconsejar qu, para curar un efecto (sntomas del SIDA),
primero hay que atender el origen causal ms recndito, que no es otra cosa ms que la
vida no natural. Al proceder de otra manera, siempre habr complicaciones que
agravarn el problema del enfermo.

9-26
Dr. Hctor Quevedo Uras

TABLA 9.5. Tabla mostrando los datos de este problema.


Aos Periodo de tiempo t Nmero de casos de SIDA
_________________________________________________________________
1981 1 1,000
1982 2 6,000
1983 3 10,000
1984 4 14,000
1985 5 25,000
1986 6 48,000
1987 7 63,000
1988 8 108,000
1989 9 161,000
_________________________________________________________________
(Fuente: Keller et al., 1990)
Hacer los siguientes clculos:
(a) Hacer una grfica con los datos y obtener la ecuacin de regresin del modelo
apropiado. Poner la ecuacin sobre la grfica.
(b) Predecir el nmero de casos de SIDA para el ao 2000 (t = 20).
Solucin:
(a) Usando el programa Minitab con una funcin de regresin estadstica de series
de tiempo y anlisis de tendencia (trend analysis), da la grfica y la ecuacin
sealada abajo.

9-27
Dr. Hctor Quevedo Uras

Figura 9.4. Grfica mostrando los casos de SIDA, en funcin del tiempo de este
problema. (Elaboracin propia)
(b) Cuando t = 20 (ao 2000), el nmero de casos de SIDA sera:
y = (1290.84)(1.75974) 20
= 104,674,894.9

9-28
Dr. Hctor Quevedo Uras

Ajustamiento de curvas
En el ajustamiento de curvas, para seleccionar el modelo que mejor encaja en los datos
se dan abajo varios tipos de curvas. Estas funciones ayudan a seleccionar la forma ms
apropiada para los datos. Estos tipos de curvas son sugeridos por el programa de
computadora NCSS.

Figura 9.5. Grficas mostrando los diferentes tipos de funciones usados en los
ajustes de curvas, para seleccionar el mejor modelo de regresin que pueda encajar
en los datos.

9-29
Dr. Hctor Quevedo Uras

Figura 9.6. Grficas mostrando los diferentes tipos de curvas usados en el ajustamiento
de modelos de regresin ms apropiados.

9-30
Dr. Hctor Quevedo Uras

Procedimientos para la Identificacin de valores atpicos extremos. Diagnstico


y mitigacin de multicolinealidad
Los procedimientos para refinar el modelo de regresin son la identificacin y
eliminacin de valores inusuales extremos. En algunas ocasiones, estos valores
extremos se encuentran en la generacin de datos muestrales. Estos valores extremos se
refieren a datos univariados que son inconsistentes con el resto de la informacin. Los
valores extremos ocurren a menudo debido a errores de medicin, ya sea por mal
funcionamiento del equipo o por negligencia del personal, falta de mantenimiento de
los instrumentos, etc. En regresin mltiple, los valores extremos pueden ocurrir con
las variables independientes y con la variable dependiente. Estos valores, una vez
analizados se pueden eliminar o retener, si se sabe que son, en realidad, valores
extremos. Siendo as, es necesario eliminarlos, porque pueden distorsionar el modelo
de regresin ajustado o causar serios errores en los clculos de regresin.
La identificacin de valores extremos se puede hacer de las siguientes maneras:
1. Usando grficas de tallo y hoja.
2. Usando grficas de caja.
3. Usando grficos de probabilidad normal.
4. Usando la estadstica DFITS que identifica valores extremos potenciales, cuando
DFITS > 2 p / n , donde p es el nmero de variables independientes y, n, es el tamao
de la muestra.
5. Usando grficos de residuos semiestudentizados, los cuales identifican los valores
extremos, cuando los valores absolutos de los residuales semiestudentizados son 4.
6. Usando DFBETAS cuando estos valores son 2/ n .
7. Usando los grficos de Rstudent vs. Hat Diagonal.
8. Usando regresin robusta (robust regression) recomendados por la lgica del

9-31
Dr. Hctor Quevedo Uras

programa NCSS.
9. Tambin se puede hacer usando el valor crtico de Bonferroni, que identifica los
valores absolutos de los residuales estudentizados. Esta prueba citada por Neter et al.
(1996) se da como t(1 /2n;n p 1).
10. Tambin se hace con la estadstica Cooks Distance (lgica del programa NCSS), la
cual dice que, si sta es mayor que F(.50,p,n-p), donde F es un valor de la distribucin F,
entonces, esto sugiere un valor extremo.
11. Los valores extremos tambin se pueden identificar con los grficos de los residuos
que van en funcin de X o de Y.
Diagnstico de multicolinealidad
En regresin mltiple hay lo que se llama colinealidad, multicolinealidad o
intercorrelacin. Esta situacin existe cuando las variables independientes estn
correlacionadas entre si. Lo ideal en regresin mltiple es de que las variables
independientes x1, x2,, xkn no estn correlacionadas, de tal manera que, cada una
explique un porcentaje separado de la variacin en la variable dependiente.
El mal efecto de multicolinealidad es que las desviaciones estndar de los
coeficientes del modelo de regresin estn sobreestimadas. Como resultado de esto,
cuando se hacen las pruebas de hiptesis, la estadstica t es ms pequea de lo que
debera ser. Adems, algunas variables independientes o exgenas aparecen como si no
estuvieran relacionadas linealmente con la variable Y, cuando en realidad si lo estn.
Existen dos mtodos para descubrir la multicolinealidad, es decir, mtodos
informales y mtodos formales. Los mtodos informales para detectar colinealidad
severa son:
1. Estudios de los signos algebraicos de los coeficientes del modelo de regresin. Si
hay colinealidad, los signos algebraicos de los coeficientes son opuestos, a lo que se
debera esperar de consideraciones tericas o de experiencia a posteriori.

9-32
Dr. Hctor Quevedo Uras

2. Otra situacin que pudiera indicar multicolinealidad es el hecho de que ocurren


grandes cambios en los coeficientes estimados de regresin, cuando una variable
explicativa o independiente se agrega o se elimina.
3. Cuando se hacen pruebas de hiptesis de Ho:s = 0, las pruebas de t no son
significantes. Esta condicin tambin pudiera indicar colinealidad.
4. Cuando hay grandes correlaciones entre pares de variables independientes, esta
situacin tambin indica multicolinealidad.
5. Con la lgica del modelo de computadora NCSS, con nmeros de los Eigenvalues
mayores que 1000, esta condicin indica colinealidad severa. Sin embargo, con valores
de Eigenvalues entre 100 y 1000, esta condicin implica colinealidad moderada a
fuerte.
6. Nuevamente, con la lgica del programa NCSS, en la seccin de correlacin de
matrices, grandes correlaciones entre las variables explicativas conllevan diagnsticos
de colinealidad.
7. Los valores extremos, tambin pueden causar problemas de colinealidad.
Por otra parte, los mtodos formales para detectar multicolinealidad son los
factores de inflacin de varianza (Variance Inflation Factors, VIF). En este contexto, el
problema de multicolinealidad se considera severo, cuando el mximo valor de VIP es
mayor que 10 o bien, cuando el promedio de los VIFs es considerablemente > 1.
(Pfaffenberger, 1987).
En cuanto a situaciones relacionadas con la multicolinealidad se enlistan los
siguientes postulados:
1. Si el modelo se va a usar, nicamente, para estimar respuestas promedio o para hacer
predicciones de los valores de la variable dependiente Y, y las predicciones son

9-33
Dr. Hctor Quevedo Uras

hechas, solamente, sobre las regin de los valores de las variables independientes y, los
coeficientes de regresin estimados no se usarn para propsitos de interpretacin,
concerniendo las relaciones de las variables explicativas (Xs) y de la variable de
respuesta (Y), entonces, la multicolinealidad, aun cuando sea severa, no ser un
problema (Pfaffenberger, 1987). Aqu, sin embargo, la determinacin de la regin
muestreada es difcil. Por ejemplo, si hay una variable independiente, entonces, la
regin es un intervalo sobre la lnea real entre el valor mnimo de x y el valor mximo
de x en la muestra. Adems, con cuatro variables independientes, la regin muestreada
es en el espacio de cuatro dimensiones de las xs y sus linderos no son obvios. Por lo
tanto, bajo estas condiciones, hay que ejercer precaucin, de tal manera que, la
prediccin no represente una extrapolacin ms all de la regin muestreada de las xs,
cuando existe multicolinealidad severa. Por otra parte, si se desea hacer
interpretaciones de los coeficientes de correlacin (bi), entonces la multicolinealidad no
se puede tolerar.
2. El hecho de que algunos o todas las variables independientes estn correlacionadas
entre si, en general, no obstruye la habilidad para obtener un buen ajuste de los datos.
Esta situacin tampoco interfiere en las inferencias acerca de las respuestas promedio
de predicciones de nuevas observaciones, siempre y cuando, estas inferencias sean
hechas dentro de la regin de las observaciones.
3. Cuando las variables independientes estn altamente correlacionadas, los
coeficientes de regresin estimados tienden a tener una gran variacin de muestreo. Por
lo tanto, bajo estas condiciones, los coeficientes de regresin tienden a variar
ampliamente de una muestra a otra. Como resultado de esto, solamente, se obtiene
informacin imprecisa acerca de los coeficientes individuales.
4. Cuando hay multicolinealidad, la interpretacin de un coeficiente de regresin,

9-34
Dr. Hctor Quevedo Uras

como medida de un cambio en el valor esperado en Y, cuando una variable


independiente, digamos X1 se incrementa por una unidad, manteniendo constantes las
dems variables, no es totalmente aplicable.
5. Otros efectos causados por la multicolinealidad estn relacionados con la suma de
los cuadrados, los efectos en los coeficientes de determinacin parcial, efectos en el
error estndar de lo estimado s, efectos sobre los valores ajustados, efectos en las
pruebas simultneas de los coeficientes s, etc. (Neter et al. 1996).
Medidas para corregir multicolinealidad severa
1. El mtodo ms obvio para remediar la multicolinealidad es el de no incluir en el
modelo las variables independientes que estn altamente correlacionadas. Esto se hace
para reducir los errores estndar de los coeficientes de regresin estimados de las
variables independientes que queden en el modelo. Sin embargo, este remedio tiene
dos limitaciones porque, de esta manera, ya no habr informacin directa de la variable
independiente excluida. En segundo lugar, las magnitudes de los coeficientes de
regresin, para los coeficientes restantes son afectadas por las variables independientes
correlacionadas, que no se incluyan en el modelo.
2. Otro mtodo para corregir la multicolinealidad se refiere como regresin de cima
(ridge regression). Siendo as, cuando hay multicolinealidad, los estimados de los
cuadrados mnimos son imparciales, pero sus varianzas son grandes, de tal manera que
puedan estar alejados del valor verdadero. Agregando un grado de parcialidad a los
estimados de la regresin, la regresin de cima (o ridge regression) reduce los errores
estndares, de tal manera que el efecto neto dar coeficientes estimadores ms
confiables (Neter et al. 1996).
3. Otro mtodo para reducir la multicolinealidad severa es la regresin por pasos. La
regresin por pasos incluye, solamente, las variables independientes que estn

9-35
Dr. Hctor Quevedo Uras

significantemente relacionadas linealmente, con la variable dependiente. Esto tiende a


reducir la colinealidad porque, si hay dos variables independientes, altamente
correlacionadas entre si, al incluir una, usualmente se elimina la segunda. En el
mecanismo, en la regresin por pasos, una variable independiente, a un tiempo, es
incluida en la ecuacin. En el paso 1, la variable independiente, ms fuertemente
relacionada con la variable dependiente, es incluida en el modelo. En el paso 2, la
siguiente variable independiente (entre las variables independientes restantes) ms
fuertemente relacionada con la variable dependiente, se incluyen en el modelo. Esta
situacin contina hasta qu, solamente, las variables independientes, que no estn
relacionadas con la variable dependiente (dado que las otras variables ya estn en el
modelo) permanecen fuera de la ecuacin. De cualquier manera, para evitar problemas,
la regresin por pasos debe usarse en conjuncin con un profundo razonamiento
estadstico.
La pregunta de cuantas variables independientes (incluyendo las variables
transformadas) deben de incluirse en el modelo de regresin es el tema a tratar, cuando
se habla de los procedimientos usados en el programa Minitab, como Todas las
Regresiones Posibles (All Possible Regressions), Regresin por Pasos (Stepwise
Regression) y Regresin de los Mejores Conjuntos (Best Subset Regression).
Para encontrar el nmero ideal de variables independientes, esto involucra dos
objetivos opuestos. Primero se desea que el modelo de regresin sea lo ms completo
y realista posible. Esto dice que se debe incluir cada variable independiente, aunque
parezca remotamente relacionada con la variable dependiente. En segundo trmino, se
debe de incluir lo menos posible de variables independientes. Esto se debe a que, cada
variable independiente, que no sea relevante al modelo, disminuye la precisin

9-36
Dr. Hctor Quevedo Uras

de los coeficientes calculados y de los valores pronosticados. De esta manera, la


finalidad de la seleccin de las variables es parsimoniosa, esto quiere decir que debe
haber un balance entre lo simple (lo menos posible de variables) y el ajuste (la inclusin
de todas las variables que sean pertinentes).
Hay diferentes estrategias para la seleccin de las variables ms apropiadas para
el modelo de regresin. Por ejemplo el modelo NCSS recomienda que, si no hay ms
de quince candidatos de variables independientes (sin incluir el intercepto), entonces,
se debe usar el procedimiento de Todas las Regresiones Posibles (All Possible
Regressions). Esto se debe a que este procedimiento dar modelos tan buenos o
mejores que el procedimiento de Regresin por Pasos. Sin embargo, si hay ms de
quince candidatos de variables, entonces, se recomienda el procedimiento de
Regresin por Pasos (Stepwise Regression). Otra funcin dada por el programa
Minitab est relacionada con la Regresin de Mejores Conjuntos (Best Subsets
Regression).
Despus de que se haya formado un conjunto de candidatos de variables
independientes (una vez que se eliminaron las observaciones extremas y se mitig la
multicolinealidad), la siguiente tarea es la de establecer una base para comparar dos
modelos finalistas. Cmo se puede decir, si el modelo A es mejor que el modelo B?
Para hacer esta decisin crtica el consenso de investigadores de estadstica est basado
en las funciones estadsticas citadas anteriormente, como R2, s, PRESS, etc. Como ya
se explic anteriormente, estas funciones son:
(a) El coeficiente de determinacin R2
(b) El error estndar estimado s
(c) El criterio Cp de Mallow
(d) PRESS
Otros criterios son los valores de t, tablas de ANOVA, anlisis de grficos, etc., pero

9-37
Dr. Hctor Quevedo Uras

los penltimos cuatro diagnsticos son los ms populares.


Ejemplos de problemas de regresin polinomial usando el programa de
computadora Minitab
Ejemplo #15. Este problema est relacionado con un experimento del consumo de
gasolina usando la velocidad baja (overdrive) de una camioneta liviana. Aqu la
variable independiente es la velocidad constante dada, en millas por hora (X). Adems,
la variable dependiente (Y), est relacionada con las millas por galn obtenidas bajo
estas condiciones de manejo. Hacer los siguientes clculos:
(a) Graficar los datos.
(b) Ajustar un modelo cuadrtico.
(c) Ajustar un modelo cbico.
(d) Complementar el diagnstico del inciso (d) con los anlisis de los grficos
subjetivos para el modelo superior.
(f) De acuerdo a los anlisis de los criterios objetivitas y subjetivistas, decidir cual de
los dos modelos es superior.

TABLA 9.6. Tabla mostrando los valores originales y los valores del cuadrado y del
cubo de los valores de X. (Elaboracin propia)
Nota: para hacer esta tabla cuadrar y cubicar los valores de X antes de ponerlos en las
columnas. Despus de esto, se corre el programa como si fuera una regresin lineal.

9-38
Dr. Hctor Quevedo Uras

Solucin:
(a) La figura de abajo muestra la grfica de los datos.

Grafica mostrando la relacion entre el tipo de manejo y el consumo de gasolina

40
Millas por galon (y)

30

20

40 50 60
Velocidad constante (x)

Figura 9.7. Figura mostrando el rendimiento de gasolina en funcin del tipo de manejo.
(Elaboracin propia)
(b) Los resultados asumiendo un modelo cuadrtico son:
y = -183 + 8.98(X) 0.0911(X2)
Con s = 1.727, R2 = 0.947, PRESS = 49.26
TABLA 9.7. Tabla de ANOVA para el ajuste de un modelo cuadrtico. (Elaboracin
propia)
Fuente de variacin g.l. SS MS Fcalc. Valor p
Debido a la regresin 2 483.17 241.58 81.0 0.000
Error o residual 9 26.83 2.98
Total 11 510.00

9-39
Dr. Hctor Quevedo Uras

TABLA 9.8. Tabla mostrando los coeficientes, los errores estndares de los
coeficientes, los valores de t y de p para el modelo cuadrtico. (Elaboracin propia)

Predictores Coeficientes Error estndar Valor t Valor p


de coeficientes
Constante -182.58 17.68 -10.33 0.000
X1 8.98 0.76 11.80 0.000
XSQR -0.09 0.008 -11.39 0.000

(c) La ecuacin de un modelo de regresin cbico ajustado es:


y = -74 + 1.85(X) + 1.85 + 0.062(X 2) 0.001(X 3)
Los diagnsticos estadsticos son:
R2 = 0.952, s = 1.75, PRESS = 59.22
TABLA 9.9. Tabla de para el modelo cbico. (Elaboracin propia)
Fuente de variacin g.l. SS MS Fcalc. Valor de p
Debido a la regresin 3 485.50 161.83 52.85 0.000
Error o residual 8 24.50 3.06
Total 11 510.00

TABLA 9.10. Tabla mostrando los coeficientes, los errores estndares de los
coeficientes, los valores de t y de p para el modelo cbico. (Elaboracin propia)
Predictores Coeficientes Error estndar Valor t Valor p
de coeficientes
Constante -73.9 125.7 -0.59 0.57
X1 1.85 8.2 0.23 0.83
XSQR 0.06 17.5 0.35 0.73
XCUBE -0.001 0.001 -0.87 0.41

La figura de abajo muestra los residuos estandarizados en funcin del orden de la


observacin para el modelo de regresin cuadrtico

9-40
Dr. Hctor Quevedo Uras

Residuals Versus the Order of the Data


(response is Millas p)

1
Standardized Residual

-1

-2

2 4 6 8 10 12

Observation Order

Figura 9.8. Residuos estandarizados en funcin del orden de la observacin para el


modelo de regresin cuadrtico. Aqu, ntese que existen aproximadamente, el mismo
nmero de residuos positivos y negativos. En contraste, la grfica del modelo cbico
(que no se muestra aqu), no muestra el mismo nmero de residuos positivos y
negativos. (Elaboracin propia)
Residuals Versus the Fitted Values
(response is Millas p)

1
Standardized Residual

-1

-2

20 30 40

Fitted Value

Figura 9.9. Grfica de los residuos estandarizados versus los valores ajustados de Y
para el modelo cbico. Ntese que, en esta grfica hay el mismo nmero de valores
positivos y negativos. En contraste, el modelo cbico ajustado (no mostrado aqu) no
muestra el mismo nmero de residuos positivos y negativos. (Elaboracin propia).

9-41
Dr. Hctor Quevedo Uras

Normal Probability Plot of the Residuals


(response is Millas p)

1
Normal Score

-1

-2

-2 -1 0 1

Standardized Residual

Figura 9.10. Grfica mostrando la prueba de normalidad para el modelo cuadrtico.


(Elaboracin propia).

(d) De acuerdo a los datos tabulados de abajo, y de los diagnsticos grficos, tal parece
que el mejor modelo es el modelo cuadrtico. Esto se debe a que, a pesar de que los
valores de R2 y s de los dos modelos son parecidos, los valores de PRESS difieren uno
del otro. Adems, los valores de t del modelo cuadrtico son muy significantes en
comparacin con los del modelo cbico (TABLAS 9.8 y 9.10). Tambin la Figura 9.7
de Y versus X sugiere a una funcin cuadrtica; no cbica. Finalmente, los anlisis de
los grficos de los residuales para la funcin cuadrtica son ms convincentes que los
del modelo cbico.
TABLA 9.11. Tabla mostrando los datos del problema.
__________________________________________________________________
Diagnsticos estadsticos
_________________________________________
Clase de Modelo R2 s PRESS
__________________________________________________________________
Modelo cuadrtico 0.947 1.727 49.26
__________________________________________________________________
Modelo cbico 0.952 1.750 59.22

9-42
Dr. Hctor Quevedo Uras

Ejemplo #16. Se obtiene una muestra aleatoria de 25 mediciones de partculas


atmosfricas (en micras). Se desea saber si hay valores inusuales extremos o
moderados. Usar un diagrama de caja.

Tabla 9.14. Tabla mostrando los datos (Elaboracin propia)


5 8 14 74 85 88 90 92 92 93 94 94 95 95 96 96 96 97 97 98 99 101 104 106 114

Solucin:
Antes de comenzar, vamos a tomar en cuenta la definicin que dice como calcular el
cuarto inferior y el cuarto superior de un diagrama de caja. Esta definicin dice que,
una vez que se ordenan los datos en forma ascendente, el cuarto inferior y el cuarto
superior se definen como:
Cuarto = Mediana de los mnimos n/2 casos, cuando n es par
inferior Mediana de los mnimos (n + 1)/2 casos, cuando n es impar
Cuarto = Mediana de los mximos n/2 casos, cuando n es par
superior Mediana de los mximos (n + 1)/2 casos, cuando n es impar
El investigador Devore (2001) enlista los valores atpicos usando un diagrama
de caja. Estos datos son: El valor mnimo y el valor mximo, el cuarto inferior y el
cuarto superior, la mediana, la cuarta dispersin fs (la cual es la diferencia entre el
cuarto superior y el cuarto inferior).
Adems, para identificar la presencia de valores inusuales moderados y
extremos se dice que, toda observacin mayor que 1.5fs, del cuarto ms cercano, es un
valor inusual. Anlogamente, si 3fs es mayor que el cuarto ms cercano, entonces, el
valor inusual es extremo.
Los clculos para este problema son:

9-43
Dr. Hctor Quevedo Uras

X = 95.0, n = 25, valor mnimo = 5.0, valor mximo = 114.0, X = 84.92, s = 29.55,
error estndar del promedio = 5.91, Q1 = 89.0, Q3 = 97.5
Cuarto inferior para observaciones impares = mediana de los mnimos (25 + 1)/2 = 13
Cuarta dispersin fs = cuarto superior cuarto inferior
= 97 - 90 = 7
Adems, 1.5fs = (1.5)(7) = 10.5 y 3fs = (3)(7) = 21
Para estimar los valores atpicos inusuales, el criterio es: cualquier observacin
menor que el cuarto inferior, menos 1.5fs o mayor que el cuarto superior ms 1.5fs es un
valor atpico inusual. Esto es: 90 10.5 = 79.5 y 97 + 10.5 = 107.5
Analizando los datos de la TABLA 9.14, se ve que hay un valor atpico (114)
mayor en el extremo superior de la muestra. Adems hay cuatro valores, de este tipo (5,
8, 14, 74), en el extremo inferior. Para identificar los valores extremos se calcula la
diferencia entre el cuarto inferior y 3fs, es decir, 90 21 = 69. Refirindose a la TABLA
9.14 y la Figura 9.11, vemos que las tres observaciones 5, 8 y 14 son valores extremos
(que se eliminarn) y los valores 85 y 114 son valores atpicos moderados.

Boxplot of C1

0 50 100

C1

Figura 9.11. Diagrama de caja con los 3 valores atpicos extremos (5, 8, 14) y los
valores atpicos moderados (85, 114). (Elaboracin propia)

9-44
Dr. Hctor Quevedo Uras

Ejemplo #17. Este ejemplo est encaminado a analizar el efecto que pueda ocurrir en el
modelo de regresin estimado, cuando se eliminan valores extremos. Para los datos de
la tabla de abajo, asumir un modelo polinomial cbico. En la primera instancia, estimar
el modelo cbico incluyendo todas las variables. Enseguida, ajustar un modelo de
regresin polinomial, como el anterior, pero esta vez excluyendo los valores extremos
(5, 8 y 14) estimados en el ejemplo anterior. Analizar en cada caso, los valores de R2,
R2ajustada, el error estndar de lo estimado s, PRESS (la sigla de suma de cuadrados de
prediccin), ANOVA, etc. Ver si hay diferencias significantes en cada uno de los dos
casos. Hacer una tabla con los dos modelos de regresin que incluya las estadsticas
anteriores, correspondientes a cada uno de los dos modelos probados, bajo las dos
condiciones.

TABLA 9.15. Tabla mostrando los datos de mediciones (micras) de partculas


atmosfricas de la variable dependiente, en funcin de sus respectivos casos (X).
(Elaboracin propia)

6 8 14 85 88 90 92 92 93 94 94 95 95 96 96 96 97 97 98 99 101 104 106 114

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

El esquema mostrando los resultados del Minitab, en el ajustamiento de un modelo de


regresin polinomial cbico, el cual incluye todos los datos y, otro ajustamiento ms,
de un modelo de regresin polinomial cbico, el cual excluye los valores extremos se
da en la TABLA 9.16. Como se ve en esta tabla, primeramente, se ajusta un modelo de
regresin polinomial cbico: (Y) versus (X), (XSQR), (XCUBE). Este modelo incluye
los valores extremos. Despus se incluye otro modelo de regresin polinomial que no
incluye los valores inusuales extremos. Los resultados obtenidos usando el programa
Minitab se dan en la TABLA 9.16 de abajo.

9-45
Dr. Hctor Quevedo Uras

9-46
Dr. Hctor Quevedo Uras

TABLA 9.16. Tabla mostrando los resultados del Minitab.


The regression equation is:
(Y) = -26.4 + 27.1(X) 1.86 (X2) + 0.0403 (X3)

Predictor Coef SECoef T p VIF


Constant -26.434 8.891 -2.97 0.007
(X) 27.079 2.904 9.33 0.000 121.7
(XSQR) -1.8595 0.2568 -7.24 0.000 682.9
(XCUBE) 0.0403 0.0065 6.20 0.000 259.3

s = 9.491 R-Sq = 91.0% R-Sq(adj) = 89.7%


PRESS = 2749.98 R-Sq(pred) = 86.88%

Analysis of Variance Table

Source of variation DF SS MS F p
Due to Regression 3 19072.1 6357.4 70.57 0.000
Residual Error 21 1891.7 90.1
Total 24 20963.8

Durbin-Watson statistic = 1.40 (measures autocorrelation for time series)

Ajustando un Modelo de Regresin Polinomial Cbico: (Y) versus (X), (XSQR),


(XCUBE). Este modelo no incluye los valores inusuales extremos.
The regression equation is:
(Y) = 71.8 + 6.21 (X) 0.540 (X2) + 0.0155 (X3)

Predictor Coef SE Coef T p VIF


Constant 71.819 1.514 47.42 0.000
(X) 6.2092 0.5576 11.14 0.000 125.3
(XSQR) -0.5400 0.0557 -9.70 0.000 700.9
(XCUBE) 0.0155 0.0016 9.75 0.000 265.1

s = 1.482 R-Sq = 96.9% R-Sq(adj) = 96.4%


PRESS = 105.104 R-Sq(pred) = 91.74%

Analysis of Variance

Source of Variation DF SS MS F p
Due to Regression 3 1232.81 410.94 187.00 0.000
Residual Error 18 39.56 2.20
Total 21 1272.36

Durbin-Watson statistic = 1.58

9-47
Dr. Hctor Quevedo Uras

TABLA 9.17. Tabla mostrando el resumen de los resultados de los dos modelos
probados, es decir, con y sin los valores extremos. (Elaboracin propia)
Tipo de modelo R2 R2ajustada s PRESS
Modelo con valores extremos 91.0% 89.7% 9.491 2749.98
Modelo sin valores extremos 96.9% 96.5% 1.482 105.10

Analizando la tabla de arriba se nota claramente qu, si hubo un mejoramiento


significativo en la obtencin de los modelos de regresin, cuando se eliminaron los
valores inusuales extremos. Por ejemplo, el error estndar de lo estimado s, disminuy
considerablemente, al excluir los valores extremos, es decir, de 9.49 a 1.482. Situacin
similar ocurri con la prediccin de la suma de los cuadrados PRESS, la cual
disminuy de 2749.98 a 105.10. En cuanto el coeficiente de determinacin R2, este
valor aument de 91% a 96.9%, es decir, al excluir los valores extremos. Igualmente,
el valor de F de la tabla de ANOVA, que mide la longitud total aument
considerablemente, al excluir los valores extremos. Todos estos diagnsticos
estadsticos, aunados a los grficos de los residuales estandarizados (que no se
muestran aqu, pero que el estudiante debe analizarlos), indican que la exclusin de los
valores inusuales extremos, en el modelo de regresin, si lo mejoraron
significantemente.
Autocorrelacin en datos de series de tiempo
En los modelos bsicos de regresin se asume que los trminos de los errores aleatorios
i son variables aleatorias sin correlacionar o variables aleatorias normales
independientes (no autocorrelacin). Sin embargo, para series de tiempo, la suposicin
de errores sin correlacionar (valores de independientes) no es aplicable, porque los
trminos de los errores i estn positivamente correlacionados sobre el tiempo. Bajo

9-48
Dr. Hctor Quevedo Uras

semejantes condiciones, los errores aleatorios i se dice que estn autocorrelacionados


o serialmente correlacionados (autocorrelacin). La causa primordial de obtener
errores aleatorios positivamente autocorrelacionados se debe a la omisin de variables
claves del modelo (Neter et al. 1996). Comnmente, cuando los datos estn agrupados
secuencialmente sobre un periodo de tiempo es decir, en series de tiempo, los valores
residuales estn correlacionados.
Por ejemplo, las figuras 9.12 y 9.13 muestran grficas de los residuales, en
funcin del tiempo, los cuales exhiben autocorrelacin, mientras que la grfica de la
Figura 9.14 indica independencia de los residuales.
Las maneras de detectar problemas de autocorrelacin de primer orden, una
condicin que implica una correlacin entre los residuos et y et - 1, donde t es el periodo
de tiempo, son usando la estadstica Durbin-Watson. Matemticamente, esta ecuacin
se define como:
n
(et et-1)2
t=2

D = (9-14)
n
e2t
t=1

Donde:
D es la estadstica de Durbin-Watson
et y et-1 relacin entre los residuos sobre el periodo de tiempo
n es el nmero de casos
En general, a menos que las observaciones sean de series de tiempo, la
estadstica de Durbin-Watson debera ser ignorada, porque esta estadstica da una
prueba de autocorrelacin positiva o negativa, solamente, para series de tiempo.

9-49
Dr. Hctor Quevedo Uras

Cuando se estn aplicando series de tiempo y existen problemas de autocorrelacin


pueden existir un nmero de importantes consecuencias. Por ejemplo, coeficientes de
regresion pueden ser ineficientes, el MSE seriamente subestimar los errores de la
varianza, el s{bk} calculado por la funcin de los cuadrados mnimos seriamente
subestimar la desviacin estndar y los coeficientes de regresin, etc. (Neter et al.
1996). Las medidas para mitigar problemas de autocorrelacin son los de agregar una
o ms variables predictoras al modelo de regresin o de usar variables transformadas
(Neter et al. 1996).

Figura 9.12. Grfica de valores residuales versus tiempo mostrando patrones de


autocorrelacin (falta de independencia).

Figura 9.13. Grfica de valores residuales versus tiempo indicando autocorrelacin


(falta de independencia).

9-50
Dr. Hctor Quevedo Uras

Figura 9.14. Grfica de valores residuales versus tiempo indicando independencia de


los datos.

En aplicaciones en la economa y negocios, debido a que estas estimaciones


tienden a mostrar correlacin de serie parcial, se pueden usar pruebas de hiptesis
como:
Ho: = 0 (No hay autocorrelacin o independencia) (9-15)
Ha: > 0 (autocorrelacin) (9-16)
La prueba consiste en determinar si el parmetro de autocorrelacin es igual a
cero o es mayor que cero. Por ejemplo, si = 0 los trminos del error t son
independientes debido a que los trminos ut son independientes. No obstante, los
valores crticos son difciles de obtener, pero la prueba de Durbin-Watson ha obtenido
los linderos superiores e inferiores dU y dL de tal manera que, un valor de D fuera de
estos linderos lleva a una decisin definitiva.
De esta manera, Neter et al. (1996), da la regla de decisin para probar entre
estas alternativas, esto es:
Si D > dU, se concluye Ho: (9-17)
Si D < dL se concluye Ha: (9-18)
Si dL D dU, la prueba es inconclusa (9-19)
Valores pequeos de D conllevan a la conclusin de que la prueba de hipotesis de Ha:

9-51
Dr. Hctor Quevedo Uras

> 0, porque los errores aleatorios adyacentes t y t-1 tienden a ser de la misma
magnitud cuando estn positivamente autocorrelacionados. Por lo tanto, la diferencia
en los resultados t - t-1 tienden a ser menores cuando > 0, lo cual lleva a un
numerador pequeo en la funcin de D y, por lo tanto, a una prueba estadstica de D
pequea.
Las tablas de abajo muestran las pruebas de los linderos de Durbin-Watson, para
un nivel de significancia de = 0.05 y 0.01. Como se ve, la columna de la izquierda
seala los valores de n. Las siguientes columnas dan los valores para cada k con sus
correspondientes linderos. Siendo as, las tablas de abajo muestran las pruebas de los
linderos de Durbin-Watson para los niveles significancia de = 0.05 y = 0.01.

9-52
Dr. Hctor Quevedo Uras

Tabla 9.19. Tabla mostrando las pruebas de los linderos de Durbin-Watson para un
nivel de significancia de = 0.05.

Fuente: Keller, G, Brian Warrack, Henry Bartel. Statistics for Management and
Economics (1990).

9-53
Dr. Hctor Quevedo Uras

Tabla 9.20. Tabla mostrando las pruebas de los linderos de Durbin-Watson para un
nivel de significancia de = 0.01 (continuacin).

Fuente: Keller, G, Brian Warrack, Henry Bartel. Statistics for Management and
Economics (1990).

9-54
Dr. Hctor Quevedo Uras

Ejemplo #18. Se dan los siguientes datos adaptados del libro Applied Linear Regresin
Models de Neter et al. (1996):
(et et-1)2 = 0.09794, e2t = 0.1333018 con una tamao de muestra de n = 20. Probar las
hiptesis (de autocorrelacin positiva) sealadas abajo usando niveles de significancia
de 0.05 y 0.01:
Ho: = 0
Ha: > 0
Solucin:
Usando la ecuacin (9-14) y sustituyendo da:
20
(et et-1)2
t=2
0.09794
D = = = 0.735
20 0.13330
2
e t
t=1

Usando la Tabla 9.19 con = 0.05, n = 20 y con p 1 = 1 (porque X = 1, es decir, con


una sola variable independiente), da: dL = 1.20 y dU = 1.41. Debido a que D = .735 es
pequeo y cae debajo de 1.41, se dice que D < dL y se concluye que > 0 o sea Ha: es
decir que hay autocorrelacin o falta de independencia, o que los trminos de error t
estn positivamente autocorrelacionados. Cosa similar ocurre si se usa un nivel de =
0.01.
Nota: Si se hace una prueba de autocorrelacin negativa, la estadstica usada es 4 D,
donde D se da en las ecuaciones de arriba. Si es as, entonces, la prueba se conduce de
la misma manera que para la autocorrelacin postiva. Esto quiere decir que si la
cantidad 4 D cae debajo de dL, se concluye < 0. Adems, si se usa una prueba
bilateral para Ho: = 0 versus Ha: 0 se hace usando separadamente las pruebas

9-55
Dr. Hctor Quevedo Uras

unilaterales. (Neter et al. 1996).


Heteroscedasticidad y homoscedasticidad
Esta seccin dar una definicin de lo que se denominan heteroscedasticidad y
homoscedasticidad. Por ejemplo, cuando la varianza del error, (2), no es constante,
esta condicin se llama heteroscedasticidad. En contraste, cuando la varianza del error,
(2), es constante, esta condicin se llama homoscedasticidad.
El mtodo ms comun para diagnosticar el problema de heteroscedasticidad es
graficando los residuales contra los valores pronosticados de y. Siendo as, se analiza el
esparcimiento de los puntos graficados. Por ejemplo la Figura 9.15 describe los
residuales mostrando heteroscedasticidad, es decir, cuando el error 2 no es constante.
Como resultado de esto, si existen cambios sistemticos de los residuales con las
funciones de las variables independientes. Esta condicin se prueba analizando la
Figura 9.15 porque el error 2 aparece pequeo cuando el valor pronosticado de y es
pequeo y grande cuando el valor de y es grande. En contraste, la Figura 9.16 muestra
una condicion de homoscedasticidad, es decir, de 2 constante. Como resultado de
esto, no hay cambios aparentes en la variacin de los residuales.

Figura 9.15. Grfica de residuales mostrando la condicin de heteroscedasticidad, es


decir, de la varianza del error, 2 no constante.

9-56
Dr. Hctor Quevedo Uras

Figura 9.16. Grfica de residuales mostrando la condicin de homoscedasticidad,


cuando la varianza del error, 2 es constante es decir, cuando los residuales son
independientes
Prueba de White para el problema de heteroscedasticidad
Hay funciones estadsticas para probar el problema de heteroscedasticidad. Una de
stas es la prueba de White. De esta manera, Hal White propuso una forma simple para
probar por heteroscedasticidad, es decir, de variaciones sistemticas de los residuales
con las variables regresoras (White, Halbert, 1980. A Heterscedasticity-Consistent
Covariance Matriz and a Direct Test for Heteroscedasticity. Econometrica
48:817-838).
Para explicar la prueba de White para heteroscedasticidad, supngase que se
tienen k variables regresoras incluyendo una constante x = (1, xi2, , xik). De acuerdo
a White, despus de estimar el modelo de regresin, se pueden estimar los residuales y
la ecuacin de regresin auxiliar:
e2i = zi + vi (9-20)
Donde es un vector de parmetros, vi es un error y zi contiene todos los productos
cruzados de los elementos en xi, es decir:
z = (1, xi2,.., xik, x2i2,.., x2ik, xi2xi3,.xi,k-1xik) (9-21)

9-57
Dr. Hctor Quevedo Uras

Las pruebas de hipotesis nulas se pueden hacer de la siguiente manera:


Por ejemplo, la prueba de hiptesis de homoscedasticidad, es decir, de que la varianza
del error, 2 es constante es:
Ho:21 = 22 = = 2n (9-22)
La prueba de hiptesis alternativa de heteroscedasticidad es:
Ho:21 22 2n (9-23)
Cuando se usa la distribucin de la JI cuadrada, si el producto de la estadistica R2 y el
tamao de la muestra tiene una aproximacin a 2 con [k(k + 1) / 2] -1 grados de
libertad, entonces la funcin se da como:
nR2 2 (k[k + 1) / 2] 1) (9-24)

Si el valor de nR2 es mayor que el valor crtico de la JI cuadrada 2 se rechaza la


hiptesis nula a favor de la prueba alternativa de heteroscedasticidad.

9-58
Dr. Hctor Quevedo Uras

Ejercicios Captulo 9
9.1. Este es un ejercicio relacionado con el ajustamiento del mejor modelo de
regresin. La tabla de abajo da los datos.
Tabla mostrando los datos. (Elaboracin propia)

X | 0 1 2 3 4 5 6 7 8 9
___________________________________________________________________
Y | 9.1 7.3 3.2 4.6 4.8 2.9 5.7 7.1 8.8 10.2

(a) Obtener el modelo de regresin ms apropiado, es decir, lineal, cuadrtico o cbico


de acuerdo a los criterios R2, Rajustada, s y PRESS calculados.
(b) Complementar la decisin del mejor modelo candidato basndose en el diagnstico
subjetivo del anlisis grfico.
La tabla de abajo da las respuestas objetivistas.
Tabla mostrando los datos. (Elaboracin propia).
__________________________________________________________________
Tipo de modelo de regresin R2 R2ajustada s PRESS
Modelo de regresin cuadrtico 46.3% 30.9% 2.102 100.404
Modelo de regresin cbico 61.3% 42.0% 1.926 421.055
Modelo de regresin lineal 38.2% 30.5% 2.109 51.316

9.2. Se hace un experimento con un nuevo modelo de automvil, para determinar la


distancia, despus de frenar a varias velocidades. La siguiente data se da:
Tabla mostrando los datos. (Elaboracin propia)
Velocidad, v (km/hr) | 37 52 67 82 97 113

Distancia despus
de frenar el auto, d (m) | 17 27 43 63 89 120

(a) Ajustar el modelo o la curva de regresin mltiple poblacional d| = o + 1v1 +


2v2, la cual es estimada por la ecuacin de la muestra Y = bo + b1x1 + b2x2
(b) Estimar la distancia despus de frenar, cuando el coche lleva una velocidad de 70

9-59
Dr. Hctor Quevedo Uras

kilmetros por hora.


(c) Estimar la distancia despus de frenar, cuando el coche lleva una velocidad de 120
Km/hr.
9.3. La viscosidad de un tipo de lubricante se midi con 6 velocidades diferentes. Se
asumi un modelo cuadrtico de regresin como el ms apropiado y la funcin de
regresin polinomial estimada resultante de una muestra de n = 6 fue:
y = -113.0937 + 3.3684x 0.01780x2
(a) Identificar la variable dependiente.
(b) Identificar la variable independiente.
(c) Calcular la viscosidad del lubricante cuando la velocidad es 75 rpm. (39.41)
9.4. El texto de Probabilidad y Estadstica para Ingenieros de los autores Ronald E.
Walpole et al. 1999, discuten un experimento con el fin de determinar si el flujo
sanguneo cerebral en seres humanos se puede predecir a partir de la presin (en mm
Hg) del oxgeno arterial. Para esto se usaron 15 voluntarios en el estudio y se
observaron los siguientes datos:
Tabla mostrando los datos de este problema.
___________________________________________________________________
Flujo sanguneo (Y) | 84.33 87.80 82.20 78.21 78.44 80.01 83.53 79.46

75.22 76.58 77.90 78.80 80.67 86.60 78.20

Presin de oxgeno (x) | 603.40 582.50 556.20 594.60 558.90 575.20 80.10

451.20 404.00 484.00 452.40 448.40 320.30 350.30


___________________________________________________________________
(Fuente: Walpole et al. 1999)
Estimar la ecuacin cuadrtica o cbica que mejor encaje en los datos. Una vez que se
decida por el mejor modelo polinomial (de segundo o tercer orden), predecir el flujo
sanguneo cuando la presin del oxgeno es de 760 torr, es decir de 760 mm Hg = 1

9-60
Dr. Hctor Quevedo Uras

atmsfera). Sugerencia: Usar una regresin por pasos.


9.5. Se dan los siguientes datos en la tabla de abajo. (Elaboracin propia):
Tabla mostrando la informacin para este problema.
____________________
(X) | 0 1 2 3 4 5 6
____________________
(Y) | 1 4 5 3 2 3 4
____________________

(a) Realmente encaja un modelo cbico mejor que un modelo de regresin cuadrtico
o lineal? Justificar el argumento. (Si, porque el valor de R2 = 87.5% es el ms alto de los
3 modelos probados; adems el valor de s = 0.6726 y el valor de PRESS = 18.43 son los
valores ms bajos de los 3 modelos probados. Adems, los diagnsticos grficos
tambin apoyan a la nocin de un modelo cbico)
(b) Si el modelo cbico es superior (justificando el argumento), entonces, pronosticar
Y cuando X = 2. (4.422)
9.6. El libro de Probabilidad y Estadstica Aplicadas a la Ingeniera de Montgomery
et al. 1996, p.583 da un ejemplo relacionado con los paneles de las paredes laterales de
un avin formados en una prensa de 1500 toneladas. El costo de fabricacin de cada
unidad cambia con el tamao del lote de produccin. La tabla de abajo proporciona los
datos.
(a) Hacer un diagrama de dispersin y decidir qu grado del modelo polinomial es
conveniente usar.
(b) Hacer un anlisis de varianza y probar que los coeficientes son igual a cero.
Calcular el valor de p y sacar conclusiones.
(c) Obtener el modelo polinomial que mejor encaje en los datos usando la ecuacin
(9-9), con su respectiva prueba de hiptesis.

9-61
Dr. Hctor Quevedo Uras

Tabla mostrando los datos de este ejercicio.


__________________________________________________________________
y | 1.81 1.70 1.65 1.55 1.48 1.40 1.30 1.26 1.24 1.21 1.20 1.18
x | 20 25 30 35 40 50 60 65 70 75 80 90
Fuente: Montgomery et al. 1996

9.7. Se dan los siguientes datos en la tabla de abajo.


Tabla mostrando los datos del problema. (Elaboracin propia)
___________________________________________________________________
Y | 24.60 24.71 23.90 39.50 39.60 57.12 67.11 67.24 67.15 77.87 80.11 84.67
X | 4.0 4.0 4.0 5.0 5.0 6.0 6.5 6.5 6.8 7.0 7.1 7.3

(a) Ajustar los datos a un modelo polinomial de segundo orden.


(b) Ajustar los datos a un modelo polinomial de tercer orden.
(c) Usando mtodos subjetivos y objetivos, decidir cul de los dos modelos encaja
mejor en los datos justificando el argumento. (Un modelo cuadrtico es el mejor
candidato. Justificar la asercin)
9.8. Los datos de la tabla de abajo corresponden a un estudio para la obtencin de cierto
producto etlico relacionado con el tiempo.
Tabla con los datos.
____________________________________________
x| 1 1 2 4 4 4 6
____________________________________________
y | 25.0 27.5 28.0 31.9 33.0 34.6 22.0
____________________________________________

(a) Obtener el modelo probabilstico (cuadrtico o cbico, sin asumir interaccin), ms


adecuado para los datos y estimar la funcin de regresin correspondiente.
(b) Validar el modelo determinado en (a) construyendo una grfica con los residuales

9-62
Dr. Hctor Quevedo Uras

estandarizados y analizando, subjetivamente, la conformacin de los datos de la


grfica.
(c) Estimar el coeficiente de determinacin R2. De acuerdo con el criterio de R2, y
dems estadsticas encajan bien los datos en el modelo de regresin seleccionado?
(d) Hacer un anlisis de varianza y estimar el nivel de probabilidad p.
(e) Complementar el procedimiento usando la ecuacin (9-12) y, de acuerdo a los
resultados, y a la prueba de hiptesis, decir cul de los dos modelos encaja mejor en los
datos.
(f) Usar el criterio de Cp de Mallow para analizar si hubiere muchas variables
independientes o superfluas, que se puedan eliminar del modelo si Cp > (p + 1). No
obstante, si Cp < (p + 1) esto pudiera indicar que se han omitido variables
independientes importan.
9.9. En un estudio de seguridad para los motoristas en las carreteras estatales, se sabe
que el nmero de accidentes automovilsticos, en cierta parte de de una carretera, est
relacionado con el nmero de vehculos y la velocidad de stos. Para esto, al encargado
de este estudio se le piden los promedios de las estadsticas de los ltimos 10 aos, con
el objeto de establecer un modelo de regresin para predecir el nmero de accidentes.
Siendo as, se decide poner como variable dependiente el nmero de accidentes (Y).
Adems, como variables independientes se ponen el nmero de vehculos que pasan
por el trecho (x1) y, la velocidad promedio a que viajan (millas por hora), como (x2). Se
decide probar cuatro modelos de regresin, es decir, uno lineal mltiple sin interaccin
y otro con interaccin. Para el otro modelo probado se decide por uno cuadrtico, con
y sin interaccin. Todo esto se hace para ver cual de los modelos encaja mejor en los
datos. Hacer los siguientes clculos:
(a) Calcular los valores de R2, R2ajustada, s, PRESS, F y el valor de p para cada uno de los
modelos probados.

9-63
Dr. Hctor Quevedo Uras

(b) Hacer un resumen de los resultados de los 4 modelos de regresin probados y


decidir cual sistema es superior.
Tabla mostrando los promedios anuales del nmero de accidentes, en funcin del
nmero de vehculos y la velocidad (millas por hora) en que viajan. (Elaboracin
propia)
Nmero de (Y) Nmero de (X1) Velocidad del (X2)
accidentes vehculos vehculo
5 40 53
9 55 73
15 64 90
3 25 55
4 27 60
6 30 70
1 5 50
10 56 85
6 35 80
8 60 67

(b) Completar la tabla de abajo con los resultados de los cuatro modelos probados
y decir cual es el modelo superior.

Tabla mostrando los datos del problema (Elaboracin propia)


Tipo de modelo R2 R2ajustada s PRESS F p
Modelo lineal sin
interaccin
Modelo lineal con
interaccin
Modelo cuadrtico
sin interaccin
Modelo cuadrtico

9-64
Dr. Hctor Quevedo Uras

con interaccin
9.10. Analizar las grficas de abajo de y versus x1 para una variedad de valores de x2 y
determinar si hay o no interaccin.

Grficas (a), (b), (c), (d), (e) y (f) de y en funcin de varios valores de x. (Elaboracin
propia)

9.11. El texto de los autores Michael J. Neter, H., Kutner, Christopher J. Nachtsheim
y William Wasserman, cuyo ttulo es Applied Linear Regression Models (1996)
discute la eficiencia de un tipo de un mecanismo de transmisin que funciona a ms
de la capacidad normal se prueba para reducir el consumo de gasolina y, por ende, la
reduccin de la contaminacin ambiental (por las emisiones de gases de
invernadero). Esto se estudi en 12 pruebas, con una camioneta equipada con este
tipo de transmisin. La tabla de abajo muestra la velocidad constante (xi), en millas
por hora, en funcin de las millas por galn obtenidas (yi). Asmase un modelo de
regresin de segundo orden. Los datos se dan en la tabla de abajo.

9-65
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema del rendimiento de gasolina.


No. de prueba |1 2 3 4 5 6 7 8 9 10 11 12
Velocidad (xi) | 35 35 40 40 45 45 50 50 55 55 60 60
Rendimiento (yi) | 22 20 28 31 37 38 41 39 34 37 27 30
(Fuente: Neter et al. 1996)
(a) Graficar los de datos millas por galn versus velocidad.
(b) Ajustar el modelo de regresin polinomial de segundo orden. (Y = -183 +
8.98X 0.0911(X 2))
(c) Validar la funcin probabilstica cuadrtica graficando los residuos versus valores
observados de y. Tambin, hacer un histograma de frecuencia versus valores
residuales. Tambin, preparar una grfica de probabilidad normal, es decir, de residuos
versus valores de z.
(d) Validar el modelo cuadrtico estimando el valor de SSe, R2 y R. Asimismo, hacer
una tabla de ANOVA y hacer pruebas de hiptesis con la t de estudiante. Sacar
conclusiones apropiadas.
(e) Probar un modelo cbico y comparar los resultados con los del modelo cuadrtico.
(f) Cul de los dos modelos es superior?
9.12. En una investigacin cientfica agrcola, se estudi, en 10 pruebas, los efectos de
la humedad de la tierra (xi en pulgadas) y la temperatura (x2 en oC) en funcin del
rendimiento (en fanegas), de cierta variedad de plantas gramneas (Y). Los datos se dan
abajo.
Tabla mostrando los datos. (Elaboracin propia).
__________________________________________________________________
Humedad (x1) | 6 6 6 6 14 14 14 15 16 16
Temperatura (x2) | 20 21 22 22 22 23 23 23 24 24
Rendimiento (Y) | 49 48 48 48 48 42 44 44 40 40

9-66
Dr. Hctor Quevedo Uras

El ingeniero agrnomo investigador espera un modelo de la forma:


yi = o + 1xi1 + 2xi2 + 11x2i1 + 22x2i2 + 12xi1xi2 +
(a) Graficar los valores de yi contra los valores ajustados.
(b) Calcular R2.
(c) Calcular el valor de F y p.
(d) Estimar el rendimiento promedio (en fanegas), cuando la humedad es igual a 8 y
cuando la temperatura es igual 22 grados Celsius.
(e) Se pudiera eliminar el trmino de interaccin, sin menoscabar la eficiencia del
modelo de regresin, que espera el ingeniero agrnomo?
9.13. La suma de los cuadrados del error de un modelo de regresin polinomial
cuadrtico completo, con interaccin conteniendo dos variables independientes es de
SSe = 200.0. La suma de los cuadrados del modelo simple, sin interaccin, con una
variable independiente es de SSa = 500. Asumir k1 = 4, k2 = 5, n = 50 y = 0.05.
(a) Determinar cul de los dos modelos es superior. (El modelo completo es
superior. Justificar el argumento)
9.14. Probar las siguientes hiptesis usando la funcin (9-9):
(a) Prueba de hiptesis nula es Ho: 3 = 4 = 5 = 0 contra la hiptesis alternativa de
cuando menos uno de los tres coeficientes 3, 4, 5 no es igual a cero. Asumir, k1 = 2,
k2 = 5, n = 100, = 0.05, SSE1 = 7,000.0 del modelo abreviado y SSE2 = 6,000.0 del
modelo completo. De acuerdo a estos datos, Cul de los dos modelos es superior?
(b) Prueba de hiptesis nula Ho:4 = 5 = 6 = 7 = 0 contra H1: cuando menos uno de
estos coeficientes no es igual a 0. Asumir k1 = 3, k2 = 7, n = 45, = 0.05, SSe1 = 1,600,
SSe2 = 900.0. Cul de los dos modelos es el mejor?
(c) Ho:3 = 4 = 0 contra H1:3 4 0 de que cuando menos uno de los dos
coeficientes no es igual a 0. Asumir k1 = 2, k2 = 4, n = 30, = 0.05, suma del error de las

9-67
Dr. Hctor Quevedo Uras

cuadrados del modelo simple es 130.0 y la suma de los cuadrados del modelo complejo
es de 100.0.
9.15. En una investigacin relacionada con la contaminacin del aire por el ozono, a
nivel del suelo, se sac una muestra de 5 aos (1999-2003) procedente de una estacin
muestreadora localizada en el Parque Chamizal en El Paso, Texas. El mantenimiento
y calibracin de los aparatos de esta estacin muestreadora fue hecha por la E. P. A. de
Los Estados Unidos. El estudio consisti en el procesamiento estadstico de variables,
como el ozono (O3), el monxido de nitrgeno (NO), el bixido de nitrgeno (NO2) y
la temperatura en grados Fahrenheit (oF). Esto se hizo con el objeto de obtener un
modelo de regresin estadstico para fines de prediccin. El procedimiento consisti en
sacar los promedios (de los valores espacio-temporales de una hora), de cada una de las
4 variables independientes de cada una de las 24 horas del da de cada mes de cada uno
de los 5 aos. Aproximadamente, se procesaron 178,560 datos (24 horas x 31 das x 12
meses x 5 aos x 4 variables). Los promedios de los promedios, en partes por billn
(ppb) se dan abajo. Hacer los siguientes clculos:
(a) Graficar los datos para ver el tipo de la funcin grfica que se pueda esperar.
Sugerencia: Usar el paquete de computadora Excel.
(b) Para obtener el mejor candidato del modelo de regresin usar un best subset
regresin (mejor subconjunto de regresin) y un Stepwise Regresin (regresin por
pasos). Evaluar la utilidad del modelo usando los criterios R2, s, Cp y PRESS y los
criterios subjetivos (grficas de residuales y prueba de normalidad).
(c) Usando el modelo de regresin seleccionado, para el mes de julio, predecir la
concentracin de ozono, si la concentracin de NO es igual a 4.0 ppb, NO2 igual a 11.8
ppb, y la temperatura es de 23.5 oC.
La tabla de abajo muestra la informacin requerida.

9-68
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema de arriba. (Elaboracin propia).


Mes Ozono (ppb) NO (ppb) NO2 (ppb) Temperatura (oF)
Enero 16.7 28.2 21.0 49.68
Febrero 19.4 23.0 18.9 53.06
Marzo 30.0 12.5 16.3 58.82
Abril 34.4 10.2 14.4 68.00
Mayo 35.8 6.2 12.8 77.36
Junio 37.5 4.0 10.9 82.94
Julio 38.7 3.3 12.7 83.66
Agosto 36.4 3.9 14.4 83.12
Septiembre 30.7 8.8 16.6 78.44
Octubre 21.2 9.8 20.9 67.10
Noviembre 16.6 33.0 22.7 56.30
Diciembre 14.9 34.9 23.8 46.18

(a) Usando el programa Excel introducir los datos en la hoja de Excel, de la siguiente
manera: En la primera columna poner los meses del ao, en la segunda columna poner
los valores de O3, en la tercera columna poner los valores de NO y en la ltima columna
poner los valores de NO2. Una vez hecho esto irse a:
Chart Wizard En la ventana de Chart-Wizard-Step 1 of 4 Chart 5 Chart Type
Line Next Data Range (sombreando los datos) Column Next Ttulo
Finsh. Todos estos rdenes generan la grfica mostrada abajo.

90
80
70
60 Conc. O3
50 Conc. NO
40 Conc. NO
30 Temperatura
20
10
0
E F M A M J J A S O N D

9-69
Dr. Hctor Quevedo Uras

Como se ve en la grfica, las concentraciones de O3 son directamente proporcionales a


las temperaturas, pero inversamente proporcionales a las concentraciones de NO y
NO2. Con la qumica atmosfrica, estas relaciones matemticas estn de acuerdo a una
lgica a posteriori. Por qu es as? Se le pide al lector contestar esta pregunta.
Para el inciso (b) usando el Best Subsets Regression de la funcin del Minitab con Y
versus X2, X2, para obtener el siguiente esquema mostrado abajo: (Elaboracin
propia).
___________________________________________________________________
XXXX
1234
SSSS
XXXQQQQ
Vars R-Sq R-Sq(adj) Cp s 2 2 4 R R R R

1 97.4 96.9 95.2 1.6294 X


1 96.7 96.0 123.5 1.8434 X
2 98.2 97.5 68.2 1.4597 X X
2 98.2 97.5 68.5 1.4630 X X
3 99.5 99.3 16.0 0.7796 X X X
3 98.9 98.3 40.9 1.2029 X X X
4 99.7 99.5 10.7 0.6489 X X X X
4 99.7 99.4 12.4 0.6995 X X X X
*5 99.9 99.8 5.4 0.4036 X X X X X
5 99.9 99.8 5.9 0.4294 X X X X X
6 99.9 99.8 7.0 0.4214 X X X X X X
6 99.9 99.8 7.2 0.4313 X X X X X X
7 99.9 99.7 9.0 0.4859 X X X X X X X
Stepwise regression: Y versus X1, X2, X3, X4,X1SQR, X3SQR
Alpha to enter: 0.15 Alpha to remove: 0.15
Response is: on 6 predictors, with N = 12
__________________________________________________________________
De acuerdo a lo observado arriba, se puede decir que, al juzgar por los valores de R2, s
y Cp, el modelo ms apropiado es el que excluye a X 22 y a X 24, pero que incluye a

9-70
Dr. Hctor Quevedo Uras

(NO2), como la mejor alternativa, es decir, usando un modelo de regresin cuadrtico


de la forma de abajo (que excluye a X 22 y X 24).
Y = o + 1X1 + 2X2 + 3X3 + 4X4 + 5X 21 + 6X 23
La utilidad del modelo candidato se da de acuerdo a los valores de: s = 0.4036, R2 =
99.9%, R2adj. = 99.8%, R2pred. = 99.7% y PRESS = 3.1174. Adems, haciendo un
anlisis de regresin por pasos se observa que, siempre se van despreciando los valores
de X 22 y X 24, pero siempre se selecciona a X 23 como mejor alternativa. Esta situacin
es confirmada por los valores de T y de P mostrados en la tabla de abajo.
Tabla mostrando los coeficientes y los valores de T y P. (Elaboracin propia)
Predictor Coef. SE Coef T P
Constant 17.273 6.2660 2.76 0.040
X1 -2.0544 0.1502 -13.67 0.000
X2 -0.3758 0.1159 -3.24 0.023
X3 1.4376 0.1991 7.22 0.001
X4 -10.8350 2.8080 -3.86 0.012
X1SQR 0.0323 0.0029 11.73 0.000
X3SQR -0.0120 0.0016 -7.47 0.001

Para contestar las preguntas del inciso (c) usar el modelo de regresion seleccionado.
9.16. Las tablas de abajo muestran datos sacados de un experimento, el cual consiste en
4 variables independientes. Se usa un paquete de computadora, el cual selecciona tres
de los modelos candidatos ms apropiados.
(a) Confirmar la seleccin del los tres candidatos modelos de regresin ms apropiados
usando el paquete Minitab, NCSS o SAS.
(b) De los tres modelos finalistas sealados en la tabla de abajo, seleccionar el modelo
ms ptimo basando el criterio en los diagnsticos estadsticos R2, s, PRESS y Cp.
Complementar la decisin usando enfoques subjetivistas, es decir, analizando los
grficos de los residuos estandarizados. Hacer, adems, una prueba de normalidad.

9-71
Dr. Hctor Quevedo Uras

Tabla mostrando los datos originales. (Elaboracin propia)


__________________________________________________________________
(Y) X1 X2 X3 X4
_______
79.3 5.5 31 10 8
200.1 2.5 55 8 6
163.2 8.0 67 12 9
200.1 3.0 50 7 16
146.0 3.0 38 8 15
177.7 2.9 71 12 17
30.9 8.0 30 12 8
291.9 9.0 56 5 10
160.0 4.0 42 8 4
339.4 6.5 73 5 16
159.6 5.5 60 11 7
86.3 5.0 44 12 12
237.5 6.0 50 6 6
107.2 5.0 39 10 4
155.0 3.5 55 10 4

La tabla de abajo muestra los tres mejores candidatos de modelos, para que el lector
haga una decisin sobre cual de los tres modelos es el mejor. Hacer esta decisin final
basndose en los criterios estadsticos R2, s, PRESS y Cp. Pudiera una interaccin
mejorar el modelo de regresin?
Tabla mostrando los resultados. (Elaboracin propia)
Modelo de regresin Fcalc. R2 s PRESS Cp Durbin-Watson
X2, X3 998 0.9940 6.6749 782.1896 11.4013 1.91
X1, X2, X3 1200 0.9970 4.9795 643.3578 3.4075 2.02
X1, X2, X3, X4 852 0.9971 5.1193 741.7557 5.0000 2.02

9.17. Este problema est relacionado con una informacin de datos de un experimento
relacionado entre el pH (X) y la conductividad elctrica (Y). Los datos se dan en la tabla

9-72
Dr. Hctor Quevedo Uras

de abajo (elaboracin propia). Basando el razonamiento en los resultados dados por el


paquete Minitab, decidir si el modelo de regresin ms apropiado es un modelo de
cuadrtico o un modelo de regresin cbico.

Quadratic Regression Analysis: (Y) versus (X), XSQR


The regression equation is:
(Y) = 46.9 19.9 (X) + 2.12 XSQ
Predictor Coef SE Coef T P
Constant 46.907 9.432 4.97 0.000
(X) -19.909 4.310 -4.62 0.000
XSQ 2.1161 0.4911 4.31 0.001

S = 0.09332 R-Sq = 94.0% R-Sq(adj) = 93.1%


PRESS = 0.173201 R-Sq(pred) = 90.88%

Analysis of Variance Table


Source DF SS MS F P
Regression 2 1.78578 0.89289 102.53 0.000
Residual Error 13 0.11322 0.00871
Total 15 1.89900

Cubic Regression Analysis: (Y) versus (X), XSQR, XSCUBE


The regression equation is:
(Y) = 248 158(X) + 33.6 XSQR 2.40 XCUBE

9-73
Dr. Hctor Quevedo Uras

Predictor Coef SE Coef T P


Constant 247.9 206.4 1.20 0.253
(X) -157.9 141.6 -1.11 0.287
XSQ 33.64 32.35 1.04 0.319
XCUBE -2.397 2.459 -0.97 0.349

S = 0.09350 R-Sq = 94.5% R-Sq(adj) = 93.1%


PRESS = 0.172799 R-Sq(pred) = 90.90%

Analysis of Variance Table


____________________________________________________
DF SS MS F P
Regression 3 1.79409 0.59803 68.41 0.000
Residual Error 12 0.10491 0.00874
Total 15 1.89900

9.18. Se dan los siguientes datos relacionados con la manufactura de chumaceras para
vehculos. Se sospecha que ciertas mediciones no estn dentro del rango permitido,
posiblemente, debido a fallas de los operadores o tal vez de la maquinaria.

Tabla mostrando los datos del problema (Elaboracin propia).


Mediciones | 2.75 2.62 2.74 3.85 2.34 2.74 3.93 4.21 3.88 4.33 3.46 4.52 2.43 3.65 2.78 3.56 3.01
No. muestra| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Hacer los siguientes clculos:


(a) Poner los datos en forma ascendente.
(b) Determinar el valor del cuarto inferior del cuarto superior.
(c) Calcular la cuarta dispersin fs, 1.5fs y 3fs.
(d) Calcular un modelo de regresin que incluya todos los datos.
(e) Calcular otro modelo de regresin que excluya los valores atpicos extremos
calculados en los incisos anteriores.
(f) De acuerdo a los diagnsticos objetivistas y subjetivistas, determinar cual de los dos

9-74
Dr. Hctor Quevedo Uras

modelos es superior.
9.19. Se da la tabla de abajo con datos relacionados con las concentraciones de
monxido de carbono (CO) emitidas por motores de combustin interna. Sin embargo,
se argumenta que, el aparato analizador que muestreaba el CO, pudo haber tenido fallas
durante el muestreo de CO debido a que se notaron valores fuera de lo normal. Para
verificar si en verdad hubo valores atpicos en las concentraciones de CO, se requiere
saber, cuales fueron los valores extremos. Para tales fines usar diagramas de caja que
identifiquen valores atpicos extremos. Para esto se da la tabla de abajo.
Tabla mostrando los valores de las concentraciones de monxido de carbono (ppm).
(Elaboracin propia).
Concentracin de CO | 95 90 90 80 75 65 45 60 57 95 97 130 130 120
105 103 100 99 99
No. de observacin | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
18 19

Hacer los siguientes clculos:


(a) Ordenar los datos en forma ascendente.
(b) Estimar la mediana, el valor mximo, el valor mnimo, el cuarto inferior, el cuarto
superior, la cuarta dispersin fs, 1.5fs, 3fs, el cuarto inferior Q1 y el cuarto superior Q3.
(95, 130, 45, 77.5, 104, 26.5, 75, 103)
(c) Hacer una grfica con un diagrama de caja y hacer comentarios al respecto.
(d) Identificar los valores atpicos inusuales extremos de CO.
(e) Correr un modelo de regresin, es decir, asumiendo un modelo de regresin
cuadrtico, con los valores originales y, otro ms, con los valores extremos eliminados.
Hay un mejoramiento significante en el modelo corregido, es decir, de acuerdo a los
valores de R2, R2ajustada, s y PRESS, de cada uno de los dos modelos de regresin
cuadrticos, esto es, incluyendo y excluyendo los valores atpicos extremos? (Tal
parece que si hay un mejoramiento significante con el modelo de regresin cuadrtico,

9-75
Dr. Hctor Quevedo Uras

que no incluye los valores extremos. Bajo estas condiciones, los valores de los
diagnsticos estadsticos, para el modelo de regresin, sin los valores atpicos extremos
son: R2 = 98,4%, R2ajustada = 98.2%, s = 2.51, PRESS = 135.74. En contraste, para el
modelo de regresin cuadrtico, que incluye todos los valores atpicos extremos, los
valores de los diagnsticos estadsticos son: R2 = 93.6, R2ajustada = 92.8%, s = 6.26 y
PRESS = 949.77)
(f) De acuerdo a los diagnsticos objetivistas y subjetivistas, determinar cual de los
dos modelos es superior.
9.20. El texto de Jay L. Devore intitulado Probabilidad y Estadstica para Ingeniera
y Ciencias (2001) cita una investigacin para determinar la concentracin de cocana
en la sangre (mg/L) en una muestra de individuos quienes murieron de delirio excitado
(DE) debido al uso de la cocana. Adems, hubo otra muestra de cocana en la sangre
de otro grupo de adictos a esta droga, quienes murieron por sobredosis, sin delirio
excitado. El tiempo de supervivencia de ambos grupos fue de 6 horas. Los datos
adjuntos se graficaron en un diagrama de caja. Este estudio se public en la revista
Fatal Excited Delirium Following Cocaine Use (J. of Forensic Sciences, 1997, pp.
25-31). Los datos de este estudio se dan en la tabla de abajo.

9-76
Dr. Hctor Quevedo Uras

Tabla mostrando los resultados de este problema.


Con delirio excitado (DE)
0 0 0 0 .1 .1 .1 .1 .2 .2 .3 .3 .3 .4 .5 .7 .8 1.0 1.5 2.7
2.8 3.5 4.0 8.9 9.2 11.7 21.0
Sin delirio excitado (Sin DE)
0 0 0 0 .1 .1 .1 .1 .2 .2 .2 .3 .3 .3 .4 .5 .6 .5 .7 .6 .8
1.0 1.2 1.4 1.5 1.7 2.0 3.2 3.5 4.1 4.3 4.8 5.0 5.6 5.9 6.0 6.4
7.9 8.3 8.7 9.1 9.6 9.9 11.0 11.5 12.2 12.7 14.0 16.6 17.8
(Fuente: Devore, 2001)
(a) Determinar las medianas, el cuarto inferior Q1, el cuarto superior Q2, los cuartos
inferiores y superiores y las cuartas dispersiones fs de las dos muestras y el promedio.
(Para ED: .4,.12.75,2.65, 2.607; para no ED: 1.6, .3, 7.9, 7.60, 4.25)
(b) Identificar los valores atpicos moderados y extremos. (ED: 8.9 y 9.2 son valores
atpicos moderados y 11.7 y 21.0 son valores atpicos extremos. En la muestra de no
ED: no hay valores atpicos).
(c) Trazar un diagrama de caja comparativo y usarlo para comparar y diferenciar las
muestras con y sin delirio excitado. (Existe una asimetra positiva apreciable en ED y
en no ED; menor variabilidad en observaciones de la muestra ED, esto es, menor fs.
Adems, las observaciones de la muestra no ED son mayores que las de la muestra no
ED)
9.21. El texto de qumica intitulado Chemistry: The Central Science de Brown et. al.
(2000), discute la fase gaseosa de la descomposicin de NO2, la cual es dada por:
NO2(gas) NO(gas) + O2(gas)
(a) Decir si la reaccin es de primero o segundo orden con respecto a la concentracin
de NO2. Despus, ratificar la decisin hecha usando tcnicas de regresin evaluadas

9-77
Dr. Hctor Quevedo Uras

por estadsticos objetivistas (como R2, s, PRESS y ANOVA) y complementadas por


medio de grficos subjetivistas (como prueba de normalidad, residuos vs. valores
ajustados, etc.). Adems, calcular el valor de la constante de la reaccin k (pendiente).
Los valores se dan abajo.
Tabla mostrando los datos del problema
___________________________
Tiempo (seg) [NO2] (M)
___________________________
0.0 0.1000
5.0 0.0170
10.0 0.0090
15.0 0.0062
20.0 0.0047
___________________________
Fuente: Chemistry: The Central Science. Brown et al. (2000)

9.22. Los autores Sawyer C. N., Perry L. McCarty del libro Chemistry for Sanitary
Engineers, 2nd. Edition (1967) proporcionan los siguientes datos provenientes de un
experimento para evaluar la desinfeccin de un almacenamiento de agua con una
dosis de cloro dada para matar las bacterias coliformes. Usando el programa Minitab
o cualquier otro programa de computadora, correr un anlisis de regresin
estadstico y hacer lo siguiente:
(a) Decir el orden de la reaccin de estos datos. (Primer orden)
(b) Que tan bien encajan los datos en el modelo de regresin? Para esto, usar un
criterio objetivista y uno subjetivista para justificar la asercin.
(c) Calcular la vida media
(d) Calcular la tasa de la reaccin (0.1848)
(e) Predecir el tiempo que se llevara para aniquilar el 50% de las bacterias
coliformes?

9-78
Dr. Hctor Quevedo Uras

Tabla mostrando los datos del problema.


____________________________________________
Tiempo (min) Porcentaje de coliformes
que van quedando
____________________________________________
0 100
10 70
20 21
30 6.3
60 0.6
____________________________________________
(Fuente: Sawyer et al. 1967)

9.23. El texto de Mongomery, Peck y Vining, intitulado Introduccin al Anlisis de


Regresin Lineal (2001) da un estudio relacionado con la ingeniera qumica y
mecnica en la cual se necesita conocer la presin de vapor de agua a diversas
temperaturas; para esto se pueden usar la infames tablas de vapor. Los datos de la
presin de vapor y del agua a diversas temperaturas se dan abajo.
Tabla mostrando los datos del problema.
_________________________________________________________________
y = presin de vapor de agua (mm Hg) x = Temperatura (oC)
__________________________________________________________________
9.2 10
17.5 20
31.8 30
55.3 40
92.5 50
149.4 60
Fuente: Montgomery et al. (2001)

(a) Ajustar un modelo de regresin de primer orden sustentado por estadsticos


objetivos y grficos.
(b) Ajustar un modelo de regresin de segundo orden sustentado con estadsticos
objetivos y grficos.

9-79
Dr. Hctor Quevedo Uras

(c) De acuerdo a los resultados obtenidos en los incisos (a) y (b) decidir cual de los
dos modelos es superior, es decir, el modelo de regresin que ajusta mejor a los
datos.
9.24. En un experimento relacionado con la velocidad del vehculo y el consumo de
gasolina se estudia en una muestra de un tamao 15, es decir, usando un solo
vehculo. Los datos se dan en la tabla de abajo.
Tabla mostrando los datos de este experimento.
__________________________________________________________________
Velocidad (km/hr) | 57 57.6 64 66 66 80 81 89.6 98 99
Consumo de gasolina (L/km) | 20 21 25 26.3 26.5 29 29 27 25.5 25

Hacer los siguientes clculos:


(a) Identificar la variable dependiente y la variable independiente
(b) Graficar los datos de la variable dependiente versus la variable independiente.
(c) Ajustar el modelo de regresin que mejor encaje en los datos
(d) Evaluar la utilidad del modelo candidato mediante anlisis objetivistas (R2, R2ajustada,
error estndar de lo estimado s, PRESS, y anlisis de varianza). Complementar la
decisin obtenida usando grficos subjetivistas (Grficos de prueba de normalidad,
residuales versus valores ajustados de Y, residuales versus ordenes, etc.)
(e) Una vez que se haya obtenido el modelo superior, predecir el consumo de gasolina
cuando la velocidad es de 96 km/hr

9-80
Dr. Hctor Quevedo Uras

CAPITULO 10
Estadstica no paramtrica. El modelo de ANOVA libre
Ventajas de los mtodos no paramtricos.- Desventajas de los mtodos no
paramtricos.- Prueba de H de Kruskal-Wallis para anlisis de varianza por
rangos.- Pruebas de hiptesis con las funciones no paramtricas.-
Procedimientos de pruebas de Kruskal-Wallis para ANOVA simple.- Pruebas
de hiptesis no tradicionales, para la prueba de Kruskal-Wallis, es decir,
usando el valor de la probabilidad p.-
Cuando se estudian procedimientos libres o de pruebas no paramtricas se incluyen
la prueba de suma de rangos de Wilcoxon, la prueba de Kruskal-Wallis para
diseos completamente aleatorizados, la prueba de Friedman, la prueba de
Kolmogorov-Smirnov, etc. Existen muchas aplicaciones en la ciencia y en la
ingeniera donde los datos se reportan, no como valores continuos, sino en una
escala ordinal de tal manera que se puedan asignar rangos a los datos obtenidos.
Todos los mtodos discutidos anteriormente, como la distribucin normal, la
distribucin de t de estudiante, la distribucin de F, el modelo de regresin, etc., se
llaman mtodos estadsticos paramtricos. Esto se debe a qu, estas distribuciones
continuas asumen que la variacin aleatoria de los datos debe de seguir a la
suposicin de normalidad. Sin embargo, existen situaciones en que las
suposiciones de normalidad no se satisfacen para las pruebas de hiptesis. Para
resolver este problema, los estadsticos han diseado varias alternativas para
aquellos investigadores que estn renuentes a aceptar las suposiciones de
normalidad, es decir, de funciones no paramtricas. Estos procedimientos no
paramtricos se aplican igualmente a distribuciones paramtricas y a distribuciones
no paramtricas.

10-1
Dr. Hctor Quevedo Uras

En el uso de las estadsticas no paramtricas, como la prueba de Kruskal-


Wallis, la prueba de signos, la prueba de Wilcoxon, la prueba de rangos de signos,
etc., es necesario aclarar qu, estos procedimientos no paramtricos no son tan
poderosos como sus contrapartes, es decir, los mtodos paramtricos, como la
distribucin normal, la t de estudiante, etc. Esto se debe a qu, para una
probabilidad de error I, las pruebas no paremtricas darn una probabilidad ms
alta del error tipo II. Esto tambin ocurre, porque una prueba que ignore la
normalidad de los datos (como lo hacen las pruebas no paramtricas), no ser tan
buena como aquellas pruebas que la sigan (como las paramtricas). Otra limitacin
de las pruebas no paramtricas es que las poblaciones muestreadas deben se ser
independientes. Esto quiere decir qu, un grupo no debe de tener influencia sobre
el otro. Sin embargo, haciendo a un lado la condicin de normalidad, en que se
basan las estadsticas paramtricas, las pruebas no paramtricas tienen muchas
aplicaciones en el campo de la ingeniera.
Ventajas de los mtodos no paramtricos
1. Estos mtodos pueden aplicarse a un gran nmero de situaciones, porque no
requieren de las condiciones de normalidad requeridas por sus contrapartes
paramtricas y son ms simples que su contraparte, los mtodos paramtricos.
2. En contraste con los mtodos paramtricos, los mtodos no paramtricos pueden
ser aplicados a datos no numricos.
Desventajas de los mtodos no paramtricos
1. Los mtodos no paramtricos tienden desperdiciar informacin, porque los datos
numricos exactos usualmente se reducen a forma cualitativa. Por ejemplo, en una
prueba no paramtrica, digamos de pruebas de signos, la prdida de peso por
dietistas se registran simplemente signos negativos. Con este mtodo de signos, la

10-2
Dr. Hctor Quevedo Uras

prdida de peso de una sola libra, recibe la misma representacin que la prdida de
50 libras.
2. Las pruebas no paremtricas no tienen la eficiencia de las pruebas paramtricas.
Esto se debe a qu, con los mtodos no paramtricos, en las pruebas de hiptesis se
necesita una fuerte evidencia, antes de que se pueda rechazar la hiptesis.
La TABLA 10.0 muestra una comparacin entre los mtodos paramtricos y los
no paramtricos.
TABLA 10.0. Tabla mostrando una comparacin entre los mtodos paramtricos y
los mtodos no paramtricos. (Elaboracin propia)
Aplicacin Prueba Prueba no Eficiencia
paramtrica paramtrica
Datos pareados para Prueba de z Prueba de 0.63
muestras dependientes o de t* signo

Datos para muestras Prueba de z Prueba de signos de 0.95


independientes o de t** rangos de Wilcoxon

Varias muestras independientes Anlisis de varianza Prueba de Kruskal- 0.95


(ANOVA) (prueba F) Wallis

Correlacin Correlacin lineal Prueba de correlacin 0.91


de rangos
Aleatoriedad Prueba no paramtrica Pruebas corridas
No hay
base
______________________________________________________________________________
* t = ( D - o)/ sD/ n
2 1 1
** t = ( X 1 X 2) (1 2) / s ( + )
p
n n
1 2

+
2 2

** z = ( X 1 X 2) (1 2) / 1 2
con 1 y 2 conocidas
n 1 n 2

10-3
Dr. Hctor Quevedo Uras

Prueba de H de Kruskal-Wallis para anlisis de varianza por rangos


La nica prueba que se discutir en este captulo es la prueba de Kruskal-Wallis, la
cual est relacionada con la estadstica paramtrica del anlisis de varianza. El
anlisis de varianza o ANOVA paramtrico se aplica para ver si tres o ms
promedios poblacionales son iguales, es decir, que no hay diferencias en los
promedios. Sin embargo, aqu se asume qu, las poblaciones muestreadas, estn
normalmente distribuidas y, las desviaciones estndar de estas distribuciones son
iguales.
No obstante, si no se pueden seguir las suposiciones de la ANOVA
paramtrica, lo apropiado es usar las pruebas no paramtricas, como la prueba de
Kruskal-Wallis, prueba de signos de rangos de Wilcoxon o prueba U de Mann-
Whitney. Empero, como ya se dijo, aqu debe existir independencia entre las
poblaciones muestreadas. De cualquier manera, si se rene esta condicin,
entonces si podemos usar la funcin de Kruskal-Wallis para hacer anlisis de
varianza, para ver si existen diferencias entre los promedios poblacionales.
Procedimientos de pruebas de Kruskal-Wallis para ANOVA simple
1. Todos los valores de la muestra son combinados.
2. Los rangos ordenados son del ms alto al ms bajo.
3. Los valores ordenados se reemplazan por rangos empezando por uno para el ms
pequeo hasta el ms alto.
4. Para la prueba de hiptesis se usa la distribucin de la JI cuadrada y es unilateral
derecha. Para la prueba no tradicional se usa el clculo de la probabilidad p usando
la tabla de la distribucin de la JI cuadrada (2).
La funcin de Kruskal-Wallis se designa por la funcin H que est muy
cercana a la distribucin de la JI cuadrada. Esta funcin se da como:

10-4
Dr. Hctor Quevedo Uras

12 (R1)2 (R2)2 (Rk)2


H = [ + + + ] 3(N + 1) (10-1)
N(N+1) n1 n2 nk

Con = k 1 grados de libertad


Donde k es el nmero de poblaciones muestreadas o nmero de muestras
Donde:
R1, R2, Rk = suma de los rangos para la k-sima muestra n1, n2, ,nk =
tamaos de muestras 1, 2, .., k
N = nmero total de las observaciones para todas las muestras combinadas.
Si el valor computado de la estadstica H cae en la regin crtica derecha (las
pruebas siempre son unilaterales derechas), es decir, H > 2;, con = k 1 grados
de libertad, entonces, se rechaza Ho: al nivel de significancia usado. De otra
manera se retiene Ho:
Pruebas de hiptesis con las funciones no paramtricas
Para las pruebas de hiptesis tradicionales se usan los mismos trminos que en las
pruebas paramtricas de ANOVA, es decir, si H > 2, con = k 1 grados de
libertad cae en la regin crtica derecha, se rechaza la hiptesis sustentada, Ho:. De
otra manera se retiene, se acepta o no se hace ninguna decisin.
La prueba de hiptesis nula para la prueba de Kruskal-Wallis es la
tradicional, es decir:
Ho: 1 = 2 = 3 = = k (10-2)
La hiptesis alternativa es:
H1:1 2 3 . k (10-3)

10-5
Dr. Hctor Quevedo Uras

Los niveles de significancia son los mismos que las pruebas paramtricas, es decir,
= .05 y = .01. Estos valores se buscan en la tabla de la JI cuadrada con 2,
donde es igual a .05 o .01 (extremo derecho de la tabla).
Pruebas de hiptesis no tradicionales, para la prueba de Kruskal-Wallis, es
decir, usando el valor de la probabilidad p
Para hacer estas pruebas de hiptesis no tradicionales usando el valor de p, se
siguen los mismos criterios usado anteriormente. El procedimiento se hace
buscando el valor de la estadstica calculada H en la tabla de la distribucin de JI
cuadrada, y se hace una interpolacin usando la misma frmula usada con las
pruebas paramtricas.
Ejemplos usando la prueba de Kruskal-Wallis
Ejemplo #1. Se quiere probar si existen diferencias en las concentraciones de
xidos de nitrgeno (NO2) provenientes de tres muestreadores (1, 2 y 3)
localizados en diferentes lugares. Probar que no hay diferencias entre las
concentraciones de xido de nitrgeno, entre las tres poblaciones muestreadas.
Usar = 0.05. Las concentraciones de NO2 se dan en la tabla de abajo.
TABLA 10.1. Tabla mostrando las concentraciones de xidos de nitrgeno (NOx)
en ppm provenientes de los tres muestreadores. (Elaboracin propia)
Muestreador 1 Muestreador 2 Muestreador 3

51 14 89
32 31 20
17 68 60
69 87 72
86 20 56
62 28 22
96 77
97

10-6
Dr. Hctor Quevedo Uras

Solucin:
Primeramente, se tienen que ordenar los rangos, para cada uno de los tres
muestreadores. Aqu, sin embargo, hay que tener cuidado de tomar en
consideracin situaciones donde hay repeticiones. En este caso hay dos
repeticiones en los muestreadores 2 y 3. Estas situaciones se modifican como se ve
en la TABLA 10.2 de abajo. Analizando la tabla de abajo, vemos que, el marcador
ms bajo, es el 14 de la columna dos, el 17 de la columna uno y, el 20 de la
columna dos y tres. La tabla de abajo muestra el orden de los rangos.
TABLA 10.2. Tabla mostrando los datos de los marcadores con sus respectivos
rangos. (Elaboracin propia)
__________________________________________________________________
Mestreador 1 Muestreador 2 Muestreador 3

Marcador Rango Marcador Rango Marcador Rango


51 9 14 1 89 19
32 8 31 7 20 *3.5
17 2 68 13 60 11
69 14 87 18 72 15
86 17 20 *3.5 56 10
62 12 28 6 22 5
96 20 77 16
97 21

*Debido a que hay dos nmeros 20 entonces, (3 + 4)/2 = 3.5


Ahora se procede a sumar los rangos para cada una de las tres columnas:
R1 = 82 R2 = 85.5 R3 = 63.5
n1 = 7 n2 = 8 n3 = 6
La regin crtica derecha se calcula usando la distribucin de la JI cuadrada. El
valor de 2;, es decir, 20.05; que, en este caso, es de 2 0.05;2 = 5.991, esto es, con =
k 1 = 3 1 = 2 grados de libertad.

10-7
Dr. Hctor Quevedo Uras

Enseguida, sustituyendo los valores de la frmula de Kruskal-Wallis (10-1) y


resolviendo por H da:
12 (82)2 (85.5)2 (63.5)2
H = [ + + ] 3 (21+1)
21(21+1) 7 8 6

= (0.026)[(960.57) + (913.78) + (672.04)] - 66


= 0.21
Conclusin: Debido a que el valor de la estadstica 2 = H = 0.21 es menor que
20.05;2 = 5.991, no se puede rechazar la hiptesis nula de igualdad de promedios y
se dice que la prueba no es significante. Esto dice que tenemos una evidencia muy
insuficiente para rechazar la hiptesis nula de que las concentraciones de las tres
poblaciones de NO2 provenientes de los tres muestreadores son iguales.
Ejemplo #2. En un estudio de toxicologa, con el objeto de verificar el contenido de
alquitrn se prueban cuatro muestras aleatorias de cigarrillos. Como no se sabe si la
poblacin muestreada es normal, en lugar de usar un anlisis de varianza
paramtrico, se decide usar un mtodo no paramtrico, es decir, el de Kruskal-
Wallis. Usando un nivel de significancia de = .05 probar que no hay diferencias
entre las cuatro poblaciones de marcas de cigarrillos. Los datos de las cuatro
marcas de cigarrillos con sus respectivas concentraciones de alquitrn se dan en la
tabla de abajo. Tambin calcular el valor de la probabilidad p.
TABLA 10.3. Tabla mostrando los datos. (Elaboracin propia)
Marca A Marca B Marca C Marca D
10 18 15 20
11 14 14 19
13 15 12 21
14 16 16 17

Solucin:

10-8
Dr. Hctor Quevedo Uras

1. Primero sacamos los rangos correspondientes, como se ve en la tabla de abajo.


TABLA 10.4. Tabla mostrando los rangos. (Elaboracin propia)
Marca A Rango Marca B Rango Marca C Rango Marca D Rango
10 1 18 13 15 8.5 20 15
11 2 14 6 14 6 19 14
13 4 15 8.5 12 3 21 16
14 6 16 10.5 16 10.5 17 12

2. Enseguida, establecemos la regin crtica unilateral derecha (no hay ms que


esa, por qu?).
2[;k-1] = 2[.05;4-1] = 2[.05;3] = 7.82 (de la tabla de la JI cuadrada)
3. Usando la frmula de Kruskal-Wallis (10-1) y sustituyendo:
N = 16, (R1)2 = (13)2 = 169, (R2)2 = (38)2 = 1444, (R3)2 = (28)2 = 784, (R4)2 =
(57)2 = 3249, n1 = n2 = n3 = n4 = 4, da:
H = 12/16(16+1) [169/4 + 1444/4 + 784/4 + 3249/4] 3(16+1)
= 11.06.
4. Conclusin: Debido a que 11.27 > 7.82 se rechaza la hiptesis de igualdad de
poblaciones, y se dice que si hay diferencias entre los promedios de las
concentraciones de alquitrn en los cigarrillos.
5. El valor de la probabilidad p se saca buscando 11.06, con 3 grados de libertad en
la tabla de la JI cuadrada y est entre .025 y .01. Si se requiere mas precisin se
puede usar la frmula de interpolacin (5-28), es decir, buscando el valor de 11.27.
Los valores interpolados son:
2 = 0.99, 2 = 11.345, 1 = 0.975, 2 = 9.348, H = 11.06
Sustituyendo estos valores en la frmula de interpolacin:
(2 1) / (22 21) = (2 X) / (2 2calc.)
(0.99 0.975)/(11.345 9.348) = (0.99 X)/(11.345 11.06)

10-9
Dr. Hctor Quevedo Uras

Ahora, resolviendo por X da X = .9879. El valor de p es igual a p = 1 - .9879 =


0.01. Este valor de la probabilidad p es significante.
Ejemplo #3. El libro Statistics for Modern Business Decision de Lawrence L.
Lapin, menciona un estudio de qumica analtica, relacionado con las impurezas
que contienen los reactivos qumicos, las cuales pueden interferir en las reacciones
qumicas, es decir, en cuanto a la cantidad de tiempo requerido para que se logre la
reaccin qumica. Los datos se dan en la tabla de abajo.
TABLA 10.5. Tabla mostrando los niveles de impurezas en los reactivos qumicos
en funcin del tiempo para que se haga la reaccin.
Niveles de impurezas
.001 .01 .05 .10
Tiempo de reaccin en minutos
103 104 153 207
111 113 127 183
107 117 143 173
105 120 119
113 138
143
Fuente: Lapin (1982)
(a) Calcular la estadstica H de Kruskal-Wallis.
(b) Usando un nivel de significancia de = 0.05 probar la hiptesis nula de que los
niveles de impurezas en los reactivos qumicos no afectan el tiempo de reaccin.
Hacer esto, usando la prueba de hiptesis tradicional y la prueba de hiptesis no
tradicional.
Solucin:

10-10
Dr. Hctor Quevedo Uras

La tabla de abajo enlista los marcadores y sus rangos correspondientes.


TABLA 10.6 Tabla mostrando los valores de los marcadores en forma ascendente
de los cuatro niveles de impurezas en los reactivos qumicos y el tiempo.
Marcador | 103 104 105 107 111 113 113 117 119 120 127 138 143 143 153 173 183 207

Rango | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 118

TABLA 10.7. Tabla mostrando los cuatro marcadores con sus correspondientes
rangos.
(1) (2) (3) (4)
.001 .01 .05 .10
_______________ ______________ ______________ _______________
Marcador Rango Marcador Rango Marcador Rango Marcador Rango
103 1 104 2 153 15 207 18
111 5 113 6.5* 127 11 183 17
107 4 117 8 143 13.5* 173 16
105 3 120 10 119 9
113 6.5* 138 12
143 13.5*

*Debido a que hay dos 113 y dos 143, entonces el rango correspondiente a 113 es
(6+7)/2 = 6.5 y el rango correspondiente a 143 es (13 + 14)/2 = 13.5
Ahora se procede a sumar los rangos para cada una de las cuatro columnas.
R1 = 13 R2 = 33 R3 = 74 R4 = 51
n1 = 4 n2 = 5 n=6 n=3
La regin crtica derecha se calcula usando la distribucin de JI cuadrada. El valor
de 2; = 20.05;3 = 7.82, es decir, donde = k 1 = 4 1 = 3.
Enseguida sustituyendo los valores de arriba en la ecuacin (10-1)

10-11
Dr. Hctor Quevedo Uras

12 (13)2 (33)2 (74)2 (51)2

[
H = + + + 3(18 + 1) ]
18(18+1) 4 5 6 3

= 0.035 [42.25 + 217.8 + 912.67 + 867.0] - 57


= 0.035(2039.72) 57
= 14.39
Conclusin: debido a que el valor de la estadstica 2 = H = 14.39 es mayor que
7.82 se rechaza la hiptesis nula y se dice que los niveles de impurezas si estn
afectando el tiempo de las reacciones qumicas.
Ahora bien, para hacer la prueba de hiptesis de p o no tradicional, se hace
usando la frmula de interpolacin de abajo:
(2 1) / (22 21) = (2 X) / (22 - 2calc.)
Se busca en la tabla de JI cuadrada el valor de 2calc. = 14.39 con 4 g.l. y est entre
14.86 con valor porcentual de .005 y 13.277 con valor porcentual de .01. Es decir,
con los valores de 2 = .005, 1= .01, 22 = 14.86, 21 = 13.277, y 2calc. = 14.39.
Sustituyendo todos estos valores en la frmula de arriba y resolviendo por X da:
(.005 - .01) / (14.86 13.277) = (.005 X) / (14.86 14.39)
X = 0.0072 = p
Este valor de 0.0072 es mucho muy significante y refrenda la decisin tomada en
afirmar que si hay diferencias entre los niveles de impurezas que retardan las
reacciones qumicas.

10-12
Dr. Hctor Quevedo Uras

Ejercicios Captulo 10

10.1. En un experimento para determinar, cul de tres tipos de motores usaban


menos gasolina, se hizo un estudio tratando de mantener todas las dems variables
constantes. Usar un nivel significante de = 0.05.
(a) Establecer Ho: y H1: y calcular H. (Ho:1 = 2 = 3; H1:1 2 3,
H = 1.66 y se retiene Ho:)
(b) Establecer la regin crtica. (h > 20.05;2 = 5.991)
(c) Usar la prueba no paramtrica de Kruskal-Wallis y probar que no hay
diferencias en el consumo de gasolina de los tres motores, en cuanto al millaje
obtenido. (H = 1.66 y se retiene Ho:)
Tabla mostrando los datos. (Elaboracin propia)

Motor 1 Motor 2 Motor 3

24.0 23.2 18.4


16.7 19.8 19.1
22.8 18.1 17.3
19.8 17.6 17.3
18.9 20.2 19.7
17.8 18.9
18.8
19.3

10.2. La tabla de abajo da las temperaturas de 5 sujetos seleccionados,


aleatoriamente, de tres grupos diferentes. Usando un nivel de significancia de =
0.05 probar que las tres poblaciones de temperaturas son iguales. Calcular p.

10-13
Dr. Hctor Quevedo Uras

Tabla mostrando las temperaturas del cuerpo (oF) clasificadas por edades.
(Elaboracin propia)

18-20 aos 21-29 aos >30 aos

98.0 99.6 98.6


98.4 98.2 98.6
97.7 99.0 97.0
98.5 98.2 97.5
97.1 97.9 97.5

10.3. Un panel de siete expertos fue consultado para calificar a cinco industrias (A,
B, C, D, E) en cuanto a la probabilidad de que cambios tecnolgicos produzcan
mejoras en el control de la contaminacin ambiental, en el curso de los prximos
10 aos. Las calificaciones en se dan en la tabla de abajo.
Tabla mostrando los datos. (Elaboracin propia)

Industrias
_________________________________________________
A B C D E
_________________________________________________
Experto
1 0.15 0.75 0.10 0.00 0.30
2 0.30 0.60 0.20 0.05 0.25
3 0.20 0.80 0.30 0.00 0.50
4 0.00 0.50 0.25 0.10 0.60
5 0.10 0.55 0.15 0.15 0.40
6 0.25 0.70 0.35 0.25 0.45
7 0.40 0.95 0.45 0.20 0.35

(a) Probar con el nivel de significancia de = 0.05, que las poblaciones son
idnticas.
(b) Calcular el valor de la probabilidad p.

10-14
Dr. Hctor Quevedo Uras

10.4. El libro Probabilidad y Estadstica para Ingeniera y Ciencias de Jay L.


Devore (p. 662) proporciona los siguientes datos, los cuales se refieren a la
concentracin del istopo estroncio 90, en muestras de leche obtenidas de 5
lecheras seleccionadas, aleatoriamente, en cada una de cuatro regiones diferentes.
Tabla mostrando los datos de las concentraciones de estroncio en leche.

Regin 1 6.4 5.8 6.5 7.7 6.1


Regin 2 7.1 9.9 11.2 10.5 8.8
Regin 3 5.7 5.9 8.2 6.6 5.1
Regin 4 9.5 12.1 10.3 12.4 11.7
(Fuente: Devore, 2001)

Hacer los siguientes clculos:


(a) Probar con el nivel de significancia de 0.10 para verificar si el promedio de
concentraciones de estroncio 90 difiere, al menos en dos de las regiones.
(b) Calcular el valor de p.
(c) Hacer un anlisis de varianza paramtrico y comparar los resultados.
10.5. Los datos de abajo muestran 4 tratamientos para determinado proceso, en el
cual no se sabe si la poblacin muestreada es normal. Usar la ANOVA paramtrica
y, luego, usar el mtodo no paramtrico de Kruskal-Wallis. Hay suficiente
evidencia, con = 0.05, que nos permita concluir que existen diferencias entre los
4 tratamientos? En ambos casos comparar los resultados y examinar el valor de F y
de p. Cul de los dos mtodos (paramtricos o no paremtricos) sera el ms
preciso, si se supiera que la poblacin muestreada fuera normal?

10-15
Dr. Hctor Quevedo Uras

Datos del problema de arriba. (Elaboracin propia)


Tratamientos
1 2 3 4
12 10 10 9
15 12 8 6
13 11 12 8
18 14 15 7
20 10 13 9
19 11 11 7
15 12 13 6
________________________________________________________________

10-16
Dr. Hctor Quevedo Uras

CAPITULO 11
Series de tiempo
Clasificacin de los movimientos de las series de tiempo.- Tendencias a largo
plazo.- Componentes cclicos de series de tiempo.- Variaciones estacionales.-
Variacin irregular.- Mtodos para encontrar lneas de tendencia.- Lnea de los
cuadrados mnimos y parbolas de los cuadrados mnimos.-
Cualquier variable en funcin del tiempo, en sucesin, se llama series de tiempo. Las
series de tiempo son una secuencia de valores de variables tomadas en periodos de
tiempo sucesivos. La grfica de una serie de tiempo es un diagrama, con el eje vertical
mostrando el valor observado (y) y, con el eje horizontal denotando el tiempo
(minutos, das, aos, etc.).
Las grficas como los histogramas o diagramas de tallo y hoja son mtodos
visuales tiles para mostrar la variacin en los datos. Sin embargo, el tiempo es un
factor muy importante que contribuye a la variacin observada de los datos, que los
histogramas o las grficas de caja no los toman en cuenta.
Las series de tiempo son un conjunto de observaciones tomadas a tiempos
especficos, usualmente, a intervalos iguales en un orden cronolgico. Las series de
tiempo o secuencias de tiempo se definen como datos estadsticos que son
coleccionados, registrados u observados en incrementos de tiempos sucesivos. El
anlisis de los datos de las series de tiempo es de inters para aqullos quienes deseen
entender la naturaleza de los datos pasados y presentes. Tambin, las series de tiempo
son de inters para aquellos investigadores, quienes deseen usar el conocimiento de
datos pasados para predecir el futuro.
Las aplicaciones de las series de tiempo son muy comunes en la economa,
pero tambin en la economa o la ingeniera. Por ejemplo:

11-1
Dr. Hctor Quevedo Uras

1. Los gobiernos de las naciones industrializadas quieren saber los valores futuros de
las tasa de intereses monetarios. Las naciones en desarrollo quieren saber las
tendencias de las tasas de devaluacin de la moneda. Tambin es deseable predecir las
tasas de empleos o de desempleos. Igualmente, es importante saber los porcentajes de
los incrementos de los costos de la vida.
2. Otras aplicaciones de las series de tiempo son los pronsticos de las tasas de inters
para la construccin de viviendas y el costo de los materiales de construccin.
3. Tambin las compaas manufacturadoras quieren pronosticar la demanda de sus
productos y sus acciones en el mercado.
4. En ingeniera ambiental, los activistas y protectores del medio ambiente quieren
saber cules son las tendencias en los aumento de los gases de invernadero, como el
bixido de carbono (ocasionado por la emisiones vehiculares, la industria, fuegos
forestales, etc.) que estn calentando la tierra, fundiendo los glaciares montaosos y
las capas polares y cambiando el clima mundial. Tambin es interesante saber las
tendencias y los aumentos de la radiacin ultravioleta, que tanto dao est causando al
ser humano, por la destruccin del ozono natural estratosfrico, causado por la
irracionalidad del hombre moderno.
5. Las series de tiempo tambin aplican para saber las tendencias y pronsticos de los
incrementos de la poblacin mundial, etc.
Cuando se grafican las mediciones de series de tiempo, a menudo se observan
tendencias, ciclos o variaciones importantes de los datos que, de otra manera, pasaran
inadvertidos.
Definicin: Matemticamente, una serie de tiempo se define por valores Y1, Y2,....... de
una variable Y, como la temperatura, concentraciones de contaminantes, como CO2,
SO2, partculas atmosfricas, etc., a tiempos t1, t2,.... Por lo tanto, Y es una funcin de t

11-2
Dr. Hctor Quevedo Uras

simbolizada por Y = F(t).


Clasificacin de los movimientos de las series de tiempo
Los movimientos caractersticos de las series de tiempo pueden clasificarse en cuatro
tipos llamados componentes de series de tiempo. Estos componentes de las series de
tiempo se describen como sigue:
1. Tendencias a largo plazo o movimientos seculares.
2. Movimientos o fluctuaciones cclicas.
3. Variaciones estacionales o movimientos estacionales.
4. Variaciones o movimientos irregulares o aleatorios.
Tendencias a largo plazo
La tendencia a largo plazo o tendencia secular de una serie de tiempo es el
componente uniforme de las series que representan el crecimiento o decremento de
tiempos, sobre un periodo grande de tiempo. La tendencia secular se refiere a la
direccin general en la cual la grfica de unas series aparecen moverse durante un
intervalo de tiempo. Por ejemplo, la poblacin de los Estados Unidos durante los
ltimos 40 aos ha mostrado una tendencia de crecimiento de 137 millones de
personas a 246 en 1988. Las tendencias a largo plazo se ve en la Figura 11.0(a).
La determinacin de las tendencias de las lneas y de las curvas se puede hacer
usando el mtodo de ajustamiento de curvas. Tambin se puede hacer por medio del
anlisis de los diagramas esparcidos, para encontrar la funcin matemtica que mejor
encaje en los datos.
Componentes cclicos de series de tiempo
Los componentes cclicos se refieren a los movimientos recurrentes de arriba y abajo
de las tendencias de las series de tiempo. Estas fluctuaciones de onda, llamadas ciclos
de los negocios, son diferentes de las fluctuaciones estacionales. Es decir, en el

11-3
Dr. Hctor Quevedo Uras

sentido de que cubren periodos largos de tiempo, tienen causas diferentes y son
menos predecibles. Las fluctuaciones duran de 2 a 10 aos, o ms, cuando se miden
las ondas de cresta a cresta o de canal a canal. Ejemplos de componentes ciclos son
periodos de recesiones econmicas o de periodos de inflacin, demanda de productos
a largo plazo, etc. Esta situacin se ve en la Figura 11.0 (b)
Variaciones estacionales
Este tipo de series de tiempo se refieren a variaciones peridicas, pero no estn
limitadas a variaciones con la estacin del ao. Estos son patrones de periodos en las
series de tiempo que se completan en un ao y, luego se repiten de acuerdo al mismo
patrn de periodo en aos, subsecuentes. Por ejemplo, los precios de los mercados
financieros pueden mostrar tendencias altas o bajas en un da o en una semana.
En estudios ambientales, las fluctuaciones de los contaminantes muestran
tendencias cclicas durante el da, como en el caso del estudio de las concentraciones
de ozono troposferico. Otros ejemplos son la produccin de ciertos productos de
granjas agrcolas, el nmero de vehculos que pasan por cierto punto, entre dos sitios,
etc. La unidad de tiempo en variaciones estacionales es menos que un ao, pero
pueden ser de un mes, una semana, o parte del da. Esta situacin se ve en la Figura
11.0(c).
Variacin irregular
Este es un tipo de variacin que no est considerado por tendencias, ciclos o factores
estacionales, sino que se compone de fuerzas no recurrentes, espordicas que no se
describen como o atribuidas a factores de tendencias, ciclos, o estacionales. Ejemplos
de variaciones irregulares son movimientos espordicos de series de tiempo debido a
inundaciones, granizadas, heladas, tornados, huracanes, sequas, fuegos forestales,
etc.

11-4
Dr. Hctor Quevedo Uras

Adems, las figuras de abajo muestran ejemplos de algunos posibles patrones


de tendencia en series de tiempo. Por ejemplo, la Figura 11.1(a) muestra una
tendencia no lineal. La Figura 11.1(b) muestra una tendencia lineal que disminuye. La
Figura 11.1(c) muestra una grfica sin tendencia.

Figura 11.0. Grficas mostrando los tipos de tendencias. La grfica (a) muestra una
tendencia de lnea a largo plazo o de movimiento secular. La grfica (b) muestra una
lnea de tendencia a largo plazo con un movimiento cclico sobrepuesto. La grfica (c)
muestra tendencias cclicas a largo plazo y movimientos estacionales. (Spiegel, 1961).

Figura 11.1. Ejemplos de algunos patrones de tendencias en series de tiempo.


Aplicaciones de las funciones de series de tiempo
Las aplicaciones en ingeniera de las tendencias a largo plazo o tendencias seculares
son varias. Ejemplos de estas aplicaciones son los incrementos de la contaminacin
ambiental. Un ejemplo clsico es el aumento constante de las concentraciones de
bixido de carbono, gas metano, vapor de agua, etc., a nivel mundial, que han estado
ocurriendo desde el inicio de la era industrial hasta al presente. Esto, como es bien

11-5
Dr. Hctor Quevedo Uras

sabido, est corrompiendo el clima de nuestro planeta, al estarse calentando la tierra y


las aguas marinas.
Otros ejemplos, a los cuales se les pueden aplicar las series de tiempo, son los
incrementos en la radiacin ultravioleta (en sus formas de UV-A y UV-B), que estn
causando cncer en la piel (en sus tres formas, melanoma, basal y escamoso) y daos
en la visin y alteraciones en la estructura del DNA.
Otras aplicaciones de las series de tiempo estn relacionadas con los
crecimientos poblacionales o demogrficos. Otros ms estn relacionados con la
produccin industrial, la produccin de energa, la economa, etc.
Tipos de funciones matemticas para lneas de tendencia
Las ecuaciones o funciones matemticas ms comunes para aproximar los datos
grficos de lneas de tendencia de un diagrama esparcido se dan el la tabla de abajo.
Aqu, las letras a, b y c representan valores constantes y, las letras X e Y, representan
las variables independientes y dependientes, respectivamente.

11-6
Dr. Hctor Quevedo Uras

TABLA 11.0. Tabla mostrando los tipos de funciones matemticas ms comunes


usadas para lneas de tendencia. (Elaboracin propia)

Funcin matemtica Descripcin

(1) y = a + bx Lnea recta


(2) y = f(x) = ax2 + bx + c Curva cuadrtica o parablica
(3) y = ax3 + bx2 + cx + d Curva cbica
(4) y = ax4 + bx3 + cx2 + dx + e Curva curtica
(5) y = a + bx + cx2 + ... + an xn Polinomial generalizado
(6) y = abx o Log y = Log a + (Log b) x Curva exponencial
(7) y = axb o Log y = Log a + b Log x Curva geomtrica
(8) y = 1/a + bx o 1/y = a + bx Funcin hiprbola
(9) y = pqbx o Log y = Log p + bx Log q Curva de Gompertz
(10) y = abx + g Curva exponencial modificada
(11) y = axb + g Curva geomtrica modificada
(12) y = Ln x Funcin logartmica
(13) y = a (a b) exp(-(c)|x|)d Funcin de Weibull
(14) y = a (a b)/(1 + (c|x|)d Funcin de Morgan-Mercer-Floding
(15) y = a(1 + (b 1) exp(-c(x d))1/(1 - b) Funcin de Richards

Para decidir, cul funcin matemtica es la ms apropiada, para ajustar los


datos se puede hacer viendo un diagrama esparcido de la grfica de los datos. Por
ejemplo, si el diagrama esparcido en papel semilogaritmo de Log (y) vs. x muestra
una relacin lineal, la ecuacin tiene la forma de la curva exponencial (6). Si se usa el
papel logaritmo completo, Log y-Log x, y los datos muestran una relacin lineal, la
ecuacin tiene la forma de una curva geomtrica (7). De cualquier manera, los
programas de computadora, como el SAS, Minitab, NCSS, etc., son las mejores
herramientas para encontrar la funcin que mejor ajuste los datos.
Mtodos para encontrar lneas de tendencia
1. El mtodo a mano libre o visual.

11-7
Dr. Hctor Quevedo Uras

2. El mtodo de los cuadrados mnimos.


3. El mtodo de semipromedios.
4. El mtodo de promedios en movimiento.
1. El mtodo a mano libre consiste en ajustar la tendencia de una lnea o curva,
examinando la grfica visualmente. Sin embargo, este mtodo subjetivo depende
mucho del juicio individual.
2. El mtodo de los cuadrados mnimos puede usarse para encontrar la ecuacin de la
tendencia de la curva. Hay muchos programas de computadora que ayudan a esto.
3. El mtodo del promedio del movimiento. Usando los rdenes apropiados del
movimiento de promedios, los patrones cclicos, estacionales o irregulares pueden ser
eliminados dejando, solamente, la tendencia del movimiento.
4. Mtodo de semipromedios. Este mtodo consiste en separar los datos en dos partes
(preferentemente iguales) promediando los datos en cada parte, obteniendo dos
puntos en la grfica de las series de tiempo. Enseguida, una lnea de tendencia se
dibuja obteniendo dos puntos en la grfica de las series de tiempo. Este mtodo es
simple, pero puede dar resultados pobres. Este mtodo es aplicable, solamente,
cuando la tendencia es lineal o aproximadamente lineal.
Mtodo a mano libre para el ajustamiento de curvas
Este es el mtodo ms simple para las series de tiempo. Consiste en graficar las series
de tiempo y, por medio de observacin visual, trazar una lnea recta sobre los puntos.
Una vez hecho esto, se estima la ecuacin de la lnea recta para despus calcular
cualquier valor de Yc sustituyendo el valor de X.
Mtodo de los cuadrados mnimos
Este mtodo es el ms usado y preciso para encontrar la ecuacin de una serie de
tiempo. Considrese la Figura 11.2 de abajo.

11-8
Dr. Hctor Quevedo Uras

Figura 11.2. Grfica mostrando el mtodo de los cuadrados mnimos. Fuente: Spiegel
(1961).
Los puntos de los datos se dan por (X1, Y1), (X2, Y2), ..., (Xn, Yn). Para un valor dado de
X, digamos, X1, habr una diferencia entre el valor Y1 y el valor correspondiente como
se determin de la curva C. Como se ve en la grfica, denotamos esta diferencia por
D1, la cual, en algunas ocasiones se refiere como la desviacin, error o residual y
puede ser positivo, negativo o cero. Similarmente, correspondiendo a los valores de
X1, X2,.. Xn, obtenemos las desviaciones D2, D3, ..., Dn. La medicin de bondad de
ajuste se da por la relacin D21 + D22 + ... + D2n. De esta manera, si la suma de estos
cuadrados D21, D22, D23, etc., es pequea, el ajuste es bueno. Pero, si la suma es
grande, el ajuste es malo, lo cual quiere decir que, el error o residual ser grande,
indicando mucha variacin entre los datos (Spiegel, 1961).
Definicin. De todas las curvas que aproximan un grupo de datos en el sentido de los
cuadrados mnimos, la curva que tiene la propiedad de: D21 + D22 +... + D2n es un
mnimo y se llama la curva que mejor ajusta los datos. Una curva que tenga esta
propiedad se dice que ajusta los datos en el sentido del mejor cuadrado mnimo y se
llama la curva de los cuadrados mnimos. Por lo tanto, una lnea que tenga esta
propiedad se llama la lnea de los cuadrados mnimos, parbola de los cuadrados
mnimos, etc.

11-9
Dr. Hctor Quevedo Uras

Lnea de los cuadrados mnimos y parbolas de los cuadrados mnimos


La lnea de los cuadrados mnimos, que aproxima el conjunto de puntos (X1, Y1), (X2,
Y2), ... (Xn, Yn), ya se discuti en el Captulo 8, donde se habl de regresin y
correlacin simple y mltiple. En ese captulo se describieron modelos de regresin
de una lnea recta. Anlogamente, en el Captulo 9, se describieron modelos
polinomiales, con una o ms de dos variables independientes. Tambin, en ese
captulo se describieron modelos cbicos. Siendo as, entonces, no se repetirn los
mecanismos usados para ajustar los datos a los modelos ms apropiados.
Ejemplos usando las series de tiempo
Ejemplo #1. Se dan los datos de las siguientes concentraciones de bixido de carbono
(CO2) (Y) en funcin del tiempo (X) en la tabla de abajo.
TABLA 11.1. Tabla mostrando los datos de CO2 en funcin del tiempo. (Elaboracin
propia)
Conc. de CO2 (Y) | 1 2 4 4 5 7 8 9 10 11.5
(Millones de toneladas)
Tiempo (X) | 1900 1920 1930 1940 1950 1960 1970 1980 1990 2000

(Aos codificados) | 1 3 4 6 8 9 11 14 15 16

Hacer los siguientes clculos:


(a) Trazar a mano en la grfica obtenida los datos y una lnea recta.
(b) Encontrar la ecuacin de esta lnea.
(c) Usando estadstica encontrar la lnea ajustada de los cuadrados mnimos y
comparar los valores de la pendiente y del intercepto Y encontrados en el inciso (b).
(d) Trazar en la grfica la lnea de la ecuacin encontrada (a).
(e) Usando las ecuaciones encontradas en los incisos (b) y (c), estimar las
concentraciones de CO2 para el ao 2010.
Solucin:

11-10
Dr. Hctor Quevedo Uras

(a) Graficamos los puntos (1,1), (2,3), (4,4), (6,4), (8,5), (9,7), (11,8), (14,9) en un
sistema de coordenadas rectangulares como se muestra en la Figura 11.3 de abajo.
Grfica mostrando las concentraciones de bixido de carbono vs. tiempo
12

10

8
Conc. de CO2 (Y)

0
0 2 4 6 8 10 12 14 16
Tiempo (X)

Figura 11.3. Grfica mostrando las concentraciones de CO2 en funcin del tiempo.
(Elaboracin propia)

(b) Para obtener la ecuacin de la lnea, usamos la grfica de arriba y seleccionamos


cualesquiera de dos puntos sobre la lnea trazada a mano, esto es, como punto P y
punto Q. Enseguida, estimamos las coordenadas de estos dos pares puntos que son (1,
1) y (12, 7.5). Ahora usando la ecuacin de los cuadrados mnimos dada por la
funcin Y = a + b(X) y sustituyendo los valores de Y1 = 1, X1 = 0, Y2 = 7.5 y X2 = 12
nos da:
1.0 = a + b(0)
7.5 = a + b(12)
Resolviendo da
a = 1. 7.5 = 1 + b (12) y b = .542. Por lo tanto, la ecuacin es:
Yc = 1 + .542(X)
Otra forma de hacer lo mismo es con la ecuacin de la forma del punto de la
pendiente de una lnea, Y = Y1 = m(X X1), donde m = (Y2 Y1)/(X2 X1), para dar:
Y Y1 = (Y2 Y1)/(X2 X1) (X X1) (11-1)

11-11
Dr. Hctor Quevedo Uras

Ahora sustituyendo los valores en (11-1) da:


Y 1 = (7.5 1)/(12 0) (X 0), Y 1 = .542 X, esto es
Yc = 1 + .542 (X)
(c) Para encontrar la ecuacin de la lnea recta usamos mtodos estadsticos, es decir,
usando las ecuaciones que estiman el intercepto en Y y la pendiente de la lnea (Ver
captulo de regresin).
( Y)( X 2) ( X)( XY)
a = (11-2)
n X 2 ( X)2

n XY (X)(Y)
b = (11-3)
n X 2 (X)2

Para esto, podemos usar una calculadora de bolsillo o un programa de computadora y


estimamos las siguientes sumatorias:
X = 56, Y = 40, X 2 = 524, Y 2 = 256, (Y)2 = 1600, XY = 364, XY = 2240,
(X)2 = 3136, n = 8.
Ahora, sustituyendo todos estos valores en las ecuaciones (11-2) y (11-3), para a y b
dan los siguientes resultados:
(40)(524) (56)(364)
Intercepto en Y = a = = .545
(8)(524) (56)2

11-12
Dr. Hctor Quevedo Uras

(8)(364) (56)(40)
Pendiente = b = = .636
(8)(524) (56)2

Por lo tanto, la ecuacin de los cuadrados mnimos es:


Yc = .545 + .636(X)
Aqu, se puede ver que esta ecuacin es ms precisa, que la obtenida por medio del
juicio individual.
Ahora, para trazar la lnea en la grfica correspondiente a la ecuacin de arriba,
ponemos Y = 0 y resolvemos por X para dar X = -0.857. Enseguida, ponemos X = 0 y
resolvemos por Y para dar Y = 0.545. Enseguida, usando estos dos pares de
coordenadas, es decir, (0.857, 0) y (0, 0.545) podemos trazar en la grfica una lnea
ms precisa que aqulla hecha a mano.
(e) Usando las ecuaciones Y = 1 + .542(X) e Y = .545 + .636(X), cuando X = 17 (ao
2010), nos da, respectivamente, Y = 10.21 y 11.36, este ltimo valor siendo ms
preciso que el anterior.
Ejemplo #2. Una compaa de programas de computadora reporta la demanda para un
determinado paquete de computadora, sobre un periodo de tres aos. Los datos se dan
en la tabla de abajo:
TABLA 11.2. Tabla mostrando los datos del problema. (Elaboracin propia)

Demanda trimestral (Y) | 37 22 62 80 77 95 94 131 148 155 126 161

Periodos de tiempo (X) | 1 2 3 4 5 6 7 8 9 10 11 12

Hacer los siguientes clculos:


(a) Visualmente ajustar una lnea recta a los datos de la grfica.
(b) Usando mtodos estadsticos estimar la ecuacin lineal de las series de tiempo, es

11-13
Dr. Hctor Quevedo Uras

decir, Yc = a + b(X) Ntese que tambin se puede usar Y en lugar de Yc).


(c) Trazar una lnea recta usando el par de coordenadas derivados de esta ecuacin.
(d) Comparar la lnea hecha a mano con la lnea obtenida en (c).
(e) Predecir el valor de Yc cuando X = 140
Solucin:
(a) La grfica de abajo muestra el diagrama esparcido de los datos.
Grfica mostrando la demanda trimestral vs. periodos de tiempo
180

160

140
Demanda trimestral (Y)

120

100

80

60

40

20
0 2 4 6 8 10 12
Periodos de tiempo (X)

Figura 11.4. Grfica mostrando los datos del ejemplo de arriba. (Elaboracin propia)
(a) Para obtener la ecuacin de la lnea, usamos la grfica de arriba y seleccionamos
cualesquiera de dos puntos sobre la lnea trazada a mano, esto es, como punto P y
punto Q. Enseguida, estimamos las coordenadas de estos pares de puntos que son (1,
1) y (12, 7.5). Ahora, usando la ecuacin de los cuadrados mnimos dada por:
Y = a + b(X) (11-3)
Ahora, sustituyendo todos los valores de Y1 = 1, X2 = 0 y Y2 = 7.5 y X2 = 12, en la
ecuacin (11-3) de arriba, nos da:
1.0 = a + b(0) y 7.5 = a + b(12).
(b) Usando mtodos estadsticos calculamos las sumatorias:
X = 78, X 2 = 650, (X)2/n = 507, Y = 1188, Y 2 = 140774, (Y)2/n = 117,612
Intercepto Y = 20.55, Pendiente = 12.07, R = 0.95.

11-14
Dr. Hctor Quevedo Uras

Por lo tanto, la ecuacin de lineal de las series de tiempo para este problema es:
Yc = 20.55 + 12.07(X)
Para trazar una lnea recta sobre los datos, seleccionamos dos puntos, digamos X = 3 y
X = 9 y resolviendo por Yc en la ecuacin lineal de las series de tiempo, da las
coordenadas (3, 56.76) y (9, 129.18). Ahora, juntamos los puntos de estas dos
coordenadas y trazamos la lnea como se ve en la figura de arriba, la cual muestra la
demanda trimestral (Y) por un periodo de 3 aos (X).
(c) Para predecir el valor de Yc cuando X = 140 los podemos hacer por interpolacin
usando la Figura 11.4 o, simplemente, sustituyendo el valor de X = 140 en la ecuacin
de las series de tiempo, esto es:
Yc = 20.55 + 12.07(X)
= 20.55 + 12.07(140)
= 1,710.35
Ejemplo #3. En un estudio hipottico relacionado con los casos de SIDA, se da la
tabla de abajo. Estimar la funcin ajustada de tendencia usando anlisis de tendencia
con una funcin exponencial.

11-15
Dr. Hctor Quevedo Uras

TABLA 11.3. Tabla mostrando los casos de SIDA de un estudio hipottico.


Aos Nmero hipottico de casos de SIDA
1981 1991 1,200 390,000
1982 1992 6,500 500,000
1983 1993 12,000 900,000
1984 1994 15,000 1,500,000
1985 1995 27,000 2,900,000
1986 1996 50,000 4,000,000
1987 1997 63,000 7,000,000
1988 1998 110,000 10,000,000
1989 1999 170,000 15,000,000
1990 2000 210,000 25,000,000
_____________________________________________________________________________________________

Hacer lo siguiente:
(a) Derivar la ecuacin del modelo propuesto. Con este modelo predecir el nmero de
casos de SIDA para el ao 2008. (El lector lo deber hacer).

No. de casos de SIDA para periodo (1981-2000)


Growth Curve Model
Yt = 2097.90 * (1.60517**t)
30000000 Variable
A ctual
Fits
25000000
A ccuracy Measures
MA PE 2.04662E+01
20000000 MA D 2.83975E+05
Casos de SIDA

MSD 4.13874E+11

15000000

10000000

5000000

2 4 6 8 10 12 14 16 18 20
Index

Figura 11.5. Grfica mostrando la relacin de los casos de SIDA en funcin del
tiempo.

11-16
Dr. Hctor Quevedo Uras

Ejercicios Captulo 11.


11.1. Los datos de abajo muestran los millones de toneladas de bixido de carbono
emitidos a la atmsfera durante los aos de 1950 a 1955 en cierta regin industrial.
Tabla mostrando los datos del problema. (Elaboracin propia)
________________________________________________________________
Aos (X) Codificados Millones de toneladas de CO2 (Y)
1950 (50) 5
1951 (51) 8
1952 (52) 12
1953 (53) 15
1954 (54) 20
1955 (55) 23

Hacer los siguientes clculos:


(a) Graficar los datos del diagrama esparcido.
(b) Trazar una lnea visualmente que mejor conecte los datos y derivar la ecuacin y
estimar la ecuacin por juicio individual.
(c) Estimar la ecuacin de los cuadrados mnimos, es decir, usando mtodos
estadsticos. (Y = 5 + 3.6 X)
(d) Predecir los millones de toneladas de CO2 (el valor de Y) para el ao 2005.
Sugerencia: Para resolver estos problemas usar el programa de computadora Minitab
o SAS.
11.2. Este problema est relacionado con un estudio de contaminacin atmosfrica, de
partculas menores que 10 micras emitidas en cierta regin industrial, durante el
periodo de 1984 a 1999. Los datos de las concentraciones promedio de las partculas
se muestran en la tabla de abajo.
(a) Hacer una grfica con los datos
(b) Usando mtodos estadsticos (no de juicio individual) estimar la ecuacin de la

11-17
Dr. Hctor Quevedo Uras

lnea de las series de tiempo (Yc) y trazar una lnea recta sobre los datos grficos
(c) Estimar las concentraciones promedio de partculas para el ao 2003 por medio de
interpolacin y por medio de la ecuacin.
Tabla mostrando los datos del problema. (Elaboracin propia)
________________________________________________________________
Aos Conc. promedio Aos Conc. promedio
(ppm) (ppm)

1984 (84) 100 1992 (92) 116


1985 (85) 110 1993 (93) 117

1986 (86) 112 1994 (94) 118


1987 (87) 115 1995 (95) 120

1988 (88) 113 1996 (96) 123


1989 (89) 116 1997 (97) 125
1990 (90) 117 1998 (98) 124

1991 (91) 117 1999 (99) 125

11.3. Decir si la grfica de abajo muestra tendencia o estacionalidad.

Ventas

Tiempo

11.4. Qu tipo de tendencia muestra la grfica de abajo, es decir, tendencia o

11-18
Dr. Hctor Quevedo Uras

estacionalidad?

11.5. La grfica de abajo muestra, tendencia o estacionalidad? (tendencia)

Ventas anuales (unidades)

Precio

11-19
Dr. Hctor Quevedo Uras

CAPITULO 11
Series de tiempo
Clasificacin de los movimientos de las series de tiempo.- Tendencias a largo
plazo.- Componentes cclicos de series de tiempo.- Variaciones estacionales.-
Variacin irregular.- Mtodos para encontrar lneas de tendencia.- Lnea de los
cuadrados mnimos y parbolas de los cuadrados mnimos.-
Cualquier variable en funcin del tiempo, en sucesin, se llama series de tiempo. Las
series de tiempo son una secuencia de valores de variables tomadas en periodos de
tiempo sucesivos. La grfica de una serie de tiempo es un diagrama, con el eje vertical
mostrando el valor observado (y) y, con el eje horizontal denotando el tiempo
(minutos, das, aos, etc.).
Las grficas como los histogramas o diagramas de tallo y hoja son mtodos
visuales tiles para mostrar la variacin en los datos. Sin embargo, el tiempo es un
factor muy importante que contribuye a la variacin observada de los datos, que los
histogramas o las grficas de caja no los toman en cuenta.
Las series de tiempo son un conjunto de observaciones tomadas a tiempos
especficos, usualmente, a intervalos iguales en un orden cronolgico. Las series de
tiempo o secuencias de tiempo se definen como datos estadsticos que son
coleccionados, registrados u observados en incrementos de tiempos sucesivos. El
anlisis de los datos de las series de tiempo es de inters para aqullos quienes deseen
entender la naturaleza de los datos pasados y presentes. Tambin, las series de tiempo
son de inters para aquellos investigadores, quienes deseen usar el conocimiento de
datos pasados para predecir el futuro.
Las aplicaciones de las series de tiempo son muy comunes en la economa,
pero tambin en la economa o la ingeniera. Por ejemplo:

11-1
Dr. Hctor Quevedo Uras

1. Los gobiernos de las naciones industrializadas quieren saber los valores futuros de
las tasa de intereses monetarios. Las naciones en desarrollo quieren saber las
tendencias de las tasas de devaluacin de la moneda. Tambin es deseable predecir las
tasas de empleos o de desempleos. Igualmente, es importante saber los porcentajes de
los incrementos de los costos de la vida.
2. Otras aplicaciones de las series de tiempo son los pronsticos de las tasas de inters
para la construccin de viviendas y el costo de los materiales de construccin.
3. Tambin las compaas manufacturadoras quieren pronosticar la demanda de sus
productos y sus acciones en el mercado.
4. En ingeniera ambiental, los activistas y protectores del medio ambiente quieren
saber cules son las tendencias en los aumento de los gases de invernadero, como el
bixido de carbono (ocasionado por la emisiones vehiculares, la industria, fuegos
forestales, etc.) que estn calentando la tierra, fundiendo los glaciares montaosos y
las capas polares y cambiando el clima mundial. Tambin es interesante saber las
tendencias y los aumentos de la radiacin ultravioleta, que tanto dao est causando al
ser humano, por la destruccin del ozono natural estratosfrico, causado por la
irracionalidad del hombre moderno.
5. Las series de tiempo tambin aplican para saber las tendencias y pronsticos de los
incrementos de la poblacin mundial, etc.
Cuando se grafican las mediciones de series de tiempo, a menudo se observan
tendencias, ciclos o variaciones importantes de los datos que, de otra manera, pasaran
inadvertidos.
Definicin: Matemticamente, una serie de tiempo se define por valores Y1, Y2,....... de
una variable Y, como la temperatura, concentraciones de contaminantes, como CO2,
SO2, partculas atmosfricas, etc., a tiempos t1, t2,.... Por lo tanto, Y es una funcin de t

11-2
Dr. Hctor Quevedo Uras

simbolizada por Y = F(t).


Clasificacin de los movimientos de las series de tiempo
Los movimientos caractersticos de las series de tiempo pueden clasificarse en cuatro
tipos llamados componentes de series de tiempo. Estos componentes de las series de
tiempo se describen como sigue:
1. Tendencias a largo plazo o movimientos seculares.
2. Movimientos o fluctuaciones cclicas.
3. Variaciones estacionales o movimientos estacionales.
4. Variaciones o movimientos irregulares o aleatorios.
Tendencias a largo plazo
La tendencia a largo plazo o tendencia secular de una serie de tiempo es el
componente uniforme de las series que representan el crecimiento o decremento de
tiempos, sobre un periodo grande de tiempo. La tendencia secular se refiere a la
direccin general en la cual la grfica de unas series aparecen moverse durante un
intervalo de tiempo. Por ejemplo, la poblacin de los Estados Unidos durante los
ltimos 40 aos ha mostrado una tendencia de crecimiento de 137 millones de
personas a 246 en 1988. Las tendencias a largo plazo se ve en la Figura 11.0(a).
La determinacin de las tendencias de las lneas y de las curvas se puede hacer
usando el mtodo de ajustamiento de curvas. Tambin se puede hacer por medio del
anlisis de los diagramas esparcidos, para encontrar la funcin matemtica que mejor
encaje en los datos.
Componentes cclicos de series de tiempo
Los componentes cclicos se refieren a los movimientos recurrentes de arriba y abajo
de las tendencias de las series de tiempo. Estas fluctuaciones de onda, llamadas ciclos
de los negocios, son diferentes de las fluctuaciones estacionales. Es decir, en el

11-3
Dr. Hctor Quevedo Uras

sentido de que cubren periodos largos de tiempo, tienen causas diferentes y son
menos predecibles. Las fluctuaciones duran de 2 a 10 aos, o ms, cuando se miden
las ondas de cresta a cresta o de canal a canal. Ejemplos de componentes ciclos son
periodos de recesiones econmicas o de periodos de inflacin, demanda de productos
a largo plazo, etc. Esta situacin se ve en la Figura 11.0 (b)
Variaciones estacionales
Este tipo de series de tiempo se refieren a variaciones peridicas, pero no estn
limitadas a variaciones con la estacin del ao. Estos son patrones de periodos en las
series de tiempo que se completan en un ao y, luego se repiten de acuerdo al mismo
patrn de periodo en aos, subsecuentes. Por ejemplo, los precios de los mercados
financieros pueden mostrar tendencias altas o bajas en un da o en una semana.
En estudios ambientales, las fluctuaciones de los contaminantes muestran
tendencias cclicas durante el da, como en el caso del estudio de las concentraciones
de ozono troposferico. Otros ejemplos son la produccin de ciertos productos de
granjas agrcolas, el nmero de vehculos que pasan por cierto punto, entre dos sitios,
etc. La unidad de tiempo en variaciones estacionales es menos que un ao, pero
pueden ser de un mes, una semana, o parte del da. Esta situacin se ve en la Figura
11.0(c).
Variacin irregular
Este es un tipo de variacin que no est considerado por tendencias, ciclos o factores
estacionales, sino que se compone de fuerzas no recurrentes, espordicas que no se
describen como o atribuidas a factores de tendencias, ciclos, o estacionales. Ejemplos
de variaciones irregulares son movimientos espordicos de series de tiempo debido a
inundaciones, granizadas, heladas, tornados, huracanes, sequas, fuegos forestales,
etc.

11-4
Dr. Hctor Quevedo Uras

Adems, las figuras de abajo muestran ejemplos de algunos posibles patrones


de tendencia en series de tiempo. Por ejemplo, la Figura 11.1(a) muestra una
tendencia no lineal. La Figura 11.1(b) muestra una tendencia lineal que disminuye. La
Figura 11.1(c) muestra una grfica sin tendencia.

Figura 11.0. Grficas mostrando los tipos de tendencias. La grfica (a) muestra una
tendencia de lnea a largo plazo o de movimiento secular. La grfica (b) muestra una
lnea de tendencia a largo plazo con un movimiento cclico sobrepuesto. La grfica (c)
muestra tendencias cclicas a largo plazo y movimientos estacionales. (Spiegel, 1961).

Figura 11.1. Ejemplos de algunos patrones de tendencias en series de tiempo.


Aplicaciones de las funciones de series de tiempo
Las aplicaciones en ingeniera de las tendencias a largo plazo o tendencias seculares
son varias. Ejemplos de estas aplicaciones son los incrementos de la contaminacin
ambiental. Un ejemplo clsico es el aumento constante de las concentraciones de
bixido de carbono, gas metano, vapor de agua, etc., a nivel mundial, que han estado
ocurriendo desde el inicio de la era industrial hasta al presente. Esto, como es bien

11-5
Dr. Hctor Quevedo Uras

sabido, est corrompiendo el clima de nuestro planeta, al estarse calentando la tierra y


las aguas marinas.
Otros ejemplos, a los cuales se les pueden aplicar las series de tiempo, son los
incrementos en la radiacin ultravioleta (en sus formas de UV-A y UV-B), que estn
causando cncer en la piel (en sus tres formas, melanoma, basal y escamoso) y daos
en la visin y alteraciones en la estructura del DNA.
Otras aplicaciones de las series de tiempo estn relacionadas con los
crecimientos poblacionales o demogrficos. Otros ms estn relacionados con la
produccin industrial, la produccin de energa, la economa, etc.
Tipos de funciones matemticas para lneas de tendencia
Las ecuaciones o funciones matemticas ms comunes para aproximar los datos
grficos de lneas de tendencia de un diagrama esparcido se dan el la tabla de abajo.
Aqu, las letras a, b y c representan valores constantes y, las letras X e Y, representan
las variables independientes y dependientes, respectivamente.

11-6
Dr. Hctor Quevedo Uras

TABLA 11.0. Tabla mostrando los tipos de funciones matemticas ms comunes


usadas para lneas de tendencia. (Elaboracin propia)

Funcin matemtica Descripcin

(1) y = a + bx Lnea recta


(2) y = f(x) = ax2 + bx + c Curva cuadrtica o parablica
(3) y = ax3 + bx2 + cx + d Curva cbica
(4) y = ax4 + bx3 + cx2 + dx + e Curva curtica
(5) y = a + bx + cx2 + ... + an xn Polinomial generalizado
(6) y = abx o Log y = Log a + (Log b) x Curva exponencial
(7) y = axb o Log y = Log a + b Log x Curva geomtrica
(8) y = 1/a + bx o 1/y = a + bx Funcin hiprbola
(9) y = pqbx o Log y = Log p + bx Log q Curva de Gompertz
(10) y = abx + g Curva exponencial modificada
(11) y = axb + g Curva geomtrica modificada
(12) y = Ln x Funcin logartmica
(13) y = a (a b) exp(-(c)|x|)d Funcin de Weibull
(14) y = a (a b)/(1 + (c|x|)d Funcin de Morgan-Mercer-Floding
(15) y = a(1 + (b 1) exp(-c(x d))1/(1 - b) Funcin de Richards

Para decidir, cul funcin matemtica es la ms apropiada, para ajustar los


datos se puede hacer viendo un diagrama esparcido de la grfica de los datos. Por
ejemplo, si el diagrama esparcido en papel semilogaritmo de Log (y) vs. x muestra
una relacin lineal, la ecuacin tiene la forma de la curva exponencial (6). Si se usa el
papel logaritmo completo, Log y-Log x, y los datos muestran una relacin lineal, la
ecuacin tiene la forma de una curva geomtrica (7). De cualquier manera, los
programas de computadora, como el SAS, Minitab, NCSS, etc., son las mejores
herramientas para encontrar la funcin que mejor ajuste los datos.
Mtodos para encontrar lneas de tendencia
1. El mtodo a mano libre o visual.

11-7
Dr. Hctor Quevedo Uras

2. El mtodo de los cuadrados mnimos.


3. El mtodo de semipromedios.
4. El mtodo de promedios en movimiento.
1. El mtodo a mano libre consiste en ajustar la tendencia de una lnea o curva,
examinando la grfica visualmente. Sin embargo, este mtodo subjetivo depende
mucho del juicio individual.
2. El mtodo de los cuadrados mnimos puede usarse para encontrar la ecuacin de la
tendencia de la curva. Hay muchos programas de computadora que ayudan a esto.
3. El mtodo del promedio del movimiento. Usando los rdenes apropiados del
movimiento de promedios, los patrones cclicos, estacionales o irregulares pueden ser
eliminados dejando, solamente, la tendencia del movimiento.
4. Mtodo de semipromedios. Este mtodo consiste en separar los datos en dos partes
(preferentemente iguales) promediando los datos en cada parte, obteniendo dos
puntos en la grfica de las series de tiempo. Enseguida, una lnea de tendencia se
dibuja obteniendo dos puntos en la grfica de las series de tiempo. Este mtodo es
simple, pero puede dar resultados pobres. Este mtodo es aplicable, solamente,
cuando la tendencia es lineal o aproximadamente lineal.
Mtodo a mano libre para el ajustamiento de curvas
Este es el mtodo ms simple para las series de tiempo. Consiste en graficar las series
de tiempo y, por medio de observacin visual, trazar una lnea recta sobre los puntos.
Una vez hecho esto, se estima la ecuacin de la lnea recta para despus calcular
cualquier valor de Yc sustituyendo el valor de X.
Mtodo de los cuadrados mnimos
Este mtodo es el ms usado y preciso para encontrar la ecuacin de una serie de
tiempo. Considrese la Figura 11.2 de abajo.

11-8
Dr. Hctor Quevedo Uras

Figura 11.2. Grfica mostrando el mtodo de los cuadrados mnimos. Fuente: Spiegel
(1961).
Los puntos de los datos se dan por (X1, Y1), (X2, Y2), ..., (Xn, Yn). Para un valor dado de
X, digamos, X1, habr una diferencia entre el valor Y1 y el valor correspondiente como
se determin de la curva C. Como se ve en la grfica, denotamos esta diferencia por
D1, la cual, en algunas ocasiones se refiere como la desviacin, error o residual y
puede ser positivo, negativo o cero. Similarmente, correspondiendo a los valores de
X1, X2,.. Xn, obtenemos las desviaciones D2, D3, ..., Dn. La medicin de bondad de
ajuste se da por la relacin D21 + D22 + ... + D2n. De esta manera, si la suma de estos
cuadrados D21, D22, D23, etc., es pequea, el ajuste es bueno. Pero, si la suma es
grande, el ajuste es malo, lo cual quiere decir que, el error o residual ser grande,
indicando mucha variacin entre los datos (Spiegel, 1961).
Definicin. De todas las curvas que aproximan un grupo de datos en el sentido de los
cuadrados mnimos, la curva que tiene la propiedad de: D21 + D22 +... + D2n es un
mnimo y se llama la curva que mejor ajusta los datos. Una curva que tenga esta
propiedad se dice que ajusta los datos en el sentido del mejor cuadrado mnimo y se
llama la curva de los cuadrados mnimos. Por lo tanto, una lnea que tenga esta
propiedad se llama la lnea de los cuadrados mnimos, parbola de los cuadrados
mnimos, etc.

11-9
Dr. Hctor Quevedo Uras

Lnea de los cuadrados mnimos y parbolas de los cuadrados mnimos


La lnea de los cuadrados mnimos, que aproxima el conjunto de puntos (X1, Y1), (X2,
Y2), ... (Xn, Yn), ya se discuti en el Captulo 8, donde se habl de regresin y
correlacin simple y mltiple. En ese captulo se describieron modelos de regresin
de una lnea recta. Anlogamente, en el Captulo 9, se describieron modelos
polinomiales, con una o ms de dos variables independientes. Tambin, en ese
captulo se describieron modelos cbicos. Siendo as, entonces, no se repetirn los
mecanismos usados para ajustar los datos a los modelos ms apropiados.
Ejemplos usando las series de tiempo
Ejemplo #1. Se dan los datos de las siguientes concentraciones de bixido de carbono
(CO2) (Y) en funcin del tiempo (X) en la tabla de abajo.
TABLA 11.1. Tabla mostrando los datos de CO2 en funcin del tiempo. (Elaboracin
propia)
Conc. de CO2 (Y) | 1 2 4 4 5 7 8 9 10 11.5
(Millones de toneladas)
Tiempo (X) | 1900 1920 1930 1940 1950 1960 1970 1980 1990 2000

(Aos codificados) | 1 3 4 6 8 9 11 14 15 16

Hacer los siguientes clculos:


(a) Trazar a mano en la grfica obtenida los datos y una lnea recta.
(b) Encontrar la ecuacin de esta lnea.
(c) Usando estadstica encontrar la lnea ajustada de los cuadrados mnimos y
comparar los valores de la pendiente y del intercepto Y encontrados en el inciso (b).
(d) Trazar en la grfica la lnea de la ecuacin encontrada (a).
(e) Usando las ecuaciones encontradas en los incisos (b) y (c), estimar las
concentraciones de CO2 para el ao 2010.
Solucin:

11-10
Dr. Hctor Quevedo Uras

(a) Graficamos los puntos (1,1), (2,3), (4,4), (6,4), (8,5), (9,7), (11,8), (14,9) en un
sistema de coordenadas rectangulares como se muestra en la Figura 11.3 de abajo.
Grfica mostrando las concentraciones de bixido de carbono vs. tiempo
12

10

8
Conc. de CO2 (Y)

0
0 2 4 6 8 10 12 14 16
Tiempo (X)

Figura 11.3. Grfica mostrando las concentraciones de CO2 en funcin del tiempo.
(Elaboracin propia)

(b) Para obtener la ecuacin de la lnea, usamos la grfica de arriba y seleccionamos


cualesquiera de dos puntos sobre la lnea trazada a mano, esto es, como punto P y
punto Q. Enseguida, estimamos las coordenadas de estos dos pares puntos que son (1,
1) y (12, 7.5). Ahora usando la ecuacin de los cuadrados mnimos dada por la
funcin Y = a + b(X) y sustituyendo los valores de Y1 = 1, X1 = 0, Y2 = 7.5 y X2 = 12
nos da:
1.0 = a + b(0)
7.5 = a + b(12)
Resolviendo da
a = 1. 7.5 = 1 + b (12) y b = .542. Por lo tanto, la ecuacin es:
Yc = 1 + .542(X)
Otra forma de hacer lo mismo es con la ecuacin de la forma del punto de la
pendiente de una lnea, Y = Y1 = m(X X1), donde m = (Y2 Y1)/(X2 X1), para dar:
Y Y1 = (Y2 Y1)/(X2 X1) (X X1) (11-1)

11-11
Dr. Hctor Quevedo Uras

Ahora sustituyendo los valores en (11-1) da:


Y 1 = (7.5 1)/(12 0) (X 0), Y 1 = .542 X, esto es
Yc = 1 + .542 (X)
(c) Para encontrar la ecuacin de la lnea recta usamos mtodos estadsticos, es decir,
usando las ecuaciones que estiman el intercepto en Y y la pendiente de la lnea (Ver
captulo de regresin).
( Y)( X 2) ( X)( XY)
a = (11-2)
n X 2 ( X)2

n XY (X)(Y)
b = (11-3)
n X 2 (X)2

Para esto, podemos usar una calculadora de bolsillo o un programa de computadora y


estimamos las siguientes sumatorias:
X = 56, Y = 40, X 2 = 524, Y 2 = 256, (Y)2 = 1600, XY = 364, XY = 2240,
(X)2 = 3136, n = 8.
Ahora, sustituyendo todos estos valores en las ecuaciones (11-2) y (11-3), para a y b
dan los siguientes resultados:
(40)(524) (56)(364)
Intercepto en Y = a = = .545
(8)(524) (56)2

11-12
Dr. Hctor Quevedo Uras

(8)(364) (56)(40)
Pendiente = b = = .636
(8)(524) (56)2

Por lo tanto, la ecuacin de los cuadrados mnimos es:


Yc = .545 + .636(X)
Aqu, se puede ver que esta ecuacin es ms precisa, que la obtenida por medio del
juicio individual.
Ahora, para trazar la lnea en la grfica correspondiente a la ecuacin de arriba,
ponemos Y = 0 y resolvemos por X para dar X = -0.857. Enseguida, ponemos X = 0 y
resolvemos por Y para dar Y = 0.545. Enseguida, usando estos dos pares de
coordenadas, es decir, (0.857, 0) y (0, 0.545) podemos trazar en la grfica una lnea
ms precisa que aqulla hecha a mano.
(e) Usando las ecuaciones Y = 1 + .542(X) e Y = .545 + .636(X), cuando X = 17 (ao
2010), nos da, respectivamente, Y = 10.21 y 11.36, este ltimo valor siendo ms
preciso que el anterior.
Ejemplo #2. Una compaa de programas de computadora reporta la demanda para un
determinado paquete de computadora, sobre un periodo de tres aos. Los datos se dan
en la tabla de abajo:
TABLA 11.2. Tabla mostrando los datos del problema. (Elaboracin propia)

Demanda trimestral (Y) | 37 22 62 80 77 95 94 131 148 155 126 161

Periodos de tiempo (X) | 1 2 3 4 5 6 7 8 9 10 11 12

Hacer los siguientes clculos:


(a) Visualmente ajustar una lnea recta a los datos de la grfica.
(b) Usando mtodos estadsticos estimar la ecuacin lineal de las series de tiempo, es

11-13
Dr. Hctor Quevedo Uras

decir, Yc = a + b(X) Ntese que tambin se puede usar Y en lugar de Yc).


(c) Trazar una lnea recta usando el par de coordenadas derivados de esta ecuacin.
(d) Comparar la lnea hecha a mano con la lnea obtenida en (c).
(e) Predecir el valor de Yc cuando X = 140
Solucin:
(a) La grfica de abajo muestra el diagrama esparcido de los datos.
Grfica mostrando la demanda trimestral vs. periodos de tiempo
180

160

140
Demanda trimestral (Y)

120

100

80

60

40

20
0 2 4 6 8 10 12
Periodos de tiempo (X)

Figura 11.4. Grfica mostrando los datos del ejemplo de arriba. (Elaboracin propia)
(a) Para obtener la ecuacin de la lnea, usamos la grfica de arriba y seleccionamos
cualesquiera de dos puntos sobre la lnea trazada a mano, esto es, como punto P y
punto Q. Enseguida, estimamos las coordenadas de estos pares de puntos que son (1,
1) y (12, 7.5). Ahora, usando la ecuacin de los cuadrados mnimos dada por:
Y = a + b(X) (11-3)
Ahora, sustituyendo todos los valores de Y1 = 1, X2 = 0 y Y2 = 7.5 y X2 = 12, en la
ecuacin (11-3) de arriba, nos da:
1.0 = a + b(0) y 7.5 = a + b(12).
(b) Usando mtodos estadsticos calculamos las sumatorias:
X = 78, X 2 = 650, (X)2/n = 507, Y = 1188, Y 2 = 140774, (Y)2/n = 117,612
Intercepto Y = 20.55, Pendiente = 12.07, R = 0.95.

11-14
Dr. Hctor Quevedo Uras

Por lo tanto, la ecuacin de lineal de las series de tiempo para este problema es:
Yc = 20.55 + 12.07(X)
Para trazar una lnea recta sobre los datos, seleccionamos dos puntos, digamos X = 3 y
X = 9 y resolviendo por Yc en la ecuacin lineal de las series de tiempo, da las
coordenadas (3, 56.76) y (9, 129.18). Ahora, juntamos los puntos de estas dos
coordenadas y trazamos la lnea como se ve en la figura de arriba, la cual muestra la
demanda trimestral (Y) por un periodo de 3 aos (X).
(c) Para predecir el valor de Yc cuando X = 140 los podemos hacer por interpolacin
usando la Figura 11.4 o, simplemente, sustituyendo el valor de X = 140 en la ecuacin
de las series de tiempo, esto es:
Yc = 20.55 + 12.07(X)
= 20.55 + 12.07(140)
= 1,710.35
Ejemplo #3. En un estudio hipottico relacionado con los casos de SIDA, se da la
tabla de abajo. Estimar la funcin ajustada de tendencia usando anlisis de tendencia
con una funcin exponencial.

11-15
Dr. Hctor Quevedo Uras

TABLA 11.3. Tabla mostrando los casos de SIDA de un estudio hipottico.


Aos Nmero hipottico de casos de SIDA
1981 1991 1,200 390,000
1982 1992 6,500 500,000
1983 1993 12,000 900,000
1984 1994 15,000 1,500,000
1985 1995 27,000 2,900,000
1986 1996 50,000 4,000,000
1987 1997 63,000 7,000,000
1988 1998 110,000 10,000,000
1989 1999 170,000 15,000,000
1990 2000 210,000 25,000,000
_____________________________________________________________________________________________

Hacer lo siguiente:
(a) Derivar la ecuacin del modelo propuesto. Con este modelo predecir el nmero de
casos de SIDA para el ao 2008. (El lector lo deber hacer).

No. de casos de SIDA para periodo (1981-2000)


Growth Curve Model
Yt = 2097.90 * (1.60517**t)
30000000 Variable
A ctual
Fits
25000000
A ccuracy Measures
MA PE 2.04662E+01
20000000 MA D 2.83975E+05
Casos de SIDA

MSD 4.13874E+11

15000000

10000000

5000000

2 4 6 8 10 12 14 16 18 20
Index

Figura 11.5. Grfica mostrando la relacin de los casos de SIDA en funcin del
tiempo.

11-16
Dr. Hctor Quevedo Uras

Ejercicios Captulo 11.


11.1. Los datos de abajo muestran los millones de toneladas de bixido de carbono
emitidos a la atmsfera durante los aos de 1950 a 1955 en cierta regin industrial.
Tabla mostrando los datos del problema. (Elaboracin propia)
________________________________________________________________
Aos (X) Codificados Millones de toneladas de CO2 (Y)
1950 (50) 5
1951 (51) 8
1952 (52) 12
1953 (53) 15
1954 (54) 20
1955 (55) 23

Hacer los siguientes clculos:


(a) Graficar los datos del diagrama esparcido.
(b) Trazar una lnea visualmente que mejor conecte los datos y derivar la ecuacin y
estimar la ecuacin por juicio individual.
(c) Estimar la ecuacin de los cuadrados mnimos, es decir, usando mtodos
estadsticos. (Y = 5 + 3.6 X)
(d) Predecir los millones de toneladas de CO2 (el valor de Y) para el ao 2005.
Sugerencia: Para resolver estos problemas usar el programa de computadora Minitab
o SAS.
11.2. Este problema est relacionado con un estudio de contaminacin atmosfrica, de
partculas menores que 10 micras emitidas en cierta regin industrial, durante el
periodo de 1984 a 1999. Los datos de las concentraciones promedio de las partculas
se muestran en la tabla de abajo.
(a) Hacer una grfica con los datos
(b) Usando mtodos estadsticos (no de juicio individual) estimar la ecuacin de la

11-17
Dr. Hctor Quevedo Uras

lnea de las series de tiempo (Yc) y trazar una lnea recta sobre los datos grficos
(c) Estimar las concentraciones promedio de partculas para el ao 2003 por medio de
interpolacin y por medio de la ecuacin.
Tabla mostrando los datos del problema. (Elaboracin propia)
________________________________________________________________
Aos Conc. promedio Aos Conc. promedio
(ppm) (ppm)

1984 (84) 100 1992 (92) 116


1985 (85) 110 1993 (93) 117

1986 (86) 112 1994 (94) 118


1987 (87) 115 1995 (95) 120

1988 (88) 113 1996 (96) 123


1989 (89) 116 1997 (97) 125
1990 (90) 117 1998 (98) 124

1991 (91) 117 1999 (99) 125

11.3. Decir si la grfica de abajo muestra tendencia o estacionalidad.

Ventas

Tiempo

11.4. Qu tipo de tendencia muestra la grfica de abajo, es decir, tendencia o

11-18
Dr. Hctor Quevedo Uras

estacionalidad?

11.5. La grfica de abajo muestra, tendencia o estacionalidad? (tendencia)

Ventas anuales (unidades)

Precio

11-19
Dr. Hctor Quevedo Uras

CAPITULO 12
Seleccin del tamao de la muestra
Derivacin de la frmula para estimar el tamao ms apropiado de la
muestra para el promedio.- Seleccin del tamao de la muestra para dos
poblaciones.-

En estudios de diseos experimentales estadsticos es necesario estimar el tamao


de la muestra ms apropiado para la estimacin de promedios, proporciones, etc.
La seleccin ms apropiada del tamao de la muestra es importante, porque no
queremos sacar un tamao de muestra excesivamente grande, que va a ser muy
costoso. Por la misma razn, tampoco queremos sacar un tamao de muestra
pequeo, que nos incline a aceptar hiptesis nulas, es decir, de cometer el error II.
De esta manera, el tamao apropiado de la muestra es importante, porque tamaos
de muestras innecesariamente grandes son costosos y desperdician dinero y tiempo
y, tambin, porque tamaos de muestras pequeos dan resultados pobres.
Existen varias funciones estadsticas para determinar el tamao ms
apropiado de la muestra estadstica, es decir, para estimar el promedio poblacional
, la varianza 2, la desviacin estndar , la proporcin , etc. Para estimar estos
parmetros usamos la distribucin normal, pero es necesario saber si la poblacin
muestreada es normal o aproximadamente normal. Esto se hace para las pruebas de
hiptesis usando los niveles de significancia de 0.05 y 0.01, que dan los
coeficientes crticos de 1.96 y 2.58, es decir, correspondientes a los niveles de
confianza de 95% y 99%.
En situaciones donde puede controlarse el tamao de la muestra es posible
elegir un tamao de muestra n, de modo que se tenga una confianza del 100(1 )

12-1
Dr. Hctor Quevedo Uras

por ciento de que el error, al estimar, digamos , sea menor que el error
especificado E, esto es, lo que queremos arriesgar.
En la determinacin del tamao de la muestra en un experimento estadstico
tenemos que saber dos cosas:
1. Qu tan cerca deseamos que nuestra estimacin est del verdadero valor del
parmetro poblacional.
2. Qu tanta certeza deseamos que nuestra estimacin est dentro del nmero de
unidades seleccionadas del valor del parmetro.
Derivacin de la frmula para estimar el tamao ms apropiado de la
muestra para el promedio
Para derivar la frmula para estimar el tamao ptimo de la muestra, usamos la
distribucin de la estadstica del promedio X . Por ejemplo, sabemos qu, de la
distribucin del promedio X mostrada abajo, el intervalo 2X contiene,
aproximadamente, el 95% de los valores de la estadstica del promedio X .

Figura 12.0. Grfica mostrando la distribucin de la estadstica del promedio.


(Elaboracin propia)
Acordemente, si deseamos estar, a no ms de E unidades de con nuestro

12-2
Dr. Hctor Quevedo Uras

estimador estadstico del promedio X , entonces, dejamos que E = 2X esto es,


E = 2 / n (12-1)
Ahora, resolviendo por n da:
n = 42 / E2 (12-2)
Esta funcin (12-2) tiene un coeficiente de confianza de (1 ) = 0.9544. Si
queremos un coeficiente de confianza de (1 ), entonces, se deja que:
z/2 X = E o bien z/2 /n = E (12-3)
Que resulta en la frmula:
n = z/2 2/E2 (12-4)
= (z/2 /E)2 (12-5)
Donde:
z/2 = valor de la distribucin normal estndar de tal manera que, P(Z z/2) = /2.
Aqu, usualmente, los valores crticos de
z/2 son de 1.97 y 2.58, = desviacin estndar poblacional.
E = error mximo de la estimacin
De acuerdo a la ecuacin anterior, el error E es dado por:
E = z/2(n) (12-6)
Para poder usar la frmula (12-4) necesitamos conocer (1 ), E y . Si el
tamao de la muestra es n 30 casos o si la poblacin muestreada es normal,
entonces, se puede aproximar a s.
Definicin: Si el promedio X se usa como estimacin de , entonces, puede
tenerse una confianza del 100(1 ) por ciento de que el error | X | no ser
mayor que una cantidad especfica E cuando el tamao de la muestra sea
n = (z/2 / E)2. Esta funcin puede ser usada para determinar el tamao de

12-3
Dr. Hctor Quevedo Uras

muestra necesario, para producir buenos resultados a un grado de confianza


deseado y margen de error. No obstante, esta frmula requiere de los valores de o
de 2. Estos valores se pueden conocer de estudios previos o pueden ser
razonablemente, estimados de estudios anteriores o estudios pilotos.
Ejemplos ilustrando la determinacin del tamao de muestra ms apropiado
para el promedio X
Ejemplo #1. Un consultor estadstico intenta usar el promedio de una muestra
aleatoria de tamao n = 150, para estimar la aptitud mecnica promedio (promedio
mediante cierta prueba) de obreros de la lnea de montaje de una industria. Si con
base en la experiencia, el estadstico puede suponer que = 6.2, entonces, para
estos datos, qu puede afirmar este consultor, con probabilidad de 0.99, acerca de
la dimensin mxima del error E?
Solucin:
Para estimar E usamos n = 150, = 6.2, z/2 = z0.01/2 = 2.575.
Usando la frmula (12-5) y sustituyendo da:
E = z/2 (/n)
= 2.575(6.2/150)
= 1.30
Con este resultado, el estadstico puede afirmar, con un nivel de confianza de 99%
(o con una probabilidad de 0.99), que su error ser cuando ms de 1.30.
Ejemplo #2. Refirindose al problema anterior, supongamos ahora que el consultor
estadstico desea un nivel de confianza del 95%, siendo as, cul sera la magnitud
del error, E?
Solucin:
Usando, nuevamente, la frmula (12-6), con z/2 = z0.05/2 = z.025 = 1.96
12-4
Dr. Hctor Quevedo Uras

E = 1.96(6.2/150) = 0.992
Aqu, ntese que debido a que queremos menos precisin (usando el nivel de
confianza de 95%) el error es ms pequeo que si usamos el nivel de confianza de
99%. Tambin es de notarse que, a medida que el tamao de n se hace ms grande,
el error E disminuye.
Ejemplo #3. En un estudio de qumica, en un artculo publicado en el Journal of
Heat Transfer, se describe un nuevo mtodo para medir la conductividad trmica
del hierro Armco. Supngase que se desea que el error promedio en la
conductividad trmica del hierro Armco sea menor que 0.05 Btu/hr-ft-oF, con un
nivel de confianza del 95%. Entonces, si de estudios previos se sabe que la
desviacin estndar es de = 0.10, estimar el tamao de muestra requerido.
Solucin:
Aqu, z/2 = z0.05/2 = z0.025 = 1.96, = 0.10, E 0.05.
Usando la ecuacin (12-4): n = (z/2 / E)2 y sustituyendo estos valores nos da:
n = [(1.96)(0.10) / 0.05)]2
= 15.37 16
Nota 1. Siempre queremos redondear el tamao de la muestra de manera que, el
nmero requerido en la muestra sea cuando menos adecuado, en lugar de un poco
adecuado. Esto es un convencionalismo.
Ejemplo #4. En un estudio de recoleccin de basura desechada por el sector
domstico, es decir, del salvamento de basura reciclable, queremos estimar el
promedio del plstico desechado por las casas. Qu tamao de muestra de casas
debe ser seleccionado, aleatoriamente, si queremos estar seguros, en 99%, que el
promedio muestral est dentro de 0.250 kilogramos del verdadero promedio
poblacional ? Asumir que estudios pilotos dan una desviacin estndar conocida
12-5
Dr. Hctor Quevedo Uras

de = 1.100 kilogramos.
Solucin:
Queremos un tamao de muestra n, dado que = 0.01 (99% de nivel de confianza)
de manera que, z/2 = z0.01/2 = 2.575 (valor constante de la tabla de la distribucin
normal con 99% nivel de confianza). Adems, E = 0.250, = 1.100. As, usando la
frmula (12-5) nos da:
n = (z/2 / E)2
= [(2.575)(1.100) / (0.250)]2
= 128.37
129
En conclusin, debemos de obtener una muestra, de cuando menos 129 casas
domsticas seleccionadas aleatoriamente (que estn descartando el plstico). Con
semejante muestra, estaremos confiados en un 99% de que el promedio muestral
X estar dentro de 0.250 kilos de .

Ejemplo #5. Refirindose al ejemplo anterior, si quisiramos tener resultados


menos precisos usando un margen de error de 0.500 kilos, calcular el tamao de la
muestra n asumiendo las mismas condiciones anteriores.
Solucin:
Usando la frmula (12-4) obtenemos:
n = [(2.575)(1.100) / (0.500)]2
= 32.09
33
Se observan los siguientes puntos en la relacin general entre el tamao de la
muestra, la longitud deseada del intervalo 2E, el nivel de confianza 100(1 ) por
ciento y :
12-6
Dr. Hctor Quevedo Uras

1. Conforme disminuye la longitud del intervalo 2E, el tamao requerido de la


muestra n aumenta para un valor fijo de y para el nivel de confianza
especificado.
2. A medida que aumenta, el tamao requerido de la muestra n aumenta, para una
longitud deseada 2E fija y un nivel de confianza especificado.
3. Conforme aumenta el nivel de confianza, el tamao requerido de la muestra n
aumenta para una longitud fija deseada 2E y una desviacin estndar .
Seleccin del tamao de la muestra para dos poblaciones
Tambin se puede seleccionar el tamao de la muestra, ms apropiado, para la
diferencia de dos promedios. Por ejemplo, si se conocen las desviaciones estndar
de las muestras uno y dos, es decir, 1 y 2, y los tamaos de las dos muestras son
iguales, es decir, n1 = n2 = n, entonces, puede determinarse el tamao ms
apropiado de la muestra. Esto se hace de modo que se tenga una confianza de
100(1 ) por ciento en que el error E en la estimacin de la diferencia de 1 2,
por los promedios de las muestras X 1 X 2 sea menor que E.
La ecuacin usada para calcular el tamao de la muestra ms apropiado para
la diferencia de dos poblaciones es:
n = (z/2 / E)2 (21 + 22) (12-7)
Nota 1. Recurdese que es necesario redondear n, si este valor no es un entero. Con
esto, se asegura que el nivel de confianza no sea menor que 100(1 ) por ciento.
Ejemplo #6. Se prueban dos frmulas diferentes de gasolina oxigenada para
reducir las emisiones de monxido de carbono (CO) emitidas por los motores de
combustin interna. Se sabe de antemano que la varianza para la primera frmula
es de 21 = 1.5, mientras que la varianza para la segunda frmula es de 22 = 1.2.
Qu tamao de muestra debe usarse para cada poblacin muestreada, si se desea
12-7
Dr. Hctor Quevedo Uras

tener una confianza del 95% de que el error, al estimar la diferencia entre los
promedios de las dos frmulas diferentes, sea menor que 1?
Solucin:
Aqu, usamos la frmula (12-7) para calcular el tamao de la muestra de dos
poblaciones, es decir,
n = (z/2 / E)2 (21 + 22)
Donde:
z/2 = z0.05/2 = z.025 = 1.97, E = 1, 21 = 1.5, 22 = 1.2
Sustituyendo estos valores en la frmula de arriba da:
n = (1.95 / 1)2 (1.5 + 1.2)
= 10.27 11
Por lo tanto, el tamao de la muestra para las poblaciones 1 y 2 es:
n = n1 = n2 = 11

12-8
Dr. Hctor Quevedo Uras

Ejercicios Captulo 12
12.1. Se sabe que la duracin, en horas, de un foco de 75 watts tiene una
distribucin, aproximadamente normal, con una desviacin estndar de 25 horas.
Supngase que se desea una confianza del 95% en que el error en la estimacin de
la duracin promedio sea menor que 5 horas. Qu tamao de muestra debe
usarse? ( 97)
12.2. Hacer el mismo problema que el anterior, pero ahora usando una confianza
de 99% y un error E = 1 y comparar los resultados.
12.3. Un ingeniero automotriz desea determinar el tiempo promedio que tardara
un mecnico en girar las llantas de un auto. Este ingeniero quiere estimar, con una
confianza de 95%, que el promedio de su muestra es imprecisa en cuando ms 0.50
minutos. Si sabe de estudios pilotos anteriores que la desviacin estndar es de =
1.6 minutos, qu tan grande deber ser la muestra que debe de seleccionar,
aleatoriamente? Sugerencia: Usar la frmula n = (z/2 /E)2 (39.3 40 mecnicos)
12.4. El director de cierta universidad desea usar el promedio de una muestra
aleatoria para estimar el monto promedio de tiempo que se les lleva a los
estudiantes para ir de un saln a otro y tomar sus clases sin llegar tarde. Para esto
desea afirmar con 99% de confianza que el error es cuando ms de 0.25 minutos.
Experiencias anteriores estiman una desviacin estndar de = 1.40 minutos.
Siendo as, qu tan grande deber ser la muestra que se deba tomar?
12.5. La Environmental Protection Agency (EPA) de los Estados Unidos desea
conducir una prueba de millaje de cierto modelo de un auto importado. El
ingeniero estadstico de la EPA desea estimar el promedio , de millas por galn
de combustible usado por este modelo, con 95% de nivel de confianza. Asumiendo

12-9
Dr. Hctor Quevedo Uras

que = 2.5 millas por galn, qu tamao de muestra (nmero de autos de este
modelo) deber tomar para conducir esta prueba? (n = 25)
12.6. Considerar el ejemplo 12.1 de la gasolina oxigenada, para la estimacin del
tamao de las muestras para las poblaciones uno y dos. Siendo as, estimar los
tamaos de las muestras apropiados, si queremos una confianza de 99% y el error
de la estimacin de las diferencias entre los promedios sea menor que 4.

12-10
Dr. Hctor Quevedo Uras

CAPITULO 12
Seleccin del tamao de la muestra
Derivacin de la frmula para estimar el tamao ms apropiado de la
muestra para el promedio.- Seleccin del tamao de la muestra para dos
poblaciones.-

En estudios de diseos experimentales estadsticos es necesario estimar el tamao


de la muestra ms apropiado para la estimacin de promedios, proporciones, etc.
La seleccin ms apropiada del tamao de la muestra es importante, porque no
queremos sacar un tamao de muestra excesivamente grande, que va a ser muy
costoso. Por la misma razn, tampoco queremos sacar un tamao de muestra
pequeo, que nos incline a aceptar hiptesis nulas, es decir, de cometer el error II.
De esta manera, el tamao apropiado de la muestra es importante, porque tamaos
de muestras innecesariamente grandes son costosos y desperdician dinero y tiempo
y, tambin, porque tamaos de muestras pequeos dan resultados pobres.
Existen varias funciones estadsticas para determinar el tamao ms
apropiado de la muestra estadstica, es decir, para estimar el promedio poblacional
, la varianza 2, la desviacin estndar , la proporcin , etc. Para estimar estos
parmetros usamos la distribucin normal, pero es necesario saber si la poblacin
muestreada es normal o aproximadamente normal. Esto se hace para las pruebas de
hiptesis usando los niveles de significancia de 0.05 y 0.01, que dan los
coeficientes crticos de 1.96 y 2.58, es decir, correspondientes a los niveles de
confianza de 95% y 99%.
En situaciones donde puede controlarse el tamao de la muestra es posible
elegir un tamao de muestra n, de modo que se tenga una confianza del 100(1 )

12-1
Dr. Hctor Quevedo Uras

por ciento de que el error, al estimar, digamos , sea menor que el error
especificado E, esto es, lo que queremos arriesgar.
En la determinacin del tamao de la muestra en un experimento estadstico
tenemos que saber dos cosas:
1. Qu tan cerca deseamos que nuestra estimacin est del verdadero valor del
parmetro poblacional.
2. Qu tanta certeza deseamos que nuestra estimacin est dentro del nmero de
unidades seleccionadas del valor del parmetro.
Derivacin de la frmula para estimar el tamao ms apropiado de la
muestra para el promedio
Para derivar la frmula para estimar el tamao ptimo de la muestra, usamos la
distribucin de la estadstica del promedio X . Por ejemplo, sabemos qu, de la
distribucin del promedio X mostrada abajo, el intervalo 2X contiene,
aproximadamente, el 95% de los valores de la estadstica del promedio X .

Figura 12.0. Grfica mostrando la distribucin de la estadstica del promedio.


(Elaboracin propia)
Acordemente, si deseamos estar, a no ms de E unidades de con nuestro

12-2
Dr. Hctor Quevedo Uras

estimador estadstico del promedio X , entonces, dejamos que E = 2X esto es,


E = 2 / n (12-1)
Ahora, resolviendo por n da:
n = 42 / E2 (12-2)
Esta funcin (12-2) tiene un coeficiente de confianza de (1 ) = 0.9544. Si
queremos un coeficiente de confianza de (1 ), entonces, se deja que:
z/2 X = E o bien z/2 /n = E (12-3)
Que resulta en la frmula:
n = z/2 2/E2 (12-4)
= (z/2 /E)2 (12-5)
Donde:
z/2 = valor de la distribucin normal estndar de tal manera que, P(Z z/2) = /2.
Aqu, usualmente, los valores crticos de
z/2 son de 1.97 y 2.58, = desviacin estndar poblacional.
E = error mximo de la estimacin
De acuerdo a la ecuacin anterior, el error E es dado por:
E = z/2(n) (12-6)
Para poder usar la frmula (12-4) necesitamos conocer (1 ), E y . Si el
tamao de la muestra es n 30 casos o si la poblacin muestreada es normal,
entonces, se puede aproximar a s.
Definicin: Si el promedio X se usa como estimacin de , entonces, puede
tenerse una confianza del 100(1 ) por ciento de que el error | X | no ser
mayor que una cantidad especfica E cuando el tamao de la muestra sea
n = (z/2 / E)2. Esta funcin puede ser usada para determinar el tamao de

12-3
Dr. Hctor Quevedo Uras

muestra necesario, para producir buenos resultados a un grado de confianza


deseado y margen de error. No obstante, esta frmula requiere de los valores de o
de 2. Estos valores se pueden conocer de estudios previos o pueden ser
razonablemente, estimados de estudios anteriores o estudios pilotos.
Ejemplos ilustrando la determinacin del tamao de muestra ms apropiado
para el promedio X
Ejemplo #1. Un consultor estadstico intenta usar el promedio de una muestra
aleatoria de tamao n = 150, para estimar la aptitud mecnica promedio (promedio
mediante cierta prueba) de obreros de la lnea de montaje de una industria. Si con
base en la experiencia, el estadstico puede suponer que = 6.2, entonces, para
estos datos, qu puede afirmar este consultor, con probabilidad de 0.99, acerca de
la dimensin mxima del error E?
Solucin:
Para estimar E usamos n = 150, = 6.2, z/2 = z0.01/2 = 2.575.
Usando la frmula (12-5) y sustituyendo da:
E = z/2 (/n)
= 2.575(6.2/150)
= 1.30
Con este resultado, el estadstico puede afirmar, con un nivel de confianza de 99%
(o con una probabilidad de 0.99), que su error ser cuando ms de 1.30.
Ejemplo #2. Refirindose al problema anterior, supongamos ahora que el consultor
estadstico desea un nivel de confianza del 95%, siendo as, cul sera la magnitud
del error, E?
Solucin:
Usando, nuevamente, la frmula (12-6), con z/2 = z0.05/2 = z.025 = 1.96
12-4
Dr. Hctor Quevedo Uras

E = 1.96(6.2/150) = 0.992
Aqu, ntese que debido a que queremos menos precisin (usando el nivel de
confianza de 95%) el error es ms pequeo que si usamos el nivel de confianza de
99%. Tambin es de notarse que, a medida que el tamao de n se hace ms grande,
el error E disminuye.
Ejemplo #3. En un estudio de qumica, en un artculo publicado en el Journal of
Heat Transfer, se describe un nuevo mtodo para medir la conductividad trmica
del hierro Armco. Supngase que se desea que el error promedio en la
conductividad trmica del hierro Armco sea menor que 0.05 Btu/hr-ft-oF, con un
nivel de confianza del 95%. Entonces, si de estudios previos se sabe que la
desviacin estndar es de = 0.10, estimar el tamao de muestra requerido.
Solucin:
Aqu, z/2 = z0.05/2 = z0.025 = 1.96, = 0.10, E 0.05.
Usando la ecuacin (12-4): n = (z/2 / E)2 y sustituyendo estos valores nos da:
n = [(1.96)(0.10) / 0.05)]2
= 15.37 16
Nota 1. Siempre queremos redondear el tamao de la muestra de manera que, el
nmero requerido en la muestra sea cuando menos adecuado, en lugar de un poco
adecuado. Esto es un convencionalismo.
Ejemplo #4. En un estudio de recoleccin de basura desechada por el sector
domstico, es decir, del salvamento de basura reciclable, queremos estimar el
promedio del plstico desechado por las casas. Qu tamao de muestra de casas
debe ser seleccionado, aleatoriamente, si queremos estar seguros, en 99%, que el
promedio muestral est dentro de 0.250 kilogramos del verdadero promedio
poblacional ? Asumir que estudios pilotos dan una desviacin estndar conocida
12-5
Dr. Hctor Quevedo Uras

de = 1.100 kilogramos.
Solucin:
Queremos un tamao de muestra n, dado que = 0.01 (99% de nivel de confianza)
de manera que, z/2 = z0.01/2 = 2.575 (valor constante de la tabla de la distribucin
normal con 99% nivel de confianza). Adems, E = 0.250, = 1.100. As, usando la
frmula (12-5) nos da:
n = (z/2 / E)2
= [(2.575)(1.100) / (0.250)]2
= 128.37
129
En conclusin, debemos de obtener una muestra, de cuando menos 129 casas
domsticas seleccionadas aleatoriamente (que estn descartando el plstico). Con
semejante muestra, estaremos confiados en un 99% de que el promedio muestral
X estar dentro de 0.250 kilos de .

Ejemplo #5. Refirindose al ejemplo anterior, si quisiramos tener resultados


menos precisos usando un margen de error de 0.500 kilos, calcular el tamao de la
muestra n asumiendo las mismas condiciones anteriores.
Solucin:
Usando la frmula (12-4) obtenemos:
n = [(2.575)(1.100) / (0.500)]2
= 32.09
33
Se observan los siguientes puntos en la relacin general entre el tamao de la
muestra, la longitud deseada del intervalo 2E, el nivel de confianza 100(1 ) por
ciento y :
12-6
Dr. Hctor Quevedo Uras

1. Conforme disminuye la longitud del intervalo 2E, el tamao requerido de la


muestra n aumenta para un valor fijo de y para el nivel de confianza
especificado.
2. A medida que aumenta, el tamao requerido de la muestra n aumenta, para una
longitud deseada 2E fija y un nivel de confianza especificado.
3. Conforme aumenta el nivel de confianza, el tamao requerido de la muestra n
aumenta para una longitud fija deseada 2E y una desviacin estndar .
Seleccin del tamao de la muestra para dos poblaciones
Tambin se puede seleccionar el tamao de la muestra, ms apropiado, para la
diferencia de dos promedios. Por ejemplo, si se conocen las desviaciones estndar
de las muestras uno y dos, es decir, 1 y 2, y los tamaos de las dos muestras son
iguales, es decir, n1 = n2 = n, entonces, puede determinarse el tamao ms
apropiado de la muestra. Esto se hace de modo que se tenga una confianza de
100(1 ) por ciento en que el error E en la estimacin de la diferencia de 1 2,
por los promedios de las muestras X 1 X 2 sea menor que E.
La ecuacin usada para calcular el tamao de la muestra ms apropiado para
la diferencia de dos poblaciones es:
n = (z/2 / E)2 (21 + 22) (12-7)
Nota 1. Recurdese que es necesario redondear n, si este valor no es un entero. Con
esto, se asegura que el nivel de confianza no sea menor que 100(1 ) por ciento.
Ejemplo #6. Se prueban dos frmulas diferentes de gasolina oxigenada para
reducir las emisiones de monxido de carbono (CO) emitidas por los motores de
combustin interna. Se sabe de antemano que la varianza para la primera frmula
es de 21 = 1.5, mientras que la varianza para la segunda frmula es de 22 = 1.2.
Qu tamao de muestra debe usarse para cada poblacin muestreada, si se desea
12-7
Dr. Hctor Quevedo Uras

tener una confianza del 95% de que el error, al estimar la diferencia entre los
promedios de las dos frmulas diferentes, sea menor que 1?
Solucin:
Aqu, usamos la frmula (12-7) para calcular el tamao de la muestra de dos
poblaciones, es decir,
n = (z/2 / E)2 (21 + 22)
Donde:
z/2 = z0.05/2 = z.025 = 1.97, E = 1, 21 = 1.5, 22 = 1.2
Sustituyendo estos valores en la frmula de arriba da:
n = (1.95 / 1)2 (1.5 + 1.2)
= 10.27 11
Por lo tanto, el tamao de la muestra para las poblaciones 1 y 2 es:
n = n1 = n2 = 11

12-8
Dr. Hctor Quevedo Uras

Ejercicios Captulo 12
12.1. Se sabe que la duracin, en horas, de un foco de 75 watts tiene una
distribucin, aproximadamente normal, con una desviacin estndar de 25 horas.
Supngase que se desea una confianza del 95% en que el error en la estimacin de
la duracin promedio sea menor que 5 horas. Qu tamao de muestra debe
usarse? ( 97)
12.2. Hacer el mismo problema que el anterior, pero ahora usando una confianza
de 99% y un error E = 1 y comparar los resultados.
12.3. Un ingeniero automotriz desea determinar el tiempo promedio que tardara
un mecnico en girar las llantas de un auto. Este ingeniero quiere estimar, con una
confianza de 95%, que el promedio de su muestra es imprecisa en cuando ms 0.50
minutos. Si sabe de estudios pilotos anteriores que la desviacin estndar es de =
1.6 minutos, qu tan grande deber ser la muestra que debe de seleccionar,
aleatoriamente? Sugerencia: Usar la frmula n = (z/2 /E)2 (39.3 40 mecnicos)
12.4. El director de cierta universidad desea usar el promedio de una muestra
aleatoria para estimar el monto promedio de tiempo que se les lleva a los
estudiantes para ir de un saln a otro y tomar sus clases sin llegar tarde. Para esto
desea afirmar con 99% de confianza que el error es cuando ms de 0.25 minutos.
Experiencias anteriores estiman una desviacin estndar de = 1.40 minutos.
Siendo as, qu tan grande deber ser la muestra que se deba tomar?
12.5. La Environmental Protection Agency (EPA) de los Estados Unidos desea
conducir una prueba de millaje de cierto modelo de un auto importado. El
ingeniero estadstico de la EPA desea estimar el promedio , de millas por galn
de combustible usado por este modelo, con 95% de nivel de confianza. Asumiendo

12-9
Dr. Hctor Quevedo Uras

que = 2.5 millas por galn, qu tamao de muestra (nmero de autos de este
modelo) deber tomar para conducir esta prueba? (n = 25)
12.6. Considerar el ejemplo 12.1 de la gasolina oxigenada, para la estimacin del
tamao de las muestras para las poblaciones uno y dos. Siendo as, estimar los
tamaos de las muestras apropiados, si queremos una confianza de 99% y el error
de la estimacin de las diferencias entre los promedios sea menor que 4.

12-10
APENDICE A. LISTA DE TABLAS

TABLA 1. Probabilidades binomiales acumuladas

TABLA 2. Probabilidades de Poisson acumuladas

TABLA 3. reas bajo la curva normal P(z zo)

TABLA 4. Puntos porcentuales de t[;] de la distribucin de t de Estudiante

TABLA 5. Puntos porcentuales de 2( ;) de la distribucin de JI cuadrada

TABLA 6. Funcin de gamma incomplete

TABLA 7. Valores crticos para la distribucin de F P(F Fo)

TABLA 8. Puntos porcentuales de la distribucin de r10


TABLA 1. Probabilidades binomiales acumuladas

Fuente: Daniel W. W. y James Terrell. Business Statistics. Houghton Mifflin


Company (1989).

Por ejemplo, si F(X) = P(X x), y si p = 0.20, x = 2, n = 7, entonces,


F(2) = P(X 2) = 0.8520

Apndice A-1
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-2
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-3
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-4
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-5
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-6
Tabla 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-7
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-8
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-9
TABLA 1. Probabilidades binomiales acumuladas

Apndice A-10
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-11
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-12
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-13
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-14
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-15
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-16
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-17
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-18
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-19
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-20
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-21
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-22
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-23
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-24
TABLA 1. Probabilidades binomiales acumuladas (Continuacin)

Apndice A-25
TABLA 2. Probabilidades acumuladas de Poisson.
c
F(c) = P(X c) = x e- / x!
x=0

Fuente: Morris Hamburg. Statistical Analysis for Decision Making. Harcourt Brace
Javanovich, Inc. (1991).

Ejemplo: Si = 1.00 y x = c = 2, entonces, F(2) = P(X 2) = 0.9200

Apndice A-26
TABLA 2. Probabilidades acumuladas de Poisson (Continuacin)

Apndice A-27
TABLA 2. Probabilidades acumuladas de Poisson (Continuacin)

Apndice A-28
TABLA 2. Probabilidades acumuladas de Poisson (Continuacin)

Apndice A-29
TABLA 3. reas bajo la curva normal

Fuente: Daniel W. W. y James Terrel. Business Statistics. Houghton Mifflin


Company (1989).

Apndice A-30
TABLA 3. reas bajo la curva normal (Continuacin)

Apndice A-31
TABLA 3. reas bajo la curva normal (Continuacin)

Apndice A-32
TABLA 3. reas bajo la curva normal. (Continuacin)

Apndice A-33
TABLA 3. reas bajo la curva normal. (Continuacin)

Apndice A-34
TABLA 4. Puntos porcentuales de t(;) de la distribucin de t de Estudiante.

____________________________________________________________________
Fuente: Dunn, O. J. y Virginia A. Clark. Applied Statistics: Analysis of Variance and
Regression. John Wiley and Sons, Inc., New York (1974).

Ejemplo de interpolacin usando = 32 grados de libertad con = 0.95

35 1.609 (32 30)/(35 30) = X/(1.697 - 1.690), x = .0028


32 x Enseguida agregar .0028 a 1.690 para dar 1.6923.
30 1.697 Por lo tanto, el valor de t[.95;32] = 1.693

Apndice A-35
TABLA 4. Puntos porcentuales de t(;) de la distribucin de t de
Estudiante (Continuacin).

________________________________________________

Apndice A-36
TABLA 5. Distribucin de JI cuadrada (2).

Fuente: Mario F. Triola. Elementary Statistics. Addison-Wesley Publishing Company


(1995).

Apndice A-37
Tabla 7. Valores crticos para la distribucin F(P)F Fo)

____________________________________________________________
Fuente: J. L. Devore. Probabilidad y Estadstica para Ingeniera y Ciencias.
Thomson Learning (2001).

Apndice A-38
TABLA 7. Valores crticos para la distribucin F (P(F Fo)
(Continuacin).

_______________________________________________________________

Apndice A-39
TABLA 7. Valores crticos para la distribucin F (P(F Fo) (Continuacin).

_________________________________________________________________

Apndice A-40
TABLA 7. Valores crticos para la distrtibucin F (P(F Fo) Continuacin).

________________________________________________________________

Apndice A-41
TABLA 7. Valores crticos para la distribucin F (P(F Fo) (Continuacin).

_____________________________________________________________________

Apndice A-42
x

TABLA 6. Funcin de gamma incompleta. F(x;) = 0 1 / () y-1 e-ydy

Fuente: Jay L. Devore. Probabilidad y estadstica para ingeniera y ciencias. Thomson-


Learning (2001).

Apndice A-43
TABLA 8. Puntos porcentuales de la distribucin de r10.

________________________________________________________
Fuente: Dunn, O. J. y Virginia A. Clark. Applied Statistics: Analysis of
Variance and Regression. John Wiley and Sons, Inc. New York (1974)

Apndice A-44
Apndice B

Bibliografa

Anderson, D. R, Dennis J. Sweeney, Thomas A. Williams. Estadstica para


Administracin y Economa. Vol. 1. Sptima edicin. South-Western
Publishing (1999).

Berthoux, P. M., Linfield C. Brown. Statistics for Environmental Engineers.


Lewis Publishers (1994).

Brown L. Theodore, H. Eugene Le May, Jr., Bruce E. Bursten. Chemistry.


The Central Science. Prentice Hall, Upper Saddle River, New Jersey. Eight
Edition, (2000).

Daniel, W. W., James C. Terrell. Business Statistics. First Edition. Houghton


Mifflin Company (1989).

Devore, J. L. Probabilidad y Estadstica Para Ingeniera y Ciencias. Quinta


edicin. Thomson Learning. (2001)

Dunn, O. J., Virginia A. Clark. Applied Statistics: Analysis of Variance and


Regression. John Wiley and sons. New York London, Sydney, Toronto
(1974).

Freund, J.E. Statistics. A First Course. Second Edition. Prentice Hall, Inc.
Englewood Cliffs, New Jersey (1976).

Goldber, Ss. Probability. An Introduction. Published by Prentince Hall, Inc.


Englewood Cliffs, N. J. (1960).

Hamburg, M. Statistical Analysis for Decision Making. Fifth Edition.


Harcourt Brace Jovanovich, Publishers. Academic Press. San Diego, New
York, Chicago, Austin, Washington, D. C. (1989).

Herber A., Raymond R. Colton. Statistical Methods. Fourth Edition. Barnes


and Noble, Inc. New York (1966).
Jerome, C. R. Li. Statistical Inference. Distributed by Edwards Brothers, Inc.
Ann Arbor, Michigan. (1964).

Keller, G., Brian Warrock, Henry Bartel. Statistics for Management and
Economics: a Systematic Approach. Second Edition. Wardsworth Publishing
Company, Belmont, California (1990).

Kutner, M. H., Chistopher J. Nachtsheim, John Neter, Willliam Li. Applied


Linear Statistical Models. Fifth edition. McGraw-Hill International Edition
(2005).

Lapin, L. L. Statistics for Modern Business Decisions. Harcourt Brace


Javanovich, Inc. (1981).

Manly, B. F. J. Statistics for Environmental Science and Management.


Chapman & Hall/CRC (2001).

Montgomery, D., George C. Runger. Probabilidad y Estadstica Aplicadas a


la Ingeniera. Mcgraw Hill Interamericana Editores, S.A. De C. V. (1996).

Montgomery, D. C. Elizabeth A. Peck, G. Geoffrey Vining. Introduccin al


Anlisis Lineal. Grupo Patria Cultural, S. A. De C. V. (2002).

Myers, W., Raymond H. Myers. Probabilidad y Estadstica. Cuarta Edicin.


Mcgraw Hill/Interamericana de Mexico, S. S. De C. V. (1992).

Neter, J., Michael H. Kutner, Christopher J. Nachtsheim, William


Wasserman. Applied Linear Regression Models. Third Edition. Irwin (1996).

Sanders, D. H. Statistics. A First Course. Fifth Edition.

Sawyer, N.C., Perry L. Mccarty. Chemistry for Sanitary Engineers. Second


Edition. Mcgraw-Hill (1967).

Smith, G. Statistical Reasoning. Allyn And Bacon, Inc. Boston London


Sydney Toronto (1985).

Spiegel, M. R. Schaum's Outline of Theory and Problems of Statistics.


Schaum Publishing Company, New York (1961).
Standard Methods for the Examination of Water and Wastewater. Prepared
And Published Jointly by: American Public Health Association, American
Water Works Association and Water Pollution Control Federation. American
Public Health Association, 1015 Eighteenth Street, N.W., Washington, D.C.
20036 (1971).

McClave, J. T., George Benson. Statistics for Business and Economics.


Second Edition. Dellen Publishing Company, San Francisco and Santa Clara,
California (1982).

Triola, M. F. Elementary Statistics. Sixth Edition. Copyright 1995. Addison-


Wesley Publishing Company, Inc.

Walpole, E. R., Raymond H. Myers. Probability and Statistics for Engineers


and Scientists. Fifth Edition. Prentice Hall, Inc. (1993).

Yamane, T. Statistics, an Introductory Analysis. Harper & Row, Publishers,


Incorporated, 49 East 33rd Street, New York 16, N.Y. (1964).
Apndice C

Papel de grfica

Papel de grfica semilogartmico de 5 ciclos

Papel de grfica logartmico

Papel de grfica de probabilidad

Papel de grfica de probabilidad binomial para analizar datos enumerados

Papel de grfica de frecuencia relativa acumulada en funcin de la variable


aleatoria X

Apndice C
Papel de escala semilogartmica
Papel de grfica de escala logartmica completa.
Papel de grfica logartmico de 2x2 ciclos
Papel de grfica de escala aritmtica
Papel de grafica de frecuencia relativa acumulada en funcin de la
variable aleatoria X
Apndice D

ndice

Ajustamiento de curvas, 9-29, 9-30


Anlisis de varianza en dos sentidos, 7-25
Anlisis de varianza en tres sentidos, 7-36 7-39
Anlisis de varianza, 7-1
anlisis de varianza de bloques completamente aleatorizados, 7-17
diseos de ANOVA completamente aleatorizados, 7-3
ANOVA con tres factores usando el Minitab, 7-50, 7-53
Aplicaciones de la distribucin de Poisson, 4-1. Ver distribucin de Poisson
dentro de sus propios trminos y como una aproximacin a la distribucin binomial, 4-6, 4-7
Aplicaciones de la distribucin de t de Estudiante, 6-4
Aplicaciones de la distribucin hipergeomtrica usando el programa Minitab, 3-40
reas bajo la curva normal, 5-7
Autocorrelacin, 8-30, 8-58, 9-9, 9-47, 9-48, 9-49, 9-54
Axiomas y propiedades bsicas de la probabilidad, 2-6

Coeficiente de correlacin R, 8-9, 8-17


Coeficiente de determinacin R2, 8-8, 8-17
Combinaciones ortogonales, 7-43
Combinaciones, 2-32
Complemento, 2-11
Componentes de la prueba de hiptesis, 5-41
Cuartiles, 1-30, 1-31
Curvas de frecuencia, tipos de, 1-19

Desviacin estndar, 1-10


Desviaciones del promedio, 1-13
Diagramas de rbol, 2-24
Diagramas de tallo y hoja, 1-27
Diagramas de Venn, 2-18
Diferencias entre la distribucin de Poisson y la distribucin binomial, 4-2
Distribucin binomial, 3-1
Distribucin de gamma, 5-28
Distribucin de JI cuadrada, 6-24
Distribucin de Poisson, 4-1
Distribucin de t de Estudiante, 6-1
Distribucin de Weibull, 5-31
Distribucin exponencial, 5-24
Distribucin hipergeomtrica, 3-1, 3-31
Distribucin normal estndar y distribucin normal no estndar, 5-10
Distribucin normal, 5-6
Distribuciones de frecuencia, 1-17, 1-21
Distribuciones de probabilidad continua, 5-1
Durbin-Watson, prueba de autoacorrelacin, 9-48- 9-53
Estadstica inferencial, 5-34
Error estndar, 1-14, 5-36
Estadstica, definicin de, 1-1
Estadstica no paramtrica, 10-1
Ensayo de Bernoulli, 3-2
Ecuacin de la lnea de regresin, 8-2
Eventos mutuos excluyentes, 2-13
Eventos dependientes e independientes, 2-16
Estocstico, definicin de, 2-18
Estadstica descriptiva, 1-1, 1-3
Espacio muestral, 2-8
Evaluaciones de los modelos de regresin, 8-37, 9-8

Funcin de densidad de probabilidad de la variable aleatoria continua x, 5-2


Frmula emprica para hacer interpolaciones para calcular el valor de la probabilidad p, 5-53
Frmula fundamental del clculo, 5-3

Heteroscedasticidad y homoscedasticidad, 9-55


prueba de hiptesis para heteroscedasticidad, 9-57
Hiptesis nula para , , y Y|X, 8-11, 8-12
Histogramas, 1-20

Interaccin con ANOVA de dos factores, 7-26, 7-27, 7-28


Interaccin con ANOVA de tres factores, 7-39, 7-40
Interseccin de eventos, 2-10
Intervalo de confianza para el coeficiente , 8-10
Intervalos de confianza para la diferencia de dos promedios (1 2) con varianzas conocidas, 5-72
Intervalos de confianza para proporciones, 5-77
Intervalos de confianza para 2 usando la distribucin de JI cuadrada, 6-28
Intervalos de confianza para con varianza 2, conocida, 5-32
Intervalo de confianza para , 8-10

Kolmogorov-Smirnov para prueba de normalidad, 5-63


Kurtosis, 1-14

Mediana, 1-6
Medidas de tendencia central, 1-4
Moda, 1-7
Modelo de regresin cuadrtico con 2 y 3 variables independientes, con y sin interaccin, 9-24
Modelo de regresin mltiple generalizado, 8-33
Modelo de segundo orden con mas de dos variables independientes con interaccin, 9-5
Modelos de regresin mltiple con mas de dos variables regresoras, 8-34
Modelos de regresin no lineales y de regresin logstica, 9-24, 9-25
Multicolinealidad, diagnstico de, 8-17, 8-58, 9-21, 9-31, 9-32, 9-33
Niveles de significancia, 5-33, 5-38, 5-40, 4-49, 5-50, 5-55, 9-5
Niveles de confianza. Ver niveles de significancia

Papel de probabilidad, uso de, 1-24


Permutaciones, 2-28
Probabilidad de frecuencia relativa, 2-4
Probabilidad subjetiva, 2-5Rango, 1-13
Probabilidad, definicin de, 2-1, 2-2
Promedio aritmtico, 1-4, 1-5
Promedio geomtrico, 1-9
Prueba de bondad de ajuste usando la distribucin de JI cuadrada, 6-31, 9-32
Prueba de Kruskall-Wallis para funciones no paramtricas, 10-4
Prueba de normalidad, usando la funcin de Anderson-Darling, 5-63
Prueba de White para heteroscedasticidad, 9-56
Pruebas de hiptesis para el promedio usando la t de Estudiante, 6-5
Pruebas de hiptesis para observaciones pares, 6-6
Pruebas de hiptesis para proporciones, 5-74, 5-75
Pruebas de hiptesis, 5-34
Pruebas estadsticas para seleccionar el mejor modelo de regresin, 9-15

Rango, 1-13
Regla aditiva para eventos mutuos excluyentes y no mutuos excluyentes, 2-40
Regla de multiplicacin mas general, 2-22
Regla de multiplicacin para eventos dependientes e independientes, 2-37
Regla del producto para pares ordenados, 2-12
Regla factorial, 2-23
Regresin lineal mltiple, 8-1
Regresin mltiple usando el paquete Minitab, 8-54
Regresin polinomial, 9-31
modelos polinomiales de segundo orden, 9-2
modelos polinomiales de tercer orden, 9-3
Relacin entre la distribucin binomial y la distribucin de Poisson, 3-6
Relacin entre la distribucin binomial y la distribucin normal, 3-6
Relacin entre la distribucin hipergeomtrica y la distribucin binomial, 3-33

Series de tiempo, 11-1


clasificaciones de los movimientos de series de tiempo, 11-3
Sesgo, 1-14

Tamao de la muestra, 12-1


Tcnicas de conteo, 2-20
Tipos de errores I y II, 5-37
Tringulo de Pascal, 3-4

Unin, 2-9
Valor de la probabilidad p, 5-48, 5-50, 6-16, 6-17
metodologa para calcular el valor de p, 5-42

Valores atpicos extremos, diagnstico de, 9-31


Valores de varianza inflada (VIF), 9-33
Variable aleatoria continua definicin de, 1-4, 2-18
Variable aleatoria discreta, 2-18
Variable aleatoria estandarizada z, 1-12, 5-8
Variable aleatoria, definicin de, 2-17
Varianza, 1-10

También podría gustarte