Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Acosta Aguilera, Piña León, Espallargas Ibarra - 2008 - Curso Breve de Estadística PDF
Acosta Aguilera, Piña León, Espallargas Ibarra - 2008 - Curso Breve de Estadística PDF
COLECTIVO DE AUTORES:
1
PRESENTACIÓN
A los estudiantes:
Este texto ha sido elaborado por un colectivo de profesores de Estadística de la Facultad de Economía de
la Universidad de La Habana, para contribuir a un mejor estudio de los temas correspondientes a esta
asignatura en las carreras de perfil económico y social, en general, particularmente en la Licenciatura en
Economía.
El objetivo del estudio de la Estadística en cualquier carrera es dotar al alumno de algunos elementos que
le servirán para trabajar con conjuntos de datos, describir situaciones de interés, hacer inferencias sobre
la base de observaciones y evaluar hipótesis relacionadas con alguna circunstancia práctica; además,
pueden iniciarse en el estudio de los fenómenos y experimentos aleatorios, estableciendo el vínculo entre
los conocimientos y habilidades de los contenidos de la Estadística Descriptiva, la Teoría de las
Probabilidades y la Estadística Inferencial.
Debe señalarse que la Estadística es eminentemente práctica, sin embargo, se necesita del conocimiento
de la teoría que la sustenta para la correcta aplicación de las fórmulas de cálculo y los modelos que
intentan representar la realidad existente.
En el texto se detallan los objetivos generales del curso y la distribución del mismo en los seis temas en
que está subdividido. También se incluyen los objetivos específicos de cada una de las unidades
didácticas que conforman los distintos temas. Además, se desarrolla sucintamente el contenido de la
asignatura, el cual aparece disperso en otros textos que se refieren en la bibliografía básica. Finalmente,
se brindan ejemplos demostrativos de todos los aspectos abrdados, y se han añadido ejercicios para que
sirvan de autoevaluación.
Es aspiración de los autores que estos apuntes para el estudio de Estadística sean de utilidad tanto para
sus destinatarios iniciales como para estudiantes de otras carreras y modalidades de estudio.
Los Autores.
La Habana, 2008
2
INTRODUCCIÓN A LA ESTADÍSTICA
Las estadísticas son tan antiguas como las sociedades humanas, pero la Estadística como
ciencia (con mayúscula) surge en el siglo XVI paralelo al desarrollo de las probabilidades.
La Estadística como ciencia puede definirse como un conjunto de principios y métodos que
se han desarrollado para analizar datos numéricos, utilizando las probabilidades; sus
métodos se clasifican en:
3
OBJETIVOS DEL CURSO
3. Asociar a la noción de variable aleatoria (tanto discreta como continua), los conceptos
de función de probabilidad, función de distribución o acumulación, y caracterizar
estas funciones mediante la esperanza, valor esperado o media teórica, y la varianza
teórica. Identificar y caracterizar las distribuciones probabilísticas: Binomial, Poisson,
Normal, Chi-Cuadrado, t’ Student y F de Fisher. Calcular probabilidades asociadas a las
distribuciones anteriores haciendo uso de las tablas correspondientes.
5. Identificar los conceptos básicos asociados a las pruebas de hipótesis: hipótesis nula
e hipótesis alternativa, región crítica o de rechazo y nivel de significación.
Diferenciar entre los errores de tipo I y tipo II. Identificar y emplear distintas pruebas
paramétricas para una población: de media (con varianza conocida y desconocida), de
proporciones, y de varianza. Identificar y emplear las pruebas no paramétricas chi-
cuadrado, tanto para probar normalidad, como para verificar independencia entre
variables o criterios de clasificación. Verificar el supuesto de normalidad a través de la
prueba Jarque-Bera, a partir de salidas del programa de cómputo EViews.
4
TEMA I: MÉTODOS DESCRIPTIVOS
Con este tema se inicia el estudio de la parte de la estadística que se ocupa de la recolección,
organización, resumen y presentación de la información; cuestión esencial para cualquier
investigación. El buen uso de los métodos descriptivos ahorra tiempo y esfuerzo, facilita la
interpretación de resultados y sirve de base incuestionable para el desarrollo de métodos de
inferencia y predicción: La información recogida durante el proceso de observación, medición,
entrevista, etc., suele ser dispersa, y no es hasta que la misma se organiza, procesa y presenta
adecuadamente que cobra real dimensión la misma y puede considerarse, más allá de un
conjunto de datos, verdadera información.
Tamaño de la población: Cantidad de elementos que abarca la población. En casi todos los
textos se representa con el símbolo “N”.
Para organizar los datos muchas veces es útil conocer qué tipo de variables éstos miden. Con
este fin, las variables pueden clasificarse en:
Cuantitativas: Se refieren a cantidades tales como costos, estaturas, pesos, ingresos, número
de hijos, etc. A la vez, se distinguen dos tipos de datos o variables cuantitativos:
• Variables Discretas: Son aquellas que tienen valores prohibidos dentro de su intervalo
de definición, o sea, toman valores determinados, predefinido. Generalmente
representan valores enteros asociados a observaciones susceptibles de conteo.
5
• Variables Continuas: Son aquellas que pueden tomar cualquier valor dentro de su
intervalo de definición. Generalmente representan observaciones susceptibles de
medición. Es importante tener en cuenta que la continuidad está dada por la propia
naturaleza de variable, no porque ésta se exprese con valores decimales o no, pues
esto es algo que depende de las unidades de medida utilizadas, de la precisión deseada
o de costumbres al expresar una magnitud.
Se dice que los datos están organizados, pero no agrupados, cuando en las tablas de
frecuencias se ponen, organizados, todos y cada uno de los valores que toma la variable; esto
es, se colocan los datos en columnas que recogen los distintos valores de la variable y las
frecuencias (las veces) con que han aparecido tales valores.
Por su parte, se dice que los datos están organizados y agrupados cuando en la tabla se
presentan éstos no con sus valores individuales, sino en agrupaciones parciales del recorrido
de la variable, denominadas “clases” o “intervalos de clases”.
Una clase se caracteriza por un valor que es su límite inferior y otro que es su límite superior. El
promedio de los dos límites, que muchas veces se toma como el valor representativo de la
clase, es llamado marca de clase. Y a la diferencia o distancia entre los límites de la clase se le
llama ancho de clase: aunque no es obligatorio, es usual utilizar clases del mismo ancho
siempre que es posible. (Si las clases no tienen el mismo ancho, no es la altura de las barras o
rectángulos la que debe ser proporcional a las frecuencias representadas, sino su área.)
Li-1 - Li Xi ni fi Ni Fi
L0 - L1 X1 n1 f1 N1 F1
L1 - L2 X2 n2 f2 N2 F2
…
Lk-1 - Lk Xk nk fk Nk Fk
↑ ↑ ↑ ↑
sólo si hay clases frecuencias
(datos agrupados) complementarias
6
Los símbolos y definiciones correspondientes son:
Xi : representa los valores individuales de la variable (en datos no agrupados) o las marcas de
clase (en datos agrupados en clases)
Li-1 - Li : representan las clases (si los datos se agruparon), delimitadas por los límites de clase,
el inferior (Li-1) y el superior (Li)
fi ( frecuencia relativa ): proporción de veces que se repite el i-ésimo valor de la variable (si se
multiplica por cien constituye un porciento); se cumple que:
fi = ni/n y donde ∑ fi = 1
Por todo ello, cuando se insiste en que las variables discretas se presentan en tablas de
frecuencia sin agrupar, y las variables continuas en tablas de frecuencias agrupadas, esto es
ante todo con fines metodológicos.
7
PROPIEDADES DE LAS FRECUENCIAS:
De la definición de las distintas frecuencias se deduce que éstas son siempre números no
negativos, y pueden considerarse como propiedades de las mismas las siguientes:
1. ni ≥ 0 / Ni ≥ 0 6. Fk = 1
2. ∑ni = n 7. N1 = n1
3. ∑ fi = 1 8. F1 = f1
4. 0 ≤ fi ≤ 1 / 0 ≤ Fi ≤ 1 9. n1 = N1 ≤ N2 ≤ N3 ≤ ... ≤ Nk
5. Nk = n 10. f1 = F1 ≤ F2 ≤ F3 ≤ ... ≤ Fk
Las variantes A y B se utilizan con el objetivo de que no se repita el mismo valor de un límite de
clase, de manera que para una observación dada sea inequívoca (única) la pertenencia a una
clase; pero en cualquiera de los dos casos hay infinitos valores posibles entre el cierre de una
clase y el inicio de la otra, es decir, entre 14,9 y 15 (caso A) y lo mismo entre 15 y 15,1 (caso
B). Por ello muchos autores e investigadores prefieren la variante C, donde el valor que cierra
una clase es el mismo que abre la siguiente, y se suele recurrir al siguiente convenio: cuando
una observación coincide con un límite de clase se incluye en la clase donde dicho límite
es el límite superior, es decir, se consideran los intervalos de clase como abiertos al inicio y
cerrados al final, así: ( Li-1 ; Li ]
También existen los intervalos abiertos atendiendo al tipo de información que se puede
presentar:
8
Abierto en la
Abierto en la Abierto en la
primera y en la
primera clase última clase
última clase
menos de 10 0 10 menos de 10
10 20 10 20 10 20
20 30 20 30 20 30
30 40 30 40 30 40
40 50 más de 50 más de 50
Es útil tener en cuenta además que no siempre los intervalos podrán ser de igual amplitud, sin
embargo es recomendable que estos tengan el mismo ancho si es posible ello, para lograr
mayor facilidad en las interpretaciones, representaciones y cálculos.
Entre los métodos seguidos para crear las clases, dos son los más utilizados:
1. Definir, a partir del uso que se hará de la información, el ancho de clases que se empleará,
y con esto ver cuántas clases surgen.
Los pasos que se deben dar para agrupar los valores observados según el segundo método
pueden resumirse como sigue:
1. Determinar el recorrido de la variable (R), definido como la diferencia entre el valor máximo
y el mínimo de la variable: R = Xmax - Xmin
2. Definir el número de intervalos o clases (k): La práctica indica que menos de 4 ó 5 clases
suele ser muy poco y que en general más de 20 clases puede ser excesivo, es decir, ni tan
pocos, que se pierda demasiada información, ni tantos que parezca que no se han
agrupados los datos ( 4 ≤ k ≤ 20 )
3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido de los
datos entre la cantidad de clases que se decidió usar, aproximado convenientemente y
siempre por exceso: c ≈ R/k
4. Crear las clases, partiendo del valor mínimo observado (xmin) o un valor inferior, y sumando
sucesivamente el ancho de clases (c) determinado.
5. Clasificar la variable en las distintas clases, para lo cual se puede hacer un tarjado,
obteniendo las frecuencias absolutas correspondiente (ni).
6. Calcular las restantes frecuencias deseadas: relativas (fi), absolutas acumuladas (Ni) y
relativas acumuladas (Fi).
7. Determinar las marcas de clases (Xi), valores que representarán a sus respectivas clases.
Otra manera de presentar los datos de manera de que brinden información a primera vista es
una representación gráfica de los mismos, y entre los gráficos más usados se encuentran:
9
donde se representan las frecuencias absolutas (ni) o relativas (fi) correspondientes. En el
punto correspondiente a cada observación o clase se levanta una barra cuya altura indica el
valor de la frecuencia observada. Si los datos están agrupados en clases las barras
conforman rectángulos contiguos, y el gráfico suele ser denominado histograma.
• Polígonos de frecuencias
Son similares a los gráficos de barras, y tienen la misma función, aunque actualmente se
utilizan menos que aquellos. Constan de también de dos ejes, con la diferencia de que en el
eje horizontal, si los datos están agrupados en clases se distribuyen no sus límites de clase
sino sus marcas de clase. En cualquier caso, sobre el punto correspondiente a cada
observación o marca de clase se hace una marca a la altura de la frecuencia observada, y
posteriormente estas marcas se unen con trazos rectos, formando una línea poligonal.
Se tiene los datos recopilados acerca de la variable X: número de ausencias a clase que tienen
los estudiantes de un grupo.
0 1 2 2 1
3 2 1 4 2
4 3 2 0 0
2 2 3 0 3 Datos en su forma primaria (sin organizar)
Al tratarse de una variable discreta (un conteo siempre tomará valores enteros) y con pocos
valores diferentes, no parece necesario crear clases para agrupar los datos.
Para facilitar el conteo de las observaciones se suele hacer algún tipo de marcas, a lo cual se le
llama tarjado.
10
Interpretación de las distintas frecuencias:
N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como máximo) 1 ausencia
N3 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias
Representación gráfica:
diagrama circular
4 0
10% 20%
3
20%
1
2 15%
35%
11
EJEMPLO 2 (Datos agrupados):
Los siguientes valores corresponden al registro del consumo de gasolina de una flota de 50
taxis, en litros, un día dado:
46 39 34 33 32 36 41 26 32 36
43 28 30 27 32 42 30 31 34 41
28 30 26 21 37 39 25 33 47 28
26 23 30 43 40 36 21 38 31 38
29 30 48 47 23 31 24 38 35 36
12
todos los taxis que consumieron 30 litros de gasolina se incluyen en la clase de 25 a 30, no
en la que va de 30 a 35.
clases tarjado
(Li-1; Li] Xi ni fi Ni Fi
20 - 25 22,5 ///// / 6 0,12 6 0,12
25 - 30 27,5 ///// ///// /// 13 0,26 19 0,38
30 - 35 32,5 ///// ///// / 11 0,22 30 0,60
35 - 40 37,5 ///// ///// / 11 0,22 41 0,82
40 - 45 42,5 ///// 5 0,10 46 0,92
45 - 50 47,5 //// 4 0,08 50 1,00
n = 50 1,00
• n2 = 13: indica que hay 13 taxis que consumieron entre 25 y 30 litros de gasolina, o que
consumieron como promedio 27,5 litros (utilizando la marca de clases)
• f3 = 0,22: indica que el 22% de los taxis consumieron entre 30 y 35 litros de gasolina, o que
consumieron 32,5 litros como promedio.
• F5 = 0,92: indica que el 92% de los taxis consumió HASTA 45 litros de gasolina, o un
máximo de 45 litros.
Representación gráfica:
EJERCICIOS DE AUTOEVALUACIÓN
13
4.- A partir de los siguientes datos, que representan el número de habitaciones de 50 viviendas
del municipio Plaza, que se están visitando para estudiar el grado de hacinamiento, construya
una distribución de frecuencias e interprete 3 frecuencias absolutas y relativas simples y 3
frecuencias absolutas y relativas acumuladas.
3 2 3 4 3 5 2 1 3 2
4 3 2 1 1 2 5 2 3 1
2 3 2 1 2 2 2 3 3 4
3 2 2 3 4 1 1 5 2 3
4 4 3 3 2 2 2 1 1 2
5.- ¿Es absolutamente privativo de las variables discretas la organización de los datos
directamente a partir de los valores observados, o considera que una variable continua también
podría organizarse de esta forma? Explique.
6.- ¿Qué pasos se deben dar para conformar una tabla de frecuencia?
7.- ¿En casos de datos agrupados se cumple que: ∑ni = n y ∑fi = 1? Fundamente su respuesta.
12.- Si una observación le coincide con un límite de clases, ¿dónde la pondría y por qué?
13.- Investigados los precios por habitación de 50 hoteles del país se ha obtenido los siguientes
resultados (en cientos de pesos):
7 3 5 4 5 7 4 7.5 8 5
5 7.5 3 7 10 15 5 7.5 12 8
4 5 3 5 10 3 4 5 7 5
3 4 7 4 7 5 4 7 10 7.5
7 8 7.5 7 7.5 8 7 7 12 8
14.- Realizada una encuesta en una región del país, se han agrupados los establecimientos
hoteleros por el número de cuartos, obteniéndose la siguiente distribución:
cuartos # de hoteles
0 100 25
100 200 37
200 300 12
300 400 22
14
400 500 21
500 600 13
600 700 5
700 800 3
15
1.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados:
media, mediana y moda. Estadígrafos de dispersión más usados: varianza,
desviación típica y coeficiente de variación.
La organización de los datos y el análisis del comportamiento de los mismos mediante tablas o
gráficos, aportan una información inicial sobre la población en estudio, pero no suelen ser
suficiente para describir a la misma. Sin embargo, es posible la obtención de ciertas cantidades
numéricas, denominadas estadígrafos o estadísticos, que caracterizan mejor el conjunto de
datos.
Un estadígrafo o estadístico es una medida descriptiva que resume alguna de las principales
características de un conjunto de datos, como puede ser la tendencia central, la dispersión o la
forma. Precisamente atendiendo al tipo de resumen que brindan los estadígrafos, éstos suelen
clasificarse.
Los llamados estadígrafos de posición son medidas que informan sobre el centro de la
distribución (tendencia central) o sobre valores significativos de ésta.
La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un
punto central y por lo general es posible encontrar algún tipo de valor promedio que describa
todo el conjunto. Un valor típico descriptivo como ese, es una medida de tendencia central. Con
frecuencia se utilizan, como las más importantes medidas de tendencia central, la media
aritmética, la mediana, la moda y la media geométrica.
No obstante, aunque menos usadas, también se recurre en muchos casos a otras estadígrafos
de posición que no son medidas de tendencia central, como las cuantilas, entre las que se
encuentran las cuartilas, las decilas y los percentiles, que son aquellos valores que dividen el
conjunto de datos en cuatro, diez y cien partes iguales, respectivamente.
La media se representa:
• en la muestra, por x
• en la población, por μ (la letra griega miu)
• en definiciones y demostraciones, por M(x)
A partir de la propia definición se deduce que la media en una muestra puede calcularse como:
16
∑ xi 1
x= ó x= ∑ xi (definición)
n n
EJEMPLO:
Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable (Xi) se
repite una determinada cantidad de veces (ni), y por tanto, la expresión matemática derivada de
la definición de la media debe modificarse, como se muestra, multiplicando cada valor por su
respectiva frecuencia.
∑ x in i 1
x= ó x = ∑ x in i ó x = ∑ x i f i (en datos tabulados)
n n
Xi ni fi Ni Fi Xini 1 37
0 4 0,20 4 0,20 0 x= ∑ x in i = = 1,85
n 20
1 3 0,15 7 0,35 3
2 7 0,35 14 0,70 14
3 4 0,20 18 0,90 12
Nota: Es usual, cuando se efectúan cálculos utilizar
4 2 0,10 20 1,00 8
la propia tabla de frecuencia, creando columnas
37
auxiliares, como se ve, para facilitar los mismos.
clases Xi ni fi Xini
20 - 25 22,5 6 0,12 135,0
25 - 30 27,5 13 0,26 357,5 1 1665
x= ∑ x in i = = 33,3
30 - 35 32,5 11 0,22 357,5 n 50
35 - 40 37,5 11 0,22 412,5
40 - 45 42,5 5 0,10 212,5 (O sea, el consumo promedio en el día fue
45 - 50 47,5 4 0,08 190,0 de 33,3 litros por auto.)
1665,0
Nota: Para los cálculos de la media en datos agrupados en clases se utilizan las marcas de
clase, y salvo eso, la expresión matemática empleada no se diferencia del caso en que los
17
datos no están agrupados. Algo a tener en cuenta en este sentido es que si existen intervalos
abiertos, como a veces se presenta la primera o la última clase, la media no se puede calcular
a menos que se modifiquen los mismos.
2. M(kx) = k M(x) (La media de una constante por una variable es igual a la constante por
la media de la variable.)
3. M(k + x) = k + M(x) (La media de una constante más una variable es igual a la
constante más la media de la variable.)
4. M(x1 + x2) = M(x1) + M(x2) (La media de la suma de dos variables es igual a la suma de
las medias de ambas variables.)
5. M(x - x ) = 0 (La media de las desviaciones con respecto a la media es igual a cero.)
6. M(x - x )2 = mínimo. (La media del cuadrado de las desviaciones con respecto a la
media al cuadrado es un mínimo.)
Cabe especificar que se le llama desviaciones a la diferencia entre los valores de una variable y
un valor fijo; cuando este valor fijo es la propia media de la variable, se le llama desviaciones
con respecto a la media.
MODA
La moda se define como el valor mas frecuente en un conjunto de datos, es decir, el valor
modal es el de mayor frecuencia. Se denota por Mo(x) y puede no existir en una distribución
(distribución amodal), o existir más de una (distribución multimodal).
La moda cobra especial importancia en datos de tipo cualitativo, pues en ellos es imposible
calcular otros estadígrafos de posición, como la media. Esto no quita que también para datos
cuantitativos suele ser de interés conocer el valor modal, que se utiliza en ocasiones como
medida de tendencia central.
18
Para determinar la moda a partir de datos primarios suele ser conveniente organizar primero
estos, conformando lo que se llama un arreglo ordenado.
EJEMPLO:
Nota: Para el estudiante C ninguna nota es más frecuente que las demás, por eso
no tiene valor modal.
En datos tabulados es muy sencillo encontrar el valor o valores modales, pues son aquellos que
presentan la máxima frecuencia absoluta.
Xi ni fi Ni Fi
0 4 0,20 4 0,20 nmod = 7 (frecuencia modal)
1 3 0,15 7 0,35
2 7 0,35 14 0,70 Mo(X) = 2
3 4 0,20 18 0,90
4 2 0,10 20 1,00
Nota: La frecuencia modal es 7, porque la cantidad de inasistencias que más ocurre, que son
dos, se repite 7 veces en la muestra (o un 35% de las veces).
Cuando se trabaja con datos agrupados en clases, es sencillo determinar la clase o clases
modales existentes, y para muchos fines esto es suficiente. Pero si se quiere indicar un valor
modal dentro de la clase modal, se ha determinado, atendiendo a cuestiones geométricas, que
el mismo puede obtenerse a partir de la expresión:
n mod − n mod −1
Mo ( x ) = L mod −1 + c ⋅
(n mod − n mod −1 ) + (n mod − n mod +1 )
Siendo:
Lmod-1: el límite inferior de la clase modal
c: el ancho de la clase modal (que en general es el de todas las clases)
nmod: la frecuencia absoluta de la clase modal
nmod-1: la frecuencia absoluta de la clase anterior a la modal
19
nmod+1: la frecuencia absoluta de la clase siguiente a la
Calcular el valor modal para el consumo diario de gasolina de los 50 taxis de la flota.
clases Xi ni fi
20 - 25 22,5 6 0,12
25 - 30 27,5 13 0,26
30 - 35 32,5 11 0,22
35 - 40 37,5 11 0,22
40 - 45 42,5 5 0,10 nmod = 13
45 - 50 47,5 4 0,08 clase modal: 25 - 30
n mod − n mod −1 13 − 6
Mo ( x ) = L mod −1 + c ⋅ = 25 + 5 ⋅
(n mod − n mod −1 ) + (n mod − n mod +1 ) (13 − 6 ) + (13 − 11)
7
Mo ( x ) = 25 + 5 ⋅ = 25 + 3,89 = 28,89
9
CARACTERÍSTICAS DE LA MODA:
La moda, como se ha visto, no tiene necesariamente que existir, ni tiene que ser única.
Además, la moda puede ser definida en forma relativa, aunque es menos frecuente este uso,
llamando valor modal a aquel donde exista un máximo relativo en la distribución de frecuencias,
esto es, donde: ni – 1 < ni >ni + 1
MEDIANA
La mediana se define como el valor central de un grupo de datos ordenados, o sea, como aquel
valor que supera hasta un 50% de las observaciones y a la vez es superado por hasta un 50 %
de las observaciones. Se denota por Me(x).
20
Regla 2: Si el tamaño de la muestra es un número par, entonces el valor mediano,
será la semisuma o promedio de los dos valores centrales de las observaciones
ordenadas. (Esto, estrictamente hablando, es un convenio adoptado, pues cualquier
valor entre los dos valores centrales podría ser considerado como un valor mediano)
EJEMPLO:
SI: 5 3 5 4 4 5 5
SII: 5 3 5 4 4 5 5 4
SI: 3 4 4 5 5 5 5 Me(x) = 5
Para determinar la mediana en datos tabulados pero sin agrupar en clases se puede proceder
de la siguiente manera:
Determinar la mediana para las inasistencias de los 20 estudiantes del grupo analizado:
Xi ni fi Ni Fi n/2 = 10
0 4 0,20 4 0,20 Nmed = 14 ( >10 )
1 3 0,15 7 0,35 Me(X) = 2
2 7 0,35 14 0,70
3 4 0,20 18 0,90 Nota: La frecuencia mediana es 14, porque es la primera
4 2 0,10 20 1,00 frecuencia absoluta acumulada que sobrepasa a n/2 = 10.
21
En el caso de datos agrupados en clases, se determina ante todo una clase mediana, como
aquella cuya frecuencia absoluta acumulada sobrepasa a n/2; y si quiere un valor mediano,
sobre esa clase se aplica la siguiente expresión:
n −N
med−1
Me( x ) = L med−1 + c ⋅ 2
nmed
Siendo:
Lmed-1: el límite inferior de la clase mediana
c: el ancho de la clase modal (que en general es el de todas las clases)
Nmed-1: la frecuencia absoluta acumulada hasta la clase anterior a la mediana
nmed: la frecuencia absoluta de la clase mediana
Calcular el valor mediano para el consumo diario de gasolina de los 50 taxis de la flota.
clases Xi ni Ni
20 - 25 22,5 6 6
25 - 30 27,5 13 19
30 - 35 32,5 11 30
35 - 40 37,5 11 41 Nmed = 30
40 - 45 42,5 5 46 clase mediana: 30 - 35
45 - 50 47,5 4 50
n − Nmed−1
25 − 19 6
Me( x ) = Lmed−1 + c ⋅ 2 = 30 + 5 ⋅ = 30 + 5 ⋅ = 30 + 2,73 = 32,73
nmed 11 11
CARACTERÍSTICAS DE LA MEDIANA:
La mediana no se ve afectada por datos extremos, es por ello que cuando éstos existen ella
es más representativa que la media como medida de tendencia central.
A pesar de toda la información que brindan los estadígrafos de posición, no basta con ellos para
caracterizar un conjunto de datos:
Téngase por caso dos empresas que reportan el mismo promedio de recaudaciones
mensuales, siendo que una de ellas esto se debe a que todos los meses ha recaudado esa
misma cantidad, mientras que la otra ha oscilado bastante en sus recaudaciones alrededor de
ese valor medio, habiendo recaudado unos meses mucho más que dicho valor, pero otros,
mucho menos; de esta manera, no puede decirse que ambas empresas tiene el mismo
comportamiento, a pesar de que han coincidido en el valor de la recaudación media mensual: la
primera de ellas es mucho más estable en su comportamiento que la segunda… Esto sería útil
conocerlo a través de alguna medida resumen, junto con el valor de la media.
22
Precisamente, los estadígrafos de dispersión son medidas que describen cómo se distribuyen
los datos alrededor de alguno de sus valores representativos, principalmente alrededor de su
media.
Por tanto, las medidas de posición no dicen mucho si no están acompañadas de medidas de
dispersión o variabilidad, porque a través de estas últimas es que se puede determinar si la
medida de posición es significativa o representativa de la distribución.
Entre las medidas de dispersión más empleadas destacan la varianza, la desviación típica y el
coeficiente de variación.
VARIANZA
La varianza de un conjunto de datos se define como la media o promedio del cuadrado de las
desviaciones de la variable respecto a su media. Por sus propiedades, es la medida de
dispersión más usada, y base para el cálculo de otras.
La varianza se representa:
• en la muestra, por S2
• en la población, por σ2 (la letra griega sigma, al cuadrado)
• en definiciones y demostraciones, por V(x)
De la definición de la varianza se desprende que ésta, en una muestra, puede calcularse como:
∑ (x i − x )
2
1
∑ (x i − x )
2
S2 = ó S2 = (definición)
n n
EJEMPLO:
El promedio es: x = 4
S2 =
1
n
2 1
6
[
∑ (x i − x ) = (5 − 4 ) + (4 − 4 ) + (3 − 4 ) + (4 − 4 ) + (5 − 4 ) + (3 − 4 )
2 2 2 2 2 2
]
1
[ ] 4
S 2 = 12 + 0 2 + (− 1) + 0 2 + 12 + (− 1) = = 0,67
6
2 2
Al trabajar con datos tabulados debe tenerse en cuenta, al igual que en los cálculos de la
media, que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni), y por
tanto, la expresión matemática derivada de la definición debe modificarse, como se muestra:
23
∑ (x i − x ) n i
2
1
∑ (x i − x ) n i ó S 2 = ∑ (x i − x ) fi
2 2 2
S = ó S2 = (en datos tabulados)
n n
Calcular la varianza en las inasistencias para los 20 estudiantes del grupo analizado:
clases Xi ni (x i − x )2 ni
20 - 25 22,5 6 703,7334 Se tiene que: x = 33,3
25 - 30 27,5 13 441,8557
30 - 35 32,5 11 7,5779 Por tanto:
35 - 40 37,5 11 191,2779
1 2568 ,045
∑ (x i − x ) n i =
40 - 45 42,5 5 420,4445 S2 =
2
= 128 ,4
45 - 50 47,5 4 803,1556 n 50
n=50 2568,0450
3. V(x ± k) = V(x) (La varianza de la suma de los valores de una variable más una
constante es igual a la varianza de la variable.)
4. V(kx) = k2 V(x) (La varianza del producto de los valores de una variable por una
constante es igual a la constante al cuadrado por la varianza de la variable.)
24
No obstante, la varianza, por la misma forma en que se define y calcula, indica el grado de
dispersión de los datos; se dice que es una medida de dispersión absoluta: mientras mayor es
la varianza en un conjunto de observaciones, mayor es su dispersión; por el contrario, si una
varianza nula indica que todas las observaciones coinciden en un mismo valor.
Puesto que la varianza pierde interpretación por estar su resultado en unidades cuadráticas,
resulta conveniente contar con otro estadístico que basado en el valor de la varianza sirva para
dar una medida de la dispersión en las mismas unidades o dimensiones en que están
expresados los datos y este estadístico es la desviación típica.
S = S2
EJEMPLO:
Sea X el precio de venta, en centavos, los distintos jabones de una marca dada:
X: 40 35 45 50 40
1 40 + 35 + 45 + 50 + 40
El precio promedio para la marca es: x = ∑ xi = = 42 ¢
n 5
1 130
∑ (x i − x ) =
2
La varianza es: S 2 = = 26 ¢ 2
n 5
Por tanto, la desviación estándar es: S = S 2 = 26 = 5,1¢
La desviación típica es una magnitud no negativa, y con el misma interpretación que la varianza
en cuanto a medida de dispersión absoluta, pero no cumple las restantes propiedades
matemáticas de aquella, pues la extracción de la raíz no lo permite.
COEFICIENTE DE VARIACIÓN
En ocasiones resulta necesario contar con un estadígrafo que refleje la dispersión sin depender
de la magnitud de las observaciones, esto es que sea un valor relativo. Esta necesidad surge
generalmente cuando se comparan las dispersiones entre varios conjuntos expresados en
unidades diferentes, o incluso entre variables expresadas en las mismas unidades pero con
diferencias significativas en sus valores medios. Este estadístico es el denominado coeficiente
de variación.
25
Sx
CV( x ) =
x
Del coeficiente de variación se dice que es una medida de dispersión relativa, por carecer de
unidades, o una medida de la variabilidad de los datos. Muchas veces su valor se multiplica por
100, para expresar el resultado en porciento.
EJEMPLO:
Sea cuenta con datos del peso y la estatura de un grupo de 20 niños entre 8 y 10 años,
y se desea saber cuál de las dos variables tiene mayor variabilidad.
X = 155 cm Y = 42 kg
S 2X= 110 cm 2
S 2Y = 20 kg2
S X = 10,5 cm S Y = 4,5 kg
En este caso no tiene sentido decir que hay mayor dispersión en términos absolutos en
la estatura, por el hecho de que la desviación estándar para dicha variable es 10,5
mientras que para el peso es 4,5, pues las unidades en que están expresadas ambas
no son comparables. Aquí cobran especial importancia los coeficientes de variación,
que quedan:
10,5 4,5
CV( X) = = 0,068 = 6,8% CV( Y ) = = 0,107 = 10,7%
155 42
De ello resulta que hay mayor variabilidad en el peso (10,7%) que en la estatura de los
niños (6,8%).
EJERCICIOS DE AUTOEVALUACIÓN
5.- ¿Cuál de los dos estadísticos, media y mediana, considera que es mejor para representar el
promedio? Explique su respuesta.
26
8.- ¿Qué indican las medidas de dispersión?
15.- Un fabricante de pilas para linternas tomó una muestra de 13 piezas de la producción de un
día y las utilizó de forma continua hasta que comenzaron a fallar. El resultado en horas de
funcionamiento fue:
342, 426, 317, 545, 264, 451, 1049, 631, 512, 266, 492, 562, 298
a.- Calcule la media, la mediana y la moda. ¿Qué medidas descriptivas parecen ser las mejores
y cuales las peores? ¿Por que?
b.- Calcule la varianza, la desviación típica y el coeficiente de variación.
c.- Utilizando la información anterior ¿qué se aconsejaría al fabricante si él deseara anunciar
que sus baterías duran 400 horas?
16.- Examinando los registros de cuentas mensuales de una empresa que vende
Li-1 Li ni
libros por correo, el auditor toma una muestra de 20 de esas cuentas no pagadas
10 15 4
(dadas en cientos de pesos). Los adeudos de la empresa eran:
15 20 6
a.- Calcule la media, la mediana y la moda.
b.- Calcule la varianza y el coeficiente de variación e interprete los resultados. 20 25 7
c.- A que conclusión llegaría acerca de la empresa conociendo que tiene 370 25 30 2
facturas pendientes de pago. 30 35 1
27
TEMA II: PROBABILIDADES.
La Teoría de las Probabilidades surge en el siglo XVII, relacionada con problemas de los juegos
de azar, y entre sus principales precursores estuvo el matemático Pascal, junto con Fermat,
Huygens y Bernoulli; algo después se sumó la importante contribución de De Moivre, Gauss,
Laplace y Poisson. Esta teoría se encarga del estudio de las leyes que rigen el comportamiento
de los fenómenos aleatorios, y es la base de la inferencia estadística, de ahí la necesidad de su
estudio si se quiere pasar de la mera descripción al trazado de predicciones.
Un fenómeno o experimento es, por el contrario, aleatorio cuando no se puede predecir con
exactitud el resultado del mismo aunque se conozcan las condiciones iniciales; esto es lo que
por lo general ocurre en el campo de las ciencias económicas y sociales.
Según lo dicho, si se va a dejar caer un dado desde una altura determinada, el hecho de que se
conozca cuál es la altura permitiría determinar antes y con exactitud, sobre la base de leyes
físicas, con qué velocidad llegará el dado al suelo, lo que hace de ésta una observación
determinista; sin embargo, no sería posible predecir con total certeza qué cara del dado
quedará hacia arriba, siendo esta otra una observación aleatoria.
La probabilidad, en una aproximación intuitiva, puede definirse como una medida cuantitativa de
que las posibilidades pueden llegar a ser realidades.
Para llegar a una definición más rigurosa de lo que lo que es probabilidad resulta útil dominar
algunos conceptos vinculados justamente con lo no medible con exactitud, con lo aleatorio:
28
N(S) = 2
Ej. 2: Lanzamiento de un dado... S: { 1, 2, 3, 4, 5, 6 }
N(S) = 6
S: { CC ; CE ; EC ; CC }
N(S) = 4
El espacio muestral puede ser finito o infinito según el conjunto tenga un número finito o infinito
de elementos (puntos muestrales).
Para establecer relaciones de sucesos con el espacio muestral o entre ellos mismos se utilizan
los diagramas de Venn. En un diagrama de Venn se suele representar el espacio muestral
como un rectángulo, y dentro de este, con círculos u otras formas geométricas los diferentes
sucesos de interés, así:
S
A
29
Los sucesos pueden clasificarse atendiendo a diferentes criterios; así, en dependencia de la
cantidad de puntos muestrales que lo constituyen se habla de sucesos simples y compuestos:
Suceso simple: Es aquel que consta de un solo punto muestral. (En el ejemplo anterior,
el suceso A.)
Suceso compuesto: Es aquel que tiene dos o más puntos muestrales. (En el ejemplo
anterior, los sucesos del B al G.)
Suceso imposible o nulo. Es aquel que nunca ocurrirá. (En el ejemplo anterior, el
suceso H.) Los sucesos imposibles constituyen conjuntos vacíos.
Además, en función del vínculo de un suceso o evento con otros existen las siguientes
denominaciones:
A⊂B
30
Nota: Un caso particular de sucesos excluyentes son los complementarios. Todos los
sucesos complementarios son excluyentes; lo contrario no necesariamente ocurre.
Sucesos exhaustivos: Se dice que dos sucesos son colectivamente exhaustivos cuando la
ocurrencia de ambos abarca el espacio muestral. (En el ejemplo anterior son no exhaustivos:
D y E, D y F.)
Nota: Un caso particular de sucesos exhaustivos son los complementarios. Todos los
sucesos complementarios son exhaustivos; lo contrario no necesariamente ocurre.
Para establecer la relación entre diferentes sucesos se recurre a las operaciones definidas por
el álgebra booleana en la propia Teoría de Conjuntos, entre ellas, las más usadas son:
Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un número mayor que
3) y D = { 2; 4; 6 } (que salga un número par), la intersección es el suceso dado por que
salga un número par y mayor que tres, es decir: B ∩ D ≡ BD = { 4; 6 }
B ∩ D ≡ BD
31
• Unión o suma: La unión de dos sucesos A y B da como resultado un suceso que
consiste en la ocurrencia de al menos uno de los dos sucesos, es decir que contiene
todos los puntos muestrales contenidos en A o en B (o en ambos). Se denota por A ∪ B
ó A + B.
Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un número mayor que
3) y D = { 2; 4; 6 } (que salga un número par), la unión es el suceso dado por que salga
un número par o mayor que tres, es decir: B ∪ D = { 2; 4; 5; 6 }
B∪D
Ej.: En el lanzamiento del dado, siendo C = { 1; 2 } (que salga un número menor o igual
que 2), el complemento unión es el suceso dado por que salga un número mayor que 2,
es decir: C’ = { 3; 4; 5; 6 }
C’ ≡ Cc
DEFINICIÓN CLÁSICA DE PROBABILIDAD:
En el siglo XIX, concretamente en el año 1812, Laplace formula la que es conocida como
definición clásica de probabilidad, que establece que:
Si S es un espacio muestral finito y todos los puntos muestrales son equivalentes o igualmente
representativos, entonces la probabilidad de ocurrencia de cualquier suceso A definido en S
puede calcularse como el cociente del número de resultados favorables al suceso A (tamaño
del suceso) entre el número de resultados posibles (tamaño del espacio muestral), así:
N( A )
P( A ) =
N(S)
Ejemplos:
La probabilidad de obtener el número 6 al lanzar un dado será:
A: Que salga el 6. N(A) = 1 P(A) = 1/6 = 0,167
32
La definición clásica también se conoce como definición a “priori” de probabilidad, porque no es
necesario realizar el experimento para calcular la probabilidad de ocurrencia. Esta definición
tiene las siguientes limitaciones:
1. No puede ser aplicada a espacios muestrales infinitos.
2. No puede ser aplicada cuando los puntos muestrales no son equiprobables, o lo que es
lo mismo, igualmente probables.
nA
P( A ) = lim = lim f A
n→ ∞ n n→ ∞
O sea, se espera que el arquero haga blanco un 70% de las veces que tire.
PROPIEDADES DE LA PROBABILIDAD:
• P(A) ≥ 0
• P(S) = 1
33
Lo anterior implica que: 0 ≤ P(A) ≤ 1
Nota: Es común multiplicar las probabilidades por 100 para expresarlas porcentualmente, y de
esta forma, lógicamente, resultará un número (un valor porcentual) entre 0 y 100.
EJERCICIOS DE AUTOEVALUACIÓN
5.- Explique la diferencia entre unión e intersección y proporcione un ejemplo de cada uno.
6.- ¿Cómo se define la probabilidad clásicamente? ¿Bajo que condiciones puede aplicarse?
9.- En una amplia red metropolitana se seleccionó una muestra de 500 entrevistados para
determinar diversas informaciones relacionadas con el comportamiento del consumidor.
Entre las preguntas hechas se encontraba: “¿disfruta ir de compras?”. De 240 hombres 136
contestaron que sí; de 260 mujeres 224 contestaron que sí.
a.- De un ejemplo de un evento simple.
b.- ¿Cuál es el complemento de disfrutar ir de compras?
c.- ¿Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria ...
c.1 sea hombre?
c.2 disfrute ir de compras?
c.3 sea mujer?
c.4 no disfrute ir de compras?
c.5 sea mujer y disfrute ir de compras?
c.6 sea hombre y no disfrute ir de compras?
c.7 sea hombre y disfrute ir de compras?
c.8 sea mujer o disfrute ir de compras?
c.9 sea hombre o no disfrute ir de compras?
34
2.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades.
Probabilidad condicional. Independencia de sucesos.
Dadas las limitaciones que presentan las dos definiciones previas, en 1933 se axiomatiza la
probabilidad a partir de la formulación de tres axiomas básicos. Entonces, si S es un espacio
muestral y A un suceso definido en S, se dirá, que todo suceso A definido en S está asociado a
un numero real P(A), llamado probabilidad de A, el cual cumplirá con los siguientes axiomas:
1. P(A) ≥ 0
2. P(S) = 1
3. P(A1 ∪ A2 ∪ A3 ∪ ... ∪ Ak) = P(A1) + P(A2) + ... + P(Ak) si los k sucesos son excluyentes
o lo que es lo mismo si para cada par Ai y Aj se tiene que AiAj = ø siendo i ≠ j.
De los axiomas establecidos para la probabilidad se derivan algunos teoremas que encuentran
aplicación directa en el cálculo de probabilidades, entre los más usados están:
P(A') = 1 - P (A)
35
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)
P(A’B’) = 1 - P(A ∪ B)
Ejemplo: De un grupo de 1000 habaneros: 420 leen Granma, 105 leen Juventud
Rebelde y 45 leen ambos periódicos.
a.- ¿Cuál es la probabilidad de seleccionar aleatoriamente un habanero del grupo
y lea Granma o Juventud Rebelde.
b.- ¿Qué probabilidad hay de que el habanero seleccionado no lea ninguno de los
periódicos?
c.- ¿Qué probabilidad hay de que lea sólo Granma?
Se tiene:
N(S) = 1000
N(G) = 420, por tanto: P(G) = 0,42
N(J) = 105, por tanto: P(J) = 0,105
N(GJ) = 45, por tanto: P(GJ) = 0,045
PROBABILIDAD CONDICIONAL:
36
P( AB)
P( A / B) =
P(B)
También se puede calcular la probabilidad condicional directamente a partir del tamaño de los
sucesos:
N( AB)
P( A / B) =
N(B)
Ejemplo: En una escuela de idiomas se ha visto que el 70% de los estudiantes termina
bien el primer año de Inglés, y que un 59,5% termina bien los dos años de estudio. Se
quiere determinar la probabilidad de que un estudiante termine bien el segundo año.
P( AB) 0,595
Entonces: P(B / A ) = = = 0,85
P( A ) 0,70
De la misma forma:
P(ABC) = P(A)P(B/A)P(C/AB)
Ejemplo. De una urna que contiene 4 esmeraldas y 1 brillante, se extraen 2 piedras, una a una,
sin reposición. Calcule la siguiente probabilidad.
a.- Que la 1ra piedra sea esmeralda y la 2da brillante.
b.- Que las dos piedras sean esmeraldas
c.- Solo una sea esmeralda.
Solución: como es sin reposición las extracciones, entonces los sucesos son dependientes,
además que piden orden.
a.- P(E1 B2 )= P(E)P(B/E)
= 4/5 . 1/4
= 4/20 = 1/5 = 0.20
b.- P(E1 E2)= 4/5 . 3/4
= 16/20 = 6/10 = 0.6
c.- P(E1 B2 ∪ B1 E2) = P(E)P(B/E) + P(B)P(E/B)
37
= 4/5 . 1/4 + 1/5 . 4/4
= 4/20 + 4/20 = 8/20 = 4/10 = 0.4
INDEPENDENCIA DE SUCESOS:
1. P(A/B) = P(A)
2. P(B/A) = P(B)
3. P(AB) = P(A) P(B)
Se debe aclarar que sólo se puede comprobar independencia a través de esta última fórmula si
se tienen las 3 probabilidades y comprobar si la intersección es igual al producto de la
probabilidad de ambos sucesos.
Ejemplo:
Si una caja contiene 100 piezas de las cuáles 20 son defectuosas y se extraen aleatoriamente 2
piezas una a una (con reposición). ¿Cuál será la probabilidad de obtener una pieza defectuosa
en la primera extracción?:
P=20/100=0.20
P=20/100=0.20, es decir exactamente igual, esto es debido a que se repuso la primera pieza.
Por tanto, cuando las observaciones son con reposición se puede considerar que son
independientes, pues lo que ocurre en la segunda extracción es independiente de lo que
ocurre en la primera (y así con las sucesivas, si hay más). Pero si no se repone, es decir,
se hacen las observaciones “sin reposición” la probabilidad de cada observación
depende de las anteriores.
Si de la caja de 100 piezas en la primera extracción sale una pieza defectuosa, la probabilidad
de pieza defectuosa en la segunda extracción, sin reponer la primera pieza tomada, será 19/99;
pero si lo que sale en la primera extracción es una pieza en buen estado, entonces la
probabilidad de pieza defectuosa en la segunda extracción será 20/99.
Generalmente para los juegos de azar, es fácil decidir si dos sucesos son independientes o no.
Para otros experimentos aleatorios, se debe tener más cuidado.
38
Diga si:
a.- A y B son independiente
b.- A y C son mutuamente excluyentes
c.- B y C son independientes
d.- A y B son equiprobables
a.- P(A/B) = P(A) ya que para que A y B sean independientes se debe cumplir esta relación.
Pero P(A/B) = 0 y P(A) = 0.40 luego son diferentes por tanto no son independiente.
b.- Para que sean mutuamente excluyentes se debe cumplir que P(AC)=0, ya que al no tener
elementos comunes(AC), la intersección es igual al conjunto vacío.
Como P(A/C)=0 eso implica que P(AC)=0 ya que P(A/C)=P(AC)/P(C) por lo tanto los sucesos
A y C son mutuamente excluyentes.
c.- P(B/C) = P(B) ó P(C/B) = P(C) ya que para que sean independientes se debe cumplir
cualquiera de las dos.
P(C/B) = P(C)
0 ≠ 0.15 Por tanto, no son independientes.
d.- Para que sean equiprobables se debe cumplir que P(A) = P(B), pero:
P(A) = 0.40 ≠ P(B) = 0.42, por tanto no son equiprobables.
EJERCICIOS DE AUTOEVALUACIÓN
1.- ¿Cuáles son los axiomas sobre los que descansa la teoría axiomática de la probabilidad?
39
d.2.- ¿Sea hombre o no disfrute ir de compras?
d.3.- ¿Sea hombre o mujer?
Utilice para el inciso “d” las propiedades de la definición axiomática de probabilidad.
7.- A partir de una investigación realizada, se supo que el 70% de los hombres son fumadores;
y que padecen afecciones respiratorias dado que son fumadores un 50%. Además se conoció
que no siendo fumadores, dado que padecen de afecciones existen un 40%, Si se realiza el
experimento de seleccionar un individuo del grupo al azar, diga:
a.- Probabilidad de que no sea fumador.
b.- Probabilidad de que sea fumador y padezca de afección pulmonar.
c.- Probabilidad de que fume dado que padece de los pulmones.
d.- Probabilidad de que no padezca de afecciones pulmonares dado que fuma
e.- Probabilidad de que padezca de afección respiratoria.
40
TEMA III: DISTRIBUCIONES TEÓRICAS DE PROBABILIDAD
En este tema que se estudiarán las distribuciones teóricas de probabilidad, que son modelos
teóricos basados en las probabilidades, establecidos para describir el comportamiento de
variables en cuyos valores hay incidencias aleatorias, y que se utilizan atendiendo a las
características de la situación existente.
Se dice que una variable es aleatoria si sobre cuyos valores influye de alguna manera la
aleatoriedad o azar.
Una manera más matemática de expresarlo es la siguiente: una variable aleatoria "X" es una
aplicación definida en un espacio muestral S, que toma valores reales, o sea es la
transformación del espacio muestral en un conjunto numérico, mediante X.
La mayor parte de las variables aleatorias se pueden expresar numéricamente, y por tanto son
clasificables igualmente en discretas y continuas: son discretas las que toman un conjunto finito
-o infinito, pero numerable- de valores; son continuas las que pueden tomar cualquier valor real
de un intervalo.
Ejemplo:
Experimento: lanzamiento de una moneda dos veces.
El espacio muestral es: S = { CC EE CE EC }
Si lo que interesa es conocer la cantidad de caras que pueden aparecer, se define
entonces la variable aleatoria X: número de caras que aparecen, siendo su espacio
muestral o dominio de definición:
X = { 0, 1, 2 }
Como para una variable aleatoria es imposible saber con exactitud qué valor tomará en un
momento dado, para describir el comportamiento de las mismas se recurre al uso de las
probabilidades...
FUNCIÓN DE PROBABILIDAD:
41
Si la función de probabilidad [f(x)] es discreta también se le denomina función de cuantía, y
muchos autores la representan entonces como p(x). Para que sea una función de probabilidad,
la función de cuantía, debe cumplir las siguientes propiedades:
Xmax b
1.- f (x) ≥ 0 2.- ∫ f ( x)dx = 1
Xmin
∫
3.- P(a < x ≤ b) = f ( x )dx
a
4.- P (X = Xk) = 0
Esta última propiedad nos indica que para variables continuas la probabilidad de tomar un valor
puntual es nula, y esto conlleva que para las variables continuas se cumpla lo siguiente:
FUNCIÓN DE DISTRIBUCIÓN:
Existe otra función que está íntimamente relacionada con las funciones de probabilidad, la cual
se denomina función de distribución o función de acumulación probabilística, y se denota
por F(x).
42
P(x1 < x ≤ x2) = F(x2) - F(x1)
P(x1 ≤ x ≤ x2) = F(x2) - F(x1) + f (x1)
P(x1 < x < x2) = F(x2) - F(x1) - f (x2)
P(x1 ≤ x < x2) = F(x2) - F(x1) + f (x1) - f (x2)
Xk
∂ F( x )
∫
F( x k ) = f ( x) dx
Xmin
y
∂x
= f(x)
Solución:
a.- Propiedad f (x) ≥ 0
f (x0)= 1/10; f (x1)= 2/10; f (x2)= 3/10; f (x3)= 4/10; por tanto f (x) > 0
43
2 3/10 6/10
3 4/10 10/10
Nota: Como se ve, si la variable es discreta F(x), se determina de la mismo que Fi, es
decir las frecuencias relativas acumuladas.
3
d.- P(x ≥ 1) = ∑ f (x) = 1 - f (x = 0) = 1 - 1/10 = 9/10 = 0.9
x=1
2.-Sea f (x) = 1/18(3 + 2x) una función de densidad para 2 < x < 4
a.- Verifique si se cumplen las propiedades de f (x)
b.- Calcule P(x < 3)
c.- P(x ≥ 3)
d.- P(x = 3)
e.- Halle F(x)
f.- Calcule P(2 < x ≤ 3) haciendo uso de la F(x)
Solución:
4
d.- P(x=3) = 0
xk
44
= 1/18(8 - 0) = 8/18 = 4/9 = 0.44
Entre los parámetros más usados están la media, como medida de posición, y la varianza como
medida de dispersión.
El valor medio de una variable aleatoria, se denomina media teórica, valor esperado o
esperanza matemática, y se denota por E(x) ó μ.
La media o valor esperado de una variable aleatoria se puede considerar como su promedio
ponderado sobre todos los resultados posibles siendo las "ponderaciones" la probabilidad
relacionada con cada uno de los resultados.
El cálculo del valor esperado está en dependencia si se está trabajando con variables
aleatorias discretas o continuas. En el caso de las variables aleatorias discretas, esta medida de
resumen se puede obtener multiplicando cada posible de la variable, xi, por su probabilidad
correspondiente, P(xi) o f(xi), y después sumando los productos resultantes, así:
μ = E (x) = ∑ x f(x)
En el caso de las variables aleatorias continuas, esta medida de resumen se obtiene integrando
el producto de la variable x por su función de probabilidad, desde el valor mínimo de la variable,
xmin, hasta su valor máximo, xmax, de la siguiente forma:
Xmax
μ = E( x ) = ∫ x f ( x) dx
Xmin
2.- La esperanza del producto de una constante por una variable es igual a la constante por la
esperanza de la variable:
E (kx) = k E (x)
4.- La esperanza de la suma (o resta) de una constante y una variable es igual a la constante
más la suma (o resta) de la esperanza de x:
45
E (k ± x) = k ± E (x)
6.- Si x e y son variables aleatorias independientes entonces, la esperanza del producto de "x" e
"y" es igual al producto de la esperanza de "x" y de la esperanza de "y":
E (xy) = E (x) E (y)
7.- La esperanza del producto de la suma de n, variables y constantes es igual a la suma del
producto de las "n" constantes por las esperanza de las variables.
E (C1x1 + C2x2 + ... + Cnxn ) = C1E (x1) + C2E (x2) + ... + CnE (xn)
VARIANZA
V(x) = E (x - μ)2
También se simboliza por σ2 (sigma al cuadrado, letra griega). Esta definición hace un tanto
difícil el cálculo de la varianza, ya que como se dijo anteriormente en el cálculo de la esperanza,
la variable, es lo que está dentro del paréntesis, y en este caso lo que está dentro del
paréntesis, es (x - μ)2.
Por lo tanto para el cálculo de la varianza para una variable aleatoria discreta sería:
x max
∫ ( x − μ)
2
V( x ) = f ( x )dx
x min
Haciendo transformaciones matemáticas se puede llegar a obtener una fórmula de cálculo para
la varianza que es mucho más cómoda.
Propiedades de la varianza:
46
3.- La varianza del producto de una constante por una variable es igual a la constante al
cuadrado por la varianza de la variable:
V(kx) = k2 V(x)
4.- La varianza de la suma de una constante más una variable es igual a la varianza de la
variable:
V(k+x) = V(x)
6.- La varianza de la suma del producto de "n" variables por "n" constantes es igual a la suma
del producto de las "n" constantes al cuadrado por las varianzas de las variables:
Solución:
Primeramente se debe definir si es una variable aleatoria discreta o continua, ya que en
dependencia del tipo de variable así será su cálculo. En este caso es discreta, se sabe, porque
la variable toma valores definidos: 1, 2, 3, y 4.
Para los cálculos se necesitarán los productos x f (x) y x2 f (x), que se pueden tabular:
x: 1 2 3 4
f(x): 1/6 1/3 1/6 1/3
x f(x) 1/6 2/3 3/6 4/3
x2 f(x) 1/6 4/3 9/6 16/3
Entonces:
E (x)= μ = ∑ x f (x) = 1/6 + 2/3 + 3/6 + 4/6 = (1+4+3+8)/6 = 16/6 = 2,66
E(x2) = ∑x2 f (x) = 1/6 + 4/3 + 9/6 + 16/3 = (1+ 8 + 9 + 32)/6 = 50/6 = 8.33
47
Solución:
¿Qué tipo de variable es esta? La forma de presentar el recorrido de la variable x, indica que
es una variable continua.
2 2
1 ⎛ x3 ⎞
2
1 2 1⎛8 ⎞ 8 4
∫0
∫
a.- E( x ) = x f ( x )dx =
20
x dx = ⎜⎜ ⎟⎟ = ⎜ − 0 ⎟ = = = 1.33
2⎝ 3 ⎠ 2⎝3 ⎠ 6 3
0
2 2
1 ⎛ x4 ⎞
2
⎟ = ⎛⎜ ⎞ 16
1 3 1 16
∫ ∫
x dx = ⎜⎜
2 2
E( x ) = x f ( x )dx = ⎟ − 0⎟ = =2
0
20 2⎝ 4 ⎠0 2⎝ 4 ⎠ 8
EJERCICIOS DE AUTOEVALUACIÓN
1.- ¿Qué entiende por variable aleatoria? ¿A qué se denomina función de probabilidad? ¿Cómo
se denomina a la función de probabilidad de una variable aleatoria discreta y cómo a la de una
variable continua? ¿Cómo se define la función de distribución?
48
3.2: Distribución binomial: características y uso. Distribución de Poisson:
características y uso.
Entre las distribuciones probabilísticas más usadas asociadas a variables aleatorias discretas
cabe citar las siguientes: Bernoulli, binomial, binomial negativa, geométrica, hipergeométrica y
Poisson
DISTRIBUCIÓN BINOMIAL
n n
⎛ n ⎞ x n− x n
n!
(p + q)n = ∑
x =0
Cnx p x qn− x ≡ ∑ ⎜⎜ ⎟⎟ p q
x =0 ⎝ x ⎠
≡ ∑ x!(n − x )! p q
x =0
x n− x
⎛n⎞
Donde el símbolos Cnx y ⎜⎜ ⎟⎟ son equivalentes y se leen “combinatoria de n con x”, siendo:
⎝x⎠
⎛n⎞ n!
C nx ≡ ⎜⎜ ⎟⎟ =
⎝ x ⎠ x! (n − x )!
2.- Características:
49
xk
4.- Función de Distribución: F( x k ) = ∑ f ( x)
x min
5.- Parámetros:
n
μ = E(x) = ∑ xf( x ) = np
x =0
σ2 = V(x) = E(x2) - [E(x)]2 = npq
La distribución binomial queda definida por dos parámetros: "n" y "p", y cada vez que se
especifican estos parámetros se tiene un caso particular de distribución binomial. La
notación anterior se lee: X sigue una distribución binomial con parámetros n y p.
7.- Forma: Una distribución binomial puede ser simétrica o asimétrica (sesgada).
Siempre que p = 0.5, la distribución binomial será simétrica, sin tomar en cuenta que tan
grande o pequeño sea el valor de “n”. Sin embargo, cuando “p” es diferente de 0.5, la
distribución será sesgada. Cuanto más cerca se encuentre “p” de 0.5 y mayor sea el
número de observaciones “n”, menos sesgada será la distribución, por otra parte, con
una “p” pequeña la distribución tendrá un gran sesgo a la derecha y para una “p” muy
grande la distribución tendría un gran sesgo a la izquierda.
- EN LA EDUCACION.
¿Qué probabilidad tiene un estudiante de aprobar un examen de 5 preguntas de opción
múltiple (cada una de ellas contiene 4 opciones) si adivina en cada pregunta? (Aprobar se
define como lograr correcto el 60% de las preguntas; es decir, acertar por lo menos 3
preguntas)
- EN LAS FINANZAS.
¿Cuál es la probabilidad de que cierta acción mostrar un aumento en su precio al cierre, en
una base diaria durante 10 sesiones (consecutivas) de operaciones, si en realidad los cambios
de precios en el mercado accionario son aleatorios?
Los cálculos de probabilidad a partir de la función, pueden llegar a ser muy laboriosos, en
especial cuando aumenta “n”, por ello se han desarrollado tablas con los valores de esta
distribución para diferentes combinaciones de n y p, y un fragmento de estas tablas puede
consultarse en la Selección de tablas estadísticas.
La tabla de la binomial tiene en la primera fila los valores de “p”; en la primera columna los
valores de “n” y en la segunda columna los valores de x, pero están representados en ella por
una k.
50
Sin embargo debe tenerse en cuenta que no están todos y cada uno de los valores de “p” que
se necesitan; y hay casos en que, al ser p > 0.5, sería necesario redefinir el cálculo en términos
de la variable complementaria (el fracaso), para la cual de éxito es la “q”, y buscar entonces en
la tabla los valores equivalentes de x (esto se verá concretamente en un ejemplo).
Ejemplo 1.
En la industria rayonera de Matanzas se está realizando una investigación acerca de la
disciplina laboral.
Las estadísticas demuestran que el 5% de los obreros son ausentistas, si se selecciona una
muestra aleatoria de 5 trabajadores. Calcule la probabilidad que:
a.- 2 de ellos sean ausentistas.
b.- entre 3 y 5 sea ausentistas.
c.- de que todos asistan.
d.- al menos 4 sean ausentistas
Solución
Aquí se puede observar que la distribución binomial se ajusta, ya que:
- el resultado se puede clasificar en éxito y fracaso (ausentistas y no ausentistas
respectivamente)
- las pruebas son independientes, es decir que un obrero sea ausentista es independiente de
que otro lo sea.
- n es finito (se analizarán 5 trabajadores).
- p es constante (el 5% de los trabajadores son ausentistas).
51
Por tanto puedo decir que X ∼ B(5 ; 0,05)
Ejemplo 2.
La probabilidad de que un avión de combate regrese de una misión sin sufrir daños es de 0.85
y se envían 4 aviones a una misión, hallar la probabilidad de que:
a.- De 2 a 4 regresen sin sufrir averías.
b.- Al menos 3 regresen sin sufrir daños.
c.- A lo sumo dos regresen sin sufrir daños.
d.- Probabilidad de que todos regresen dañados.
e.- ¿Cuál es el promedio de aviones que no debe sufrir daños?
Solución:
Como en la tabla no está p = 0.85 > 0.5 habría que usar la función y sustituir los valores en ella
para calcular las probabilidades deseadas. No obstante, se puede utilizar la variable
complementaria de X y replantear los cálculos en términos de esto, con la equivalencia
adecuada entre X y X’.
Para buscar la equivalencia entre lo que pide el problema y como se tiene expresada la
variable se puede hacer una tabla que ayude a ver claramente lo que se va a calcular.
Que regrese 1 avión sin sufrir daño es lo mismo que decir que regresen 3 dañados; que
regresen 3 aviones sin sufrir daños es lo mismo que decir que regrese 1 avión dañado…
O sea, se busca la equivalencia entre la variable original y su complemento.
52
a.- P(2 ≤ x ≤ 4) ≡ P(x’ ≤ 2) = f (0) + f (1) + f (2) = 0.5220 + 0.3685 + 0.0975 = 0.9880
c.- P(x ≤2) ≡ P(x’ ≥ 2) = f(2) + f(3) + f(4) = 0.0975 + 0.0115 + 0.0005 = 0.1095
d.- P(x’ = 4) = 0.005 (Esta pregunta está realizada directamente en términos de la variable
complementaria, de ahí que no haya que buscar equivalencia.)
DISTRIBUCIÓN DE POISSON
Esta distribución se refiere a aquellas situaciones en las cuales el suceso ocurre repetidamente,
pero al azar, es decir sin seguir una periodicidad dada, se produce aleatoriamente.
A la ocurrencia del suceso se le denomina cambio.
Estos cambios pueden ocurrir en el tiempo, o en puntos aleatorios, o en una línea de espera; es
decir pueden formularse en función del tiempo, unidades de longitud, área o volumen etc..
El interés estará centrado en: número de cambios que ocurren en un intervalo dado. Ejemplos:
Número de barcos que llegan al puerto de la Habana en una semana; número de negocios que
cierran, por semana, en Ciudad de la Habana.
xk
4.- Función de Distribución: F( x k ) = ∑ f (x)
x min
53
5.- Parámetros:
μ =λ Coinciden numéricamente aunque por supuesto μ está expresada en
σ2 = λ unidades lineales y σ2 en unidades cuadráticas.
Forma:
La distribución de Poisson estará sesgada hacia la derecha cuando λ es pequeña. Se
acercará a la simetría (con su punto más alto en el centro) según aumente λ.
Ejemplos: Supóngase que se estudian las llamadas recibidas por hora en una central
telefónica. Cualquier llamada que se reciba es un evento discreto en un punto dado
durante un intervalo continuo de una hora.
En una hora se recibirán 180 llamadas como promedio. Ahora si se dividiera el intervalo
de una hora en 3600 intervalos consecutivos de un segundo, se tendría:
λ = 180/3600 = 0.05/segundos
2.- La probabilidad de recibir más de una llamada en cualquier intervalo de una fracción
de segundo es cero.
3.- Recibir una llamada en un segundo dado no tiene efecto (o sea, es estadísticamente
independiente) sobre recibir otra llamada en cualquier otro intervalo de un segundo.
La tabla de la Poisson tiene en la primera fila los valores de λ, y en la primera columna los
valores de x designados en esta tabla por k. En ella aparecen grupos de valores para valores de
λ desde 0.1 hasta 8, estando estos grupos definidos hasta donde "x" puede tomar valores,
proporciona los valores de λ con aproximación hasta la décima.
Se debe señalar que para cálculos con valores de λ mayores de 8 se puede acudir a la tabla de
la función exponencial, en la columna de exponentes negativos (e-x), que está en la página 20
de la Selección de tablas estadísticas; y sustituir luego en la fórmula de la función de Poisson el
valor correspondiente.
54
Ejemplo 1
Una pizarra telefónica recibe 480 llamadas en una hora, pero no puede recibir más de 12
llamadas en un minuto.
Determine:
a.- La probabilidad de que se produzcan 10 llamadas en un minuto.
b.- La probabilidad de que la pizarra quede saturada en medio minuto (30 segundos).
c.- La probabilidad de que se produzcan a lo sumo 1 llamada en un minuto dado.
d.- La probabilidad de que se produzcan más de 2 llamadas en un minuto.
e.- El número de llamadas esperadas en cinco minutos.
Solución:
x: # de llamadas que se reciben en un minuto
λ0 = 480 llamadas/hora (promedio histórico conocido)
Nota: Para los cálculos posteriores se debe convertir el promedio conocido a las mismas
unidades de los intervalos de interés, en este caso pasar de llamadas por hora a
llamadas por minuto.
Nota: para cada cálculo de probabilidades que interese se debe atender también al
intervalo (I) en el que se efectúa el conteo de ocurrencias, pues si no coincide con el
55
intervalo asociado al promedio histórico, es necesario calcular el promedio (λ)
correspondiente a dicho intervalo, lo cual se hace multiplicando el tamaño del intervalo
por el promedio histórico.
b. I = ½ min (por tanto λ = λ0/2 = 4 ). Lo buscado ahora es P(x > 12), porque como la pizarra
no puede recibir más de 12 llamadas en un minuto, quedaría saturada si recibe más de 12...
P(x >12) = 1 - P(x ≤ 12) = 1 - [ P(x=0) + P(x=1) + P(x=2) + P(x=3) +.... + P(x =12) ]
= 1 - 0.9997 = 0.0003
Nota: Se debe tener en cuenta que en la distribución de Poisson "x" toma valores desde
0 hasta infinito, por tanto NUNCA SE PUEDE CALCULAR DIRECTAMENTE P(x > Xk) ni
P(x ≥ Xk), cualquiera sea Xk, sino que siempre en estos casos hay que trabajar con el
complemento. Y al hacer esto, si la igualdad está en la parte izquierda de la expresión
no debe estar en la derecha, que es su complemento; y si la igualdad no está en la parte
izquierda, debe estar en la derecha.
Ejemplo 2
Sea una distribución de Poisson donde f (0) = 0.00674
Se pide:
a.- Hallar el valor de λ
b.- Calcular la probabilidad de que X = 0 , en un intervalo 1,5 veces el original.
Solución:
e − λ λ0
a.- Se sabe que f (0) =
0!
Pero: λ0 = 1 y 0! = 1 (por propiedad del factorial).
Entonces, basta con encontrar qué valor de λ cumple que e-λ=0.00674 (para ello se puede usar
la tabla de e-x que está en la página 20 de la selección de tablas estadísticas).
56
EJERCICIOS DE AUTOEVALUACIÓN
1.- ¿Qué expresa la variable X en una distribución binomial, y cuál es su recorrido? ¿Cuales son
las características de la distribución binomial? ¿Qué parámetros la definen? ¿Cuál es su media
y cuál su varianza?
2.- ¿Qué expresa la variable X en una distribución de Poisson, y cuál es su recorrido? ¿Cuales
son las características de una distribución de Poisson? ¿Qué parámetros definen la distribución
de Poisson? ¿Qué representa λ en la distribución de Poisson? ¿Cuál es la media y la varianza
en la distribución de Poisson?
3.- Sobre la base de la experiencia anterior, la impresora principal del centro de cómputo de
cierta universidad funciona adecuadamente el 90% del tiempo. Si se hace una muestra aleatoria
de 10 inspecciones:
a.- ¿Cuál es la probabilidad de que la impresora principal funcione en forma apropiada...
a.1.- exactamente nueve veces?
a.2.- por lo menos nueve veces?
a.3.- cuando más 9 veces?
a.4.- más de 9 veces?
a.5.- menos de 9 veces?
b.- ¿Cuantas veces se puede esperar que funcione en forma apropiada la impresora
principal?
4.- El número promedio de automóviles que se detienen por minuto para tomar gasolina en
cierta gasolinera perteneciente a CUPET de Ciudad de la Habana es 1.2. ¿Cuál es la
probabilidad de qué en determinado minuto se detengan...
a.- menos de dos automóviles?
b.- más de tres automóviles?
c.- menos de dos automóviles ó más de tres?
d.- dos ó tres automóviles para tomar gasolina?
e.- al menos dos automóviles?
57
3.3: Distribución normal o de Gauss. Distribución chi-cuadrado. Distribución t de
Student. Distribución F de Fisher.
Los modelos continuos tienen aplicaciones importantes en los negocios y en las ciencias
sociales, además de en la Ingeniería y la Física.
Entre las distribuciones probabilísticas más usadas con variables aleatorias continuas cabe citar
las siguientes: uniforme, exponencial, normal, chi-cuadrado, t’Student y F de Fisher.
En las distribuciones continuas tiene una marcada importancia la función de distribución ya que
a partir de sus propiedades es factible calcular fácilmente probabilidades, así:
(No obstante, en variables continuas no hay diferencia si el signo es < ó ≤, o si es > ó ≥, ya que
la probabilidad de un valor puntual es nula.)
Para aquellas distribuciones continuas de amplio uso, lo que se recoge en tablas son valores de
la función de distribución (F).
1.- CARACTERISTICAS:
- Tiene la forma de una campana boca a bajo.
- Es simétrica con respecto a X = μ
- La función está definida en todo el eje X
- La función tiene un máximo en X = μ = Me = Md
- Tiene dos puntos de inflexión en μ +σ y μ - σ
- Su variable aleatoria asociada tiene rango infinito (− ∞ < Χ < ∞ )
58
4.- PARAMETROS: La media en esta distribución es μ y la varianza es σ2 por lo que la misma
queda definida por estos dos parámetros ya que "e" y " π " son constantes matemáticas.
5.- REPRESENTACION
X ∼ Ν(μ, σ)
Por lo tanto, habrá tantas curvas normales como valores o combinaciones particulares de μ y σ
haya.
Toda distribución normal con media μ y desviación típica σ tiene la característica de tener el
área bajo la curva de su función de densidad, distribuida de la siguiente forma:
1. P(μ −σ < Χ < μ+σ) = 68.27% del área bajo la curva normal
2. P(μ −2σ < Χ < μ+2σ) = 95.45% del área bajo la curva normal
3. P(μ −3σ < Χ < μ+3σ) = 99.73% del área bajo la curva normal
Como es una variable continua para calcular probabilidad se tendría que integrar la función de
X, en el intervalo que se quiere hallar la probabilidad.
La única forma de hacer una tabla para evitar este cálculo sería estandarizando la variable, es
decir cualquier variable aleatoria normal X, se convierte en una variable aleatoria estandarizada
"Z" que siempre tendría como media cero y desviación típica 1; y así se tendría la posibilidad
de tabular los resultados.
1
1 − Z2
Pues bien Z ∼ N (0 ; 1) y su función de probabilidad es: f ( z ) = e 2
2π
x−μ
Donde: Z =
σ
59
La estructura de la tabla normal es la siguiente: En la primera columna se tienen los valores de
Z, hasta la aproximación de la décima y en la primera fila la aproximación de la centésima.
Como se dijo anteriormente en esta tabla están registrados los valores de la función de
distribución, por tanto son valores acumulados, es decir la probabilidad acumula desde menos
infinito (-∞) hasta el valor de Z que se busca; dichas probabilidades están en el cuerpo de la
tabla.
Nota: Queda claro, no obstante, que cualquier valor de probabilidad, independientemente del
signo de Z, será positivo.
60
Así para una Zk = -2,82 la probabilidad acumulada es 0,0024, es decir, esa es la probabilidad de
que la variable Z tome algún valor entre menos infinito y Zk = -2,82.
Igualmente, para Zk= 2,64 la probabilidad acumulada es 0,9959, lo que indica que una variable
Z tiene un 99,59% de tomar algún valor menor o igual a 2,64.
Solución:
Ante todo, se debe observar que se conoce la varianza (σ2 = 25), y por tanto la desviación típica
para la variable es σ = 5.
a.- P(X < 23,5) = P(Z < (23,5 - 23)/5) = P(Z < 0,5/5) = P(Z < 0,1) = Fz(0,1) = 0,5398
b.- P(X > 10) = 1 - P(X < 10)= 1 - P(Z < (10-23)/5)= 1 - P(Z < -13/5)
= 1 - P(Z < -2,6) = 1 - Fz(-2.6) = 1 - 0.0047 = 0.9953
c.- P(X > 23) = 0.50 Esto no hay ni que buscarlo en la tabla porque el área bajo la curva es 1
por tanto de la mitad al final de la distribución será la mitad, (0.50) pero además, en este punto
"Z" es igual a cero, y buscando Z=0 daría también Fz(0) = 0.50
d.- P(8 < X < 21) = P[(8-23)/5 < Z < (21-23)/5]= P(-15/5 < Z < -2/5)=
= P(-3 < Z < -0.4)= Fz(-0.4) - Fz(-3) =
61
= 0.3446 - 0.0013 = 0.3433
e.- P(25 < X < 30) = P[(25-23)/5 < Z < (30-23)/5]= P(2/5 < Z < 7/5)=
= P(0.4 < Z < 1.4) = Fz(1.4) - Fz(0.4) =
= 0.9192 - 0.6554 = 0.2638
f.- P(X < 20) = P(Z < (20-23)/5) = P(Z < -3/5) = P(Z < -0.6) =
= Fz(-0.6) = 0.2743
g.- P(X < 25) = P(Z < (25-23)/5) = P(Z < 2/5) = P(Z < 0.4) =
= Fz(0.4) = 0.6554
Solución:
Sea X el peso neto de las cajas de talco: X ∼ N (15 ; 0,8)
Al tratarse de una variable con distribución normal, se debe estandarizar la misma en cada
cálculo para hacer uso de la tabla.
a) P(X < 13) = P(Z < (13 - 15)/0,8) = P(Z < -2,5) = Fz(-2,5) = 0,0062
b) P(X > 16) = P(Z > (16 -15)/0,8) = P(Z > 1,25)= 1 - P(Z ≤ 1,25) = 1 - Fz(1,25)
= 1 – 0,8944 = 0,1056
(El 10,6% de las cajas tendrá pesos netos mayores de 16 onzas.)
62
c) P(15 < X < 16) = P[(15 -15)/0,8 < Z < (16 -15)/0,8] = P(0 < Z < 1,25)
= Fz(1,25) - Fz(0) = 0,8944 – 0,5 = 0,3944
(El 39,4% de las cajas tendrán pesos netos entre 15 y 16 onzas.)
Debe destacarse aquí que la probabilidad acumulada hasta el extremo inferior no era
necesario calcularla, pues dicho extremo coincide con el valor de la media de la variable
(μ=15, ó z=0 para la variable estandarizada), y conociendo que la distribución normal es
simétrica respecto a su media se deduce que hasta el punto X=μ (z=0) se acumula un 50%
de probabilidad.
d) Para resolver esto lo primero es ubicar las cajas menos pesadas, que son aquellas ubicadas
en la cola o extremo izquierdo de la curva. De ellas interesan las que representan el 20%
del total, y se quiere determinar el peso (Xk) que acota superiormente a ese 20% de cajas;
por tanto, puede plantearse que:
P(X < Xk) = 0,20
Entonces, de la misma manera se
tiene que:
P(Z < Zk) = 0,20
Se concluye, pues, que el peso máximo para el 20% de las cajas menos pesadas es de
14,328 onzas.
e) Ahora interesan las cajas más pesadas, que son las ubicadas en la cola o extremo derecho
de la curva, y de ellas importa las que representan el 10% del total. O sea, se quiere
63
determinar el peso (Xk) que acota inferiormente a ese 10% de cajas; y puede plantearse
que:
P(X > Xk) = 0,10
Así, se tiene también que:
Y despejando Xk:
Xk = Zk σ + μ = 1,28 ⋅ 0,8 + 15 = 15 + 1,024 = 16,024
Se concluye, pues, que el peso mínimo para el 10% de las cajas más pesadas es de 16,024
onzas.
DISTRIBUCIÓN CHI-CUADRADO
Si Z1, Z2,..., Zv, son variables aleatorias normalmente distribuidas e independientes con media
cero y varianza 1, la suma de sus cuadrados, se representan en general por χ2 (letra griega chi,
o ji, al cuadrado) y donde:
χ2 = Z12 + Z22 + ... + Z v2
64
f ( x ) = Kν χ (ν − 2 )/ 2 e -x/2 Cuando x > 0
y ƒ(x ) = 0 cuando x ≤ 0
En esta función ν (nu), representa los llamados grados de libertad de la distribución, y Kν es una
constante que depende de ν.
¿Qué son los grados de libertad? Los grados de libertad constituyen la cantidad de valores
independientes que admite un conjunto de observaciones a partir de determinadas condiciones
que tiene que cumplir dicho conjunto. Así, si se dice que una variable tiene n -1 grados de
libertad esto indica que solo n -1 de los valores de la muestra están libre para variar. Se puede
demostrar este concepto de la forma siguiente.
Caso ilustrativo:
Suponga que se tiene una muestra de 5 elementos de la que se sabe que la media
es igual a 20. ¿Cuantos valores diferentes se necesitarían conocer antes de poder
obtener el resto? n
Por lo tanto una vez que se conocen 4 valores el quinto no tendrá "libertad de variar",
puesto que la suma tiene que ser 100. Digamos que 4 de los valores son: 18, 24, 19, y
16, el quinto solo puede ser 23 para que todos sumen 100.
Una variable chi cuadrado está definida para cualquier valor real positivo, o sea: χ2 ≥ 0. La
distribución χ2 es asimétrica, deformada a la derecha, y tiene como μ = ν y σ2 =2ν.
Cuando ν (nu) es grande (ν > 30) la distribución χ2 se puede aproximar a la distribución normal.
Obsérvese que la distribución depende de un sólo parámetro: los grados de libertad, ν.
xk
La función de distribución viene dada por: F ( x) = ∫ f ( x)dx
0
Esta función está tabulada para distintos valores de los grados de libertad.
Estructura de la tabla: Tabla limitada para algunos valores de los grados de libertad. El área o
probabilidad acumulada se encuentra en la primera fila y en la primera columna los grados de
libertad; en el cuerpo de la tabla están los valores de la variable chi-cuadrado.
65
Nota: Como lo que está tabulado es la función de distribución, la tabla brinda el
área (o probabilidad acumulada) desde cero hasta un punto.
Ejemplo:
Se conoce que una variable en estudio tiene una distribución χ2, resuelva las siguientes
proposiciones:
a.- Diga el valor de P(χ2(17) < 27.6)
b.- Halle P(5.7 < χ2(17) < 21.6)
c.- Calcule P (χ2(17) >10.1)
d.- Hallar Xk si P(χ2(17) > χ2k) = 0.8
e.- Calcule la P(7.56 < χ2(17) < 16.3)
f.- Hallar los grados de libertad que satisfacen P(χ2 > 8.9) = 0.99
g.- Determinar qué valores χ21 y χ22 alrededor de χ2(21) = 20.3 forman probabilidades de áreas
centrales.
Solución:
a.- P(χ2(17) < 27.6) = Fχ2(27.6) = 0.95 (por definición de F(x))
Se busca en la tabla a partir de ν = 17 el valor 27.6 y el valor que le corresponde en
la fila superior, al subir por la columna, es la probabilidad buscada.
b.- P(5.7 < χ2(17) < 21.6) = Fχ2(21.6) - Fχ2(5.7) = 0.80 - 0.005 = 0.755
66
hasta 10.1, sino de ahí en adelante, por lo que se puede utilizar la regla del
complemento.
d.- P(χ2(17) > Xk) = 0.8 ===> P(χ2(17) < Xk) = 0.20 por tanto Xk = 12
e.- P(7.56 < χ2(17) < 16.3) = Fχ2(16.3) - Fχ2(7.56) = 0.50 - 0.025 = 0.475
f.- P(χ2 > 8.9) = 0.99 ===> P(χ2 < 8.9) = 0.01 por tanto ν = 21
Esto se obtiene recorriendo los valores de χ20.01 y donde esté 8.9 ó un valor próximo
a él, y se busca el grado de libertad que le corresponde a este valor.
g.- Puntos χ21 y χ22 simétricos que forman un área central con χ2(21) = 20.3 son:
Probabilidades
acumuladas Probabilidad
χ21 χ22
central
F(χ21) F(χ22)
17,2 23,9 0,30 0,70 0,40
15,4 26,2 0,20 0,80 0,60
13,2 29,6 0,10 0,90 0,80
11,6 32,7 0,05 0,95 0,90
10,3 35,5 0,025 0,975 0,95
8,9 38,9 0,01 0,99 0,98
8,03 31,4 0,005 0,995 0,99
DISTRIBUCIÓN T'STUDENT:
Z
La distribución t'Student es la distribución de la variable: t =
χ2 ν
Aquí Z representa a una variable con distribución normal estándar y χ2 otra variable con
distribución chi cuadrado; ν representa los grados de libertad de la chi cuadrado, que serán los
mismos que caractericen a la variable t.
Una variable t está definida para cualquier valor real, o sea: -∞ < t < ∞
67
Cuando los grados de libertad aumentan la variable t se aproxima cada vez más a una
distribución normal con μ = 0 y σ = 1, es decir, tiende a la normal estandarizada (z).
Estructura de la tabla: Está limitada para algunos valores de los grados de libertad, que están
ubicados en la primera columna. El área o probabilidad acumulada se encuentra en la primera
fila, y en el cuerpo de la tabla están los valores de la variable t.
68
La razón apuntada anteriormente, de que la función de distribución está tabulada sólo para
valores positivos de "t", lleva a tener que hacer algunas transformaciones cuando aparece un
percentil con signo negativo, es decir si se tiene que buscar un área que corresponde a la cola
izquierda, evidentemente el valor de "t" es negativo, en ese caso, se le cambia el sentido del
signo de la desigualdad, lo que está apoyado en la simetría de la distribución. De la misma
forma si se trabaja con las propiedades de la función de distribución y se tiene el caso de una Ft
evaluada para algún valor de "t" negativo, como en principio cambia la desigualdad, entonces
será [1 - Ft] (con el valor correspondiente positivo).
Ejemplo:
Se tiene una Variable aleatoria "x", con distribución t'student, resuelva las siguientes
proposiciones:
a.- Halle P(t(17) < 0.863)
b.- Represente gráficamente y calcule P(t(17) > -0.392)
c.- Resuelva P(-1.07 < t(17) < 2.9)
d.- Diga el valor de P(t(17) < - 0.534)
e.- Calcule P(-1.74 < t(17) < -0.257)
f.- Halle tk las que P(t(17) < tk) = 0.75
g.- Halle entre que valores t1 y t2 se encuentra una probabilidad central del 0.70 si t(17).
Solución:
a.- P(t(17) < 0.863) = Ft(0.863) = 0.80 (Por definición de F(x))
Se busca en 17 grados de libertad un valor igual o próximo a 0.863, y el valor que le
corresponde en la primera fila es la probabilidad buscada.
Sin embargo, esto no es un valor que se puede obtener directamente de la tabla, pues
no es una probabilidad acumulada. Pero utilizando la simetría de la distribución se tiene
un área equivalente:
69
Y la tabla da la probabilidad acumulada desde -∞ hasta la t positiva; por tanto, se obtiene
de esta forma la probabilidad buscada.
c.- P(-1.07 < t(17) < 2.9) = F(2.9) - F(-1.07) (por propiedad de F(x))
= F(2.9) - [1 - F(1.07)] (por ser "t" negativa)
= 0.995 - (1 - 0.85)
= 0.995 - 0.15 = 0.845
Para buscar estos dos valores, t1 y t2, conviene graficar la distribución, dibujando un área
central igual a 0.70, y los 0.30 restantes se dividen para las dos colas:
Buscando esta área se obtiene el valor de "t" positivo en la tabla (es decir de t2) y el
valor de t1 es el mismo con signo negativo, debido a la simetría de la distribución.
70
Sean X ∼ χ n2 e Y∼ χ m2 variables aleatorias independientes, entonces:
χ (2n ) / n
F= ∼ F(n, m)
χ (2m ) / m
Una variable F de Fisher está definida para valores reales positivos (F ≥ 0), y se caracteriza por
un par de grados de libertad (n ; m), que suelen ser llamados respectivamente grados de
libertad del numerador (νn) y del denominador (νd). Debe destacarse que: F(n, m) ≠ F(m, n)
⎛ n + m ⎞ n/2 m/2
Γ⎜ ⎟n m
La función de densidad de Fisher es: f ( x) =
⎝ 2 ⎠
x −( m − 2) / 2 (m + nx) −( n + m ) / 2
⎛ ⎞ ⎛ ⎞
n m
Γ⎜ ⎟Γ⎜ ⎟
⎝2⎠ ⎝ 2 ⎠
1
Una propiedad interesante de esta distribución es la siguiente: F ∼ F(n, m) ⇔ ∼ F(m, n)
F
Lo más común al tabular la distribución de Fisher es construir diferentes tablas para los valores
de probabilidad acumulada útiles en las aplicaciones de esta distribución. Lo que sigue es un
fragmento de la tabla para una probabilidad acumulada igual a 0,99 (lo que, en muchas
aplicaciones, como se verá más adelante, equivale a decir un α = 1%).
Estructura de la tabla: En esta tabla debe entrarse con 3 valores, el nivel de probabilidad
acumulada, el número de grados de libertad del numerador, que en la tabla están en la primera
fila, el número de grados de libertad del denominador que están en la primera columna (a la
izquierda).
Se presentan dos tablas separadas, una para las proporciones acumulativas del 95% y otra del
99% (F0.95 , F0.99). También se marcan con el 5% y el 1 %, y estos porcentajes se refieren a la
proporción de área encerradas por las curvas a la derecha de los valores dados en las tablas;
así, por ejemplo, lo que indica el 1%, si n = 10 y m = 12, es que el 1% del área bajo la curva
F10.12 está a la derecha de 4,30.
71
Ejemplo:
Si se reconoce que la variable aleatoria en estudio sigue una distribución F de Fisher, y que se
va a tratar únicamente con probabilidades acumuladas iguales a 0.95 ó 0.99, resuelva las
siguientes proposiciones:
a) P(F(4,15) < 3.06)
b) P(F(4,15) > 4.89)
c) El valor de xk, tal que P(F(10,20) < xk) = 0.99
d) El valor de xk, tal que P(F(12,8) > xk) = 0.95
e) P(0.2123 - F(10.12) < 4.30)
Solución:
Puesto que las probabilidades acumuladas son del 95% ó del 99%, se limitará la búsqueda a
estas dos tablas. Se debe tener en cuenta que los grados de libertad del numerador (el primer
número del par) están en la primera fila de la tabla, y los grados de libertad del denominador (el
segundo número del par) están en la primera columna.
72
Aquí lo que se quiere es el área entre dos puntos. Si P(F(10, 12) < 4.30) = 0.99 y
P(F(10, 12) < 0.2123 ) = 0.01 entonces el área tras 4.30, menos el área tras 0.2130
nos dará el área o probabilidad buscada, o sea:
P = 0.99 – 0.01 = 0.98.
EJERCICIOS DE AUTOEVALUACIÓN
4.- ¿A qué tipo de variable corresponden estos tres modelos: Normal, T'Student y Ji-Cuadrado?
5.- El análisis estadístico de 1000 llamadas telefónicas de larga distancia realizadas desde las
oficinas centrales de la Corporación CIMEX, señala que la duración de estas llamadas está
distribuida normalmente con μ = 240 segundos y desviación típica igual a 40 segundos.
a.- ¿Qué porcentaje de llamadas duró menos de 180 segundos?
b.- ¿Cuál es la probabilidad de que una llamada en particular durara entre 180 y 300 segundos?
c.- ¿Cuantas llamadas duraron menos de 180 segundos ó más de 300 segundos?
d.- ¿Qué porcentaje de las llamadas duró entre 110 y 180 segundos?
e.- ¿Cuál es la duración mínima del 1% de las llamadas más largas?
7.- Calcule cada uno de los valores siguientes para una χ2 con 25 grados de libertad:
a.- χ20.90 b.- χ20.10 c.- χ20.95 d.- χ20.05 e.- χ20.99 f.- χ20.01
g.- χ20.975 h.- χ20.025 i.- χ20.995 j.- χ20.80
8.- Calcule cada uno de los valores siguientes para una t con 25 grados de libertad:
a.- t0.90 b.- t0.10 c.-t0.95 d.-t0.05 e.-t0.975 f.-t0.025
g.- t0.99 h.- t0.01 i.-t0.995 j.-t0.005
73
TEMA IV: MUESTREO Y ESTIMACIÓN
Con este tema se inicia el estudio de la parte de la Estadística que se ocupa de la inferencia.
Como se dijo, la Estadística Descriptiva se ocupa de la recolección, organización, reducción y
medición de la información, mientras que la Estadística Inferencial desarrolla técnicas que
permiten hacer análisis, pronósticos y llegar a conclusiones, partiendo de un grupo de
observaciones, o sea, de una muestra. Una parte importante de la aplicación cualquier método
inferencial es la adecuada selección de la muestra, lo cual es abordado por un gran capítulo de
la Estadística Inferencial que es la Teoría del Muestreo, que se abordará brevemente aquí.
Algunos conceptos que se deben manejar para adentrarse en la Teoría del Muestreo son:
74
El uso de uno u otro de los muestreos aleatorios está en dependencia de cómo se comporta la
característica objeto de interés en la población. Sin embargo lo más importante para obtener
buenas estimaciones será siempre que la muestra sea representativa de la población, lo que
indica que debe usarse el método de muestreo adecuado y tenerse una idea del tamaño de
muestra necesario.
El Muestreo Aleatorio Simple (MAS) es el procedimiento mediante el cual se eligen por sorteo n
elementos de una población tamaño N, haciendo las extracciones o selección con reposición.
Sea una población finita de tamaño N, y sea X la variable o característica en estudio. De esta
población se pueden obtener, con reposición, Nn muestras distintas de tamaño n; y cada una de
ellas será un conjunto de n variables independientes: x1, x2,..., xn (como la selección se hace
con reposición eso equivale a que los valores de “xi” son independientes). Como “xi” es una
variable aleatoria, tendrá asociada una función de probabilidad f (x1), f (x2),..., f(xn).
Dado lo anterior se puede llegar a una definición más rigurosa del MAS:
Sean x1, x2,..., xn, n variables aleatorias independientes que representan un conjunto de
valores observados de una variable poblacional X; se dice que estos valores conforman
una muestra aleatoria simple si se cumple que:
Dada una población finita con 3 elementos cuyos valores en la variable son x = {1, 2, 3} se
quiere obtener todas las muestra aleatorias simples de tamaño 2 y verificar sus propiedades.
Nota: El tomar una muestra de una población de tamaño 3 parece un absurdo, pues ésta
es estudiable en su totalidad; y también parece absurdo tomar todas las muestras
posibles, pues es un trabajo mayor tomar todas las muestras posibles que hacer un
censo. Se trata aquí de un desarrollo teórico...
Solución:
Población: X = 1, 2, 3 (N = 3)
Como hay un solo valor de cada elemento se puede plantear:
V(x) = E(x2) - [E(x)]2 = 14/3 - (6/3)2 = 14/3 - 36/9 =(42 -36)/9 = 6/9 = 2/3 = 0.67
75
El conjunto de todas las muestras posibles de tamaño 2 es:
x1 x2 x1 x2 x1 x2 Siendo:
1 1 2 1 3 1 x1 = valores que toma el 1er elemento de la muestra
1 2 2 2 3 2 x2 = valores que toma el 2do elemento de la muestra
1 3 2 3 3 3
N(S) = 9
Entonces:
x1 f (x1) x1 f(x1) x 21 f (x1) x2 f (x2) x2 f(x2) x22 f (x2)
1 3/9 1/3 1/3 1 3/9 1/3 1/3
2 3/9 2/3 4/3 2 3/9 2/3 4/3
3 3/9 3/3 9/3 3 3/9 3/3 9/3
Σ= 2 Σ= 14/3 Σ= 2 Σ= 14/3
Y de un análisis bivariado, según el espacio muestral, resulta:
X2 \ X1 1 2 3 f(x2)
1 1/9 1/9 1/9 1/3
2 1/9 1/9 1/9 1/3
3 1/9 1/9 1/9 1/3
f(x1) 1/3 1/3 1/3 1
4ta propiedad: V(x1) = E(x12) - [E(x1)]2 = ∑ x12 f(x1) – (2)2= 14/3 - 4 = 2/3
V(x2) = E(x22) - [E(x2)]2 = ∑ x22 f(x2) – (2)2= 14/3 - 4 = 2/3
Por tanto: V(x1) = V(x2) = V(x)
Notas:
• Conviene resaltar que algunos autores (ver Canavos), al hablar del Muestreo Aleatorio
Simple (o MAS) incluyen dentro del mismo el caso con reposición como aquel sin
reposición; otros autores (ver Calero) diferencian estos casos y cuando no se hace
reposición hablan de un muestreo irrestricto aleatorio (MIA). Aquí se preferirá distinguirlos
separadamente.
• En la práctica rara vez interesa efectuar un muestreo con reposición, pero el estudio de
éste, dada la independencia que garantiza, es la base para cualquier otro muestreo donde
–dada la no reposición– ya no habría independencia entre los elementos de la muestra, y
donde, por tanto, los cálculos probabilísticos serán más complicados. Por otra parte,
cuando la población es muy grande –y a la vez mucho más grande que la muestra que se
obtendrá–, aunque se haga reposición es muy poco probable que un elemento de la
población salga repetido en la muestra, lo cual hace que el muestreo con reposición
pueda verse como un caso límite del muestreo sin reposición cuando N es muy grande.
76
TABLA DE NÚMEROS ALEATORIOS
Una tabla de números aleatorios es una tabla para ayudar a elegir n elementos de una
población mediante "sorteo", hecha como si se introdujera una lista de números en un bombo y
se fueran tomando luego algunos sin mirar; es decir, la tabla suministra un grupo de números
equivalentes a los que se tomarían al azar. Estas tablas pueden ser aleatorias de forma
horizontal, de forma vertical, o de ambas formas.
Estructura de la tabla:
La tabla de números aleatorios que está en la selección de tablas estadística es aleatoria
solamente de forma horizontal, por tanto solo puede ser utilizada de esta forma. Esta tabla está
formada por 4 bloques de 1000 cifras, y están numeradas las filas y columnas, en el caso de las
filas están numeradas consecutivamente desde la 1 a la 25, mientras que las columnas están
de cuatro en cuatro y se indica 1 - 4 ó 5 - 8, etc., lo que indica las columna 1, 2, 3, 4 o las
columna 5, 6, 7, y 8, y así sucesivamente.
Uso de la tabla:
1.- Se enumeran de forma consecutiva los N elementos de la población. (Para que cada
elemento esté identificado con una etiqueta, que puede aparecer o no en la tabla de números
aleatorios).
2.- Se elegirá al azar, el bloque, fila y columna por donde se comenzará a tomar, en forma
consecutiva y horizontalmente los "n" números aleatorios que ayudarán a conformar la muestra,
según lo siguiente:
9 Cada número seleccionado debe tener tantas cifras, como cifras tenga N.
77
9 Si el número seleccionado de la tabla es > N puede ser desechado; no obstante, este
criterio obliga a trabajar más. Otro criterio es no desecharlo tal número, sino transformarlo,
restándole sucesivamente N hasta obtener un número menor o igual a N.
9 Para garantizar que cada uno de los N elementos de la población tenga la misma
posibilidad de ser seleccionado, se debe elegir un intervalo de trabajo que no sobrepase al
mayor múltiplo de N con la misma cantidad de cifras que N.
Ej.: Si N = 3000 su mayor múltiplo con la misma cantidad de cifras (4) es 9000. Al
formar números de cuatro cifras, estos podrán variar entre 0001 y 9999, pero los
mayores que 9000 deben desecharse, pues a partir de 9000 hasta 9999 no hay
otros 3000 número, sino sólo 999, y estos estarías entonces privilegiados
probabilísticamente en el muestreo, como se ve en el siguiente esquema:
3.- Finalmente, se obtiene la muestra. Para ello se toman de la población los elementos cuyo
etiquetado coincide con los números aleatorios generados.
Nota: En el caso de que se opte por un muestreo sin reposición (lo que Calero Vinelo denomina
un MIA), los números aleatorios repetidos también deben eliminarse previamente y buscar
otros.
Ejemplo: (Ejercicio 423 página 289 del Laboratorio de Estadística 2da. Parte)
3 8 9 8 5 7 5 4 6 8
5 7 9 4 7 3 8 6 4 5
Seleccione una muestra aleatoria de tamaño 5 (o sea, se quiere como muestra el resultado para
5 talleres), utilizando para el arranque el primer bloque, fila 3, columna 25.
Solución:
Primeramente se etiqueta la población:
31 82 93 84 55 76 57 48 69 810
511 712 913 414 715 316 817 618 419 520
Nota: Lo que semeja un exponente son las etiquetas que se le han puesto a la
población, o sea, la enumeración de sus elementos para después elegir la muestra.
N = 20 ⇒ 2 cifras
78
El mayor múltiplo de 20 con 2 cifras es 80, por lo tanto el intervalo de trabajo estará
entre 01 y 80; todo valor mayor que 80 se elimina y el que esté entre 20 y 80 se rectifica
restándole 20 hasta que quede un número del 1 al 20, que será el que se tome como
número aleatorio rectificado.
EJERCICIOS DE AUTOEVALUACIÓN
A esto puede responderse que cada xi sigue una distribución normal con la misma media y la
misma varianza y que su función conjunta es igual al producto de las funciones de cada
variable:
f (x1, x2, ..., xn) = f (x1)f(x2) ... f(xn)
79
4.2 Estimadores. Propiedades deseables para un buen estimador. Estimación
puntual. Distribución muestral. Distribución muestral de la media tanto con
varianza (σ2) conocida como desconocida. Distribución muestral de las
proporciones y de la varianza.
Se le llama estimador a cualquier función de "n" variables en la que, después de sustituir los
valores muestrales, el resultado obtenido puede servir como sustituto del valor de un parámetro
poblacional.
En general es de interés poder contar con un estimador para cualquier parámetro poblacional,
como la media, la varianza, la proporción asociada a determinados valores de la variable, etc.
Para representar un parámetro cualquiera se utiliza de forma genérica el símbolo θ (letra griega
sita), y θ$ para el estimador correspondiente (el acento circunflejo ^ denota estimación).
Como de una población de tamaño N, se pueden sacar muchas muestras, se deriva de ello que
las estimaciones o medidas que se determinan en cada muestra son variables aleatorias, que
pueden variar de una muestra a otra.
La importancia de contar con buenos estimadores puede quedar clara si se analiza que las
estimaciones de los parámetros se obtendrán con una muestra que no contiene exactamente la
misma información que la población, pues solamente es un reflejo de ella, y en ocasiones un
reflejo bastante pálido, lo cual ya de por sí conlleva a posibles errores. Es de desear, por tanto,
que el método de estimación usado no introduzca otros errores.
Para hablar de buenos estimadores se definen entre las cualidades que estos deben tener las
siguientes:
• Ser insesgados.
• Ser consistentes.
• Ser eficientes.
80
INSESGADEZ
∑ x ⎟⎠ = n E(∑ x ) = n ∑ E(x ) = n ∑ μ = n n μ = μ
⎛1 ⎞ 1 1 1 1
E( x ) = E⎜ O sea: E( x ) = μ
⎝n
Por tanto x es un estimador insesgado, con lo cual, al contar con una muestra aleatoria,
la media muestral constituirá una estimación insesgada de la media poblacional.
Hay que destacar, sin embargo, que S2 no es un estimador insesgado de σ2, ya que, al aplicar
las propiedades del valor esperado se obtiene:
n −1 2
E (S 2 ) = σ
n
O sea, E(S2) tiene un sesgo, una diferencia, con el parámetro que estima, σ2. Pero
observando a este resultado puede construirse un estimador insesgado para la varianza
poblacional, multiplicando por n y dividiendo entre (n -1) la varianza de la muestra, así:
⎛ n ⎞ n n n −1 2
E⎜ S2 ⎟ = E(S 2 ) = ⋅ σ = σ2
⎝ n − 1 ⎠ n − 1 n − 1 n
n 1
s2 =
n −1
S 2 , que puede también formularse como: s 2 =
n −1
∑ (x − x )
2
81
CONSISTENCIA
Se dice que un estimador es consistente si al hacerse el tamaño de muestra cada vez más
grande, de manera que n → N, el estimador tiende a estar más cerca del parámetro. En
términos rigurosos debe decirse:
EFICIENCIA
Se dice que un estimador es eficiente si su error cuadrático medio es menor que el de cualquier
otro estimador con el que se le compare. Este error cuadrático medio (ECM) se calcula como la
suma de la varianza más el sesgo al cuadrado del estimador:
Así, el procedimiento tiene que ser calcular el ECM para todos los estimadores que se
propongan, y de la comparación elegir cuál es el más eficiente.
Notas:
• Todo estimador eficiente es consistente.
• Si los estimadores que se comparan son todos insesgados, entonces:
ECM (θ$) = V (θ$) y el estimador eficiente será el de menor varianza.
El objetivo que se persigue con una estimación es obtener valores específicos del parámetro
desconocido, que pueden ser utilizados en su lugar. Una estimación puntual es precisamente
eso: la evaluación de un buen estimador en una muestra para tomar ese valor como medida
aproximada del parámetro desconocido.
En el MAS se utilizan como buenos estimadores para los parámetros más significativos los que
siguen:
82
tipo de estudio característica medible parámetro ( θ ) estimador ( θ̂ )
1
medida de tendencia μ x=
n
∑ x
cuantitativo
1
medida de dispersión σ2 s2 =
n −1
∑ ( x − x)2
x
cualitativo medida de proporción p p̂ = n
n
Ejemplo:
Estimar el promedio de televisores que llegan con roturas a los talleres a partir de la
muestra de tamaño 5 tomada (ver ejemplo anterior); estimar también la varianza.
Solución:
Xi Xi2 1 34
8 64
μˆ = x =
n
∑
x=
5
= 6,8 = 34/5 = 6.8
9 81 (Aproximadamente 7 televisores llegan como promedio a los
8 64 talleres.)
5 25
4 16
1 ∑x 2
− n x2 250 − 5 ⋅ 6.8 2
∑ = 34 ∑=250 σˆ 2 = s 2 =
n −1
∑ ( x − μ)2 =
n −1
=
4
= 4 .7
El error de muestreo, al depender de una estimación, constituye otra variable aleatoria, pues
puede variar de estimación a estimación. Pero además, es un valor que no se puede conocer,
pues habría que conocer el parámetro poblacional, y si se conociera éste, no habría necesidad
de estimarlo. Esto conduce a que se plantee la necesidad de contar con una medida del error
de muestreo, que será una medida probabilística.
DISTRIBUCIONES MUESTRALES:
Ya se ha visto que si de una población cualquiera se toman todas las muestras posibles de
tamaño n, a través del MAS, y si sobre todas ellas se calcula –por ejemplo- la media muestral
83
como estimación de la media poblacional, se obtendrán valores diferentes en el conjunto de
muestras, lo que hace que estas estimaciones constituyan variables aleatorias. Lo mismo
pasaría con la varianza o cualquier otro estimador; por tanto se puede llegar a una conclusión
muy importante:
Todo estimador es una variable aleatoria, y al ser variable aleatoria tiene asociada:
9 Distribución de probabilidad
9 Características numéricas o parámetros
(Lo cual permite concluir que a medida que n aumenta los valores de la media
muestral se concentran más alrededor de μ. Falta por conocer la función de
probabilidad del estimador para poder sacar conclusiones respecto al error.)
Nota: El nombre de error estándar se debe a la propia manera en que se calcula éste:
1
σ( θˆ ) = V ( θˆ ) =
n
∑
( θˆ − θ)2
Hay un teorema que plantea que si X tiene una distribución normal, con media μ y varianza σ2, y
se selecciona una muestra aleatoria tamaño n por el procedimiento del MAS, entonces la media
muestral tendrá también una distribución normal, en este caso con media μ y varianza σ2/n.
84
Y para calcular la probabilidad de cierto comportamiento de la media, se utilizará la variable
x −μ
estandarizada: Z =
σ/ n
Esto lo resuelve el Teorema Central del Límite, que entre sus corolarios establece: si X es una
variable aleatoria con media μ y varianza σ2, y x es la media de una muestra aleatoria simple
de tamaño n, entonces la transformación:
x−μ
La transformación así obtenida para la media t = , recibe el nombre de estadígrafo t.
s/ n
No obstante, el propio teorema central del límite permite concluir lo siguiente: Si n → ∞, o sea,
cuando n > 30, la distribución t'Student tiende a la normal estandarizada, esto es a Z ∼ N (0, 1),
y por tanto t se puede aproximar a través de Z, así:
⎛ s ⎞
Si X ∼ N( μ, ?) y n > 30, entonces: x ∼ N⎜⎜ μ , ⎟⎟ , o lo que es igual: t → Z ∼ N (0, 1).
⎝ n⎠
De la misma manera, utilizando también el teorema central del límite se llega a que la
proporción muestral, como estimador de la proporción poblacional, tiende a distribuirse
normalmente cuando n > 30, o sea:
⎛ pq ⎞⎟ p̂ − p
Si n > 30 entonces: p̂ ∼ N⎜ p , , o estandarizando: z p = ∼ N (0, 1)
⎜ n ⎟⎠ pq / n
⎝
85
Se verifica en la práctica que esta aproximación es realmente buena cuando el producto np > 5
y/o nq < 5.
Por otra parte, al estudiar s2 como estimador de la varianza poblacional se ve que no sigue una
distribución normal, sino que tiene un comportamiento asimétrico. Sin embargo, hay un teorema
que plantea que para una población normal se cumple que s2 tiene asociada una distribución
chi-cuadrado con ( n -1) grados de libertad, como sigue:
(n − 1)s 2
∼ χ2(n -1)
σ2
(n − 1)s 2
Debido a esto la expresión χ 2 = recibe el nombre de estadígrafo chi-cuadrado.
σ2
EJEMPLO 1:
σ 4
Sean: X ∼ N (60 ; 4), n = 4, μ = 60, σ = 4, σ x = = =2
n 4
Calcular:
1.- P( x < 64) = P(Z < (64 - 60)/2) = P(Z < 2) = Fz (2) = 0.9772
2.- P( x < 62) = P(Z < (62 - 60)/2) = P(Z < 1) = Fz(1) = 0.8413
3.- P( x > 60) = P(Z > (60 - 60)/2) = P(Z > 0) = 1 - P(Z < 0) = 1 - Fz (0) = 1 - 0.5 = 0.5
4.- P(58 < x < 62) = P [(58 -60)/2 < Z < (62 -60)/2] = P ( -1 < Z < 1) = Fz(1) - Fz(-1)
= 0.8413 - 0.1587 = 0.6826
86
EJEMPLO 2:
∑ (X )
n n
∑
2
Datos: n = 16, X ini = 482 , i − X ni = 60
i=1 i=1
n
1
a.- x =
n
∑ X n = 482/16 = 30.12
i=1
i i
∑( )
1 n 2
b.- s 2 = X i − X ni = 60/15 = 4
n − 1 i=1
s 2 2
c.- s x = = = = 0.5 (error promedio de estimación o error estándar)
n 16 4
⎛ − 0 .5 0 .5 ⎞
e.- P (⏐ x - μ⏐< 0.5) = P ( -0.5 < x - μ < 0.5 ) = P⎜⎜ < t(15) < ⎟⎟
⎝ 2 / 16 2 / 16 ⎠
= P ( -0.5/0.5 < t(15) < 0.5/0.5) = P ( -1 < t < 1) = Ft (1) - Ft (-1)
= 0.85 - (1 - 0.85) = 0.85 - 0.15 = 0.70
EJEMPLO 3:
Datos:
x: incremento del rendimiento p = 0.5, n = 100
pq 0 .5 ⋅ 0 . 5
Calculando previamente la desviación típica se tiene: σ = = = 0.0025 = 0.05
n 100
a.- P (0.40 < P < 0.55) = P [(0.40 - 0.50)/0.05 < Z < (0.55 - 0.50)/0.05]
= P (-0.10/0.05 < Z < 0.05/0.05) = P (-2 < Z < 1) = Fz(1) - Fz(-2)
= 0.8413 - 0.0228 = 0.8185
b.- μ = n p = 60 ⋅ 0.8185 = 49
EJEMPLO 4:
a.- P(s2 > 8) = 1 – P(s2 < 8) = 1 - P[ (n-1)s2/σ2 < 20(8)/4] = 1 - P (χ2(20) < 160/4)
= 1 - P (χ2(20) < 40) = 1 - Fχ2(20) (40) = 1 - 0.995 = 0.005
87
b.- P(s2 < 5) = P (χ2(20) < 20(5)/4] = P (χ2(20) < 100/4) = P (χ2(20) < 25)
= F(χ2) (25) = 0.80
c.- P(4 < s2 < 8) = P [20 (4)/4 < χ2(20) < 20(8)/4] = P(20 < χ2(20) < 40) = Fχ2(40) - Fχ2(20)
= 0.995 - 0.50 = 0.495
Luego χ2a = χ2(0.025) y χ2b = χ2(0.975) son los valores que le corresponden a s2a y s2b,
(n − 1)s 2 χ (2n−1) σ 2
Ahora, despejando de χ (2n−1) = 2
se llega a: s =
σ2 (n − 1)
Entonces:
s2a = χ2(0.025) (4)/20 = 9.59 (4)/20 = 1.918
s2b = χ2(0.975) (4/20) =34.2(4)/20 = 6.84
Por tanto, los valores s2a y s2b determinan una probabilidad central del 95% así:
P (1.1918 < s2 < 6.84) = 0.95
EJERCICIOS DE AUTOEVALUACIÓN
2.-¿Que supuesto se debe tener en cuenta para trabajar con la distribución de probabilidad de
t'student?
5.- ¿Qué distribución de probabilidad tiene la proporción muestral, y bajo cuales condiciones?
7.- ¿Con qué distribución calcularía la probabilidad de que la varianza muestral, asuma
determinados valores?
88
4.3: Error máximo permisible y tamaño de muestra necesario para la estimación
de μ y p. Estimación por intervalos de confianza.
Como se sabe, cualquier estimación puede tener asociada un error de muestreo, dado por la
diferencia entre el estimador y el parámetro, y este error no es calculable ya que en la práctica
no se conoce el verdadero valor de un parámetro que se está estimando; por ello la estimación
puntual no permite evaluar cuan cercano está el valor estimado del correspondiente parámetro,
es decir, no permite calcular la precisión de la estimación. Pero conociendo la correspondiente
distribución muestral se puede tener una medida probabilística del error. Y aún más, se puede
organizar el proceso de estimación de manera tal que se dé un intervalo posible de valores para
el parámetro (estimación por intervalo), o que se garantice que el error de estimación no
sobrepase un determinado valor prefijado (error máximo permisible).
Cuando se quiere estimar un parámetro, esto puede hacerse no sólo mediante una estimación
puntual, sino que puede recurrirse a una estimación por intervalos. Una estimación por
intervalos consiste en construir un intervalo alrededor de la estimación puntual de manera que
se pueda garantizar que el parámetro estimado está dentro de dicho intervalo con una
probabilidad escogida de antemano; a esa probabilidad, representada como 1-α, se le
denomina nivel de confianza, y al intervalo construido se le llama entonces intervalo de
confianza.
La construcción del intervalo de confianza se basa en encontrar el par de valores que delimiten
este intervalo para un nivel de confianza prefijado, lo cual se basa en la distribución muestral del
estimador. El intervalo es, por tanto, de extremos variables, ya que sus límites pueden cambiar
según el resultado de la estimación puntual sobre la muestra. El nivel de confianza lo decide el
investigador, o el estadístico; en la práctica, en estudios económicos y sociales, los niveles de
confianza más usados suelen ser: 0.90, 0.95, 0.98, 0.99.
Al crearse el intervalo de confianza, si 1-α representa la probabilidad con que se quiere que el
mismo contenga al parámetro, α representará la probabilidad de que el verdadero valor del
parámetro no esté en el intervalo, y los intervalos suelen construirse de forma tal que esta
probabilidad α se reparta simétricamente, como se muestra gráficamente:
Utilizando el método habitual para la construcción de los intervalos –la repartición simétrica de
la probabilidad α a ambos lados-, cuando la distribución muestral del estimador es a su vez
simétrica –por ejemplo normal o t’Student- los límites del intervalo resultan también simétricos
respecto a la estimación puntual tomada como partida, y a la distancia desde el centro del
89
intervalo hasta cada límite, que simboliza con la letra d, se le denomina entonces error máximo
admitido:
En la expresión anterior se utilizó el símbolo ±, que es una manera abreviada de indicar que lo
que sigue se resta y se suma para crear un intervalo, por tanto, el mismo intervalo de confianza
puede representarse como sigue:
θ ∈ [θˆ − d θ ; θˆ + d θ ]
El error máximo admitido viene a representar el máximo error que se admite cometer en la
estimación bajo el nivel de confianza escogido, y en general se calcula como el producto de un
factor que depende del nivel de confianza, el denominado coeficiente de confianza (C1-α/2), por
el error estándar del estimador:
dθ = C α σ(θˆ )
1−
2
Los intervalos de confianza para la media y la proporción, por tener ambos estimadores
distribuciones muestrales simétricas, se forman así:
Ejemplo ilustrativo:
Sea el caso de una estimación por intervalo para la media, siendo la varianza
poblacional (σ) conocida, y prefijado un nivel de confianza (1 - α):
Fijar un nivel de confianza quiere decir que se exige que el error máximo permisible
cumpla con:
P(⏐ x - μ ⏐ ≤ d ) = P (-d ≤ x - μ ≤ d) = 1 - α
90
α
Y dada la simetría ambos sumandos son iguales, por lo que: P(x − μ < −d) =
2
⎛ σ ⎞
Ahora, si X ∼ N (μ ,σ), se tiene que x ∼ N⎜⎜ μ , ⎟⎟ , por tanto:
⎝ n⎠
⎛ − d ⎞⎟ α −d
P( x - μ < -d) = P⎜ z < = Entonces: =Z α
⎜ σ n⎠ 2⎟ σ n 1−
⎝ 2
σ
Y despejando: d=Z α
1−
2 n
Atendiendo al ejemplo anterior, se pueden desarrollar las expresiones para los intervalos de
confianza en todos los casos de la media, y la varianza, y las proporciones. Esto se resume en
la siguiente tabla (asumiendo siempre un muestreo aleatorio simple):
error máximo
parámetro estimador condiciones intervalo de confianza
admisible
σ
X ∼ N (μ , σ ) d=Z α
1−
2 n
X ∼ ? (μ , σ ) σ
d=Z α
y n > 30 1− n
μ x
2
μ= x ± d ó μ ∈[ x − d ; x + d ]
s
X ∼ N (μ , ?) d = t (n−1) 1− α
2 n
X ∼ ? (μ , ? ) s
d=Z α
y n > 30 1−
2 n
⎡ ⎤
⎢ (n −1) s 2 (n −1) s 2 ⎥
σ2 s 2
X∼N --- σ ∈⎢ 2
2
; 2 ⎥
⎢ χ (n − 1) χ
(n − 1) α / 2 ⎥
⎢⎣ 1− α / 2 ⎥⎦
p̂q̂
p p̂ n > 30 d=Z α p = p̂ ± d ó p ∈[ p̂ − d ; p̂ + d ]
1−
2
n
Vale la pena anotar que en el caso de la varianza, dado que la distribución muestral (chi-
cuadrado) es asimétrica, no se puede hablar de un error máximo admitido, y se calculan
directamente los límites inferior y superior del intervalo de confianza.
Además, en los casos en que se usa la normal, que es simétrica, al hallar el límite inferior del
intervalo es equivalente usar –Z1-α/2 ó Zα/2; y lo mismo es aplicable a la t’Student.
Por otra parte, es fácil darse cuenta al examinar las expresiones para los intervalos de
confianza que:
9 Mientras más grande es el tamaño de la muestra menor es el ancho del intervalo.
9 Para niveles de confianza (1 - α) más grandes, mayor es el ancho del intervalo.
91
Ambos resultados son lógicos ya que un tamaño grande de la muestra disminuirá la
varianza del estimador, y un nivel de confianza grande incrementará el valor del coeficiente
de confianza, es decir, el estadístico de la distribución de probabilidad del estimador, lo que
dará como resultado en cada caso un intervalo más amplio.
Finalmente, una importante aplicación de las expresiones para los intervalos de confianza es el
empleo de éstas para determinar el tamaño de muestra mínimo necesario para que el error en
una estimación no sobrepase un valor decidido de antemano. Esto se consigue despejando n
en la expresión, pues el error máximo asumido es precisamente d; los resultados usados para
un muestreo aleatorio simple son los siguientes:
2
Para la media ⎛ σ⎞
n = ⎜ Z 1−α / 2 ⎟
(con σ conocida): ⎝ d⎠
2
Para la media ⎛ s⎞ Aquí se utiliza la Z y no la t porque esta última
n = ⎜ Z 1−α / 2 ⎟
(con σ desconocida): ⎝ d ⎠ involucra a la n en sus grados de libertad.
2 2
Aquí p y q son desconocidos (es
⎛ Z1−α / 2 ⎞ ⎛ Z1−α / 2 ⎞ justo lo que se quiere estimar),
Para las proporciones: n = p q ⎜⎜ ⎟ =⎜
⎟ ⎜ 2d ⎟
⎟
d por eso se toma p = q = 0.5, que
⎝ ⎠ ⎝ ⎠
matemáticamente maximiza n.
Ejemplo 1:
La media y la desviación típica de las cargas máximas soportadas por 60 cables, están dadas
por 12 y 0.7 toneladas, respectivamente. Se quiere hallar un intervalo de confianza para la
carga media máxima soportada por los cables, con un 95% de confianza.
Solución:
X: carga soportada por un cable
Información: n = 60, x = 12, s = 0.7, (1 - α) = 0.95 ( Se asumirá que X ∼ N(μ , σ ) )
s s
Entonces: μ = x ± d y d = t (n−1) 1− α ≈Z α
2 n 1−
2 n
Se parte del uso de la t porque la desviación típica poblacional es desconocida (lo que
se tiene es una estimación puntual de la misma); no obstante, al ser n > 30, dada la
convergencia de la t a la Z, se puede usar esta última, que es más cómodo.
Para buscar el valor de Z0.975 se puede buscar este número en el interior de la tabla de la
normal estándar, y obtener Z por la intercepción con los bordes. Pero una vía más rápida
es utilizar la tabla que está a continuación en la selección de tablas (página 17), donde
están las dos colas de la curva sombreadas; ahí se busca simplemente el valor de α por
la derecha y en la izquierda está la Z requerida.
0.7 0.7
d = 1.96 = 1.96 ⋅ = 0.176
60 7.75
92
Por tanto: μ = 12 ± 0.18
Se puede decir, pues, que en el 95% de los cables el valor medio de la carga soportada está
entre 11.82 y 12.18 toneladas.
μ
Por ejemplo, un intervalo de confianza del 90% para la
media poblacional indica que el 90% de las muestras
que se tomen (o sea, 9 de cada 10 muestras) darán
lugar a intervalos que contengan el parámetro; esto se
aprecia en el esquema mostrado, donde cada barra
horizontal representa el intervalo obtenido de una
muestra dada.
Ejemplo 2:
A continuación se brindan los resultados de las entrevistas a 40 personas sobre su preferencia
(1) o no (0) respecto a un nuevo producto que se ha ofertado en el mercado.
0 0 1 1 0 1 0 1 0 1 1 1 0 1 0 1 1 1 0 1
1 0 1 0 1 1 0 1 1 0 0 1 1 0 1 1 0 1 1 0
Solución:
X n 24
a) p̂ = = = 0.60 El 60% de las personas prefieren el nuevo producto.
n 40
93
⎛ − 0.05 0.05 ⎞⎟
b) P (⎜ p$ - P ⎜≤ 0.05) = P (-0.05 ≤ p$ - P ≤ 0.05) = P⎜ ≤Z≤
⎜ σ p̂ σ p̂ ⎟⎠
⎝
donde : σ p̂ = pq / n = 0.6 ⋅ 0.4 / 40 = 0.0060 = 0.0775 ≈ 0.078
Por tanto:
P (⎜ p$ - P ⎜≤ 0.05) = P (-0.05/0.078 ≤ Ζ ≤ 0.05/0.078) = P (-0.641 ≤ Ζ ≤ 0.641)
= Fz(0.641) - Fz(-0.641) = 0.7389 - 0.2611 = 0.4778
En el 47,78% de las muestras de tamaño 40, el error que se puede cometer al estimar p no va
a ser mayor que 0.05
p̂q̂ 0 .6 ⋅ 0 .4
c) d = Z α = Z 0.975 = 1.96 ⋅ 0.078 = 0.1529
1−
2
n 40
En muestras de tamaño 40 el error en la estimación de la proporción poblacional no será
superior a 0.153, con una probabilidad de 0.95.
2 2 2
⎛Z ⎞ ⎛ Z0.995 ⎞ ⎛ 2.58 ⎞
d) n = p q ⎜ 1−α / 2 ⎟ = ⎜ ⎟ =⎜ ⎟
⎜ 2 ⋅ 0.02 ⎟ = 64.5 = 4160.25 ≈ 4161
2
⎜ d ⎟ ⎜ 2 d ⎟
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
Nota: Debe destacarse que la aproximación de n siempre es por exceso, pues el número
obtenido es lo mínimo necesario para satisfacer las condiciones deseadas para la estimación.
Ejemplo 3
La experiencia adquirida indica que la resistencia a la ruptura de las varillas de alambre
producidas por cierta fábrica sigue una distribución normal con una resistencia media de 400 kgf
(kilogramo-fuerza) y una desviación típica de 16 kgf. Si se toma una muestra aleatoria de 16
varillas.
a.- Calcule la probabilidad de que el error en la estimación de μ no sea mayor de 8 kgf.
b.- Determine, con una probabilidad de 0.99, el error máximo que se espera cometer al estimar
μ a través de la media muestral.
c.- Diga cuántas varillas deberán seleccionarse para que la media resultante tenga un error no
mayor de 2 kgf con una confiabilidad del 95%.
Solución.
X: resistencia a la ruptura (kgf) n = 16
⎛ 16 ⎞
X ∼ N (400 ; 16), entonces x ∼ N⎜⎜ 400 ; ⎟⎟ = N (400 ; 4) , por tanto:
⎝ 16 ⎠
σ σ
b) d = Z α = Z 0.995 = 2.58 ⋅ 4 = 10.32
1−
2 n n
94
2 2 2
⎛ σ⎞ ⎛ σ⎞ ⎛ 16 ⎞
c) n = ⎜ Z1−α / 2 ⎟ = ⎜ Z0.975 ⎟ = ⎜1.96 ⋅ ⎟ = 246 varillas.
⎝ d⎠ ⎝ d⎠ ⎝ 2⎠
Debe significarse que con una muestra de este tamaño se está garantizando que el error
en la estimación de la resistencia media no sea mayor de 2 kgf, con una probabilidad de
certeza del 95%
Ejemplo 4
En una determinada localidad se obtuvo la siguiente muestra aleatoria, correspondiente a la
cantidad de personas por núcleos familiares en 37 viviendas:
4 2 5 6 6 5 6 6 6 7 5 5 4 4 2 8 4 6 8
5 2 2 5 5 4 3 6 7 6 5 5 5 6 5 4 6 1
Se quiere una estimación por intervalos de la proporción de los núcleos familiares con 4 ó más
integrantes, para un nivel de confiabilidad del 90%.
Solución:
X: Núcleos familiares con 4 ó más integrantes.
Se tiene que:
p̂ = Xn/n = 31/37 = 0.84 Y: σ p̂ = pq / n = 0.84 ⋅ 0.16 / 37 = 0.0036 = 0.060
Entonces: p = p̂ ± Z(1−α/2) pq / n = 0.84 ± 1.64(0.060) = 0.84 ± 0.0988
Esto indica que el 90% de las veces el valor de la proporción muestral se encontrará entre 0.74
y 0.94
Ejemplo 5
En una muestra simple aleatoria de 64 piezas de un mismo tipo, extraídas de un almacén, se
encontraron 13 piezas defectuosas. Dé una estimación por intervalo con un nivel de confianza
del 95% para la proporción de piezas defectuosas en el almacén.
Solución:
n = 64 p̂ = 13/64 = 0.20
p = p̂ ± Z(1−α/2) pq / n = 0.20 ±1.96 0.20(0.8) / 64 = 0.20 ± 1.96 0.0025 = 0.20 ± 1.96(0.05)
Por tanto, el intervalo será: 0.102 ≤ p ≤ 0.298, indicando que el 95% de las veces el verdadero
valor de la proporción poblacional se encontrará entre 0.102 y 0.298.
Ejemplo 6
Calcule un intervalo de confianza del 95% de la varianza poblacional de una población normal,
si en una muestra aleatoria de tamaño 22 se obtuvo una varianza de 121.
95
Solución:
n = 22 s2 = 121 1 - α = 0.95
Como se desea un intervalo de confianza para la varianza, cuya distribución muestral asociada
es χ2, se sustituye directamente en la expresión para el intervalo de confianza:
⎡ ⎤ ⎡ ⎤
⎢ (n −1) s 2 (n −1) s 2 ⎥ ⎢ (22 −1)⋅121 (22 −1) ⋅121⎥ ⎡ 2541 2541⎤
σ 2∈ ⎢ 2 ; 2 ⎥=⎢ 2 ; 2 ⎥=⎢ ; ⎥
⎢ χ (n − 1) χ
(n − 1) α / 2 ⎥ ⎢ χ ( 21) χ
( 21) 0.025 ⎥
⎣ 35.5 10.3 ⎦
⎣⎢ 1− α / 2 ⎦⎥ ⎢⎣ 0.975 ⎦⎥
Por tanto:
71.57 ≤ σ2 ≤ 246.69
Esto indica que el 95% de las veces el valor de la varianza poblacional se encontrará entre
71.57 y 246.69.
EJERCICIOS DE AUTOEVALUCIÓN
1.- ¿Qué nos indica el error máximo admisible? ¿Para que se utiliza?
2.- ¿A partir de qué se calcula el tamaño de la muestra? ¿Cuáles son los criterios que se deben
tener en cuenta para determinarlo?
3.- ¿Qué ventajas tendrá una estimación por intervalo sobre una estimación puntual.?
4.- ¿En que caso en la estimación por intervalo de μ se trabaja con la distribución muestral de
t'Student? ¿Qué supuestos se deben hacer para trabajar con esta distribución en el cálculo del
intervalo de confianza de μ?
6.- Se desea estimar el ingreso medio de una población que sigue aproximadamente una
distribución normal constituida por 10 personas y para ello se seleccionó una muestra de 5
personas, recogiéndose de ellos lo siguiente:
ingresos: 150, 148, 152, 149, y 151
a.- Halle una estimación puntual de μ y de σ2.
b.- Halle una estimación por intervalo del 95% de μ y de σ2.
7.- Si el tamaño de una muestra es de 225 unidades en una población de 3000 elementos y se
conoce que la característica en estudio tiene una varianza de σ2 = 400, diga qué error máximo
96
admisible puede obtenerse con una confiabilidad de un 95%, para la estimación de la media
poblacional.
9.- De una población de 200 trabajadores se han muestreado 30, de los cuales 18 son
fumadores. Dé un estimado de la verdadera proporción de fumadores y del total de fumadores
de dicha población.
a.- En estimaciones puntuales
b.- En estimaciones por intervalo con una confianza del 99%.
97
TEMA V: PRUEBAS DE HIPÓTESIS
Una prueba de hipótesis suele girar en torno al valor de uno o varios parámetros poblacionales
–o al comportamiento de la distribución de la población–, sobre lo cual se tiene alguna
suposición previa basada en evidencia empírica o teórica. Para verificar si la suposición es
cierta o no se debe, entonces, tomar una muestra de la población y calcular sobre ella una
estimación del parámetro o parámetros en cuestión; a partir de esas estimaciones, y teniendo
en cuenta el comportamiento probabilístico de los estimadores usados, se puede llegar a una
conclusión sobre la suposición o hipótesis de partida.
Hipótesis nula (Ho): Es una hipótesis de diferencias nulas; lo que equivale a decir que es una
hipótesis que contiene una igualdad o algo similar.
Hipótesis alternativa (H1): Es la hipótesis que deberá ser aceptada si la nula se rechaza, y
tiene asociado algún tipo de desigualdad estricta.
Al plantear el par de hipótesis nula y alternativa surge alguno de los tres casos siguientes:
98
O sea, se quiere verificar si el valor del parámetro ha
Ho: θ = θo ( ó Ho: θ ≤ θo )
aumentado, contraponiendo esto a que se mantiene
H1: θ > θo
igual, o incluso disminuyó.
Valor crítico (C o θc): Es un valor numérico que se calcula a partir del dato histórico conocido y
de la distribución probabilística del estimador, para que el estadígrafo de prueba se compare
con él y se pueda tomar una decisión.
La necesidad del valor crítico puede entenderse por el hecho de que el estadígrafo de prueba,
al ser el resultado de una estimación, no se debe comparar directamente con el dato histórico,
sino que se debe dejar una especie de margen para los posibles errores de estimación.
La distribución del estadístico de prueba se divide en dos partes la región de rechazo y la región
de no rechazo o aceptación, estando separadas ambas regiones por el valor crítico.
99
Caso de posible reducción: Si θ̂ < θc,
se rechazaría H0, adoptándose H1; pero
si θ̂ ≥ θc, aunque sea θ̂ < θ0, no hay
evidencia de una reducción significativa.
Regla de decisión: Es una especie de traducción al lenguaje común de la región crítica; en ella
se establece lo que se debe hacer, partiendo del valor crítico determinado. Esto es:
Nivel de significación (α): Es la probabilidad máxima con que se admite cometer el error
considerado más grave.
El nivel de significación es escogido en la práctica por el investigador. Los valores más usados
son: 5% (0,05) y 1% (0,01). Una vez fijado éste se puede calcular el valor crítico y determinar la
región crítica.
En lugar del nivel de significación a veces se utiliza el nivel de confianza (1 - α), definido en la
Teoría de la Estimación.
100
POSIBLES ERRORES A COMETER:
Al tomar una decisión es posible que se cometa uno de los dos siguientes errores: rechazar Ho
siendo cierta o aceptar Ho siendo falsa. El primero de estos posibles errores, dadas sus
consecuencias, es el más grave, y se le denomina Error tipo I; al otro se le llama Error tipo II. La
probabilidad de un error de tipo I se conoce como α, es el nivel de significación, y la
probabilidad de un error de tipo II se conoce como β. A partir de las definiciones se tiene:
Luego, interesa medir las magnitudes de esos errores y tratar de que estos sean lo más
pequeños posible, o sea, que la probabilidad de cometerlos sea lo suficientemente pequeña.
Pero reducir la magnitud de ambos es imposible pues una disminución en uno de ellos, provoca
en general un aumento del otro.
Es por ello que la solución dada por los matemáticos es fijar la probabilidad de cometer el error
de connotación más grave a un nivel aceptablemente bajo y tratar de hacer mínimo el otro; es
decir, se prefija α.
En el contexto económico a los errores antes mencionados, y sus probabilidades, se les llama
riesgo de los productores (α) y riesgo de los consumidores (β) respectivamente. Al riesgo
de rechazar una hipótesis nula verdadera se le llaman riesgo de los productores porque que si
101
la hipótesis se rechaza es a favor de un cambio que supuestamente conlleva una mejora en las
ventas, y al ser errónea la decisión el productor pierde una posible ganancia extra. Por su parte,
al riesgo de aceptar una hipótesis nula falsa se le llaman riesgo de los consumidores porque
una aceptación de la nula debería corresponderse con el hecho de que la mejor opción era la ya
existente, y si la decisión es errónea es una pérdida de posibles mejoras para el consumidor.
A manera de resumen, se puede elaborar una especie de algoritmo para desarrollar una prueba
de hipótesis, que implicaría los siguientes pasos:
La decisión se toma utilizando el estadístico de prueba que nos facilitó la muestra y si el mismo
cae en la región crítica se rechaza H0 y por tanto se acepta H1; si cae en la región de no rechazo
(de aceptación) no existen elementos para rechazar H0.
Se le llama pruebas paramétricas, como se ha dicho, a aquellas que requieren del conocimiento
de la distribución muestral de los estimadores asociados a los parámetros poblacionales. Las
pruebas paramétricas más conocidas son las pruebas respecto al comportamiento de la media,
la varianza y las proporciones en una población.
En el caso de las pruebas para medias se debe tener en cuenta si se conoce la varianza
poblacional real (σ²) o si se contará con una estimación de la misma (s²), igual que cuando se
hacen cálculos probabilísticos asociados a alguna estimación. En función de esto, si se toma
como estadígrafo de prueba la propia media muestral ( x ), las regiones críticas –atendiendo al
tipo de hipótesis alternativa– quedan:
102
¾ Para cuando σ² es desconocida:
⎧ s ⎫
H1: μ > μo WC = ⎨x : x > μ 0 + t 1−α (n−1) ⎬
⎩ n⎭
⎧ s ⎫
H1: μ < μo WC = ⎨x : x < μ 0 − t 1−α (n−1) ⎬
⎩ n⎭
⎧ s s ⎫
H1: μ ≠ μo WC = ⎨x : x < μ 0 − t 1−α ó x > μ 0 + t 1−α ⎬
⎩ 2 ( n −1) n 2 ( n −1) n⎭
Nota: Aquí igualmente deben tenerse en cuenta las condiciones necesarias o supuestos de
aplicación de la distribución probabilística adecuada, en particular la toma de la muestra
mediante un muestreo aleatorio simple y la asunción de normalidad poblacional de la
variable. También puede sustituirse el uso de la t por Z cuando la muestra es
suficientemente grande, o sea, si n > 30.
Otra variante, que algunos llaman vía interna de solución, es utilizar como estadígrafo de
prueba la conocida estandarización de la media muestral, que en dependencia de si se conoce
o no la varianza poblacional recibe el nombre de estadígrafo Z o estadígrafo t respectivamente,
en correspondencia con la distribución muestral que sigue. O sea:
x − μ0 x − μ0
Z0 = t0 =
σ/ n s/ n
Si se usan estos estadígrafos de prueba las regiones críticas quedan expresadas de una
manera más sencilla:
Si lo que interesa verificar es la posible variación en algún valor porcentual o en el resultado del
conteo de alguna variable, ello puede expresarse como una prueba de hipótesis para
proporciones.
Las pruebas para proporciones se basan en las mismas condiciones o supuestos analizados
para considerar adecuada la proporción muestral como estimador de la proporción poblacional:
desarrollar un muestreo aleatorio simple y contar con una muestra tal que n > 30. Así se tiene,
para los distintos casos de hipótesis alternativas las regiones críticas siguientes:
103
⎧⎪ p 0 q 0 ⎫⎪
• H1: p > p0 WC = ⎨p̂ : p̂ > p 0 + Z 1−α ⎬
⎪⎩ n ⎪⎭
⎧⎪ p 0 q 0 ⎫⎪
• H1: p < p0 WC = ⎨p̂ : p̂ < p 0 − Z 1−α ⎬
⎪⎩ n ⎪⎭
⎧⎪ p 0 q0 p 0 q0 ⎫⎪
• H1: p ≠ p0 WC = ⎨p̂ : p̂ < p 0 − Z 1−α ó p̂ > p 0 + Z 1−α ⎬
⎪⎩ 2 n 2 n ⎪⎭
p̂ − p 0
Para la vía interna de solución se recurre al estadígrafo: Z 0 =
p 0 q0
n
Y las regiones críticas quedan:
Este resultado para las regiones críticas coincide con en el de las pruebas para medias cuando
la varianza poblacional es conocida, o sea, cuando se usa Z. Esto evidencia una de las
ventajas de la vía interna: las regiones críticas suelen permanecer inalterables para un tipo de
alternativa dado, lo que varía es la forma en que se calcula el estadígrafo de prueba.
⎧ σ2 2 ⎫
• H1: σ2 > σ20 WC = ⎨s 2 : s 2 > χ 1−α (n−1) ⎬
⎩ n −1 ⎭
⎧ σ 2
⎫
• H1: σ2 < σ20 WC = ⎨s 2 : s 2 < χ 2α (n−1) ⎬
⎩ n −1 ⎭
⎧ σ 2
σ2 2 ⎫
• H1: σ2 ≠ σ20 WC = ⎨s 2 : s 2 < χ α2 (n−1) ó s 2 > χ 1−α (n−1) ⎬
⎩ n −1 2 n −1 2
⎭
2
(n − 1) s
Por la vía interna de solución el estadígrafo de prueba es: χ 02 =
σ 02
Y las regiones críticas son:
104
Ejemplo 1:
En una fábrica se producen cuerdas cuya resistencia promedio es de 500 kgf (kilogramo-
fuerza), con una desviación típica de 40 kgf. El jefe de producción plantea que con otra materia
prima la resistencia promedio puede aumentarse. Para probar su planteamiento se utilizó de
forma experimental la nueva materia prima, tomándose una muestra de 64 de las cuerdas
producidas, para la cual la resistencia promedio fue de 510 kgf. Se quiere realizar la prueba de
hipótesis correspondiente para un 5% de significación.
Solución:
Al enfrentar un problema de este tipo, lo primero que se hace es analizar a que parámetro se le
va a hacer la prueba, y esto está en dependencia de lo que se va a investigar. En este caso se
plantea que con la nueva materia prima la resistencia promedio puede aumentarse, por lo que
evidentemente se debe efectuar una prueba de hipótesis de media ( μ ). Se debe determinar
entonces si se conoce la varianza poblacional ( σ²) o no; para ello lo segundo que se hará es
sacar la información que brinda el problema.
Datos:
µ0 = 500 σ = 40 n = 64 x = 510 α = 0,05
Dado que σ2 es conocida, se tiene que x ∼ N (µ ; σ / n ), luego las fórmulas para el cálculo
de la región crítica que se deben utilizar son las de la normal.
Nota: H0 hubiera podido ser también totalmente contraria a H1, o sea: µ ≤ 500, es decir,
que con la nueva materia prima la resistencia promedio no varía o incluso disminuye.
Región crítica:
⎧ σ ⎫
WC = ⎨x : x > μ 0 + Z1−α ⎬
⎩ n⎭
= { x : x > 500 + Z0.95 (40 / 64 ) } = { x : x > 500 + 1.64 (5) } = { x : x > 500 + 8.2 }
Regla de decisión:
Se rechaza Ho si x > 508.2
Se acepta H0 si x ≤ 508.2
105
Toma de la decisión:
x = 510 > µC = 508.2, o sea: x ∈ WC
Esto implica que se acepta H1, lo cual permite concluir, con un nivel de significación
del 5, que con la nueva materia prima la resistencia promedio puede aumentarse.
Al tomar esta decisión pudo cometerse el error tipo I, rechazar una hipótesis nula cierta,
por ello se indica el nivel de significación usado.
La prueba hubiera podido desarrollarse también por la llamada vía interna; en este caso, para
las mismas hipótesis planteadas se tendría:
Región crítica:
Wc = { Z0 : Z0 > Z1-α } = { Z0 : Z0 > Z0.95 } = { Z0 : Z0 > 1.64}
Regla de decisión:
Se rechaza Ho si Z0 > 1.64
Se acepta Ho si Z0 ≤ 1.64
Decisión:
x − μ 0 510 − 500 10
Z0 = = = = 2 > ZC = 2 o sea: Z 0 ∈ WC
σ/ n 40 5
64
Por tanto, de la misma manera, se rechaza H0, y se llega a igual conclusión: el cambio
de materia prima puede aumentar la resistencia promedio de las cuerdas.
Ejemplo 2:
La producción promedio diaria de leche por vaca en la provincia en los meses de verano ha sido
en los años anteriores de 10.1 litros. Este año en una muestra simple aleatoria de 16 días de los
meses de verano se obtuvo una producción media diaria por vaca de 9.9 litros con una
desviación estándar de 1.1 litros. ¿Hay razón para afirmar que ha variado la producción medio
diaria de leche por vaca?
Solución:
Esta es una prueba paramétrica sobre la media, ya que de lo que se trata es de verificar si ha
tenido variación la producción promedio diaria de leche por vaca.
Datos:
μ = 10.1 σ = ? n = 16 σ = 9.9 s = 1.1
106
Hipótesis:
Ho: μ = 10.1
H1: μ ≠ 10.1
Nivel de significación:
α = 0,05 (Cuando no se sugiere ninguno, el nivel de significación lo decide el estadístico.)
Región crítica:
⎧ s s ⎫
WC = ⎨x : x < μ 0 − t 1−α ó x > μ 0 + t 1−α ⎬
⎩ 2 ( n −1) n 2 ( n −1) n⎭
={ x: x > 10.1 - t0.975 (15) (1.1 / 16 ) ó x > 10.1 + t0.975 (15) (1.1 / 16 ) }
={ x: x > 10.1 - 2.13 (0.275) ó x > 10.1 + 2.13 (0.275) }
={ x: x > 10.1 - 0.586 ó x > 10.1 + 0.586 }
={ x: x > 9.514 ó x > 10.686 }
Regla de decisión:
Rechazar Ho si x < 9.514 ó x > 10.686
No rechazar Ho si: 9.514 ≤ x ≤ 10.686
Decisión:
x = 9.9 > 9.514 y 9.9 < 10.686, o sea: x ∈ WC
El error que se pudo haber cometido al tomar la decisión anterior es de tipo II.
Por supuesto, se llegaría a idéntica conclusión si se utilizara la vía interna de análisis, como se
demuestra a continuación:
Región crítica:
Wc = { t0 : | t0 | > t1-α/2 (n-1) } = { t0 : | t0 | > t0.975 (15) } = { t0 : | t0 | > 2.13 }
Decisión:
x − μ 0 9.9 − 10.1 − 0.2
t0 = = = = −0.727
s/ n 1.1 16 0.275
Como: | t0 | = 0.727 < 2.13 la decisión es, otra vez, no rechazar H0.
Ejemplo 3:
Se afirma que un lote de piezas contiene menos del 30% de piezas defectuosas. Para
comprobarlo se revisan 50 piezas del lote seleccionadas al azar, entre las cuales se detectan 10
defectuosas. ¿Hay razón para mantener la afirmación con una significación del 5%?
107
Solución:
Esta prueba, evidentemente es de proporciones, ya que lo que se está investigando es sobre la
proporción de piezas defectuosas, y se tiene como dato con el conteo de éstas en la muestra
tomada. La afirmación que se quiere verificar, referente a que menos del 30% de las piezas es
defectuosa, no es algo dado por seguro, luego, es una hipótesis: la hipótesis alternativa; y el
dato a tomar como referencia, el 30%, es el equivalente a una proporción histórica.
Datos:
X: cantidad de piezas defectuosas
n = 50 piezas xn = 10 piezas defectuosas α = 0.05 p0 = 0.30
Hipótesis:
H0: P ≥ 0.30
H1: p < 0.30
Región crítica:
⎧⎪
WC = ⎨p̂ : p̂ < p 0 − Z1−α
⎪⎩
p 0 q0 ⎫⎪ ⎧⎪
⎬ = ⎨p̂ : p̂ < 0.30 − Z 0.95
n ⎭⎪ ⎪⎩
0.30 ⋅ 0.70 ⎫⎪
50
{
⎬ = p̂ : p̂ < 0.30 − 1.64 0.0042
⎪⎭
}
= {p̂ : p̂ < 0.30 − 1.64 ⋅ 0.064} = {p̂ : p̂ < 0.30 − 0.105} = {p̂ : p̂ < 0.195}
Decisión:
x 10
p̂ = n = = 0.20 > 0.195 O sea, p̂ ∉ WC
n 50
Entonces, bajo el α usado no se puede afirmar que el lote contiene menos del 30%
de piezas defectuosas.
Región crítica:
Wc = { Z0 : Z0 < -Z1-α } = { Z0 : Z0 < -Z0.95 } = { Z0 : Z0 < -1.64}
Decisión:
p̂ − p 0 0.20 − 0.30 − 0.10
Z0 = = = = −1.5625 > -1.64
p 0 q0 0.30 ⋅ 0.70 0.064
n 50
Ejemplo 4:
El precio de cierto producto en el mercado mundial exhibió durante el pasado año una
variabilidad expresada en términos de una desviación típica de 0.4 dólares. Una muestra
108
aleatoria de 30 días correspondiente al presente año dio como resultado una desviación típica
de 0.5 dólares. ¿Hay razón suficiente para creer que el precio del producto es menos estable
este año que el pasado? Considere un α = 0.05.
Solución:
Es bueno destacar que un precio menos estable implica mayor varianza, mientras que, por el
contrario, un precio más estable implica menor varianza.
Datos:
σ0 = 0.4 s = 0.5 n = 30 α = 0.05 Nota: σ0 = 0.4 ⇒ σ02 = 0.16
Hipótesis:
Ho: σ2 = 0.16 (El precio actual se mantiene con la misma estable.)
H1: σ2 > 0.16 (El precio actual es menos estable, o sea, con mayor variabilidad.)
Región crítica:
⎧ ⎫ ⎧
WC = ⎨s 2 : s 2 >
σ2 2
n −1
χ1−α (n−1) ⎬ = ⎨s 2 : s 2 >
0.16 2
29
⎫ ⎧
χ 0.95 ( 29 ) ⎬ = ⎨s 2 : s 2 >
0.16
29
⎫
{ }
42.6⎬ = s 2 : s 2 > 0.235
⎩ ⎭ ⎩ ⎭ ⎩ ⎭
Decisión:
s2 = 0.52 = 0.25 > 0.235 O sea, s 2 ∈ WC
Esto que implica que se acepte H1, esto es, puede decirse, con una significación del
5% (o una confiabilidad del 95%) que el precio del producto este año es menos
estable que en el anterior.
Región crítica:
Wc = { χ20 : χ20 > χ21-α } = { χ20 : χ20 > χ20.95 }= { χ20 : χ20 > 42.6}
Decisión:
(n − 1) s 2 29 ⋅ 0.25 7.25
χ 02 = = = = 45.3 > 42.6 O sea, χ 02 ∈ WC
σ 02 0.16 0.16
Por tanto, como era de esperar, se rechaza H0, llegándose a las mismas conclusiones.
EJERCICIOS DE AUTOEVALUACIÓN.
1.- Explique qué significan los términos hipótesis nula e hipótesis alternativa.
109
2.- Explique qué indica el error tipo I y el error tipo II.
5.- Supóngase que se conocen los resultados de una prueba de aptitud para la admisión a
estudios de grado en Administración de Empresas, los cuales tienen una distribución normal
con media de 500 y una desviación típica de 100. Si una muestra aleatoria de 12 solicitantes
del Stephan College tiene una media muestral de 537 ¿existe evidencia de que su resultado
medio sea diferente de la media esperada de todos los solicitantes? Use α = 0.01
6.- La compañía Acero Valle Verde fabrica barras de acero. Entrega barras de acero con una
longitud promedio de por lo menos 2.8 pies cuando el proceso funciona correctamente. De la
línea de producción se selecciona una muestra de 25 barras. La muestra señala una longitud
promedio de 2,43 pies y una desviación típica de 0.20 pies. La compañía desea determinar si se
necesita ajustar el equipo de producción. Utilice un α = 0.05 y diga qué error pudo estar
cometiendo con la decisión tomada.
7.- La división de inspección del departamento de pesas y medias de la provincia Habana está
interesada en confirmar la cantidad real de refrescos que se envasa en botellas de 2 litros, se
conoce que μ = 2.02. La planta embotelladora ha informado a la división de inspección que se
desconoce la desviación típica de la población, y que al tomar una muestra aleatoria de 100
botellas, mostró un promedio de 1.99 litros y una desviación típica de 0.05 litros. ¿Es posible
concluir que la cantidad promedio en las botellas fuera menos de 2 litros? Utilice un α = 0.01
8.- Una gran cadena nacional de electrodomésticos tiene una venta especial por fin de
temporada de podadoras de césped. A continuación se presenta el número de podadoras
vendidas durante esta venta en una muestra de 10 tiendas:
8 11 0 4 7 8 10 5 8 3
A un α = 0.05 ¿se puede llegar a la conclusión que se haya vendido un promedio de más de 5
podadoras por tienda durante esta venta?
¿Qué suposiciones se requiere para realizar esta prueba?
¿Qué error se pudiera estar cometiendo con la decisión tomada?
9.- ¿En muestras con menos de 30 observaciones se puede considerar que la proporción
muestral sigue una distribución normal?
10.- Se conoce que en una ciudad, la proporción de hombres es de 0.40. Se supone que
después de la construcción de una gran industria, la proporción de hombres aumentó. Para
verificar este supuesto, se extrajo una muestra aleatoria de tamaño 100, resultando que la
misma está integrada por 45 hombres y 55 mujeres. Se pide hacer la prueba para un α = 0.05
11.- La cadena de tiendas Gaviota, recibe de una firma un embarque de cierta marca de
bolígrafos baratos. El gerente comercial de la cadena desea estimar la proporción de bolígrafos
defectuosos; se toma una muestra aleatoria de 300 bolígrafos y se encuentran que 30 están
defectuosas. Se puede devolver el embarque si más del 5% están defectuosas. ¿Sería probable
que la proporción de plumas defectuosas fuera superior a 0.05 y que pudiera devolverse el
embarque?. Utilice un α = 0.05
110
12.- Un fabricante de aparatos de televisión ha afirmado en su garantía que en el pasado solo el
10% de sus aparatos necesitaron alguna reparación durante sus dos primeros años de
funcionamiento. Para comprobar la validez de esta afirmación, el departamento de control de la
calidad del ministerio seleccionó una muestra de 100 aparatos y encuentra que 14 de ellos
requirieron alguna reparación durante sus primeros dos años de funcionamiento. Utilizando un
α = 0.01, ¿es válida la afirmación del fabricante o es probable que no lo sea?
111
5.2: Tamaño del error tipo II. Función de potencia. Tamaño de la muestra.
Tradicionalmente el estadístico controla el error tipo I estableciendo el nivel de riesgo que está
dispuesto a tolerar en términos de rechazar una hipótesis nula verdadera, es decir, fijando el α
de la prueba. Una vez especificado el valor de α queda determinado el tamaño de la región
crítica o de rechazo.
El valor de β depende del α escogido –o del valor crítico derivado-, pero también depende de
algún valor específico asociado a la hipótesis alternativa (θk); por ello se suele describir a β
como función del parámetro en prueba, o sea: β = β(θk).
En muchas aplicaciones estadísticas el segundo tipo de error (error tipo II), no está controlado,
pero aun entonces el que realiza el experimento debe estar enterado de la existencia de este
error y tener una idea de lo grande que puede ser, ya que, como se dijo, el mismo está
asociado a situaciones como las provocadas por que artículos de mala clase sean aceptados
para la venta, con pérdida para el consumidor. Equivalentemente, se puede calcular lo que se
denomina potencia de la prueba.
La función de potencia también se suele graficar. Gráficamente se comporta como una curva
con tendencia asintótica a 1 en la medida en que θk se adentra en la región crítica; por el otro
extremo, si la prueba es unilateral, la curva es asintótica a 0:
112
Los gráficos anteriores permiten concluir que cuando el valor real de un parámetro sometido a
prueba se aleja mucho del valor hipotético, la potencia de la prueba, o sea, la probabilidad de
descubrir un cambio en la situación en estudio –si lo hubo-, será alta, y muy pequeño por tanto
el tamaño probabilístico del error tipo II; pero ocurre lo contrario si el verdadero valor está muy
alejado del hipotético.
En general, se dice que una prueba es potente para un valor alternativo dado si su potencia es
mayor del 80 u 85%.
La función de potencia cumple además con las dos propiedades siguientes, observables en los
gráficos:
1. П(θ0) = α
2. П(θC) = ½ = 0.5
113
Una de las principales aplicaciones de la función de potencia es determinar, mediante despeje,
el tamaño de muestra necesario para que, una vez fijado el valor de α, el valor de β no
sobrepase una determinada cota.
Ejemplo ilustrativo:
Para ver una aplicación de lo planteado respecto a los valores de α, β y la potencia de una
prueba, conviene analizar una situación concreta, como la que se expone a continuación:
El proceso de llenado de los paquetes de cereales en una determinada fábrica está ajustado de
forma tal que el peso neto de los paquetes sigue una distribución normal con media de 368
gramos y una desviación típica de 15 gramos. La oficina local de protección a los consumidores
hace inspecciones periódicas para conocer si el peso de los paquetes de cereal producidos por
la fábrica tienen el peso adecuado; esta vez, para hacer los análisis pertinentes se tomó una
muestra aleatoria de 25 paquetes, calculándose el peso promedio, que resultó igual a 367.5
gramos.
a) Haga la prueba correspondiente para un α = 0.05, si se desea conocer si el peso promedio
de los paquetes ha disminuido. Diga qué error pudiera cometerse, y cuál es su tamaño
probabilístico. Calcule la potencia de la prueba.
b) Si el gerente plantea que él está sobre todo interesado en detectar disminuciones en el peso
medio por encima de los 10 gramos, ¿es potente la prueba para ello?
c) ¿Qué pasaría con la prueba si el gerente decide utilizar como valor crítico μC = 367 gramos?
d) ¿Qué tamaño debe tener la muestra que se utilice si se quiere una significación del 5% y
una potencia del 98% para detectar disminuciones de al menos 5 gramos en el peso
promedio?
Solución:
a) Datos:
X: peso neto de las cajas de cereal (gramos)
μ0 = 368 σ = 15 n = 25 x = 367.5 α = 0.05
Hipótesis:
Ho: μ = 368
H1: μ < 368
Región crítica:
⎧ σ ⎫ ⎧ 15 ⎫
WC = ⎨x : x < μ 0 − Z1−α ⎬ = ⎨x : x < 368 − Z 0.95 ⎬ = {x : x < 368 − 1.64 ⋅ 3} = {x : x < 368 − 4.92}
⎩ n⎭ ⎩ 25 ⎭
Por lo tanto la región de rechazo será: WC = { x : x < 363.08 }
Decisión:
x = 367.5 > 363.08 O sea: x ∉ WC
114
Esto indica que, con la significación escogida (α = 0.05) no hay elementos para asegurar que el
peso medio de los paquetes de cereales es inferior a lo debido; la diferencia observada puede
deberse a la aleatoriedad de la propia muestra.
A partir de esta decisión, de haberse cometido un error, sería de tipo II. El tamaño probabilístico
del posible error puede determinarse como sigue:
Dado que β depende de algún valor específico del parámetro, su cálculo y el de la potencia
requieren que se considere algún valor alternativo para el verdadero peso neto medio de las
cajas (μk). Pudieran considerarse, dos valores: μk1 = 320, muy alejado de μ0, y μk2 = 367, muy
cercano de μ0.
Este resultado indica que existe una probabilidad muy pequeña (casi cero) de concluir
que el peso promedio no ha disminuido –o sea, de no detectar su disminución- si en
realidad ha disminuido mucho. En términos de la potencia, la prueba es muy potente
(П=100%) para detectar disminuciones en el peso neto medio si éste realmente ha
disminuido mucho.
Por su parte, para una mínima disminución, hasta μk2 = 367 se tiene:
363.08 − 367
β(μk2) = P ( x > μC / μ = μk2) = P ( x > 363.08 / μ = 367) = P ( Z > ) = P ( Z > -1.31 )
15 25
= 1 - FZ (-1.31) = 1 – 0.0951 = 0.9049
Este otro resultado indica que existe una probabilidad alta de concluir que el peso
promedio no ha disminuido –o sea, de no detectar su disminución- si en realidad ha
disminuido muy poco. En términos de la potencia, la prueba es muy poco potente
(П=9.51%) para detectar disminuciones en el peso neto medio si éste ha disminuido
levemente.
b) Datos:
Δμ = -10 (disminución de 10 gramos)
μk = μ0 + Δμ = 368 - 10 = 358
Lo que se quiere es determinar la potencia de la prueba para μk = 358. Para ello se puede
calcular primero la correspondiente β(μk), o mejor, calcular directamente П(μk):
115
363.08 − 358
П (μk) = P ( x < μC / μ = μk) = P ( x < 363.08 / μ = 358) = P ( Z < ) = P ( Z < 1.69 )
15 25
= FZ (1.69) = 0.9545
c) Datos:
μC = 367
367 − 368
α = P( x < μC / μ = μ0) = P( x < 367 / μ = 368) = P ( Z < ) = P ( Z < -0.33 )
15 25
= FZ (-0.33) = 0.3707
Se obtiene, pues, una probabilidad alta para el error tipo I, del 33.07%.
d) Datos:
Δμ = -5 (disminución de 5 gramos)
μk = μ0 + Δμ = 368 - 5 = 363
α = 0.05
П (μk) = 0.98
Se quiere determinar n para un nivel de significación y una potencia prefijados, lo cual implica
que se despeje de la función de potencia:
⎛ μ − μk ⎞ ⎛ μ − Z 1−α σ n − μ k ⎞
Π(μ k ) = P( x < μ C / μ = μ k ) = P⎜ Z < C ⎟ = P⎜ Z < 0 ⎟
⎜ σ n ⎠ ⎟ ⎜ σ n ⎟
⎝ ⎝ ⎠
116
μ 0 − Z 1−α σ n − μk
ZΠ = , donde: ZП = Z0.98 = 2.05
σ n
σ
(Z Π + Z1−α ) = μ0 − μk
n
2
⎛ Z + Z 1−α ⎞
Siendo, finalmente: n = ⎜⎜ Π σ ⎟⎟
⎝ μ 0 − μ k ⎠
2 2 2
⎛ Z + Z 1−α ⎞ ⎛Z + Z 0.95 ⎞ ⎛ 2.05 + 1.64 ⎞
n = ⎜⎜ Π σ ⎟⎟ = ⎜⎜ 0.98 15 ⎟⎟ = ⎜ 15 ⎟ = (0.738 ⋅ 15 ) 2 = 11.07 2 = 122.54
⎝ 0μ − μ k ⎠ ⎝ 368 − 363 ⎠ ⎝ 5 ⎠
Entonces: n = 123
Esto quiere decir que se requiere una muestra de al menos 123 paquetes para
garantizar los requerimientos planteados para la prueba.
Consideraciones finales:
Para un determinado tamaño de muestra, quien deba tomar la decisión tiene que equilibrar los
dos tipos de errores, pues siempre que se disminuye α aumenta β, y viceversa. Los valores
para α y β dependen de la importancia de cada riesgo en un problema en particular.
El riesgo de un error tipo I en el problema de llenado de los paquetes de cereales implica llegar
a la conclusión de que el peso promedio ha cambiado cuando en realidad no es así.
El riesgo de un error tipo II implica llegar a la conclusión de que el peso promedio de llenado
no ha cambiado cuando en realidad sí ha cambiado.
Así la selección de los valores que deben tener α y β depende de los costos inherentes a
cada tipo de error. Por ejemplo si fuera muy costoso hacer cambiar la línea de llenado,
entonces se querría estar muy seguro de que un cambio resultaría beneficioso por lo que un
error tipo I pudiera ser lo más atendible y α se mantendría muy bajo. Por otra parte, si se quiere
estar seguro de detectar los cambios para una media hipotética, el riesgo de un error tipo II,
sería lo más importante y se podría utilizar un nivel más alto de α.
117
EJERCICIOS DE AUTOEVALUCIÓN
1.-Para probar que una moneda no está trucada, se adopta la siguiente regla de decisión:
Acepte la hipótesis si el número de caras en una muestra simple de 10 lanzamientos está entre
40 y 60 inclusive de lo contrario rechace la hipótesis. ¿Cuál es la probabilidad de aceptar la
hipótesis de que la moneda no esté trucada cuando la probabilidad real de obtener cara es P =
0.7?
2.- Una empresa fabrica cordel cuya carga de rotura tiene una media de 300 lbs y una
desviación estándar de 24 lbs. Se cree que mediante un nuevo proceso de fabricación la carga
media de rotura puede ser aumentada.
a) Diseñe una regla de decisión para rechazar el proceso antiguo a un nivel de significación
de 0.01 si se está de acuerdo en probar 64 cordeles
b) Bajo la regla de decisión adoptada en el inciso (a) ¿cuál es la probabilidad de aceptar el
proceso antiguo, cuando en realidad el nuevo proceso ha aumentado la carga media de
rotura a 310 lbs.? Suponga que la desviación estándar sigue siendo 24 lbs.
3.- Si la probabilidad de cometer un error tipo I disminuye, ¿cómo afecta esto a la probabilidad
de cometer un error tipo II?
5.- Que es más importante controlar un error tipo I o el error tipo II?
6.- Cada semana, la policía del Estado de La Florida intercepta un promedio de $56 millones en
drogas que se transportan hacia el norte por una carretera interestatal. Durante 36 semanas
elegidas al azar en 1992, la policía interceptó un promedio de $60 millones en drogas por
semana, con una desviación estándar de $20 millones. ¿Indica esta evidencia muestral un
aumento en el movimiento de drogas a través de La Florida? Realice una prueba con un nivel
de significación de 0.05. Calcule la probabilidad de que ocurra un error tipo II si la media
poblacional es en realidad $59 millones.
7.- ¿Es posible controlar las probabilidades de error tipo I y tipo II en una prueba de hipótesis
particular? Si es así, ¿cómo se logra?
118
5.3: Pruebas no paramétricas: Prueba chi-cuadrado de la bondad de ajuste para
verificar normalidad. Prueba chi-cuadrado para verificar el supuesto de
independencia. Tablas de contingencia.
Como se ha dicho, una prueba no paramétrica es aquella que no requiere del conocimiento de
parámetros o características de la distribución poblacional. Existen pruebas no paramétricas
para los más variados estudios, incluidos aquellos que también pueden realizarse mediante
pruebas paramétricas; no obstante, si se puede escoger para una investigación dada entre
efectuar una prueba paramétrica y una no paramétrica, se debe preferir la paramétrica, pues
éstas son siempre más potentes que las no paramétricas equivalentes. La ventaja de las
pruebas no paramétricas radica precisamente en el hecho de que no se necesita del
conocimiento de características poblacionales que en muchos casos son ignoradas.
Entre las pruebas no paramétricas más conocidas están las llamadas pruebas chi-cuadrado,
que deben su nombre a que el estadígrafo de prueba utilizado sigue la distribución homónima.
Las pruebas chi-cuadrado, en general, pretenden decidir sobre si una determinada variable,
empírica u observada, cumple una cierta condición teórica. La hipótesis nula en estas pruebas
siempre está asociada al cumplimiento de la condición, y la verificación se basa en comparar
los valores observados con los valores teóricos esperados bajo dicha condición: Si las
diferencias entre lo observado y lo esperado son muy grandes, es decir, mayores que un valor
tomado como crítico, se rechaza la hipótesis nula y se asume que no se cumple la condición
supuesta. Dos de las aplicaciones inmediatas de las pruebas chi-cuadrado son las que se
conocen como pruebas para la bondad del ajuste y pruebas para independencia.
Las pruebas para la bondad del ajuste se utilizan para verificar si un grupo de datos u
observaciones se ajusta bien al comportamiento de alguna distribución probabilística conocida,
como la normal o la de Poisson. Existen muchos problemas donde el interés del investigador se
centra en contrastar hipótesis sobre cómo se distribuye el número de sucesos que pertenecen a
ciertas categorías; la prueba chi-cuadrado no es la única aplicable a este tipo de estudios: para
análisis de normalidad, por ejemplo, se utilizan mucho también la prueba Kolmogorov - Smirnov
y la prueba Jarque - Bera, entre otras.
Las pruebas de independencia buscan establecer si dos variables son independientes entre sí
o no. Tampoco son las únicas en este sentido; cabe mencionar las de Cramer y las de Kendall.
Tiene gran importancia el poder conocer si un grupo de datos sigue o no una distribución
normal. La prueba χ2 es adecuada para dar solución a este tipo de problema.
119
(no − ne ) 2
En caso de que se viole algún supuesto, esto se resuelve agrupando clases adyacentes hasta
que se logre el cumplimiento. En cualquier caso, es evidente que al final de los cálculos debe
cumplirse que: ∑ Pi = 1.
Como los datos suelen estar en su forma primaria, el primer paso es organizarlos, creando
clases, pues la distribución normal corresponde a una variable continua. Para ello se debe
determinar el recorrido de la variable, decidir cuántas clases conviene usar y calcular el ancho
de clases necesarios. Una vez hecho esto se deberán estimar los dos parámetros que
caracterizan a la distribución normal: μ y σ. Con las correspondientes estimaciones se pasará a
calcular para cada clase la probabilidad de que una variable con distribución normal pertenezca
a la misma; en este cálculo, dado el comportamiento teórico normal, la primera clase se
considera como originada en menos infinito (-∞), y la última clase como extendida hasta infinito
(∞). Con esas probabilidades se calculan las frecuencias esperadas, verificándose que se
cumplen los supuestos requeridos. Finalmente, se obtiene el valor del estadígrafo de prueba,
que permite tomar una decisión.
Vale la pena recordar que la regla de las tres sigmas establece que para toda distribución
normal con media μ y desviación típica σ el área bajo la curva de su función de densidad se
distribuye de la siguiente forma:
120
Lo cual equivale a decir que:
1. P(μ −σ < X < μ+σ) = 68.27% del área bajo la curva normal
2. P(μ −2σ < X < μ+2σ) = 95.45% del área bajo la curva normal
3. P(μ −3σ < X < μ+3σ) = 99.73% del área bajo la curva normal
El método alternativo propuesto sugiere aprovechar esto para construir los intervalos de clase
de manera que las probabilidades correspondientes sean siempre valores fijos, dados por las
secciones en que queda subdividida el área bajo la curva.
Ejemplo:
A partir de la muestra siguiente, se quiere verificar, con un nivel de significación del 5%, si la
misma procede de una población normal.
10 12 13 14 15 22 28 30 30 29
10 11 15 10 15 26 26 28 27 29
16 16 20 17 18 30 28 27 26 30
19 20 17 18 20 29 26 26 28 29
20 19 19 18 17 27 27 26 26 28
17 16 23 24 23 27 31 32 33 33
21 22 22 21 22 29 33 33 32 31
121
24 23 24 23 21 35 32 31 38 39
24 23 20 21 21 34 37 41 39 41
24 24 23 21 22 31 38 36 36 40
Solución:
1 2500
Por tanto: μˆ = x =
n
∑X = 100
= 25
1 5420
σˆ 2 = s 2 =
n −1
∑ ( X − x) 2
=
99
= 54.75 y: s = 54.75 = 7.4
Es decir, se partirá de x = 25 como valor que cierra la tercera clase y abre la cuarta, y tomando
como ancho de clase c = s = 7.4, se crearán las clases y la tabla de frecuencias:
Nota: Puesto que las clases se han creado atendiendo al criterio derivado de la regla de
las 3 sigmas, las probabilidades correspondientes son los valores antes listados. No
obstante, a continuación se muestra cómo calcularlas, para el caso en que no se quiera
o no se pueda seguir este método, o incluso siguiéndolo no se recuerden las
probabilidades:
122
¾ Dos clases tienen frecuencias esperadas menores que 5, de un total de seis, lo que
equivale a decir que el 33% de las frecuencias esperadas (2/6 = 0.33) son menores que
5, por lo que se viola esta restricción.
clases noi n ei
-∞ – 17.6 17 15.87
17.6 – 25.0 34 34.13
25.0 – 32.4 33 34.13
32.4 – 39.8 14 13.59
39.8 – ∞ 2 2.28
Ahora, de cinco clases en total, una tiene la frecuencia esperada menor que 5, lo que hace
constituye el 20%, que es justo el máximo admitido para esta restricción, que se puede dar ya
entonces por cumplida. Queda, pues, k = 5.
Hipótesis:
H0: x ∼ N
H1: x ∼/ N
Región crítica:
{ } { } {
WC = χ 02 : χ 02 > χ12−α (k −3 ) = χ 02 : χ 02 > χ 02.95 ( 2 ) = χ 02 : χ 02 > 5.99 } (α = 0.05 )
Decisión:
(no − ne ) 2
χ 02 =
(17 − 15.87) 2
+
(34 − 34.13 ) 2
+
(33 − 34.13 ) 2 + (14 − 13.59) 2 + (2 − 2.28) 2 = 0.1374
15.87 34.13 34.13 13.59 2.28
Esto quiere decir que puede aceptarse, con una significación del 5%, que los datos siguen una
distribución normal.
123
H1: X y Y son dependientes
Para desarrollar la prueba las dos variables sobre las que se plantean las hipótesis se
clasificarán conjuntamente en categorías o clases, en una tabla denominada tabla de doble
entrada o tabla de contingencia, como la mostrada:
Y Y1 Y2 … Yk nX
X
X1 no 11 no 12 … no 1k nX1
X2 no 21 no 22 … no 2k nX2
no i j
…
…
Xr no r1 no r2 … no rk nXr
nY nY1 nY2 … nYk n
Las frecuencias denotadas por no i j dentro de la tabla son las llamadas frecuencias observadas
conjuntas, y representan la cantidad de veces que se observan a la vez el valor Xi de X con el
valor Yj de Y ( Se suele reservar el subíndice i para la X y el subíndice j para la Y ).
En los bordes derecho e inferior de la atabla aparecen las llamadas frecuencias marginales de
X y de Y respectivamente (nX y nY), que representan el total de observaciones para cada valor
de la correspondiente variable, sin tener en cuenta los valores de la otra, siendo:
r k
nY =
j ∑
i=1
no
ij
y n Xi = ∑ noij
j=1
Para cada par (Xi ; Yj) deben calcularse las frecuencias esperadas bajo la hipótesis de
independencia, que se denotan por ne i j y suelen ponerse entre paréntesis junto a la frecuencia
observada correspondiente. Para ello se necesita también calcular la probabilidad (Pi j) de que
ocurra cada par de valores (Xi ; Yj) siendo las variables independientes.
124
H1: X y Y están relacionadas equivale a: H1: Pi j = Pi Pj
Dichas frecuencias esperadas deben cumplir con los mismos supuestos o restricciones que en
la prueba para verificar normalidad, es decir:
9 Ninguna frecuencia esperada puede ser menor que 1
9 No más de un 20% de las frecuencias esperadas pueden ser menores que 5
Ejemplo:
Una muestra aleatoria simple de 300 estudiantes universitarios de las carreras de Economía y
Contabilidad arrojó los siguientes resultados respecto a la distribución de las evaluaciones en
Estadística:
Evaluación: 2 3 4 5 Total
Carrera:
Economía 27 85 50 18 180
Contabilidad 24 44 40 12 120
Total 51 129 90 30 300
¿Puede afirmarse con base en estos datos, que entre la población de estudiantes universitarios
de las carreras de Economía y Contabilidad hay diferencias respecto a sus resultados en
Estadística? Utilice un nivel de significación del 5%.
Solución:
Datos:
n = 300 r = 2 (carrera: número de filas) k = 4 (evaluaciones: número de columnas)
Nota: Decir que los resultados en Estadística se diferencian para las carreras de
Economía y Contabilidad equivale a decir que dichos resultados dependen de la
carrera que se estudia, por lo que puede efectuarse la verificación mediante una
prueba chi-cuadrado para independencia.
Hipótesis:
H0: Los resultados en Estadística son independientes de la carrera
125
H1: Los resultados en Estadística dependen de la carrera
nX ⋅ nY
i j
ne =
ij n
Por ejemplo, será:
nX ⋅ nY 51 ⋅ 180 nX ⋅ nY 30 ⋅ 120
1 1 2 4
ne = = = 30.6 ó ne = = = 12
11 n 300 24 n 300
Evaluación: 2 3 4 5 Total
Carrera:
Economía 27 (30.6) 85 (77.4) 50 (54) 18 (18) 180
Contabilidad 24 (20.4) 44 (51.6) 40 (36) 12 (12) 120
Total 51 129 90 30 300
Como se ve, todas las frecuencias esperadas son directamente mayores que 5,
por lo que se cumplen los supuestos o restricciones, y se mantiene la cantidad
original de filas y columnas (r = 2 y k = 4).
Región crítica:
{ } { } { } {
WC = χ 02 : χ 02 > χ12−α [(k −1)(r −1)] = χ 02 : χ 02 > χ 02.95 [(1)(3 )] = χ 02 : χ 02 > χ 02.95 ( 3 ) = χ 02 : χ 02 > 7.81 }
Decisión:
(27 − 30.6) 2 (85 − 77.4) 2 (50 − 54) 2 (18 − 18) 2 (24 − 20.4) 2 ( 44 − 51.6) 2 ( 40 − 36) 2 (12 − 12) 2
χ 02 = + + + + + + +
30.6 77.4 54 18 20.4 51.6 36 12
Esto quiere decir que, con una significación del 5%, no existen elementos para afirmar que los
resultados en Estadística entre los estudiantes de Economía y Contabilidad dependen de la
carrera que estudian; en otras palabras, no hay diferencias significativas en cuanto a los
resultados en Estadística entre ambas carreras.
EJERCICIOS DE AUTOEVALUACIÓN
1.- ¿Para que se utiliza la prueba o dócima de bondad del ajuste? ¿Cuales son las restricciones
que se tiene en cuenta para aplicar la distribución χ2 a esta prueba no paramétrica? ¿Cómo se
plantearían las hipótesis en este tipo de prueba? ¿Cómo se calculan las frecuencias
esperadas?
126
3.- Una muestra aleatoria de 500 acumuladores para automóviles mostró la siguiente
distribución: de la duración en años de los acumuladores.
Intervalos ni
0 a 2 12
2 a 4 94
4 a 6 170
6 a 8 188
8 a 10 28
10 a 12 8
4.- La corporación SIMEX tiene varios miles de trabajadores por hora. La analista de la
corporación quiere determinar si la distribución normal se puede utilizar para describir la escala
de salarios por hora de la corporación; para ello seleccionó una muestra aleatoria de
trabajadores por hora y se registró sus salarios. La analista encontró que la media y la
desviación típica muestral son $8.00 y $0.78 respectivamente. Realice la prueba deseada para
un α del 5%.
Intervalos ni
< 5.66 12
5.66 6.44 38
6.44 7.22 104
7.22 8.00 131
8.00 8.78 117
8.78 9.56 98
9.56 10.34 47
> 10.34 13
560
5.- El director de mercadotecnia de una compañía de televisión por cable está interesado en
determinar si hay alguna diferencia en la proporción de hogares que contratan el servicio de
cable por televisión, sobre la base del tipo de residencia (viviendas para una sola familia,
viviendas para 2 ó 4 familias y edificios de apartamentos). Una muestra aleatoria de 400
hogares mostró lo siguiente:
Con un α = 0.01, ¿podría considerar que hay relación entre la contratación de servicios
de TV por cable y el tipo de residencia?
6.- ¿Por qué no se debe aplicar la prueba chi-cuadrado para la independencia cuando las
frecuencias esperadas en algunas celdas sean menores que 5? ¿Qué acción se puede llevar a
cabo en estas circunstancias que permitan analizar esos datos?
127
7.- Una gran corporación esta interesada en determinar si existe asociación entre el tiempo que
le toma a sus empleados trasladarse al trabajo, y el nivel de problemas relacionados con el
estrés observado en los mismos, con vistas a situarles un ómnibus si esto se comprueba. Un
estudio de 116 trabajadores de la línea de montaje reveló lo mostrado en la tabla que sigue.
Determine si hay relación entre el tiempo de viaje y el estrés.
128
TEMA VI: ANÁLISIS DE VARIANZA
Se inicia aquí el estudio de una técnica llamada análisis de varianza, de marcada importancia
dentro de la Estadística, en particular para el diseño de experimentos. Su fin inmediato es
aplicar una prueba de hipótesis para la comparación de medias entre varias poblacionales,
sobre la base de datos muestrales. Ejemplos de aplicación son los siguientes:
En casi toda la bibliografía sobre el análisis de varianza utiliza el símbolo Y, en vez de X, para
denotar la variable en estudio, justificado esto por el hecho de que se asume que es una
variable que puede estar dependiendo de otra –u otras-: el factor externo, y los matemáticos
prefieren explicitar así una variable dependiente.
En cuanto al factor externo, el mismo puede ser considerado como una variable independiente,
cuya naturaleza puede ser tanto cualitativa como cuantitativa; pero lo que interesa de él son los
distintos valores que toma, a los que se les llama niveles, y su efecto en los valores de la
característica medible o variable dependiente.
Esta técnica pretende expresar la variabilidad total del conjunto de datos como una suma de
términos que se pueden atribuir a distintas fuentes o causas específicas de variación. A esa
descomposición de la variabilidad total se le denomina identidad fundamental del análisis de
varianza. La identidad fundamental da pie a la formación de un estadístico de prueba, y todo
ello se refleja en una tabla llamada tabla de análisis de varianza o tabla ANOVA, por las
siglas en inglés, que resume los principales aspectos teórico-prácticos de la técnica.
129
Es común representar con k la cantidad de niveles o valores distintos del factor externo, a lo
que también se llama cantidad de poblaciones en comparación, y cada una da lugar a una
muestra o grupo de observaciones. La notación en uso tiende además a indicar con un
subíndice i los diferentes niveles o poblaciones a los que da origen (1 ≤ i ≤ k), y con un
subíndice j las distintas observaciones correspondientes a las muestras o grupos tomados para
cada población o nivel.
Ejemplo:
Los niveles del factor son cada uno de los tipos de pienso.
Las poblaciones en comparación son en este caso tres (k = 3): los posibles cerdos
alimentados con cada tipo de pienso; y de cada una de ellas se debe disponer de
una muestra aleatoria.
O sea, la hipótesis nula recoge el hecho de que las medias correspondientes a cada población
en estudio sean todas iguales, lo cual equivale a que el factor externo no incide sobre la
variable. La hipótesis alternativa habla de diferencias entre las medias de algunas poblaciones,
lo que está asociado entonces con alguna influencia del factor externo.
Ya se ha dicho que la este método se basa en expresar la variabilidad total del conjunto de
datos como una suma de términos que se pueden atribuir a distintas fuentes o causas
específicas de variación, y para ello se hace uso ve varios teoremas importantes en el campo
de la Estadística.
Hay un teorema que plantea que si se unen k poblaciones, de respectivo tamaño Ni, pero con
igual varianza σ2, entonces la varianza total asociada a la nueva megapoblación o población
global será:
130
k 2
∑ N (μ
i=1
i i − μ)
σ 2T =σ + 2
, siendo N = ∑Ni el tamaño de la población global.
N
De modo que una comparación de varianzas puede conducir a una conclusión sobre la
igualdad de medias poblacionales. El método que se utiliza es a través de los
estimadores de σ2.
Hay otro teorema que plantea que si dos o más muestras proceden de una misma población, o
de diferentes poblaciones con igual varianza σ2, entonces podrá obtenerse un estimador de σ2 a
través de la siguiente expresión:
2
∑ (y ) ( )
ni
1
S D2 = ij − yi siendo: E S D2 = σ 2
n−k j=1
A esta varianza se le da el nombre de varianza dentro del grupo, y dada la forma de su valor
esperado se cumple que SD2 siempre es un estimador insesgado de σ2.
Conviene destacar que esta varianza, como es insesgada, proporciona una estimación válida
de la varianza desconocida de la población sin importar si se acepta o rechaza H0.
Un teorema más establece que, bajo la misma condición de que todas las varianzas
poblacionales son iguales a σ2, otro estimador de σ2 es:
2
∑n ( y )
k k
∑ n (μ − μ)
2
i i −y i i
S E2 = i=1
k −1
siendo: E ( )= σ
SE2 2
+ i=1
k −1
A este varianza de le denomina varianza entre grupos, y dada la forma matemática de su valor
esperado se ve que SE2 es un estimador sesgado de σ2, que se hace insesgado sólo si
todas las medias poblacionales son iguales, o sea, si se cumple la hipótesis nula planteada
para el análisis de varianza.
En el caso del análisis de varianza de clasificación simple, la variación total en los datos se
divide en dos fuentes: variación entre grupos y variación dentro de grupos, y esto se expresa
mediante las llamadas sumas de cuadrados, que son los denominadores de las varianzas. Así,
se tendría una suma de cuadrados total (SCT), una suma de cuadrados entre grupos (SCE) y
una suma de cuadrados dentro de grupos (SCD), quedando la identidad fundamental del
análisis de varianza como sigue:
Donde:
SCE = ∑ (y ij
i − y)2 = ∑ n (y i i − y)2
131
SCD = ∑ (y ij
ij − y i )2 = ∑ (n − 1) s
i
2
i
SCT = ∑ (y ij
ij − y )2
La suma de cuadrados entre grupos busca las diferencias de las medias de cada grupo
respecto a la media de la muestra conjunta; por tanto, en el caso en que la hipótesis nula del
análisis de varianza sea cierta esta diferencia entre grupos será mínima. La suma de cuadrados
dentro de los grupos lo que hace es comparar cada elemento de la muestra con la media de su
propio grupo.
Una representación gráfica del origen de estas variaciones es siempre útil para comprender su
significado:
Es evidente que: ( y ij − y ) = ( y ij − y i ) + ( y i − y )
Si se eleva al cuadrado ambos miembros, y se suma sobre todos los grupos (i) y todas las
observaciones correspondientes (j), tras hacer algunas transformaciones matemáticas se llega
a la identidad fundamental planteada anteriormente:
k ni k ni k
∑∑(y
i=1 j=1
ij −y = ) ∑∑(y
2
i=1 j=1
ij − yi +) ∑n (y − y )
2
i=1
i i i
2
(SCT = SCD + SCE)
132
1
y=
n
∑yij
ij
Representa la media de todas las observaciones efectuadas, es
decir, de la muestra conjunta.
1
yi =
ni
∑yj
ij
Representa la media de las observaciones correspondientes a la
muestra i-ésima.
∑ (y )
1 2
Representa la estimación de la varianza efectuada a partir de la
s i2 = ij − yi
ni − 1 j muestra i-ésima.
No obstante, como el cálculo manual de las sumas de cuadrados es bastante laborioso, sobre
todo si se tienen que estimar previamente las medias y varianzas de cada grupo, y la media
global, cuando estas estimaciones no se tienen de antemano –que es lo común- se suele
recurrir a fórmulas alternativas que simplifican un poco el proceso, y estas son:
T i2 T2
SCE = ∑ i ni
−
n
Donde: n = ∑ n es el tamaño de la muestra global, y n el de cada grupo
i
i i
T2
SCT = ∑ij
y ij2 −
n
Ti2
SCD = ∑ij
y ij2 − ∑ i ni
De la misma forma resulta de gran importancia en el análisis de varianza la relación entre los
grados de libertad asociados a cada suma de cuadrados, y que son:
O explícitamente:
(n – 1) = (n – k) + (k – 1)
133
Al dividir las sumas de cuadrados entre sus grados de libertad se obtienen los distintos
cuadrados medios o estimadores de σ2, es decir la varianza total ST2, la varianza dentro del
grupo SD2, y la varianza entre grupo SE2; siendo los dos últimos los de verdadero interés para la
aplicación de la técnica, pues del cociente de estos se obtiene el estadígrafo de prueba F0. Así
se tiene:
SCD SCE
S D2 = CMD = y SE2 = CME =
n−k k −1
S E2
Y el estadígrafo de prueba es: F0 =
S D2
Debido a que el cálculo de varianzas entre y dentro de grupos conlleva varios pasos, se
acostumbra a resumir estos resultados en una tabla conocida como tabla de análisis de
varianza (ANOVA). Esta tabla incluye las fuentes de variación, las sumas de los cuadrados (es
decir las variaciones), los grados de libertad, las varianzas o cuadrados medios y el valor del
estadístico de prueba F0, obtenido del cociente SE2/SD2:
Tabla ANOVA
Fuentes de Sumas de Grados de Varianzas o
Estadígrafo
Variación Cuadrados Libertad Cuadrados Medios
entre SCE
SCE k-1 sE2 =
grupos n −1 sE2
F0 =
dentro de SC sD2
SCD n-k s D2 = D
grupos n−k
total SCT n-1
Al estadígrafo se le llama F porque se ha probado que la razón de dos varianzas tiene asociada
una distribución probabilística F de Fisher, cuyos grados de libertad en este caso coinciden con
los de las sumas de cuadrados en el numerador y en el denominador, es decir: F0 ∼ F(k-1;n-k).
Con el fin de determinar si las medias de los diversos grupos son todas iguales, se pueden
examinar dos estimadores diferentes de la varianza de la población. Uno de los estimadores se
basa en la suma de los cuadrados dentro de los grupos (SCD); el otro se basa en la suma de los
cuadrados entre los grupos (SCE). Si la hipótesis nula es cierta, estos estimadores deben ser
aproximadamente iguales; si es falsa el estimador basado en la suma de los cuadrados entre
grupos debe ser mayor.
El estimado de la varianza entre los grupos no solo toma en cuenta las fluctuaciones aleatorias
de una observación a otra, sino también mide las diferencias de un grupo con otro. Si no hay
diferencia de un grupo a otro, cualquier diferencia en la media muestral se explicará por la
variación aleatoria, y la varianza entre grupos, debe estar cerca de la varianza dentro de los
grupos. Sin embargo si en realidad hay una diferencia entre los grupos, la varianza entre grupos
será significativamente mayor que la varianza dentro de los grupos.
Por todo lo anterior, la prueba estadística se basa en la razón de las varianzas SE2/SD2. Si la
hipótesis nula es cierta, esta razón debe estar cercana a uno; si la hipótesis nula es falsa
entonces el numerador debe ser mayor que el denominador y la razón debe ser mayor que uno
134
Como se aprecia el problema se reduce a buscar un valor a partir del cuál el estadístico de
prueba resulte significativamente mayor que 1, y así se rechazará la hipótesis de que no hay
diferencias entre las medias de los grupos cuando la razón entre las varianzas o cuadrados
medios sea mayor que el valor tomado crítico: SE2/SD2 = CME/CMD > F1 − α ( k – 1;n – k)
De aquí se infiere que las hipótesis nula y alternativa que se plantearán serán las siguientes:
H0: μ1 = μ2 = . . . = μk
H1: alguna μi diferente
( )
E SE2
=1
( )>1
E S E2
H0 :
( )
E SD2
H1 :
E(S )
2
D
Ya que como se vio anteriormente SE2 es un estimador sesgado de la varianza total, y sólo será
insesgado si se cumple que H0 es cierta, mientras que SD2 es siempre un estimador insesgado.
Además ésta es la razón por la cuál la distribución a utilizar es la F de Fisher, pues parte de la
relación entre dos varianzas. La región crítica siempre es hacia la derecha ya que el problema
se reduce a buscar un valor a partir del cuál el estadístico de prueba resulte significativamente
mayor que 1 para rechazar la hipótesis nula.
Para aplicar la técnica del análisis de varianza es necesario que se cumplan las siguientes
suposiciones sobre los datos investigados:
1. Las varianzas de las k poblaciones son iguales, o sea: σ12 = σ22 = …= σk2
2. Las características medibles se distribuyen normalmente en cada población; esto es:
Yi ∼ N(μi ; σi), donde i = 1, 2,…,k.
3. Las características medibles son estadísticamente independientes de una población a
otra: Y1, Y2,..., Yk.
4. Las muestras n1, n2,...,nk de los k grupos poblacionales son seleccionadas mediante un
muestreo aleatorio simple.
De estos supuestos el más importante es el primero citado, bajo el que se asume que las
varianzas poblacionales son iguales para todos los grupos en comparación, el cual es conocido
como supuesto de igualdad u homogeneidad de varianzas, o más técnicamente como supuesto
de homocedasticidad (igual variabilidad). De incumplirse el supuesto de homocedasticidad se
invalida el resultado obtenido al aplicar la prueba del análisis de varianza, por ello resulta útil
ante la duda verificar antes (o después si se prefiere) su cumplimiento.
135
Para verificar el cumplimiento del supuesto de homocedasticidad se utiliza, entre otras, la
llamada prueba o dócima de Bartlett -en honor al matemático que la introdujo-, cuya hipótesis
nula habla de la existencia de homocedasticidad y la alternativa de la no existencia, o lo que es
lo mismo, de la presencia de heterocedasticidad, como sigue:
H0: σ12 = σ22 = …= σk2 (las varianzas de las k poblaciones son todas iguales)
H1: Al menos una σi2 difiere de las demás
Bartlett encontró que, si para cada población se contaba con una muestra de al menos cinco
observaciones (ni ≥ 5), el cociente representado por M/C seguía con muy buena aproximación
una distribución chi-cuadrado, y podía ser utilizado como estadígrafo de prueba con la región
crítica dada por:
⎧M M ⎫
WC = ⎨ : > χ 12− α ( k −1) ⎬
⎩C C ⎭
A su vez, sD2 (también CMD) es la varianza o cuadrado medio dentro de grupos ya obtenida
previamente durante el cálculo de F0:
SC D
sD2 ≡ CMD =
n−k
∑ (y )
1 2
s i2 = ij − yi
ni − 1 j
136
Solución:
La variable en estudio (Y) es el costo de producción del producto, y el factor externo en este
caso son las tecnologías.
Hipótesis:
H0: μ1 = μ 2 = μ 3
H1: alguna μi diferente
Región crítica:
{ } { }
W C = F0 : F0 > F1− α (k − 1 ; n − k ) = F0 : F0 > F0.95 (2 ; 12 ) = {F0 : F0 > 3 .89 }
Regla de decisión:
Rechazar H0 si F0 > 3.89
No rechazar H0 si F0 ≤ 3.89
Ahora, para calcular el estadígrafo de prueba, F0, se requiere contar con la llamada tabla
ANOVA, y para llegar a ésta conviene crear una tabla auxiliar a partir de los datos muestrales.
Dicha tabla auxiliar se puede preparar atendiendo a lo que se necesita a partir de las fórmulas
abreviadas para las sumas de cuadrados; a continuación se muestra la aquí usada, donde se
traspuso por comodidad el orden de los datos, quedando ahora las observaciones para los
distintos niveles o poblaciones en filas.
Nota: Debe tenerse en cuenta que el subíndice i representa las muestras (aquí
en distintas filas), y el j las observaciones.
Luego:
k ni
T2
SC T = ∑∑
i=1 j=1
Yij2 −
n
= 620 – 902/15 = 620 – 8100/15 = 620 – 540 = 80
137
k
Ti2 T 2
SCE = ∑
i=1 ni
−
n
= 580 – 540 = 40
k ni k
Ti2
SCD = ∑∑
i=1 j=1
y ij2 − ∑
i=1 ni
= 620 – 580 = 40
Total 80 14 -
Decisión:
F0 = 6.06 > 3.89 Por tanto, se rechaza H0, o sea, se acepta H1.
Esto indica que existen diferencias significativas entre los costos de producción para al menos
una de las tecnología, a un 5% de significación
Hipótesis:
H0: σ12 = σ 22 = σ 32
H1: alguna σi2 diferente
Región crítica:
⎧M M ⎫ ⎧M M ⎫ ⎧M M ⎫
WC = ⎨ : > χ 12− α ( k −1) ⎬ = ⎨ : > χ 02.95 ( 2 ) ⎬ = ⎨ : > 5 .99 ⎬
⎩C C ⎭ ⎩C C ⎭ ⎩C C ⎭
Regla de decisión:
Rechazar H0 si M/C > 5.99
No rechazar H0 si M/C ≤ 5.99
Para calcular el estadígrafo de Bartlett, M/C, se puede crear otra tabla auxiliar a partir de los
datos muestrales, como la siguiente:
138
A B C
7 2 7
4 4 8
6 5 7
4 6 11
9 3 7
ni 5 5 5 n = Σni = 15
1
yi =
ni
∑y
j
ij 6 4 8
∑ (y )
1 2
s i2 = ij − yi 4,5 2,5 3
ni − 1 j
M = (n − k ) ln( s D2 ) − ∑ (n − 1)ln(s
i
i
2
i ) = (15 − 3) ln(3,33 ) − (6,016 + 3,665 + 4,394 )
Decisión:
M/C = 0.324 < 5.99
Por tanto, no se rechaza H0, o sea, se acepta la propia H0.
EJERCICIOS DE AUTOEVALUACIÓN
139
BIBLIOGRAFÍA BÁSICA:
140