Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1.1 Introducción
En términos precisos la estadı́stica es el estudio de fenómenos aleatorias. El aspecto más
importante de la estadı́stica es la obtención de conclusiones basadas en los datos experimentales.
Este proceso se conoce como inferencia estadı́stica. Por ejemplo si se pretende establecer una
relación entre la incidencia de cáncer pulmonar y el fumar, es muy común que la conclusión
este basada en inferencia estadı́stica.
Para comprender la naturaleza de la inferencia estadı́stica es necesario entender las no-
ciones de población y muestra. La población es la colección de toda la posible información que
caracteriza un fenómeno. En este sentido, una población es cualquier colección ya sea de un
número finito de mediciones o una colección grande, virtualmente infinita, de datos acerca de
algo de interés. Por otro lado, la muestra es un subconjunto representativo seleccionado de la
población. La palabra representativo es la clave de esta idea. Una buena muestra es aquella
que refleja las caracterı́sticas esenciales de la población de la cual se obtuvo. En estadı́stica, el
objetivo de las técnicas de muestreo es asegurar que cada observación en la población tiene una
oportunidad igual e independiente de ser incluida en la muestra. Tales procesos de muestreo
conducen a una muestra aleatoria. Las observaciones de la muestra aleatoria se usan para
calcular ciertas caracterı́sticas de la muestra denominadas estadı́sticas. Las estadı́sticas se usan
como base para hacer inferencias acerca de ciertas caracterı́sticas de la población, que reciben
el nombre de parámetros.
En estadı́stica la inferencia es inductiva porque se proyecta de lo especı́fico (muestra) hacia
lo general(población). En un procedimiento de esta naturaleza siempre existe la posibilidad
del error. Nunca podrá tenerse 100% de seguridad sobre una proposición que se base en la
inferencia estadı́stica. Sin embargo, lo que hace que la estadı́stica sea una ciencia (reparándola
del arte de adivinar la fortuna) es que, unida a cualquier proposición, existe una medida de
la confiabilidad de esta. En otras palabras, para cada inferencia estadı́stica se identifica la
probabilidad de que la inferencia sea correcta.
Los problemas estadı́sticos se caracterizan por los siguientes cuatro elementos:
1
Noé Chan Chı́ 2
Trataremos ahora las estadı́sticas descriptivas. A pesar de que estas son sencillas desde el punto
de vista matemático, son valiosas en casos donde se encuentra disponible la población completa
y no existe incertidumbre, o cuando se tiene a la mano grandes conjuntos de datos que pueden
o no considerarse como muestras aleatorias. Si un conjunto grande se considera como muestra
aleatoria de una población, la estadı́stica descriptiva puede ir tan lejos como la distribución
general de valores, al dar una evidencia empı́rica y otras caracterı́sticas de la población
El número de clases que se emplean para clasificar los datos en un conjunto depende del total
de observaciones en este. Si el número de observaciones es relativamente pequeño el número
de clases a emplear será cercano a cinco, pero generalmente nunca menor que este valor. Si
existe una cantidad sustancial de datos, el número de clases. Si existe una cantidad sustancia
de datos, el número de clases debe encontrarse entre ocho y doce generalmente no existirán
más de quince clases. Un número muy pequeño de clases puede ocultar la distribución real del
conjunto de datos mientras que un número muy grande puede dejar sin observaciones a algunas
de las clases, limitando de esta forma su uso. A manera de ejemplo, si en el ejemplo anterior
reducimos las clases a solo 3 obtenemos la siguiente tabla e histograma
Noé Chan Chı́ 4
Una buena practica es la creación de clases que tengan longitud igual. Esto puede lograrse
tomando la diferencia entre los dos valores extremos del conjunto de datos y dividiéndola entre
el número de clases.
$82 85 86 87 87 89 89 90 91 91
92 93 94 95 95 95 95 95 97 98
99 99 100 100 101 101 103 103 103 104
105 105 106 107 107 107 109 110 110 111
Establecer el esquema de agrupamiento para este conjunto de datos y determinar las frecuencias
relativa
En este ejemplo las cuotas se presentan redondeadas al dólar más cercano. Con toda seguridad
el importe de las cuotas es conocido hasta centavos, pero solo se presentan valores redondea-
dos. Por ejemplo $82 se interpreta como la medida entre $81.50 y $82.49 , las seis clases con
sus respectivas fronteras son (81.5-86.5), (86.5-91.5), (91.5-95.5), (96.5-101.5), (101.5-106.5) y
(106.5-111.5).
Noé Chan Chı́ 5
Estas fronteras también se conocen como lı́mites verdaderos debido a que reflejan la unidad
más pequeña que se emplea para tomar observaciones. dado que las cuotas se presentan re-
dondeadas al dólar más cercano también se pueden elegir los lı́mites de las clases como (82-86),
(97-91), (92-96), (97-101), (102-106), (107-111). Éstos se conocen como lı́mites de escritura
puesto que reflejan el mismo grado de precisión que las observaciones encontradas presentadas.
El intervalo de la clase es la diferencia entre los lı́mites verdaderos de cada clase, mientras que
los puntos medios pueden determinarse al utilizar los lı́mites verdaderos o de escritura
Agrupamiento y frecuencias relativas para el ejemplo 1.1
Limites de escritura Punto Frec. de la clase Frec. relativa
de la clase medio fi fi /n
82-86 84 3 3/40=0.075
87-91 89 7 7/40=0.175
92-96 94 8 8/40=0.200
97-101 99 8 8/40=0.200
102-106 104 7 7/40=0.175
107-111 109 7 7/40=0.175
Total 40 1.00
Figura 1.3. Distribución de frecuencia relativa para los datos del ejemplo 1.1
Otra caracterización gráfica útil, de un conjunto de datos , es la distribución de frecuencia
relativa acumulada u ojiva. La distribución acumulativa se obtiene graficando, en el eje vertical,
la frecuencia relativa acumulada de una clase contra lı́mite inferior de la siguiente sobre el eje
horizontal y uniendo son segmentos todos los puntos consecutivos.
El principal uso de la distribución acumulativa es lo que comúnmente se conoce como
cuantiles. Con respecto a una distribución de frecuencia relativa acumulativa, se define un
Noé Chan Chı́ 6
cuantil como el valor bajo el cual se encuentra una determinada proporción de los valores de la
distribución. El valor cuantil se lle en la dirección opuesta, en el eje horizontal, a la proporción
correspondiente deseada sobre el eje vertical. El cuantil más común es el percentil. Por ejemplo,
q0.2 es el valor bajo el cual se encuentra el 20% de los valores de la distribución y q0.9 es aquel
bajo el cual se encuentra el 90% de los valores de la población.
Agrupamiento y frecuencias relativas para el ejemplo 1.1
Limites de escritura Frecuencia Frecuencia Frec. relativa
de la clase de clase acumulativa acumulativa fi /n
82-86 3 3 3/40=0.075
87-91 7 10 10/40=0.250
92-96 8 18 18/40=0.450
97-101 8 26 26/40=0.650
102-106 7 33 33/40=0.825
107-111 7 40 40/40=1.000
Figura 1.3. Distribución de frecuencia acumulativa para los datos del ejemplo 1.1
Ejemplo 1.2 El departamento de agricultura de Estados Unidos informó que, en 1976, los in-
gresos netos por cosecha para los 50 estados de la nación, fueron los siguientes:
$ 5952 63855 39362 9692 27611
13647 10630 6644 4438 19106
8681 5332 2304 6859 8141
11771 9378 5992 7000 12543
4963 4543 11177 12292 6695
10207 7627 8992 23811 7657
8043 8972 6480 6824 9554
4626 4845 10452 9922 7686
5119 8621 2290 4973 3904
2892 5405 2789 30 241
Noé Chan Chı́ 7
Ejemplo 1.3 La siguiente tabla muestra las ventas, en miles de dólares, de 20 vendedores de
una compañı́a de computadoras.
Noé Chan Chı́ 8
Solución.
Primero ordenamos los datos, obteniendo
Ası́ la media es
20
X 851.2
x= xi /20 = = 42.56
i=1
20
La mediana se obtiene promediando los datos de en medio, es decir los datos 10 y 11, pues
tenemos un número par de datos ası́ la mediana= 36.8+37.8
2
= 37.3. Y la moda el dato que más
se repiten, en este caso la moda es 35.6
Una medida de tendencia central proporciona información acerca de un conjunto de datos pero
no proporciona ninguna idea de la variabilidad de las observaciones en dicho conjunto. Por
ejemplo los conjuntos {0, 25, 75, 100} y {48, 49, 51, 52} en ambos casos media = mediana = 50
Definición 1.4 La varianza de las observaciones x1 , x2 , . . . .xn es, en esencia, el promedio del
cuadrado de las distancias entre cada observación y la media del conjunto de observaciones. La
varianza se denota por
Xn
2
s = (xi − x)2 /(n − 1)
i=1
Noé Chan Chı́ 9
Es una medida razonablemente buena de la variabilidad debido a que si muchas diferencias son
grandes (o pequeñas) el valor de la varianza s2 será grande (o pequeño).
Definición 1.5 La raı́z cuadrada positiva de la varianza recibe el nombre de desviación están-
dar y se denota por v
u n
uX
s = t (xi − x̄)2 /(n − 1)
i=1
Definición 1.6 La desviación media es el promedio de los valores absolutos de las diferencias
entre cada observación y la media de las observaciones. La desviación media esta dada por
Pn
|xi − x̄|
D.M. = i=1
n
Definición 1.7 La desviación mediana es el promedio de los valores absolutos de las diferencias
entre cada observación y la mediana de éstas. La desviación mediana esta dada por
Pn
|xi − M d|
D.M d = i=1
n
en donde M d denota la mediana.
Para el ejemplo 1.3, hallemos la varianza, desviación estándar, desviación media y desviación
mediana, recordando que n = 20. Para la varianza, primero calculemos
n
X
(xi − x)2
i=1
=(x1 − x)2 + (x2 − x)2 + (x3 − x)2 + (x4 − x)2 + (x5 − x)2 +
(x6 − x)2 + (x7 − x)2 + (x8 − x)2 + (x9 − x)2 + (x10 − x)2 +
(x11 − x)2 + (x12 − x)2 + (x13 − x)2 + (x14 − x)2 + (x15 − x)2 +
(x16 − x)2 + (x17 − x)2 + (x18 − x)2 + (x19 − x)2 + (x20 − x)2
=(25.1 − 42.56)2 + (25.4 − 42.56)2 + (26.9 − 42.56)2 + (28.7 − 42.56)2 + (29.3 − 42.56)2 +
(31.7 − 42.56)2 + (32.3 − 42.56)2 + (35.6 − 42.56)2 + (35.6 − 42.56)2 + (36.8 − 42.56)2 +
(37.8 − 42.56)2 + (39.7 − 42.56)2 + (40.2 − 42.56)2 + (42.9 − 42.56)2 + (44.2 − 42.56)2 +
(45.2 − 42.56)2 + (50.6 − 42.56)2 + (55.2 − 42.56)2 + (88.2 − 42.56)2 + (99.8 − 42.56)2
=7195.76
Noé Chan Chı́ 10
Para calcular (25.1 − 42.56)2 hacemos la diferencia y luego elevamos al cuadrado, es decir
donde |25.1 − 42.56| denota el valor absoluto esto es,el resultado es la resta con signo positivo
por ejemplo
|25.1 − 42.56| = | − 17.46| = 17.46
|25.4 − 42.56| = | − 17 − 16| = 17.16
lo mismo para cada término de la suma anterior. Ası́ la desviación media es
P20
|xi − x̄| 256.36
D.M. = i=1 = = 12.81
20 20
Noé Chan Chı́ 11
La mediana es aquel valor que divide en dos partes iguales la distribución de frecuencia relativa.
La fórmula esta dada por
M ediana = L + c(j/fm )
donde L es el lı́mite inferior de la clase donde se encuentra la mediana, fm es la frecuencia de la
clase, c es la longitud de la clase y j es el número de observaciones de la clase necesarias para
completar un total de n/2. En el ejemplo la mediana es M ediana = 97 + 5(2/8) = 98.25. La
moda se toma como el punto medio de la clase que presenta una mayor frecuencia, en nuestro
ejemplo la frecuencia mas alta se encuentra compartida por las clases (92-96) y (97-101) la
moda resulta ser el promedio aritmético entre los dos puntos medios de las clases.
Noé Chan Chı́ 12
Para datos agrupados, puede calcularse el valor aproximado de la varianza mediante el uso
de la fórmula Pk
2 fi (xi − x)2
s = i=1
n−1
o 2
( ki=1 fi xi )
P
Pk 2
f x
i i −
s2 = i=1 n
n−1
La fórmula para la desviación estándar es
v
u k
uX
s=t fi (xi − x)2 /(n − 1)
i=1
Para las tres fórmulas fi y xi son la frecuencia y el punto medio de la i-ésima clase, y n es la
suma de las frecuencias. Debe observarse que, en datos agrupados, la aproximación a la varianza
puede no ser muy confiable, especialmente si las observaciones no se encuentran distribuidas de
manera uniforme dentro de sus respectivas clases. Para el ejemplo 1.1
6
X
fi xi = 3910
i=1
6
!2
X
f i xi /40 = 382202.5
i=1
6
X
fi x2i = 384590
i=1
384590 − 382202.5
s2 = = 61.2179
√ 40 − 1
s = 61.2179 = 7.82
Tarea Los siguientes datos son los lapsos en minutos, necesarios para que 50 clientes de un
banco comercial, lleven acabo una transacción bancaria
c) Con los datos agrupados, calcule la media, mediana, moda, desviación estándar, desviación
media y desviación mediana
d) Verificar los resultados de la parte c) calculando las mismas medidas para los datos no
agrupados.