Está en la página 1de 13

1

Introducción y estadı́stica descriptiva

1.1 Introducción
En términos precisos la estadı́stica es el estudio de fenómenos aleatorias. El aspecto más
importante de la estadı́stica es la obtención de conclusiones basadas en los datos experimentales.
Este proceso se conoce como inferencia estadı́stica. Por ejemplo si se pretende establecer una
relación entre la incidencia de cáncer pulmonar y el fumar, es muy común que la conclusión
este basada en inferencia estadı́stica.
Para comprender la naturaleza de la inferencia estadı́stica es necesario entender las no-
ciones de población y muestra. La población es la colección de toda la posible información que
caracteriza un fenómeno. En este sentido, una población es cualquier colección ya sea de un
número finito de mediciones o una colección grande, virtualmente infinita, de datos acerca de
algo de interés. Por otro lado, la muestra es un subconjunto representativo seleccionado de la
población. La palabra representativo es la clave de esta idea. Una buena muestra es aquella
que refleja las caracterı́sticas esenciales de la población de la cual se obtuvo. En estadı́stica, el
objetivo de las técnicas de muestreo es asegurar que cada observación en la población tiene una
oportunidad igual e independiente de ser incluida en la muestra. Tales procesos de muestreo
conducen a una muestra aleatoria. Las observaciones de la muestra aleatoria se usan para
calcular ciertas caracterı́sticas de la muestra denominadas estadı́sticas. Las estadı́sticas se usan
como base para hacer inferencias acerca de ciertas caracterı́sticas de la población, que reciben
el nombre de parámetros.
En estadı́stica la inferencia es inductiva porque se proyecta de lo especı́fico (muestra) hacia
lo general(población). En un procedimiento de esta naturaleza siempre existe la posibilidad
del error. Nunca podrá tenerse 100% de seguridad sobre una proposición que se base en la
inferencia estadı́stica. Sin embargo, lo que hace que la estadı́stica sea una ciencia (reparándola
del arte de adivinar la fortuna) es que, unida a cualquier proposición, existe una medida de
la confiabilidad de esta. En otras palabras, para cada inferencia estadı́stica se identifica la
probabilidad de que la inferencia sea correcta.
Los problemas estadı́sticos se caracterizan por los siguientes cuatro elementos:

1
Noé Chan Chı́ 2

1. La población de interés y el procedimiento cientı́fico que se empleó para muestrear la


población.

2. La muestra y el análisis matemático de su información.

3. Las inferencias estadı́sticas que resulten del análisis de la muestra.

4. La probabilidad de que las inferencias sean correctas.

Trataremos ahora las estadı́sticas descriptivas. A pesar de que estas son sencillas desde el punto
de vista matemático, son valiosas en casos donde se encuentra disponible la población completa
y no existe incertidumbre, o cuando se tiene a la mano grandes conjuntos de datos que pueden
o no considerarse como muestras aleatorias. Si un conjunto grande se considera como muestra
aleatoria de una población, la estadı́stica descriptiva puede ir tan lejos como la distribución
general de valores, al dar una evidencia empı́rica y otras caracterı́sticas de la población

1.2 Descripción gráfica de datos


Una descripción informativa de cualquier conjunto de datos está dada por la frecuencia de
repetición u arreglo distribucional de las observaciones en el conjunto. Para identificar los
patrones de un conjunto de datos es necesario agrupar las observaciones en un número relativa-
mente pequeño de clases que no se superpongan entre sı́, de tal manera que no exista ninguna
ambigüedad con respecto a la clase a que pertenece una observación en particular. El número
de observaciones en una clase recibe el nombre de frecuencia de clase, mientras que el cociente
de una frecuencia de clase con respecto al número combinado de observaciones en todas las
clases se conoce como frecuencia relativa de esa clase. Las fronteras de la clase se denominan
lı́mites, y el promedio aritmético entre los lı́mites superior e inferior recibe el nombre de punto
medio de la clase. Al graficarse las frecuencias relativas de las clases contra sus respectivos
intervalos en forma de rectángulos, se produce lo que comúnmente se conoce como histograma
de frecuencia relativa o distribución de frecuencia relativa. Esta última es la que puede hacer
evidentes los patrones existentes en un conjunto de datos.
Como ilustración los datos de la siguiente tabla representan las frecuencias de unidades
vendidas por dı́a de un determinado producto por una compañı́a. El histograma de frecuencia
relativa se construye graficando en el eje vertical la frecuencia relativa y en el eje horizontal las
fronteras inferior de cada clase, como en la figura 1.1.
Noé Chan Chı́ 3

Número de unidades vendidas Frecuencia de clase Frecuencia relativa


80-90 7 7/100=0.07
90-99 20 30/100=0.20
100-109 5 5/100=0.05
110-119 11 11/100=0.11
120-129 11 11/100=0.11
130-139 12 12/100=0.12
140-149 6 6/100=0.06
150-159 23 23/100=0.23
160-169 5 0.5/100=0.05
Total 100 1.00

Figura 1.1: Histograma de frecuencia relativa para el número de unidades vendidas

El número de clases que se emplean para clasificar los datos en un conjunto depende del total
de observaciones en este. Si el número de observaciones es relativamente pequeño el número
de clases a emplear será cercano a cinco, pero generalmente nunca menor que este valor. Si
existe una cantidad sustancial de datos, el número de clases. Si existe una cantidad sustancia
de datos, el número de clases debe encontrarse entre ocho y doce generalmente no existirán
más de quince clases. Un número muy pequeño de clases puede ocultar la distribución real del
conjunto de datos mientras que un número muy grande puede dejar sin observaciones a algunas
de las clases, limitando de esta forma su uso. A manera de ejemplo, si en el ejemplo anterior
reducimos las clases a solo 3 obtenemos la siguiente tabla e histograma
Noé Chan Chı́ 4

Número de unidades vendidas Frecuencia de clase Frecuencia relativa


80-109 32 32/100=0.32
110-139 34 34/100=0.34
140-169 34 34/100=0.34
Total 100 1.00

Figura 1.2. Histograma modificado del número de unidades vendidas

Una buena practica es la creación de clases que tengan longitud igual. Esto puede lograrse
tomando la diferencia entre los dos valores extremos del conjunto de datos y dividiéndola entre
el número de clases.

Ejemplo 1.1 De acuerdo con la revista Informes al Consumidor en su número de febrero de


1980, las cuaotas anuales de 40 compañı́as para un seguro de $ 25 000 para hombre de 35 años
de edad son las siguientes

$82 85 86 87 87 89 89 90 91 91
92 93 94 95 95 95 95 95 97 98
99 99 100 100 101 101 103 103 103 104
105 105 106 107 107 107 109 110 110 111

Establecer el esquema de agrupamiento para este conjunto de datos y determinar las frecuencias
relativa

En este ejemplo las cuotas se presentan redondeadas al dólar más cercano. Con toda seguridad
el importe de las cuotas es conocido hasta centavos, pero solo se presentan valores redondea-
dos. Por ejemplo $82 se interpreta como la medida entre $81.50 y $82.49 , las seis clases con
sus respectivas fronteras son (81.5-86.5), (86.5-91.5), (91.5-95.5), (96.5-101.5), (101.5-106.5) y
(106.5-111.5).
Noé Chan Chı́ 5

Estas fronteras también se conocen como lı́mites verdaderos debido a que reflejan la unidad
más pequeña que se emplea para tomar observaciones. dado que las cuotas se presentan re-
dondeadas al dólar más cercano también se pueden elegir los lı́mites de las clases como (82-86),
(97-91), (92-96), (97-101), (102-106), (107-111). Éstos se conocen como lı́mites de escritura
puesto que reflejan el mismo grado de precisión que las observaciones encontradas presentadas.
El intervalo de la clase es la diferencia entre los lı́mites verdaderos de cada clase, mientras que
los puntos medios pueden determinarse al utilizar los lı́mites verdaderos o de escritura
Agrupamiento y frecuencias relativas para el ejemplo 1.1
Limites de escritura Punto Frec. de la clase Frec. relativa
de la clase medio fi fi /n
82-86 84 3 3/40=0.075
87-91 89 7 7/40=0.175
92-96 94 8 8/40=0.200
97-101 99 8 8/40=0.200
102-106 104 7 7/40=0.175
107-111 109 7 7/40=0.175
Total 40 1.00

Figura 1.3. Distribución de frecuencia relativa para los datos del ejemplo 1.1
Otra caracterización gráfica útil, de un conjunto de datos , es la distribución de frecuencia
relativa acumulada u ojiva. La distribución acumulativa se obtiene graficando, en el eje vertical,
la frecuencia relativa acumulada de una clase contra lı́mite inferior de la siguiente sobre el eje
horizontal y uniendo son segmentos todos los puntos consecutivos.
El principal uso de la distribución acumulativa es lo que comúnmente se conoce como
cuantiles. Con respecto a una distribución de frecuencia relativa acumulativa, se define un
Noé Chan Chı́ 6

cuantil como el valor bajo el cual se encuentra una determinada proporción de los valores de la
distribución. El valor cuantil se lle en la dirección opuesta, en el eje horizontal, a la proporción
correspondiente deseada sobre el eje vertical. El cuantil más común es el percentil. Por ejemplo,
q0.2 es el valor bajo el cual se encuentra el 20% de los valores de la distribución y q0.9 es aquel
bajo el cual se encuentra el 90% de los valores de la población.
Agrupamiento y frecuencias relativas para el ejemplo 1.1
Limites de escritura Frecuencia Frecuencia Frec. relativa
de la clase de clase acumulativa acumulativa fi /n
82-86 3 3 3/40=0.075
87-91 7 10 10/40=0.250
92-96 8 18 18/40=0.450
97-101 8 26 26/40=0.650
102-106 7 33 33/40=0.825
107-111 7 40 40/40=1.000

Figura 1.3. Distribución de frecuencia acumulativa para los datos del ejemplo 1.1
Ejemplo 1.2 El departamento de agricultura de Estados Unidos informó que, en 1976, los in-
gresos netos por cosecha para los 50 estados de la nación, fueron los siguientes:
$ 5952 63855 39362 9692 27611
13647 10630 6644 4438 19106
8681 5332 2304 6859 8141
11771 9378 5992 7000 12543
4963 4543 11177 12292 6695
10207 7627 8992 23811 7657
8043 8972 6480 6824 9554
4626 4845 10452 9922 7686
5119 8621 2290 4973 3904
2892 5405 2789 30 241
Noé Chan Chı́ 7

1.3 Medidas numéricas descriptivas


Se definirán algunas medidas numéricas empleadas comúnmente para describir conjuntos de
datos. Si el conjunto es una muestra aleatoria de una población y la última meta es hacer
inferencia estadı́stica, estas medidas serán utilizadas como base para las inferencias.
Existen dos medidas de interés para cualquier conjunto de datos: la localización de su centro
y su variabilidad. La tendencia central de un conjunto de datos es la suposición de éstos para
agruparse ya sea alrededor del centro o de ciertos valores numéricos. La variabilidad de un
conjunto de datos es la dispersión de las observaciones en el conjunto.
Existen principalmente tres medidas de tendencia central: la media, la mediana y la moda.
Y tres medidas de variabilidad

1.3.1 Datos no agrupados


Definición 1.1 La media de las observaciones (o datos) x1 , x2 , . . . , xn es el promedio aritmético
de estas y se denota por
n
X
x̄ = x1 /n (1.1)
i=1

El valor de la media puede afectarse de manera desproporcionada por la existencia de algunos


valores extremos, pues cualquier observación se emplea para su cálculo.
Definición 1.2 La mediana de un conjunto de observaciones es el valor para el cual, cuando
todas las observaciones se ordenan de menor a mayor, la mitad de estas es menor que este valor
y la otra mitad mayor
Si el número de observaciones en el conjunto es impar, la mediana es el valor de observación
que se encuentra a la mitad del conjunto ordenado. Si el número es par se considera la mediana
como el promedio aritmético de los valores de las dos observaciones que se encuentran a la mitad
del conjunto ordenado. Si un conjunto contiene unos cuantos valores extremos y un agregado
muy alto de observaciones, la mediana puede ser una medida de tendencia central mucho más
deseable que la media.
Definición 1.3 La moda de un conjunto de observaciones es el valor de la observación que
ocurre con mayor frecuencia en el conjunto.
La moda muestra hacia que valor tienden los datos a agruparse. Puede suceder que la frecuencia
más alta se encuentre compartida por dos o más observaciones. En estos casos, la moda tiene
una utilidad limitada como mediada de tendencia central. La clase con la frecuencia más alta
recibirá el nombre de clase modal. Calculemos los conceptos anteriores para el siguiente ejemplo

Ejemplo 1.3 La siguiente tabla muestra las ventas, en miles de dólares, de 20 vendedores de
una compañı́a de computadoras.
Noé Chan Chı́ 8

40.2 29.3 35.6 88.2 42.9


26.9 28.7 99.8 35.6 37.8
44.2 32.3 55.2 50.6 25.4
31.7 36.8 45.2 25.1 39.7

1. Calcular la media, mediana, moda

Solución.
Primero ordenamos los datos, obteniendo

x1 = 25.1 x2 = 25.4 x3 = 26.9 x4 = 28.7 x5 = 29.3


x6 = 31.7 x7 = 32.3 x8 = 35.6 x9 = 35.6 x10 = 36.8
x11 = 37.8 x12 = 39.7 x13 = 40.2 x14 = 42.9 x15 = 44.2
x16 = 45.2 x17 = 50.6 x18 = 55.2 x19 = 88.2 x20 = 99.8

En este caso, n=20 para hallar la media primero hallamos


20
X
xi =x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10 +
i=1
x11 + x12 + x13 + x14 + x15 + x16 + x17 + x18 + x19 + x20
=25.1 + 25.4 + 26.9 + 28.7 + 29.3 + 31.7 + 32.3 + 35.6 + 35.6 + 36.8+
37.8 + 39.7 + 40.2 + 42.9 + 44.2 + 45.2 + 50.6 + 55.2 + 88.2 + 99.8
=851.2

Ası́ la media es
20
X 851.2
x= xi /20 = = 42.56
i=1
20
La mediana se obtiene promediando los datos de en medio, es decir los datos 10 y 11, pues
tenemos un número par de datos ası́ la mediana= 36.8+37.8
2
= 37.3. Y la moda el dato que más
se repiten, en este caso la moda es 35.6
Una medida de tendencia central proporciona información acerca de un conjunto de datos pero
no proporciona ninguna idea de la variabilidad de las observaciones en dicho conjunto. Por
ejemplo los conjuntos {0, 25, 75, 100} y {48, 49, 51, 52} en ambos casos media = mediana = 50

Definición 1.4 La varianza de las observaciones x1 , x2 , . . . .xn es, en esencia, el promedio del
cuadrado de las distancias entre cada observación y la media del conjunto de observaciones. La
varianza se denota por
Xn
2
s = (xi − x)2 /(n − 1)
i=1
Noé Chan Chı́ 9

Es una medida razonablemente buena de la variabilidad debido a que si muchas diferencias son
grandes (o pequeñas) el valor de la varianza s2 será grande (o pequeño).
Definición 1.5 La raı́z cuadrada positiva de la varianza recibe el nombre de desviación están-
dar y se denota por v
u n
uX
s = t (xi − x̄)2 /(n − 1)
i=1

Otras fórmulas equivalentes son


v
2
u Pn 2 (Pni=1 xi )2
Pn u
Pn ( i=1 xi )
i=1 x2i − t i=1 xi −
s2 = n
s= n
n−1 n−1

Definición 1.6 La desviación media es el promedio de los valores absolutos de las diferencias
entre cada observación y la media de las observaciones. La desviación media esta dada por
Pn
|xi − x̄|
D.M. = i=1
n
Definición 1.7 La desviación mediana es el promedio de los valores absolutos de las diferencias
entre cada observación y la mediana de éstas. La desviación mediana esta dada por
Pn
|xi − M d|
D.M d = i=1
n
en donde M d denota la mediana.

Para el ejemplo 1.3, hallemos la varianza, desviación estándar, desviación media y desviación
mediana, recordando que n = 20. Para la varianza, primero calculemos
n
X
(xi − x)2
i=1
=(x1 − x)2 + (x2 − x)2 + (x3 − x)2 + (x4 − x)2 + (x5 − x)2 +
(x6 − x)2 + (x7 − x)2 + (x8 − x)2 + (x9 − x)2 + (x10 − x)2 +
(x11 − x)2 + (x12 − x)2 + (x13 − x)2 + (x14 − x)2 + (x15 − x)2 +
(x16 − x)2 + (x17 − x)2 + (x18 − x)2 + (x19 − x)2 + (x20 − x)2
=(25.1 − 42.56)2 + (25.4 − 42.56)2 + (26.9 − 42.56)2 + (28.7 − 42.56)2 + (29.3 − 42.56)2 +
(31.7 − 42.56)2 + (32.3 − 42.56)2 + (35.6 − 42.56)2 + (35.6 − 42.56)2 + (36.8 − 42.56)2 +
(37.8 − 42.56)2 + (39.7 − 42.56)2 + (40.2 − 42.56)2 + (42.9 − 42.56)2 + (44.2 − 42.56)2 +
(45.2 − 42.56)2 + (50.6 − 42.56)2 + (55.2 − 42.56)2 + (88.2 − 42.56)2 + (99.8 − 42.56)2
=7195.76
Noé Chan Chı́ 10

Para calcular (25.1 − 42.56)2 hacemos la diferencia y luego elevamos al cuadrado, es decir

(25.1 − 42.56)2 = (−17.46)2 = (−17.46)(−17.46) = 304.85


(25.4 − 42.56)2 = (−17.16)2 = (−17.16)(−17.16) = 294.46

lo mismo para cada elemento en la suma anterior. Ası́ la varianza en


20
2
X 7195.76
s = (xi − x)2 /(20 − 1) = = 378.72
i=1
19

La desviación estándar es la raı́z cuadrada de la varianza, es decir s = 378.72 = 19.46.
Para la desviación media calculamos primero
20
X
|xi − x̄|
i=1
=|x1 − x| + |x2 − x| + |x3 − x| + |x4 − x| + |x5 − x|+
|x6 − x| + |x7 − x| + |x8 − x| + |x9 − x| + |x10 − x|+
|x11 − x| + |x12 − x| + |x13 − x| + |x14 − x| + |x15 − x|+
|x16 − x| + |x17 − x| + |x18 − x| + |x19 − x| + |x20 − x|
=|25.1 − 42.56| + |25.4 − 42.56| + |26.9 − 42.56| + |28.7 − 42.56| + |29.3 − 42.56|+
|31.7 − 42.56| + |32.3 − 42.56| + |35.6 − 42.56| + |35.6 − 42.56| + |36.8 − 42.56|+
|37.8 − 42.56| + |39.7 − 42.56| + |40.2 − 42.56| + |42.9 − 42.56| + |44.2 − 42.56|+
|45.2 − 42.56| + |50.6 − 42.56| + |55.2 − 42.56| + |88.2 − 42.56| + |99.8 − 42.56|
=256.36

donde |25.1 − 42.56| denota el valor absoluto esto es,el resultado es la resta con signo positivo
por ejemplo
|25.1 − 42.56| = | − 17.46| = 17.46
|25.4 − 42.56| = | − 17 − 16| = 17.16
lo mismo para cada término de la suma anterior. Ası́ la desviación media es
P20
|xi − x̄| 256.36
D.M. = i=1 = = 12.81
20 20
Noé Chan Chı́ 11

Para la desviación mediana calculamos


20
X
|xi − M d|
i=1
=|x1 − M d| + |x2 − M d| + |x3 − M d| + |x4 − M d| + |x5 − M d|+
|x6 − M d| + |x7 − M dx| + |x8 − M dx| + |x9 − M dx| + |x10 − M dx|+
|x11 − M dx| + |x12 − M dx| + |x13 − M dx| + |x14 − M dx| + |x15 − M dx|+
|x16 − M dx| + |x17 − M dx| + |x18 − M dx| + |x19 − M dx| + |x20 − M dx|
=|25.1 − 37.3| + |25.4 − 37.3| + |26.9 − 37.3| + |28.7 − 37.3| + |29.3 − 37.3|+
|31.7 − 37.3| + |32.3 − 37.3| + |35.6 − 37.3| + |35.6 − 37.3| + |36.8 − 37.3|+
|37.8 − 37.3| + |39.7 − 37.3| + |40.2 − 37.3| + |42.9 − 37.3| + |44.2 − 37.3|+
|45.2 − 37.3| + |50.6 − 37.3| + |55.2 − 37.3| + |88.2 − 37.3| + |99.8 − 37.3|
=148

Ası́ la desviación mediana es


P20
i=1 |xi − 37.3| 148
D.M d = = = 7.4
20 20

1.3.2 Datos agrupados


Muchas veces la única forma información disponible es una tabla de frecuencias. En estos casos
solo es posible obtener valores aproximados para la media, mediana y moda.
Para calcular la media con base en datos agrupados, tomamos
Pk en cuanta lo siguiente: k el
número de clases, fi la frecuencia de la i-ésima clase, n = i=1 fi y xi el punto medio de la
i-ésima clase. Entonces el valor aproximado de la media es
k
X
x̄ = fi xi /n
i=1

La mediana es aquel valor que divide en dos partes iguales la distribución de frecuencia relativa.
La fórmula esta dada por
M ediana = L + c(j/fm )
donde L es el lı́mite inferior de la clase donde se encuentra la mediana, fm es la frecuencia de la
clase, c es la longitud de la clase y j es el número de observaciones de la clase necesarias para
completar un total de n/2. En el ejemplo la mediana es M ediana = 97 + 5(2/8) = 98.25. La
moda se toma como el punto medio de la clase que presenta una mayor frecuencia, en nuestro
ejemplo la frecuencia mas alta se encuentra compartida por las clases (92-96) y (97-101) la
moda resulta ser el promedio aritmético entre los dos puntos medios de las clases.
Noé Chan Chı́ 12

Para datos agrupados, puede calcularse el valor aproximado de la varianza mediante el uso
de la fórmula Pk
2 fi (xi − x)2
s = i=1
n−1
o 2
( ki=1 fi xi )
P
Pk 2
f x
i i −
s2 = i=1 n
n−1
La fórmula para la desviación estándar es
v
u k
uX
s=t fi (xi − x)2 /(n − 1)
i=1

Para las tres fórmulas fi y xi son la frecuencia y el punto medio de la i-ésima clase, y n es la
suma de las frecuencias. Debe observarse que, en datos agrupados, la aproximación a la varianza
puede no ser muy confiable, especialmente si las observaciones no se encuentran distribuidas de
manera uniforme dentro de sus respectivas clases. Para el ejemplo 1.1
6
X
fi xi = 3910
i=1
6
!2
X
f i xi /40 = 382202.5
i=1
6
X
fi x2i = 384590
i=1
384590 − 382202.5
s2 = = 61.2179
√ 40 − 1
s = 61.2179 = 7.82

Para datos agrupados, el valor de la desviación media se aproxima por


Pk
f |x − x̄|
D.M. = i=1 Pni i
i=1 fi
Noé Chan Chı́ 13

Tarea Los siguientes datos son los lapsos en minutos, necesarios para que 50 clientes de un
banco comercial, lleven acabo una transacción bancaria

2.3 0.2 2.9 0.4 2.8


2.4 4.4 5.8 2.8 3.3
3.3 9.7 2.5 5.6 0.5
1.8 4.7 0.7 6.2 1.2
7.8 0.8 0.9 0.4 1.3
3.1 3.7 7.2 1.6 1.9
2.4 4.6 3.8 1.5 2.7
0.4 1.3 1.1 5.5 3.4
4.2 1.2 0.5 6.8 5.2
6.3 7.6 1.4 0.5 1.4

a) Construir la distribución de frecuencia relativa.

b) Construir una distribución de frecuencia relativa acumulada.

c) Con los datos agrupados, calcule la media, mediana, moda, desviación estándar, desviación
media y desviación mediana

d) Verificar los resultados de la parte c) calculando las mismas medidas para los datos no
agrupados.

También podría gustarte