Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Datos cuantitativos
Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y a
partir de estas determinar las características de la muestra y por consiguiente las de la
población de donde fue tomada.
Método tabular
La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la
información que se ha recogido sobre la variable que se estudia. El primer paso en el método
tabular es el ordenamiento de los datos es decir el acomodamiento de los datos conforme a un
antes y un después. El ordenamiento puede ser ascendente o descendente, conforme los datos
vayan antes de un dato mayor o menor respectivamente
Los datos se acomodan en grupos (clases) conforme a las semejanzas existentes entre ellos.
Antes de hacer la clasificación, es necesario saber cuántos grupos habrá y que datos irán en
cada grupo.
Intervalo de clase
Es el número de unidades que abarca
cada clase. Intervalo de clase = Dato mayor- Dato menor
Número de clases
El intervalo de clase también puede variar ligeramente conforme se facilite la clasificación. Así,
si el intervalo de clase resulta 9.6 puede aproximarse a 10, si 0.475 puede aproximarse a 0.5, si
8.8 puede aproximarse a 9 o a 10, aunque al hacerlo cambie el número de clases que también es
arbitrario.
El intervalo de clase obtenido es uniforme para todos los grupos o clases, sin embargo, si se
desea analizar con mayor profundidad una clase determinada, su intervalo de clase puede
dividirse en tantos sub-intervalos como se requiera.
Linderos de clase
Son los puntos de separación entre una clase y otra.
Lindero inferior: es el lindero inferior de cada clase
Lindero superior: es el lindero mayor de cada clase
Con los linderos se presenta una dificultad, ¿dónde clasificar el lindero inferior?, ¿dónde el
lindero superior?. Algunos autores salvan esta dificultad aclarando que a cada clase pertenece
el lindero inferior, pero no el superior. Sin embargo, la mayoría de autores prefiere establecer
un nuevo concepto: límite de clase.
Límite de clase
Son los datos mayor y menor posibles en una clase. Para pasar de linderos de clase a límites de
clase existen tres métodos:
Primer método: Establece una frontera más exacta que los datos. Es decir, si
nuestros datos están dados en enteros nuestras fronteras estarán en decimales, si los
datos en decimales nuestras fronteras en centésimos, si centésimos las fronteras en
milésimos,... Esto puede realizarse de dos formas diferentes: disminuyendo o
aumentando a los linderos media unidad si nuestros datos son enteros, medio décimo
si décimos, medio centésimo,...
Aunque el lindero inferior de la primera clase y superior de la última clase no
representan dificultad alguna de clasificación, la disminución o aumento se realiza
en forma general para mantener el mismo intervalo de clase en todos los grupos.
Segundo método: Consiste en aumentar el lindero inferior de cada clase en una
unidad sí los datos son enteros, en décimos si décimos, en centésimos si
centésimos,...
Tercer método: Se disminuye el lindero superior de cada clase en una unidad si los
datos son enteros, en un décimo si décimos, en un centésimo si centésimos,...
Ejemplo
Se mide la altura de los niños de la clase de matemáticas y
obtenemos los resultados en cm, haz una tabla de distribución de
frecuencias.
Estatura de 30 alumos:
Número de alumno Estatura (cm)
1 1.25
2 1.28
3 1.27
4 1.21
5 1.22
6 1.29
7 1.30
8 1.24
9 1.27
10 1.29
11 1.23
12 1.26
13 1.30
14 1.31
15 1.28
16 1.30
17 1.22
18 1.25
19 1.20
20 1.28
21 1.21
22 1.29
23 1.26
24 1.22
25 1.28
26 1.27
27 1.26
28 1.23
29 1.22
30 1.21
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas
veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una
tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis. (tal como se
verá en la siguiente lección).
Ejemplo
Supón que medimos la estatura de los habitantes de una colonia y
obtenemos los siguientes resultados (cm
30 1.01
Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla de 30
líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una
frecuencia relativa del 3,3%. Esta tabla nos aportaría escasa información
En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la información queda
más resumida (se pierde, por tanto, algo de información), pero es más manejable e informativa:
El número de tramos en los que se agrupa la información es una decisión que debe tomar el
analista: la regla es que mientras más tramos se utilicen menos información se pierde, pero
puede que menos representativa e informativa sea la tabla.
Método gráfico
Las tablas de frecuencia son sin duda un avance para el análisis de datos, ya que no se requiere
considerar cada uno de los desorganizados datos de la población; sin embargo, conviene
representar en forma gráfica los totales obtenidos en las tablas de frecuencia. Las gráficas
permiten la comparación objetiva de las clases con una sola mirada, a la vez que muestran
rápidamente el avance o retroceso de la frecuencia de una clase respecto a otras.
En las formas que tiene la curva que representa una serie de datos de una muestra podemos
estudiar las siguientes características:
a) Concentración: mide si los valores de la variable están más o menos uniformemente
repartidos a lo largo de la muestra.
b) Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la
misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son
similares.
c) Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor de
los valores medios de la muestra. Se definen 3 tipos de distribuciones según su grado de
curtosis.
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los
valores centrales de la variable (el mismo que presenta una distribución normal).
Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los
valores centrales de la variable.
Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los
valores centrales de la variable.
Histogramas
Ejemplo
La siguiente tabla muestra la distribución de frecuencias de la
edad de 100 pacientes, comprendida entre los 18 y 42 años. Traza
un histograma.
18 1
19 3
20 4
21 7
22 5
23 8
24 10
25 8
26 9
27 6
28 6
29 4
30 3
31 4
32 5
33 3
34 2
35 3
36 1
37 2
38 3
39 1
41 1
42 1
Si se divide este rango en intervalos de dos años, el primer tramo está comprendido entre los 18
y 19 años, entre los que se encuentra el 4/100=4% del total. Por lo tanto, la primera barra
tendrá altura proporcional a 4.
Polígono de frecuencias
Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una
imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más
simple, en qué rangos se encuentra la mayor parte de los datos. Un ejemplo, utilizando los datos
anteriores, se presenta en la.
Ejemplo
Con el histograma anterior que muestra la distribución de
frecuencias de la edad de 100 pacientes, comprendida entre los 18
y 42 años. Traza un polígono de frecuencia.
Uniendo los puntos medios del extremo superior de las barras del histogram:
Diagramas de cajas
Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el
concepto de percentiles, mediante diagramas de cajas. La Figura muestra un gráfico de cajas
correspondiente a la distribución de frecuencias de la edad de 100 pacientes, comprendida entre
los 18 y 42 años. La caja central indica el rango en el que se concentra el 50% central de los
datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La línea central en
la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el
centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que
delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos
de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este
rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar,
gráficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan
más apropiados para representar variables que presenten una gran desviación de la
distribución normal. Como se verá más adelante, resultan además de gran ayuda cuando se
dispone de datos en distintos grupos de sujetos.
Ejemplo
Se compara el índice de masa corporal en una muestra de hombres
y mujeres. Para cada grupo, se representa su valor medio, junto
con su 95% intervalo de confianza.