Está en la página 1de 12

Agrupamientos de datos

Supongamos que tenemos una población de seres humanos de donde hemos tomado una muestra.

Nos interesa estudiar las siguientes variables:


X1 (Edad)
X2 (Escolaridad)
X3 (Peso)
X4 (Estatura)

Clase
Una es una agrupación de valores de una variable. Las clases deben ser excluyentes y exhautivas.

U
C1 C2 C3
Básica Profesional Posgrado C1 C2 C3
Ejemplo

Conjunto de personas

• Variable = “Grado de escolaridad de una persona”


Básica Primaria y Secundaria
Profesional Licenciatura Variable cualitativa ordinal
Posgrado Maestría y Doctorado

• Variable = “Edad en años de una persona”


Niñez 0,…,12
Adolescencia 13,…,17
Juventud 18,…,30 Variable cuantitativa discreta
Madurez 31,…,50
Vejez 51,…
Frecuencias absolutas y acumuladas

Sean C1, C2, …, Cn clases exhaustivas y excluyentes de una variable

Todas las variables deben pertenecer a una sola clase.

El tipo de variable puede ser cuantitativa o cualitativa, es indiferente, sin embargo, las variables que se usan
para definir las clases deben ser cualitativas.

Si observamos las clases y no la variable, tenemos


C1 es observada f1 veces
C2 es observada f2 veces

Frecuencia absoluta
Al número f1 se le llama frecuencia (absoluta) de la clase C1.
Ejemplo

Consideremos la siguiente información

Clase Frecuencia Aquí no se ha especificado la variable en estudio ni sus posibles valores, solo sabemos
absoluta
que hay tres clases o agrupaciones
(Bajo) 15

(Medio) 21

(Alto) 10 25
20
21
15
15

frecuencia
10
5 10
0
C1 C2 C3

Frecuencia absoluta acumulada


Sean C1, C2, …, Ck clases de una variable que poseen un orden

La frecuencia acumulada es la suma de las frecuencias de la clase y las clases que le preceden.
Clase Frecuencia Frecuencia
absoluta acumulada Es importante observar que si las clases no tienen un orden, entonces no
(Bajo) 15 15 tiene mucho sentido calcular estas frecuencias acumuladas.
(Medio) 21 36

(Alto) 10 46

Frecuencia relativa
Es su frecuencia absoluta dividida entre el número total de observaciones.

0,500
Clase Frecuencia Frecuencia 0,400 0,457
absoluta relativa
0,300
0,326
(Bajo) 15 15/46
0,200
0,217
(Medio) 21 21/46 0,100
0,000
(Alto) 10 10/46 C1 C2 C3
Frecuencia relativa acumulada
Sean C1, C2, …, Ck clases de una variable que poseen un orden

La frecuencia relativa acumulada es la suma de la frecuencia relativa de la clase y las clases que le preceden.

Clase Frecuencia Frecuencia Frecuencia


absoluta relativa relativa
acumulada
(Bajo) 15 15/46 0.326

(Medio) 21 21/46 0.782

(Alto) 10 10/46 1
Localización de datos
Cuantiles
Sabemos que la mediana divide a los datos en dos partes iguales, también se tiene interés estudiar otros parámetros,
llamados cuantiles, éstos dividen los datos de la distribución en función de otras cantidades. Los más importantes son los
cuartiles, deciles y percentiles.

• Cuartiles El primer cuartil es un valor que tiene


Dividen al conjunto de datos en 4 grupos iguales. aproximadamente una cuarta parte (25%) de las
Q1 Q2 Q3 Q4 observaciones debajo de él y aproximadamente
el 75% de las observaciones arriba.

25% 50% 75% 100%

• Deciles
Dividen al conjunto de datos en 10 grupos iguales. • Percentiles
D1 D2 D3 … D10 Dividen al conjunto de datos en 100 grupos iguales.
P1 P2 P3 P4 … P100

10% 20% 30% … 100%


1% 2% 3% 4% … 100%
La posición se calcula

Ejemplo

Del ejemplo de las clases anteriores, hallar Q1, D3 y P20.

Q1 D3 P20

1 2 3 4 5 6 7 8
12,3 12,6 12,6 12,9 13,1 13,4 13,5 13,6

P20 Q1 D3 Cuartil 1= 12,6


Decil 3= 12,6
Percentil 20= 12,42
Presentación de datos
• Diagramas de tallo y hoja
Es una forma adecuada de obtener una representación visual informativa de un conjunto de datos, donde cada número xi
tiene al menos dos dígitos. Para construir un diagrama de tallo y hoja, cada número xi se divide en dos partes: un tallo
compuesto por uno o más de los primeros dígitos, y una hoja, compuesta por los dígitos restantes.
• Distribución de frecuencias e histograma
Una distribución de frecuencia es un resumen de datos más compacto que un diagrama de tallo y hoja. Para
construir una distribución de frecuencia, el rango de los datos debe dividirse en intervalos, a los que se llaman
intervalos de clase o celdas.

• Histograma
Representación de la distribución de frecuencia en forma gráfica.
• Gráficas de series de tiempo
También llamado secuencia cronológica, es un conjunto de datos en que las observaciones se registran en el orden en que
ocurren. El tiempo es un factor muy importante que contribuye a la variabilidad de los datos, y en los métodos anteriores
no se toma en consideración.
• Gráficas de caja
La gráfica de caja describe simultáneamente varias características de un conjunto de datos: centro, dispersión, la
desviación y las observaciones que caen lejos del grueso de datos (datos atípicos).

Rango intercuartil.
IQR = - Medida de variabilidad.

Se representan los tres cuartiles y los datos mínimo y máximo alineados en una caja rectangular alineada en sentido
horizontal o vertical. La caja abarca el rango intercuartílico. Se traza una línea a través de la caja en el segundo cuartil,
que es equivalente a la mediana. Una línea se extiende desde cada extremo de la caja, al menor o mayor de los datos
dentro de 1,5 rangos intercuartílico. Los datos que se encuentran más allá de los bigotes se grafican como puntos
individuales, a estos puntos se les llaman puntos atípicos.

También podría gustarte