Está en la página 1de 8

CAPÍTULO 1: DISTRIBUCIONES DE FRECUENCIA.

MEDIDAS DE POSICIÓ N Y DISPERSION


1.- TIPOS DE VARIABLES ESTADÍSTICAS

Distinguiremos dos clases principales de variables estadísticas:

Variables cualitativas: sus valores son una cualidad (errores en la impresión de un


libro, es decir, cuál es el error en la impresión).

Como su nombre indica, denotan una cualidad que no puede ser medida
cuantitativamente. Esto no significa, no obstante, que no puedan interpretar- se
numéricamente, pero dicha interpretación no tiene gran relevancia desde el punto de
vista de la Estadística, porque no permite utilizar la mayoría de las herramientas de
análisis que estudiaremos, como la media o la desviación típica.

Un ejemplo de esto sería una población consistente en un aula donde la mitad de los
estudiantes son rubios y la otra mitad morenos. Podemos denotar la cualidad “rubio”
con un 1, por ejemplo, y la cualidad “moreno” con un 2, pero no tiene sentido afirmar
que el promedio para el color del pelo es 1.5.

Variables cuantitativas: tienen un valor numérico asignado pudiendo ser una


variable discreta (llegadas a una gasolinera en períodos de 15 minutos, la variable
no puede tomar cualquier valor real, solo valores naturales, es decir, no pueden
llegar 3,2 coches) o continua (no se les asignan números concretos, los números son
intervalos como las alturas de los estudiantes en un aula, es continua por concepto
no porque se obtenga). Discreta sería como medir algo concreto y continua es
mediar algo variable.

Distinguiremos dos subclases dentro de las variables cuantitativas, según sean


cuantitativas discretas o cuantitativas continuas. Las variables cuantitativas son las más
interesantes desde el punto de vista que adoptaremos, pues con ellas pueden realizarse
toda clase de análisis matemáticos.

2.- Tablas estadísticas unidimensionales

Estudiaremos variables estadísticas asociadas a la medida de un sólo fenómeno. La


forma habitual de describir estos datos es a través de una tabla como la que se muestra a
continuación:
X: variable (edad a la que se comete el delito)
X1: valores de la variable (distintas edades en rangos)
n: frecuencia absoluta (número de veces que se repite la variable)
f: frecuencia relativa (parámetro con relación directa con la probabilidad: se
divide n1/N; n2/N… en porcentaje (%), siempre tiene que dar 1 (que supondría el
100%).
N: frecuencia absoluta acumulada (suma en zigzag de n1, n1+n2…)
F: frecuencia relativa acumulada (se divide cada frecuencia absoluta acumulada
entre el sumatorio de n).

Donde x representa los valores de la variable, n la frecuencia absoluta, que es el número


ni/N
de veces que se ha medido el valor correspondiente, f i = es la frecuencia relativa
Pk
( i=1 ni sería el total N de observaciones), N serían las frecuencias absolutas acumuladas
y F las frecuencias relativas acumuladas.

Existe una pequeña ambigüedad respecto a la notación que conviene aclarar en este
momento: se denota N a los valores de la frecuencia absoluta acumulada, pero también,
Pk
al número total de observaciones i=1 ni. El contexto determina a cuál de las dos nos
referimos.

EJEMPLO:

Sea una variable estadística que mide el número de automóviles que llegan a una
gasolinera durante 15 períodos consecutivos de 15 minutos.
EJEMPLO:

Supongamos que se han medido las alturas, en metros, de un grupo de estudiantes


elegidos al azar. En principio, la altura de uno de ellos puede tomar cualquier valor real,
por lo que no podemos asignar valores discretos a la variable estadística y hemos de
agruparla en intervalos. La tabla se muestra en la figura 1.3

Junto a los valores mínimo y máximo de cada intervalo se indica la llamada marca de
clase, que es una referencia que se emplea para realizar ciertos cálculos y para la
representación gráfica. Lo habitual es tomar el valor central de cada intervalo.

3.- DIAGRAMAS DE BARRAS E HISTOGRAMAS

Las representaciones gráficas más usuales (y útiles) para este tipo de variables son, el
diagrama de barras para la cuantitativa discreta y la cualitativa, y el histograma para la
continua. La diferencia entre uno y otro es que en el histograma las barras no tienen
separación entre sí, debido al carácter continuo de la variable. En las figuras 1.5 y 1.6 se
pueden ver estas representaciones para las frecuencias absolutas. Una representación
equivalente, que mantiene la forma, es representar las frecuencias relativas. A la curva
que resulta de unir los centros de las barras se la llama polígono de frecuencias.

En la tabla de la variable estadística asociada, como se ha obtenido de medidas


reales, vas a tener frecuencias absoluta como cientos de miles o millones, números
muy grandes, difíciles de manejar, por lo que es mucho mejor manejarse con
frecuencias relativas. Los histogramas son propios de las variables continuas, es
decir, las barras van juntas; mientras que en las discretas se ven separadas.

DIAGRAMA DE BARRAS (SEPARADAS)

HISTOGRAMA (JUNTAS)

Cuando recogemos datos en un experimento, para una variable cuantitativa continua


surge el problema de cómo y cuántos intervalos es conveniente escoger, veamos un
ejemplo académico de esto. Hay que descartar los casos absurdos (un solo intervalo,
muchos intervalos).
Se realiza la raíz del número de los datos, y siempre se coge el número siguiente, es
decir, raíz de 12 es 3,5; por lo que tendríamos que coger 4 o 5 intervalos.

4.- MEDIDAS DE TENDENCIA CENTRAL

4.1.- MEDIA ARITMETICA

El propósito de la Estadística descriptiva es describir una variable estadística a través de


unos pocos parámetros que nos proporcionen información relevante. Esto supone,
inevitablemente, una pérdida de información al reducir todos los datos a dichos
parámetros. Por este motivo, es importante construir dichos parámetros de forma que la
información que nos proporcionen sea interpretable en términos sencillos. Las dos
clases de parámetros más importantes son las medidas de tendencia central y las
medidas de dispersión. De todas las medidas de tendencia central, la más importante es
la media aritmética, que se define como:

En el caso de una variable continua se tomarán para su cálculo las llamadas marcas de
clase, que son los valores centrales de cada intervalo.

4.2.- MODA

La segunda medida de tendencia central se llama moda, y es simplemente el valor de la


variable estadística cuya frecuencia es mayor. Esta es la única medida de tendencia
central que tiene sentido calcular para una variable cualitativa.

Para la tabla de la figura 1.4 (ejemplo 1.3) la moda sería el “Corte de las hojas”. En el
ejemplo 1.1 la moda sería 2, pero en el caso de una variable continua la cosa se
complica un poco:

Hay diferentes interpretaciones de la moda en este caso. La más simple consiste en


tomar la marca de clase del intervalo con mayor frecuencia. Nosotros usaremos una
definición más compleja y completa. Para ello, tomemos un nuevo ejemplo sencillo de
variable continua.
Se ha indicado el histograma de frecuencias absolutas (figura 1.9), para visualizar con
facilidad el siguiente razonamiento: Podemos ver que el intervalo modal sería (50, 75],
pero debido a la alta frecuencia del intervalo (75, 100], en comparación con el intervalo
a su izquierda (25, 50], es más lógico que la moda esté más cerca de 75 que de 50.

La forma más simple de tener esto en cuenta es, suponer que los datos están distribuidos
de un modo uniforme dentro del intervalo (esto es, nos imaginamos que han salido 100
valores numéricamente equiespaciados entre 50 y 75). Entonces, podemos calcular
donde debería caer la moda, teniendo en cuenta el “peso” (frecuencia absoluta) relativo
del intervalo de la derecha con respecto al “peso total” de los intervalos a izquierda y
derecha del intervalo modal.

Usando un poco de álgebra, llamemos al intervalo modal (L i−1, Li], y ni a su frecuencia


asociada. Entonces la moda sería:

Localizamos el iésimo intervalo (el modal): (Límite iésimo anterior, límite iésimo).

Una característica fundamental de la moda es que puede haber más de un valor modal.
Si en la distribución de frecuencias hay dos valores de la variable estadística con igual
frecuencia y mayor que la del resto de valores, ambos valores representan la moda de la
distribución.

4.3.- MEDIANA

La siguiente medida de tendencia central que vamos a ver es, en general, más
complicada de calcular que las dos anteriores; y lo más interesante de ella se obtiene al
ser comparada con la media aritmética. Hablamos de la mediana, definida como aquel
valor de la variable estadística tal que la mitad de los resultados están por debajo de ella.
Es decir, la mediana es el valor central en el sentido de que divide la distribución
en dos mitades.

Empezamos con el caso, considerablemente más simple, de una variable estadística


cuantitativa discreta. Tomemos por ejemplo el caso de una tabla como la que se muestra
en la figura 1.10.

El número total de observaciones (N), es 85, en este caso. Dividiendo entre 2: (N/2) =
42,5 y vemos que la mediana sería “uno de los unos” que se han obtenido. Esto es: Me
= 1. Ahora bien, hay un pequeño detalle que hay comentar al respecto, y es que el
resultado puede cambiar según sea el número de observaciones un número par o impar.
Esto es fácil de entender a través del siguiente dibujo.

En el dibujo de la izquierda N es un número impar (como en el ejemplo 1.7), así que


hay un valor central. En el caso de la derecha, N es par y dicho valor no está definido.
En este último caso, llamando xi y xi+1 a los dos valores centrales, sería:
Ejercicio:

¿Cuál es la edad mínima del 25% que más edad tiene? Hacer el tercer cuartil

¿Cuál es la edad máxima del 75% que menos edad tiene? Hacer el tercer cuartil

¿Cuál es la edad mínima del 75% que menos edad tiene? 0

¿Cuál es la edad máxima del 25% que más edad tiene? 100

También podría gustarte