Está en la página 1de 14

ESTADÍSTICA

Estadística. Nociones Generales


Población es el conjunto de elementos sobre el que se realiza un estudio
estadístico.
Muestra es la parte de la población que estudiamos. Su tamaño es el número de
elementos que la forman.
Individuo es cada uno de los elementos de la población o de la muestra.
Caracteres y variables: Carácter es un aspecto que deseamos estudiar en los
individuos de una población. Cada carácter puede tomar distintos valores o
modalidades. Una variable estadística recorre todos los valores de un cierto
carácter.
Clasificación de las variables estadísticas:
- Cualitativas: No toman valores numéricos. Los valores que toman son
cualidades. Por ejemplo: color de los ojos, sexo, etc.
- Cuantitativas Discretas: Toman valores numéricos aislados. En cada
intervalo, la variable sólo puede tomar un número finito de valores. Por
ejemplo: el número de hermanos. Entre 1 y 4 sólo puedo tener 2 o 3
hermanos, pero no 2,5 hermanos.
- Cuantitativas Continuas: Pueden tomar todos los valores de un intervalo. Por
ejemplo: la altura entre 1,70 m y 1,90 m puede ser 1,71 m, 1,715 m, 1,863 m,
etc.

Ramas de la Estadística
 La Estadística Descriptiva trata de “describir” y analizar algunos caracteres de
los individuos de un grupo dado, sin extraer conclusiones para un grupo mayor.
Para este estudio, se siguen los siguientes pasos:
1 - Selección de caracteres que interese estudiar.
2 - Análisis de cada carácter, anotando los valores que toman los individuos
en ellos.
3 - Clasificación y organización de los resultados obtenidos en tablas de
frecuencias. Elaboración de gráficos, si conviene, para su divulgación.
4 - Cálculo de los parámetros estadísticos a partir de los datos obtenidos.
Los parámetros estadísticos son valores numéricos que resumen la
información obtenida.
 La Estadística Diferencial trabaja con muestras y pretende, a partir de ellas,
“inferir” características de toda la población. Es decir, se pretende tomar como
generales, propiedades que solo se han verificado para casos particulares. En
ese proceso hay que operar con mucha cautela: ¿Cómo se elige la muestra?,
¿Qué grado de confianza se puede tener en el resultado obtenido?

Tablas de Frecuencias
Tablas con Datos Aislados
Las tablas de frecuencias sirven para ordenar y organizar los datos estadísticos.
Con ellas, una masa amorfa de datos pasa a ser una colección ordenada y
perfectamente inteligible.
Con los datos se construye la tabla de frecuencias:
- En la primera columna, la variable x i , con todos sus

posibles valores
- En la segunda columna, la correspondiente frecuencia, f i

(número de veces que aparece cada valor).

Tablas con Datos Agrupados en Intervalos


Cuando en una distribución estadística el número de valores que toma la variable
es muy grande, conviene elaborar una tabla de frecuencias agrupándolos en
intervalos. Para ello:
 Se localizan los valores extremos, a y b, y se halla su diferencia, r  b  a
 Se decide el número de intervalos que se quiere formar, teniendo en cuenta la
cantidad de datos que se poseen. El número de intervalos no debe ser inferior
a 6 ni superior a 15.
 Se toma un intervalo, r ' , de longitud algo mayor que el recorrido r y que sea
múltiplo del número de intervalos, con objeto de que estos tengan una longitud
entera.
 Se forman los intervalos de modo que el extremo inferior del primero sea algo
menor que a y el extremo superior del último sea algo superior a b. Es
deseable que los extremos de los intervalos no coincidan con ninguno de los
datos. Para eso, conviene que los extremos de los intervalos tengan una cifra
decimal más que los datos.
El punto medio de cada intervalo se llama marca de clase. Es el valor que
representa a todo el intervalo para el cálculo de algunos parámetros.
Cuando se elabora una tabla con datos agrupados, se pierde algo de
información, pues en ella se ignora cada valor concreto, que se difumina dentro
de un intervalo. A cambio, se gana en claridad y eficacia.
Ejemplo: Elabora una tabla de frecuencias con los siguientes datos:

11, 77, 23, 50, 29, 34, 72, 39, 65, 21, 14, 32, 46, 61, 56, 44, 21, 64,
97, 93, 12, 80, 40, 89, 18, 27, 31, 41, 70, 62, 87, 27, 86, 16, 48, 35,
63, 58, 47, 25, 61, 83, 94, 19, 94, 93, 46, 85, 33, 49, 86, 17, 28, 84,
30, 71, 57, 22, 61, 37, 51, 19, 56, 66, 25, 48, 93, 66, 91, 79, 18, 31

Valores extremos: 11 y 97  r  97  11  86

Tomamos, por ejemplo, 8 intervalos. Tomamos r' 88 , que es mayor


que el recorrido r y es múltiplo de 8 (número de intervalos). Cada
88
intervalo tendrá una longitud de  11.
8
El primer intervalo será [10.5, 21.5) y el último [87.5, 98.5) .

Intervalo Marca de Clase Frecuencia


[10.5, 21.5) 16 11
[21.5, 32.5) 27 12
[32.5, 43.5) 38 7
[ 43.5, 54.5) 49 9
[54.5, 65.5) 60 11
[65.5, 76.5) 71 5
[76.5, 87.5) 82 9
[87.5, 98.5) 93 8
Distribuciones Estadísticas
 Gráficos para Variables Cuantitativas Discretas
- Diagrama de barras
En el eje de las X se representan los valores de la variable.
En el eje de las Y se representan los valores de la frecuencia: fi , fri ó %i
Se levanta para cada valor de la X una barra que representa la frecuencia de
dicho valor.
Las barras se representan separadas unas de otras y con los valores de la
variable en el medio de la barra.

frecuencias absolutas frecuencias relativas

Si unimos mediante una poligonal los


puntos más altos de cada barra
obtenemos el polígono de
frecuencias.

- Diagrama de barras acumuladas


Como en los diagramas de barras pero
en el eje Y se toman los valores de las
frecuencias acumuladas ( Fi , Fr i ó
%i acumulados)
Si unimos mediante una poligonal los
puntos más altos de cada barra
obtenemos el polígono de frecuencias
acumuladas.
- Diagrama de sectores
Se dibuja un círculo y los porcentajes correspondientes a cada valor (Para
dibujar los sectores conviene hacerlo a partir del % acumulado, pues facilita
el trabajo)

1
3
4
2

 Gráficos para Variables Cuantitativas Continuas


Si todos los intervalos tienen la misma amplitud
- Histograma
En el eje de las X se representan los
valores de la variable.
En el eje de las Y se representan los
valores de la frecuencia: fi , fri ó %i
Se levanta para cada valor del
intervalo de la X un rectángulo de
altura la frecuencia de dicho intervalo.

Si unimos mediante una poligonal los


puntos medios más altos de cada uno
de dichos rectángulos obtenemos el
polígono de frecuencias.
- Diagrama de barras acumuladas
En el eje de las X se representan los valores de la variable.
En el eje de las Y se representan los valores de la frecuencia acumulada:
Fi , Fr i ó %i acumulados.
Se levanta para cada valor del
intervalo de la X un rectángulo de
altura la frecuencia acumulada de
dicho valor.
Si unimos mediante una poligonal las
diagonales de dichos rectángulos
obtenemos el polígono de
frecuencias acumuladas.

- Diagrama de sectores
Como en las cualitativas.

Si los intervalos no son todos de la misma amplitud


- En los histogramas, en el eje de las Y, en vez de representar la frecuencia
fi
se representa la densidad de frecuencia: di  , siendo a i la amplitud de
ai

dicho intervalo, para que así la frecuencia coincida con el área del
rectángulo.
Ejemplo: En la siguiente tabla se muestra las calificaciones (suspenso,
aprobado, notable y sobresaliente) obtenidas por un grupo de 39
alumnos.
fi
fi di 
ai

10
[0, 5) 10 di  2
5
16
[5, 7) 16 di  8
2
8
[7, 9) 8 di  4
2
5
[9,10) 5 di  5
1
- Los histogramas acumulados y los diagramas de sectores igual que
antes.
 Gráficos para Variables Cualitativas
- Diagrama de barras y Polígono de Frecuencias como en las Cuantitativas
Discretas.
- Diagrama de sectores como en las Cuantitativas Discretas.

Parámetros Estadísticos
Los parámetros estadísticos sirven para sintetizar la información dada por una
tabla.
Son de tres tipos:
- Parámetros de Centralización: nos indican alrededor de qué valor (centro) se
distribuyen los datos. Son de este tipo la Media, la Mediana y la Moda.
- Parámetros de Dispersión: nos informan de la concentración o dispersión de
los datos respecto de los parámetros de centralización. Son de este tipo el
Rango, la Desviación Media, la Varianza, la Desviación Típica y el
Coeficiente de Variación.
- Parámetros de Posición: Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos. Son de este tipo los Cuartiles, los Deciles
y los Percentiles.

_
Cálculo de la Media x y de la Desviación Típica 
n

_
f
i1
i ·x i
Media: x 
N

 f ·x 
n n

i1
i i x
2
f
i1
i ·x i
2

Varianza:  2   x 2

N N

Desviación Típica: σ σ2


Coeficiente de Variación: CV 
x

_
Interpretación de la Media x y de la Desviación Típica 
La media se puede considerar como el centro de gravedad de una distribución.
Expresada de forma más intuitiva, podemos decir que la media (aritmética) es la
cantidad total de la variable distribuida a partes iguales entre cada observación.
La desviación típica nos dice como de alejados de la media, como de dispersos,
se encuentran los datos.
Observa la siguiente familia de distribuciones. Todas ellas tienen la misma
media. Sus desviaciones típicas, en cambio, son distintas:

En la 1ª, todos los valores están acumulados en la media. Su desviación típica es


cero (no hay dispersión).
Al pasar a la 2ª aumenta la dispersión, pues algunos individuos están separados
de la media.
En general, para pasar de cada una a la siguiente, algunos individuos se alejan
de la media y, por lo tanto, aumenta la dispersión.

Parámetros de Posición para Datos Aislados


Mediana y Cuartiles
Si los individuos de una población están colocados en orden creciente según la
variable que estudiamos y partimos la población en 4 partes con el mismo
número de individuos, los puntos de separación son los cuartiles y la mediana.
Primer Cuartil o Cuartil inferior: Q 1 , es el valor de la variable en el cual o por

debajo del cual queda el 25% de todos los valores de la población.


Mediana: Me, es el valor de la variable en el cual o por debajo del cual queda el
50% de todos los valores de la población. La mediana coincidiría con el Segundo
Cuartil.
Tercer Cuartil o Cuartil superior: Q 3 , es el valor de la variable en el cual o por

debajo del cual queda el 75% de los datos.


Percentiles (o Centiles)
Si partimos la población en 100 partes iguales y señalamos el lugar que deja por
debajo a k de ellas, el valor de la variable correspondiente a ese lugar se designa
por p k y se denomina percentil k o centil k.

La media es Me  p 50 y los cuartiles Q 1  p 25 , Q 3  p 75 .

Frecuencias Acumuladas
En una distribución de frecuencias, se llama frecuencia acumulada, F i ,

correspondiente al valor i-ésimo, x i , a la suma de la frecuencia de ese valor con


i
todas las anteriores: Fi  f 1  f 2  f 3  ...  f i  f
j1
j

La frecuencia acumulada nos sirve para calcular la mediana, los cuartiles y los
percentiles.
Obtención de Percentiles en Tablas de Frecuencias
Para determinar el percentil p k en una tabla de frecuencias, se obtienen las

frecuencias acumuladas y se expresan en %. El percentil p k es el valor para el

cual la frecuencia acumulada correspondiente supera el k% .


En el caso en que una de ellas coincida con k% , se toma como p k el valor

intermedio entre ese y el siguiente (la semisuma).


Ejemplo: Calcula la mediana, los cuartiles y los percentiles p 20 y p 40 en la

siguiente distribución: 0, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 7, 7, 8, 8, 9, 10, 10, 10

xi fi Fi En %
0 1 1 5,26
1 1 2 10,53
2 2 4 21,05
3 1 5 26,32
4 1 6 31,58
5 3 9 47,37
6 2 11 57,89
7 2 13 68,42
8 2 15 78,95
9 1 16 84,21
10 3 19 100
Me  p 50  6 porque para x i  6 , la F i supera el 50%

Q 1  p 25  3 porque para x i  3 , la F i supera el 25%

Q 3  p 75  8 porque para x i  8 , la F i supera el 75%

p 20  2 porque para x i  2 , la F i supera el 20%

p 40  5 porque para x i  5 , la F i supera el 40%

Ejemplo: Calcula la mediana, los cuartiles y los percentiles p 35 y p 89 en la

siguiente distribución:
0, 1, 2, 2, 4, 5, 5, 5, 6, 7, 7, 8, 8, 9, 10, 10

xi fi Fi En %

0 1 1 6,25
1 1 2 12,5
2 2 4 25
4 1 5 31,25
5 3 8 50
6 1 9 56,25
7 2 11 68,75
8 2 13 81,25
9 1 14 87,5
10 2 16 100

56
Me  p 50   5,5 porque para x i  5 , la F i iguala el 50%. Por lo
2
tanto, tomamos como Me el valor intermedio entre 5 y 6.
2 4
Q 1  p 25   3 porque para x i  2 , la F i iguala el 25%. Por lo
2
tanto, tomamos como Q 1 el valor intermedio entre 2 y 4.

Q 3  p 75  8 porque para x i  8 , la F i supera el 75%

p 35  5 porque para x i  5 , la F i supera el 35%

p 89  10 porque para x i  10 , la F i supera el 89%


Medidas de Posición en Distribuciones con Datos Agrupados en Intervalos
En las tablas de frecuencias con datos agrupados en intervalos se ha perdido el
valor concreto de cada individuo. Para saber dónde está la mediana o un
determinado percentil se utiliza el siguiente convenio:
En una tabla de frecuencias con datos agrupados en intervalos, suponemos
que los datos de cada intervalo se reparten uniformemente en él.
Según esto, los valores de las frecuencias acumuladas deben asignarse a
los extremos superiores de los intervalos, pues es al final de cada intervalo
cuando se han contabilizado todos los individuos.
Su representación gráfica se consigue mediante el llamado polígono de
frecuencias acumuladas que veremos a continuación.

Polígono de Frecuencias Acumuladas


Si consideramos que la totalidad de los individuos van apareciendo en un flujo
continuo con una rapidez que varía en cada intervalo dependiendo del número de
individuos, f i , que hay en él, la representación gráfica de este proceso es el

polígono de frecuencias acumuladas:


En cada intervalo la gráfica crece uniformemente y experimenta un aumento
igual a f i .

Si en lugar de frecuencias utilizamos porcentajes, podremos hablar de polígono


de porcentajes acumulados.

Cálculo de Percentiles a partir del Polígono de Porcentajes Acumulados


Partiendo del polígono de porcentajes acumulados se puede obtener
gráficamente cualquier percentil de una distribución.
Para calcular un percentil p k se señala el porcentaje correspondiente, k, en el

eje graduado de 0 a 100. Se busca, mediante una paralela al eje X, el punto


correspondiente del polígono. Desde este punto, se baja al eje de abscisas,
donde se localiza el punto p k .

Ahora no hay más que leer este punto sobre el eje X, teniendo en cuenta la
escala de ese eje.
Para calcular numéricamente, de forma exacta, el valor de p k , no hay más que

razonar adecuadamente con los valores del intervalo correspondiente y aplicar


una semejanza de triángulos.
Ejemplo: Halla numéricamente la mediana y Q 1 en la siguiente distribución:

Intervalo [0,10] [10,20] [20,30] [30,40] [40,50]


fi 9 47 39 13 22

Construimos el polígono de frecuencias acumuladas:

Extremos Fi %

0 0 0
10 9 6,9
20 56 43,1
30 95 73,1
40 108 83,1
50 130 100
Obtenemos el valor exacto de la Mediana razonando sobre el polígono
de frecuencias:
73,1  43,1 50  43,1 30 6,9 69
   x  x  2,3
30  20 x 10 x 30
Me  20  2,3  22,3
Razonamos de idéntica forma para obtener el valor exacto de Q 1

43,1  6,9 25  6,9 36,2 18,1 181


   x  x5
20  10 x 10 x 36,2
Q 1  10  5  15

Interpretación de las Medidas de Posición. Diagrama de Caja


Diagrama de Caja y Bigotes
Se construyen del siguiente modo:
 La caja abarca el intervalo Q 1 , Q 3 (llamado recorrido intercuartílico) y en

ella se señala expresamente el valor de la Mediana, Me.


 Los bigotes se trazan hasta abarcar la totalidad de los individuos, con la
condición de que cada lado no se alargue más de una vez y media la longitud
de la caja.
 Si uno (o más) de los individuos quedara por debajo o por encima de esta
longitud, el correspondiente bigote se dibujará con esa limitación y se
añadiría, mediante asterisco, el individuo en el lugar que le corresponde. Por
ejemplo:

Los diagramas de caja son especialmente útiles para efectuar comparaciones


entre distribuciones.
Ejemplo: Representa en un diagrama de caja la siguiente distribución de
frecuencias que representan la edad de un colectivo de 20 personas:
36, 25, 37, 24, 39, 20, 36, 45, 31, 31
39, 24, 29, 23, 41, 40, 33, 24, 34, 40
Lo primero que debemos hacer es ordenar la distribución:
20, 23, 24, 24, 24, 25, 29, 31, 31, 33
34, 36, 36, 37, 39, 39, 40, 40, 41, 45
Ahora calculamos los cuartiles:
N
Como N  20 ,  5 y, por tanto, Q 1 es la media aritmética del 5º y
4
24  25
6º valor: Q 1   24,5
2
N
Como N  20 ,  10 y, por tanto, Me es la media aritmética del 10º y
2
33  34
11º valor: Me   33,5
2
3N
Como N  20 ,  15 y, por tanto, Q 3 es la media aritmética del 15º
4
39  39
y 16º valor: Q 3   39
2
Ahora dibujamos la caja y los bigotes:

También podría gustarte