Está en la página 1de 14

Estadística Descriptiva

Conceptos básicos

Estadística descriptiva: es considerada como una ciencia que permite analizar series de datos
asignadas a variables, con el propósito de extraer conclusiones sobre su comportamiento.

Dichas variables pueden ser:

Variables cualitativas: son aquellas que hacen referencia a un atributo y, por tanto no son medibles
matemáticamente, por ejemplo: el color de los ojos, el largo del cabello, la ciudad de nacimiento,
etc.

Variables cuantitativas: en este grupo se clasifican aquellas que se pueden medir matemáticamen-
te, por ejemplo: edad, salario, numero de hijos, etc.

Existen dos grupos dentro de las variables cuantitativas:

• Discretas: aquellas que guardan únicamente valores enteros, por ejemplo: número de hijos.

• Continuas: guardan valores decimales, por ejemplo: una fracción de tiempo.

Variables unidimensionales: guardan datos sobre una característica específica, por ejemplo:
el salario de los empleados de una empresa.

Variables bidimensionales: guardan datos sobre dos características, por ejemplo: el salario y


el cargo de los empleados de una empresa.

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


Variables pluridimensionales:  guardan datos sobre tres o más características, por ejemplo:
el salario, el cargo y la antigüedad de los empleados de una empresa.

Individuo: se considera como cualquier elemento que aporta información sobre el objeto de
estudio. Por ejemplo, en el estudio del color de los ojos de los niños de un colegio, cada niño es un
individuo.

Población:  representa el conjunto de individuos (personas, objetos, animales, etc.) que poseen
características comunes de acuerdo al objeto de estudio. Por ejemplo, en un estudio sobre el valor
de los arrendamientos en una zona determinada de Bogotá, la población está representada en el
total de viviendas alquiladas en dicho sector.

Muestra: la forman un subgrupo representativo de la población, es decir, en el caso del estudio


de las viviendas alquiladas, no es necesario realizar la labor con todas las viviendas, podemos elegir
una cantidad representativa de ellas para obtener resultados óptimos.

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


Estadística Descriptiva
Medidas para el análisis de datos

Para realizar los cálculos, utilizaremos los datos recolectados de una muestra de 10 alemanes sobre
su consumo de café en kg durante el año 2011.

5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

1. Media ( ): es el valor promedio de todos los datos recolectados en una muestra.

Para nuestro ejemplo:

Interpretamos que, en promedio, los alemanes toman 2.8 kg de café al año.

De manera general, utilizamos la fórmula:

Donde:
n es la cantidad de da tos recolectados y
xi es el valor de cada dato.

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


2. Mediana ( ): Es el valor que ocupa el lugar central de todos los datos cuando éstos es-
tán ordenados de menor a mayor.

Si la serie tiene un número impar de medidas, la mediana es la puntuación central de la misma.

2, 3, 4, 4, 5, 5, 5, 6, 6 ó Me= 5

Si la serie tiene un número par de medidas, la mediana es la media entre las dos puntuaciones


centrales. Para nuestro ejemplo: (Recordemos que tenemos 10 datos)
0.5, 1, 1.6, 2, 2.6, 3, 3.5 , 3.8, 5, 5 ó Me= 2,8

3. Moda (Mo): Es el valor que se repite el mayor número de veces en una serie de datos.

Para nuestro ejemplo:

5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8 La moda Mo = 5.

Si en una serie hay dos o varias puntuaciones con la misma frecuencia, y esa frecuencia es la


máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.

1, 1, 1, 2, 3, 4, 4, 5, 5, 5, 7, 8, 8, 9, 9, 9 Mo = 1, 5, 9

4. Desviación estándar: es la dispersión de los datos con respecto a la media.

Primero, calculamos las desviaciones de cada dato con respecto a la media y lo elevamos al cuadra-
do para que los negativos no anulen los demás.

Datos: 5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


Segundo, realizamos la sumatoria de todos las diferencias:

Por último, dividimos la sumatoria por el número de datos y calculamos su raíz cuadrada:

Se interpreta que los datos están alejados en promedio 1.47 kg de la media de consumo de café.

La formula para la desviación estándar es:

5. Coeficiente de variación: Al igual que la desviación estándar, ésta nos permite conocer
el grado de dispersión de los datos con respecto a la media, pero en este caso se aíslan las unidades
del análisis. Es especialmente útil para comparar la variación de diferentes muestras.

Para calcular el coeficiente de variación se necesitan los datos de la media y la desviación estándar.

Se interpreta que la muestra tiene una dispersión del 53%. La formula general está dada por:

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


Estadística Descriptiva
Tablas de Frecuencias

ORDENAMIENTO DE DATOS

En los ejemplos anteriores realizamos fácilmente el análisis debido a que la cantidad de datos era
pequeña, pero cuando la cuantía de los datos es más grande, debemos organizarlos en una tabla que
facilite su tratamiento.

La elaboración de la tabla varía dependiendo del tipo de variable (cualitativa, cuantitativa discreta
y cuantitativa continua).

Además, mostraremos dos tipos de gráficos que brindan una herramienta visual para la interpretación.

Estadística Descriptiva
Tabla de Frecuencias variable cualitativa

Los siguientes datos fueron recolectados a una muestra de 50 alemanes consumidores de café, acerca
de la procedencia del café que toman.

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


Brasil Indonesia Vietnam Brasil Brasil
Vietnam Indonesia Perú Vietnam Colombia
Colombia Colombia Colombia Colombia Indonesia
Indonesia Colombia Indonesia Indonesia Brasil
Perú Colombia Colombia Brasil Vietnam

Vietnam Perú Indonesia Vietnam Colombia


Colombia Brasil Brasil Indonesia Indonesia
Brasil Brasil Vietnam Brasil Brasil

Brasil Brasil Colombia Vietnam Vietnam


Brasil Vietnam Indonesia Indonesia Colombia

• Lo primero que debemos hacer es realizar un listado de los datos sin repeticiones.

Brasil Colombia Indonesia Perú Vietnam

• Luego, creamos una tabla donde la primera columna se llame datos y la rellenamos con el listado
anterior.
• Creamos una columna llamada frecuencia absoluta y colocamos la repeticiones de cada dato.
• Creamos una columna llamada frecuencia relativa en donde insertamos el peso porcentual de la fre-
cuencia de cada dato con respecto al total de la muestra.

Por ejemplo, Brasil aparece 14 veces (frecuencia absoluta) y su peso porcentual (frecuencia relativa) es:

Datos Frecuencia Adsoluta (fi) Frecuencia Relativa (hi)

Brasil 14 28%

Vietnam 10 20%

Colombia 12 24%

Indonesia 11 22%

Perú 3 6%
50 100%

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


Estadística Descriptiva
Gráficos Tabla de Frecuencias

La primera gráfica que podemos utilizar es el histograma de frecuencias, dónde en el eje x se colocan los
datos y en el eje y la frecuencia absoluta de cada dato así:

Histograma  de  frecuencias  sobre  la  


procedencia  del  café  de  Alemania  
16  

14  

12  

10  

8  

6  

4  

2  

0  
Brasil   Vietnam   Colombia   Indonesia   Perú  

En el diagrama circular, se grafica la frecuencia relativa, de ésta manera podemos observar los pesos
porcentuales de los datos, y los calculamos al multiplicar la frecuencia relativa por 360.

Perú  
6%  

Brasil  
28%  
Indonesia  
22%  

Vietnam  
20%  

Colombia  
24%  

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


Estadística Descriptiva
Tabla de frecuencias variable cuantitativa discreta

Los siguientes datos fueron recolectados de una muestra de 50 alemanes consumidores de café, sobre la
edad (en años) en que iniciaron el consumo de café.

18 21 18 22 15
21 19 24 18 30
15 18 20 19 21
24 20 21 20 22
19 15 18 21 24

19 30 21 20 19
22 21 15 20 18
18 22 24 19 24

19 24 19 18 20
20 19 19 20 21

• Lo primero que debemos hacer es realizar un listado ordenado de los datos sin repeticiones.

15 18 19 20 21 22 24 30

• Al igual que con la variable cualitativa, creamos las columnas datos, frecuencia absoluta y frecuencia
relativa.

• Luego, creamos una columna llamada frecuencia absoluta acumulada, en donde escribimos la suma
de la frecuencia absoluta de ese dato y los menores.

• Por último, añadimos una columna que se denomina frecuencia relativa acumulada y en ella consig-
namos la suma de la frecuencia relativa de ese dato y los menores.

Por ejemplo, la frecuencia absoluta acumulada de 19 años es:


22 = 4 + 8 + 10
y la frecuencia relativa acumulada es:
44% = 8% + 16% + 20%

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


Frecuencia Absoluta Frecuencia Frecuencia Absoluta Frecuencia Relativa
Datos(xi) (fi) Relativa(hi) Acumulada (Fi) Acumulada (Hi)
15 4 8% 4 8%

18 8 16% 12 24%
19 10 20% 22 44%
20 8 16% 30 60%
21 8 16% 38 76%
22 4 8 42 84%
24 6 12% 48 96%
30 2 4% 50 100%
50 100%

Estadística Descriptiva
Gráficos Tabla de Frecuencias

Ahora graficamos:
Histograma de frecuencias
sobre la edad inicial para el
12 consumo de café
10

0
15 18 19 20 21 22 24 30

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


Diagrama circular (con la frecuencia relativa de los datos)

30 15
24 4% 8%
12%
18
22 16%
8%

21
16% 19
20%
20
16%

Estadística Descriptiva
Tabla de frecuencias variable cuantitativa continua

Los siguientes datos fueron recolectados de una muestra de 50 alemanes consumidores de café, acerca
de la cantidad de café (en kg) que toman durante un año.

3,6 4,11 2,8 1,3 3,4


2,5 4,8 0,4 2,2 2,2
4 1,7 4,1 3,6 2,6
0,2 2,6 2,9 1,7 3,4
3 3,4 3,4 2,6 2,8

2,2 3,8 2,86 0 3,5


5 2,1 3,1 3,4 4,2
1,6 4,3 4,4 5 2,9

1,9 2,7 1,7 2,6 3,02


2,8 3,5 2,4 1,9 1,4

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


• En este caso, realizar un listado de datos independiente no es eficiente, por que puede ser una can-
tidad muy grande de datos.

• Por lo anterior, lo mas aconsejable es colocar los datos en intervalos (cajones) para resumir al máxi-
mo el listado en la tabla.

• Para calcular la amplitud (tamaño) de los intervalos, calculamos el rango de la muestra y lo dividimos
por la cantidad de intervalos que se han definido.

En esta tabla, adicionaremos una columna denominada marca de clase que es el valor medio
del intervalo.

Frecuencia Ab-
Frecuencia Frecuencia Frecuencia Relati- Marca de
Intervalos soluta Acumulada
Absoluta (fi) Relativa(hi) va Acumulada (Hi) clase (yi)
(Fi)
0-1 3 6% 3 6% 0.5

1.01 - 2 8 16% 11 22% 1.5


2.01 - 3 18 36% 29 58% 2.5
3.01 - 4 13 26% 42 84% 3.5
4.01 - 5 8 16% 50 100% 4.5
50 100%

En el intervalo [1.01-2] se encuentran los valores de 1.3, 1.4, 1.6, 1.7, 1.7, 1.7, 1.9, 1.9.

Estadística Descriptiva
Gráficos Tabla de Frecuencias

Ahora graficamos los datos:

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


Histograma de frecuencias sobre
la cantidad de café que se
20
consume al año
18
16
14
12
10
8
6
4
2
0
0- 1 1.01 - 2 2.01 - 3 3.01 - 4 4.01 - 5

Diagrama circular (con la frecuencia relativa de los datos)

0-1
4.01 - 5 6%
16% 1.01 - 2
16%

3.01 - 4
26%
2.01 - 3
36%

Estadística Descriptiva
El Muestreo

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.


La definición más común es:

“El muestreo es una herramienta de investigación científica, cuya función básica es determinar qué
parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha población.

La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de


la mejor manera los rasgos de dicha población que sean importantes para la investigación. Para que una
muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas
en la población, es decir ejemplificar las características de ésta.” (Piccini, 2010)

Tipos de muestreo
Muestreo aleatorio Muestreo Muestreo Muestreo por
simple (M.A.S) sistematico estratificado conglomerados

Se tiene una lista de Consiste en dividir la


Se eligen individuos los individuos de la población total en un
de la población de población de estu- Consiste en estratificar numero determinado de
estudio, de manera dio. Si queremos una (o dividir) en un nume- subdivisiones relativa-
que todos tienes la muestra de un tamaño ro de sub poblaciones mente pequeñas, luego
misma probabilidad dad, elegimos individ- o estratos para luego se seleccionan al azar
de aparecer, hasta uos igualmenteespa- tomar una muestra de algunoas de estas, para
alcanzar el tamaño ciados de la list, cada uno de estos. incluirlas en la muestra
muestral deseado. donde elprimero ha general.
sido elegido al azar.

Fuentes consultadas:

http://www.vitutor.com/estadistica/descriptiva/a_1.html

http://www.aulafacil.com/CursoEstadistica/Lecc-1-est.htm

http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf

http://lorena-mercadeo.blogspot.com/2009/05/estadistica.html

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

También podría gustarte