Estadistica Descriptiva PDF

Estadística Descriptiva
Conceptos básicos
Estadística descriptiva: es considerada como una ciencia que permite analizar series de datos
asignadas a variables, con el propósito de extraer conclusiones sobre su comportamiento.
Dichas variables pueden ser:
Variables cualitativas: son aquellas que hacen referencia a un atributo y, por tanto no son medibles
matemáticamente, por ejemplo: el color de los ojos, el largo del cabello, la ciudad de nacimiento,
etc.
Variables cuantitativas: en este grupo se clasifican aquellas que se pueden medir matemáticamen-
te, por ejemplo: edad, salario, numero de hijos, etc.
Existen dos grupos dentro de las variables cuantitativas:
• Discretas: aquellas que guardan únicamente valores enteros, por ejemplo: número de hijos.
• Continuas: guardan valores decimales, por ejemplo: una fracción de tiempo.
Variables unidimensionales: guardan datos sobre una característica específica, por ejemplo:
el salario de los empleados de una empresa.
Variables bidimensionales: guardan datos sobre dos características, por ejemplo: el salario y

el cargo de los empleados de una empresa.
Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Variables pluridimensionales: guardan datos sobre tres o más características, por ejemplo:
el salario, el cargo y la antigüedad de los empleados de una empresa.
Individuo: se considera como cualquier elemento que aporta información sobre el objeto de
estudio. Por ejemplo, en el estudio del color de los ojos de los niños de un colegio, cada niño es un
individuo.
Población: representa el conjunto de individuos (personas, objetos, animales, etc.) que poseen
características comunes de acuerdo al objeto de estudio. Por ejemplo, en un estudio sobre el valor
de los arrendamientos en una zona determinada de Bogotá, la población está representada en el
total de viviendas alquiladas en dicho sector.
Muestra: la forman un subgrupo representativo de la población, es decir, en el caso del estudio

de las viviendas alquiladas, no es necesario realizar la labor con todas las viviendas, podemos elegir
una cantidad representativa de ellas para obtener resultados óptimos.

Medidas para el análisis de datos
Para realizar los cálculos, utilizaremos los datos recolectados de una muestra de 10 alemanes sobre
su consumo de café en kg durante el año 2011.
5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8
1. Media ( ): es el valor promedio de todos los datos recolectados en una muestra.
Para nuestro ejemplo:
Interpretamos que, en promedio, los alemanes toman 2.8 kg de café al año.
De manera general, utilizamos la fórmula:
Donde:
n es la cantidad de da tos recolectados y
xi es el valor de cada dato.

2. Mediana ( ): Es el valor que ocupa el lugar central de todos los datos cuando éstos es-
tán ordenados de menor a mayor.
Si la serie tiene un número impar de medidas, la mediana es la puntuación central de la misma.
2, 3, 4, 4, 5, 5, 5, 6, 6 ó Me= 5
Si la serie tiene un número par de medidas, la mediana es la media entre las dos puntuaciones

centrales. Para nuestro ejemplo: (Recordemos que tenemos 10 datos)
0.5, 1, 1.6, 2, 2.6, 3, 3.5 , 3.8, 5, 5 ó Me= 2,8
3. Moda (Mo): Es el valor que se repite el mayor número de veces en una serie de datos.
Para nuestro ejemplo:
5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8 La moda Mo = 5.
Si en una serie hay dos o varias puntuaciones con la misma frecuencia, y esa frecuencia es la

máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.
1, 1, 1, 2, 3, 4, 4, 5, 5, 5, 7, 8, 8, 9, 9, 9 Mo = 1, 5, 9
4. Desviación estándar: es la dispersión de los datos con respecto a la media.
Primero, calculamos las desviaciones de cada dato con respecto a la media y lo elevamos al cuadra-
do para que los negativos no anulen los demás.
Datos: 5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

Segundo, realizamos la sumatoria de todos las diferencias:
Por último, dividimos la sumatoria por el número de datos y calculamos su raíz cuadrada:
Se interpreta que los datos están alejados en promedio 1.47 kg de la media de consumo de café.
La formula para la desviación estándar es:
5. Coeficiente de variación: Al igual que la desviación estándar, ésta nos permite conocer
el grado de dispersión de los datos con respecto a la media, pero en este caso se aíslan las unidades
del análisis. Es especialmente útil para comparar la variación de diferentes muestras.
Para calcular el coeficiente de variación se necesitan los datos de la media y la desviación estándar.
Se interpreta que la muestra tiene una dispersión del 53%. La formula general está dada por:

Tablas de Frecuencias
ORDENAMIENTO DE DATOS
En los ejemplos anteriores realizamos fácilmente el análisis debido a que la cantidad de datos era
pequeña, pero cuando la cuantía de los datos es más grande, debemos organizarlos en una tabla que
facilite su tratamiento.
La elaboración de la tabla varía dependiendo del tipo de variable (cualitativa, cuantitativa discreta
y cuantitativa continua).
Además, mostraremos dos tipos de gráficos que brindan una herramienta visual para la interpretación.
Tabla de Frecuencias variable cualitativa
Los siguientes datos fueron recolectados a una muestra de 50 alemanes consumidores de café, acerca
de la procedencia del café que toman.

Brasil Indonesia Vietnam Brasil Brasil
Vietnam Indonesia Perú Vietnam Colombia
Colombia Colombia Colombia Colombia Indonesia
Indonesia Colombia Indonesia Indonesia Brasil
Perú Colombia Colombia Brasil Vietnam
Vietnam Perú Indonesia Vietnam Colombia

Colombia Brasil Brasil Indonesia Indonesia
Brasil Brasil Vietnam Brasil Brasil
Brasil Brasil Colombia Vietnam Vietnam

Brasil Vietnam Indonesia Indonesia Colombia
• Lo primero que debemos hacer es realizar un listado de los datos sin repeticiones.
Brasil Colombia Indonesia Perú Vietnam
• Luego, creamos una tabla donde la primera columna se llame datos y la rellenamos con el listado
anterior.
• Creamos una columna llamada frecuencia absoluta y colocamos la repeticiones de cada dato.
• Creamos una columna llamada frecuencia relativa en donde insertamos el peso porcentual de la fre-
cuencia de cada dato con respecto al total de la muestra.
Por ejemplo, Brasil aparece 14 veces (frecuencia absoluta) y su peso porcentual (frecuencia relativa) es:
Datos Frecuencia Adsoluta (fi) Frecuencia Relativa (hi)
Brasil 14 28%
Vietnam 10 20%
Colombia 12 24%
Indonesia 11 22%
Perú 3 6%
50 100%

Gráficos Tabla de Frecuencias
La primera gráfica que podemos utilizar es el histograma de frecuencias, dónde en el eje x se colocan los
datos y en el eje y la frecuencia absoluta de cada dato así:
Histograma de frecuencias sobre la

procedencia del café de Alemania
16
14
12
10
8
6
4
2
0
Brasil Vietnam Colombia Indonesia Perú
En el diagrama circular, se grafica la frecuencia relativa, de ésta manera podemos observar los pesos
porcentuales de los datos, y los calculamos al multiplicar la frecuencia relativa por 360.
Perú
6%
Brasil
28%
Indonesia
22%
Vietnam
20%
Colombia
24%

Tabla de frecuencias variable cuantitativa discreta
Los siguientes datos fueron recolectados de una muestra de 50 alemanes consumidores de café, sobre la
edad (en años) en que iniciaron el consumo de café.
18 21 18 22 15
21 19 24 18 30
15 18 20 19 21
24 20 21 20 22
19 15 18 21 24
19 30 21 20 19
22 21 15 20 18
18 22 24 19 24
19 24 19 18 20
20 19 19 20 21
• Lo primero que debemos hacer es realizar un listado ordenado de los datos sin repeticiones.
15 18 19 20 21 22 24 30
• Al igual que con la variable cualitativa, creamos las columnas datos, frecuencia absoluta y frecuencia
relativa.
• Luego, creamos una columna llamada frecuencia absoluta acumulada, en donde escribimos la suma
de la frecuencia absoluta de ese dato y los menores.
• Por último, añadimos una columna que se denomina frecuencia relativa acumulada y en ella consig-
namos la suma de la frecuencia relativa de ese dato y los menores.
Por ejemplo, la frecuencia absoluta acumulada de 19 años es:

22 = 4 + 8 + 10
y la frecuencia relativa acumulada es:
44% = 8% + 16% + 20%

Frecuencia Absoluta Frecuencia Frecuencia Absoluta Frecuencia Relativa
Datos(xi) (fi) Relativa(hi) Acumulada (Fi) Acumulada (Hi)
15 4 8% 4 8%
18 8 16% 12 24%
19 10 20% 22 44%
20 8 16% 30 60%
21 8 16% 38 76%
22 4 8 42 84%
24 6 12% 48 96%
30 2 4% 50 100%
50 100%
Ahora graficamos:
Histograma de frecuencias
sobre la edad inicial para el
12 consumo de café
10
0
15 18 19 20 21 22 24 30

Diagrama circular (con la frecuencia relativa de los datos)
30 15
24 4% 8%
12%
18
22 16%
8%
21
16% 19
20%
20
16%
Tabla de frecuencias variable cuantitativa continua
Los siguientes datos fueron recolectados de una muestra de 50 alemanes consumidores de café, acerca
de la cantidad de café (en kg) que toman durante un año.
3,6 4,11 2,8 1,3 3,4

2,5 4,8 0,4 2,2 2,2
4 1,7 4,1 3,6 2,6
0,2 2,6 2,9 1,7 3,4
3 3,4 3,4 2,6 2,8
2,2 3,8 2,86 0 3,5

5 2,1 3,1 3,4 4,2
1,6 4,3 4,4 5 2,9
1,9 2,7 1,7 2,6 3,02

2,8 3,5 2,4 1,9 1,4

• En este caso, realizar un listado de datos independiente no es eficiente, por que puede ser una can-
tidad muy grande de datos.
•
• Por lo anterior, lo mas aconsejable es colocar los datos en intervalos (cajones) para resumir al máxi-
mo el listado en la tabla.
•
• Para calcular la amplitud (tamaño) de los intervalos, calculamos el rango de la muestra y lo dividimos
por la cantidad de intervalos que se han definido.
En esta tabla, adicionaremos una columna denominada marca de clase que es el valor medio
del intervalo.
Frecuencia Ab-
Frecuencia Frecuencia Frecuencia Relati- Marca de
Intervalos soluta Acumulada
Absoluta (fi) Relativa(hi) va Acumulada (Hi) clase (yi)
(Fi)
0-1 3 6% 3 6% 0.5
1.01 - 2 8 16% 11 22% 1.5

2.01 - 3 18 36% 29 58% 2.5
3.01 - 4 13 26% 42 84% 3.5
4.01 - 5 8 16% 50 100% 4.5
50 100%
En el intervalo [1.01-2] se encuentran los valores de 1.3, 1.4, 1.6, 1.7, 1.7, 1.7, 1.9, 1.9.
Ahora graficamos los datos:

Histograma de frecuencias sobre
la cantidad de café que se
20
consume al año
18
16
14
12
10
8
6
4
2
0
0- 1 1.01 - 2 2.01 - 3 3.01 - 4 4.01 - 5
Diagrama circular (con la frecuencia relativa de los datos)
0-1
4.01 - 5 6%
16% 1.01 - 2
16%
3.01 - 4
26%
2.01 - 3
36%
El Muestreo

La definición más común es:
“El muestreo es una herramienta de investigación científica, cuya función básica es determinar qué
parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha población.
La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de

la mejor manera los rasgos de dicha población que sean importantes para la investigación. Para que una
muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas
en la población, es decir ejemplificar las características de ésta.” (Piccini, 2010)
Tipos de muestreo
Muestreo aleatorio Muestreo Muestreo Muestreo por
simple (M.A.S) sistematico estratificado conglomerados
Se tiene una lista de Consiste en dividir la

Se eligen individuos los individuos de la población total en un
de la población de población de estu- Consiste en estratificar numero determinado de
estudio, de manera dio. Si queremos una (o dividir) en un nume- subdivisiones relativa-
que todos tienes la muestra de un tamaño ro de sub poblaciones mente pequeñas, luego
misma probabilidad dad, elegimos individ- o estratos para luego se seleccionan al azar
de aparecer, hasta uos igualmenteespa- tomar una muestra de algunoas de estas, para
alcanzar el tamaño ciados de la list, cada uno de estos. incluirlas en la muestra
muestral deseado. donde elprimero ha general.
sido elegido al azar.
Fuentes consultadas:
http://www.vitutor.com/estadistica/descriptiva/a_1.html
http://www.aulafacil.com/CursoEstadistica/Lecc-1-est.htm
http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf
http://lorena-mercadeo.blogspot.com/2009/05/estadistica.html

Estadistica Descriptiva PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Descriptiva PDF

Cargado por

Copyright:

Formatos disponibles

Estadística Descriptiva

Dichas variables pueden ser:

Existen dos grupos dentro de las variables cuantitativas:

• Continuas: guardan valores decimales, por ejemplo: una fracción de tiempo.

Variables bidimensionales: guardan datos sobre dos características, por ejemplo: el salario y

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Muestra: la forman un subgrupo representativo de la población, es decir, en el caso del estudio

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

1. Media ( ): es el valor promedio de todos los datos recolectados en una muestra.

Para nuestro ejemplo:

Interpretamos que, en promedio, los alemanes toman 2.8 kg de café al año.

De manera general, utilizamos la fórmula:

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Si la serie tiene un número impar de medidas, la mediana es la puntuación central de la misma.

Si la serie tiene un número par de medidas, la mediana es la media entre las dos puntuaciones

Para nuestro ejemplo:

5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8 La moda Mo = 5.

Si en una serie hay dos o varias puntuaciones con la misma frecuencia, y esa frecuencia es la

4. Desviación estándar: es la dispersión de los datos con respecto a la media.

Datos: 5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

La formula para la desviación estándar es:

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Vietnam Perú Indonesia Vietnam Colombia

Brasil Brasil Colombia Vietnam Vietnam

Brasil Colombia Indonesia Perú Vietnam

Datos Frecuencia Adsoluta (fi) Frecuencia Relativa (hi)

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Histograma de frecuencias sobre la

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Por ejemplo, la frecuencia absoluta acumulada de 19 años es:

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

3,6 4,11 2,8 1,3 3,4

2,2 3,8 2,86 0 3,5

1,9 2,7 1,7 2,6 3,02

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

1.01 - 2 8 16% 11 22% 1.5

Ahora graficamos los datos:

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

Diagrama circular (con la frecuencia relativa de los datos)

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de

Se tiene una lista de Consiste en dividir la

Servicio Nacional de Aprendizaje - SENA. Reservados todos los derechos 2012.

También podría gustarte